SISTEM PENGENDALIAN DAN MONITORING PERALATAN RUMAH …
Transcript of SISTEM PENGENDALIAN DAN MONITORING PERALATAN RUMAH …
SISTEM PENGENDALIAN DAN MONITORING PERALATAN
RUMAH TANGGA JARAK JAUH DENGAN METODE
PENGENALAN WICARA
Oleh
SRI UTAMI
JURUSAN TEKNIK KONVERSI ENERGI
POLITEKNIK NEGERI BANDUNG
BANDUNG
2012
Bab 1 Pendahuluan
ii
ABSTRAK
Pada penelitian ini di implementasikan pengenalan wicara untuk mengontrol dan memonitoring peralatan rumah
tangga Proses kontrol dilakukan kontrol jarak jauh yaitu dari PC client ke PC server Sistem ini mempunyai sifat dependent
speaker Dalam sistem ini terdiri dari beberapa proses pengambilan sinyal sampling frame windowing LPC (Linear
Prediction Code) Proses-proses tersebut dinamakan sebagai proses ekstraksi Setelah itu dilakukan proses Dynamic Time
Warping (DTW) Proses DTW ini untuk memadankan sinyal masukan dengan sinyal standart
Proses ekstraksi dan DTW dilakukan pada PC client Hasil dari DTW dikirimkan ke PC server untuk mengontrol
alat yang diinginkan Setelah alat terkontrol perangkat keras akan memberikan balikan (feedback) ke PC server PC server
akan mengirimkannya ke PC clientDari PC client ini kita dapat selalu mengetahui kondisi peralatan yang dikontrol
Alat yang dikontrol adalah lampu sebanyak empat buah Perintah yang digunakan sebanyak delapan yaitu satu
nyala satu mati dua nyala dua mati tiga nyala tiga mati empat nyala empat mati Sistem yang dibangun mempunyai
prosentase kebenaran rata-rata 100 untuk pengucap standart (pengucap yang suaranya dipakai sebgai standart) dan
prosentase kebenaran rata-rata 7188 untuk pengucap yang lain (pengucap yang suaranya tidak dipakai sebagai standart)
Kata Kunci pengenalan wicara sistem dependen t speaker sampling windowing Linear Predictive Coding Fast Fourier
Transform dynamic programming Dynamic Time Warping
Bab 1 Pendahuluan
iii
ABSTRACT
In this research speech recognition system was implemented to control and to monitor household equipments
Controlling process have been done with long distance control that is from client PC to server PC This system is speaker
dependent The system consist of the following process taking signal sampling frame windowing LPC (Linear Prediction
Code) Those processes are called as extraction After that Dynamic Time Warping (DTW) process is done In this process
input signal was warped with standart signal
Extraction and DTW processes were done in the client PC The result of DTW was sent to the server PC to control
household equipments we want From server PC we will always know about household equipments condition that we
control
The controlled equipments were four of lamps that are ―satu nyala (lamp 1 on) ―satu mati (lamp 1 off) ―dua
nyala (lamp 2 on) ―dua mati (lamp 2 off) ―tiga nyala (lamp 3 on) ―tiga mati (lamp 3 off) ―empat nyala (lamp 4 on)
―empat mati (lamp 4 off) The performed achieved for the system is 100 current for standart speaker and 7188 for non
standart speaker
Key Words speech recognition digital signal processing speaker dependent system sampling windowing Linear
Predictive Coding Fast Fourier Transform dynamic programming Dynamic Time Warping
Bab 1 Pendahuluan
iv
KATA PENGANTAR
Dengan mengucap puji syukur kepada Allah SWT atas limpahan rahmat dan hidayah-Nya serta
pertolongan dan ridlo-Nya sehingga kami dapat menyelesaikan penelitian ini pada waktunya Sholawat dan
salam semoga terlimpahkan kepada kekasih Allah Nabi Muhammad SAW sang Uswatun Hasanah
Dengan pengerahan segenap usaha akhirnya kami dapat menyelesaikan penelitian kami yang berjudul
SISTEM PENGENDALIAN DAN MONITORING PERALATAN RUMAH TANGGA JARAK JAUH
DENGAN METODE PENGENALAN WICARA
tepat pada waktunya
Dengan terselesaikannya buku laporan penelitian ini kami berharap semoga buku ini dapat membawa
manfaat bagi pembaca umumnya dan juga bagi kami khususnya serta semua pihak yang berkepentingan Kami
juga berharap agar penelitian ini dapat dikembangkan lebih lanjut sehingga dapat benar-benar digunakan sebaik-
baiknya untuk mendukung perkembangan ilmu pengetahuan Kami menyadari bahwa kami adalah manusia biasa
yang tidak luput dari kesalahan dan kekurangan Untuk itu kritikan dan saran yang bersifat membangun kami
harapkan untuk perbaikan selanjutnya
Akhirnya tak lupa kami ucapkan terima kasih kepada semua pihak yang telah memberikan bantuan dan
dukungan hingga terselesaikannya penelitian ini
Bandung 15 Juni 2012
Bab 1 Pendahuluan
v
DAFTAR ISI
Halaman Judul i
Abstrak ii
Kata Pengantar iv
Daftar Isi v
Daftar Gambar viii
Daftar Tabel x
BAB 1 PENDAHULUAN 1
11 Latar Belakang 1
12 Tujuan 1
13 Batasan Masalah 1
14 Sistematika Pembahasan 2
BAB 2 TEORI PENUNJANG 3
21 Sistem Pengolahan Wicara 3
211 Sinyal Suara Manusia 3
212 Sampling 5
213 Preemphasis 6
214 Frame Blocking 7
215 Windowing 7
216 Fourier Transform 8
217 Linier Prediction Code 9
2171 Autocorrelation Analysis 10
2172 LPC Analysis 10
2173 LPC Parameter Convertion to Cepstral Coefficient 11
218 Dynamic Time Warping 11
2181 Dynamic Programming 11
2182 Batasan Normalisasi Waktu 15
2183 Batasan Titik Awal Akhir 15
2184 Kondisi Monotonisasi 15
22 Awal dan Akhir Sinyal Suara 15
221 Power 15
222 Unvoiced Plosive 16
23 Jaringan dengan TCPIP 17
231 Mengenal TCPIP 17
232 Koneksi TCPIP 18
Bab 1 Pendahuluan
vi
24 Bekerja dengan Socket 19
241 Pengertian Socket Program 19
242 Penjabaran Socket 19
243 Memilih Hostname dan IP Address 20
BAB 3 PERENCANAAN DAN IMPLEMENTASI 21
31 Pendahuluan 21
32 Sistem Pengolahan Sinyal Wicara 22
321 Perekaman Suara 22
322 Sampling 23
323 Preemphasis 24
324 Frame Blocking 25
325 Windowing 25
326 FFT 26
327 Autocorrelation Analysis 27
328 LPC Analysis 28
329 LPC Parameter to Cepstrum Analysis 29
3210 DTW 30
33 Awal dan Akhir Sinyal Suara 31
331 Power 31
332 Unvoiced Plosive 32
34 Proses pada client 32
35 Proses pada server 33
BAB 4 PENGUJIAN DAN ANALYSIS 33
41 Pendahuluan 33
42 Pengujian dan Analysis Sistem Pengolahan Wicara 33
421 Perekaman Suara 33
4211 Dengan Menggunakan TclTk dan Snack 33
4212 Dengan Menggunakan Wavesurver 35
422 Sampling 37
423 Windowing 38
424 FFT Sinyal Masukan 39
4241 Dengan Menggunakan TclTk dan Snack 40
4242 Dengan Menggunakan Wavesurver 41
425 Autocorrelation Analysis 41
426 LPC Analysis 41
427 FFT LPC Parameter 42
Bab 1 Pendahuluan
vii
4271 Dengan Menggunakan TclTk dan Snack 43
4272 Dengan Menggunakan Wavesurver 43
428 LPC Parameter to LPC Cepstrum 44
429 Inverse FFT LPC Cepstrum 45
4210 Dynamic Time Warping 46
4211 Min Value dan Sorting 47
4212 Hasil Pengujian Awal dan Akhir Sinyal 48
4213 Hasil Pengujian Sistem Perangkat Lunak 51
43 Pengujian sistem client server 66
44 Analisa Pengujian Sistem Secara Keseluruhan 67
BAB 5 PENUTUP 74
51 Kesimpulan 74
52 Saran 74
DAFTAR PUSTAKA
Bab 1 Pendahuluan
viii
DAFTAR GAMBAR
21 Skema diagram organ penghasil sinyal wicara 4
22 Struktur umum model generator wicara 5
23 Pola standart dengan unit kata 6
24 Pola standart dengan unit fonem 6
25 a) Sinyal wicara untuk bunyi a pada satu frame pada pria b) Sinyal wicara untuk bunyi
a pada satu frame pada wanita 7
26 Contoh proses sampling dengan nilai frekuensi pencuplikan yang berbeda 8
27 Pergeseran frame pada sinyal suara dengan M = 13 N 10
28 Blok Metode FFT-DIT 8 titik 13
29 Plane jaringan untuk ilustrasi pemrograman dinamik 18
210 DTW antara dua rentetan waktu A dan B 19
211 Bentuk power dari kata 22
212 Unvoiced Plosive 23
31 Blok Diagram Sistem secara keseluruhan 29
32 Program aplikasi pengenalan wicara 31
33 Flowcart sistem Graphical User Interface 32
34 Sinyal hasil sampling dengan frekuensi 12000 Hz 33
35 Flowcart proses sampling 34
36 Frame blocking sinyal 35
37 Flowcart proses windowing 36
38 Flowcart Proses Fast Fourier Transform 37
39 Flowcart Proses Autokorelasi 38
310 Flowcart Proses LPC Analisis 39
311 Flowcart proses LPC Parameter ke Cepstrum 40
312 Flowcart proses Dynamic Programming 41
313 Flowcart Proses Power 42
314 Blok Diagram Proses Client 43
315 Blok Diagram Proses Server 44
41 Tampilan awal perangkat lunak menggunakan TclTk dan Snack 46
42 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan perangkat lunak
TclTk dan Snack 47
43 Tampilan awal perangkat lunak menggunakan Wavesurver 48
44 Tampilan hasil perekaman kata rdquoempat matirdquo dengan menggunakan perangkat lunak wavesurver 48
45 Kotak dialog setting perekaman perangkat lunak Wavesurver 49
46 Cuplikan dari katardquoempat matirdquo milidetik ke-13900 51
47 Hasil windowing data sampel kata rdquoempat matirdquo milidetik ke-13900 52
48 Fast fourier Transform sinyal masukan dengan menggunakan perangkat lunak TclTk da Snack 54
Bab 1 Pendahuluan
ix
49 Fast fourier Transform sinyal masukan dengan menggunakan perangkat lunak Wavesurver 54
410 FFT LPC dengan menggunakan perangkat lunak TCLTk dan Snack 57
411 FFT LPC dengan menggunakan perangkat lunak Wavesurver 58
412 Invers FFT LPC cepstrum dengan menggunakan Perangkat lunak TCLTk dan Snack 60
413 Penggabungan spektrum sinyal spektrum LPC dan Spektrum LPC Cepstrum 61
414 Pelekukan Jalur suara dengan Dynamic Time Warping 62
415 Sinyal rdquoempat matirdquo hasil program power 65
416 Perbandingan power dua kata ldquoempat matirdquo sebelum Dynamic Time Warping 65
417 Pelekukan alur suara dua kata ldquoempat matirdquo dengan DTW 66
418 Perbandingan power dua kata rdquoempat matirdquo setelah Dynamic Time Warping 67
421 Proses pada client 85
422 Proses pada server 86
423 Tampilan awal perangkat lunak menggunakan TclTk dan Snack 88
424 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan dengan menggunakan
perangkat lunak Wavesurver 89
425 Tampilan awal perangkat lunak menggunakan Wavesurver 89
426 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan perangkat lunak Wavesurver 90
427 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900 90
428 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900 dengan menggunakan perangkat
Wavesurver 91
429 Hasil Windowing data sampel kata ldquoempat matirdquo milidetik ke-13900 92
430 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat lunak TclTk dan Snack 92
431 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat lunak Wavesurver 93
432 Fast Fourier Transform LPC dengan menggunakan perangkat lunak TCLTk dan Snack 94
433 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat Wavesurver 94
434 Pelekukan jalur suara dengan Dynamic Time Warping 95
Bab 1 Pendahuluan
x
DAFTAR TABEL
41 Hasil pengujian sistem pengolahan wicara untuk pengucap yang sama (pria 1) 68
42 Hasil pengujian sistem pengolahan wicara untuk pengucap yang lain (pria 2) 79
43 Hasil pengujian system pengolahan wicara untuk pengucap yang sama (pria) 83
44 Tingkat keberhasilan system perangkat lunak 87
51 Kecepatan sistem keseluruhan 96
Bab 1 Pendahuluan
1
BAB 1
PENDAHULUAN
11 LATAR BELAKANG
Sudah sekian lama manusia memimpikan adanya pengendalian suatu alat atau sistem kontrol dengan
perintah suara Hal ini diperjelas dengan banyak beredarnya film-film fiksi yang menyuguhkan berbagai sistem
kontrol yang dilakukan dengan menggunakan suara bagaimana seorang anak bisa mengendalikan sebuah
pesawat terbang hanya dengan perintah-perintah dasar dengan menggunakan suaranya Ditambah lagi dengan
pesatnya penelitian dibidang suara yang membuat pintu gerbang sistem pengontrolan dengan suara manusia
semakin terbuka Dewantara [2] telah membuat sebuah aplikasi pengenalan wicara untuk perintah nirkabel robot
mikro mouse Anggraeni dan Astutik [1] telah menggunakan pengenalan wicara untuk mengakses suatu jaringan
sebagai password Tetapi belum ada yang membuat aplikasi pengenalan wicara untuk membuat perintah
pengontrolan pada alat-alat rumah tangga semisal lampu Selain itu beberapa tahun terakhir ini perkembangan
dunia telekomunikasi mengalami kemajuan yang sangat pesat Sehingga pada saat ini informasi yang dikirim
tidak hanya berupa data dalam bentuk teks tetapi juga suara manusia Ditambah dengan semakin banyaknya
peralatan yang memanfaatkan pengenalan suara manusia untuk mengakses maupun memberikan perintah Sinyal
suara yang masuk akan diproses dan dikenali oleh suatu alat Proses tersebut adalah pengenalan wicara (speech
recognition) yaitu pengenalan wicara melalui sampel suara yang telah diolah
Dengan pertimbangan tersebut maka pembuatan kontrol suatu peralatan jarak jauh dengan menggunakan
suara sangat sesuai jika diaplikasikan dalam sistem pengendalian dan monitoring peralatan rumah tangga jarak
jauh dengan menggunakan metode pengenalan wicara Aplikasi tersebut kami bangun dalam pelaksanaan
penelitian ini
12 TUJUAN
Penelitian ini bertujuan untuk
1 Memberikan perintah suara untuk menyalakan beberapa peralatan rumah tangga dalam contoh kasus
dalam penelitian ini adalah menyalakan lampu jarak jauh
2 Membangun sistem pengucap tak bebas (speaker dependent sistem)
3 Memberikan ciri individu untuk memberikan perintah menghidup dan matikan peralatan rumah tangga
yang dilakukan secara jarak jauh
13 BATASAN MASALAH
Batasan masalah pada penelitian ini adalah
1 Bahasa pemrograman untuk algoritma pengenalan wicara adalah Microsoft Visual C++ 60
2 Bahasa Pemrograman untuuk user interface adalah TclTk 830 dan Snack 22
3 Sistem bersifat dependentartinya sistem hanya dapat digunakan oleh orang tertentu dalam hal ini yang
pernah berinteraksi langsung dengan sistem
4 Sinyal diasumsikan ideal yaitu tidak mamperhitungkan noise yang berarti semua noise dianggap stationer
Bab 1 Pendahuluan
2
5 Perintah kata yang diberikan dibatasi untuk keperluan tone dekoder saja dengan dua perintah secara
langsung Semua kata diucapkan secara wajar dengan kecepatan normal
6 Keberhasilan penelitian ini dapat dilihat dari keberhasilan ketepatan perintah yang dihasilkan oleh sistem
dengan perintah yang diberikan
7 Jaringan komunikasi masih dilaksanakan untuk local area dari PC ke PC
14 SISTEMATIKA PEMBAHASAN
Sistematika pembahasan penelitian ini sebagai berikut
BAB I PENDAHULUAN
Pada bab ini akan diuraikan tentang latar belakang tujuan batasan masalah dan sistematika
pembahasan masalah yang digunakan
BAB II TEORI DASAR
Pada bab ini akan diuraikan tentang landasan-landasan teori yang digunakan
BAB III PERENCANAAN DAN PELAKSANAAN
Pada bab ini akan diuraikan tentang tahap-tahap perencanaan dan proses pembuatan keseluruhan sistem
yang mendukung untuk membangun sistem pengenalan wicara untuk sistem pengendalian dan monitoring
peralatan rumah tangga jarak jauh
BAB IV PENGUJIAN DAN ANALISIS
Pada bab ini akan dijelaskan tentang hasil pengujian sistem yang telah dibangun baik secara perbagian
ataupun keseluruhan serta analisis terhadap hasil pengujian sistem untuk mengetahui apakah sistem yang
dibangun sesuai dengan yang diharapkan
BAB V KESIMPULAN DAN SARAN
Pada bab ini berisi kesimpulan dari pembahasan pada perencanaan serta analisa pengujian yang
diperolehUntuk lebih baiknya sistem yang dibangun maka disertakan pula saran-saran untuk perbaikan dan
penyempurnaan
Bab 2 Teori Penunjang
3
BAB 2
TEORI PENUNJANG
21 Sistem Pengolahan Sinyal Wicara
211 Sinyal Suara Manusia
Manusia menggunakan suara sebagai sumber informasi untuk mengkomunikasikan keinginan ide dan
perasaannya kepada orang lain Organ tubuh manusia yang digunakan dalam proses produksi wicara adalah
paru-paru tenggorokan(trachea) laring faring rongga hidung(nasal cavity) dan rongga mulut(oral cavity)
Pembangkitan sinyal wicara terletak pada bentuk lintasan vokalnya(vocal tract) Lintasan vokal tersebut terdiri
atas di bawah katup tenggorokan (laryngeal pharynx) antara langit-langit lunak katup tenggorokan (oral
pharynx ) di atas velum dan di ujung depan rongga hidung (nasal pharynx) dan rongga hidung (nasal cavity)1
seperti ditunjukkan gambar 21
Gambar 21 Skema diagram organ penghasil sinyal
Wicara2
Model generator wicara atau model sintesa suara yang dipakai dan menjadi dasar dari pemrosesan
sinyal wicara hingga dewasa ini adalah apa yang dinamakan Analog Terminal seperti pada gambar 22
1 Dewantara Bima Sena Bayu Aplikasi Pengenalan Wicara Untuk Perintah Nirkabel Robot Mikro Mouse TA PENS ITS 2004 hal 5 2 Dutono Titon Penataran Kebahasaan Tahap I Fonetik dan Fonologi Pengolahan Sinyal Wicara Digital 20 Februari 2001
Bab 2 Teori Penunjang
4
Gambar 22 Struktur umum model generator wicara3
Pada model ini sinyal eksitasi(glotal wave) yang berasal dari getaran pita suara diumpankan ke suatu
filter yang merupakan suatu model pendekatan dari lintasan vokal (vocal tract) untuk menghasilkan sinyal
wicara Model analog terminal ini disebut juga pensintesa formant Dasar pendekatan model ini adalah bahwa
lintasan suara adalah suatu bumbung akustik (acoustical cavity) yang mempunyai karakteristik berdasarkan
perpaduan beberapa frekuensi resonansinya Dengan demikian fungsi transfernya dapat didekati dengan
pendekatan kombinasi riam (cascade combination) dari beberapa rangkaian resonansinya Dengan analogi yang
sama sistem ini dapat dibangun dari beberapa rangkaian resonansi yang mempunyai parameter lebar bidang dan
frekuensi resonansi yang selalu berubah setiap saat membentuk suatu sistem berubah waktu (time variant
system)
Struktur sistem pengenal wicara yang ada dapat dibagi menjadi 2 yaitu
1) Mempergunakan pola standart dengan unit kata
Gambar 23 Pola standart dengan unit kata4
2) mempergunakan pola standart dengan unit fonem
yang dilengkapi dengan kamus kosa kata
3 Ibid 4 Ibid
Ekstraksi ciri
Pola standar kata
Pemadanan kata
Algoritma keputusan
Sinyal wicara Output teks
Bab 2 Teori Penunjang
5
Gambar 24 Pola standart dengan unit fonem5
Pada sistem pertama mampu mencakup fenomena koartikulasi tapi tidak fleksibel terhadap perubahan
kosa kata
Sinyal wicara adalah sinyal yang dihasilkan oleh suara manusia dan biasanya mempunyai frekuensi
kerja antara 0 sampai dengan 5000 Hz Bentuk gelombang sinyal wicara mempunyai bentuk yang unik seperti
gambar 23
Gambar 25 a)Sinyal wicara untuk bunyi a pada satu frame pada wanita
b)Sinyal wicara untuk bunyi a pada satu frame pada pria
Berdasarkan gambar 25 terlihat bahwa setiap satu frame terdapat 120 sample yang bersifat quasi
periodik dan mempunyai unsur bunyi terkecil yang disebut sebagai pitch Panjang pitch berkisar 10 ms Pitch
manusia berbeda satu sama lain terutama jenis kelamin laki-laki dan perempuan
212 Sampling
Sinyal wicara merupakan sinyal yang tidak terbatas dalam domain waktu (finite time interval) Suara
manusia akan menghasilkan sinyal analog yang terus kontinyu Untuk keperluan pemrosesan dalam transformasi
fourier maka sinyal wicara harus dibentuk dalam potongan-potongan waktu yang terbatas (infinite time interval)
Karena itu sinyal yang ada dipotong-potong dalam slot-slot interval waktu tertentu
Berdasarkan pada teori sampling Niquist maka syarat dari frekuensi sampling adalah minimal dua kali
frekuensi sinyal
Fsampling 2 x Fsignal ( 21)
Ekstraksi ciri
Pola standar fonem
Pemadanan fonem
Kamus kosa kata
Pemadanan kata
Algoritma keputusan
Sinyal wicara
-20000
-15000
-10000
-5000
0
5000
10000
15000
0 20 40 60 80 100 120 140
pitch -10000
-8000
-6000
-4000
-2000
0
2000
4000
6000
8000
0 20 40 60 80 100 120 140
pitch
Output teks
Bab 2 Teori Penunjang
6
Contoh dari sampling seperti bisa kita lihat pada gambar di bawah
Gambar 26 Contoh proses sampling dengan nilai frekuensi pencuplikan yang berbeda
6
Frekuensi sampling yang digunakan adalah 12000 Hz
Dimana dalam 1 detik sinyal terdapat 12000 titik sampling
213 Preemphasis
Proses preemphasis dimaksudkan agar spektrum sinyal merata di semua frekuensi serta mencegah
kehilangan informasi akibat proses pembulatan pada saat komputasi Fungsi preemphasis adalah
H (z) = 1 ndash az-1 09 le a le 1 (22)
dimana nilai a berkisar 095 Berdasarkan model filter di atas maka keluaran dari preemphasis adalah
s (n) = s (n) - as (n-1) ( 23)
Penjabarannya sebagai berikut
5 Ibid 6 Ibid
Fi = 1000 Hz
Fs = 1250 Hz
Fs = 1000 Hz
Fs = 4000 Hz
Fs = 8000 Hz
Fs 2Fi
Kriteria Nyquis
Fi Frekuensi sinyal informasi Fs Frekuensi pencuplikan
H X Y
T 1 = 12000 = 833 x 10-5 s = 833 μs
10 ms = 833μs x N sample N = 120 sample
Bab 2 Teori Penunjang
7
y = H x
y = (1-az-1) xn
y = xn - 095 xn z-1
y = xn ndash 095 xn - 1
214 Frame Blocking
Sinyal wicara yang telah dipreemphasis s (n) diblok dalam M sampel dimana N 2 x M seperti yang
ditunjukkan pada gambar 27 Jika M le N pergeseran frame akan mengalami overlape hasil perkiraan LPC
spectral akan dikorelasikan dari frame 1 ke frame berikutnya Jika M laquo N perkiraan LPC spectral dari satu frame
ke frame lainnya akan sangat halus (smooth) Dan bila M gt N maka tidak akan ada overlape diantara frame yang
berbatasan dan sinyal suara akan hilang sama sekali dan korelasi diantara perkiraan spectral LPC dari frame
yang berbatasan akan berisi komponen noise
Gambar 27 Pergeseran Frame pada Sinyal Suara
dengan M = 13 N
Sehingga didapatkan nilai dari sinyal yang baru adalah sebagai berikut
x1(n) =s(M 1+n) n =012hellipN ndash 1 l = 012hellipLndash1 (24 )
215 Windowing
Merupakan proses membatasi lebar sinyal yang akan dianalisa yang dapat mengurangi efek
diskontinyuitas pada ujung-ujung frame yang dihasilkan oleh potongan-potongan sinyal Korelasi antara lebar
window dalam domain waktu dan amplitude berguna untuk menyederhanakan sinyal dengan mengurangi
puncak sinyalnya
Ada beberapa jenis windowing yang dinamakan sesuai dengan nama penemunya yaitu
Bab 2 Teori Penunjang
8
Window Hamming
052-046 cos[2лn(N-1)] 0 le n le N-1
Wham(n) =
0 elsewhere
Window Hanning
1-cos[2лn(N-1)] 2 0 le n le N-1
Whan(n) =
0 elsewhere
Window Bartlett
1-cos[2лn(N-1)] 2 0 le n le (N-1)2
WB(n) = 2-2n(N-1) (N-1)2lenleN-1
0 elsewhere
Window Blackman
042-05cos[2лn(N-1)]+008cos[4лn(N-1)]0lenleN-1
WBl(n) =
0 elsewhere
216 Fourier Transform
Transformasi Fourier Diskrit (DFT) adalah deretan yang terdefinisi pada kawasan frekuensi ndash diskrit
yang merepresentaskan Transformasi Fourier terhadap suatu deretan terhingga (Finite Duration Sequence) DFT
berperan penting untuk implementasi algoritma suatu varitas pengolah sinyal karena efisien untuk komputasi
berbagai aplikasi
Salah satu contoh aplikasi komputasi DFT dalam algoritma yang efisien yaitu Fast Fourier Transform
(FFT) Efisiensi suatu algoritma ditentukan dari sejauh mana dapat mereduksi jumlah perkalian dan
penjumlahan serta reduksi lalu lintas data pada memori komputer sehingga proses lebih cepat
Pada DFT untuk memproses N buah titik diperlukan (N-1)perkalian kompleks dan N(N-1)
penjumlahan kompleks Bila N cukup besar dibutuhkan memori yang besar dan waktu yang cukup lama Untuk
itu digunakan metode lain yang lebih cepat yaitu metode transformasi fourier cepat (FFT) FFT dilakukan
dengan membagi N buah titik pada transformasi fourier diskrit menjadi 2 masing-masing N2 titik trnsformasi
Pemecahan menjadi dua pada proses transformasi fourier cepat disebut sebagai proses rekombinasi Dua buah
N2 titik transformasi mempunyai 2(N2) = N2 perkalian Proses memecah menjadi dua ini diteruskan dengan
membagi setiap (N2) titik transformasi menjadi dua buah (N4) titik transformasi setiap (N4) menjadi dua buah
Bab 2 Teori Penunjang
9
(N8) titik transformasi dan seterusnya hingga diperoleh junlah titik yang minimum Jika besarnya N merupakan
kelipatan pangkat dari 2 (disebut radiks 2) maka jumlah titik minimum setelah setiap kali dibagi 2 adalah dua
Ada dua macam metode FFT metode Decimation in Time (DIT) dan metode Dicimation in Frekuensi
(DIF) Kedua metode ini hamper sama Pada metode FFT-DIT N buah titik transformasi dibagi 2 menjadi fungsi
ganjil dan genap masing-masing mempunyai N2 titik transformasi Sedang pada metode FFT-DIF N buah titk
transformasi dibagi menjadi fungsi N2 titk yang pertama dan fungsi N2 titik yang kedua
Operasi pada metode FFT-DIT disebut juga metode kupu-kupu Untuk N buah titik transformasi h(n)
algoritma radiks 2 memerlukan proses perkalian dan rekombinasi sebanyak N2 log N transformasi fourier
diskrit Pada metode FFT-DIT operasi dekomposisi dilakukan dengan membagi fungsi h(n) menjadi 2 bagian
fungsi ganjil dan fungsi genap Atau dengan pernyataan matematika h1(n) dan h2(n) yang masing-masing adalah
untuk n genap dan n ganjil
Prinsip FFT dengan metode DIT adalah seperti pada gambar 24 berikut ini
Gambar 28 Blok metode FFT-DIT 8 titik
7
Pada gambar di atas merupakan jumlah perkalian kompleks N2 log N juga jumlah penjumlahan
kompleks = N2 log N
217 Linear Prediction Code
Ide dasar dari LPC adalah bahwa pada model ini memberikan sampel suara pada domain waktu yang
bisa didekati sebagai kombinasi linear dari sampel suara yang telah lalu
Teori Linear Prediction Coding (LPC) yang diaplikasikan pada wicara telah dimengerti selama
beberapa tahun Pada bagian ini akan dijelaskan dasar dari bagaimana LPC diaplikasikan pada sistem pengenlan
wicara
Sebelum menjelaskan LPC secara umum sebagai pemrose front-end untuk pengenalan wicara perlu
diketahui alasan mengapa LPC sangat banyak digunakan yaitu
1 LPC menyuguhkan model yang bagus untuk sinyal wicara
2 Cara yang digunakan LPC untuk analisa sinyal wicara sangat beralasan untuk pemisahan track dari
sumber vocal
3 LPC adalah model traktabel secara analitis
Bab 2 Teori Penunjang
10
4 Model LPC bekerja dengan baik pada aplikasi pengenalan
2171 Autocorrelation Analysis
Masing-masing frame sinyal yang telah diwindow kemudian di-autokorelasikan dengan menggunakan
persamaan
N-1-M
r1(m) = sum x1(n) x1(n+m) m = 0 1 p ( 25) (25)
n = 0
dimana nilai autokorelasi tertinggi p adalah orde dari analisi LPC Pada umumnya nilai dari p yang
sering digunakan adalah dari 8 sampai 16 Sisi menguntungkan dari analisis autokorelasi adalah bahwa
autokorelasi ke-0 R1 (0) adalah energi dari frame ke-1 Energi dari frame merupakan parameter
penting untuk system deteksi wicara
2172 LPC Analysis
Langkah selanjutnya adalah analisis LPC dimana mengkonversi masing-masing frame dari
auto korelasi p+1 ke dalam sebuah ldquoLPC Parameter Setrdquo dimana kumpulan itu merupakan koefisien
LPC koefisien refleksi atau PARCOR koefisien log area ratio koefisien Cepstral atau beberapa
transformasi pada kumpulan tersebut
Metode yang formal untuk mengkonversi dari koefisien autokorelasi ke sebuah LPC parameter
set (untuk metode autokorelasi) dikenal sebagai Metode Durbin dan secara formal dapat ditunjukkan
pada algoritma berikut ini
E(0) = r(0) ( 26)
Ki=r(i)-sumαj(i-1) r(|i-j|)E(i-1) 1 le I le p ( 27)
αi(i) = ki (28)
αj(i) = αj
(i-1)-ki α(i-1) ( 29)
t-j
E(i)=(1-ki2)E (i-j) (210)
dimana penyajian akhir dari persamaan mengabaikan i=1 Kumpulan dari persamaan hellipdiselesaikan secara
rekursif untuk i=12hellipp dan penyelesaian akhir diberikan sebagai
am=koefisien PC=αm 1lemlep ( 211)
7 Agus Wahyudi Verifikasi Sinyal Suara Sebagai Kendali Arah TA PENS-ITS 2002
Bab 2 Teori Penunjang
11
km=koefisien PARCOR ( 212)
1 - km
gm=koefisien log area ratio = log ----------- ( 213)
1 + km
2173 LPC Parameter Corversion to Cepstral Coefficients
Sekumpulan parameter LPC yang sangat penting yang dapat diturunkan langsung dari kumpulan LPC
adalah koefisien cepstral LPC c(m) Rekursif yang digunakan adalah
co = ln σ2 ( 214)
m-1
cm = am + sum ck am-k 1 le m le p ( 215)
k = 1
m-1
cm = sum ck am-k m gt p
k = 1
dimana σ2 adalah penguatan dalam model LPC Koefisien cepstral koefisien yang direpresentasikan dengan
fourier transform dengan spectrum besaran log telah ditampilkan menjadi kumpulan fitur untuk pengenalan
wicara yang lebih handal terpercaya daripada koefisien LPC koefisien PARCOR atau koefisien log area ratio
218 Dynamic Time Wraping
Dynamic Time Wraping (DTW) merupakan cara untuk membandingkan pola wicara dalam menentukan
kesamaan jarak antara pola-pola yang berbeda Dimana pengenalan wicara merupakan proses secara otomatis
dalam mengambil dan menentukan informasi linguistic yang disampaikan dengan gelombang wicara
menggunakan komputer atau sirkuit elektronik Informasi linguistic tersebut pada akhirnya akan
direpresentasikan dengan deretan waktu vektor-vektor spektral
Metode nolmalisasi waktu menggunakan dua buah fungsi warping
ix = Фx (k) k = 123hellipT (216)
iy = Фy (k) k = 123hellipT
2181 Dynamic Programming
Dynamic Programming (DP) digunakan untuk memecahkan masalah deteksi pengurutan kemampuan
menggunakan pola pengenalan wicara dan masalah waktu penjajaran dan normalisasi Ada dua tipe masalah
penggunaan Dynamic Programming yaitu
(
)
k m
( )
K m ( )
Bab 2 Teori Penunjang
12
1 Masalah jalan optimal dengan menganggap sekumpulan titik mulai dari 1 sampai dengan N yang
dihubungkan dengan pasangan setiap dari titik (ij) Representasi perpindahan secara langsung dari titik
ke-1 ke titik yang lainnya Rentetan perpindahan tersebut tidak mempunyai bilangan yang ditetapkan
dari transisi satu titik ke titik yang lainnya hal ini disebut rentetan keputusan asinkron
Dengan Terminologi sederhana kita membuat garis keputusan untuk menetukan titk berikutnya setelah
kebijaksanaan pada titik i
Prinsip dari optimalisasi yang merupakan kelas dasar dari algoritma komputasi untuk optimasi masalah
di atas berdasarkan pernyataan Bellman
rdquoKebijakan optimasi yang memiliki sifat apapun ketetapan dan ketentuannya keputusan berikutnya
harus merupakan hasil ketetapan dari keputusan yang pertamardquo
2 Masalah keputusan rentetan sinkronisasi terdapat perbedaan dari satu sinkronisasi yang beraturan dari
proses keputusan
Penggunaan teknik Dynamic Programming pada Dynamic Time Warping untuk pertama kali dilakukan
oleh Slutsker (1968) Vintsyuk (1968) dan Volichko (1971) dari Jepang untuk pengenalan wicara Pada proses
ini pembicara mengucapkan kata yang sama dengan durasi berubah setiap waktu dengan ekspansi yang non
linier Oleh karena itu Dynamic Time Wraping adalah tahap yang penting dalam proses pengenalan kata Proses
DTW mengalami pengembangan pada sumbu waktu untuk mencocokan posisi phonemkata yang sama antara
input wicara dan referensi template
Dynamic Programing secara umum digunakan untuk memecahkan masalah rentetan keputusan yang
dilakukan pada bidang kisi sebagaimana ditampilkan pada gambar 27 Sinyal yang dicocokkan adalah A dan B
Di dalam bidang kisi sinyal A disesuaikan sepanjang sumbu ndashx dan sinyal B disesuaikan sepanjang sumbu ndashy
Setiap antar bagian pada bagian ini ditetapkan sebagai sebuah simpul atau titik dimana titik (ij) adalah
pencocokan frame I untuk sinyal A dengan frame j untuk sinyal B Misalnya diasumsikan dua rentetan waktu
untuk vektor utama yang dibandingkan sebagai berikut
A = a1a2hellipaI dan B = b1b2hellipbJ
Dengan menganggap rentang bidang antara A dan B sebagaimana ditunjukkan pada gambar 27
fungsi pelengkungan waktu yang sesuai menunjukkan waktu antara rentetan A dan B dapat dipresentasikan
sebagai rentetan titk-titik Lattice pada bidang c = (ij) sebagai berikut
Bab 2 Teori Penunjang
13
Gambar 29 Plane jaringan untuk ilustrasi
pemrograman dinamik8
Bilamana jarak spektral antara dua vektor utama a1 dan b1 direpresentasikan oleh d(c) = d(ij) penjumlahan
jarak dari awal sampai akhir dari rentetan sepanjang F dapat direpresentasikan dengan
K
sum d(ck)wk
k=1
D(F) = mdashmdashmdashmdashmdash (217)
K
sum wk
k=1
Semakin kecil nilai ini semakin baik kecocokan antara A dan B Dimana wk adalah fungsi pembobotan
positif terhadap F
Dengan memperkecil persamaan di atas dengan kondisi berikut
1 Kondisi monotonisasi dan kontinuitas
0 le ik-ik-1le1 0 lejk ndash jk -1 le 1 ( 218)
2 Kondisi perbatasan
I1=j1=Iik=Ijk=I (219)
3 Kondisi adjustmen window
|ik ndash jk|ler r=konstan ( 220)
Pendefinisian wk sedemikian rupa sehingga menyebut pada persamaan 219 menjadi konstan yang
tidak tergantung pada F Untuk contoh jika
Wk = (ik ndash ik -1)+(jk ndash jk -1)(i0=j0=0) wk akan menjadi
8 Ibid hal 15
Bab 2 Teori Penunjang
14
K
sum wk = I + J (221) k=1
dan persamaan 219 menjadi
1 K
D(F)= mdashmdash sum d(ck)wk ( 222)
I + J k=1
Gambar 210 DTW antara dua rentetan waktu A dan B
9
Karena fungsi obyektif yang akan diminimasi menjadi penjumlahan maka peminimisasi secara efisien
dapat diselesaikan tanpa harus menguji semua kemungkinan untuk F Penjumlahan pada sebagian rentetan c1
c2 hellip ck (ck=(ij)) adalah
(224)
Penurunan pemrograman dinamik pada persamaan-persamaan diatas penggunaan kondisi untuk F dan
formulasi perumusan wk persamaan 2115 dapat dituliskan kembali sebagai berikut
9 Ibid hal 17
Bab 2 Teori Penunjang
15
g(ij-1)+d(ij)
g(ij) = min g(i-1j-1) + 2d (ij) (225)
g(i-1j) +d(ij)
Oleh karena itu jarak antara dua rentetan waktu A dan B setelah DTW dapat diperoleh sebagai berikut
Kita set dari kondisi awal untuk g(11)=2d(11) dan j=1 dan hitung persamaan 2116 dengan variasi I dalam
sepanjang adjustment window Perhitungan ini diulangi dengan menaikkan j sampai j=1 Jarak keseluruhan
antara dua rentetan waktu A dan B dapat diperoleh dari g(IJ)(I+J)
2182 Batasan Normalisasi Waktu
Supaya proses normalisasi waktu mempunyai arti pada perbedaan batasan dengan berbagai variasi
interval waktu dibutuhkan beberapa batasan terhadap fungsi warping
2183 Batasan Titik Awal Akhir
Bilamana pola wicara yang dibandingkan merupakan tuturan per kata maka harus memenuhi syarat pola
mulai dari titik awal sampai titik akhir dari tanda permulaan dan pengakhiran pola wicara Titik awal dan akhir
mempunyi batasan yang membatasi pola wicara harus dipenuhi
Titik awal Фx(1) = 1 Фy(1) = 1 (226)
Titik akhir Фx(T) = Tx Фy(T) = Ty (227)
2184 Kondisi Monotonisasi
Rentetan pola spectral pada wicara sangat penting dalam menentukan arti linguistic sehingga tidak
akan hilang Untuk mempertahankan pola tersebut harus memenuhi
Фx(k + 1) ge Фx(k) (228)
Фy(k + 1) ge Фy(k)
22 Awal dan Akhir Sinyal Suara
221 Power
Sinyal suara yang diolah haruslah merupakan sinyal suara murni dan tidak bercampur dengan noise
ataupun header tail yang dibawa oleh suara saat perekaman apalagi jika pengenalan sinyal suara dengan jumlah
vocabulary yang besar Oleh karena itu sinyal suara hasil perekaman harus dicari nilai awal dan akhirnya agar
pengolahan sinyal suara tersebut menjadi lebih valid
Dan salah satu cara dalam menentukan nilai awal dan akhir dari sinyal suara adalah dengan
menggunakan power yang mempunyai persamaan sebagai berikut
( )
Bab 2 Teori Penunjang
16
239
p= sumradic xt2 (229)
t=0
Sinyal suara yang dibagi menjadi beberapa frame mempunyai power dari tiap framenya yang kemudian
didapatkan nilai rata-ratanya yang kemudian diperoleh nilai awal dan akhirnya dengan menambahkan 3 kali
standart deviasi Dimana penentuan awal dan akhir dari sinyal suara dapat diperoleh dengan
p ge p + 07 standart deviasi
Power
0
20000
40000
60000
80000
100000
120000
140000
160000
0 10 20 30 40 50 60
Jumlah Frame
Am
pli
tud
o
Gambar 211 Bentuk power dari kata
Nilai beberapa kali hasil percobaan
222 Unvoiced Plosive
Pada suatu sinyal suara yang terekam terdapat pemutusan sinyal atau kondisi kosong yang bukan
merupakan noise tetapi masih didalam lingkup suara Tapi kondisi ini hanya terjadi pada kebanyakan sinyal
suara yang terdapat konsonan tertentu yaitu sinyal suara dari kata yang mempunyai konsonan p t k Kondisi ini
disebut Unvoiced Plosive atau loncatan sinyal suara setelah kondisi kosong seperti ditunjukkan pada gambar
berikut
Gambar 212 Unvoiced Plosive
Bab 2 Teori Penunjang
17
Dan untuk penentuan awal dan akhir daerah kosong tersebut harus diperhitungkan agar didapatkan
nilai awal dan akhir dari sinyal suara yang valid yaitu dengan mencari nilai rata-rata dari daerah kosong dari
beberapa sinyal suara Kemudian dengan dicari nilai thresholdnya yaitu nilai terpanjang dari daerah kosong
sebesar 2 dari seluruh daerah kosong yang telah dihistogram
23 JARINGAN DENGAN TCPIP
Meskipun hubungan computer melalui serial dan parallel telah ada sejak lama multijaringan belum
menjadi masalah serius bagi para peneliti di bidang jaringan sampai awal tahun 1980 Perkembangan teknologi
LAN itu sendiri didasarkan banyak alasan Salah satu yang menjadi alasan utama adalah adanya perusahaan
yang ingin melakukan sharing data file printer dan resource lainnya ke pc lain
231 Mengenal TCPIP
Sebelumnya kita definisikan lebih dahulu apa yang dimaksud protocol itu Bila dua computer ingin
melakukan komunikasi keduanya tentu saja harus menggunkan bahasaturan yang sama Aturan-aturan inilah
yang disebut protocol Misalnya untuk mengirim mail digunakan protocol SMTP berhubungan dengan WWW
menggunakan HTTP dan sebagainya Jadi protocol merupakan aturan dalam melakukan komunikasi
TCPIP ( Transmission Control Protocol Internet Protocol) merupakan protocol yang bersifat open
networking Maksudnya semua penjelasan teknis tentang protocol tersebut diumumkan karena ada juga
mekanisme jaringan yang menyembunyikan detail dari sistemnya Hal inilah yang membuat TCPIP menjadi
terkenal
Adapun keuntungan dengan menggunakan protocol TCPIP adalah kemudahannya karena
memungkinkan hubungan antara berbagai system operasi dan berbagai jenis computer (platform)
TCPIP bukanlah protocol tunggal tetapi merupakan sekumpulan protocol sehingga lebih tepat disebut
sebagai keluarga TCPIP Setiap protocol pada TCPIP memiliki tugas tertentu yang berbeda Semua protocol
tersebut menggunakan protocol primer untuk mengirimkan paket data Protocol primer tersebut adalah TCP dan
IP
Protokol lainnya dapat dikelompokkan berdasarkan tujuannya sebagai berikut
1 Transport
Digunakan untuk mengatur perpindahan data antara dua mesin Antara lain
- TCP (Transmission Control Protocol)
- UDP (User Datagram Protocol)
2 Routing
Digunakan untuk pengalamatan data dan menentukan rute terbaik antara lain
- IP (Internet Protocol)
- ICMP (Internet Control Message Protocol)
- RIP (Routing Information Protocol)
Bab 2 Teori Penunjang
18
3 Network Address
Menangani bagaimana suatu mesin diberikan suatu alamat antara lain
- ARP ( Address Rwesolution Protocol)
- DNS ( Domain Name Sistem)
- RARP (Reverse Address Resolution Protocol)
4 User Service
Merupakan aplikasi yang harus diakses user antara lain
- FTP ( File Transfer Protocol)
- TFTP (Trivial File Transfer Protocol)
- TELNET
5 Gateway Protocol
Untuk membentuk proses komunikasi routing dan status informasi antara lain
- EGP (Exterior Geteway Protocol)
- GGP (Gateway to Gateway Protocol)
- IGP (Interior Gateway Protocol)
232 Koneksi TCPIP
Untuk mengkonfigurasi TCPIP maka dibutuhkan
Alamat IP
Alamat IP ini sebagai pengenal atau alamat mesin Karena setiap mesin yang terhubung jaringan
harus memiliki penganal yang unik sehingga memungkinkan melakukan routing Jaringan dengan TCPIP
menggunakan pengalamatan 32 bit sebagai alamat atau pengenal setiap mesin yang terkoneksi dengan jaringan
Pengenal ini disebut alamat IP Pesan atau data yang dikirim melalui TCPIP menggunakan alamat IP ini untuk
mengenali mesin pengirim dan penerimanya
Biasanya alamat IP dapat dikelompokkan menjadi dua bagian yaitu
1 Nomor Network
2 Nomor Device dalam Network tersebut
Alamat IP tersebut dipisahkan menjadi empat bagian yang masing-masing berukuran 8 bit Empat
bagian tersebut dipisahkan oleh tanda titik dan setiap bagian tersebut memiliki angka 0-255 Contohnya
192168101
Pemberian alamta IP umumnya ditentukan berdasarkan ukuran dari jaringan tersebut Jaringan
dapat diklasifikasikan menjadi tiga kategori yaitu kelas A kelas B kelas C Ketiga kelas tersebut membagi
pengalamatan 32 bit dengan ukuran berbeda untuk nomor Network dan Host
Pengalamatan pada kelas A memungkinkan bagian ini memiliki angka dari 0-127 Sedangkan
pengalamatan B memungkinkan memiliki angka dari 128-191 pengalamatan pada kelas C memungkinkan
memiliki angka dari 192-223
Network Mask
Bab 2 Teori Penunjang
19
Network mask merupakan alamat IP dimana lamat networknya diset ke nilai 255 Jika alamat IP
termasuk kelas A maka network masknya yaitu 255000 Jika alamat IP termasuk kelas B maka network
masknya yaitu 25525500 Jika alamat IP termasuk kelas C maka network masknya yaitu 2552552550
AlamatNetwork
Alamat network ini dapat diperoleh dari alamat IP dimana bit-bitnya dilakukan operasi AND
dengan network mask Dengan demikian untuk network kelas B dengan IP 192168101 maka alamat
networknya adalah 19216800
Alamat Broadcast
Alamat broadcast dibutuhkan bila suatu mesin ingin mengirimkan paket yang sama ke semua
device pada jaringan
Alamat Gateway
Alamat gateway merupakan alamat IP dari mesin yang menghubungkan jaringan dengan jaringan
di luar misalnya internet Pada umumnya alamatgateway memiliki IP yang sama dengan mesin yang kita miliki
tetapi mempunyai nomor device 1 Dengan demikian untuk network kelas B dengan alamt IP 192168101
alamat gatewaynya adalah 19216811
Alamat Nameserver
Jaringan-jaringan besar umumnya memiliki sebuah mesin untuk mentranslasikan alamat IP menjadi
nama yang lebih mudah dikenal manusia Misalkan sebuah mesin dengan IP 192168101 dapat diberi nama lain
seperti puspacsuiacid sebagai alamatnya Proses translasi ini dilakukan dengan system yang dikenal dengan
nama Domain Name System (DNS)
24 BEKERJA DENGAN SOCKET
Komponen socket program yang dapat membantu dalam pembuatan suatu aplikasi yang berkomunikasi
antara suatu system computer dengan system computer yang lain dengan menggunakan protocol TCPIP dan
protocol lain yang terhubung
241 Pengertian Socket Program
Pada sub bab ini akan dijelaskan tentang komoponen socket program yang dapat berkomunikasi antara
system computer dengan system computer yang lain dengan menggunakan protocol TCPIP dan protocol lain
yang terhubung Dengan socket program ini kita dapat membaca dan menulis pada hubungan ke mesin yang lain
tanpa mengalami kesulitan pada software jaringan Socket program dapat mengadakan hubungan berbasis
protocol TCPIP tetapi dapat juga bekerja umunya dengan protokol-protokol yang terhubung seperti Xerox
Network System (XNS) dan yang lain
Bab 2 Teori Penunjang
20
242 Penjabaran Socket
Socket mengijinkan aplikasi jaringan kita berkomunikasi dengan sistem lain di luar jaringan
Masing- masing socket bisadipandang sebagai titik akhir dalam suatu koneksi jaringan Socket tersebut memiliki
spesifikasi sebagai berikut
a) Sistem yang sedang dijalankan
b) Tipe interface port yang digunakan
Penjelasan lengkap dari sebuah koneksi socket terdiri dari address socket pada kedua titik akhir
koneksi Kita akan menguraikan address dari masing- masing titik akhir socket dengan memberi nomor IP
address atau host dan port
Sebelum membuat koneksi socket sebelumnya harus menguraikan dengan lengkap socket-socket
yang membentuk titik akhir Beberapa informasi tersedia dari sistem aplikasi yang dijalankan Sebagai contoh
kita tidaka akan membutuhkan IP Address Local dari socket client sebab informasi ini terdapat pada sistem
operasi
Informasi yang akan kita berikan bergantung pada tipe socket yang sedang bekerja Socket client
harus menggambarkan port yang merepresentasikan layanan yang mereka berikan
243 Memilih Host Name dan IP Address
Kebanyakan aplikasi menggunakan host name untuk merinci sebuah system Host Name mudah
untuk diingat dan dicek Menggunakan host name memungkinkan socket client untuk menemukan situs abstrak
yang diwakili oleh nama host meskipun telah dipindah ke IP Address yang baru Jika nama host tidak diketahui
socket client akan akan menyatakan system server sedang menggunakan IP Addressnya Ketika kita
menyediakan host name socket akan mencari IP Address yang berhubungan dengan host name sebelum socket
tersebut dapat menempatkan pada sistem server
Bab 3 Perencanaan dan Implementasi
21
BAB 3
PERENCANAAN DAN IMPLEMENTASI
31 Pendahuluan
Pada bab ini akan dijelaskan mengenai pengolahan sinyal wicara untuk mendapatkan ciri setiap
individu Juga akan dibahas mengenai pengolahan hasil keluaran sinyal wicara untuk ditransmisikan ke PC lain
(lewat jaringan) Dan selanjutnya akan dibahas pula mengenai plan atau obyek yang dalam hal ini adalah lampu
pijar
Berikut ini adalah blok diagram sistem secara keseluruhan
Gambar 31 Blok Diagram Sistem Secara Keseluruhan
Speaker pada gambar 31 memberikan suaranya sebagai masukan lewat mikrofon Masukan ini
akan diolah dalam PC client mulai dari proses sampling frame windowing FFT LPC Kemudian hasil dari
LPC dicari pemadanan dengan LPC dari sinyal standar yang telah tersimpan sebagai data base di dalam PC
client Hasil dari DTW tersebut akan dikirimkan ke PC server melalui TCPIP untuk diproses menjadi suatu
perintah ke perangkat keras Perintah tersebut merupakan bentuk implementasi dari perintah yang diberikan dari
PC client
Sebaliknya dengan adanya perubahan kondisi pada peralatan yang diinginkan maka terjadi sinyal
balikan yang berupa sinyal DTMF yang dikirimkan oleh perangkat keras ke PC server Oleh PC server sinyal ini
diolah untuk dikenali sebagai suatu kondisi tertentu yang akan dikirimkan ke PC client sebagai laporan tentang
kondisi alat yang diinginkan
32 Sistem Pengolahan Sinyal Wicara
321Perekaman Suara
TCPIP
Pengucap Speaker ADC Pengolahan Wicara dan Monitoring
Peralatan yang terkontrol
LAN Card
LAN Card
Pengenalan Pola Pengiriman Tone DTMF dan Pengenalan DTMF Sebagai Laporan
DTMF Decoding DTMF Generator Sistem Switching
Alat Terkontrol
Bab 3 Perencanaan dan Implementasi
22
Perekaman suara dilakukan menggunakan software berbasis TclTk 830 dan Snack22 Sebelumnya
akan dijelaskan satu per satu program yang dipakai
o TclTk 830
Tcl kepanjangan dari Tool Control Language Tk adalah Graphical Toolkit extension dari Tcl yang
menyediakan bermacam-macam item standar antarmuka GUI untuk memfasilitasi secara cepat pengembangan
aplikasi tingkat tinggi
o Snack22
Snack adalah tool pengolahan suara yang didesain sebagai extensi untuk bahasa script Saat ini Snack bekerja
dengan bahasa script TclTk Phyton dan Ruby Snack memiliki perintah-perintah untuk play record process
dan dan memvisualisasi suara Snack menyediakan obyek suara tingkat tinggi dengan manajemen penyimpanan
yang fleksibel dan streaming support Snack dapat bekerja pada banyak format file suara
Kita dapat membangun aplikasi sepaerti di bawah ini dengan integrasi dari TclTk dan Snack
Gambar 32 Program aplikasi pengenalan wicara
Frekuensi sampling pada program di atas diset pada frekuensi 12 kHz Frekuensi ini dipilih karena biasa
digunakan untuk voice Selain itu juga diset pada channel Mono dan sinyal encoding LIN 16 (resolusi 16 bit
PCM) Pada penekanan tombol ldquorecordrdquo diikuti tombol ldquostoprdquo dan kemudian tombol ldquostandartrdquo maka akan
dimulai proses perekaman yanag akan digunakan untuk membuat file standar untuk kedelapan perintah yang
akan digunakan untuk pembanding sinyal masukan
Adapun proses untuk sistem yang akan dibuat dapat digambarkan dengan diagram alir seperti di bawah
Bab 3 Perencanaan dan Implementasi
23
Mulai
Package Require
Snack 22
Exit
Program On
Running
Recording
Sound Card
Produser Running
Prosedur Recording
DTMF
Keluar
Tidak
YaTidak
Ya
Ya
Ya
Ya
Tidak
Tidak
Tidak
Gambar 33 Flowchart Sistem Graphical User
Interface
322 Sampling
Seperti telah dijelaskan di depan bahwa frekuensi sampling yang digunakan adalah sebesar 12000Hz
dimana dalam 1 detik sinyal terdapat 12000 titik sampling Sebagai contoh seperti gambar di bawah ini suatu
sinyal epanjang 20 ms disampling 12000 Hz menghasilkan titik sampling sebanyak 240 titik
Data Sampling
-20000
-15000
-10000
-5000
0
5000
10000
15000
20000
0 200 400 600
Amplitudo
Jumlah Data
Gambar 34 Sinyal hasil sampling dengan
frekuensi 12000 Hz
Bab 3 Perencanaan dan Implementasi
24
Mulai
Sinyal Masukan
Baca Panjang Sinyal
Bagi Menjadi N Frame
i = 0 i lt N i++
Ambil 240 Data Sampel
Tampilkan Nilai
Sampel
Selesai
Gambar 35 Flowchart Proses Sampling
323 Pre-emphasis
Agar spektrum sinyal merata di semua frekuensi dan mencegah kehilangan informasi akibat pembulatan
pada saat komputasi maka dilakukan prose preemphasis Fungsi transfer preemphasis adalah
H(z) = 1 ndash a z-1 09 le a le 1 (31)
Dimana nilai a berkisar 095 Berdasarkan model filter di atas maka keluaran dari preemphasis adalah
s(n) = s(n) ndash a s(n-1) (32)
324 Frame Blocking
Hasil perekaman merupakan sinyal dalam domain waktu yang bersifat variant time (fungsi yang
bergantung pada waktu) Sinyal yang telah dipreemphasis kemudian dibagi menjadi n buah frame Dengan
jumlah sample per frame sebesar N dan adjacent frame sebesar M sample Dimana M=05N Pada frame
pertama terdiri dari N buah sampel Frame kedua dimulai pada sampel ke M sehingga terjadi overlape sebesar
N - M sampel Begitupula untuk frame yang ketiga dimulai dari sample ke 2M sehingga terjadi overlape dari
farme kedua sebesar N + M-2M sampel juga Hal ini akan terus berlangsung hingga seluruh sinyal terbagi
menjadi beberapa frame
Bab 3 Perencanaan dan Implementasi
25
Gambar 36 Frame blocking sinyal
325 Windowing
Windowing yang digunakan adalah window hamming Setelah proses pengambilan sample maka
langkah selanjutnya adalah proses selanjutnya adalah proses windowing yang berfungsi untuk mengurangi efek
diskontinyuitas pada ujung-ujung frame Persamaannya adalah sebagai berikut
y[i] = x[i](054-046cos(20314159265(i-1)240) (33)
Flowchartnya bisa dilihat seperti di bawah
Mulai
240 Data
Sampel
i= 0 i lt 240 i++
Hamming Window
y[i] = x[i](054-046cos(2phi(i-1)
240))
Tampilkan
nilai
Hamming
Selesai
Gambar 37 Flowchart Proses Windowing
326 Fast Fourier Transform
Transformasi fourier cepat (FFT) adalah suatu metode yang sangat efisien untuk menyelesaikan
transformasi fourier diskrit (DFT) yang banyak dipakai untuk keperluan analisa sinyal Sehingga dengan FFT
N N N M
M N
N N
M
Bab 3 Perencanaan dan Implementasi
26
sinyal yang disampling dalam domain waktu ditransformasikan ke domai frekuensi dengan menggunakan
persamaan sebagai berikut
N-1
H(k) = sum h(n)e-j2лkN (34)
n=0
dengan k= 012N-1
Prosesnya dapat dilihat dari flowchart di bawah
Mulai
240 data
sampel
256 data sampel
i=0 ilt256 i++
tmp_log1=(xr[k]xr[k]+xc[k]xc[k])
tmp_log gt 0
xr[k]=10log10(tmp_log1)
Tampilkan
nilai
hamming
Selesai
xr[k]=10log10(0000001)
Ya
Tidak
Gambar 38 Flowchart Proses Fast Fourier
Transform
327 Autocorrelation analysis
Hasil dari windowing sinyal masukan kemudian dihitung autokerelasinya dengan persamaan
N-1-m
r1(m) = sum x1(n)x1(n+m) m=01p (35)
n=0
dimana niali autokorelasi tertinggi p adalah orde dari analisis LPCPada umumnya nilai dari p yang sering
digunakan adalah dari 8 sampai 16
Proses Autokorelasi dapat dilihat dari flowchart di bawah ini
Bab 3 Perencanaan dan Implementasi
27
Mulai
240 data p lpc
orde
i=0 iltp i++
j=0 jlt240-p-1 j++
RI[j]=sum(xI[i]xI[i+j])
Tampilkan nilai
autocorrelation
Selesai
Gambar 39 Flowchart Proses Autokorelasi
328 LPC Analysis
Hasil koefisien autokorelasi kemudian dikonversikan ke sebuah LPC parameter set (untuk metode LPC
autokorelasi) dikenal sebagai Metode Durbin dan secara formal ditunjukkan dari algoritma sebagai berikut
E(0) = r(0) (36)
ki=r(i)-sumαj(i-1) r(|i-j|)E(i-1) 1 le I le p (37)
αi(i) = ki (38 )
αj(i) = αj
(i-1)-ki α(i-1) ( 39)
t-j
E(i)=(1-ki2)E (i-j) (310)
dimana penyajian akhir dari persamaan 37 mengabaikan i=1 Kumpulan dari persamaan 36 -310 diselesaikan
secara rekursif untuk i=12p
Proses analisis dapat dilihat dari flowchart di bawah
Bab 3 Perencanaan dan Implementasi
28
Mulai
Autocorrelationr
p lpc orde
E (0) = r(0)
k1
= r(i)-sumalpha j (i-1) r( | i-j|E(i-1)
alpha j (i) = k
i
alpha j
(i) = alpha (i-1) -k i alpha
i-j (i-1)
E (i) = 1-k i 2) E(i-1)
Tampilkan nilai
parameter lpca
Selesai
i=0 iltp i++
Gambar 310 Flowchart proses LPC analisis
329 LPC Parameter to Cepstrum Analysis
Sekumpulan parameter LPC yang sangat penting yang dapat diturunkan langsung dari kumpulan
koefisien LPC adalah koefisien cepstral LPC c(m) Rekursif yang digunakan adalah
co = ln σ2 ( 311)
m-1
cm = am + sum ck am-k 1 le m le p (312)
k = 1
m-1
cm = sum ck am-k m gt p ( 313)
k = 1
Proses LPC parameter ke Cepstrum Analysis dapat dilihat dari flowchart di bawah ini
k m ( )
k m ( )
Bab 3 Perencanaan dan Implementasi
29
Mulai
lpc parameter a
p lpc orde
c o = ln del 2
1 lt=mlt=p
i=0 iltp i++
Cm
= am
+sum((km)Ck a
m-kC
m =sum((km)C
ka
m-k)
Tampilkan nilai lpc
cepstrumc
Selesai
Gambar 311 Flowchart Proses LPC parameter ke
Cepstrum
3210 Dynamic Time Warping
Proses yang terjadi pada Dynamic Time Warping adalah pengukuran jarak suara antara sinyal standart
dan sinyal input Yang diukur berupa deretan nilai dari hasil LPC Cepstrum dalam bentuk kolom dan baris (ij)
yang disimpan dalam satu file Pada kolom berisi nilai tiap cepstrum sedangkan baris berupa banyaknya frame
Teknik yang digunakan dinamakan Dynamic Programming Alur kerjanya dapat dilihat dari flowchart di bawah
Bab 3 Perencanaan dan Implementasi
30
Mulai
i=0 iltN i++
j=0 jlt15 j++
Cepstrum
Standart
Std_Ceps [i][j]
Cepstrum
Input
Inp_Ceps [i][j]
DP_dist = DP_match1(r)
DP_dist
Selesai
Gambar 312 Flowchart Proses Dynamic Programming
33 Awal dan Akhir Sinyal suara
331 Power
Untuk mendapatkan suatu sinyal suara tanpa adanya noise maka sinyal harus benar-benar dipotong
tepat pada awal dan akhirnya Oleh karena itu dipakai power sebagai salah satu cara yang efektif dalam
menentukan awal dan akhir suatu sinyal suara
Dimana tiap frame mempunyai power yang merupakan hasil kuadratisasi dari penyampelan tiap frame
yang kemudian hasil keseluruhan diakarkan seperti bisa dilihat pada flowchart di bawah
Bab 3 Perencanaan dan Implementasi
31
Mulai
Power = 0
i=0 ilt240 i++
Power=Power+sqrt(xixi)
Selesai
Gambar 313 Flowchart Proses Power
Jumlah sample per frame ditetapkan sebesar 240 sampel Kemudian dicari power masing-masing antara sinyal
utuh dan sinyal noise kemudian dengan p ge p + 07 standar deviasi maka didapatkan awal dan akhir sinyal
suara
332 Unvoiced Plosive
Adanya daerah kosong menyebabkan sinyal tidak valid dalam pemotongan awal dan akhirnya karena
bisa dianggap noise padahal berada dalam sinyal suara ( merupakan bagian dari sinyal suara) Oleh karena itu
dicari mean dari 25 kata sinyal suara yang kemudian dicari nilai thresholdnya sebagai panjang akhir dari daerah
kosong Dan nilai tersebut diikutsertakan dalam looping dan jika setelah itu terdapat sinyal kembali maka
berarti masih ada sinyal suara dan jika tidak ada berarti tidak ada sinyal suara
34 Proses Pada Client
Preses pada client dapat dijelaskan sebagai berikut
Gambar 314 Blok diagram proses client
Penjelasan dari blok digram tersebut adalah
1 Pertama adalah perekaman suara pada software recording yang hasilnyadisimpan dalam bentuk file
berekstensi ldquowavrdquo File ini selanjutnya akan dijadikan file input pada sistem client
2 File suara yang telah tersimpan diolah dalam program sampling untuk mendapatkan sinyal suara dalam
bentuk frame Setiap frame terdiri dari 120 sampel
Mic Extract AD Voice Dikenali
Bab 3 Perencanaan dan Implementasi
32
3 Tiap frame diwindow dengan window Hamming untuk mengurangi efek diskontinyuitas pada ujung-
ujung frame
4 Sinyal hasil window yang masih dalam domain time diubah ke dalam domain frekuensi dengan Fast
Fourier Transform (FFT)
5 Hasil dari windowing sinyal masukan kemudian dihitung autokerelasinya
6 Hasil koefisien autokorelasi kemudian dikonversikan ke sebuah LPC parameter set (untuk metode LPC
autokorelasi) Sekumpulan parameter LPC yang sangat penting yang dapat diturunkan langsung dari
kumpulan koefisien LPC adalah koefisien cepstral LPC
7 Selanjutnya dilakukan proses DTW (Dynamic Time Warping) pengukuran jarak suara antara sinyal
standart dan sinyal input Hasilnya disimpan dalam sebuah file berekstensi ldquotxtrdquo
8 File berekstensi txt tersebut ke server sebagai sinyal suara input
35 Proses Pada Server
Proses pada server dapat dijelaskan sebagai berikut
Gambar 315 Blok diagram proses server
Penjelasan dari blok diagram tersebut adalah
1 Isi file berekstensi rdquotxtrdquo diterima oleh server dan digunakan sebagai data input untuk memanggil
database tone DTMF yang sesuai sebagai pengoperasian alat yang akan dikontrol
2 Alat yang terkontrol akan menunjukkan hasilnya
Memanggil
Database
Tone
Dikode
kan
dalam
biner
Kirim
ke HW
Kontrol
Alat
Input
server
Bab 4 Pengujian dan Analisa
33
BAB 4
PENGUJIAN DAN ANALISA
41 Pendahuluan
Untuk mengetahui tingkat keberhasilan dari suatu sistem diperlukan pengujian keseluruhan dari
perencanaan hasil sistem yang telah dibuat Dalam bab ini akan dijelaskan mengenai hal tersebut
Pengujian yang akan dilakukan adalah
1 Pengujian dan analisa sistem pengolahan sinyal wicara
2 Pengujian dan analisa sistem client server
3 Pengujian dan analisa awal dan akhir sistem pengolahan wicara
42 Pengujian dan Analisa Sistem Pengolahan Wicara
Tujuan untuk mendapatkan parameter ciri individu dari sampel sinyal yang diolah
421 Perekaman Suara
Pada Tugas Akhir ini digunakan duamacam perangkat lunak yang dibangun sendiri berbasis TclTk 830
dan Snack 22 sebagai perangkat lunak yang diuji dan perangkat lunak Wavesurver sebagai pembanding
4211 Dengan menggunakan TclTk dan Snack
Tampilan awal dari perangkat lunak yang dibangun dengan menggunakan TclTk dan Snack adalah sebagai
berikut
Gambar 41 Tampilan awal perangkat lunak menggunakan TclTk dan Snack
Bab 4 Pengujian dan Analisa
34
Pertama kali tombol record ditekan maka proses pengambilan sinyal wicara yang dimasukkan
dimulai Pada saat tombol Stop ditekan maka program akan merekam kata ldquosatu nyalardquordquosatu matirdquordquodua
nyalardquordquodua matirdquordquotiga nyalardquordquotiga matirdquordquoempat nyalardquordquoempat matirdquo sesuai yang kita masukkan dan
tampilan display akan digambarkan bentuk sinyal yang dihasilkan secara otomatis Hasil perekaman dapat
dilihat pada gambar berikut 42
Gambar 42 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan perangkat lunak
TclTk dan Snack
Gambar 42 menunjukkan bahwa proses pengambilan sinyal suara telah dilakukan Sinyal suara yang
dimasukkna akan terlihat gambarnya pada layar hitam (canvas)
4212 Dengan menggunakan Wave Surver
Sebagai pembanding dari program yang telah dibuat yaitu dari perangkat lunak TclTk dan Snack
digunakan Wavesurver
Tampilan awal dari Wavesurver 157 tampak seperti pada gambar 43
Gambar 43 Tampilan awal perangkat lunak menggunakan Wavesurver
Bab 4 Pengujian dan Analisa
35
Pada saat tombol recording ditekan maka program akan merekam kata ldquosatu nyalardquo dan pada tampilan
display akan digambarkan bentuk sinyal yang dihasilkan secara otomatis Hasil perekaman bisa dilihat pada
gambar 44
Gambar 44 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan
perangkat lunak Wavesurver
Perekaman pada Wavesurver dapat diset sesuai dengan kebutuhan Dimana pada sistem pengolahan sinyal
suara untuk perekaman suara diset sebagai berikut
Gambar 45 Kotak dialog setting perekaman perangkat lunak Wavesurver
Pada data di atas dapat dilihat bahwa suara yang direkam dengan mengguanakan perangkat lunak
Wavesurver mempunyai header dan tail yang berisi keterangan perekaman sebagai berikut
12000 menunjukkan frekuensi sampling yang digunakan
Bab 4 Pengujian dan Analisa
36
Channels menunjukkan bahwa suara direkam dengan menggunakan channel Mono
Sampel Encoding Lin 16 menunjukkan bahwa suara direkam dengan menggunakan
16 bit PCM
422 Sampling
Dengan menggunakan program yang dibangun sendiri di atas proses penyamplingan sinyal input sekaligus
telah terjadi dimana dengan frekuensi sampling sebesar 12000 Hz didapatkan sinyal dari kata ldquosatu nyalardquo
dengan potongan sebagai berikut
3306
3538
3788
4076
4282
4684
4747
4956
5083
5442
5844
5901
6244
6196
6462
6104
Berikut ini adalah cuplikan dari data sampel kata ldquo empat matirdquo mulai dari milidetik ke-13900
Bab 4 Pengujian dan Analisa
37
Data Sampling
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 46 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900
Pada gambar 46 telah dilakukan proses sampling sinyal masukan dengan frekuensi sampling sebesar 12000
Hz maka didapatkan hasil sinyal yang hampir mirip dengan sinyal analognya karena sinyal suara manusia
memiliki jarak frekuensi antara 300 sampai 5000 Hz dimana syarat Nyquist minimal fsampling 2fsinyal
telah terpenuhi
423 Windowing
Jenis window yang digunakan adalah window Hamming
Pada proses window hamming kata yang telah disampel sebanyak 240 sampel akan diwindow sehingga
menghasilkan sinyal yang lebih kecil peaknya Hasilnya adalah sebagai berikut
-26174
-22078
-12518
-1444
9690
19308
23360
20049
12365
2391
-7874
-14539
-17837
-19929
-19007
-16955
Bab 4 Pengujian dan Analisa
38
Sedangkan hasil dalam bentuk gambar dapat dilihat pada gambar berikut
Data Windowing
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 47 Hasil Windowing data sampel kata ldquoempat matirdquo milidetik ke-13900
Seperti yang ditunjukkan gambar 47 proses windowing telah dilakukan Berdasarkan gambar 47
tersebut dapat dikatakan bahwa window Hamming menyebabkan sinyal yang disampel lebih halus Gambar
47 dapat dibandingkan dengan gambar 46 yaitu gambar sinyal sebelum melalui proses windowing dapat
dilihat bahwa sinyal yang telah diwindow mempunyai sinyal yang lebih halus Hal ini membuktikan bahwa
fungsi dari windowing untuk mengurangi efek diskontinyuitas pada ujung-ujung frame adalah benar
424 Fast Fourier Transform Sinyal Masukan
Pada proses ini sinyal yang sebelumnya berada dalam domain waktu akan diubah dalam domain
frekuensi Setiap sinyal yang berasal dari alam merupakan sinyal analog yang bila diolah harus diubah
dalam bentuk sinyal digital Dan pengolahan dalam digital merupakan pengolahan dalam bentuk diskrit
Pada proyek akhir ini sinyal dalam domain waktu akan diubah dalam domain frekuensi dengan 256 titik
Karena hasil yang diperoleh berupa hasil dari fungsi konvolusi maka hanya akan diambil 128 titik saja yang
akan diolah dalam proses selanjutnya Sedangkan 128 sisanya tidak dipergunakan karena berupa
pencerminan saja
Hasil dari Fast Fourier Transform (FFT) dari penggalan kata ldquoempat matirdquo pada milidetik ke-13900 dalam
bentuk teks adalah
103505157
106889458
Bab 4 Pengujian dan Analisa
39
104735321
100408661
89175987
95431992
96601654
8489315
89637459
8630304
75320663
87866905
91001945
89607201
82408546
83440155
4241 Dengan Menggunakan TclTk dan Snack
Fast Fourier Transform Sinyal
Masukan
0
20
40
60
80
100
120
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 48 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat
lunak TclTk dan Snack
Dari gambar 48 di atas sinyal suara yang sebelumnya berada di domain waktu telah diubah ke domain
frekuensi Hasil Fast Fourier Transform sinyal masukan menunjukkan sebaran spektrum frekuensi dari
sinyal suara yang telah dihasilkan oleh pengucap antara 0 sampai 6000 Hz
Bab 4 Pengujian dan Analisa
40
4242 Dengan Menggunakan Wavesurver
Gambar 49 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat
Wavesurver
Dari gambar 49 di atas hasil Fast Fourier Transform sinyal masukan menunjukkan sebaran spektrum
frekuensi dari sinyal suara yang telah dihasilkan oleh pengucap antara 0 sampai 6000 Hz adalah sama
seperti pada gambar dengan gambar 48 yang diambil dengan perangkat lunak TclTk dan Snack
425 Autocorrelation Analysis
Pada proses ini sinyal masukan dalam domain waktu yang telah diwindow hamming dihitung korelasinya
dengan menggunakan orde analisi LPC sebesar 15 Sehingga akan didapatkan hasil rk(autokorelasi) sebagai
berikut
17648453
128874
0669745
0662566
0470262
0164336
-010638
-0229032
-016249
0014062
0138456
0188749
0117826
0014517
-0052704
426 LPC Analysis
Dari hasil autokorelasi tersebut di atas selanjutnya adalah LPC dimana mengkonversi masing-masing
frame dari autokorelasi p+1 ke dalam sebuah LPC Parameter a
Bab 4 Pengujian dan Analisa
41
Metode yang formal untuk mengkonversi dari koefisien autokorelasi ke sebuah LPC parameter (untuk
metode LPC autokorelasi) dikenal sebagai Metode Durbin dan secara formal hasilnya dapat ditunjukkan
sebagai berikut ini
1
-128874
0160681
-0156173
0166653
0255508
0192145
0003037
-0202248
-0265201
-0112133
005938
0232232
0203554
0048429
Dari hasil di atas terlihat bahwa untuk setiap frame nilai pertama menunjuukan energi dari masing-masing
frame dan selanjutnya adalah parameter LPC dalam satu frame yang digunakan sebagai penentu ciri dari
sinyal suara yang dihasilkan oleh individu
427 Fast Fourier Transform LPC Parameter
Pada proses ini nilai dari parameter LPC yang sebelumnya masih berada dalam domain waktu akan diubah
dalam domain frekuensi Pada proyek akhir ini parameter LPC dalam domain waktu akan diubah dalam
domain frekuensi dengan 256 titik Karena hasil yang diperolah berupa hasil dari fungsi konvolusi maka
hanya akan diambil 128 titik saja yang akan diolah dalam proses selanjutnya Sedangkan 128 sisanya tidak
dipergunakan karena berupa pencerminan saja
Hasil dari Fast Fourier Transform (FFT) dari parameter LPC pada penggalan kata ldquoempat matirdquo pada
milidetik ke-1 dalam bentuk teks adalah
103505157
106889458
104735321
100408661
89175987
Bab 4 Pengujian dan Analisa
42
95431992
96601654
8489315
89637459
8630304
75320663
87866905
91001945
89607201
82408546
4271 Dengan menggunakan TclTk dan Snack
Fast Fourier Transform Parameter
LPC
0
20
40
60
80
100
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 410 Fast Fourier Transform LPC dengan
menggunakan perangkat lunak TCLTk
dan Snack
Hasil gambar 410 menunjukkan bahwa parameter LPC yang di-Fourier Transform-kan akan menjadi
selubung spektrum dari spektrum sinyal masukan Sehingga jika selubung dan spektrumnya secara gambar
cocok dapat dikatakan bahwa LPC parameter yang dihitung benar
Bab 4 Pengujian dan Analisa
43
4272 Dengan menggunakan Wavesurver
Gambar 411 Fast Fourier Transform LPC denganmenggunakan perangkat lunak
Wavesurver
Hasil gambar 411 menunjukkan bahwa parameter LPC yang di-Fourier Transform-kan akan menjadi
selubung spektrum dari spektrum sinyal masukan adalah sama dengan yang telah diperoleh dengan
perangkat lunak TclTk seperti pada gambar 410
428 LPC Parameter to LPC Cepstrum
Koefisien LPC cepstrum koefisien yang direpresentasikan dengan Fourier Transform dengan spektrum
besaran log telah ditampilkan menjadi kumpulan fitur untuk pengenalan wicara yang lebih handal
terpercaya daripada koefisien LPC koefisien PARCOR atau koefisien log area ratio
Hasil dari LPC cepstrum pada penggalan kata ldquoempat matirdquo pada milidetik ke-106 dalam bentuk teks adalah
16636311
1387922
0474473
0654796
0429659
0132543
0225374
0126501
0021161
0242437
Bab 4 Pengujian dan Analisa
44
0160623
0065745
0139379
0056064
-0029262
Dari hasil di atas dapat dianalisa bahwa besaran-besaran dari LPC cepstrum benar-benar dapat
digunakan sebagai penentu ciri dari sinyal suara individu karena besaranndashbesaran yang dihasilkan oleh LPC
cepstrum dari yang pertama sampai yang terakhir dalam satu frame sangat bervariasi nilainya
429 Inverse Fast Fourier Transform LPC Cepstrum
Untuk menggambarkan ciri atau fitur wicara dalam domain waktu maka LPC cepstrum di-Invers Fast
Fourier Transform-kan sehingga didapatkan gambar untuk penggalan kata ldquosatu nyalardquo pada milidetik ke-
400 seperti gamabar 412
Fast Fourier Transform LPC
Cepstrum
0
20
40
60
80
100
120
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 412 Invers Fast Fourier Transform LPC cepstrum dengan menggunakan
perangkat lunak TCLTk dan Snack
Dari gambar 412 dapat dianalisa bahwa bentuk dari invers fourier transform LPC cepstrum yang
menyerupai selubung pada domain waktu dari spektrum frekuensi juga digunakan untuk menunjukkan
bahwa perhitungan LPC cepstrumnya telah benar dan dapat digunakan sebagai penentu ciri sinyal suara
individu
Invers Fast Fourier Transform LPC
Cepstrum
Bab 4 Pengujian dan Analisa
45
Gambar 413 Penggabungan spektrum sinyal spektrum LPC dan spektrum LPC
Cepstrum
Gambar 413 spektrum sinyal yang diwakili warna merah merupakan hasil sinyal yang telah di-Fast
Fourier Transform-kan Spektrum sinyal yang berwarna hijau merupakan parameter LPC yang telah di-
Fourier Transform-kan Sinyal ini akan menjadi selubung spektrum dari spektrum sinyal masukan Bila
selubung dan spektrumnya secara gambar cocok maka dapat dikatakan bahwa LPC parameter yang dihitung
adalah benar Dari gambar 413 dapat dilihat antara selubunga dan selubung sinyal masukan sudah cocok
Sinyal yang berwarna biru merupakan sinyal rata-rata dari sinyal selubung spektrum
4210 Dynamic Time Warping
Pengujian terakhir dari proses pengolahan sinyal wicara adalah membandingkan sinyal hasil cepstrum LPC
antara data input dan data standarnya Berdasarkan daerah pembatas kontinyuitas lokal dari persamaan 21
maka digunakan model yang pertama dan menggunakan persamaan 2116 dalam menghitung jarak antara
kata sebagai standar dan sebagai masukan
Selanjutnya menetukan data data sebagai data standar dan data sebagai data masukan Pada sistem ini
digunakan 8 kombinasi kata sebagai kata standar dan kata msukan untuk masing-masing pengujian dengan
kata standar sebanyak sepuluh (10) kali Adapun kata yang digunakan sebagai standar dan kata yang diuji
adalah meliputi satu nyalasatu matidua nyaladua matitiga nyalatiga matiempat nyalaempat
mati
Pada pengujian sistem kali ini masih menggunakan datasuara dari pebgucap yang sama Dari kelima data
standar yang ada dilakukan pembandingan dengan masing-masing 10 (sepuluh) kali pemasukan data Data
yang menghasilkan jarak euclidian terpendek dari masing-masing kata itulah yang akan diambil sebagai
data perintah terbaik
Bab 4 Pengujian dan Analisa
46
Pelekukan Jalur Suara
0
50
100
150
0 50 100 150
Sinyal Input empat mati
Sinyal Standart
empat mati
Gambar 414 Pelekukan Jalur Suara dengan Dynamic Time Warping
Dari gambar 414 dapat dianalisa bahwa dengan menggunakan dynamic time warping dua buah sinyal suara
akan dibandingkan vektor-vektor spektralnya dimana juga terdapat proses pembandingan panjang sinyal
antara dua buah sinyal tersebut sehingga terjadi proses pemadanan panjang sinyal dengan cara
memperpanjang dan menekuk vektor spektralnya Memperpanjang dalam arti memperpanjang sinyal yang
lebih pendek dengan memperhatikan perbandingan vektor spektralnya dan demikian pula menekuk dalam
arti menekuk sinyal yang lebih panjang dengan memperhatikan vektor spektralnya Dengan panjang yang
sama sebagai hasil dynamic time warping maka jarak euclidian antara dua sinyal dapat diperbandingkan
atau dihitung
4211 Min Value dan Sorting
Min Value dan Sorting menjadi satu paket sendiri yang digunakan untuk mencari kemungkinan hasil
terkecil dari pembandingan pola kata masukkan dengan kedelapan kata standart Keluaran dari fungsi
dynamic time warping akan memberikan delapan buah data yaitu hasil pembandingan kata masukan
dengan kata standart satu nyala hasil pembandingan kata masukan dengan kata standart satu mati hasil
pembandingan kata masukan dengan kata standart dua nyala hasil pembandingan kata masukan dengan
kata standart dua mati hasil pembandingan kata masukan dengan kata standart tiga nyala hasil
pembandingan kata masukan dengan kata standart tiga mati hasil pembandingan kata masukan dengan
kata standart empat nyala hasil pembandingan kata masukan dengan kata standart empat mati Dengan
metode sorting buble sort maka akan didapat nilai minimalnya
0748745
0362272
0633390
0327642
0600250
0346530
Bab 4 Pengujian dan Analisa
47
0545907
0207464
Berdasarkan data diatas maka perintah input sama dengan perintah kedelapan (ldquoempat matirdquo) karena
memiliki hasil time warping terkecil yaitu 0207464
4212 Hasil Pengujian Awal dan Akhir Sinyal
Pada proses penentuan awal dan akhir agar lebih presisi menggunakan ldquoPowerrdquo Adapun kelebihan dari
power adalah dapat membedakan antara sinyal suara dengan sinyal noise
Untuk menentukan awal dan akhir dicari nilai power Pada proses power kata yang telah disampel
sebanyak 240 sampel akan menghasilkan sinyal yang halus dan terletak di atas sumbu x Hasil dalam bentuk
teks adalah sebagai berikut ini
7678195313
1165659297
123492625
8917128906
6318766797
4531086719
4338374609
4912630469
5382503125
4548908984
429756875
4739710547
4575902734
4682924609
4786217578
Bab 4 Pengujian dan Analisa
48
Gambar hasil power bisa dilihat pada gambar 415 berikut
Power
0
100000
200000
300000
400000
500000
0 50 100 150
Jumlah Frame
Amplitude
Gambar 415 Sinyal ldquoempat matirdquo hasil program power
Gambar 416 berikut ini adalah hasil pengujian kata ldquoempat matirdquo sebagai masukan dan kata standar ldquoempat
matirdquo dimana kedua kata dibandingkan berdasarkan powernya sebelum proses Dinamic Time Warping
Sinyal warna biru sebagai power sinyal standart dan sinyal yang berwarna merah merupakan power sinyal
input
Perbandingan Dua Kata empat mati
sebelum DTW
0
100000
200000
300000
400000
500000
0 50 100 150
Jumlah Frame
Amplitude
Gambar 416 Perbandingan power dua kata ldquoempat matirdquo sebelum Dynamic Time Warping
Berikut ini adalah hasil pengujian dua buah kata ldquoempat matirdquo dengan menggunakan dynamic time warping
dimana jalur pelekukan suara dapat digambarkan pada gambar 417
Bab 4 Pengujian dan Analisa
49
Pelekukan Jalur Suara
0
50
100
150
0 50 100 150
Sinyal Input empat mati
Sinyal Standart
empat mati
Gambar 417 Pelekukan jalur suara dua kata ldquoempat matirdquo dengan DTW
Gambar 418 adalah hasil pengujian dua buah kata ldquoempat matirdquo sebagai masukan dan dan kata standar
ldquoempat matirdquo dimana kedua kata dibandingkan berdasarkan powernya setelah proses dynamic time
warping
Gambar 418 dapat dibandingkan dengan gambar 416 yaitu sinyal sebelum proses Dynamic Time Warping
Sebelum proses Dynamic Time Warping sinyal tidak mengalami proses penekukan dan penarikan data
berdasarkan waktu antara keduanya sehingga antara sinyal input dan sinyal standart memiliki ukuran
panjang yang sangat jauh berbeda
Pemadanan Dua Kata Setelah DTW
0
100000
200000
300000
400000
500000
0 100 200 300
Jumlah Frame
Amplitude Power
Gambar 418 Perbandingan power dua kata ldquoempat matirdquo setelah Dynamic Time Warping
Dari gambar 418 dapat dinyatakan bahwa setelah melalui proses dynamic time warping terjadi penekukan
dan penarikan data berdasarkan waktu antara keduanya sehingga pada akhirnya kedua sinyal memiliki
ukuran panjang yang sama Sehingga dengan demikian dapat dicari jarak euclidian untuk menentukan
sebuah kata yang sesuai dengan kata yang lainnya
Bab 4 Pengujian dan Analisa
50
4213 Hasil Pengujian Sistem Perangkat Lunak
Pada pengujian sistem perangkat lunak diambil sampel data dari 3 orang dimana terdiri dari 3 orang pria
dan 1 orang wanita Pria pertama merupakan standar sekaligus pengisi suara untuk perintah Sedangkan pria
kedua dan wanita sebagai pembanding untuk mengetahui unjuk kerja sistem
Tabel 41 Hasil pengujian sistem pengolahan sinyal wicara untuk pengucap yang sama (pria
1)
8 7 6 5 4 3 2 1 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05417
03487
05964
03443
07272
04424
03449
01
961
Satu
nyala
Sinyal Standart
02496
04723
03013
05120
03450
03815
01
739
03471
Satu
mati
04389
02035
06139
03244
04343
02
158
04567
04047
Dua
nyala
01866
04517
04157
05267
01
940
02561
02036
04779
Dua
mati
04833
02168
03984
01
090
06409
04278
05019
02690
Tiga
nyala
02683
04628
01
188
03416
04046
03345
02959
04614
Tiga
mati
03807
01
046
05271
01974
05934
03134
04363
02554
Empat
nyala
01
388
03728
02269
04497
02559
03195
02476
04874
Empat
mati
Bab 4 Pengujian dan Analisa
51
16
15
14
13
12
11
10
9 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05776
02988
05100
04019
06101
05338
04219
02
047
Satu
nyala
Sinyal Standart
03382
04381
02427
05124
02642
05990
02
706
03335
Satu
mati
04453
02558
04993
04574
03381
02
344
04529
04121
Dua
nyala
01669
04532
03190
06355
01
004
04807
03466
04622
Dua
mati
05209
02261
03366
01
124
05377
04165
05369
02660
Tiga
nyala
03721
04074
00
891
03002
02637
05958
02719
04333
Tiga
mati
03889
01
755
04365
02341
04826
03150
05193
02472
Empat
nyala
01
092
03974
01802
04848
01455
05343
02717
04536
Empat
mati
Bab 4 Pengujian dan Analisa
52
24
23
22
21
20
19
18
17 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05157
04015
06277
02964
05609
04690
03376
01
369
Satu
nyala
Sinyal Standart
01787
05144
03814
04134
04952
04843
01
636
03404
Satu
mati
03988
03026
07420
03020
03977
01
905
04801
03610
Dua
nyala
01630
05662
06259
05009
01
808
03357
02206
05094
Dua
mati
04667
02681
05731
01
448
05575
03280
05344
03417
Tiga
nyala
01902
05055
03
395
02597
04700
04618
02951
04808
Tiga
mati
03809
01
863
06920
02154
04252
02455
04616
03184
Empat
nyala
00
761
04379
04288
04053
03629
04122
02419
05622
Empat
mati
Bab 4 Pengujian dan Analisa
53
32
31
30
29
28
27
26
25 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
04793
03554
06312
03247
06514
03585
03068
02
935
Satu
nyala
Sinyal Standart
01671
04661
03012
03961
02834
04667
01
079
05475
Satu
mati
04033
02359
05307
02587
03475
01
587
04781
04010
Dua
nyala
02222
04949
03652
04387
00
958
03222
02647
04966
Dua
mati
04499
02207
04170
01
873
05884
02500
05631
03257
Tiga
nyala
01791
04432
01
196
02646
02999
04619
02558
05048
Tiga
mati
03561
01
050
05061
02437
04927
01887
05325
03424
Empat
nyala
00
858
03774
02052
03974
01440
04186
02597
05381
Empat
mati
Bab 4 Pengujian dan Analisa
54
40
39
38
37
36
35
34
33 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
06471
03838
05816
03364
06492
03613
03496
01
111
Satu
nyala
Sinyal Standart
02951
05556
02631
04558
05057
04799
01
683
02958
Satu
mati
05259
02977
05228
03305
04614
00
878
05159
02707
Dua
nyala
03165
05686
03078
05512
01
088
03082
03482
04823
Dua
mati
05397
02037
03714
00
949
06365
02818
05998
02829
Tiga
nyala
02990
04867
00
921
02759
04978
04752
03131
04533
Tiga
mati
05028
01
233
05114
02070
05154
01825
05439
01975
Empat
nyala
01
914
04521
01834
04248
02711
04164
03149
04755
Empat
mati
Bab 4 Pengujian dan Analisa
55
48
47
46
45
44
43
42
41 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
07997
03701
06005
03992
05800
05223
03706
01
198
Satu
nyala
Sinyal Standart
03909
04978
02572
05339
05784
05103
01
161
03113
Satu
mati
06284
02355
05419
04194
03709
02
588
04764
02834
Dua
nyala
03737
04883
03321
06131
03
489
04229
03188
04962
Dua
mati
05885
02259
04026
00
918
06123
03601
05739
0 2867
Tiga
nyala
03583
04464
00
974
03340
05828
05114
02720
04269
Tiga
mati
05762
01
230
7
05459
02231
04899
03397
05114
0 2395
Empat
nyala
02
247
02888
01948
04994
04987
04505
02141
0 4956
Empat
mati
Bab 4 Pengujian dan Analisa
56
56
55
54
53
52
51
50
49 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05627
03923
06226
04018
05254
04895
02933
02
009
Satu
nyala
Sinyal Standart
02473
04947
02892
05661
05301
05040
01
289
03008
Satu
mati
04393
02779
06046
04425
02900
01
743
04571
02669
Dua
nyala
02222
05352
04171
06748
01
202
03736
03177
03699
Dua
mati
04644
02488
03523
00
835
05391
03319
05277
03671
Tiga
nyala
02213
04345
01
009
03758
02869
05933
02761
03900
Tiga
mati
04093
01
443
05080
05083
04959
02819
04840
02709
Empat
nyala
01
239
04029
0 2223
05428
01263
04236
02575
04141
Empat
mati
Bab 4 Pengujian dan Analisa
57
64
63
62
61
60
59
58
57 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
07489
03792
05134
04199
06459
04019
03044
01
850
Satu
nyala
Sinyal Standart
03586
04783
02186
05509
02884
04251
01
198
03243
Satu
mati
05697
02612
04576
04268
03211
01
519
04639
03845
Dua
nyala
03563
05288
02855
06752
01
074
03523
03265
04523
Dua
mati
05768
02262
03884
01
048
06348
02633
05784
02683
Tiga
nyala
03449
04859
01
009
03177
03425
04355
02975
04077
Tiga
mati
05693
01
445
04574
02498
05298
01999
05622
02359
Empat
nyala
02
236
04215
01468
05161
01827
03851
03161
04416
Empat
mati
Bab 4 Pengujian dan Analisa
58
72
71
70
69
68
67
66
65 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05439
02975
05593
03689
05796
03415
03416
01
492
Satu
nyala
Sinyal Standart
02225
04543
04586
04584
02669
04529
01
112
02881
Satu
mati
04025
02639
06303
03009
02582
01
003
05045
02767
Dua
nyala
01734
05437
04847
04897
00
826
02892
02584
04797
Dua
mati
04671
02336
04988
01
206
05595
02572
05647
02991
Tiga
nyala
02095
04805
04
025
02747
02848
04359
02773
04076
Tiga
mati
03971
01
297
05065
02121
04489
01703
05074
02131
Empat
nyala
00
901
04123
04026
04154
01514
03762
02328
04561
Empat
mati
Bab 4 Pengujian dan Analisa
59
80
79
78
77
76
75
74
73 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
07997
03054
06228
04446
05805
04687
03173
03
391
Satu
nyala
Sinyal Standart
05051
04619
05619
05749
02631
04447
01
086
05310
Satu
mati
05949
03685
05899
05607
03163
01
874
05234
03797
Dua
nyala
03109
05053
05258
07102
01
095
03368
03585
04539
Dua
mati
06473
02004
04524
01
350
05525
03084
05608
03682
Tiga
nyala
04759
04205
04
309
03701
03031
04660
02678
05243
Tiga
mati
05572
02
003
05167
02702
04478
02552
05358
03563
Empat
nyala
02
459
04960
04964
05734
01641
03971
02630
05029
Empat
mati
Pengujian pertama ini dilakukan dengan cara memasukkan suara pria pertama (yang digunakan sebagai
pengisi suara standart) Setiap satu perintah dilakukan sebanyak 10 kali pengujian Hasil pengujian
merupakan nilai dari hasil proses Dynamic Time Warping yang merupakan nilai dari pemadanan sinyal
input dengan kedelapan sinyal standart Nilai terkecil (nilai yang tercetak tebal) yang didapatkan merupakan
hasil yang paling mendekati sinyal standart Yang berarti sinyal masukan tersebut dianggap paling sesuai
dengan sinyal standart
Prosentase keberhasilan pengucapspeaker pertama untuk kedelapan perintah sebesar 100 semuanya
menunjukkan kepada sinyal masukkan dan sinyal standart yang sama
Hasil pengujian menunjukkan bahwa ciri sinyal suara yang dihasilkan oleh pengucap speaker pertama dan
sebagai pemberi standart adalah sama
Bab 4 Pengujian dan Analisa
60
Tabel 42 Hasil pengujian sistem pengolahan sinyal wicara untuk pengucap yang lain (pria
2)
8 7 6 5 4 3 2 1 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
06023
05121
07146
04599
04996
04561
07575
04
358
Satu
nyala
Sinyal Standart
04018
05701
06369
06256
03518
05738
07004
08129
Satu
mati
07120
03925
07395
04897
05938
02246
10082
06777
Dua
nyala
04963
05958
05189
07345
03449
04854
08816
08543
Dua
mati
05919
04337
05163
02
130
04797
03463
08871
05289
Tiga
nyala
03709
04519
04380
03601
03491
05239
06
046
07381
Tiga
mati
06087
03
161
06178
03280
05
068
02
439
08853
05354
Empat
nyala
03
409
04321
04
208
05569
03219
04898
06863
08596
Empat
mati
Bab 4 Pengujian dan Analisa
61
16
15
14
13
12
11
10
9 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05475
03932
05521
04
383
05634
05416
04
464
03
434
Satu
nyala
Sinyal Standart
04076
05731
04541
05681
03574
04920
03971
06662
Satu
mati
07427
04886
07924
05962
05824
02
712
07837
05504
Dua
nyala
04475
06666
05765
07616
03414
04203
05431
06334
Dua
mati
05357
03797
05099
04509
04902
04332
07097
05220
Tiga
nyala
04197
05134
04
209
05088
03169
04547
04464
06516
Tiga
mati
05936
03
769
05910
05109
05
311
03435
07646
04977
Empat
nyala
03
576
05767
04591
06367
03010
04129
04944
06850
Empat
mati
Bab 4 Pengujian dan Analisa
62
24
23
22
21
20
19
18
17 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
06927
04
279
08096
04
448
06461
05522
03935
02
444
Satu
nyala
Sinyal Standart
06409
05322
05528
05481
04912
04491
02
011
05508
Satu
mati
06134
04643
08962
06002
04868
02
579
06122
05502
Dua
nyala
04753
06443
05501
07364
02
298
03206
04239
06684
Dua
mati
05709
04928
05456
04961
06142
05726
06454
03831
Tiga
nyala
05798
04882
03
235
04708
04838
04317
03526
05462
Tiga
mati
05021
04423
06842
05583
05222
04132
06363
04235
Empat
nyala
04
457
05427
03546
05773
02946
03573
03618
07019
Empat
mati
Bab 4 Pengujian dan Analisa
63
32
31
30
29
28
27
26
25 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05260
04224
07393
04661
06292
04993
03989
03
549
Satu
nyala
Sinyal Standart
04478
04669
04568
05977
03523
04046
03
438
04819
Satu
mati
06448
04308
08152
06114
04665
02
444
07609
05162
Dua
nyala
04024
05867
05103
07873
01
872
02613
04489
06765
Dua
mati
05363
04
672
05250
04
529
05210
05103
06546
04794
Tiga
nyala
04422
04039
02
482
05102
03499
03985
03969
04371
Tiga
mati
05492
04073
06626
05239
04902
03553
06869
04794
Empat
nyala
03
326
04543
03153
06510
02133
03419
04175
05287
Empat
mati
Hasil pengujian yang kedua ini dilakukan dengan cara memasukkan suara dari pria kedua (pria lain yang
tidak digunakan sebagai suara standart) Setiap satu perintah dilakukan empat (4) kali proses pengujian
Hasil pengujian merupakan nilai dari hasil proses Dynamic Time Warping yang merupakan nilai dari
pemadanan sinyal input dengan kedelapan sinyal standart Nilai terkecil (nilai yang tercetak tebal) yang
didapatkan merupakan hasil yang paling mendekati sinyal standart Yang berarti sinyal masukan tersebut
dianggap paling sesuai dengan sinyal standart
Prosentase keberhasilan pengucapspeaker kedua untuk kedelapan perintah bervariasi sebesar 50
sampai dengan 100 semuanya menunjukkan kepada sinyal masukkan dan sinyal standart yang berbeda
Hasil pengujian menunjukkan bahwa ciri sinyal suara yang dihasilkan oleh pengucap speaker kedua dan
sebagai pemberi standart adalah mendekati sama
Bab 4 Pengujian dan Analisa
64
Tabel 43 Hasil pengujian sistem pengolahan sinyal wicara untuk pengucap yang sama (pria)
No Perintah Lampu DTMF
1 1 nyala B B
2 1 mati B G
3 2 nyala B G
4 2 mati G X
5 3 nyala G X
6 3 mati G X
7 4 nyala B B
8 4 mati B B
9 1 nyala B G
10 1 mati B B
11 2 nyala B G
12 2 mati B B
13 3 nyala B G
14 3 mati B B
15 4 nyala B G
16 4 mati B B
17 1 nyala B G
18 1 mati B B
19 2 nyala G X
20 2 mati G X
21 3 nyala B B
22 3 mati B B
23 4 nyala B B
24 4 mati G X
No Perintah Lampu DTMF
25 1 nyala B G
26 1 mati G X
27 2 nyala G X
28 2 mati B G
29 3 nyala B G
30 3 mati B G
31 4 nyala B G
32 4 mati G X
B Berhasil
G Gagal
X Donrsquot Care (Diabaikan)
Pengujian yang ketiga ini dilakukan oleh pria pertama (pria yang suaranya digunakan sebagai standart)
Masing-masing perintah dilakukan sebanyak empat kali pengujian
Bab 4 Pengujian dan Analisa
65
Pada kolom ketiga (kolom lampu) tanda B (berhasil) menunjukkan bahwa perintah yang diberikan pada
hardware berhasil dilakukan Tanda G (gagal) menunjukkan bahwa perintah yang diberikan pada hardware
gagal dilakukan(hasil tidak sesuai dengan perintah yang diberikan)
Pada kolom keempat (kolom DTMF) menunjukkan laporan dari hardware ke PC server tentang
bagaimana keadaan lampu yang sedang dikontrol apakah dalam keadaan menyala atau mati Pada kolom ini
tanda B (berhasil) menunjukkan bahwa laporan dari hardware ke PC server (yang merupakan proses
otomatisasi) berhasil dilakukan Tanda G (gagal) menunjukkan bahwa laporan ke PC client gagal dilakukan
Sedangkan tanda X (donrsquot care) menunjukkan bahwa perintah diabaikan Hal ini disebabkan perintah pada
hardware (perintah sebelumnya sebelum proses otomatisasi) sudah gagal dilakukan
Prosentase keberhasilan pengucapspeaker pertama untuk kedelapan perintah bervariasi antara 50
sampai 100 semuanya menunjukkan kepada sinyal masukkan dan sinyal standart yang berbeda
Hasil pengujian kedua ini menunjukkan bahwa ciri sinyal suara yang dihasilkan oleh pengucapspeaker
kedua ini yang merupakan suara orang lain (bukan pemberi standart) adalah mendekati sama dengan hasil
yang bervariasi antara 50 sampai 100
43 Pengujian Sistem Client Server
Pada sub bab ini akan diujikan program Client Server yang akan mengirimkan sinyal hasil pengolahan
suara
Tampilan pada client adalah seperti gambar 421 yang merupakan tampilan awal pada saat program
dimulai
Gambar 421 Proses pada client
Bab 4 Pengujian dan Analisa
66
Gambar 422 Proses pada server
1 Sebelumnya program server harus disiapkan lebih dulu
2 Setelah itu client dijalankan
3 Setelah client siap user memasukkan suara yang selanjutnya akan diolah sampai proses DTW
4 Server menerima data yang selanjutnya digunakan untuk melakukan kontrol alat rumah tangga
44 Analisa Pengujian Sistem Secara Keseluruhan
Berdasarkan data-data yang telah didapatkan di atas maka dapat ditarik suatu analisa bahwa
Berdasarkan tabel 44 untuk pengujian pertama pria 1 adalah pria yang suaranya digunakan sebagai standart
Prosentase keberhasilan rata-rata yang didapat untuk semua perintah adalah sebesar 100 Hal ini menunjukkan
bahwa suara yang diujikan adalah suara yang sama dengan standart dan pria 1 tersebut pernah berinteraksi
dengan sistem
Pengujian yang kedua adalah pengujian yang dilakukan oleh pria 2 (pria lain yang suaranya tidak
dipakai sebagai standart) Prosentase keberhasilan rata-rata yang didapat untuk semua perintah 7188 Karena
sistem bersifat dependent speaker dimana sistem hanya digunakan oleh orang tertentu dalam arti yang pernah
berinteraksi langsung dengan sistem Oleh karenanya didapat nilai prosentase keberhasilan yang bervariasi
Bab 4 Pengujian dan Analisa
67
Tabel 44 Tingkat keberhasilan sistem perangkat lunak
NNO
PENGUCAP
PERINTAH
BANYAK
PERCOBAAN
PROSENTASE
KEBERHASILAN
1 Pria 1 1 nyala 8 kali 100
2 1 mati 8 kali 100
3 2 nyala 8 kali 100
4 2 mati 8 kali 100
5 3 nyala 8 kali 100
6 3 mati 8 kali 100
7 4 nyala 8 kali 100
8 4 mati 8 kali 100
RATA-RATA 100
9 Pria 2 1 nyala 4 kali 100
10 1 mati 4 kali 75
11 2 nyala 4 kali 75
12 2 mati 4 kali 50
13 3 nyala 4 kali 50
14 3 mati 4 kali 75
15 4 nyala 4 kali 50
16 4 mati 4 kali 100
RATA-RATA 7188
Jika diurutkan proses pengolahan wicara dari awal sampai diambil keputusan suara yang dimasukkan
tersebut adalah suara yang sesuai atau tidak adalah sebagai berikut
Bab 4 Pengujian dan Analisa
68
Gambar 423 Tampilan awal perangkat lunak menggunakan TclTk dan Snack
Gambar 423 adalah tampilan awal dari perangkat lunak yang dibangun dengan menggunakan TclTk dan
Snack
Gambar 424 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan dengan
menggunakan perangkat lunak Wavesurver
Gambar 424 adalah tampilan awal dari program Wavesurver yang merupakan pembanding dari program
yang dibuat dari perangkat lunak TclTk dan Snack
Bab 4 Pengujian dan Analisa
69
Gambar 425 Tampilan awal perangkat lunak
menggunakan TclTk dan Snack
Gambar 425 adalah tampilan ketika proses pengambilan sinyal suara sedang dilakukan dengan perangkat
lunak TclTk dan Snack
Gambar 426 Tampilan hasil perekaman kata ldquoempat
matirdquo dengan menggunakan perangkat lunak Wavesurver
Gambar 426 adalah tampilan ketika proses pengambilan sinyal suara sedang dilakukan dengan perangkat
lunak Wavesurver
Bab 4 Pengujian dan Analisa
70
Data Sampling
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 427 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900 menggunakan TclTk dan
Snack
Pada gambar 427 dilakukan proses sampling sinyal masukan dengan frekuensi sampling sebesar 12000
Hz maka didapatkan hasil sinyal yang hampir mirip dengan sinyal analognya yang dilakukan dengan
perangkat lunak TclTk dan Snack
Gambar 428 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900 dengan menggunakan
perangkat Wavesurver
Pada gambar 428 dilakukan proses sampling sinyal masukan dengan frekuensi sampling sebesar 12000
Hz yang dilakukan dengan perangkat lunak Wavesurver
Data Windowing
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 429 Hasil Windowing data sampel
kata ldquoempat matirdquo milidetik ke-13900 menggunakan TclTk dan Snack
Bab 4 Pengujian dan Analisa
71
Proses windowing terdapat pada gambar 429 dilakukan untuk membuat sinyal yang disampel lebih
halus Proses windowing ini dilakukan dengan menggunakan perangkat lunak TclTk dan Snack
Proses windowing pada Wavesurver merupakan fasilitas yang tergabung dengan proses lainnya Misal
dengan proses Fast Fourier Transform Jadi disini tidak ditampilkan hanya sebagai proses windowing saja
tetapi digabungkan dengan proses lain
Fast Fourier Transform Sinyal
Masukan
0
20
40
60
80
100
120
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 430 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat
lunak TclTk dan Snack
Gambar 430 di atas adalah proses Fast Fourier sinyal masukan dengan perangkat lunak TclTk dan Snack
Hasil Fast Fourier Transform sinyal masukan menunjukkan sebaran spektrum frekuensi dari sinyal suara
yang telah dihasilkan oleh pengucap
Sebagai pembanding adalah proses Fast Fourier sinyal masukan yang diambil dengan Wavesurver seperti
pada gambar 431 Yang didapatkan hasil yang sama
Gambar 431 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat Wavesurver
Bab 4 Pengujian dan Analisa
72
Fast Fourier Transform Parameter
LPC
0
20
40
60
80
100
0 2000 4000 6000 8000
Frekuensi (Hz)10 x log
10(magnitude)(dB)
Gambar 432 Fast Fourier Transform LPC dengan menggunakan perangkat lunak TCLTk
dan Snack
Hasil gambar 432 menunjukkan proses Fast Fourier Transform LPC yang dilakukan dengan perangkat
lunak TclTk dan Snack
Gambar 433 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat Wavesurver
Proses Fast Fourier Transform yang dilakukan dengan Wavesurver dapat dilihat pada gambar 433
Pelekukan Jalur Suara
0
50
100
150
0 50 100 150
Sinyal Input empat mati
Sinyal Standart
empat mati
Gambar 434 Pelekukan Jalur Suara dengan Dynamic Time Warping
Bab 4 Pengujian dan Analisa
73
Dari gambar 434 dapat dianalisa bahwa dengan menggunakan dynamic time warping terdapat proses
pembandingan panjang sinyal antara dua buah sinyal input dan sinyal standart sehingga terjadi proses
pemadanan panjang sinyal dengan cara memperpanjang dan menekuk vektor spektralnya
74
BAB 5
PENUTUP
51 Kesimpulan
Dari hasil yang didapatkan maka dapat diambil kesimpulan bahwa
Sistem pengucap tak bebas atau speaker dependent system memiliki tingkat akurasi yang tinggi untuk
pengucap masukan dan pengucap standar yang sama Hal ini dibuktikan dengan hasil pengujian pertama
yang dilakukan oleh pria pertama Pria pertama ini adalah pria yang suaranya digunakan sebagai standar
Nilai prosentase keberhasilan rata-rata untuk semua perintah adalah sebesar 100 dari setiap perintah
dilakukan 8 kali percobaan
Sedangkan pengujian yang dilakukan oleh suara lain (bukan standart) prosentatase keberhasilan
rata-rata yang diperoleh untuk semua perintah 7188 dari setiap perintah dilakukan 4 kali percobaan Hal
ini disebabkan karena suara pria kedua tidak pernah berinteraksi dengan sistem
Keberhasilan sistem ditunjukkan oleh ketepatan penyalaan lampu sesuai dengan yang diperintahkan
melalui perintah suara
Kecepatan sistem secara keseluruhan diperlihatkan dalam tabel 51 dibawah
Tabel 51 Kecepatan sistem keseluruhan
No
Perintah
Waktu (detik)
1 2 3 4 Rata-rata
1 Satu Nyala 11 99 12 25 16 89 14 05 13 80
2 Satu Mati 12 51 13 28 14 83 12 25 13 22
3 Dua Nyala 10 70 11 73 11 99 12 25 11 67
4 Dua Mati 10 44 11 21 11 21 11 47 11 08
5 Tiga Nyala 10 96 12 25 13 54 12 51 12 32
6 Tiga Mati 10 70 11 99 11 99 13 28 11 99
7 Empat Nyala 11 73 11 99 13 02 12 24 12 25
8 Empat Mati 10 70 09 93 11 21 10 70 10 64
Rata-rata 12 12
Dari data yang diperoleh didapatkan kecepatan rata-rata untuk tiap perintah yang diberikan sampai
dengan terlaksananya eksekusi dari perintah adalah 12 12 detik
52 Saran
Pada penelitian ini masih sangat banyak hal yang dapat dilakukan untuk perbaikan-perbaikan dimasa
selanjutnya Saran dan usulan yang dapat dipertimbangkan untuk pengembangan sistem lebih lanjut adalah
antara lain
1 Sistem tidak lagi bersifat dependent speaker tetapi bersifat independent speaker dimana banyak
orang yang memberi perintah dan sistem dengan tepat memberikan respon
2 Sistem dapat mengatasi tingkat noise yang tinggi baik yang disebabkan oleh lingkungan atau oleh
hardware (sound card)
75
3 Otomatisasi sistem Artinya perintah tidak perlu lagi diberikan lewat penekanan tombol yang
dilakukan melalui mouse
4 Respon sistem yang real time
5 Sistem yang dapat dengan mudah beradaptasi dengan jenis sound card yang bervariasi
DAFTAR PUSTAKA
Anggraeni Triana Dewi Astutik Debi Puji Pengenalan Wicara Dengan Penutur Tak Bebas
Tugas Akhir PENS ITS 2003
Wahyudi Agus Verifikasi Sinyal Suara Sebagai Kendali Arah TA PENS-ITS 2002
Dewantara Bima Sena Bayu Aplikasi Pengenalan Wicara Untuk Perintah NirkabelRobot Mikro
Mouse Tugas Akhir PENS ITS 2004
Dutono Titon Penataran Kebahasaan Tahap I Fonetik Dan Fonologi ndashPengolahan Sinyal
Wicara Digital 20 Februari 2001
Gabel Robert A Richard A Robert Sinyal dan Sistem LinierErlangga 1996
Rabiner Lawrence Huang Juang Biing Fundamentals of Speech Recognition Prentice Hall
International Inc1993
Proakis John G Malonakis Dimitris G Digital Signal Processing Principles Algorithms and
Applications Prentice Hall Inc New Jersey 1995
Scolander Kare Snack Sound Toolkit
httpwwwtcltkmantcl85tutorialTcl11html
httpwikitcltk4074
httpwwwinveceorgtclwisefrontcoverhtml
httpwwwspeechkthsesnackmansnack22tcl-manhtml
httpwwwspeechkthsesnacktutorialhtml
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13]
Bab 1 Pendahuluan
ii
ABSTRAK
Pada penelitian ini di implementasikan pengenalan wicara untuk mengontrol dan memonitoring peralatan rumah
tangga Proses kontrol dilakukan kontrol jarak jauh yaitu dari PC client ke PC server Sistem ini mempunyai sifat dependent
speaker Dalam sistem ini terdiri dari beberapa proses pengambilan sinyal sampling frame windowing LPC (Linear
Prediction Code) Proses-proses tersebut dinamakan sebagai proses ekstraksi Setelah itu dilakukan proses Dynamic Time
Warping (DTW) Proses DTW ini untuk memadankan sinyal masukan dengan sinyal standart
Proses ekstraksi dan DTW dilakukan pada PC client Hasil dari DTW dikirimkan ke PC server untuk mengontrol
alat yang diinginkan Setelah alat terkontrol perangkat keras akan memberikan balikan (feedback) ke PC server PC server
akan mengirimkannya ke PC clientDari PC client ini kita dapat selalu mengetahui kondisi peralatan yang dikontrol
Alat yang dikontrol adalah lampu sebanyak empat buah Perintah yang digunakan sebanyak delapan yaitu satu
nyala satu mati dua nyala dua mati tiga nyala tiga mati empat nyala empat mati Sistem yang dibangun mempunyai
prosentase kebenaran rata-rata 100 untuk pengucap standart (pengucap yang suaranya dipakai sebgai standart) dan
prosentase kebenaran rata-rata 7188 untuk pengucap yang lain (pengucap yang suaranya tidak dipakai sebagai standart)
Kata Kunci pengenalan wicara sistem dependen t speaker sampling windowing Linear Predictive Coding Fast Fourier
Transform dynamic programming Dynamic Time Warping
Bab 1 Pendahuluan
iii
ABSTRACT
In this research speech recognition system was implemented to control and to monitor household equipments
Controlling process have been done with long distance control that is from client PC to server PC This system is speaker
dependent The system consist of the following process taking signal sampling frame windowing LPC (Linear Prediction
Code) Those processes are called as extraction After that Dynamic Time Warping (DTW) process is done In this process
input signal was warped with standart signal
Extraction and DTW processes were done in the client PC The result of DTW was sent to the server PC to control
household equipments we want From server PC we will always know about household equipments condition that we
control
The controlled equipments were four of lamps that are ―satu nyala (lamp 1 on) ―satu mati (lamp 1 off) ―dua
nyala (lamp 2 on) ―dua mati (lamp 2 off) ―tiga nyala (lamp 3 on) ―tiga mati (lamp 3 off) ―empat nyala (lamp 4 on)
―empat mati (lamp 4 off) The performed achieved for the system is 100 current for standart speaker and 7188 for non
standart speaker
Key Words speech recognition digital signal processing speaker dependent system sampling windowing Linear
Predictive Coding Fast Fourier Transform dynamic programming Dynamic Time Warping
Bab 1 Pendahuluan
iv
KATA PENGANTAR
Dengan mengucap puji syukur kepada Allah SWT atas limpahan rahmat dan hidayah-Nya serta
pertolongan dan ridlo-Nya sehingga kami dapat menyelesaikan penelitian ini pada waktunya Sholawat dan
salam semoga terlimpahkan kepada kekasih Allah Nabi Muhammad SAW sang Uswatun Hasanah
Dengan pengerahan segenap usaha akhirnya kami dapat menyelesaikan penelitian kami yang berjudul
SISTEM PENGENDALIAN DAN MONITORING PERALATAN RUMAH TANGGA JARAK JAUH
DENGAN METODE PENGENALAN WICARA
tepat pada waktunya
Dengan terselesaikannya buku laporan penelitian ini kami berharap semoga buku ini dapat membawa
manfaat bagi pembaca umumnya dan juga bagi kami khususnya serta semua pihak yang berkepentingan Kami
juga berharap agar penelitian ini dapat dikembangkan lebih lanjut sehingga dapat benar-benar digunakan sebaik-
baiknya untuk mendukung perkembangan ilmu pengetahuan Kami menyadari bahwa kami adalah manusia biasa
yang tidak luput dari kesalahan dan kekurangan Untuk itu kritikan dan saran yang bersifat membangun kami
harapkan untuk perbaikan selanjutnya
Akhirnya tak lupa kami ucapkan terima kasih kepada semua pihak yang telah memberikan bantuan dan
dukungan hingga terselesaikannya penelitian ini
Bandung 15 Juni 2012
Bab 1 Pendahuluan
v
DAFTAR ISI
Halaman Judul i
Abstrak ii
Kata Pengantar iv
Daftar Isi v
Daftar Gambar viii
Daftar Tabel x
BAB 1 PENDAHULUAN 1
11 Latar Belakang 1
12 Tujuan 1
13 Batasan Masalah 1
14 Sistematika Pembahasan 2
BAB 2 TEORI PENUNJANG 3
21 Sistem Pengolahan Wicara 3
211 Sinyal Suara Manusia 3
212 Sampling 5
213 Preemphasis 6
214 Frame Blocking 7
215 Windowing 7
216 Fourier Transform 8
217 Linier Prediction Code 9
2171 Autocorrelation Analysis 10
2172 LPC Analysis 10
2173 LPC Parameter Convertion to Cepstral Coefficient 11
218 Dynamic Time Warping 11
2181 Dynamic Programming 11
2182 Batasan Normalisasi Waktu 15
2183 Batasan Titik Awal Akhir 15
2184 Kondisi Monotonisasi 15
22 Awal dan Akhir Sinyal Suara 15
221 Power 15
222 Unvoiced Plosive 16
23 Jaringan dengan TCPIP 17
231 Mengenal TCPIP 17
232 Koneksi TCPIP 18
Bab 1 Pendahuluan
vi
24 Bekerja dengan Socket 19
241 Pengertian Socket Program 19
242 Penjabaran Socket 19
243 Memilih Hostname dan IP Address 20
BAB 3 PERENCANAAN DAN IMPLEMENTASI 21
31 Pendahuluan 21
32 Sistem Pengolahan Sinyal Wicara 22
321 Perekaman Suara 22
322 Sampling 23
323 Preemphasis 24
324 Frame Blocking 25
325 Windowing 25
326 FFT 26
327 Autocorrelation Analysis 27
328 LPC Analysis 28
329 LPC Parameter to Cepstrum Analysis 29
3210 DTW 30
33 Awal dan Akhir Sinyal Suara 31
331 Power 31
332 Unvoiced Plosive 32
34 Proses pada client 32
35 Proses pada server 33
BAB 4 PENGUJIAN DAN ANALYSIS 33
41 Pendahuluan 33
42 Pengujian dan Analysis Sistem Pengolahan Wicara 33
421 Perekaman Suara 33
4211 Dengan Menggunakan TclTk dan Snack 33
4212 Dengan Menggunakan Wavesurver 35
422 Sampling 37
423 Windowing 38
424 FFT Sinyal Masukan 39
4241 Dengan Menggunakan TclTk dan Snack 40
4242 Dengan Menggunakan Wavesurver 41
425 Autocorrelation Analysis 41
426 LPC Analysis 41
427 FFT LPC Parameter 42
Bab 1 Pendahuluan
vii
4271 Dengan Menggunakan TclTk dan Snack 43
4272 Dengan Menggunakan Wavesurver 43
428 LPC Parameter to LPC Cepstrum 44
429 Inverse FFT LPC Cepstrum 45
4210 Dynamic Time Warping 46
4211 Min Value dan Sorting 47
4212 Hasil Pengujian Awal dan Akhir Sinyal 48
4213 Hasil Pengujian Sistem Perangkat Lunak 51
43 Pengujian sistem client server 66
44 Analisa Pengujian Sistem Secara Keseluruhan 67
BAB 5 PENUTUP 74
51 Kesimpulan 74
52 Saran 74
DAFTAR PUSTAKA
Bab 1 Pendahuluan
viii
DAFTAR GAMBAR
21 Skema diagram organ penghasil sinyal wicara 4
22 Struktur umum model generator wicara 5
23 Pola standart dengan unit kata 6
24 Pola standart dengan unit fonem 6
25 a) Sinyal wicara untuk bunyi a pada satu frame pada pria b) Sinyal wicara untuk bunyi
a pada satu frame pada wanita 7
26 Contoh proses sampling dengan nilai frekuensi pencuplikan yang berbeda 8
27 Pergeseran frame pada sinyal suara dengan M = 13 N 10
28 Blok Metode FFT-DIT 8 titik 13
29 Plane jaringan untuk ilustrasi pemrograman dinamik 18
210 DTW antara dua rentetan waktu A dan B 19
211 Bentuk power dari kata 22
212 Unvoiced Plosive 23
31 Blok Diagram Sistem secara keseluruhan 29
32 Program aplikasi pengenalan wicara 31
33 Flowcart sistem Graphical User Interface 32
34 Sinyal hasil sampling dengan frekuensi 12000 Hz 33
35 Flowcart proses sampling 34
36 Frame blocking sinyal 35
37 Flowcart proses windowing 36
38 Flowcart Proses Fast Fourier Transform 37
39 Flowcart Proses Autokorelasi 38
310 Flowcart Proses LPC Analisis 39
311 Flowcart proses LPC Parameter ke Cepstrum 40
312 Flowcart proses Dynamic Programming 41
313 Flowcart Proses Power 42
314 Blok Diagram Proses Client 43
315 Blok Diagram Proses Server 44
41 Tampilan awal perangkat lunak menggunakan TclTk dan Snack 46
42 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan perangkat lunak
TclTk dan Snack 47
43 Tampilan awal perangkat lunak menggunakan Wavesurver 48
44 Tampilan hasil perekaman kata rdquoempat matirdquo dengan menggunakan perangkat lunak wavesurver 48
45 Kotak dialog setting perekaman perangkat lunak Wavesurver 49
46 Cuplikan dari katardquoempat matirdquo milidetik ke-13900 51
47 Hasil windowing data sampel kata rdquoempat matirdquo milidetik ke-13900 52
48 Fast fourier Transform sinyal masukan dengan menggunakan perangkat lunak TclTk da Snack 54
Bab 1 Pendahuluan
ix
49 Fast fourier Transform sinyal masukan dengan menggunakan perangkat lunak Wavesurver 54
410 FFT LPC dengan menggunakan perangkat lunak TCLTk dan Snack 57
411 FFT LPC dengan menggunakan perangkat lunak Wavesurver 58
412 Invers FFT LPC cepstrum dengan menggunakan Perangkat lunak TCLTk dan Snack 60
413 Penggabungan spektrum sinyal spektrum LPC dan Spektrum LPC Cepstrum 61
414 Pelekukan Jalur suara dengan Dynamic Time Warping 62
415 Sinyal rdquoempat matirdquo hasil program power 65
416 Perbandingan power dua kata ldquoempat matirdquo sebelum Dynamic Time Warping 65
417 Pelekukan alur suara dua kata ldquoempat matirdquo dengan DTW 66
418 Perbandingan power dua kata rdquoempat matirdquo setelah Dynamic Time Warping 67
421 Proses pada client 85
422 Proses pada server 86
423 Tampilan awal perangkat lunak menggunakan TclTk dan Snack 88
424 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan dengan menggunakan
perangkat lunak Wavesurver 89
425 Tampilan awal perangkat lunak menggunakan Wavesurver 89
426 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan perangkat lunak Wavesurver 90
427 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900 90
428 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900 dengan menggunakan perangkat
Wavesurver 91
429 Hasil Windowing data sampel kata ldquoempat matirdquo milidetik ke-13900 92
430 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat lunak TclTk dan Snack 92
431 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat lunak Wavesurver 93
432 Fast Fourier Transform LPC dengan menggunakan perangkat lunak TCLTk dan Snack 94
433 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat Wavesurver 94
434 Pelekukan jalur suara dengan Dynamic Time Warping 95
Bab 1 Pendahuluan
x
DAFTAR TABEL
41 Hasil pengujian sistem pengolahan wicara untuk pengucap yang sama (pria 1) 68
42 Hasil pengujian sistem pengolahan wicara untuk pengucap yang lain (pria 2) 79
43 Hasil pengujian system pengolahan wicara untuk pengucap yang sama (pria) 83
44 Tingkat keberhasilan system perangkat lunak 87
51 Kecepatan sistem keseluruhan 96
Bab 1 Pendahuluan
1
BAB 1
PENDAHULUAN
11 LATAR BELAKANG
Sudah sekian lama manusia memimpikan adanya pengendalian suatu alat atau sistem kontrol dengan
perintah suara Hal ini diperjelas dengan banyak beredarnya film-film fiksi yang menyuguhkan berbagai sistem
kontrol yang dilakukan dengan menggunakan suara bagaimana seorang anak bisa mengendalikan sebuah
pesawat terbang hanya dengan perintah-perintah dasar dengan menggunakan suaranya Ditambah lagi dengan
pesatnya penelitian dibidang suara yang membuat pintu gerbang sistem pengontrolan dengan suara manusia
semakin terbuka Dewantara [2] telah membuat sebuah aplikasi pengenalan wicara untuk perintah nirkabel robot
mikro mouse Anggraeni dan Astutik [1] telah menggunakan pengenalan wicara untuk mengakses suatu jaringan
sebagai password Tetapi belum ada yang membuat aplikasi pengenalan wicara untuk membuat perintah
pengontrolan pada alat-alat rumah tangga semisal lampu Selain itu beberapa tahun terakhir ini perkembangan
dunia telekomunikasi mengalami kemajuan yang sangat pesat Sehingga pada saat ini informasi yang dikirim
tidak hanya berupa data dalam bentuk teks tetapi juga suara manusia Ditambah dengan semakin banyaknya
peralatan yang memanfaatkan pengenalan suara manusia untuk mengakses maupun memberikan perintah Sinyal
suara yang masuk akan diproses dan dikenali oleh suatu alat Proses tersebut adalah pengenalan wicara (speech
recognition) yaitu pengenalan wicara melalui sampel suara yang telah diolah
Dengan pertimbangan tersebut maka pembuatan kontrol suatu peralatan jarak jauh dengan menggunakan
suara sangat sesuai jika diaplikasikan dalam sistem pengendalian dan monitoring peralatan rumah tangga jarak
jauh dengan menggunakan metode pengenalan wicara Aplikasi tersebut kami bangun dalam pelaksanaan
penelitian ini
12 TUJUAN
Penelitian ini bertujuan untuk
1 Memberikan perintah suara untuk menyalakan beberapa peralatan rumah tangga dalam contoh kasus
dalam penelitian ini adalah menyalakan lampu jarak jauh
2 Membangun sistem pengucap tak bebas (speaker dependent sistem)
3 Memberikan ciri individu untuk memberikan perintah menghidup dan matikan peralatan rumah tangga
yang dilakukan secara jarak jauh
13 BATASAN MASALAH
Batasan masalah pada penelitian ini adalah
1 Bahasa pemrograman untuk algoritma pengenalan wicara adalah Microsoft Visual C++ 60
2 Bahasa Pemrograman untuuk user interface adalah TclTk 830 dan Snack 22
3 Sistem bersifat dependentartinya sistem hanya dapat digunakan oleh orang tertentu dalam hal ini yang
pernah berinteraksi langsung dengan sistem
4 Sinyal diasumsikan ideal yaitu tidak mamperhitungkan noise yang berarti semua noise dianggap stationer
Bab 1 Pendahuluan
2
5 Perintah kata yang diberikan dibatasi untuk keperluan tone dekoder saja dengan dua perintah secara
langsung Semua kata diucapkan secara wajar dengan kecepatan normal
6 Keberhasilan penelitian ini dapat dilihat dari keberhasilan ketepatan perintah yang dihasilkan oleh sistem
dengan perintah yang diberikan
7 Jaringan komunikasi masih dilaksanakan untuk local area dari PC ke PC
14 SISTEMATIKA PEMBAHASAN
Sistematika pembahasan penelitian ini sebagai berikut
BAB I PENDAHULUAN
Pada bab ini akan diuraikan tentang latar belakang tujuan batasan masalah dan sistematika
pembahasan masalah yang digunakan
BAB II TEORI DASAR
Pada bab ini akan diuraikan tentang landasan-landasan teori yang digunakan
BAB III PERENCANAAN DAN PELAKSANAAN
Pada bab ini akan diuraikan tentang tahap-tahap perencanaan dan proses pembuatan keseluruhan sistem
yang mendukung untuk membangun sistem pengenalan wicara untuk sistem pengendalian dan monitoring
peralatan rumah tangga jarak jauh
BAB IV PENGUJIAN DAN ANALISIS
Pada bab ini akan dijelaskan tentang hasil pengujian sistem yang telah dibangun baik secara perbagian
ataupun keseluruhan serta analisis terhadap hasil pengujian sistem untuk mengetahui apakah sistem yang
dibangun sesuai dengan yang diharapkan
BAB V KESIMPULAN DAN SARAN
Pada bab ini berisi kesimpulan dari pembahasan pada perencanaan serta analisa pengujian yang
diperolehUntuk lebih baiknya sistem yang dibangun maka disertakan pula saran-saran untuk perbaikan dan
penyempurnaan
Bab 2 Teori Penunjang
3
BAB 2
TEORI PENUNJANG
21 Sistem Pengolahan Sinyal Wicara
211 Sinyal Suara Manusia
Manusia menggunakan suara sebagai sumber informasi untuk mengkomunikasikan keinginan ide dan
perasaannya kepada orang lain Organ tubuh manusia yang digunakan dalam proses produksi wicara adalah
paru-paru tenggorokan(trachea) laring faring rongga hidung(nasal cavity) dan rongga mulut(oral cavity)
Pembangkitan sinyal wicara terletak pada bentuk lintasan vokalnya(vocal tract) Lintasan vokal tersebut terdiri
atas di bawah katup tenggorokan (laryngeal pharynx) antara langit-langit lunak katup tenggorokan (oral
pharynx ) di atas velum dan di ujung depan rongga hidung (nasal pharynx) dan rongga hidung (nasal cavity)1
seperti ditunjukkan gambar 21
Gambar 21 Skema diagram organ penghasil sinyal
Wicara2
Model generator wicara atau model sintesa suara yang dipakai dan menjadi dasar dari pemrosesan
sinyal wicara hingga dewasa ini adalah apa yang dinamakan Analog Terminal seperti pada gambar 22
1 Dewantara Bima Sena Bayu Aplikasi Pengenalan Wicara Untuk Perintah Nirkabel Robot Mikro Mouse TA PENS ITS 2004 hal 5 2 Dutono Titon Penataran Kebahasaan Tahap I Fonetik dan Fonologi Pengolahan Sinyal Wicara Digital 20 Februari 2001
Bab 2 Teori Penunjang
4
Gambar 22 Struktur umum model generator wicara3
Pada model ini sinyal eksitasi(glotal wave) yang berasal dari getaran pita suara diumpankan ke suatu
filter yang merupakan suatu model pendekatan dari lintasan vokal (vocal tract) untuk menghasilkan sinyal
wicara Model analog terminal ini disebut juga pensintesa formant Dasar pendekatan model ini adalah bahwa
lintasan suara adalah suatu bumbung akustik (acoustical cavity) yang mempunyai karakteristik berdasarkan
perpaduan beberapa frekuensi resonansinya Dengan demikian fungsi transfernya dapat didekati dengan
pendekatan kombinasi riam (cascade combination) dari beberapa rangkaian resonansinya Dengan analogi yang
sama sistem ini dapat dibangun dari beberapa rangkaian resonansi yang mempunyai parameter lebar bidang dan
frekuensi resonansi yang selalu berubah setiap saat membentuk suatu sistem berubah waktu (time variant
system)
Struktur sistem pengenal wicara yang ada dapat dibagi menjadi 2 yaitu
1) Mempergunakan pola standart dengan unit kata
Gambar 23 Pola standart dengan unit kata4
2) mempergunakan pola standart dengan unit fonem
yang dilengkapi dengan kamus kosa kata
3 Ibid 4 Ibid
Ekstraksi ciri
Pola standar kata
Pemadanan kata
Algoritma keputusan
Sinyal wicara Output teks
Bab 2 Teori Penunjang
5
Gambar 24 Pola standart dengan unit fonem5
Pada sistem pertama mampu mencakup fenomena koartikulasi tapi tidak fleksibel terhadap perubahan
kosa kata
Sinyal wicara adalah sinyal yang dihasilkan oleh suara manusia dan biasanya mempunyai frekuensi
kerja antara 0 sampai dengan 5000 Hz Bentuk gelombang sinyal wicara mempunyai bentuk yang unik seperti
gambar 23
Gambar 25 a)Sinyal wicara untuk bunyi a pada satu frame pada wanita
b)Sinyal wicara untuk bunyi a pada satu frame pada pria
Berdasarkan gambar 25 terlihat bahwa setiap satu frame terdapat 120 sample yang bersifat quasi
periodik dan mempunyai unsur bunyi terkecil yang disebut sebagai pitch Panjang pitch berkisar 10 ms Pitch
manusia berbeda satu sama lain terutama jenis kelamin laki-laki dan perempuan
212 Sampling
Sinyal wicara merupakan sinyal yang tidak terbatas dalam domain waktu (finite time interval) Suara
manusia akan menghasilkan sinyal analog yang terus kontinyu Untuk keperluan pemrosesan dalam transformasi
fourier maka sinyal wicara harus dibentuk dalam potongan-potongan waktu yang terbatas (infinite time interval)
Karena itu sinyal yang ada dipotong-potong dalam slot-slot interval waktu tertentu
Berdasarkan pada teori sampling Niquist maka syarat dari frekuensi sampling adalah minimal dua kali
frekuensi sinyal
Fsampling 2 x Fsignal ( 21)
Ekstraksi ciri
Pola standar fonem
Pemadanan fonem
Kamus kosa kata
Pemadanan kata
Algoritma keputusan
Sinyal wicara
-20000
-15000
-10000
-5000
0
5000
10000
15000
0 20 40 60 80 100 120 140
pitch -10000
-8000
-6000
-4000
-2000
0
2000
4000
6000
8000
0 20 40 60 80 100 120 140
pitch
Output teks
Bab 2 Teori Penunjang
6
Contoh dari sampling seperti bisa kita lihat pada gambar di bawah
Gambar 26 Contoh proses sampling dengan nilai frekuensi pencuplikan yang berbeda
6
Frekuensi sampling yang digunakan adalah 12000 Hz
Dimana dalam 1 detik sinyal terdapat 12000 titik sampling
213 Preemphasis
Proses preemphasis dimaksudkan agar spektrum sinyal merata di semua frekuensi serta mencegah
kehilangan informasi akibat proses pembulatan pada saat komputasi Fungsi preemphasis adalah
H (z) = 1 ndash az-1 09 le a le 1 (22)
dimana nilai a berkisar 095 Berdasarkan model filter di atas maka keluaran dari preemphasis adalah
s (n) = s (n) - as (n-1) ( 23)
Penjabarannya sebagai berikut
5 Ibid 6 Ibid
Fi = 1000 Hz
Fs = 1250 Hz
Fs = 1000 Hz
Fs = 4000 Hz
Fs = 8000 Hz
Fs 2Fi
Kriteria Nyquis
Fi Frekuensi sinyal informasi Fs Frekuensi pencuplikan
H X Y
T 1 = 12000 = 833 x 10-5 s = 833 μs
10 ms = 833μs x N sample N = 120 sample
Bab 2 Teori Penunjang
7
y = H x
y = (1-az-1) xn
y = xn - 095 xn z-1
y = xn ndash 095 xn - 1
214 Frame Blocking
Sinyal wicara yang telah dipreemphasis s (n) diblok dalam M sampel dimana N 2 x M seperti yang
ditunjukkan pada gambar 27 Jika M le N pergeseran frame akan mengalami overlape hasil perkiraan LPC
spectral akan dikorelasikan dari frame 1 ke frame berikutnya Jika M laquo N perkiraan LPC spectral dari satu frame
ke frame lainnya akan sangat halus (smooth) Dan bila M gt N maka tidak akan ada overlape diantara frame yang
berbatasan dan sinyal suara akan hilang sama sekali dan korelasi diantara perkiraan spectral LPC dari frame
yang berbatasan akan berisi komponen noise
Gambar 27 Pergeseran Frame pada Sinyal Suara
dengan M = 13 N
Sehingga didapatkan nilai dari sinyal yang baru adalah sebagai berikut
x1(n) =s(M 1+n) n =012hellipN ndash 1 l = 012hellipLndash1 (24 )
215 Windowing
Merupakan proses membatasi lebar sinyal yang akan dianalisa yang dapat mengurangi efek
diskontinyuitas pada ujung-ujung frame yang dihasilkan oleh potongan-potongan sinyal Korelasi antara lebar
window dalam domain waktu dan amplitude berguna untuk menyederhanakan sinyal dengan mengurangi
puncak sinyalnya
Ada beberapa jenis windowing yang dinamakan sesuai dengan nama penemunya yaitu
Bab 2 Teori Penunjang
8
Window Hamming
052-046 cos[2лn(N-1)] 0 le n le N-1
Wham(n) =
0 elsewhere
Window Hanning
1-cos[2лn(N-1)] 2 0 le n le N-1
Whan(n) =
0 elsewhere
Window Bartlett
1-cos[2лn(N-1)] 2 0 le n le (N-1)2
WB(n) = 2-2n(N-1) (N-1)2lenleN-1
0 elsewhere
Window Blackman
042-05cos[2лn(N-1)]+008cos[4лn(N-1)]0lenleN-1
WBl(n) =
0 elsewhere
216 Fourier Transform
Transformasi Fourier Diskrit (DFT) adalah deretan yang terdefinisi pada kawasan frekuensi ndash diskrit
yang merepresentaskan Transformasi Fourier terhadap suatu deretan terhingga (Finite Duration Sequence) DFT
berperan penting untuk implementasi algoritma suatu varitas pengolah sinyal karena efisien untuk komputasi
berbagai aplikasi
Salah satu contoh aplikasi komputasi DFT dalam algoritma yang efisien yaitu Fast Fourier Transform
(FFT) Efisiensi suatu algoritma ditentukan dari sejauh mana dapat mereduksi jumlah perkalian dan
penjumlahan serta reduksi lalu lintas data pada memori komputer sehingga proses lebih cepat
Pada DFT untuk memproses N buah titik diperlukan (N-1)perkalian kompleks dan N(N-1)
penjumlahan kompleks Bila N cukup besar dibutuhkan memori yang besar dan waktu yang cukup lama Untuk
itu digunakan metode lain yang lebih cepat yaitu metode transformasi fourier cepat (FFT) FFT dilakukan
dengan membagi N buah titik pada transformasi fourier diskrit menjadi 2 masing-masing N2 titik trnsformasi
Pemecahan menjadi dua pada proses transformasi fourier cepat disebut sebagai proses rekombinasi Dua buah
N2 titik transformasi mempunyai 2(N2) = N2 perkalian Proses memecah menjadi dua ini diteruskan dengan
membagi setiap (N2) titik transformasi menjadi dua buah (N4) titik transformasi setiap (N4) menjadi dua buah
Bab 2 Teori Penunjang
9
(N8) titik transformasi dan seterusnya hingga diperoleh junlah titik yang minimum Jika besarnya N merupakan
kelipatan pangkat dari 2 (disebut radiks 2) maka jumlah titik minimum setelah setiap kali dibagi 2 adalah dua
Ada dua macam metode FFT metode Decimation in Time (DIT) dan metode Dicimation in Frekuensi
(DIF) Kedua metode ini hamper sama Pada metode FFT-DIT N buah titik transformasi dibagi 2 menjadi fungsi
ganjil dan genap masing-masing mempunyai N2 titik transformasi Sedang pada metode FFT-DIF N buah titk
transformasi dibagi menjadi fungsi N2 titk yang pertama dan fungsi N2 titik yang kedua
Operasi pada metode FFT-DIT disebut juga metode kupu-kupu Untuk N buah titik transformasi h(n)
algoritma radiks 2 memerlukan proses perkalian dan rekombinasi sebanyak N2 log N transformasi fourier
diskrit Pada metode FFT-DIT operasi dekomposisi dilakukan dengan membagi fungsi h(n) menjadi 2 bagian
fungsi ganjil dan fungsi genap Atau dengan pernyataan matematika h1(n) dan h2(n) yang masing-masing adalah
untuk n genap dan n ganjil
Prinsip FFT dengan metode DIT adalah seperti pada gambar 24 berikut ini
Gambar 28 Blok metode FFT-DIT 8 titik
7
Pada gambar di atas merupakan jumlah perkalian kompleks N2 log N juga jumlah penjumlahan
kompleks = N2 log N
217 Linear Prediction Code
Ide dasar dari LPC adalah bahwa pada model ini memberikan sampel suara pada domain waktu yang
bisa didekati sebagai kombinasi linear dari sampel suara yang telah lalu
Teori Linear Prediction Coding (LPC) yang diaplikasikan pada wicara telah dimengerti selama
beberapa tahun Pada bagian ini akan dijelaskan dasar dari bagaimana LPC diaplikasikan pada sistem pengenlan
wicara
Sebelum menjelaskan LPC secara umum sebagai pemrose front-end untuk pengenalan wicara perlu
diketahui alasan mengapa LPC sangat banyak digunakan yaitu
1 LPC menyuguhkan model yang bagus untuk sinyal wicara
2 Cara yang digunakan LPC untuk analisa sinyal wicara sangat beralasan untuk pemisahan track dari
sumber vocal
3 LPC adalah model traktabel secara analitis
Bab 2 Teori Penunjang
10
4 Model LPC bekerja dengan baik pada aplikasi pengenalan
2171 Autocorrelation Analysis
Masing-masing frame sinyal yang telah diwindow kemudian di-autokorelasikan dengan menggunakan
persamaan
N-1-M
r1(m) = sum x1(n) x1(n+m) m = 0 1 p ( 25) (25)
n = 0
dimana nilai autokorelasi tertinggi p adalah orde dari analisi LPC Pada umumnya nilai dari p yang
sering digunakan adalah dari 8 sampai 16 Sisi menguntungkan dari analisis autokorelasi adalah bahwa
autokorelasi ke-0 R1 (0) adalah energi dari frame ke-1 Energi dari frame merupakan parameter
penting untuk system deteksi wicara
2172 LPC Analysis
Langkah selanjutnya adalah analisis LPC dimana mengkonversi masing-masing frame dari
auto korelasi p+1 ke dalam sebuah ldquoLPC Parameter Setrdquo dimana kumpulan itu merupakan koefisien
LPC koefisien refleksi atau PARCOR koefisien log area ratio koefisien Cepstral atau beberapa
transformasi pada kumpulan tersebut
Metode yang formal untuk mengkonversi dari koefisien autokorelasi ke sebuah LPC parameter
set (untuk metode autokorelasi) dikenal sebagai Metode Durbin dan secara formal dapat ditunjukkan
pada algoritma berikut ini
E(0) = r(0) ( 26)
Ki=r(i)-sumαj(i-1) r(|i-j|)E(i-1) 1 le I le p ( 27)
αi(i) = ki (28)
αj(i) = αj
(i-1)-ki α(i-1) ( 29)
t-j
E(i)=(1-ki2)E (i-j) (210)
dimana penyajian akhir dari persamaan mengabaikan i=1 Kumpulan dari persamaan hellipdiselesaikan secara
rekursif untuk i=12hellipp dan penyelesaian akhir diberikan sebagai
am=koefisien PC=αm 1lemlep ( 211)
7 Agus Wahyudi Verifikasi Sinyal Suara Sebagai Kendali Arah TA PENS-ITS 2002
Bab 2 Teori Penunjang
11
km=koefisien PARCOR ( 212)
1 - km
gm=koefisien log area ratio = log ----------- ( 213)
1 + km
2173 LPC Parameter Corversion to Cepstral Coefficients
Sekumpulan parameter LPC yang sangat penting yang dapat diturunkan langsung dari kumpulan LPC
adalah koefisien cepstral LPC c(m) Rekursif yang digunakan adalah
co = ln σ2 ( 214)
m-1
cm = am + sum ck am-k 1 le m le p ( 215)
k = 1
m-1
cm = sum ck am-k m gt p
k = 1
dimana σ2 adalah penguatan dalam model LPC Koefisien cepstral koefisien yang direpresentasikan dengan
fourier transform dengan spectrum besaran log telah ditampilkan menjadi kumpulan fitur untuk pengenalan
wicara yang lebih handal terpercaya daripada koefisien LPC koefisien PARCOR atau koefisien log area ratio
218 Dynamic Time Wraping
Dynamic Time Wraping (DTW) merupakan cara untuk membandingkan pola wicara dalam menentukan
kesamaan jarak antara pola-pola yang berbeda Dimana pengenalan wicara merupakan proses secara otomatis
dalam mengambil dan menentukan informasi linguistic yang disampaikan dengan gelombang wicara
menggunakan komputer atau sirkuit elektronik Informasi linguistic tersebut pada akhirnya akan
direpresentasikan dengan deretan waktu vektor-vektor spektral
Metode nolmalisasi waktu menggunakan dua buah fungsi warping
ix = Фx (k) k = 123hellipT (216)
iy = Фy (k) k = 123hellipT
2181 Dynamic Programming
Dynamic Programming (DP) digunakan untuk memecahkan masalah deteksi pengurutan kemampuan
menggunakan pola pengenalan wicara dan masalah waktu penjajaran dan normalisasi Ada dua tipe masalah
penggunaan Dynamic Programming yaitu
(
)
k m
( )
K m ( )
Bab 2 Teori Penunjang
12
1 Masalah jalan optimal dengan menganggap sekumpulan titik mulai dari 1 sampai dengan N yang
dihubungkan dengan pasangan setiap dari titik (ij) Representasi perpindahan secara langsung dari titik
ke-1 ke titik yang lainnya Rentetan perpindahan tersebut tidak mempunyai bilangan yang ditetapkan
dari transisi satu titik ke titik yang lainnya hal ini disebut rentetan keputusan asinkron
Dengan Terminologi sederhana kita membuat garis keputusan untuk menetukan titk berikutnya setelah
kebijaksanaan pada titik i
Prinsip dari optimalisasi yang merupakan kelas dasar dari algoritma komputasi untuk optimasi masalah
di atas berdasarkan pernyataan Bellman
rdquoKebijakan optimasi yang memiliki sifat apapun ketetapan dan ketentuannya keputusan berikutnya
harus merupakan hasil ketetapan dari keputusan yang pertamardquo
2 Masalah keputusan rentetan sinkronisasi terdapat perbedaan dari satu sinkronisasi yang beraturan dari
proses keputusan
Penggunaan teknik Dynamic Programming pada Dynamic Time Warping untuk pertama kali dilakukan
oleh Slutsker (1968) Vintsyuk (1968) dan Volichko (1971) dari Jepang untuk pengenalan wicara Pada proses
ini pembicara mengucapkan kata yang sama dengan durasi berubah setiap waktu dengan ekspansi yang non
linier Oleh karena itu Dynamic Time Wraping adalah tahap yang penting dalam proses pengenalan kata Proses
DTW mengalami pengembangan pada sumbu waktu untuk mencocokan posisi phonemkata yang sama antara
input wicara dan referensi template
Dynamic Programing secara umum digunakan untuk memecahkan masalah rentetan keputusan yang
dilakukan pada bidang kisi sebagaimana ditampilkan pada gambar 27 Sinyal yang dicocokkan adalah A dan B
Di dalam bidang kisi sinyal A disesuaikan sepanjang sumbu ndashx dan sinyal B disesuaikan sepanjang sumbu ndashy
Setiap antar bagian pada bagian ini ditetapkan sebagai sebuah simpul atau titik dimana titik (ij) adalah
pencocokan frame I untuk sinyal A dengan frame j untuk sinyal B Misalnya diasumsikan dua rentetan waktu
untuk vektor utama yang dibandingkan sebagai berikut
A = a1a2hellipaI dan B = b1b2hellipbJ
Dengan menganggap rentang bidang antara A dan B sebagaimana ditunjukkan pada gambar 27
fungsi pelengkungan waktu yang sesuai menunjukkan waktu antara rentetan A dan B dapat dipresentasikan
sebagai rentetan titk-titik Lattice pada bidang c = (ij) sebagai berikut
Bab 2 Teori Penunjang
13
Gambar 29 Plane jaringan untuk ilustrasi
pemrograman dinamik8
Bilamana jarak spektral antara dua vektor utama a1 dan b1 direpresentasikan oleh d(c) = d(ij) penjumlahan
jarak dari awal sampai akhir dari rentetan sepanjang F dapat direpresentasikan dengan
K
sum d(ck)wk
k=1
D(F) = mdashmdashmdashmdashmdash (217)
K
sum wk
k=1
Semakin kecil nilai ini semakin baik kecocokan antara A dan B Dimana wk adalah fungsi pembobotan
positif terhadap F
Dengan memperkecil persamaan di atas dengan kondisi berikut
1 Kondisi monotonisasi dan kontinuitas
0 le ik-ik-1le1 0 lejk ndash jk -1 le 1 ( 218)
2 Kondisi perbatasan
I1=j1=Iik=Ijk=I (219)
3 Kondisi adjustmen window
|ik ndash jk|ler r=konstan ( 220)
Pendefinisian wk sedemikian rupa sehingga menyebut pada persamaan 219 menjadi konstan yang
tidak tergantung pada F Untuk contoh jika
Wk = (ik ndash ik -1)+(jk ndash jk -1)(i0=j0=0) wk akan menjadi
8 Ibid hal 15
Bab 2 Teori Penunjang
14
K
sum wk = I + J (221) k=1
dan persamaan 219 menjadi
1 K
D(F)= mdashmdash sum d(ck)wk ( 222)
I + J k=1
Gambar 210 DTW antara dua rentetan waktu A dan B
9
Karena fungsi obyektif yang akan diminimasi menjadi penjumlahan maka peminimisasi secara efisien
dapat diselesaikan tanpa harus menguji semua kemungkinan untuk F Penjumlahan pada sebagian rentetan c1
c2 hellip ck (ck=(ij)) adalah
(224)
Penurunan pemrograman dinamik pada persamaan-persamaan diatas penggunaan kondisi untuk F dan
formulasi perumusan wk persamaan 2115 dapat dituliskan kembali sebagai berikut
9 Ibid hal 17
Bab 2 Teori Penunjang
15
g(ij-1)+d(ij)
g(ij) = min g(i-1j-1) + 2d (ij) (225)
g(i-1j) +d(ij)
Oleh karena itu jarak antara dua rentetan waktu A dan B setelah DTW dapat diperoleh sebagai berikut
Kita set dari kondisi awal untuk g(11)=2d(11) dan j=1 dan hitung persamaan 2116 dengan variasi I dalam
sepanjang adjustment window Perhitungan ini diulangi dengan menaikkan j sampai j=1 Jarak keseluruhan
antara dua rentetan waktu A dan B dapat diperoleh dari g(IJ)(I+J)
2182 Batasan Normalisasi Waktu
Supaya proses normalisasi waktu mempunyai arti pada perbedaan batasan dengan berbagai variasi
interval waktu dibutuhkan beberapa batasan terhadap fungsi warping
2183 Batasan Titik Awal Akhir
Bilamana pola wicara yang dibandingkan merupakan tuturan per kata maka harus memenuhi syarat pola
mulai dari titik awal sampai titik akhir dari tanda permulaan dan pengakhiran pola wicara Titik awal dan akhir
mempunyi batasan yang membatasi pola wicara harus dipenuhi
Titik awal Фx(1) = 1 Фy(1) = 1 (226)
Titik akhir Фx(T) = Tx Фy(T) = Ty (227)
2184 Kondisi Monotonisasi
Rentetan pola spectral pada wicara sangat penting dalam menentukan arti linguistic sehingga tidak
akan hilang Untuk mempertahankan pola tersebut harus memenuhi
Фx(k + 1) ge Фx(k) (228)
Фy(k + 1) ge Фy(k)
22 Awal dan Akhir Sinyal Suara
221 Power
Sinyal suara yang diolah haruslah merupakan sinyal suara murni dan tidak bercampur dengan noise
ataupun header tail yang dibawa oleh suara saat perekaman apalagi jika pengenalan sinyal suara dengan jumlah
vocabulary yang besar Oleh karena itu sinyal suara hasil perekaman harus dicari nilai awal dan akhirnya agar
pengolahan sinyal suara tersebut menjadi lebih valid
Dan salah satu cara dalam menentukan nilai awal dan akhir dari sinyal suara adalah dengan
menggunakan power yang mempunyai persamaan sebagai berikut
( )
Bab 2 Teori Penunjang
16
239
p= sumradic xt2 (229)
t=0
Sinyal suara yang dibagi menjadi beberapa frame mempunyai power dari tiap framenya yang kemudian
didapatkan nilai rata-ratanya yang kemudian diperoleh nilai awal dan akhirnya dengan menambahkan 3 kali
standart deviasi Dimana penentuan awal dan akhir dari sinyal suara dapat diperoleh dengan
p ge p + 07 standart deviasi
Power
0
20000
40000
60000
80000
100000
120000
140000
160000
0 10 20 30 40 50 60
Jumlah Frame
Am
pli
tud
o
Gambar 211 Bentuk power dari kata
Nilai beberapa kali hasil percobaan
222 Unvoiced Plosive
Pada suatu sinyal suara yang terekam terdapat pemutusan sinyal atau kondisi kosong yang bukan
merupakan noise tetapi masih didalam lingkup suara Tapi kondisi ini hanya terjadi pada kebanyakan sinyal
suara yang terdapat konsonan tertentu yaitu sinyal suara dari kata yang mempunyai konsonan p t k Kondisi ini
disebut Unvoiced Plosive atau loncatan sinyal suara setelah kondisi kosong seperti ditunjukkan pada gambar
berikut
Gambar 212 Unvoiced Plosive
Bab 2 Teori Penunjang
17
Dan untuk penentuan awal dan akhir daerah kosong tersebut harus diperhitungkan agar didapatkan
nilai awal dan akhir dari sinyal suara yang valid yaitu dengan mencari nilai rata-rata dari daerah kosong dari
beberapa sinyal suara Kemudian dengan dicari nilai thresholdnya yaitu nilai terpanjang dari daerah kosong
sebesar 2 dari seluruh daerah kosong yang telah dihistogram
23 JARINGAN DENGAN TCPIP
Meskipun hubungan computer melalui serial dan parallel telah ada sejak lama multijaringan belum
menjadi masalah serius bagi para peneliti di bidang jaringan sampai awal tahun 1980 Perkembangan teknologi
LAN itu sendiri didasarkan banyak alasan Salah satu yang menjadi alasan utama adalah adanya perusahaan
yang ingin melakukan sharing data file printer dan resource lainnya ke pc lain
231 Mengenal TCPIP
Sebelumnya kita definisikan lebih dahulu apa yang dimaksud protocol itu Bila dua computer ingin
melakukan komunikasi keduanya tentu saja harus menggunkan bahasaturan yang sama Aturan-aturan inilah
yang disebut protocol Misalnya untuk mengirim mail digunakan protocol SMTP berhubungan dengan WWW
menggunakan HTTP dan sebagainya Jadi protocol merupakan aturan dalam melakukan komunikasi
TCPIP ( Transmission Control Protocol Internet Protocol) merupakan protocol yang bersifat open
networking Maksudnya semua penjelasan teknis tentang protocol tersebut diumumkan karena ada juga
mekanisme jaringan yang menyembunyikan detail dari sistemnya Hal inilah yang membuat TCPIP menjadi
terkenal
Adapun keuntungan dengan menggunakan protocol TCPIP adalah kemudahannya karena
memungkinkan hubungan antara berbagai system operasi dan berbagai jenis computer (platform)
TCPIP bukanlah protocol tunggal tetapi merupakan sekumpulan protocol sehingga lebih tepat disebut
sebagai keluarga TCPIP Setiap protocol pada TCPIP memiliki tugas tertentu yang berbeda Semua protocol
tersebut menggunakan protocol primer untuk mengirimkan paket data Protocol primer tersebut adalah TCP dan
IP
Protokol lainnya dapat dikelompokkan berdasarkan tujuannya sebagai berikut
1 Transport
Digunakan untuk mengatur perpindahan data antara dua mesin Antara lain
- TCP (Transmission Control Protocol)
- UDP (User Datagram Protocol)
2 Routing
Digunakan untuk pengalamatan data dan menentukan rute terbaik antara lain
- IP (Internet Protocol)
- ICMP (Internet Control Message Protocol)
- RIP (Routing Information Protocol)
Bab 2 Teori Penunjang
18
3 Network Address
Menangani bagaimana suatu mesin diberikan suatu alamat antara lain
- ARP ( Address Rwesolution Protocol)
- DNS ( Domain Name Sistem)
- RARP (Reverse Address Resolution Protocol)
4 User Service
Merupakan aplikasi yang harus diakses user antara lain
- FTP ( File Transfer Protocol)
- TFTP (Trivial File Transfer Protocol)
- TELNET
5 Gateway Protocol
Untuk membentuk proses komunikasi routing dan status informasi antara lain
- EGP (Exterior Geteway Protocol)
- GGP (Gateway to Gateway Protocol)
- IGP (Interior Gateway Protocol)
232 Koneksi TCPIP
Untuk mengkonfigurasi TCPIP maka dibutuhkan
Alamat IP
Alamat IP ini sebagai pengenal atau alamat mesin Karena setiap mesin yang terhubung jaringan
harus memiliki penganal yang unik sehingga memungkinkan melakukan routing Jaringan dengan TCPIP
menggunakan pengalamatan 32 bit sebagai alamat atau pengenal setiap mesin yang terkoneksi dengan jaringan
Pengenal ini disebut alamat IP Pesan atau data yang dikirim melalui TCPIP menggunakan alamat IP ini untuk
mengenali mesin pengirim dan penerimanya
Biasanya alamat IP dapat dikelompokkan menjadi dua bagian yaitu
1 Nomor Network
2 Nomor Device dalam Network tersebut
Alamat IP tersebut dipisahkan menjadi empat bagian yang masing-masing berukuran 8 bit Empat
bagian tersebut dipisahkan oleh tanda titik dan setiap bagian tersebut memiliki angka 0-255 Contohnya
192168101
Pemberian alamta IP umumnya ditentukan berdasarkan ukuran dari jaringan tersebut Jaringan
dapat diklasifikasikan menjadi tiga kategori yaitu kelas A kelas B kelas C Ketiga kelas tersebut membagi
pengalamatan 32 bit dengan ukuran berbeda untuk nomor Network dan Host
Pengalamatan pada kelas A memungkinkan bagian ini memiliki angka dari 0-127 Sedangkan
pengalamatan B memungkinkan memiliki angka dari 128-191 pengalamatan pada kelas C memungkinkan
memiliki angka dari 192-223
Network Mask
Bab 2 Teori Penunjang
19
Network mask merupakan alamat IP dimana lamat networknya diset ke nilai 255 Jika alamat IP
termasuk kelas A maka network masknya yaitu 255000 Jika alamat IP termasuk kelas B maka network
masknya yaitu 25525500 Jika alamat IP termasuk kelas C maka network masknya yaitu 2552552550
AlamatNetwork
Alamat network ini dapat diperoleh dari alamat IP dimana bit-bitnya dilakukan operasi AND
dengan network mask Dengan demikian untuk network kelas B dengan IP 192168101 maka alamat
networknya adalah 19216800
Alamat Broadcast
Alamat broadcast dibutuhkan bila suatu mesin ingin mengirimkan paket yang sama ke semua
device pada jaringan
Alamat Gateway
Alamat gateway merupakan alamat IP dari mesin yang menghubungkan jaringan dengan jaringan
di luar misalnya internet Pada umumnya alamatgateway memiliki IP yang sama dengan mesin yang kita miliki
tetapi mempunyai nomor device 1 Dengan demikian untuk network kelas B dengan alamt IP 192168101
alamat gatewaynya adalah 19216811
Alamat Nameserver
Jaringan-jaringan besar umumnya memiliki sebuah mesin untuk mentranslasikan alamat IP menjadi
nama yang lebih mudah dikenal manusia Misalkan sebuah mesin dengan IP 192168101 dapat diberi nama lain
seperti puspacsuiacid sebagai alamatnya Proses translasi ini dilakukan dengan system yang dikenal dengan
nama Domain Name System (DNS)
24 BEKERJA DENGAN SOCKET
Komponen socket program yang dapat membantu dalam pembuatan suatu aplikasi yang berkomunikasi
antara suatu system computer dengan system computer yang lain dengan menggunakan protocol TCPIP dan
protocol lain yang terhubung
241 Pengertian Socket Program
Pada sub bab ini akan dijelaskan tentang komoponen socket program yang dapat berkomunikasi antara
system computer dengan system computer yang lain dengan menggunakan protocol TCPIP dan protocol lain
yang terhubung Dengan socket program ini kita dapat membaca dan menulis pada hubungan ke mesin yang lain
tanpa mengalami kesulitan pada software jaringan Socket program dapat mengadakan hubungan berbasis
protocol TCPIP tetapi dapat juga bekerja umunya dengan protokol-protokol yang terhubung seperti Xerox
Network System (XNS) dan yang lain
Bab 2 Teori Penunjang
20
242 Penjabaran Socket
Socket mengijinkan aplikasi jaringan kita berkomunikasi dengan sistem lain di luar jaringan
Masing- masing socket bisadipandang sebagai titik akhir dalam suatu koneksi jaringan Socket tersebut memiliki
spesifikasi sebagai berikut
a) Sistem yang sedang dijalankan
b) Tipe interface port yang digunakan
Penjelasan lengkap dari sebuah koneksi socket terdiri dari address socket pada kedua titik akhir
koneksi Kita akan menguraikan address dari masing- masing titik akhir socket dengan memberi nomor IP
address atau host dan port
Sebelum membuat koneksi socket sebelumnya harus menguraikan dengan lengkap socket-socket
yang membentuk titik akhir Beberapa informasi tersedia dari sistem aplikasi yang dijalankan Sebagai contoh
kita tidaka akan membutuhkan IP Address Local dari socket client sebab informasi ini terdapat pada sistem
operasi
Informasi yang akan kita berikan bergantung pada tipe socket yang sedang bekerja Socket client
harus menggambarkan port yang merepresentasikan layanan yang mereka berikan
243 Memilih Host Name dan IP Address
Kebanyakan aplikasi menggunakan host name untuk merinci sebuah system Host Name mudah
untuk diingat dan dicek Menggunakan host name memungkinkan socket client untuk menemukan situs abstrak
yang diwakili oleh nama host meskipun telah dipindah ke IP Address yang baru Jika nama host tidak diketahui
socket client akan akan menyatakan system server sedang menggunakan IP Addressnya Ketika kita
menyediakan host name socket akan mencari IP Address yang berhubungan dengan host name sebelum socket
tersebut dapat menempatkan pada sistem server
Bab 3 Perencanaan dan Implementasi
21
BAB 3
PERENCANAAN DAN IMPLEMENTASI
31 Pendahuluan
Pada bab ini akan dijelaskan mengenai pengolahan sinyal wicara untuk mendapatkan ciri setiap
individu Juga akan dibahas mengenai pengolahan hasil keluaran sinyal wicara untuk ditransmisikan ke PC lain
(lewat jaringan) Dan selanjutnya akan dibahas pula mengenai plan atau obyek yang dalam hal ini adalah lampu
pijar
Berikut ini adalah blok diagram sistem secara keseluruhan
Gambar 31 Blok Diagram Sistem Secara Keseluruhan
Speaker pada gambar 31 memberikan suaranya sebagai masukan lewat mikrofon Masukan ini
akan diolah dalam PC client mulai dari proses sampling frame windowing FFT LPC Kemudian hasil dari
LPC dicari pemadanan dengan LPC dari sinyal standar yang telah tersimpan sebagai data base di dalam PC
client Hasil dari DTW tersebut akan dikirimkan ke PC server melalui TCPIP untuk diproses menjadi suatu
perintah ke perangkat keras Perintah tersebut merupakan bentuk implementasi dari perintah yang diberikan dari
PC client
Sebaliknya dengan adanya perubahan kondisi pada peralatan yang diinginkan maka terjadi sinyal
balikan yang berupa sinyal DTMF yang dikirimkan oleh perangkat keras ke PC server Oleh PC server sinyal ini
diolah untuk dikenali sebagai suatu kondisi tertentu yang akan dikirimkan ke PC client sebagai laporan tentang
kondisi alat yang diinginkan
32 Sistem Pengolahan Sinyal Wicara
321Perekaman Suara
TCPIP
Pengucap Speaker ADC Pengolahan Wicara dan Monitoring
Peralatan yang terkontrol
LAN Card
LAN Card
Pengenalan Pola Pengiriman Tone DTMF dan Pengenalan DTMF Sebagai Laporan
DTMF Decoding DTMF Generator Sistem Switching
Alat Terkontrol
Bab 3 Perencanaan dan Implementasi
22
Perekaman suara dilakukan menggunakan software berbasis TclTk 830 dan Snack22 Sebelumnya
akan dijelaskan satu per satu program yang dipakai
o TclTk 830
Tcl kepanjangan dari Tool Control Language Tk adalah Graphical Toolkit extension dari Tcl yang
menyediakan bermacam-macam item standar antarmuka GUI untuk memfasilitasi secara cepat pengembangan
aplikasi tingkat tinggi
o Snack22
Snack adalah tool pengolahan suara yang didesain sebagai extensi untuk bahasa script Saat ini Snack bekerja
dengan bahasa script TclTk Phyton dan Ruby Snack memiliki perintah-perintah untuk play record process
dan dan memvisualisasi suara Snack menyediakan obyek suara tingkat tinggi dengan manajemen penyimpanan
yang fleksibel dan streaming support Snack dapat bekerja pada banyak format file suara
Kita dapat membangun aplikasi sepaerti di bawah ini dengan integrasi dari TclTk dan Snack
Gambar 32 Program aplikasi pengenalan wicara
Frekuensi sampling pada program di atas diset pada frekuensi 12 kHz Frekuensi ini dipilih karena biasa
digunakan untuk voice Selain itu juga diset pada channel Mono dan sinyal encoding LIN 16 (resolusi 16 bit
PCM) Pada penekanan tombol ldquorecordrdquo diikuti tombol ldquostoprdquo dan kemudian tombol ldquostandartrdquo maka akan
dimulai proses perekaman yanag akan digunakan untuk membuat file standar untuk kedelapan perintah yang
akan digunakan untuk pembanding sinyal masukan
Adapun proses untuk sistem yang akan dibuat dapat digambarkan dengan diagram alir seperti di bawah
Bab 3 Perencanaan dan Implementasi
23
Mulai
Package Require
Snack 22
Exit
Program On
Running
Recording
Sound Card
Produser Running
Prosedur Recording
DTMF
Keluar
Tidak
YaTidak
Ya
Ya
Ya
Ya
Tidak
Tidak
Tidak
Gambar 33 Flowchart Sistem Graphical User
Interface
322 Sampling
Seperti telah dijelaskan di depan bahwa frekuensi sampling yang digunakan adalah sebesar 12000Hz
dimana dalam 1 detik sinyal terdapat 12000 titik sampling Sebagai contoh seperti gambar di bawah ini suatu
sinyal epanjang 20 ms disampling 12000 Hz menghasilkan titik sampling sebanyak 240 titik
Data Sampling
-20000
-15000
-10000
-5000
0
5000
10000
15000
20000
0 200 400 600
Amplitudo
Jumlah Data
Gambar 34 Sinyal hasil sampling dengan
frekuensi 12000 Hz
Bab 3 Perencanaan dan Implementasi
24
Mulai
Sinyal Masukan
Baca Panjang Sinyal
Bagi Menjadi N Frame
i = 0 i lt N i++
Ambil 240 Data Sampel
Tampilkan Nilai
Sampel
Selesai
Gambar 35 Flowchart Proses Sampling
323 Pre-emphasis
Agar spektrum sinyal merata di semua frekuensi dan mencegah kehilangan informasi akibat pembulatan
pada saat komputasi maka dilakukan prose preemphasis Fungsi transfer preemphasis adalah
H(z) = 1 ndash a z-1 09 le a le 1 (31)
Dimana nilai a berkisar 095 Berdasarkan model filter di atas maka keluaran dari preemphasis adalah
s(n) = s(n) ndash a s(n-1) (32)
324 Frame Blocking
Hasil perekaman merupakan sinyal dalam domain waktu yang bersifat variant time (fungsi yang
bergantung pada waktu) Sinyal yang telah dipreemphasis kemudian dibagi menjadi n buah frame Dengan
jumlah sample per frame sebesar N dan adjacent frame sebesar M sample Dimana M=05N Pada frame
pertama terdiri dari N buah sampel Frame kedua dimulai pada sampel ke M sehingga terjadi overlape sebesar
N - M sampel Begitupula untuk frame yang ketiga dimulai dari sample ke 2M sehingga terjadi overlape dari
farme kedua sebesar N + M-2M sampel juga Hal ini akan terus berlangsung hingga seluruh sinyal terbagi
menjadi beberapa frame
Bab 3 Perencanaan dan Implementasi
25
Gambar 36 Frame blocking sinyal
325 Windowing
Windowing yang digunakan adalah window hamming Setelah proses pengambilan sample maka
langkah selanjutnya adalah proses selanjutnya adalah proses windowing yang berfungsi untuk mengurangi efek
diskontinyuitas pada ujung-ujung frame Persamaannya adalah sebagai berikut
y[i] = x[i](054-046cos(20314159265(i-1)240) (33)
Flowchartnya bisa dilihat seperti di bawah
Mulai
240 Data
Sampel
i= 0 i lt 240 i++
Hamming Window
y[i] = x[i](054-046cos(2phi(i-1)
240))
Tampilkan
nilai
Hamming
Selesai
Gambar 37 Flowchart Proses Windowing
326 Fast Fourier Transform
Transformasi fourier cepat (FFT) adalah suatu metode yang sangat efisien untuk menyelesaikan
transformasi fourier diskrit (DFT) yang banyak dipakai untuk keperluan analisa sinyal Sehingga dengan FFT
N N N M
M N
N N
M
Bab 3 Perencanaan dan Implementasi
26
sinyal yang disampling dalam domain waktu ditransformasikan ke domai frekuensi dengan menggunakan
persamaan sebagai berikut
N-1
H(k) = sum h(n)e-j2лkN (34)
n=0
dengan k= 012N-1
Prosesnya dapat dilihat dari flowchart di bawah
Mulai
240 data
sampel
256 data sampel
i=0 ilt256 i++
tmp_log1=(xr[k]xr[k]+xc[k]xc[k])
tmp_log gt 0
xr[k]=10log10(tmp_log1)
Tampilkan
nilai
hamming
Selesai
xr[k]=10log10(0000001)
Ya
Tidak
Gambar 38 Flowchart Proses Fast Fourier
Transform
327 Autocorrelation analysis
Hasil dari windowing sinyal masukan kemudian dihitung autokerelasinya dengan persamaan
N-1-m
r1(m) = sum x1(n)x1(n+m) m=01p (35)
n=0
dimana niali autokorelasi tertinggi p adalah orde dari analisis LPCPada umumnya nilai dari p yang sering
digunakan adalah dari 8 sampai 16
Proses Autokorelasi dapat dilihat dari flowchart di bawah ini
Bab 3 Perencanaan dan Implementasi
27
Mulai
240 data p lpc
orde
i=0 iltp i++
j=0 jlt240-p-1 j++
RI[j]=sum(xI[i]xI[i+j])
Tampilkan nilai
autocorrelation
Selesai
Gambar 39 Flowchart Proses Autokorelasi
328 LPC Analysis
Hasil koefisien autokorelasi kemudian dikonversikan ke sebuah LPC parameter set (untuk metode LPC
autokorelasi) dikenal sebagai Metode Durbin dan secara formal ditunjukkan dari algoritma sebagai berikut
E(0) = r(0) (36)
ki=r(i)-sumαj(i-1) r(|i-j|)E(i-1) 1 le I le p (37)
αi(i) = ki (38 )
αj(i) = αj
(i-1)-ki α(i-1) ( 39)
t-j
E(i)=(1-ki2)E (i-j) (310)
dimana penyajian akhir dari persamaan 37 mengabaikan i=1 Kumpulan dari persamaan 36 -310 diselesaikan
secara rekursif untuk i=12p
Proses analisis dapat dilihat dari flowchart di bawah
Bab 3 Perencanaan dan Implementasi
28
Mulai
Autocorrelationr
p lpc orde
E (0) = r(0)
k1
= r(i)-sumalpha j (i-1) r( | i-j|E(i-1)
alpha j (i) = k
i
alpha j
(i) = alpha (i-1) -k i alpha
i-j (i-1)
E (i) = 1-k i 2) E(i-1)
Tampilkan nilai
parameter lpca
Selesai
i=0 iltp i++
Gambar 310 Flowchart proses LPC analisis
329 LPC Parameter to Cepstrum Analysis
Sekumpulan parameter LPC yang sangat penting yang dapat diturunkan langsung dari kumpulan
koefisien LPC adalah koefisien cepstral LPC c(m) Rekursif yang digunakan adalah
co = ln σ2 ( 311)
m-1
cm = am + sum ck am-k 1 le m le p (312)
k = 1
m-1
cm = sum ck am-k m gt p ( 313)
k = 1
Proses LPC parameter ke Cepstrum Analysis dapat dilihat dari flowchart di bawah ini
k m ( )
k m ( )
Bab 3 Perencanaan dan Implementasi
29
Mulai
lpc parameter a
p lpc orde
c o = ln del 2
1 lt=mlt=p
i=0 iltp i++
Cm
= am
+sum((km)Ck a
m-kC
m =sum((km)C
ka
m-k)
Tampilkan nilai lpc
cepstrumc
Selesai
Gambar 311 Flowchart Proses LPC parameter ke
Cepstrum
3210 Dynamic Time Warping
Proses yang terjadi pada Dynamic Time Warping adalah pengukuran jarak suara antara sinyal standart
dan sinyal input Yang diukur berupa deretan nilai dari hasil LPC Cepstrum dalam bentuk kolom dan baris (ij)
yang disimpan dalam satu file Pada kolom berisi nilai tiap cepstrum sedangkan baris berupa banyaknya frame
Teknik yang digunakan dinamakan Dynamic Programming Alur kerjanya dapat dilihat dari flowchart di bawah
Bab 3 Perencanaan dan Implementasi
30
Mulai
i=0 iltN i++
j=0 jlt15 j++
Cepstrum
Standart
Std_Ceps [i][j]
Cepstrum
Input
Inp_Ceps [i][j]
DP_dist = DP_match1(r)
DP_dist
Selesai
Gambar 312 Flowchart Proses Dynamic Programming
33 Awal dan Akhir Sinyal suara
331 Power
Untuk mendapatkan suatu sinyal suara tanpa adanya noise maka sinyal harus benar-benar dipotong
tepat pada awal dan akhirnya Oleh karena itu dipakai power sebagai salah satu cara yang efektif dalam
menentukan awal dan akhir suatu sinyal suara
Dimana tiap frame mempunyai power yang merupakan hasil kuadratisasi dari penyampelan tiap frame
yang kemudian hasil keseluruhan diakarkan seperti bisa dilihat pada flowchart di bawah
Bab 3 Perencanaan dan Implementasi
31
Mulai
Power = 0
i=0 ilt240 i++
Power=Power+sqrt(xixi)
Selesai
Gambar 313 Flowchart Proses Power
Jumlah sample per frame ditetapkan sebesar 240 sampel Kemudian dicari power masing-masing antara sinyal
utuh dan sinyal noise kemudian dengan p ge p + 07 standar deviasi maka didapatkan awal dan akhir sinyal
suara
332 Unvoiced Plosive
Adanya daerah kosong menyebabkan sinyal tidak valid dalam pemotongan awal dan akhirnya karena
bisa dianggap noise padahal berada dalam sinyal suara ( merupakan bagian dari sinyal suara) Oleh karena itu
dicari mean dari 25 kata sinyal suara yang kemudian dicari nilai thresholdnya sebagai panjang akhir dari daerah
kosong Dan nilai tersebut diikutsertakan dalam looping dan jika setelah itu terdapat sinyal kembali maka
berarti masih ada sinyal suara dan jika tidak ada berarti tidak ada sinyal suara
34 Proses Pada Client
Preses pada client dapat dijelaskan sebagai berikut
Gambar 314 Blok diagram proses client
Penjelasan dari blok digram tersebut adalah
1 Pertama adalah perekaman suara pada software recording yang hasilnyadisimpan dalam bentuk file
berekstensi ldquowavrdquo File ini selanjutnya akan dijadikan file input pada sistem client
2 File suara yang telah tersimpan diolah dalam program sampling untuk mendapatkan sinyal suara dalam
bentuk frame Setiap frame terdiri dari 120 sampel
Mic Extract AD Voice Dikenali
Bab 3 Perencanaan dan Implementasi
32
3 Tiap frame diwindow dengan window Hamming untuk mengurangi efek diskontinyuitas pada ujung-
ujung frame
4 Sinyal hasil window yang masih dalam domain time diubah ke dalam domain frekuensi dengan Fast
Fourier Transform (FFT)
5 Hasil dari windowing sinyal masukan kemudian dihitung autokerelasinya
6 Hasil koefisien autokorelasi kemudian dikonversikan ke sebuah LPC parameter set (untuk metode LPC
autokorelasi) Sekumpulan parameter LPC yang sangat penting yang dapat diturunkan langsung dari
kumpulan koefisien LPC adalah koefisien cepstral LPC
7 Selanjutnya dilakukan proses DTW (Dynamic Time Warping) pengukuran jarak suara antara sinyal
standart dan sinyal input Hasilnya disimpan dalam sebuah file berekstensi ldquotxtrdquo
8 File berekstensi txt tersebut ke server sebagai sinyal suara input
35 Proses Pada Server
Proses pada server dapat dijelaskan sebagai berikut
Gambar 315 Blok diagram proses server
Penjelasan dari blok diagram tersebut adalah
1 Isi file berekstensi rdquotxtrdquo diterima oleh server dan digunakan sebagai data input untuk memanggil
database tone DTMF yang sesuai sebagai pengoperasian alat yang akan dikontrol
2 Alat yang terkontrol akan menunjukkan hasilnya
Memanggil
Database
Tone
Dikode
kan
dalam
biner
Kirim
ke HW
Kontrol
Alat
Input
server
Bab 4 Pengujian dan Analisa
33
BAB 4
PENGUJIAN DAN ANALISA
41 Pendahuluan
Untuk mengetahui tingkat keberhasilan dari suatu sistem diperlukan pengujian keseluruhan dari
perencanaan hasil sistem yang telah dibuat Dalam bab ini akan dijelaskan mengenai hal tersebut
Pengujian yang akan dilakukan adalah
1 Pengujian dan analisa sistem pengolahan sinyal wicara
2 Pengujian dan analisa sistem client server
3 Pengujian dan analisa awal dan akhir sistem pengolahan wicara
42 Pengujian dan Analisa Sistem Pengolahan Wicara
Tujuan untuk mendapatkan parameter ciri individu dari sampel sinyal yang diolah
421 Perekaman Suara
Pada Tugas Akhir ini digunakan duamacam perangkat lunak yang dibangun sendiri berbasis TclTk 830
dan Snack 22 sebagai perangkat lunak yang diuji dan perangkat lunak Wavesurver sebagai pembanding
4211 Dengan menggunakan TclTk dan Snack
Tampilan awal dari perangkat lunak yang dibangun dengan menggunakan TclTk dan Snack adalah sebagai
berikut
Gambar 41 Tampilan awal perangkat lunak menggunakan TclTk dan Snack
Bab 4 Pengujian dan Analisa
34
Pertama kali tombol record ditekan maka proses pengambilan sinyal wicara yang dimasukkan
dimulai Pada saat tombol Stop ditekan maka program akan merekam kata ldquosatu nyalardquordquosatu matirdquordquodua
nyalardquordquodua matirdquordquotiga nyalardquordquotiga matirdquordquoempat nyalardquordquoempat matirdquo sesuai yang kita masukkan dan
tampilan display akan digambarkan bentuk sinyal yang dihasilkan secara otomatis Hasil perekaman dapat
dilihat pada gambar berikut 42
Gambar 42 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan perangkat lunak
TclTk dan Snack
Gambar 42 menunjukkan bahwa proses pengambilan sinyal suara telah dilakukan Sinyal suara yang
dimasukkna akan terlihat gambarnya pada layar hitam (canvas)
4212 Dengan menggunakan Wave Surver
Sebagai pembanding dari program yang telah dibuat yaitu dari perangkat lunak TclTk dan Snack
digunakan Wavesurver
Tampilan awal dari Wavesurver 157 tampak seperti pada gambar 43
Gambar 43 Tampilan awal perangkat lunak menggunakan Wavesurver
Bab 4 Pengujian dan Analisa
35
Pada saat tombol recording ditekan maka program akan merekam kata ldquosatu nyalardquo dan pada tampilan
display akan digambarkan bentuk sinyal yang dihasilkan secara otomatis Hasil perekaman bisa dilihat pada
gambar 44
Gambar 44 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan
perangkat lunak Wavesurver
Perekaman pada Wavesurver dapat diset sesuai dengan kebutuhan Dimana pada sistem pengolahan sinyal
suara untuk perekaman suara diset sebagai berikut
Gambar 45 Kotak dialog setting perekaman perangkat lunak Wavesurver
Pada data di atas dapat dilihat bahwa suara yang direkam dengan mengguanakan perangkat lunak
Wavesurver mempunyai header dan tail yang berisi keterangan perekaman sebagai berikut
12000 menunjukkan frekuensi sampling yang digunakan
Bab 4 Pengujian dan Analisa
36
Channels menunjukkan bahwa suara direkam dengan menggunakan channel Mono
Sampel Encoding Lin 16 menunjukkan bahwa suara direkam dengan menggunakan
16 bit PCM
422 Sampling
Dengan menggunakan program yang dibangun sendiri di atas proses penyamplingan sinyal input sekaligus
telah terjadi dimana dengan frekuensi sampling sebesar 12000 Hz didapatkan sinyal dari kata ldquosatu nyalardquo
dengan potongan sebagai berikut
3306
3538
3788
4076
4282
4684
4747
4956
5083
5442
5844
5901
6244
6196
6462
6104
Berikut ini adalah cuplikan dari data sampel kata ldquo empat matirdquo mulai dari milidetik ke-13900
Bab 4 Pengujian dan Analisa
37
Data Sampling
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 46 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900
Pada gambar 46 telah dilakukan proses sampling sinyal masukan dengan frekuensi sampling sebesar 12000
Hz maka didapatkan hasil sinyal yang hampir mirip dengan sinyal analognya karena sinyal suara manusia
memiliki jarak frekuensi antara 300 sampai 5000 Hz dimana syarat Nyquist minimal fsampling 2fsinyal
telah terpenuhi
423 Windowing
Jenis window yang digunakan adalah window Hamming
Pada proses window hamming kata yang telah disampel sebanyak 240 sampel akan diwindow sehingga
menghasilkan sinyal yang lebih kecil peaknya Hasilnya adalah sebagai berikut
-26174
-22078
-12518
-1444
9690
19308
23360
20049
12365
2391
-7874
-14539
-17837
-19929
-19007
-16955
Bab 4 Pengujian dan Analisa
38
Sedangkan hasil dalam bentuk gambar dapat dilihat pada gambar berikut
Data Windowing
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 47 Hasil Windowing data sampel kata ldquoempat matirdquo milidetik ke-13900
Seperti yang ditunjukkan gambar 47 proses windowing telah dilakukan Berdasarkan gambar 47
tersebut dapat dikatakan bahwa window Hamming menyebabkan sinyal yang disampel lebih halus Gambar
47 dapat dibandingkan dengan gambar 46 yaitu gambar sinyal sebelum melalui proses windowing dapat
dilihat bahwa sinyal yang telah diwindow mempunyai sinyal yang lebih halus Hal ini membuktikan bahwa
fungsi dari windowing untuk mengurangi efek diskontinyuitas pada ujung-ujung frame adalah benar
424 Fast Fourier Transform Sinyal Masukan
Pada proses ini sinyal yang sebelumnya berada dalam domain waktu akan diubah dalam domain
frekuensi Setiap sinyal yang berasal dari alam merupakan sinyal analog yang bila diolah harus diubah
dalam bentuk sinyal digital Dan pengolahan dalam digital merupakan pengolahan dalam bentuk diskrit
Pada proyek akhir ini sinyal dalam domain waktu akan diubah dalam domain frekuensi dengan 256 titik
Karena hasil yang diperoleh berupa hasil dari fungsi konvolusi maka hanya akan diambil 128 titik saja yang
akan diolah dalam proses selanjutnya Sedangkan 128 sisanya tidak dipergunakan karena berupa
pencerminan saja
Hasil dari Fast Fourier Transform (FFT) dari penggalan kata ldquoempat matirdquo pada milidetik ke-13900 dalam
bentuk teks adalah
103505157
106889458
Bab 4 Pengujian dan Analisa
39
104735321
100408661
89175987
95431992
96601654
8489315
89637459
8630304
75320663
87866905
91001945
89607201
82408546
83440155
4241 Dengan Menggunakan TclTk dan Snack
Fast Fourier Transform Sinyal
Masukan
0
20
40
60
80
100
120
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 48 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat
lunak TclTk dan Snack
Dari gambar 48 di atas sinyal suara yang sebelumnya berada di domain waktu telah diubah ke domain
frekuensi Hasil Fast Fourier Transform sinyal masukan menunjukkan sebaran spektrum frekuensi dari
sinyal suara yang telah dihasilkan oleh pengucap antara 0 sampai 6000 Hz
Bab 4 Pengujian dan Analisa
40
4242 Dengan Menggunakan Wavesurver
Gambar 49 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat
Wavesurver
Dari gambar 49 di atas hasil Fast Fourier Transform sinyal masukan menunjukkan sebaran spektrum
frekuensi dari sinyal suara yang telah dihasilkan oleh pengucap antara 0 sampai 6000 Hz adalah sama
seperti pada gambar dengan gambar 48 yang diambil dengan perangkat lunak TclTk dan Snack
425 Autocorrelation Analysis
Pada proses ini sinyal masukan dalam domain waktu yang telah diwindow hamming dihitung korelasinya
dengan menggunakan orde analisi LPC sebesar 15 Sehingga akan didapatkan hasil rk(autokorelasi) sebagai
berikut
17648453
128874
0669745
0662566
0470262
0164336
-010638
-0229032
-016249
0014062
0138456
0188749
0117826
0014517
-0052704
426 LPC Analysis
Dari hasil autokorelasi tersebut di atas selanjutnya adalah LPC dimana mengkonversi masing-masing
frame dari autokorelasi p+1 ke dalam sebuah LPC Parameter a
Bab 4 Pengujian dan Analisa
41
Metode yang formal untuk mengkonversi dari koefisien autokorelasi ke sebuah LPC parameter (untuk
metode LPC autokorelasi) dikenal sebagai Metode Durbin dan secara formal hasilnya dapat ditunjukkan
sebagai berikut ini
1
-128874
0160681
-0156173
0166653
0255508
0192145
0003037
-0202248
-0265201
-0112133
005938
0232232
0203554
0048429
Dari hasil di atas terlihat bahwa untuk setiap frame nilai pertama menunjuukan energi dari masing-masing
frame dan selanjutnya adalah parameter LPC dalam satu frame yang digunakan sebagai penentu ciri dari
sinyal suara yang dihasilkan oleh individu
427 Fast Fourier Transform LPC Parameter
Pada proses ini nilai dari parameter LPC yang sebelumnya masih berada dalam domain waktu akan diubah
dalam domain frekuensi Pada proyek akhir ini parameter LPC dalam domain waktu akan diubah dalam
domain frekuensi dengan 256 titik Karena hasil yang diperolah berupa hasil dari fungsi konvolusi maka
hanya akan diambil 128 titik saja yang akan diolah dalam proses selanjutnya Sedangkan 128 sisanya tidak
dipergunakan karena berupa pencerminan saja
Hasil dari Fast Fourier Transform (FFT) dari parameter LPC pada penggalan kata ldquoempat matirdquo pada
milidetik ke-1 dalam bentuk teks adalah
103505157
106889458
104735321
100408661
89175987
Bab 4 Pengujian dan Analisa
42
95431992
96601654
8489315
89637459
8630304
75320663
87866905
91001945
89607201
82408546
4271 Dengan menggunakan TclTk dan Snack
Fast Fourier Transform Parameter
LPC
0
20
40
60
80
100
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 410 Fast Fourier Transform LPC dengan
menggunakan perangkat lunak TCLTk
dan Snack
Hasil gambar 410 menunjukkan bahwa parameter LPC yang di-Fourier Transform-kan akan menjadi
selubung spektrum dari spektrum sinyal masukan Sehingga jika selubung dan spektrumnya secara gambar
cocok dapat dikatakan bahwa LPC parameter yang dihitung benar
Bab 4 Pengujian dan Analisa
43
4272 Dengan menggunakan Wavesurver
Gambar 411 Fast Fourier Transform LPC denganmenggunakan perangkat lunak
Wavesurver
Hasil gambar 411 menunjukkan bahwa parameter LPC yang di-Fourier Transform-kan akan menjadi
selubung spektrum dari spektrum sinyal masukan adalah sama dengan yang telah diperoleh dengan
perangkat lunak TclTk seperti pada gambar 410
428 LPC Parameter to LPC Cepstrum
Koefisien LPC cepstrum koefisien yang direpresentasikan dengan Fourier Transform dengan spektrum
besaran log telah ditampilkan menjadi kumpulan fitur untuk pengenalan wicara yang lebih handal
terpercaya daripada koefisien LPC koefisien PARCOR atau koefisien log area ratio
Hasil dari LPC cepstrum pada penggalan kata ldquoempat matirdquo pada milidetik ke-106 dalam bentuk teks adalah
16636311
1387922
0474473
0654796
0429659
0132543
0225374
0126501
0021161
0242437
Bab 4 Pengujian dan Analisa
44
0160623
0065745
0139379
0056064
-0029262
Dari hasil di atas dapat dianalisa bahwa besaran-besaran dari LPC cepstrum benar-benar dapat
digunakan sebagai penentu ciri dari sinyal suara individu karena besaranndashbesaran yang dihasilkan oleh LPC
cepstrum dari yang pertama sampai yang terakhir dalam satu frame sangat bervariasi nilainya
429 Inverse Fast Fourier Transform LPC Cepstrum
Untuk menggambarkan ciri atau fitur wicara dalam domain waktu maka LPC cepstrum di-Invers Fast
Fourier Transform-kan sehingga didapatkan gambar untuk penggalan kata ldquosatu nyalardquo pada milidetik ke-
400 seperti gamabar 412
Fast Fourier Transform LPC
Cepstrum
0
20
40
60
80
100
120
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 412 Invers Fast Fourier Transform LPC cepstrum dengan menggunakan
perangkat lunak TCLTk dan Snack
Dari gambar 412 dapat dianalisa bahwa bentuk dari invers fourier transform LPC cepstrum yang
menyerupai selubung pada domain waktu dari spektrum frekuensi juga digunakan untuk menunjukkan
bahwa perhitungan LPC cepstrumnya telah benar dan dapat digunakan sebagai penentu ciri sinyal suara
individu
Invers Fast Fourier Transform LPC
Cepstrum
Bab 4 Pengujian dan Analisa
45
Gambar 413 Penggabungan spektrum sinyal spektrum LPC dan spektrum LPC
Cepstrum
Gambar 413 spektrum sinyal yang diwakili warna merah merupakan hasil sinyal yang telah di-Fast
Fourier Transform-kan Spektrum sinyal yang berwarna hijau merupakan parameter LPC yang telah di-
Fourier Transform-kan Sinyal ini akan menjadi selubung spektrum dari spektrum sinyal masukan Bila
selubung dan spektrumnya secara gambar cocok maka dapat dikatakan bahwa LPC parameter yang dihitung
adalah benar Dari gambar 413 dapat dilihat antara selubunga dan selubung sinyal masukan sudah cocok
Sinyal yang berwarna biru merupakan sinyal rata-rata dari sinyal selubung spektrum
4210 Dynamic Time Warping
Pengujian terakhir dari proses pengolahan sinyal wicara adalah membandingkan sinyal hasil cepstrum LPC
antara data input dan data standarnya Berdasarkan daerah pembatas kontinyuitas lokal dari persamaan 21
maka digunakan model yang pertama dan menggunakan persamaan 2116 dalam menghitung jarak antara
kata sebagai standar dan sebagai masukan
Selanjutnya menetukan data data sebagai data standar dan data sebagai data masukan Pada sistem ini
digunakan 8 kombinasi kata sebagai kata standar dan kata msukan untuk masing-masing pengujian dengan
kata standar sebanyak sepuluh (10) kali Adapun kata yang digunakan sebagai standar dan kata yang diuji
adalah meliputi satu nyalasatu matidua nyaladua matitiga nyalatiga matiempat nyalaempat
mati
Pada pengujian sistem kali ini masih menggunakan datasuara dari pebgucap yang sama Dari kelima data
standar yang ada dilakukan pembandingan dengan masing-masing 10 (sepuluh) kali pemasukan data Data
yang menghasilkan jarak euclidian terpendek dari masing-masing kata itulah yang akan diambil sebagai
data perintah terbaik
Bab 4 Pengujian dan Analisa
46
Pelekukan Jalur Suara
0
50
100
150
0 50 100 150
Sinyal Input empat mati
Sinyal Standart
empat mati
Gambar 414 Pelekukan Jalur Suara dengan Dynamic Time Warping
Dari gambar 414 dapat dianalisa bahwa dengan menggunakan dynamic time warping dua buah sinyal suara
akan dibandingkan vektor-vektor spektralnya dimana juga terdapat proses pembandingan panjang sinyal
antara dua buah sinyal tersebut sehingga terjadi proses pemadanan panjang sinyal dengan cara
memperpanjang dan menekuk vektor spektralnya Memperpanjang dalam arti memperpanjang sinyal yang
lebih pendek dengan memperhatikan perbandingan vektor spektralnya dan demikian pula menekuk dalam
arti menekuk sinyal yang lebih panjang dengan memperhatikan vektor spektralnya Dengan panjang yang
sama sebagai hasil dynamic time warping maka jarak euclidian antara dua sinyal dapat diperbandingkan
atau dihitung
4211 Min Value dan Sorting
Min Value dan Sorting menjadi satu paket sendiri yang digunakan untuk mencari kemungkinan hasil
terkecil dari pembandingan pola kata masukkan dengan kedelapan kata standart Keluaran dari fungsi
dynamic time warping akan memberikan delapan buah data yaitu hasil pembandingan kata masukan
dengan kata standart satu nyala hasil pembandingan kata masukan dengan kata standart satu mati hasil
pembandingan kata masukan dengan kata standart dua nyala hasil pembandingan kata masukan dengan
kata standart dua mati hasil pembandingan kata masukan dengan kata standart tiga nyala hasil
pembandingan kata masukan dengan kata standart tiga mati hasil pembandingan kata masukan dengan
kata standart empat nyala hasil pembandingan kata masukan dengan kata standart empat mati Dengan
metode sorting buble sort maka akan didapat nilai minimalnya
0748745
0362272
0633390
0327642
0600250
0346530
Bab 4 Pengujian dan Analisa
47
0545907
0207464
Berdasarkan data diatas maka perintah input sama dengan perintah kedelapan (ldquoempat matirdquo) karena
memiliki hasil time warping terkecil yaitu 0207464
4212 Hasil Pengujian Awal dan Akhir Sinyal
Pada proses penentuan awal dan akhir agar lebih presisi menggunakan ldquoPowerrdquo Adapun kelebihan dari
power adalah dapat membedakan antara sinyal suara dengan sinyal noise
Untuk menentukan awal dan akhir dicari nilai power Pada proses power kata yang telah disampel
sebanyak 240 sampel akan menghasilkan sinyal yang halus dan terletak di atas sumbu x Hasil dalam bentuk
teks adalah sebagai berikut ini
7678195313
1165659297
123492625
8917128906
6318766797
4531086719
4338374609
4912630469
5382503125
4548908984
429756875
4739710547
4575902734
4682924609
4786217578
Bab 4 Pengujian dan Analisa
48
Gambar hasil power bisa dilihat pada gambar 415 berikut
Power
0
100000
200000
300000
400000
500000
0 50 100 150
Jumlah Frame
Amplitude
Gambar 415 Sinyal ldquoempat matirdquo hasil program power
Gambar 416 berikut ini adalah hasil pengujian kata ldquoempat matirdquo sebagai masukan dan kata standar ldquoempat
matirdquo dimana kedua kata dibandingkan berdasarkan powernya sebelum proses Dinamic Time Warping
Sinyal warna biru sebagai power sinyal standart dan sinyal yang berwarna merah merupakan power sinyal
input
Perbandingan Dua Kata empat mati
sebelum DTW
0
100000
200000
300000
400000
500000
0 50 100 150
Jumlah Frame
Amplitude
Gambar 416 Perbandingan power dua kata ldquoempat matirdquo sebelum Dynamic Time Warping
Berikut ini adalah hasil pengujian dua buah kata ldquoempat matirdquo dengan menggunakan dynamic time warping
dimana jalur pelekukan suara dapat digambarkan pada gambar 417
Bab 4 Pengujian dan Analisa
49
Pelekukan Jalur Suara
0
50
100
150
0 50 100 150
Sinyal Input empat mati
Sinyal Standart
empat mati
Gambar 417 Pelekukan jalur suara dua kata ldquoempat matirdquo dengan DTW
Gambar 418 adalah hasil pengujian dua buah kata ldquoempat matirdquo sebagai masukan dan dan kata standar
ldquoempat matirdquo dimana kedua kata dibandingkan berdasarkan powernya setelah proses dynamic time
warping
Gambar 418 dapat dibandingkan dengan gambar 416 yaitu sinyal sebelum proses Dynamic Time Warping
Sebelum proses Dynamic Time Warping sinyal tidak mengalami proses penekukan dan penarikan data
berdasarkan waktu antara keduanya sehingga antara sinyal input dan sinyal standart memiliki ukuran
panjang yang sangat jauh berbeda
Pemadanan Dua Kata Setelah DTW
0
100000
200000
300000
400000
500000
0 100 200 300
Jumlah Frame
Amplitude Power
Gambar 418 Perbandingan power dua kata ldquoempat matirdquo setelah Dynamic Time Warping
Dari gambar 418 dapat dinyatakan bahwa setelah melalui proses dynamic time warping terjadi penekukan
dan penarikan data berdasarkan waktu antara keduanya sehingga pada akhirnya kedua sinyal memiliki
ukuran panjang yang sama Sehingga dengan demikian dapat dicari jarak euclidian untuk menentukan
sebuah kata yang sesuai dengan kata yang lainnya
Bab 4 Pengujian dan Analisa
50
4213 Hasil Pengujian Sistem Perangkat Lunak
Pada pengujian sistem perangkat lunak diambil sampel data dari 3 orang dimana terdiri dari 3 orang pria
dan 1 orang wanita Pria pertama merupakan standar sekaligus pengisi suara untuk perintah Sedangkan pria
kedua dan wanita sebagai pembanding untuk mengetahui unjuk kerja sistem
Tabel 41 Hasil pengujian sistem pengolahan sinyal wicara untuk pengucap yang sama (pria
1)
8 7 6 5 4 3 2 1 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05417
03487
05964
03443
07272
04424
03449
01
961
Satu
nyala
Sinyal Standart
02496
04723
03013
05120
03450
03815
01
739
03471
Satu
mati
04389
02035
06139
03244
04343
02
158
04567
04047
Dua
nyala
01866
04517
04157
05267
01
940
02561
02036
04779
Dua
mati
04833
02168
03984
01
090
06409
04278
05019
02690
Tiga
nyala
02683
04628
01
188
03416
04046
03345
02959
04614
Tiga
mati
03807
01
046
05271
01974
05934
03134
04363
02554
Empat
nyala
01
388
03728
02269
04497
02559
03195
02476
04874
Empat
mati
Bab 4 Pengujian dan Analisa
51
16
15
14
13
12
11
10
9 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05776
02988
05100
04019
06101
05338
04219
02
047
Satu
nyala
Sinyal Standart
03382
04381
02427
05124
02642
05990
02
706
03335
Satu
mati
04453
02558
04993
04574
03381
02
344
04529
04121
Dua
nyala
01669
04532
03190
06355
01
004
04807
03466
04622
Dua
mati
05209
02261
03366
01
124
05377
04165
05369
02660
Tiga
nyala
03721
04074
00
891
03002
02637
05958
02719
04333
Tiga
mati
03889
01
755
04365
02341
04826
03150
05193
02472
Empat
nyala
01
092
03974
01802
04848
01455
05343
02717
04536
Empat
mati
Bab 4 Pengujian dan Analisa
52
24
23
22
21
20
19
18
17 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05157
04015
06277
02964
05609
04690
03376
01
369
Satu
nyala
Sinyal Standart
01787
05144
03814
04134
04952
04843
01
636
03404
Satu
mati
03988
03026
07420
03020
03977
01
905
04801
03610
Dua
nyala
01630
05662
06259
05009
01
808
03357
02206
05094
Dua
mati
04667
02681
05731
01
448
05575
03280
05344
03417
Tiga
nyala
01902
05055
03
395
02597
04700
04618
02951
04808
Tiga
mati
03809
01
863
06920
02154
04252
02455
04616
03184
Empat
nyala
00
761
04379
04288
04053
03629
04122
02419
05622
Empat
mati
Bab 4 Pengujian dan Analisa
53
32
31
30
29
28
27
26
25 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
04793
03554
06312
03247
06514
03585
03068
02
935
Satu
nyala
Sinyal Standart
01671
04661
03012
03961
02834
04667
01
079
05475
Satu
mati
04033
02359
05307
02587
03475
01
587
04781
04010
Dua
nyala
02222
04949
03652
04387
00
958
03222
02647
04966
Dua
mati
04499
02207
04170
01
873
05884
02500
05631
03257
Tiga
nyala
01791
04432
01
196
02646
02999
04619
02558
05048
Tiga
mati
03561
01
050
05061
02437
04927
01887
05325
03424
Empat
nyala
00
858
03774
02052
03974
01440
04186
02597
05381
Empat
mati
Bab 4 Pengujian dan Analisa
54
40
39
38
37
36
35
34
33 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
06471
03838
05816
03364
06492
03613
03496
01
111
Satu
nyala
Sinyal Standart
02951
05556
02631
04558
05057
04799
01
683
02958
Satu
mati
05259
02977
05228
03305
04614
00
878
05159
02707
Dua
nyala
03165
05686
03078
05512
01
088
03082
03482
04823
Dua
mati
05397
02037
03714
00
949
06365
02818
05998
02829
Tiga
nyala
02990
04867
00
921
02759
04978
04752
03131
04533
Tiga
mati
05028
01
233
05114
02070
05154
01825
05439
01975
Empat
nyala
01
914
04521
01834
04248
02711
04164
03149
04755
Empat
mati
Bab 4 Pengujian dan Analisa
55
48
47
46
45
44
43
42
41 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
07997
03701
06005
03992
05800
05223
03706
01
198
Satu
nyala
Sinyal Standart
03909
04978
02572
05339
05784
05103
01
161
03113
Satu
mati
06284
02355
05419
04194
03709
02
588
04764
02834
Dua
nyala
03737
04883
03321
06131
03
489
04229
03188
04962
Dua
mati
05885
02259
04026
00
918
06123
03601
05739
0 2867
Tiga
nyala
03583
04464
00
974
03340
05828
05114
02720
04269
Tiga
mati
05762
01
230
7
05459
02231
04899
03397
05114
0 2395
Empat
nyala
02
247
02888
01948
04994
04987
04505
02141
0 4956
Empat
mati
Bab 4 Pengujian dan Analisa
56
56
55
54
53
52
51
50
49 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05627
03923
06226
04018
05254
04895
02933
02
009
Satu
nyala
Sinyal Standart
02473
04947
02892
05661
05301
05040
01
289
03008
Satu
mati
04393
02779
06046
04425
02900
01
743
04571
02669
Dua
nyala
02222
05352
04171
06748
01
202
03736
03177
03699
Dua
mati
04644
02488
03523
00
835
05391
03319
05277
03671
Tiga
nyala
02213
04345
01
009
03758
02869
05933
02761
03900
Tiga
mati
04093
01
443
05080
05083
04959
02819
04840
02709
Empat
nyala
01
239
04029
0 2223
05428
01263
04236
02575
04141
Empat
mati
Bab 4 Pengujian dan Analisa
57
64
63
62
61
60
59
58
57 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
07489
03792
05134
04199
06459
04019
03044
01
850
Satu
nyala
Sinyal Standart
03586
04783
02186
05509
02884
04251
01
198
03243
Satu
mati
05697
02612
04576
04268
03211
01
519
04639
03845
Dua
nyala
03563
05288
02855
06752
01
074
03523
03265
04523
Dua
mati
05768
02262
03884
01
048
06348
02633
05784
02683
Tiga
nyala
03449
04859
01
009
03177
03425
04355
02975
04077
Tiga
mati
05693
01
445
04574
02498
05298
01999
05622
02359
Empat
nyala
02
236
04215
01468
05161
01827
03851
03161
04416
Empat
mati
Bab 4 Pengujian dan Analisa
58
72
71
70
69
68
67
66
65 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05439
02975
05593
03689
05796
03415
03416
01
492
Satu
nyala
Sinyal Standart
02225
04543
04586
04584
02669
04529
01
112
02881
Satu
mati
04025
02639
06303
03009
02582
01
003
05045
02767
Dua
nyala
01734
05437
04847
04897
00
826
02892
02584
04797
Dua
mati
04671
02336
04988
01
206
05595
02572
05647
02991
Tiga
nyala
02095
04805
04
025
02747
02848
04359
02773
04076
Tiga
mati
03971
01
297
05065
02121
04489
01703
05074
02131
Empat
nyala
00
901
04123
04026
04154
01514
03762
02328
04561
Empat
mati
Bab 4 Pengujian dan Analisa
59
80
79
78
77
76
75
74
73 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
07997
03054
06228
04446
05805
04687
03173
03
391
Satu
nyala
Sinyal Standart
05051
04619
05619
05749
02631
04447
01
086
05310
Satu
mati
05949
03685
05899
05607
03163
01
874
05234
03797
Dua
nyala
03109
05053
05258
07102
01
095
03368
03585
04539
Dua
mati
06473
02004
04524
01
350
05525
03084
05608
03682
Tiga
nyala
04759
04205
04
309
03701
03031
04660
02678
05243
Tiga
mati
05572
02
003
05167
02702
04478
02552
05358
03563
Empat
nyala
02
459
04960
04964
05734
01641
03971
02630
05029
Empat
mati
Pengujian pertama ini dilakukan dengan cara memasukkan suara pria pertama (yang digunakan sebagai
pengisi suara standart) Setiap satu perintah dilakukan sebanyak 10 kali pengujian Hasil pengujian
merupakan nilai dari hasil proses Dynamic Time Warping yang merupakan nilai dari pemadanan sinyal
input dengan kedelapan sinyal standart Nilai terkecil (nilai yang tercetak tebal) yang didapatkan merupakan
hasil yang paling mendekati sinyal standart Yang berarti sinyal masukan tersebut dianggap paling sesuai
dengan sinyal standart
Prosentase keberhasilan pengucapspeaker pertama untuk kedelapan perintah sebesar 100 semuanya
menunjukkan kepada sinyal masukkan dan sinyal standart yang sama
Hasil pengujian menunjukkan bahwa ciri sinyal suara yang dihasilkan oleh pengucap speaker pertama dan
sebagai pemberi standart adalah sama
Bab 4 Pengujian dan Analisa
60
Tabel 42 Hasil pengujian sistem pengolahan sinyal wicara untuk pengucap yang lain (pria
2)
8 7 6 5 4 3 2 1 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
06023
05121
07146
04599
04996
04561
07575
04
358
Satu
nyala
Sinyal Standart
04018
05701
06369
06256
03518
05738
07004
08129
Satu
mati
07120
03925
07395
04897
05938
02246
10082
06777
Dua
nyala
04963
05958
05189
07345
03449
04854
08816
08543
Dua
mati
05919
04337
05163
02
130
04797
03463
08871
05289
Tiga
nyala
03709
04519
04380
03601
03491
05239
06
046
07381
Tiga
mati
06087
03
161
06178
03280
05
068
02
439
08853
05354
Empat
nyala
03
409
04321
04
208
05569
03219
04898
06863
08596
Empat
mati
Bab 4 Pengujian dan Analisa
61
16
15
14
13
12
11
10
9 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05475
03932
05521
04
383
05634
05416
04
464
03
434
Satu
nyala
Sinyal Standart
04076
05731
04541
05681
03574
04920
03971
06662
Satu
mati
07427
04886
07924
05962
05824
02
712
07837
05504
Dua
nyala
04475
06666
05765
07616
03414
04203
05431
06334
Dua
mati
05357
03797
05099
04509
04902
04332
07097
05220
Tiga
nyala
04197
05134
04
209
05088
03169
04547
04464
06516
Tiga
mati
05936
03
769
05910
05109
05
311
03435
07646
04977
Empat
nyala
03
576
05767
04591
06367
03010
04129
04944
06850
Empat
mati
Bab 4 Pengujian dan Analisa
62
24
23
22
21
20
19
18
17 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
06927
04
279
08096
04
448
06461
05522
03935
02
444
Satu
nyala
Sinyal Standart
06409
05322
05528
05481
04912
04491
02
011
05508
Satu
mati
06134
04643
08962
06002
04868
02
579
06122
05502
Dua
nyala
04753
06443
05501
07364
02
298
03206
04239
06684
Dua
mati
05709
04928
05456
04961
06142
05726
06454
03831
Tiga
nyala
05798
04882
03
235
04708
04838
04317
03526
05462
Tiga
mati
05021
04423
06842
05583
05222
04132
06363
04235
Empat
nyala
04
457
05427
03546
05773
02946
03573
03618
07019
Empat
mati
Bab 4 Pengujian dan Analisa
63
32
31
30
29
28
27
26
25 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05260
04224
07393
04661
06292
04993
03989
03
549
Satu
nyala
Sinyal Standart
04478
04669
04568
05977
03523
04046
03
438
04819
Satu
mati
06448
04308
08152
06114
04665
02
444
07609
05162
Dua
nyala
04024
05867
05103
07873
01
872
02613
04489
06765
Dua
mati
05363
04
672
05250
04
529
05210
05103
06546
04794
Tiga
nyala
04422
04039
02
482
05102
03499
03985
03969
04371
Tiga
mati
05492
04073
06626
05239
04902
03553
06869
04794
Empat
nyala
03
326
04543
03153
06510
02133
03419
04175
05287
Empat
mati
Hasil pengujian yang kedua ini dilakukan dengan cara memasukkan suara dari pria kedua (pria lain yang
tidak digunakan sebagai suara standart) Setiap satu perintah dilakukan empat (4) kali proses pengujian
Hasil pengujian merupakan nilai dari hasil proses Dynamic Time Warping yang merupakan nilai dari
pemadanan sinyal input dengan kedelapan sinyal standart Nilai terkecil (nilai yang tercetak tebal) yang
didapatkan merupakan hasil yang paling mendekati sinyal standart Yang berarti sinyal masukan tersebut
dianggap paling sesuai dengan sinyal standart
Prosentase keberhasilan pengucapspeaker kedua untuk kedelapan perintah bervariasi sebesar 50
sampai dengan 100 semuanya menunjukkan kepada sinyal masukkan dan sinyal standart yang berbeda
Hasil pengujian menunjukkan bahwa ciri sinyal suara yang dihasilkan oleh pengucap speaker kedua dan
sebagai pemberi standart adalah mendekati sama
Bab 4 Pengujian dan Analisa
64
Tabel 43 Hasil pengujian sistem pengolahan sinyal wicara untuk pengucap yang sama (pria)
No Perintah Lampu DTMF
1 1 nyala B B
2 1 mati B G
3 2 nyala B G
4 2 mati G X
5 3 nyala G X
6 3 mati G X
7 4 nyala B B
8 4 mati B B
9 1 nyala B G
10 1 mati B B
11 2 nyala B G
12 2 mati B B
13 3 nyala B G
14 3 mati B B
15 4 nyala B G
16 4 mati B B
17 1 nyala B G
18 1 mati B B
19 2 nyala G X
20 2 mati G X
21 3 nyala B B
22 3 mati B B
23 4 nyala B B
24 4 mati G X
No Perintah Lampu DTMF
25 1 nyala B G
26 1 mati G X
27 2 nyala G X
28 2 mati B G
29 3 nyala B G
30 3 mati B G
31 4 nyala B G
32 4 mati G X
B Berhasil
G Gagal
X Donrsquot Care (Diabaikan)
Pengujian yang ketiga ini dilakukan oleh pria pertama (pria yang suaranya digunakan sebagai standart)
Masing-masing perintah dilakukan sebanyak empat kali pengujian
Bab 4 Pengujian dan Analisa
65
Pada kolom ketiga (kolom lampu) tanda B (berhasil) menunjukkan bahwa perintah yang diberikan pada
hardware berhasil dilakukan Tanda G (gagal) menunjukkan bahwa perintah yang diberikan pada hardware
gagal dilakukan(hasil tidak sesuai dengan perintah yang diberikan)
Pada kolom keempat (kolom DTMF) menunjukkan laporan dari hardware ke PC server tentang
bagaimana keadaan lampu yang sedang dikontrol apakah dalam keadaan menyala atau mati Pada kolom ini
tanda B (berhasil) menunjukkan bahwa laporan dari hardware ke PC server (yang merupakan proses
otomatisasi) berhasil dilakukan Tanda G (gagal) menunjukkan bahwa laporan ke PC client gagal dilakukan
Sedangkan tanda X (donrsquot care) menunjukkan bahwa perintah diabaikan Hal ini disebabkan perintah pada
hardware (perintah sebelumnya sebelum proses otomatisasi) sudah gagal dilakukan
Prosentase keberhasilan pengucapspeaker pertama untuk kedelapan perintah bervariasi antara 50
sampai 100 semuanya menunjukkan kepada sinyal masukkan dan sinyal standart yang berbeda
Hasil pengujian kedua ini menunjukkan bahwa ciri sinyal suara yang dihasilkan oleh pengucapspeaker
kedua ini yang merupakan suara orang lain (bukan pemberi standart) adalah mendekati sama dengan hasil
yang bervariasi antara 50 sampai 100
43 Pengujian Sistem Client Server
Pada sub bab ini akan diujikan program Client Server yang akan mengirimkan sinyal hasil pengolahan
suara
Tampilan pada client adalah seperti gambar 421 yang merupakan tampilan awal pada saat program
dimulai
Gambar 421 Proses pada client
Bab 4 Pengujian dan Analisa
66
Gambar 422 Proses pada server
1 Sebelumnya program server harus disiapkan lebih dulu
2 Setelah itu client dijalankan
3 Setelah client siap user memasukkan suara yang selanjutnya akan diolah sampai proses DTW
4 Server menerima data yang selanjutnya digunakan untuk melakukan kontrol alat rumah tangga
44 Analisa Pengujian Sistem Secara Keseluruhan
Berdasarkan data-data yang telah didapatkan di atas maka dapat ditarik suatu analisa bahwa
Berdasarkan tabel 44 untuk pengujian pertama pria 1 adalah pria yang suaranya digunakan sebagai standart
Prosentase keberhasilan rata-rata yang didapat untuk semua perintah adalah sebesar 100 Hal ini menunjukkan
bahwa suara yang diujikan adalah suara yang sama dengan standart dan pria 1 tersebut pernah berinteraksi
dengan sistem
Pengujian yang kedua adalah pengujian yang dilakukan oleh pria 2 (pria lain yang suaranya tidak
dipakai sebagai standart) Prosentase keberhasilan rata-rata yang didapat untuk semua perintah 7188 Karena
sistem bersifat dependent speaker dimana sistem hanya digunakan oleh orang tertentu dalam arti yang pernah
berinteraksi langsung dengan sistem Oleh karenanya didapat nilai prosentase keberhasilan yang bervariasi
Bab 4 Pengujian dan Analisa
67
Tabel 44 Tingkat keberhasilan sistem perangkat lunak
NNO
PENGUCAP
PERINTAH
BANYAK
PERCOBAAN
PROSENTASE
KEBERHASILAN
1 Pria 1 1 nyala 8 kali 100
2 1 mati 8 kali 100
3 2 nyala 8 kali 100
4 2 mati 8 kali 100
5 3 nyala 8 kali 100
6 3 mati 8 kali 100
7 4 nyala 8 kali 100
8 4 mati 8 kali 100
RATA-RATA 100
9 Pria 2 1 nyala 4 kali 100
10 1 mati 4 kali 75
11 2 nyala 4 kali 75
12 2 mati 4 kali 50
13 3 nyala 4 kali 50
14 3 mati 4 kali 75
15 4 nyala 4 kali 50
16 4 mati 4 kali 100
RATA-RATA 7188
Jika diurutkan proses pengolahan wicara dari awal sampai diambil keputusan suara yang dimasukkan
tersebut adalah suara yang sesuai atau tidak adalah sebagai berikut
Bab 4 Pengujian dan Analisa
68
Gambar 423 Tampilan awal perangkat lunak menggunakan TclTk dan Snack
Gambar 423 adalah tampilan awal dari perangkat lunak yang dibangun dengan menggunakan TclTk dan
Snack
Gambar 424 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan dengan
menggunakan perangkat lunak Wavesurver
Gambar 424 adalah tampilan awal dari program Wavesurver yang merupakan pembanding dari program
yang dibuat dari perangkat lunak TclTk dan Snack
Bab 4 Pengujian dan Analisa
69
Gambar 425 Tampilan awal perangkat lunak
menggunakan TclTk dan Snack
Gambar 425 adalah tampilan ketika proses pengambilan sinyal suara sedang dilakukan dengan perangkat
lunak TclTk dan Snack
Gambar 426 Tampilan hasil perekaman kata ldquoempat
matirdquo dengan menggunakan perangkat lunak Wavesurver
Gambar 426 adalah tampilan ketika proses pengambilan sinyal suara sedang dilakukan dengan perangkat
lunak Wavesurver
Bab 4 Pengujian dan Analisa
70
Data Sampling
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 427 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900 menggunakan TclTk dan
Snack
Pada gambar 427 dilakukan proses sampling sinyal masukan dengan frekuensi sampling sebesar 12000
Hz maka didapatkan hasil sinyal yang hampir mirip dengan sinyal analognya yang dilakukan dengan
perangkat lunak TclTk dan Snack
Gambar 428 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900 dengan menggunakan
perangkat Wavesurver
Pada gambar 428 dilakukan proses sampling sinyal masukan dengan frekuensi sampling sebesar 12000
Hz yang dilakukan dengan perangkat lunak Wavesurver
Data Windowing
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 429 Hasil Windowing data sampel
kata ldquoempat matirdquo milidetik ke-13900 menggunakan TclTk dan Snack
Bab 4 Pengujian dan Analisa
71
Proses windowing terdapat pada gambar 429 dilakukan untuk membuat sinyal yang disampel lebih
halus Proses windowing ini dilakukan dengan menggunakan perangkat lunak TclTk dan Snack
Proses windowing pada Wavesurver merupakan fasilitas yang tergabung dengan proses lainnya Misal
dengan proses Fast Fourier Transform Jadi disini tidak ditampilkan hanya sebagai proses windowing saja
tetapi digabungkan dengan proses lain
Fast Fourier Transform Sinyal
Masukan
0
20
40
60
80
100
120
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 430 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat
lunak TclTk dan Snack
Gambar 430 di atas adalah proses Fast Fourier sinyal masukan dengan perangkat lunak TclTk dan Snack
Hasil Fast Fourier Transform sinyal masukan menunjukkan sebaran spektrum frekuensi dari sinyal suara
yang telah dihasilkan oleh pengucap
Sebagai pembanding adalah proses Fast Fourier sinyal masukan yang diambil dengan Wavesurver seperti
pada gambar 431 Yang didapatkan hasil yang sama
Gambar 431 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat Wavesurver
Bab 4 Pengujian dan Analisa
72
Fast Fourier Transform Parameter
LPC
0
20
40
60
80
100
0 2000 4000 6000 8000
Frekuensi (Hz)10 x log
10(magnitude)(dB)
Gambar 432 Fast Fourier Transform LPC dengan menggunakan perangkat lunak TCLTk
dan Snack
Hasil gambar 432 menunjukkan proses Fast Fourier Transform LPC yang dilakukan dengan perangkat
lunak TclTk dan Snack
Gambar 433 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat Wavesurver
Proses Fast Fourier Transform yang dilakukan dengan Wavesurver dapat dilihat pada gambar 433
Pelekukan Jalur Suara
0
50
100
150
0 50 100 150
Sinyal Input empat mati
Sinyal Standart
empat mati
Gambar 434 Pelekukan Jalur Suara dengan Dynamic Time Warping
Bab 4 Pengujian dan Analisa
73
Dari gambar 434 dapat dianalisa bahwa dengan menggunakan dynamic time warping terdapat proses
pembandingan panjang sinyal antara dua buah sinyal input dan sinyal standart sehingga terjadi proses
pemadanan panjang sinyal dengan cara memperpanjang dan menekuk vektor spektralnya
74
BAB 5
PENUTUP
51 Kesimpulan
Dari hasil yang didapatkan maka dapat diambil kesimpulan bahwa
Sistem pengucap tak bebas atau speaker dependent system memiliki tingkat akurasi yang tinggi untuk
pengucap masukan dan pengucap standar yang sama Hal ini dibuktikan dengan hasil pengujian pertama
yang dilakukan oleh pria pertama Pria pertama ini adalah pria yang suaranya digunakan sebagai standar
Nilai prosentase keberhasilan rata-rata untuk semua perintah adalah sebesar 100 dari setiap perintah
dilakukan 8 kali percobaan
Sedangkan pengujian yang dilakukan oleh suara lain (bukan standart) prosentatase keberhasilan
rata-rata yang diperoleh untuk semua perintah 7188 dari setiap perintah dilakukan 4 kali percobaan Hal
ini disebabkan karena suara pria kedua tidak pernah berinteraksi dengan sistem
Keberhasilan sistem ditunjukkan oleh ketepatan penyalaan lampu sesuai dengan yang diperintahkan
melalui perintah suara
Kecepatan sistem secara keseluruhan diperlihatkan dalam tabel 51 dibawah
Tabel 51 Kecepatan sistem keseluruhan
No
Perintah
Waktu (detik)
1 2 3 4 Rata-rata
1 Satu Nyala 11 99 12 25 16 89 14 05 13 80
2 Satu Mati 12 51 13 28 14 83 12 25 13 22
3 Dua Nyala 10 70 11 73 11 99 12 25 11 67
4 Dua Mati 10 44 11 21 11 21 11 47 11 08
5 Tiga Nyala 10 96 12 25 13 54 12 51 12 32
6 Tiga Mati 10 70 11 99 11 99 13 28 11 99
7 Empat Nyala 11 73 11 99 13 02 12 24 12 25
8 Empat Mati 10 70 09 93 11 21 10 70 10 64
Rata-rata 12 12
Dari data yang diperoleh didapatkan kecepatan rata-rata untuk tiap perintah yang diberikan sampai
dengan terlaksananya eksekusi dari perintah adalah 12 12 detik
52 Saran
Pada penelitian ini masih sangat banyak hal yang dapat dilakukan untuk perbaikan-perbaikan dimasa
selanjutnya Saran dan usulan yang dapat dipertimbangkan untuk pengembangan sistem lebih lanjut adalah
antara lain
1 Sistem tidak lagi bersifat dependent speaker tetapi bersifat independent speaker dimana banyak
orang yang memberi perintah dan sistem dengan tepat memberikan respon
2 Sistem dapat mengatasi tingkat noise yang tinggi baik yang disebabkan oleh lingkungan atau oleh
hardware (sound card)
75
3 Otomatisasi sistem Artinya perintah tidak perlu lagi diberikan lewat penekanan tombol yang
dilakukan melalui mouse
4 Respon sistem yang real time
5 Sistem yang dapat dengan mudah beradaptasi dengan jenis sound card yang bervariasi
DAFTAR PUSTAKA
Anggraeni Triana Dewi Astutik Debi Puji Pengenalan Wicara Dengan Penutur Tak Bebas
Tugas Akhir PENS ITS 2003
Wahyudi Agus Verifikasi Sinyal Suara Sebagai Kendali Arah TA PENS-ITS 2002
Dewantara Bima Sena Bayu Aplikasi Pengenalan Wicara Untuk Perintah NirkabelRobot Mikro
Mouse Tugas Akhir PENS ITS 2004
Dutono Titon Penataran Kebahasaan Tahap I Fonetik Dan Fonologi ndashPengolahan Sinyal
Wicara Digital 20 Februari 2001
Gabel Robert A Richard A Robert Sinyal dan Sistem LinierErlangga 1996
Rabiner Lawrence Huang Juang Biing Fundamentals of Speech Recognition Prentice Hall
International Inc1993
Proakis John G Malonakis Dimitris G Digital Signal Processing Principles Algorithms and
Applications Prentice Hall Inc New Jersey 1995
Scolander Kare Snack Sound Toolkit
httpwwwtcltkmantcl85tutorialTcl11html
httpwikitcltk4074
httpwwwinveceorgtclwisefrontcoverhtml
httpwwwspeechkthsesnackmansnack22tcl-manhtml
httpwwwspeechkthsesnacktutorialhtml
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13]
Bab 1 Pendahuluan
iii
ABSTRACT
In this research speech recognition system was implemented to control and to monitor household equipments
Controlling process have been done with long distance control that is from client PC to server PC This system is speaker
dependent The system consist of the following process taking signal sampling frame windowing LPC (Linear Prediction
Code) Those processes are called as extraction After that Dynamic Time Warping (DTW) process is done In this process
input signal was warped with standart signal
Extraction and DTW processes were done in the client PC The result of DTW was sent to the server PC to control
household equipments we want From server PC we will always know about household equipments condition that we
control
The controlled equipments were four of lamps that are ―satu nyala (lamp 1 on) ―satu mati (lamp 1 off) ―dua
nyala (lamp 2 on) ―dua mati (lamp 2 off) ―tiga nyala (lamp 3 on) ―tiga mati (lamp 3 off) ―empat nyala (lamp 4 on)
―empat mati (lamp 4 off) The performed achieved for the system is 100 current for standart speaker and 7188 for non
standart speaker
Key Words speech recognition digital signal processing speaker dependent system sampling windowing Linear
Predictive Coding Fast Fourier Transform dynamic programming Dynamic Time Warping
Bab 1 Pendahuluan
iv
KATA PENGANTAR
Dengan mengucap puji syukur kepada Allah SWT atas limpahan rahmat dan hidayah-Nya serta
pertolongan dan ridlo-Nya sehingga kami dapat menyelesaikan penelitian ini pada waktunya Sholawat dan
salam semoga terlimpahkan kepada kekasih Allah Nabi Muhammad SAW sang Uswatun Hasanah
Dengan pengerahan segenap usaha akhirnya kami dapat menyelesaikan penelitian kami yang berjudul
SISTEM PENGENDALIAN DAN MONITORING PERALATAN RUMAH TANGGA JARAK JAUH
DENGAN METODE PENGENALAN WICARA
tepat pada waktunya
Dengan terselesaikannya buku laporan penelitian ini kami berharap semoga buku ini dapat membawa
manfaat bagi pembaca umumnya dan juga bagi kami khususnya serta semua pihak yang berkepentingan Kami
juga berharap agar penelitian ini dapat dikembangkan lebih lanjut sehingga dapat benar-benar digunakan sebaik-
baiknya untuk mendukung perkembangan ilmu pengetahuan Kami menyadari bahwa kami adalah manusia biasa
yang tidak luput dari kesalahan dan kekurangan Untuk itu kritikan dan saran yang bersifat membangun kami
harapkan untuk perbaikan selanjutnya
Akhirnya tak lupa kami ucapkan terima kasih kepada semua pihak yang telah memberikan bantuan dan
dukungan hingga terselesaikannya penelitian ini
Bandung 15 Juni 2012
Bab 1 Pendahuluan
v
DAFTAR ISI
Halaman Judul i
Abstrak ii
Kata Pengantar iv
Daftar Isi v
Daftar Gambar viii
Daftar Tabel x
BAB 1 PENDAHULUAN 1
11 Latar Belakang 1
12 Tujuan 1
13 Batasan Masalah 1
14 Sistematika Pembahasan 2
BAB 2 TEORI PENUNJANG 3
21 Sistem Pengolahan Wicara 3
211 Sinyal Suara Manusia 3
212 Sampling 5
213 Preemphasis 6
214 Frame Blocking 7
215 Windowing 7
216 Fourier Transform 8
217 Linier Prediction Code 9
2171 Autocorrelation Analysis 10
2172 LPC Analysis 10
2173 LPC Parameter Convertion to Cepstral Coefficient 11
218 Dynamic Time Warping 11
2181 Dynamic Programming 11
2182 Batasan Normalisasi Waktu 15
2183 Batasan Titik Awal Akhir 15
2184 Kondisi Monotonisasi 15
22 Awal dan Akhir Sinyal Suara 15
221 Power 15
222 Unvoiced Plosive 16
23 Jaringan dengan TCPIP 17
231 Mengenal TCPIP 17
232 Koneksi TCPIP 18
Bab 1 Pendahuluan
vi
24 Bekerja dengan Socket 19
241 Pengertian Socket Program 19
242 Penjabaran Socket 19
243 Memilih Hostname dan IP Address 20
BAB 3 PERENCANAAN DAN IMPLEMENTASI 21
31 Pendahuluan 21
32 Sistem Pengolahan Sinyal Wicara 22
321 Perekaman Suara 22
322 Sampling 23
323 Preemphasis 24
324 Frame Blocking 25
325 Windowing 25
326 FFT 26
327 Autocorrelation Analysis 27
328 LPC Analysis 28
329 LPC Parameter to Cepstrum Analysis 29
3210 DTW 30
33 Awal dan Akhir Sinyal Suara 31
331 Power 31
332 Unvoiced Plosive 32
34 Proses pada client 32
35 Proses pada server 33
BAB 4 PENGUJIAN DAN ANALYSIS 33
41 Pendahuluan 33
42 Pengujian dan Analysis Sistem Pengolahan Wicara 33
421 Perekaman Suara 33
4211 Dengan Menggunakan TclTk dan Snack 33
4212 Dengan Menggunakan Wavesurver 35
422 Sampling 37
423 Windowing 38
424 FFT Sinyal Masukan 39
4241 Dengan Menggunakan TclTk dan Snack 40
4242 Dengan Menggunakan Wavesurver 41
425 Autocorrelation Analysis 41
426 LPC Analysis 41
427 FFT LPC Parameter 42
Bab 1 Pendahuluan
vii
4271 Dengan Menggunakan TclTk dan Snack 43
4272 Dengan Menggunakan Wavesurver 43
428 LPC Parameter to LPC Cepstrum 44
429 Inverse FFT LPC Cepstrum 45
4210 Dynamic Time Warping 46
4211 Min Value dan Sorting 47
4212 Hasil Pengujian Awal dan Akhir Sinyal 48
4213 Hasil Pengujian Sistem Perangkat Lunak 51
43 Pengujian sistem client server 66
44 Analisa Pengujian Sistem Secara Keseluruhan 67
BAB 5 PENUTUP 74
51 Kesimpulan 74
52 Saran 74
DAFTAR PUSTAKA
Bab 1 Pendahuluan
viii
DAFTAR GAMBAR
21 Skema diagram organ penghasil sinyal wicara 4
22 Struktur umum model generator wicara 5
23 Pola standart dengan unit kata 6
24 Pola standart dengan unit fonem 6
25 a) Sinyal wicara untuk bunyi a pada satu frame pada pria b) Sinyal wicara untuk bunyi
a pada satu frame pada wanita 7
26 Contoh proses sampling dengan nilai frekuensi pencuplikan yang berbeda 8
27 Pergeseran frame pada sinyal suara dengan M = 13 N 10
28 Blok Metode FFT-DIT 8 titik 13
29 Plane jaringan untuk ilustrasi pemrograman dinamik 18
210 DTW antara dua rentetan waktu A dan B 19
211 Bentuk power dari kata 22
212 Unvoiced Plosive 23
31 Blok Diagram Sistem secara keseluruhan 29
32 Program aplikasi pengenalan wicara 31
33 Flowcart sistem Graphical User Interface 32
34 Sinyal hasil sampling dengan frekuensi 12000 Hz 33
35 Flowcart proses sampling 34
36 Frame blocking sinyal 35
37 Flowcart proses windowing 36
38 Flowcart Proses Fast Fourier Transform 37
39 Flowcart Proses Autokorelasi 38
310 Flowcart Proses LPC Analisis 39
311 Flowcart proses LPC Parameter ke Cepstrum 40
312 Flowcart proses Dynamic Programming 41
313 Flowcart Proses Power 42
314 Blok Diagram Proses Client 43
315 Blok Diagram Proses Server 44
41 Tampilan awal perangkat lunak menggunakan TclTk dan Snack 46
42 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan perangkat lunak
TclTk dan Snack 47
43 Tampilan awal perangkat lunak menggunakan Wavesurver 48
44 Tampilan hasil perekaman kata rdquoempat matirdquo dengan menggunakan perangkat lunak wavesurver 48
45 Kotak dialog setting perekaman perangkat lunak Wavesurver 49
46 Cuplikan dari katardquoempat matirdquo milidetik ke-13900 51
47 Hasil windowing data sampel kata rdquoempat matirdquo milidetik ke-13900 52
48 Fast fourier Transform sinyal masukan dengan menggunakan perangkat lunak TclTk da Snack 54
Bab 1 Pendahuluan
ix
49 Fast fourier Transform sinyal masukan dengan menggunakan perangkat lunak Wavesurver 54
410 FFT LPC dengan menggunakan perangkat lunak TCLTk dan Snack 57
411 FFT LPC dengan menggunakan perangkat lunak Wavesurver 58
412 Invers FFT LPC cepstrum dengan menggunakan Perangkat lunak TCLTk dan Snack 60
413 Penggabungan spektrum sinyal spektrum LPC dan Spektrum LPC Cepstrum 61
414 Pelekukan Jalur suara dengan Dynamic Time Warping 62
415 Sinyal rdquoempat matirdquo hasil program power 65
416 Perbandingan power dua kata ldquoempat matirdquo sebelum Dynamic Time Warping 65
417 Pelekukan alur suara dua kata ldquoempat matirdquo dengan DTW 66
418 Perbandingan power dua kata rdquoempat matirdquo setelah Dynamic Time Warping 67
421 Proses pada client 85
422 Proses pada server 86
423 Tampilan awal perangkat lunak menggunakan TclTk dan Snack 88
424 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan dengan menggunakan
perangkat lunak Wavesurver 89
425 Tampilan awal perangkat lunak menggunakan Wavesurver 89
426 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan perangkat lunak Wavesurver 90
427 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900 90
428 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900 dengan menggunakan perangkat
Wavesurver 91
429 Hasil Windowing data sampel kata ldquoempat matirdquo milidetik ke-13900 92
430 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat lunak TclTk dan Snack 92
431 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat lunak Wavesurver 93
432 Fast Fourier Transform LPC dengan menggunakan perangkat lunak TCLTk dan Snack 94
433 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat Wavesurver 94
434 Pelekukan jalur suara dengan Dynamic Time Warping 95
Bab 1 Pendahuluan
x
DAFTAR TABEL
41 Hasil pengujian sistem pengolahan wicara untuk pengucap yang sama (pria 1) 68
42 Hasil pengujian sistem pengolahan wicara untuk pengucap yang lain (pria 2) 79
43 Hasil pengujian system pengolahan wicara untuk pengucap yang sama (pria) 83
44 Tingkat keberhasilan system perangkat lunak 87
51 Kecepatan sistem keseluruhan 96
Bab 1 Pendahuluan
1
BAB 1
PENDAHULUAN
11 LATAR BELAKANG
Sudah sekian lama manusia memimpikan adanya pengendalian suatu alat atau sistem kontrol dengan
perintah suara Hal ini diperjelas dengan banyak beredarnya film-film fiksi yang menyuguhkan berbagai sistem
kontrol yang dilakukan dengan menggunakan suara bagaimana seorang anak bisa mengendalikan sebuah
pesawat terbang hanya dengan perintah-perintah dasar dengan menggunakan suaranya Ditambah lagi dengan
pesatnya penelitian dibidang suara yang membuat pintu gerbang sistem pengontrolan dengan suara manusia
semakin terbuka Dewantara [2] telah membuat sebuah aplikasi pengenalan wicara untuk perintah nirkabel robot
mikro mouse Anggraeni dan Astutik [1] telah menggunakan pengenalan wicara untuk mengakses suatu jaringan
sebagai password Tetapi belum ada yang membuat aplikasi pengenalan wicara untuk membuat perintah
pengontrolan pada alat-alat rumah tangga semisal lampu Selain itu beberapa tahun terakhir ini perkembangan
dunia telekomunikasi mengalami kemajuan yang sangat pesat Sehingga pada saat ini informasi yang dikirim
tidak hanya berupa data dalam bentuk teks tetapi juga suara manusia Ditambah dengan semakin banyaknya
peralatan yang memanfaatkan pengenalan suara manusia untuk mengakses maupun memberikan perintah Sinyal
suara yang masuk akan diproses dan dikenali oleh suatu alat Proses tersebut adalah pengenalan wicara (speech
recognition) yaitu pengenalan wicara melalui sampel suara yang telah diolah
Dengan pertimbangan tersebut maka pembuatan kontrol suatu peralatan jarak jauh dengan menggunakan
suara sangat sesuai jika diaplikasikan dalam sistem pengendalian dan monitoring peralatan rumah tangga jarak
jauh dengan menggunakan metode pengenalan wicara Aplikasi tersebut kami bangun dalam pelaksanaan
penelitian ini
12 TUJUAN
Penelitian ini bertujuan untuk
1 Memberikan perintah suara untuk menyalakan beberapa peralatan rumah tangga dalam contoh kasus
dalam penelitian ini adalah menyalakan lampu jarak jauh
2 Membangun sistem pengucap tak bebas (speaker dependent sistem)
3 Memberikan ciri individu untuk memberikan perintah menghidup dan matikan peralatan rumah tangga
yang dilakukan secara jarak jauh
13 BATASAN MASALAH
Batasan masalah pada penelitian ini adalah
1 Bahasa pemrograman untuk algoritma pengenalan wicara adalah Microsoft Visual C++ 60
2 Bahasa Pemrograman untuuk user interface adalah TclTk 830 dan Snack 22
3 Sistem bersifat dependentartinya sistem hanya dapat digunakan oleh orang tertentu dalam hal ini yang
pernah berinteraksi langsung dengan sistem
4 Sinyal diasumsikan ideal yaitu tidak mamperhitungkan noise yang berarti semua noise dianggap stationer
Bab 1 Pendahuluan
2
5 Perintah kata yang diberikan dibatasi untuk keperluan tone dekoder saja dengan dua perintah secara
langsung Semua kata diucapkan secara wajar dengan kecepatan normal
6 Keberhasilan penelitian ini dapat dilihat dari keberhasilan ketepatan perintah yang dihasilkan oleh sistem
dengan perintah yang diberikan
7 Jaringan komunikasi masih dilaksanakan untuk local area dari PC ke PC
14 SISTEMATIKA PEMBAHASAN
Sistematika pembahasan penelitian ini sebagai berikut
BAB I PENDAHULUAN
Pada bab ini akan diuraikan tentang latar belakang tujuan batasan masalah dan sistematika
pembahasan masalah yang digunakan
BAB II TEORI DASAR
Pada bab ini akan diuraikan tentang landasan-landasan teori yang digunakan
BAB III PERENCANAAN DAN PELAKSANAAN
Pada bab ini akan diuraikan tentang tahap-tahap perencanaan dan proses pembuatan keseluruhan sistem
yang mendukung untuk membangun sistem pengenalan wicara untuk sistem pengendalian dan monitoring
peralatan rumah tangga jarak jauh
BAB IV PENGUJIAN DAN ANALISIS
Pada bab ini akan dijelaskan tentang hasil pengujian sistem yang telah dibangun baik secara perbagian
ataupun keseluruhan serta analisis terhadap hasil pengujian sistem untuk mengetahui apakah sistem yang
dibangun sesuai dengan yang diharapkan
BAB V KESIMPULAN DAN SARAN
Pada bab ini berisi kesimpulan dari pembahasan pada perencanaan serta analisa pengujian yang
diperolehUntuk lebih baiknya sistem yang dibangun maka disertakan pula saran-saran untuk perbaikan dan
penyempurnaan
Bab 2 Teori Penunjang
3
BAB 2
TEORI PENUNJANG
21 Sistem Pengolahan Sinyal Wicara
211 Sinyal Suara Manusia
Manusia menggunakan suara sebagai sumber informasi untuk mengkomunikasikan keinginan ide dan
perasaannya kepada orang lain Organ tubuh manusia yang digunakan dalam proses produksi wicara adalah
paru-paru tenggorokan(trachea) laring faring rongga hidung(nasal cavity) dan rongga mulut(oral cavity)
Pembangkitan sinyal wicara terletak pada bentuk lintasan vokalnya(vocal tract) Lintasan vokal tersebut terdiri
atas di bawah katup tenggorokan (laryngeal pharynx) antara langit-langit lunak katup tenggorokan (oral
pharynx ) di atas velum dan di ujung depan rongga hidung (nasal pharynx) dan rongga hidung (nasal cavity)1
seperti ditunjukkan gambar 21
Gambar 21 Skema diagram organ penghasil sinyal
Wicara2
Model generator wicara atau model sintesa suara yang dipakai dan menjadi dasar dari pemrosesan
sinyal wicara hingga dewasa ini adalah apa yang dinamakan Analog Terminal seperti pada gambar 22
1 Dewantara Bima Sena Bayu Aplikasi Pengenalan Wicara Untuk Perintah Nirkabel Robot Mikro Mouse TA PENS ITS 2004 hal 5 2 Dutono Titon Penataran Kebahasaan Tahap I Fonetik dan Fonologi Pengolahan Sinyal Wicara Digital 20 Februari 2001
Bab 2 Teori Penunjang
4
Gambar 22 Struktur umum model generator wicara3
Pada model ini sinyal eksitasi(glotal wave) yang berasal dari getaran pita suara diumpankan ke suatu
filter yang merupakan suatu model pendekatan dari lintasan vokal (vocal tract) untuk menghasilkan sinyal
wicara Model analog terminal ini disebut juga pensintesa formant Dasar pendekatan model ini adalah bahwa
lintasan suara adalah suatu bumbung akustik (acoustical cavity) yang mempunyai karakteristik berdasarkan
perpaduan beberapa frekuensi resonansinya Dengan demikian fungsi transfernya dapat didekati dengan
pendekatan kombinasi riam (cascade combination) dari beberapa rangkaian resonansinya Dengan analogi yang
sama sistem ini dapat dibangun dari beberapa rangkaian resonansi yang mempunyai parameter lebar bidang dan
frekuensi resonansi yang selalu berubah setiap saat membentuk suatu sistem berubah waktu (time variant
system)
Struktur sistem pengenal wicara yang ada dapat dibagi menjadi 2 yaitu
1) Mempergunakan pola standart dengan unit kata
Gambar 23 Pola standart dengan unit kata4
2) mempergunakan pola standart dengan unit fonem
yang dilengkapi dengan kamus kosa kata
3 Ibid 4 Ibid
Ekstraksi ciri
Pola standar kata
Pemadanan kata
Algoritma keputusan
Sinyal wicara Output teks
Bab 2 Teori Penunjang
5
Gambar 24 Pola standart dengan unit fonem5
Pada sistem pertama mampu mencakup fenomena koartikulasi tapi tidak fleksibel terhadap perubahan
kosa kata
Sinyal wicara adalah sinyal yang dihasilkan oleh suara manusia dan biasanya mempunyai frekuensi
kerja antara 0 sampai dengan 5000 Hz Bentuk gelombang sinyal wicara mempunyai bentuk yang unik seperti
gambar 23
Gambar 25 a)Sinyal wicara untuk bunyi a pada satu frame pada wanita
b)Sinyal wicara untuk bunyi a pada satu frame pada pria
Berdasarkan gambar 25 terlihat bahwa setiap satu frame terdapat 120 sample yang bersifat quasi
periodik dan mempunyai unsur bunyi terkecil yang disebut sebagai pitch Panjang pitch berkisar 10 ms Pitch
manusia berbeda satu sama lain terutama jenis kelamin laki-laki dan perempuan
212 Sampling
Sinyal wicara merupakan sinyal yang tidak terbatas dalam domain waktu (finite time interval) Suara
manusia akan menghasilkan sinyal analog yang terus kontinyu Untuk keperluan pemrosesan dalam transformasi
fourier maka sinyal wicara harus dibentuk dalam potongan-potongan waktu yang terbatas (infinite time interval)
Karena itu sinyal yang ada dipotong-potong dalam slot-slot interval waktu tertentu
Berdasarkan pada teori sampling Niquist maka syarat dari frekuensi sampling adalah minimal dua kali
frekuensi sinyal
Fsampling 2 x Fsignal ( 21)
Ekstraksi ciri
Pola standar fonem
Pemadanan fonem
Kamus kosa kata
Pemadanan kata
Algoritma keputusan
Sinyal wicara
-20000
-15000
-10000
-5000
0
5000
10000
15000
0 20 40 60 80 100 120 140
pitch -10000
-8000
-6000
-4000
-2000
0
2000
4000
6000
8000
0 20 40 60 80 100 120 140
pitch
Output teks
Bab 2 Teori Penunjang
6
Contoh dari sampling seperti bisa kita lihat pada gambar di bawah
Gambar 26 Contoh proses sampling dengan nilai frekuensi pencuplikan yang berbeda
6
Frekuensi sampling yang digunakan adalah 12000 Hz
Dimana dalam 1 detik sinyal terdapat 12000 titik sampling
213 Preemphasis
Proses preemphasis dimaksudkan agar spektrum sinyal merata di semua frekuensi serta mencegah
kehilangan informasi akibat proses pembulatan pada saat komputasi Fungsi preemphasis adalah
H (z) = 1 ndash az-1 09 le a le 1 (22)
dimana nilai a berkisar 095 Berdasarkan model filter di atas maka keluaran dari preemphasis adalah
s (n) = s (n) - as (n-1) ( 23)
Penjabarannya sebagai berikut
5 Ibid 6 Ibid
Fi = 1000 Hz
Fs = 1250 Hz
Fs = 1000 Hz
Fs = 4000 Hz
Fs = 8000 Hz
Fs 2Fi
Kriteria Nyquis
Fi Frekuensi sinyal informasi Fs Frekuensi pencuplikan
H X Y
T 1 = 12000 = 833 x 10-5 s = 833 μs
10 ms = 833μs x N sample N = 120 sample
Bab 2 Teori Penunjang
7
y = H x
y = (1-az-1) xn
y = xn - 095 xn z-1
y = xn ndash 095 xn - 1
214 Frame Blocking
Sinyal wicara yang telah dipreemphasis s (n) diblok dalam M sampel dimana N 2 x M seperti yang
ditunjukkan pada gambar 27 Jika M le N pergeseran frame akan mengalami overlape hasil perkiraan LPC
spectral akan dikorelasikan dari frame 1 ke frame berikutnya Jika M laquo N perkiraan LPC spectral dari satu frame
ke frame lainnya akan sangat halus (smooth) Dan bila M gt N maka tidak akan ada overlape diantara frame yang
berbatasan dan sinyal suara akan hilang sama sekali dan korelasi diantara perkiraan spectral LPC dari frame
yang berbatasan akan berisi komponen noise
Gambar 27 Pergeseran Frame pada Sinyal Suara
dengan M = 13 N
Sehingga didapatkan nilai dari sinyal yang baru adalah sebagai berikut
x1(n) =s(M 1+n) n =012hellipN ndash 1 l = 012hellipLndash1 (24 )
215 Windowing
Merupakan proses membatasi lebar sinyal yang akan dianalisa yang dapat mengurangi efek
diskontinyuitas pada ujung-ujung frame yang dihasilkan oleh potongan-potongan sinyal Korelasi antara lebar
window dalam domain waktu dan amplitude berguna untuk menyederhanakan sinyal dengan mengurangi
puncak sinyalnya
Ada beberapa jenis windowing yang dinamakan sesuai dengan nama penemunya yaitu
Bab 2 Teori Penunjang
8
Window Hamming
052-046 cos[2лn(N-1)] 0 le n le N-1
Wham(n) =
0 elsewhere
Window Hanning
1-cos[2лn(N-1)] 2 0 le n le N-1
Whan(n) =
0 elsewhere
Window Bartlett
1-cos[2лn(N-1)] 2 0 le n le (N-1)2
WB(n) = 2-2n(N-1) (N-1)2lenleN-1
0 elsewhere
Window Blackman
042-05cos[2лn(N-1)]+008cos[4лn(N-1)]0lenleN-1
WBl(n) =
0 elsewhere
216 Fourier Transform
Transformasi Fourier Diskrit (DFT) adalah deretan yang terdefinisi pada kawasan frekuensi ndash diskrit
yang merepresentaskan Transformasi Fourier terhadap suatu deretan terhingga (Finite Duration Sequence) DFT
berperan penting untuk implementasi algoritma suatu varitas pengolah sinyal karena efisien untuk komputasi
berbagai aplikasi
Salah satu contoh aplikasi komputasi DFT dalam algoritma yang efisien yaitu Fast Fourier Transform
(FFT) Efisiensi suatu algoritma ditentukan dari sejauh mana dapat mereduksi jumlah perkalian dan
penjumlahan serta reduksi lalu lintas data pada memori komputer sehingga proses lebih cepat
Pada DFT untuk memproses N buah titik diperlukan (N-1)perkalian kompleks dan N(N-1)
penjumlahan kompleks Bila N cukup besar dibutuhkan memori yang besar dan waktu yang cukup lama Untuk
itu digunakan metode lain yang lebih cepat yaitu metode transformasi fourier cepat (FFT) FFT dilakukan
dengan membagi N buah titik pada transformasi fourier diskrit menjadi 2 masing-masing N2 titik trnsformasi
Pemecahan menjadi dua pada proses transformasi fourier cepat disebut sebagai proses rekombinasi Dua buah
N2 titik transformasi mempunyai 2(N2) = N2 perkalian Proses memecah menjadi dua ini diteruskan dengan
membagi setiap (N2) titik transformasi menjadi dua buah (N4) titik transformasi setiap (N4) menjadi dua buah
Bab 2 Teori Penunjang
9
(N8) titik transformasi dan seterusnya hingga diperoleh junlah titik yang minimum Jika besarnya N merupakan
kelipatan pangkat dari 2 (disebut radiks 2) maka jumlah titik minimum setelah setiap kali dibagi 2 adalah dua
Ada dua macam metode FFT metode Decimation in Time (DIT) dan metode Dicimation in Frekuensi
(DIF) Kedua metode ini hamper sama Pada metode FFT-DIT N buah titik transformasi dibagi 2 menjadi fungsi
ganjil dan genap masing-masing mempunyai N2 titik transformasi Sedang pada metode FFT-DIF N buah titk
transformasi dibagi menjadi fungsi N2 titk yang pertama dan fungsi N2 titik yang kedua
Operasi pada metode FFT-DIT disebut juga metode kupu-kupu Untuk N buah titik transformasi h(n)
algoritma radiks 2 memerlukan proses perkalian dan rekombinasi sebanyak N2 log N transformasi fourier
diskrit Pada metode FFT-DIT operasi dekomposisi dilakukan dengan membagi fungsi h(n) menjadi 2 bagian
fungsi ganjil dan fungsi genap Atau dengan pernyataan matematika h1(n) dan h2(n) yang masing-masing adalah
untuk n genap dan n ganjil
Prinsip FFT dengan metode DIT adalah seperti pada gambar 24 berikut ini
Gambar 28 Blok metode FFT-DIT 8 titik
7
Pada gambar di atas merupakan jumlah perkalian kompleks N2 log N juga jumlah penjumlahan
kompleks = N2 log N
217 Linear Prediction Code
Ide dasar dari LPC adalah bahwa pada model ini memberikan sampel suara pada domain waktu yang
bisa didekati sebagai kombinasi linear dari sampel suara yang telah lalu
Teori Linear Prediction Coding (LPC) yang diaplikasikan pada wicara telah dimengerti selama
beberapa tahun Pada bagian ini akan dijelaskan dasar dari bagaimana LPC diaplikasikan pada sistem pengenlan
wicara
Sebelum menjelaskan LPC secara umum sebagai pemrose front-end untuk pengenalan wicara perlu
diketahui alasan mengapa LPC sangat banyak digunakan yaitu
1 LPC menyuguhkan model yang bagus untuk sinyal wicara
2 Cara yang digunakan LPC untuk analisa sinyal wicara sangat beralasan untuk pemisahan track dari
sumber vocal
3 LPC adalah model traktabel secara analitis
Bab 2 Teori Penunjang
10
4 Model LPC bekerja dengan baik pada aplikasi pengenalan
2171 Autocorrelation Analysis
Masing-masing frame sinyal yang telah diwindow kemudian di-autokorelasikan dengan menggunakan
persamaan
N-1-M
r1(m) = sum x1(n) x1(n+m) m = 0 1 p ( 25) (25)
n = 0
dimana nilai autokorelasi tertinggi p adalah orde dari analisi LPC Pada umumnya nilai dari p yang
sering digunakan adalah dari 8 sampai 16 Sisi menguntungkan dari analisis autokorelasi adalah bahwa
autokorelasi ke-0 R1 (0) adalah energi dari frame ke-1 Energi dari frame merupakan parameter
penting untuk system deteksi wicara
2172 LPC Analysis
Langkah selanjutnya adalah analisis LPC dimana mengkonversi masing-masing frame dari
auto korelasi p+1 ke dalam sebuah ldquoLPC Parameter Setrdquo dimana kumpulan itu merupakan koefisien
LPC koefisien refleksi atau PARCOR koefisien log area ratio koefisien Cepstral atau beberapa
transformasi pada kumpulan tersebut
Metode yang formal untuk mengkonversi dari koefisien autokorelasi ke sebuah LPC parameter
set (untuk metode autokorelasi) dikenal sebagai Metode Durbin dan secara formal dapat ditunjukkan
pada algoritma berikut ini
E(0) = r(0) ( 26)
Ki=r(i)-sumαj(i-1) r(|i-j|)E(i-1) 1 le I le p ( 27)
αi(i) = ki (28)
αj(i) = αj
(i-1)-ki α(i-1) ( 29)
t-j
E(i)=(1-ki2)E (i-j) (210)
dimana penyajian akhir dari persamaan mengabaikan i=1 Kumpulan dari persamaan hellipdiselesaikan secara
rekursif untuk i=12hellipp dan penyelesaian akhir diberikan sebagai
am=koefisien PC=αm 1lemlep ( 211)
7 Agus Wahyudi Verifikasi Sinyal Suara Sebagai Kendali Arah TA PENS-ITS 2002
Bab 2 Teori Penunjang
11
km=koefisien PARCOR ( 212)
1 - km
gm=koefisien log area ratio = log ----------- ( 213)
1 + km
2173 LPC Parameter Corversion to Cepstral Coefficients
Sekumpulan parameter LPC yang sangat penting yang dapat diturunkan langsung dari kumpulan LPC
adalah koefisien cepstral LPC c(m) Rekursif yang digunakan adalah
co = ln σ2 ( 214)
m-1
cm = am + sum ck am-k 1 le m le p ( 215)
k = 1
m-1
cm = sum ck am-k m gt p
k = 1
dimana σ2 adalah penguatan dalam model LPC Koefisien cepstral koefisien yang direpresentasikan dengan
fourier transform dengan spectrum besaran log telah ditampilkan menjadi kumpulan fitur untuk pengenalan
wicara yang lebih handal terpercaya daripada koefisien LPC koefisien PARCOR atau koefisien log area ratio
218 Dynamic Time Wraping
Dynamic Time Wraping (DTW) merupakan cara untuk membandingkan pola wicara dalam menentukan
kesamaan jarak antara pola-pola yang berbeda Dimana pengenalan wicara merupakan proses secara otomatis
dalam mengambil dan menentukan informasi linguistic yang disampaikan dengan gelombang wicara
menggunakan komputer atau sirkuit elektronik Informasi linguistic tersebut pada akhirnya akan
direpresentasikan dengan deretan waktu vektor-vektor spektral
Metode nolmalisasi waktu menggunakan dua buah fungsi warping
ix = Фx (k) k = 123hellipT (216)
iy = Фy (k) k = 123hellipT
2181 Dynamic Programming
Dynamic Programming (DP) digunakan untuk memecahkan masalah deteksi pengurutan kemampuan
menggunakan pola pengenalan wicara dan masalah waktu penjajaran dan normalisasi Ada dua tipe masalah
penggunaan Dynamic Programming yaitu
(
)
k m
( )
K m ( )
Bab 2 Teori Penunjang
12
1 Masalah jalan optimal dengan menganggap sekumpulan titik mulai dari 1 sampai dengan N yang
dihubungkan dengan pasangan setiap dari titik (ij) Representasi perpindahan secara langsung dari titik
ke-1 ke titik yang lainnya Rentetan perpindahan tersebut tidak mempunyai bilangan yang ditetapkan
dari transisi satu titik ke titik yang lainnya hal ini disebut rentetan keputusan asinkron
Dengan Terminologi sederhana kita membuat garis keputusan untuk menetukan titk berikutnya setelah
kebijaksanaan pada titik i
Prinsip dari optimalisasi yang merupakan kelas dasar dari algoritma komputasi untuk optimasi masalah
di atas berdasarkan pernyataan Bellman
rdquoKebijakan optimasi yang memiliki sifat apapun ketetapan dan ketentuannya keputusan berikutnya
harus merupakan hasil ketetapan dari keputusan yang pertamardquo
2 Masalah keputusan rentetan sinkronisasi terdapat perbedaan dari satu sinkronisasi yang beraturan dari
proses keputusan
Penggunaan teknik Dynamic Programming pada Dynamic Time Warping untuk pertama kali dilakukan
oleh Slutsker (1968) Vintsyuk (1968) dan Volichko (1971) dari Jepang untuk pengenalan wicara Pada proses
ini pembicara mengucapkan kata yang sama dengan durasi berubah setiap waktu dengan ekspansi yang non
linier Oleh karena itu Dynamic Time Wraping adalah tahap yang penting dalam proses pengenalan kata Proses
DTW mengalami pengembangan pada sumbu waktu untuk mencocokan posisi phonemkata yang sama antara
input wicara dan referensi template
Dynamic Programing secara umum digunakan untuk memecahkan masalah rentetan keputusan yang
dilakukan pada bidang kisi sebagaimana ditampilkan pada gambar 27 Sinyal yang dicocokkan adalah A dan B
Di dalam bidang kisi sinyal A disesuaikan sepanjang sumbu ndashx dan sinyal B disesuaikan sepanjang sumbu ndashy
Setiap antar bagian pada bagian ini ditetapkan sebagai sebuah simpul atau titik dimana titik (ij) adalah
pencocokan frame I untuk sinyal A dengan frame j untuk sinyal B Misalnya diasumsikan dua rentetan waktu
untuk vektor utama yang dibandingkan sebagai berikut
A = a1a2hellipaI dan B = b1b2hellipbJ
Dengan menganggap rentang bidang antara A dan B sebagaimana ditunjukkan pada gambar 27
fungsi pelengkungan waktu yang sesuai menunjukkan waktu antara rentetan A dan B dapat dipresentasikan
sebagai rentetan titk-titik Lattice pada bidang c = (ij) sebagai berikut
Bab 2 Teori Penunjang
13
Gambar 29 Plane jaringan untuk ilustrasi
pemrograman dinamik8
Bilamana jarak spektral antara dua vektor utama a1 dan b1 direpresentasikan oleh d(c) = d(ij) penjumlahan
jarak dari awal sampai akhir dari rentetan sepanjang F dapat direpresentasikan dengan
K
sum d(ck)wk
k=1
D(F) = mdashmdashmdashmdashmdash (217)
K
sum wk
k=1
Semakin kecil nilai ini semakin baik kecocokan antara A dan B Dimana wk adalah fungsi pembobotan
positif terhadap F
Dengan memperkecil persamaan di atas dengan kondisi berikut
1 Kondisi monotonisasi dan kontinuitas
0 le ik-ik-1le1 0 lejk ndash jk -1 le 1 ( 218)
2 Kondisi perbatasan
I1=j1=Iik=Ijk=I (219)
3 Kondisi adjustmen window
|ik ndash jk|ler r=konstan ( 220)
Pendefinisian wk sedemikian rupa sehingga menyebut pada persamaan 219 menjadi konstan yang
tidak tergantung pada F Untuk contoh jika
Wk = (ik ndash ik -1)+(jk ndash jk -1)(i0=j0=0) wk akan menjadi
8 Ibid hal 15
Bab 2 Teori Penunjang
14
K
sum wk = I + J (221) k=1
dan persamaan 219 menjadi
1 K
D(F)= mdashmdash sum d(ck)wk ( 222)
I + J k=1
Gambar 210 DTW antara dua rentetan waktu A dan B
9
Karena fungsi obyektif yang akan diminimasi menjadi penjumlahan maka peminimisasi secara efisien
dapat diselesaikan tanpa harus menguji semua kemungkinan untuk F Penjumlahan pada sebagian rentetan c1
c2 hellip ck (ck=(ij)) adalah
(224)
Penurunan pemrograman dinamik pada persamaan-persamaan diatas penggunaan kondisi untuk F dan
formulasi perumusan wk persamaan 2115 dapat dituliskan kembali sebagai berikut
9 Ibid hal 17
Bab 2 Teori Penunjang
15
g(ij-1)+d(ij)
g(ij) = min g(i-1j-1) + 2d (ij) (225)
g(i-1j) +d(ij)
Oleh karena itu jarak antara dua rentetan waktu A dan B setelah DTW dapat diperoleh sebagai berikut
Kita set dari kondisi awal untuk g(11)=2d(11) dan j=1 dan hitung persamaan 2116 dengan variasi I dalam
sepanjang adjustment window Perhitungan ini diulangi dengan menaikkan j sampai j=1 Jarak keseluruhan
antara dua rentetan waktu A dan B dapat diperoleh dari g(IJ)(I+J)
2182 Batasan Normalisasi Waktu
Supaya proses normalisasi waktu mempunyai arti pada perbedaan batasan dengan berbagai variasi
interval waktu dibutuhkan beberapa batasan terhadap fungsi warping
2183 Batasan Titik Awal Akhir
Bilamana pola wicara yang dibandingkan merupakan tuturan per kata maka harus memenuhi syarat pola
mulai dari titik awal sampai titik akhir dari tanda permulaan dan pengakhiran pola wicara Titik awal dan akhir
mempunyi batasan yang membatasi pola wicara harus dipenuhi
Titik awal Фx(1) = 1 Фy(1) = 1 (226)
Titik akhir Фx(T) = Tx Фy(T) = Ty (227)
2184 Kondisi Monotonisasi
Rentetan pola spectral pada wicara sangat penting dalam menentukan arti linguistic sehingga tidak
akan hilang Untuk mempertahankan pola tersebut harus memenuhi
Фx(k + 1) ge Фx(k) (228)
Фy(k + 1) ge Фy(k)
22 Awal dan Akhir Sinyal Suara
221 Power
Sinyal suara yang diolah haruslah merupakan sinyal suara murni dan tidak bercampur dengan noise
ataupun header tail yang dibawa oleh suara saat perekaman apalagi jika pengenalan sinyal suara dengan jumlah
vocabulary yang besar Oleh karena itu sinyal suara hasil perekaman harus dicari nilai awal dan akhirnya agar
pengolahan sinyal suara tersebut menjadi lebih valid
Dan salah satu cara dalam menentukan nilai awal dan akhir dari sinyal suara adalah dengan
menggunakan power yang mempunyai persamaan sebagai berikut
( )
Bab 2 Teori Penunjang
16
239
p= sumradic xt2 (229)
t=0
Sinyal suara yang dibagi menjadi beberapa frame mempunyai power dari tiap framenya yang kemudian
didapatkan nilai rata-ratanya yang kemudian diperoleh nilai awal dan akhirnya dengan menambahkan 3 kali
standart deviasi Dimana penentuan awal dan akhir dari sinyal suara dapat diperoleh dengan
p ge p + 07 standart deviasi
Power
0
20000
40000
60000
80000
100000
120000
140000
160000
0 10 20 30 40 50 60
Jumlah Frame
Am
pli
tud
o
Gambar 211 Bentuk power dari kata
Nilai beberapa kali hasil percobaan
222 Unvoiced Plosive
Pada suatu sinyal suara yang terekam terdapat pemutusan sinyal atau kondisi kosong yang bukan
merupakan noise tetapi masih didalam lingkup suara Tapi kondisi ini hanya terjadi pada kebanyakan sinyal
suara yang terdapat konsonan tertentu yaitu sinyal suara dari kata yang mempunyai konsonan p t k Kondisi ini
disebut Unvoiced Plosive atau loncatan sinyal suara setelah kondisi kosong seperti ditunjukkan pada gambar
berikut
Gambar 212 Unvoiced Plosive
Bab 2 Teori Penunjang
17
Dan untuk penentuan awal dan akhir daerah kosong tersebut harus diperhitungkan agar didapatkan
nilai awal dan akhir dari sinyal suara yang valid yaitu dengan mencari nilai rata-rata dari daerah kosong dari
beberapa sinyal suara Kemudian dengan dicari nilai thresholdnya yaitu nilai terpanjang dari daerah kosong
sebesar 2 dari seluruh daerah kosong yang telah dihistogram
23 JARINGAN DENGAN TCPIP
Meskipun hubungan computer melalui serial dan parallel telah ada sejak lama multijaringan belum
menjadi masalah serius bagi para peneliti di bidang jaringan sampai awal tahun 1980 Perkembangan teknologi
LAN itu sendiri didasarkan banyak alasan Salah satu yang menjadi alasan utama adalah adanya perusahaan
yang ingin melakukan sharing data file printer dan resource lainnya ke pc lain
231 Mengenal TCPIP
Sebelumnya kita definisikan lebih dahulu apa yang dimaksud protocol itu Bila dua computer ingin
melakukan komunikasi keduanya tentu saja harus menggunkan bahasaturan yang sama Aturan-aturan inilah
yang disebut protocol Misalnya untuk mengirim mail digunakan protocol SMTP berhubungan dengan WWW
menggunakan HTTP dan sebagainya Jadi protocol merupakan aturan dalam melakukan komunikasi
TCPIP ( Transmission Control Protocol Internet Protocol) merupakan protocol yang bersifat open
networking Maksudnya semua penjelasan teknis tentang protocol tersebut diumumkan karena ada juga
mekanisme jaringan yang menyembunyikan detail dari sistemnya Hal inilah yang membuat TCPIP menjadi
terkenal
Adapun keuntungan dengan menggunakan protocol TCPIP adalah kemudahannya karena
memungkinkan hubungan antara berbagai system operasi dan berbagai jenis computer (platform)
TCPIP bukanlah protocol tunggal tetapi merupakan sekumpulan protocol sehingga lebih tepat disebut
sebagai keluarga TCPIP Setiap protocol pada TCPIP memiliki tugas tertentu yang berbeda Semua protocol
tersebut menggunakan protocol primer untuk mengirimkan paket data Protocol primer tersebut adalah TCP dan
IP
Protokol lainnya dapat dikelompokkan berdasarkan tujuannya sebagai berikut
1 Transport
Digunakan untuk mengatur perpindahan data antara dua mesin Antara lain
- TCP (Transmission Control Protocol)
- UDP (User Datagram Protocol)
2 Routing
Digunakan untuk pengalamatan data dan menentukan rute terbaik antara lain
- IP (Internet Protocol)
- ICMP (Internet Control Message Protocol)
- RIP (Routing Information Protocol)
Bab 2 Teori Penunjang
18
3 Network Address
Menangani bagaimana suatu mesin diberikan suatu alamat antara lain
- ARP ( Address Rwesolution Protocol)
- DNS ( Domain Name Sistem)
- RARP (Reverse Address Resolution Protocol)
4 User Service
Merupakan aplikasi yang harus diakses user antara lain
- FTP ( File Transfer Protocol)
- TFTP (Trivial File Transfer Protocol)
- TELNET
5 Gateway Protocol
Untuk membentuk proses komunikasi routing dan status informasi antara lain
- EGP (Exterior Geteway Protocol)
- GGP (Gateway to Gateway Protocol)
- IGP (Interior Gateway Protocol)
232 Koneksi TCPIP
Untuk mengkonfigurasi TCPIP maka dibutuhkan
Alamat IP
Alamat IP ini sebagai pengenal atau alamat mesin Karena setiap mesin yang terhubung jaringan
harus memiliki penganal yang unik sehingga memungkinkan melakukan routing Jaringan dengan TCPIP
menggunakan pengalamatan 32 bit sebagai alamat atau pengenal setiap mesin yang terkoneksi dengan jaringan
Pengenal ini disebut alamat IP Pesan atau data yang dikirim melalui TCPIP menggunakan alamat IP ini untuk
mengenali mesin pengirim dan penerimanya
Biasanya alamat IP dapat dikelompokkan menjadi dua bagian yaitu
1 Nomor Network
2 Nomor Device dalam Network tersebut
Alamat IP tersebut dipisahkan menjadi empat bagian yang masing-masing berukuran 8 bit Empat
bagian tersebut dipisahkan oleh tanda titik dan setiap bagian tersebut memiliki angka 0-255 Contohnya
192168101
Pemberian alamta IP umumnya ditentukan berdasarkan ukuran dari jaringan tersebut Jaringan
dapat diklasifikasikan menjadi tiga kategori yaitu kelas A kelas B kelas C Ketiga kelas tersebut membagi
pengalamatan 32 bit dengan ukuran berbeda untuk nomor Network dan Host
Pengalamatan pada kelas A memungkinkan bagian ini memiliki angka dari 0-127 Sedangkan
pengalamatan B memungkinkan memiliki angka dari 128-191 pengalamatan pada kelas C memungkinkan
memiliki angka dari 192-223
Network Mask
Bab 2 Teori Penunjang
19
Network mask merupakan alamat IP dimana lamat networknya diset ke nilai 255 Jika alamat IP
termasuk kelas A maka network masknya yaitu 255000 Jika alamat IP termasuk kelas B maka network
masknya yaitu 25525500 Jika alamat IP termasuk kelas C maka network masknya yaitu 2552552550
AlamatNetwork
Alamat network ini dapat diperoleh dari alamat IP dimana bit-bitnya dilakukan operasi AND
dengan network mask Dengan demikian untuk network kelas B dengan IP 192168101 maka alamat
networknya adalah 19216800
Alamat Broadcast
Alamat broadcast dibutuhkan bila suatu mesin ingin mengirimkan paket yang sama ke semua
device pada jaringan
Alamat Gateway
Alamat gateway merupakan alamat IP dari mesin yang menghubungkan jaringan dengan jaringan
di luar misalnya internet Pada umumnya alamatgateway memiliki IP yang sama dengan mesin yang kita miliki
tetapi mempunyai nomor device 1 Dengan demikian untuk network kelas B dengan alamt IP 192168101
alamat gatewaynya adalah 19216811
Alamat Nameserver
Jaringan-jaringan besar umumnya memiliki sebuah mesin untuk mentranslasikan alamat IP menjadi
nama yang lebih mudah dikenal manusia Misalkan sebuah mesin dengan IP 192168101 dapat diberi nama lain
seperti puspacsuiacid sebagai alamatnya Proses translasi ini dilakukan dengan system yang dikenal dengan
nama Domain Name System (DNS)
24 BEKERJA DENGAN SOCKET
Komponen socket program yang dapat membantu dalam pembuatan suatu aplikasi yang berkomunikasi
antara suatu system computer dengan system computer yang lain dengan menggunakan protocol TCPIP dan
protocol lain yang terhubung
241 Pengertian Socket Program
Pada sub bab ini akan dijelaskan tentang komoponen socket program yang dapat berkomunikasi antara
system computer dengan system computer yang lain dengan menggunakan protocol TCPIP dan protocol lain
yang terhubung Dengan socket program ini kita dapat membaca dan menulis pada hubungan ke mesin yang lain
tanpa mengalami kesulitan pada software jaringan Socket program dapat mengadakan hubungan berbasis
protocol TCPIP tetapi dapat juga bekerja umunya dengan protokol-protokol yang terhubung seperti Xerox
Network System (XNS) dan yang lain
Bab 2 Teori Penunjang
20
242 Penjabaran Socket
Socket mengijinkan aplikasi jaringan kita berkomunikasi dengan sistem lain di luar jaringan
Masing- masing socket bisadipandang sebagai titik akhir dalam suatu koneksi jaringan Socket tersebut memiliki
spesifikasi sebagai berikut
a) Sistem yang sedang dijalankan
b) Tipe interface port yang digunakan
Penjelasan lengkap dari sebuah koneksi socket terdiri dari address socket pada kedua titik akhir
koneksi Kita akan menguraikan address dari masing- masing titik akhir socket dengan memberi nomor IP
address atau host dan port
Sebelum membuat koneksi socket sebelumnya harus menguraikan dengan lengkap socket-socket
yang membentuk titik akhir Beberapa informasi tersedia dari sistem aplikasi yang dijalankan Sebagai contoh
kita tidaka akan membutuhkan IP Address Local dari socket client sebab informasi ini terdapat pada sistem
operasi
Informasi yang akan kita berikan bergantung pada tipe socket yang sedang bekerja Socket client
harus menggambarkan port yang merepresentasikan layanan yang mereka berikan
243 Memilih Host Name dan IP Address
Kebanyakan aplikasi menggunakan host name untuk merinci sebuah system Host Name mudah
untuk diingat dan dicek Menggunakan host name memungkinkan socket client untuk menemukan situs abstrak
yang diwakili oleh nama host meskipun telah dipindah ke IP Address yang baru Jika nama host tidak diketahui
socket client akan akan menyatakan system server sedang menggunakan IP Addressnya Ketika kita
menyediakan host name socket akan mencari IP Address yang berhubungan dengan host name sebelum socket
tersebut dapat menempatkan pada sistem server
Bab 3 Perencanaan dan Implementasi
21
BAB 3
PERENCANAAN DAN IMPLEMENTASI
31 Pendahuluan
Pada bab ini akan dijelaskan mengenai pengolahan sinyal wicara untuk mendapatkan ciri setiap
individu Juga akan dibahas mengenai pengolahan hasil keluaran sinyal wicara untuk ditransmisikan ke PC lain
(lewat jaringan) Dan selanjutnya akan dibahas pula mengenai plan atau obyek yang dalam hal ini adalah lampu
pijar
Berikut ini adalah blok diagram sistem secara keseluruhan
Gambar 31 Blok Diagram Sistem Secara Keseluruhan
Speaker pada gambar 31 memberikan suaranya sebagai masukan lewat mikrofon Masukan ini
akan diolah dalam PC client mulai dari proses sampling frame windowing FFT LPC Kemudian hasil dari
LPC dicari pemadanan dengan LPC dari sinyal standar yang telah tersimpan sebagai data base di dalam PC
client Hasil dari DTW tersebut akan dikirimkan ke PC server melalui TCPIP untuk diproses menjadi suatu
perintah ke perangkat keras Perintah tersebut merupakan bentuk implementasi dari perintah yang diberikan dari
PC client
Sebaliknya dengan adanya perubahan kondisi pada peralatan yang diinginkan maka terjadi sinyal
balikan yang berupa sinyal DTMF yang dikirimkan oleh perangkat keras ke PC server Oleh PC server sinyal ini
diolah untuk dikenali sebagai suatu kondisi tertentu yang akan dikirimkan ke PC client sebagai laporan tentang
kondisi alat yang diinginkan
32 Sistem Pengolahan Sinyal Wicara
321Perekaman Suara
TCPIP
Pengucap Speaker ADC Pengolahan Wicara dan Monitoring
Peralatan yang terkontrol
LAN Card
LAN Card
Pengenalan Pola Pengiriman Tone DTMF dan Pengenalan DTMF Sebagai Laporan
DTMF Decoding DTMF Generator Sistem Switching
Alat Terkontrol
Bab 3 Perencanaan dan Implementasi
22
Perekaman suara dilakukan menggunakan software berbasis TclTk 830 dan Snack22 Sebelumnya
akan dijelaskan satu per satu program yang dipakai
o TclTk 830
Tcl kepanjangan dari Tool Control Language Tk adalah Graphical Toolkit extension dari Tcl yang
menyediakan bermacam-macam item standar antarmuka GUI untuk memfasilitasi secara cepat pengembangan
aplikasi tingkat tinggi
o Snack22
Snack adalah tool pengolahan suara yang didesain sebagai extensi untuk bahasa script Saat ini Snack bekerja
dengan bahasa script TclTk Phyton dan Ruby Snack memiliki perintah-perintah untuk play record process
dan dan memvisualisasi suara Snack menyediakan obyek suara tingkat tinggi dengan manajemen penyimpanan
yang fleksibel dan streaming support Snack dapat bekerja pada banyak format file suara
Kita dapat membangun aplikasi sepaerti di bawah ini dengan integrasi dari TclTk dan Snack
Gambar 32 Program aplikasi pengenalan wicara
Frekuensi sampling pada program di atas diset pada frekuensi 12 kHz Frekuensi ini dipilih karena biasa
digunakan untuk voice Selain itu juga diset pada channel Mono dan sinyal encoding LIN 16 (resolusi 16 bit
PCM) Pada penekanan tombol ldquorecordrdquo diikuti tombol ldquostoprdquo dan kemudian tombol ldquostandartrdquo maka akan
dimulai proses perekaman yanag akan digunakan untuk membuat file standar untuk kedelapan perintah yang
akan digunakan untuk pembanding sinyal masukan
Adapun proses untuk sistem yang akan dibuat dapat digambarkan dengan diagram alir seperti di bawah
Bab 3 Perencanaan dan Implementasi
23
Mulai
Package Require
Snack 22
Exit
Program On
Running
Recording
Sound Card
Produser Running
Prosedur Recording
DTMF
Keluar
Tidak
YaTidak
Ya
Ya
Ya
Ya
Tidak
Tidak
Tidak
Gambar 33 Flowchart Sistem Graphical User
Interface
322 Sampling
Seperti telah dijelaskan di depan bahwa frekuensi sampling yang digunakan adalah sebesar 12000Hz
dimana dalam 1 detik sinyal terdapat 12000 titik sampling Sebagai contoh seperti gambar di bawah ini suatu
sinyal epanjang 20 ms disampling 12000 Hz menghasilkan titik sampling sebanyak 240 titik
Data Sampling
-20000
-15000
-10000
-5000
0
5000
10000
15000
20000
0 200 400 600
Amplitudo
Jumlah Data
Gambar 34 Sinyal hasil sampling dengan
frekuensi 12000 Hz
Bab 3 Perencanaan dan Implementasi
24
Mulai
Sinyal Masukan
Baca Panjang Sinyal
Bagi Menjadi N Frame
i = 0 i lt N i++
Ambil 240 Data Sampel
Tampilkan Nilai
Sampel
Selesai
Gambar 35 Flowchart Proses Sampling
323 Pre-emphasis
Agar spektrum sinyal merata di semua frekuensi dan mencegah kehilangan informasi akibat pembulatan
pada saat komputasi maka dilakukan prose preemphasis Fungsi transfer preemphasis adalah
H(z) = 1 ndash a z-1 09 le a le 1 (31)
Dimana nilai a berkisar 095 Berdasarkan model filter di atas maka keluaran dari preemphasis adalah
s(n) = s(n) ndash a s(n-1) (32)
324 Frame Blocking
Hasil perekaman merupakan sinyal dalam domain waktu yang bersifat variant time (fungsi yang
bergantung pada waktu) Sinyal yang telah dipreemphasis kemudian dibagi menjadi n buah frame Dengan
jumlah sample per frame sebesar N dan adjacent frame sebesar M sample Dimana M=05N Pada frame
pertama terdiri dari N buah sampel Frame kedua dimulai pada sampel ke M sehingga terjadi overlape sebesar
N - M sampel Begitupula untuk frame yang ketiga dimulai dari sample ke 2M sehingga terjadi overlape dari
farme kedua sebesar N + M-2M sampel juga Hal ini akan terus berlangsung hingga seluruh sinyal terbagi
menjadi beberapa frame
Bab 3 Perencanaan dan Implementasi
25
Gambar 36 Frame blocking sinyal
325 Windowing
Windowing yang digunakan adalah window hamming Setelah proses pengambilan sample maka
langkah selanjutnya adalah proses selanjutnya adalah proses windowing yang berfungsi untuk mengurangi efek
diskontinyuitas pada ujung-ujung frame Persamaannya adalah sebagai berikut
y[i] = x[i](054-046cos(20314159265(i-1)240) (33)
Flowchartnya bisa dilihat seperti di bawah
Mulai
240 Data
Sampel
i= 0 i lt 240 i++
Hamming Window
y[i] = x[i](054-046cos(2phi(i-1)
240))
Tampilkan
nilai
Hamming
Selesai
Gambar 37 Flowchart Proses Windowing
326 Fast Fourier Transform
Transformasi fourier cepat (FFT) adalah suatu metode yang sangat efisien untuk menyelesaikan
transformasi fourier diskrit (DFT) yang banyak dipakai untuk keperluan analisa sinyal Sehingga dengan FFT
N N N M
M N
N N
M
Bab 3 Perencanaan dan Implementasi
26
sinyal yang disampling dalam domain waktu ditransformasikan ke domai frekuensi dengan menggunakan
persamaan sebagai berikut
N-1
H(k) = sum h(n)e-j2лkN (34)
n=0
dengan k= 012N-1
Prosesnya dapat dilihat dari flowchart di bawah
Mulai
240 data
sampel
256 data sampel
i=0 ilt256 i++
tmp_log1=(xr[k]xr[k]+xc[k]xc[k])
tmp_log gt 0
xr[k]=10log10(tmp_log1)
Tampilkan
nilai
hamming
Selesai
xr[k]=10log10(0000001)
Ya
Tidak
Gambar 38 Flowchart Proses Fast Fourier
Transform
327 Autocorrelation analysis
Hasil dari windowing sinyal masukan kemudian dihitung autokerelasinya dengan persamaan
N-1-m
r1(m) = sum x1(n)x1(n+m) m=01p (35)
n=0
dimana niali autokorelasi tertinggi p adalah orde dari analisis LPCPada umumnya nilai dari p yang sering
digunakan adalah dari 8 sampai 16
Proses Autokorelasi dapat dilihat dari flowchart di bawah ini
Bab 3 Perencanaan dan Implementasi
27
Mulai
240 data p lpc
orde
i=0 iltp i++
j=0 jlt240-p-1 j++
RI[j]=sum(xI[i]xI[i+j])
Tampilkan nilai
autocorrelation
Selesai
Gambar 39 Flowchart Proses Autokorelasi
328 LPC Analysis
Hasil koefisien autokorelasi kemudian dikonversikan ke sebuah LPC parameter set (untuk metode LPC
autokorelasi) dikenal sebagai Metode Durbin dan secara formal ditunjukkan dari algoritma sebagai berikut
E(0) = r(0) (36)
ki=r(i)-sumαj(i-1) r(|i-j|)E(i-1) 1 le I le p (37)
αi(i) = ki (38 )
αj(i) = αj
(i-1)-ki α(i-1) ( 39)
t-j
E(i)=(1-ki2)E (i-j) (310)
dimana penyajian akhir dari persamaan 37 mengabaikan i=1 Kumpulan dari persamaan 36 -310 diselesaikan
secara rekursif untuk i=12p
Proses analisis dapat dilihat dari flowchart di bawah
Bab 3 Perencanaan dan Implementasi
28
Mulai
Autocorrelationr
p lpc orde
E (0) = r(0)
k1
= r(i)-sumalpha j (i-1) r( | i-j|E(i-1)
alpha j (i) = k
i
alpha j
(i) = alpha (i-1) -k i alpha
i-j (i-1)
E (i) = 1-k i 2) E(i-1)
Tampilkan nilai
parameter lpca
Selesai
i=0 iltp i++
Gambar 310 Flowchart proses LPC analisis
329 LPC Parameter to Cepstrum Analysis
Sekumpulan parameter LPC yang sangat penting yang dapat diturunkan langsung dari kumpulan
koefisien LPC adalah koefisien cepstral LPC c(m) Rekursif yang digunakan adalah
co = ln σ2 ( 311)
m-1
cm = am + sum ck am-k 1 le m le p (312)
k = 1
m-1
cm = sum ck am-k m gt p ( 313)
k = 1
Proses LPC parameter ke Cepstrum Analysis dapat dilihat dari flowchart di bawah ini
k m ( )
k m ( )
Bab 3 Perencanaan dan Implementasi
29
Mulai
lpc parameter a
p lpc orde
c o = ln del 2
1 lt=mlt=p
i=0 iltp i++
Cm
= am
+sum((km)Ck a
m-kC
m =sum((km)C
ka
m-k)
Tampilkan nilai lpc
cepstrumc
Selesai
Gambar 311 Flowchart Proses LPC parameter ke
Cepstrum
3210 Dynamic Time Warping
Proses yang terjadi pada Dynamic Time Warping adalah pengukuran jarak suara antara sinyal standart
dan sinyal input Yang diukur berupa deretan nilai dari hasil LPC Cepstrum dalam bentuk kolom dan baris (ij)
yang disimpan dalam satu file Pada kolom berisi nilai tiap cepstrum sedangkan baris berupa banyaknya frame
Teknik yang digunakan dinamakan Dynamic Programming Alur kerjanya dapat dilihat dari flowchart di bawah
Bab 3 Perencanaan dan Implementasi
30
Mulai
i=0 iltN i++
j=0 jlt15 j++
Cepstrum
Standart
Std_Ceps [i][j]
Cepstrum
Input
Inp_Ceps [i][j]
DP_dist = DP_match1(r)
DP_dist
Selesai
Gambar 312 Flowchart Proses Dynamic Programming
33 Awal dan Akhir Sinyal suara
331 Power
Untuk mendapatkan suatu sinyal suara tanpa adanya noise maka sinyal harus benar-benar dipotong
tepat pada awal dan akhirnya Oleh karena itu dipakai power sebagai salah satu cara yang efektif dalam
menentukan awal dan akhir suatu sinyal suara
Dimana tiap frame mempunyai power yang merupakan hasil kuadratisasi dari penyampelan tiap frame
yang kemudian hasil keseluruhan diakarkan seperti bisa dilihat pada flowchart di bawah
Bab 3 Perencanaan dan Implementasi
31
Mulai
Power = 0
i=0 ilt240 i++
Power=Power+sqrt(xixi)
Selesai
Gambar 313 Flowchart Proses Power
Jumlah sample per frame ditetapkan sebesar 240 sampel Kemudian dicari power masing-masing antara sinyal
utuh dan sinyal noise kemudian dengan p ge p + 07 standar deviasi maka didapatkan awal dan akhir sinyal
suara
332 Unvoiced Plosive
Adanya daerah kosong menyebabkan sinyal tidak valid dalam pemotongan awal dan akhirnya karena
bisa dianggap noise padahal berada dalam sinyal suara ( merupakan bagian dari sinyal suara) Oleh karena itu
dicari mean dari 25 kata sinyal suara yang kemudian dicari nilai thresholdnya sebagai panjang akhir dari daerah
kosong Dan nilai tersebut diikutsertakan dalam looping dan jika setelah itu terdapat sinyal kembali maka
berarti masih ada sinyal suara dan jika tidak ada berarti tidak ada sinyal suara
34 Proses Pada Client
Preses pada client dapat dijelaskan sebagai berikut
Gambar 314 Blok diagram proses client
Penjelasan dari blok digram tersebut adalah
1 Pertama adalah perekaman suara pada software recording yang hasilnyadisimpan dalam bentuk file
berekstensi ldquowavrdquo File ini selanjutnya akan dijadikan file input pada sistem client
2 File suara yang telah tersimpan diolah dalam program sampling untuk mendapatkan sinyal suara dalam
bentuk frame Setiap frame terdiri dari 120 sampel
Mic Extract AD Voice Dikenali
Bab 3 Perencanaan dan Implementasi
32
3 Tiap frame diwindow dengan window Hamming untuk mengurangi efek diskontinyuitas pada ujung-
ujung frame
4 Sinyal hasil window yang masih dalam domain time diubah ke dalam domain frekuensi dengan Fast
Fourier Transform (FFT)
5 Hasil dari windowing sinyal masukan kemudian dihitung autokerelasinya
6 Hasil koefisien autokorelasi kemudian dikonversikan ke sebuah LPC parameter set (untuk metode LPC
autokorelasi) Sekumpulan parameter LPC yang sangat penting yang dapat diturunkan langsung dari
kumpulan koefisien LPC adalah koefisien cepstral LPC
7 Selanjutnya dilakukan proses DTW (Dynamic Time Warping) pengukuran jarak suara antara sinyal
standart dan sinyal input Hasilnya disimpan dalam sebuah file berekstensi ldquotxtrdquo
8 File berekstensi txt tersebut ke server sebagai sinyal suara input
35 Proses Pada Server
Proses pada server dapat dijelaskan sebagai berikut
Gambar 315 Blok diagram proses server
Penjelasan dari blok diagram tersebut adalah
1 Isi file berekstensi rdquotxtrdquo diterima oleh server dan digunakan sebagai data input untuk memanggil
database tone DTMF yang sesuai sebagai pengoperasian alat yang akan dikontrol
2 Alat yang terkontrol akan menunjukkan hasilnya
Memanggil
Database
Tone
Dikode
kan
dalam
biner
Kirim
ke HW
Kontrol
Alat
Input
server
Bab 4 Pengujian dan Analisa
33
BAB 4
PENGUJIAN DAN ANALISA
41 Pendahuluan
Untuk mengetahui tingkat keberhasilan dari suatu sistem diperlukan pengujian keseluruhan dari
perencanaan hasil sistem yang telah dibuat Dalam bab ini akan dijelaskan mengenai hal tersebut
Pengujian yang akan dilakukan adalah
1 Pengujian dan analisa sistem pengolahan sinyal wicara
2 Pengujian dan analisa sistem client server
3 Pengujian dan analisa awal dan akhir sistem pengolahan wicara
42 Pengujian dan Analisa Sistem Pengolahan Wicara
Tujuan untuk mendapatkan parameter ciri individu dari sampel sinyal yang diolah
421 Perekaman Suara
Pada Tugas Akhir ini digunakan duamacam perangkat lunak yang dibangun sendiri berbasis TclTk 830
dan Snack 22 sebagai perangkat lunak yang diuji dan perangkat lunak Wavesurver sebagai pembanding
4211 Dengan menggunakan TclTk dan Snack
Tampilan awal dari perangkat lunak yang dibangun dengan menggunakan TclTk dan Snack adalah sebagai
berikut
Gambar 41 Tampilan awal perangkat lunak menggunakan TclTk dan Snack
Bab 4 Pengujian dan Analisa
34
Pertama kali tombol record ditekan maka proses pengambilan sinyal wicara yang dimasukkan
dimulai Pada saat tombol Stop ditekan maka program akan merekam kata ldquosatu nyalardquordquosatu matirdquordquodua
nyalardquordquodua matirdquordquotiga nyalardquordquotiga matirdquordquoempat nyalardquordquoempat matirdquo sesuai yang kita masukkan dan
tampilan display akan digambarkan bentuk sinyal yang dihasilkan secara otomatis Hasil perekaman dapat
dilihat pada gambar berikut 42
Gambar 42 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan perangkat lunak
TclTk dan Snack
Gambar 42 menunjukkan bahwa proses pengambilan sinyal suara telah dilakukan Sinyal suara yang
dimasukkna akan terlihat gambarnya pada layar hitam (canvas)
4212 Dengan menggunakan Wave Surver
Sebagai pembanding dari program yang telah dibuat yaitu dari perangkat lunak TclTk dan Snack
digunakan Wavesurver
Tampilan awal dari Wavesurver 157 tampak seperti pada gambar 43
Gambar 43 Tampilan awal perangkat lunak menggunakan Wavesurver
Bab 4 Pengujian dan Analisa
35
Pada saat tombol recording ditekan maka program akan merekam kata ldquosatu nyalardquo dan pada tampilan
display akan digambarkan bentuk sinyal yang dihasilkan secara otomatis Hasil perekaman bisa dilihat pada
gambar 44
Gambar 44 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan
perangkat lunak Wavesurver
Perekaman pada Wavesurver dapat diset sesuai dengan kebutuhan Dimana pada sistem pengolahan sinyal
suara untuk perekaman suara diset sebagai berikut
Gambar 45 Kotak dialog setting perekaman perangkat lunak Wavesurver
Pada data di atas dapat dilihat bahwa suara yang direkam dengan mengguanakan perangkat lunak
Wavesurver mempunyai header dan tail yang berisi keterangan perekaman sebagai berikut
12000 menunjukkan frekuensi sampling yang digunakan
Bab 4 Pengujian dan Analisa
36
Channels menunjukkan bahwa suara direkam dengan menggunakan channel Mono
Sampel Encoding Lin 16 menunjukkan bahwa suara direkam dengan menggunakan
16 bit PCM
422 Sampling
Dengan menggunakan program yang dibangun sendiri di atas proses penyamplingan sinyal input sekaligus
telah terjadi dimana dengan frekuensi sampling sebesar 12000 Hz didapatkan sinyal dari kata ldquosatu nyalardquo
dengan potongan sebagai berikut
3306
3538
3788
4076
4282
4684
4747
4956
5083
5442
5844
5901
6244
6196
6462
6104
Berikut ini adalah cuplikan dari data sampel kata ldquo empat matirdquo mulai dari milidetik ke-13900
Bab 4 Pengujian dan Analisa
37
Data Sampling
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 46 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900
Pada gambar 46 telah dilakukan proses sampling sinyal masukan dengan frekuensi sampling sebesar 12000
Hz maka didapatkan hasil sinyal yang hampir mirip dengan sinyal analognya karena sinyal suara manusia
memiliki jarak frekuensi antara 300 sampai 5000 Hz dimana syarat Nyquist minimal fsampling 2fsinyal
telah terpenuhi
423 Windowing
Jenis window yang digunakan adalah window Hamming
Pada proses window hamming kata yang telah disampel sebanyak 240 sampel akan diwindow sehingga
menghasilkan sinyal yang lebih kecil peaknya Hasilnya adalah sebagai berikut
-26174
-22078
-12518
-1444
9690
19308
23360
20049
12365
2391
-7874
-14539
-17837
-19929
-19007
-16955
Bab 4 Pengujian dan Analisa
38
Sedangkan hasil dalam bentuk gambar dapat dilihat pada gambar berikut
Data Windowing
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 47 Hasil Windowing data sampel kata ldquoempat matirdquo milidetik ke-13900
Seperti yang ditunjukkan gambar 47 proses windowing telah dilakukan Berdasarkan gambar 47
tersebut dapat dikatakan bahwa window Hamming menyebabkan sinyal yang disampel lebih halus Gambar
47 dapat dibandingkan dengan gambar 46 yaitu gambar sinyal sebelum melalui proses windowing dapat
dilihat bahwa sinyal yang telah diwindow mempunyai sinyal yang lebih halus Hal ini membuktikan bahwa
fungsi dari windowing untuk mengurangi efek diskontinyuitas pada ujung-ujung frame adalah benar
424 Fast Fourier Transform Sinyal Masukan
Pada proses ini sinyal yang sebelumnya berada dalam domain waktu akan diubah dalam domain
frekuensi Setiap sinyal yang berasal dari alam merupakan sinyal analog yang bila diolah harus diubah
dalam bentuk sinyal digital Dan pengolahan dalam digital merupakan pengolahan dalam bentuk diskrit
Pada proyek akhir ini sinyal dalam domain waktu akan diubah dalam domain frekuensi dengan 256 titik
Karena hasil yang diperoleh berupa hasil dari fungsi konvolusi maka hanya akan diambil 128 titik saja yang
akan diolah dalam proses selanjutnya Sedangkan 128 sisanya tidak dipergunakan karena berupa
pencerminan saja
Hasil dari Fast Fourier Transform (FFT) dari penggalan kata ldquoempat matirdquo pada milidetik ke-13900 dalam
bentuk teks adalah
103505157
106889458
Bab 4 Pengujian dan Analisa
39
104735321
100408661
89175987
95431992
96601654
8489315
89637459
8630304
75320663
87866905
91001945
89607201
82408546
83440155
4241 Dengan Menggunakan TclTk dan Snack
Fast Fourier Transform Sinyal
Masukan
0
20
40
60
80
100
120
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 48 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat
lunak TclTk dan Snack
Dari gambar 48 di atas sinyal suara yang sebelumnya berada di domain waktu telah diubah ke domain
frekuensi Hasil Fast Fourier Transform sinyal masukan menunjukkan sebaran spektrum frekuensi dari
sinyal suara yang telah dihasilkan oleh pengucap antara 0 sampai 6000 Hz
Bab 4 Pengujian dan Analisa
40
4242 Dengan Menggunakan Wavesurver
Gambar 49 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat
Wavesurver
Dari gambar 49 di atas hasil Fast Fourier Transform sinyal masukan menunjukkan sebaran spektrum
frekuensi dari sinyal suara yang telah dihasilkan oleh pengucap antara 0 sampai 6000 Hz adalah sama
seperti pada gambar dengan gambar 48 yang diambil dengan perangkat lunak TclTk dan Snack
425 Autocorrelation Analysis
Pada proses ini sinyal masukan dalam domain waktu yang telah diwindow hamming dihitung korelasinya
dengan menggunakan orde analisi LPC sebesar 15 Sehingga akan didapatkan hasil rk(autokorelasi) sebagai
berikut
17648453
128874
0669745
0662566
0470262
0164336
-010638
-0229032
-016249
0014062
0138456
0188749
0117826
0014517
-0052704
426 LPC Analysis
Dari hasil autokorelasi tersebut di atas selanjutnya adalah LPC dimana mengkonversi masing-masing
frame dari autokorelasi p+1 ke dalam sebuah LPC Parameter a
Bab 4 Pengujian dan Analisa
41
Metode yang formal untuk mengkonversi dari koefisien autokorelasi ke sebuah LPC parameter (untuk
metode LPC autokorelasi) dikenal sebagai Metode Durbin dan secara formal hasilnya dapat ditunjukkan
sebagai berikut ini
1
-128874
0160681
-0156173
0166653
0255508
0192145
0003037
-0202248
-0265201
-0112133
005938
0232232
0203554
0048429
Dari hasil di atas terlihat bahwa untuk setiap frame nilai pertama menunjuukan energi dari masing-masing
frame dan selanjutnya adalah parameter LPC dalam satu frame yang digunakan sebagai penentu ciri dari
sinyal suara yang dihasilkan oleh individu
427 Fast Fourier Transform LPC Parameter
Pada proses ini nilai dari parameter LPC yang sebelumnya masih berada dalam domain waktu akan diubah
dalam domain frekuensi Pada proyek akhir ini parameter LPC dalam domain waktu akan diubah dalam
domain frekuensi dengan 256 titik Karena hasil yang diperolah berupa hasil dari fungsi konvolusi maka
hanya akan diambil 128 titik saja yang akan diolah dalam proses selanjutnya Sedangkan 128 sisanya tidak
dipergunakan karena berupa pencerminan saja
Hasil dari Fast Fourier Transform (FFT) dari parameter LPC pada penggalan kata ldquoempat matirdquo pada
milidetik ke-1 dalam bentuk teks adalah
103505157
106889458
104735321
100408661
89175987
Bab 4 Pengujian dan Analisa
42
95431992
96601654
8489315
89637459
8630304
75320663
87866905
91001945
89607201
82408546
4271 Dengan menggunakan TclTk dan Snack
Fast Fourier Transform Parameter
LPC
0
20
40
60
80
100
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 410 Fast Fourier Transform LPC dengan
menggunakan perangkat lunak TCLTk
dan Snack
Hasil gambar 410 menunjukkan bahwa parameter LPC yang di-Fourier Transform-kan akan menjadi
selubung spektrum dari spektrum sinyal masukan Sehingga jika selubung dan spektrumnya secara gambar
cocok dapat dikatakan bahwa LPC parameter yang dihitung benar
Bab 4 Pengujian dan Analisa
43
4272 Dengan menggunakan Wavesurver
Gambar 411 Fast Fourier Transform LPC denganmenggunakan perangkat lunak
Wavesurver
Hasil gambar 411 menunjukkan bahwa parameter LPC yang di-Fourier Transform-kan akan menjadi
selubung spektrum dari spektrum sinyal masukan adalah sama dengan yang telah diperoleh dengan
perangkat lunak TclTk seperti pada gambar 410
428 LPC Parameter to LPC Cepstrum
Koefisien LPC cepstrum koefisien yang direpresentasikan dengan Fourier Transform dengan spektrum
besaran log telah ditampilkan menjadi kumpulan fitur untuk pengenalan wicara yang lebih handal
terpercaya daripada koefisien LPC koefisien PARCOR atau koefisien log area ratio
Hasil dari LPC cepstrum pada penggalan kata ldquoempat matirdquo pada milidetik ke-106 dalam bentuk teks adalah
16636311
1387922
0474473
0654796
0429659
0132543
0225374
0126501
0021161
0242437
Bab 4 Pengujian dan Analisa
44
0160623
0065745
0139379
0056064
-0029262
Dari hasil di atas dapat dianalisa bahwa besaran-besaran dari LPC cepstrum benar-benar dapat
digunakan sebagai penentu ciri dari sinyal suara individu karena besaranndashbesaran yang dihasilkan oleh LPC
cepstrum dari yang pertama sampai yang terakhir dalam satu frame sangat bervariasi nilainya
429 Inverse Fast Fourier Transform LPC Cepstrum
Untuk menggambarkan ciri atau fitur wicara dalam domain waktu maka LPC cepstrum di-Invers Fast
Fourier Transform-kan sehingga didapatkan gambar untuk penggalan kata ldquosatu nyalardquo pada milidetik ke-
400 seperti gamabar 412
Fast Fourier Transform LPC
Cepstrum
0
20
40
60
80
100
120
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 412 Invers Fast Fourier Transform LPC cepstrum dengan menggunakan
perangkat lunak TCLTk dan Snack
Dari gambar 412 dapat dianalisa bahwa bentuk dari invers fourier transform LPC cepstrum yang
menyerupai selubung pada domain waktu dari spektrum frekuensi juga digunakan untuk menunjukkan
bahwa perhitungan LPC cepstrumnya telah benar dan dapat digunakan sebagai penentu ciri sinyal suara
individu
Invers Fast Fourier Transform LPC
Cepstrum
Bab 4 Pengujian dan Analisa
45
Gambar 413 Penggabungan spektrum sinyal spektrum LPC dan spektrum LPC
Cepstrum
Gambar 413 spektrum sinyal yang diwakili warna merah merupakan hasil sinyal yang telah di-Fast
Fourier Transform-kan Spektrum sinyal yang berwarna hijau merupakan parameter LPC yang telah di-
Fourier Transform-kan Sinyal ini akan menjadi selubung spektrum dari spektrum sinyal masukan Bila
selubung dan spektrumnya secara gambar cocok maka dapat dikatakan bahwa LPC parameter yang dihitung
adalah benar Dari gambar 413 dapat dilihat antara selubunga dan selubung sinyal masukan sudah cocok
Sinyal yang berwarna biru merupakan sinyal rata-rata dari sinyal selubung spektrum
4210 Dynamic Time Warping
Pengujian terakhir dari proses pengolahan sinyal wicara adalah membandingkan sinyal hasil cepstrum LPC
antara data input dan data standarnya Berdasarkan daerah pembatas kontinyuitas lokal dari persamaan 21
maka digunakan model yang pertama dan menggunakan persamaan 2116 dalam menghitung jarak antara
kata sebagai standar dan sebagai masukan
Selanjutnya menetukan data data sebagai data standar dan data sebagai data masukan Pada sistem ini
digunakan 8 kombinasi kata sebagai kata standar dan kata msukan untuk masing-masing pengujian dengan
kata standar sebanyak sepuluh (10) kali Adapun kata yang digunakan sebagai standar dan kata yang diuji
adalah meliputi satu nyalasatu matidua nyaladua matitiga nyalatiga matiempat nyalaempat
mati
Pada pengujian sistem kali ini masih menggunakan datasuara dari pebgucap yang sama Dari kelima data
standar yang ada dilakukan pembandingan dengan masing-masing 10 (sepuluh) kali pemasukan data Data
yang menghasilkan jarak euclidian terpendek dari masing-masing kata itulah yang akan diambil sebagai
data perintah terbaik
Bab 4 Pengujian dan Analisa
46
Pelekukan Jalur Suara
0
50
100
150
0 50 100 150
Sinyal Input empat mati
Sinyal Standart
empat mati
Gambar 414 Pelekukan Jalur Suara dengan Dynamic Time Warping
Dari gambar 414 dapat dianalisa bahwa dengan menggunakan dynamic time warping dua buah sinyal suara
akan dibandingkan vektor-vektor spektralnya dimana juga terdapat proses pembandingan panjang sinyal
antara dua buah sinyal tersebut sehingga terjadi proses pemadanan panjang sinyal dengan cara
memperpanjang dan menekuk vektor spektralnya Memperpanjang dalam arti memperpanjang sinyal yang
lebih pendek dengan memperhatikan perbandingan vektor spektralnya dan demikian pula menekuk dalam
arti menekuk sinyal yang lebih panjang dengan memperhatikan vektor spektralnya Dengan panjang yang
sama sebagai hasil dynamic time warping maka jarak euclidian antara dua sinyal dapat diperbandingkan
atau dihitung
4211 Min Value dan Sorting
Min Value dan Sorting menjadi satu paket sendiri yang digunakan untuk mencari kemungkinan hasil
terkecil dari pembandingan pola kata masukkan dengan kedelapan kata standart Keluaran dari fungsi
dynamic time warping akan memberikan delapan buah data yaitu hasil pembandingan kata masukan
dengan kata standart satu nyala hasil pembandingan kata masukan dengan kata standart satu mati hasil
pembandingan kata masukan dengan kata standart dua nyala hasil pembandingan kata masukan dengan
kata standart dua mati hasil pembandingan kata masukan dengan kata standart tiga nyala hasil
pembandingan kata masukan dengan kata standart tiga mati hasil pembandingan kata masukan dengan
kata standart empat nyala hasil pembandingan kata masukan dengan kata standart empat mati Dengan
metode sorting buble sort maka akan didapat nilai minimalnya
0748745
0362272
0633390
0327642
0600250
0346530
Bab 4 Pengujian dan Analisa
47
0545907
0207464
Berdasarkan data diatas maka perintah input sama dengan perintah kedelapan (ldquoempat matirdquo) karena
memiliki hasil time warping terkecil yaitu 0207464
4212 Hasil Pengujian Awal dan Akhir Sinyal
Pada proses penentuan awal dan akhir agar lebih presisi menggunakan ldquoPowerrdquo Adapun kelebihan dari
power adalah dapat membedakan antara sinyal suara dengan sinyal noise
Untuk menentukan awal dan akhir dicari nilai power Pada proses power kata yang telah disampel
sebanyak 240 sampel akan menghasilkan sinyal yang halus dan terletak di atas sumbu x Hasil dalam bentuk
teks adalah sebagai berikut ini
7678195313
1165659297
123492625
8917128906
6318766797
4531086719
4338374609
4912630469
5382503125
4548908984
429756875
4739710547
4575902734
4682924609
4786217578
Bab 4 Pengujian dan Analisa
48
Gambar hasil power bisa dilihat pada gambar 415 berikut
Power
0
100000
200000
300000
400000
500000
0 50 100 150
Jumlah Frame
Amplitude
Gambar 415 Sinyal ldquoempat matirdquo hasil program power
Gambar 416 berikut ini adalah hasil pengujian kata ldquoempat matirdquo sebagai masukan dan kata standar ldquoempat
matirdquo dimana kedua kata dibandingkan berdasarkan powernya sebelum proses Dinamic Time Warping
Sinyal warna biru sebagai power sinyal standart dan sinyal yang berwarna merah merupakan power sinyal
input
Perbandingan Dua Kata empat mati
sebelum DTW
0
100000
200000
300000
400000
500000
0 50 100 150
Jumlah Frame
Amplitude
Gambar 416 Perbandingan power dua kata ldquoempat matirdquo sebelum Dynamic Time Warping
Berikut ini adalah hasil pengujian dua buah kata ldquoempat matirdquo dengan menggunakan dynamic time warping
dimana jalur pelekukan suara dapat digambarkan pada gambar 417
Bab 4 Pengujian dan Analisa
49
Pelekukan Jalur Suara
0
50
100
150
0 50 100 150
Sinyal Input empat mati
Sinyal Standart
empat mati
Gambar 417 Pelekukan jalur suara dua kata ldquoempat matirdquo dengan DTW
Gambar 418 adalah hasil pengujian dua buah kata ldquoempat matirdquo sebagai masukan dan dan kata standar
ldquoempat matirdquo dimana kedua kata dibandingkan berdasarkan powernya setelah proses dynamic time
warping
Gambar 418 dapat dibandingkan dengan gambar 416 yaitu sinyal sebelum proses Dynamic Time Warping
Sebelum proses Dynamic Time Warping sinyal tidak mengalami proses penekukan dan penarikan data
berdasarkan waktu antara keduanya sehingga antara sinyal input dan sinyal standart memiliki ukuran
panjang yang sangat jauh berbeda
Pemadanan Dua Kata Setelah DTW
0
100000
200000
300000
400000
500000
0 100 200 300
Jumlah Frame
Amplitude Power
Gambar 418 Perbandingan power dua kata ldquoempat matirdquo setelah Dynamic Time Warping
Dari gambar 418 dapat dinyatakan bahwa setelah melalui proses dynamic time warping terjadi penekukan
dan penarikan data berdasarkan waktu antara keduanya sehingga pada akhirnya kedua sinyal memiliki
ukuran panjang yang sama Sehingga dengan demikian dapat dicari jarak euclidian untuk menentukan
sebuah kata yang sesuai dengan kata yang lainnya
Bab 4 Pengujian dan Analisa
50
4213 Hasil Pengujian Sistem Perangkat Lunak
Pada pengujian sistem perangkat lunak diambil sampel data dari 3 orang dimana terdiri dari 3 orang pria
dan 1 orang wanita Pria pertama merupakan standar sekaligus pengisi suara untuk perintah Sedangkan pria
kedua dan wanita sebagai pembanding untuk mengetahui unjuk kerja sistem
Tabel 41 Hasil pengujian sistem pengolahan sinyal wicara untuk pengucap yang sama (pria
1)
8 7 6 5 4 3 2 1 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05417
03487
05964
03443
07272
04424
03449
01
961
Satu
nyala
Sinyal Standart
02496
04723
03013
05120
03450
03815
01
739
03471
Satu
mati
04389
02035
06139
03244
04343
02
158
04567
04047
Dua
nyala
01866
04517
04157
05267
01
940
02561
02036
04779
Dua
mati
04833
02168
03984
01
090
06409
04278
05019
02690
Tiga
nyala
02683
04628
01
188
03416
04046
03345
02959
04614
Tiga
mati
03807
01
046
05271
01974
05934
03134
04363
02554
Empat
nyala
01
388
03728
02269
04497
02559
03195
02476
04874
Empat
mati
Bab 4 Pengujian dan Analisa
51
16
15
14
13
12
11
10
9 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05776
02988
05100
04019
06101
05338
04219
02
047
Satu
nyala
Sinyal Standart
03382
04381
02427
05124
02642
05990
02
706
03335
Satu
mati
04453
02558
04993
04574
03381
02
344
04529
04121
Dua
nyala
01669
04532
03190
06355
01
004
04807
03466
04622
Dua
mati
05209
02261
03366
01
124
05377
04165
05369
02660
Tiga
nyala
03721
04074
00
891
03002
02637
05958
02719
04333
Tiga
mati
03889
01
755
04365
02341
04826
03150
05193
02472
Empat
nyala
01
092
03974
01802
04848
01455
05343
02717
04536
Empat
mati
Bab 4 Pengujian dan Analisa
52
24
23
22
21
20
19
18
17 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05157
04015
06277
02964
05609
04690
03376
01
369
Satu
nyala
Sinyal Standart
01787
05144
03814
04134
04952
04843
01
636
03404
Satu
mati
03988
03026
07420
03020
03977
01
905
04801
03610
Dua
nyala
01630
05662
06259
05009
01
808
03357
02206
05094
Dua
mati
04667
02681
05731
01
448
05575
03280
05344
03417
Tiga
nyala
01902
05055
03
395
02597
04700
04618
02951
04808
Tiga
mati
03809
01
863
06920
02154
04252
02455
04616
03184
Empat
nyala
00
761
04379
04288
04053
03629
04122
02419
05622
Empat
mati
Bab 4 Pengujian dan Analisa
53
32
31
30
29
28
27
26
25 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
04793
03554
06312
03247
06514
03585
03068
02
935
Satu
nyala
Sinyal Standart
01671
04661
03012
03961
02834
04667
01
079
05475
Satu
mati
04033
02359
05307
02587
03475
01
587
04781
04010
Dua
nyala
02222
04949
03652
04387
00
958
03222
02647
04966
Dua
mati
04499
02207
04170
01
873
05884
02500
05631
03257
Tiga
nyala
01791
04432
01
196
02646
02999
04619
02558
05048
Tiga
mati
03561
01
050
05061
02437
04927
01887
05325
03424
Empat
nyala
00
858
03774
02052
03974
01440
04186
02597
05381
Empat
mati
Bab 4 Pengujian dan Analisa
54
40
39
38
37
36
35
34
33 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
06471
03838
05816
03364
06492
03613
03496
01
111
Satu
nyala
Sinyal Standart
02951
05556
02631
04558
05057
04799
01
683
02958
Satu
mati
05259
02977
05228
03305
04614
00
878
05159
02707
Dua
nyala
03165
05686
03078
05512
01
088
03082
03482
04823
Dua
mati
05397
02037
03714
00
949
06365
02818
05998
02829
Tiga
nyala
02990
04867
00
921
02759
04978
04752
03131
04533
Tiga
mati
05028
01
233
05114
02070
05154
01825
05439
01975
Empat
nyala
01
914
04521
01834
04248
02711
04164
03149
04755
Empat
mati
Bab 4 Pengujian dan Analisa
55
48
47
46
45
44
43
42
41 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
07997
03701
06005
03992
05800
05223
03706
01
198
Satu
nyala
Sinyal Standart
03909
04978
02572
05339
05784
05103
01
161
03113
Satu
mati
06284
02355
05419
04194
03709
02
588
04764
02834
Dua
nyala
03737
04883
03321
06131
03
489
04229
03188
04962
Dua
mati
05885
02259
04026
00
918
06123
03601
05739
0 2867
Tiga
nyala
03583
04464
00
974
03340
05828
05114
02720
04269
Tiga
mati
05762
01
230
7
05459
02231
04899
03397
05114
0 2395
Empat
nyala
02
247
02888
01948
04994
04987
04505
02141
0 4956
Empat
mati
Bab 4 Pengujian dan Analisa
56
56
55
54
53
52
51
50
49 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05627
03923
06226
04018
05254
04895
02933
02
009
Satu
nyala
Sinyal Standart
02473
04947
02892
05661
05301
05040
01
289
03008
Satu
mati
04393
02779
06046
04425
02900
01
743
04571
02669
Dua
nyala
02222
05352
04171
06748
01
202
03736
03177
03699
Dua
mati
04644
02488
03523
00
835
05391
03319
05277
03671
Tiga
nyala
02213
04345
01
009
03758
02869
05933
02761
03900
Tiga
mati
04093
01
443
05080
05083
04959
02819
04840
02709
Empat
nyala
01
239
04029
0 2223
05428
01263
04236
02575
04141
Empat
mati
Bab 4 Pengujian dan Analisa
57
64
63
62
61
60
59
58
57 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
07489
03792
05134
04199
06459
04019
03044
01
850
Satu
nyala
Sinyal Standart
03586
04783
02186
05509
02884
04251
01
198
03243
Satu
mati
05697
02612
04576
04268
03211
01
519
04639
03845
Dua
nyala
03563
05288
02855
06752
01
074
03523
03265
04523
Dua
mati
05768
02262
03884
01
048
06348
02633
05784
02683
Tiga
nyala
03449
04859
01
009
03177
03425
04355
02975
04077
Tiga
mati
05693
01
445
04574
02498
05298
01999
05622
02359
Empat
nyala
02
236
04215
01468
05161
01827
03851
03161
04416
Empat
mati
Bab 4 Pengujian dan Analisa
58
72
71
70
69
68
67
66
65 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05439
02975
05593
03689
05796
03415
03416
01
492
Satu
nyala
Sinyal Standart
02225
04543
04586
04584
02669
04529
01
112
02881
Satu
mati
04025
02639
06303
03009
02582
01
003
05045
02767
Dua
nyala
01734
05437
04847
04897
00
826
02892
02584
04797
Dua
mati
04671
02336
04988
01
206
05595
02572
05647
02991
Tiga
nyala
02095
04805
04
025
02747
02848
04359
02773
04076
Tiga
mati
03971
01
297
05065
02121
04489
01703
05074
02131
Empat
nyala
00
901
04123
04026
04154
01514
03762
02328
04561
Empat
mati
Bab 4 Pengujian dan Analisa
59
80
79
78
77
76
75
74
73 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
07997
03054
06228
04446
05805
04687
03173
03
391
Satu
nyala
Sinyal Standart
05051
04619
05619
05749
02631
04447
01
086
05310
Satu
mati
05949
03685
05899
05607
03163
01
874
05234
03797
Dua
nyala
03109
05053
05258
07102
01
095
03368
03585
04539
Dua
mati
06473
02004
04524
01
350
05525
03084
05608
03682
Tiga
nyala
04759
04205
04
309
03701
03031
04660
02678
05243
Tiga
mati
05572
02
003
05167
02702
04478
02552
05358
03563
Empat
nyala
02
459
04960
04964
05734
01641
03971
02630
05029
Empat
mati
Pengujian pertama ini dilakukan dengan cara memasukkan suara pria pertama (yang digunakan sebagai
pengisi suara standart) Setiap satu perintah dilakukan sebanyak 10 kali pengujian Hasil pengujian
merupakan nilai dari hasil proses Dynamic Time Warping yang merupakan nilai dari pemadanan sinyal
input dengan kedelapan sinyal standart Nilai terkecil (nilai yang tercetak tebal) yang didapatkan merupakan
hasil yang paling mendekati sinyal standart Yang berarti sinyal masukan tersebut dianggap paling sesuai
dengan sinyal standart
Prosentase keberhasilan pengucapspeaker pertama untuk kedelapan perintah sebesar 100 semuanya
menunjukkan kepada sinyal masukkan dan sinyal standart yang sama
Hasil pengujian menunjukkan bahwa ciri sinyal suara yang dihasilkan oleh pengucap speaker pertama dan
sebagai pemberi standart adalah sama
Bab 4 Pengujian dan Analisa
60
Tabel 42 Hasil pengujian sistem pengolahan sinyal wicara untuk pengucap yang lain (pria
2)
8 7 6 5 4 3 2 1 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
06023
05121
07146
04599
04996
04561
07575
04
358
Satu
nyala
Sinyal Standart
04018
05701
06369
06256
03518
05738
07004
08129
Satu
mati
07120
03925
07395
04897
05938
02246
10082
06777
Dua
nyala
04963
05958
05189
07345
03449
04854
08816
08543
Dua
mati
05919
04337
05163
02
130
04797
03463
08871
05289
Tiga
nyala
03709
04519
04380
03601
03491
05239
06
046
07381
Tiga
mati
06087
03
161
06178
03280
05
068
02
439
08853
05354
Empat
nyala
03
409
04321
04
208
05569
03219
04898
06863
08596
Empat
mati
Bab 4 Pengujian dan Analisa
61
16
15
14
13
12
11
10
9 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05475
03932
05521
04
383
05634
05416
04
464
03
434
Satu
nyala
Sinyal Standart
04076
05731
04541
05681
03574
04920
03971
06662
Satu
mati
07427
04886
07924
05962
05824
02
712
07837
05504
Dua
nyala
04475
06666
05765
07616
03414
04203
05431
06334
Dua
mati
05357
03797
05099
04509
04902
04332
07097
05220
Tiga
nyala
04197
05134
04
209
05088
03169
04547
04464
06516
Tiga
mati
05936
03
769
05910
05109
05
311
03435
07646
04977
Empat
nyala
03
576
05767
04591
06367
03010
04129
04944
06850
Empat
mati
Bab 4 Pengujian dan Analisa
62
24
23
22
21
20
19
18
17 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
06927
04
279
08096
04
448
06461
05522
03935
02
444
Satu
nyala
Sinyal Standart
06409
05322
05528
05481
04912
04491
02
011
05508
Satu
mati
06134
04643
08962
06002
04868
02
579
06122
05502
Dua
nyala
04753
06443
05501
07364
02
298
03206
04239
06684
Dua
mati
05709
04928
05456
04961
06142
05726
06454
03831
Tiga
nyala
05798
04882
03
235
04708
04838
04317
03526
05462
Tiga
mati
05021
04423
06842
05583
05222
04132
06363
04235
Empat
nyala
04
457
05427
03546
05773
02946
03573
03618
07019
Empat
mati
Bab 4 Pengujian dan Analisa
63
32
31
30
29
28
27
26
25 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05260
04224
07393
04661
06292
04993
03989
03
549
Satu
nyala
Sinyal Standart
04478
04669
04568
05977
03523
04046
03
438
04819
Satu
mati
06448
04308
08152
06114
04665
02
444
07609
05162
Dua
nyala
04024
05867
05103
07873
01
872
02613
04489
06765
Dua
mati
05363
04
672
05250
04
529
05210
05103
06546
04794
Tiga
nyala
04422
04039
02
482
05102
03499
03985
03969
04371
Tiga
mati
05492
04073
06626
05239
04902
03553
06869
04794
Empat
nyala
03
326
04543
03153
06510
02133
03419
04175
05287
Empat
mati
Hasil pengujian yang kedua ini dilakukan dengan cara memasukkan suara dari pria kedua (pria lain yang
tidak digunakan sebagai suara standart) Setiap satu perintah dilakukan empat (4) kali proses pengujian
Hasil pengujian merupakan nilai dari hasil proses Dynamic Time Warping yang merupakan nilai dari
pemadanan sinyal input dengan kedelapan sinyal standart Nilai terkecil (nilai yang tercetak tebal) yang
didapatkan merupakan hasil yang paling mendekati sinyal standart Yang berarti sinyal masukan tersebut
dianggap paling sesuai dengan sinyal standart
Prosentase keberhasilan pengucapspeaker kedua untuk kedelapan perintah bervariasi sebesar 50
sampai dengan 100 semuanya menunjukkan kepada sinyal masukkan dan sinyal standart yang berbeda
Hasil pengujian menunjukkan bahwa ciri sinyal suara yang dihasilkan oleh pengucap speaker kedua dan
sebagai pemberi standart adalah mendekati sama
Bab 4 Pengujian dan Analisa
64
Tabel 43 Hasil pengujian sistem pengolahan sinyal wicara untuk pengucap yang sama (pria)
No Perintah Lampu DTMF
1 1 nyala B B
2 1 mati B G
3 2 nyala B G
4 2 mati G X
5 3 nyala G X
6 3 mati G X
7 4 nyala B B
8 4 mati B B
9 1 nyala B G
10 1 mati B B
11 2 nyala B G
12 2 mati B B
13 3 nyala B G
14 3 mati B B
15 4 nyala B G
16 4 mati B B
17 1 nyala B G
18 1 mati B B
19 2 nyala G X
20 2 mati G X
21 3 nyala B B
22 3 mati B B
23 4 nyala B B
24 4 mati G X
No Perintah Lampu DTMF
25 1 nyala B G
26 1 mati G X
27 2 nyala G X
28 2 mati B G
29 3 nyala B G
30 3 mati B G
31 4 nyala B G
32 4 mati G X
B Berhasil
G Gagal
X Donrsquot Care (Diabaikan)
Pengujian yang ketiga ini dilakukan oleh pria pertama (pria yang suaranya digunakan sebagai standart)
Masing-masing perintah dilakukan sebanyak empat kali pengujian
Bab 4 Pengujian dan Analisa
65
Pada kolom ketiga (kolom lampu) tanda B (berhasil) menunjukkan bahwa perintah yang diberikan pada
hardware berhasil dilakukan Tanda G (gagal) menunjukkan bahwa perintah yang diberikan pada hardware
gagal dilakukan(hasil tidak sesuai dengan perintah yang diberikan)
Pada kolom keempat (kolom DTMF) menunjukkan laporan dari hardware ke PC server tentang
bagaimana keadaan lampu yang sedang dikontrol apakah dalam keadaan menyala atau mati Pada kolom ini
tanda B (berhasil) menunjukkan bahwa laporan dari hardware ke PC server (yang merupakan proses
otomatisasi) berhasil dilakukan Tanda G (gagal) menunjukkan bahwa laporan ke PC client gagal dilakukan
Sedangkan tanda X (donrsquot care) menunjukkan bahwa perintah diabaikan Hal ini disebabkan perintah pada
hardware (perintah sebelumnya sebelum proses otomatisasi) sudah gagal dilakukan
Prosentase keberhasilan pengucapspeaker pertama untuk kedelapan perintah bervariasi antara 50
sampai 100 semuanya menunjukkan kepada sinyal masukkan dan sinyal standart yang berbeda
Hasil pengujian kedua ini menunjukkan bahwa ciri sinyal suara yang dihasilkan oleh pengucapspeaker
kedua ini yang merupakan suara orang lain (bukan pemberi standart) adalah mendekati sama dengan hasil
yang bervariasi antara 50 sampai 100
43 Pengujian Sistem Client Server
Pada sub bab ini akan diujikan program Client Server yang akan mengirimkan sinyal hasil pengolahan
suara
Tampilan pada client adalah seperti gambar 421 yang merupakan tampilan awal pada saat program
dimulai
Gambar 421 Proses pada client
Bab 4 Pengujian dan Analisa
66
Gambar 422 Proses pada server
1 Sebelumnya program server harus disiapkan lebih dulu
2 Setelah itu client dijalankan
3 Setelah client siap user memasukkan suara yang selanjutnya akan diolah sampai proses DTW
4 Server menerima data yang selanjutnya digunakan untuk melakukan kontrol alat rumah tangga
44 Analisa Pengujian Sistem Secara Keseluruhan
Berdasarkan data-data yang telah didapatkan di atas maka dapat ditarik suatu analisa bahwa
Berdasarkan tabel 44 untuk pengujian pertama pria 1 adalah pria yang suaranya digunakan sebagai standart
Prosentase keberhasilan rata-rata yang didapat untuk semua perintah adalah sebesar 100 Hal ini menunjukkan
bahwa suara yang diujikan adalah suara yang sama dengan standart dan pria 1 tersebut pernah berinteraksi
dengan sistem
Pengujian yang kedua adalah pengujian yang dilakukan oleh pria 2 (pria lain yang suaranya tidak
dipakai sebagai standart) Prosentase keberhasilan rata-rata yang didapat untuk semua perintah 7188 Karena
sistem bersifat dependent speaker dimana sistem hanya digunakan oleh orang tertentu dalam arti yang pernah
berinteraksi langsung dengan sistem Oleh karenanya didapat nilai prosentase keberhasilan yang bervariasi
Bab 4 Pengujian dan Analisa
67
Tabel 44 Tingkat keberhasilan sistem perangkat lunak
NNO
PENGUCAP
PERINTAH
BANYAK
PERCOBAAN
PROSENTASE
KEBERHASILAN
1 Pria 1 1 nyala 8 kali 100
2 1 mati 8 kali 100
3 2 nyala 8 kali 100
4 2 mati 8 kali 100
5 3 nyala 8 kali 100
6 3 mati 8 kali 100
7 4 nyala 8 kali 100
8 4 mati 8 kali 100
RATA-RATA 100
9 Pria 2 1 nyala 4 kali 100
10 1 mati 4 kali 75
11 2 nyala 4 kali 75
12 2 mati 4 kali 50
13 3 nyala 4 kali 50
14 3 mati 4 kali 75
15 4 nyala 4 kali 50
16 4 mati 4 kali 100
RATA-RATA 7188
Jika diurutkan proses pengolahan wicara dari awal sampai diambil keputusan suara yang dimasukkan
tersebut adalah suara yang sesuai atau tidak adalah sebagai berikut
Bab 4 Pengujian dan Analisa
68
Gambar 423 Tampilan awal perangkat lunak menggunakan TclTk dan Snack
Gambar 423 adalah tampilan awal dari perangkat lunak yang dibangun dengan menggunakan TclTk dan
Snack
Gambar 424 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan dengan
menggunakan perangkat lunak Wavesurver
Gambar 424 adalah tampilan awal dari program Wavesurver yang merupakan pembanding dari program
yang dibuat dari perangkat lunak TclTk dan Snack
Bab 4 Pengujian dan Analisa
69
Gambar 425 Tampilan awal perangkat lunak
menggunakan TclTk dan Snack
Gambar 425 adalah tampilan ketika proses pengambilan sinyal suara sedang dilakukan dengan perangkat
lunak TclTk dan Snack
Gambar 426 Tampilan hasil perekaman kata ldquoempat
matirdquo dengan menggunakan perangkat lunak Wavesurver
Gambar 426 adalah tampilan ketika proses pengambilan sinyal suara sedang dilakukan dengan perangkat
lunak Wavesurver
Bab 4 Pengujian dan Analisa
70
Data Sampling
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 427 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900 menggunakan TclTk dan
Snack
Pada gambar 427 dilakukan proses sampling sinyal masukan dengan frekuensi sampling sebesar 12000
Hz maka didapatkan hasil sinyal yang hampir mirip dengan sinyal analognya yang dilakukan dengan
perangkat lunak TclTk dan Snack
Gambar 428 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900 dengan menggunakan
perangkat Wavesurver
Pada gambar 428 dilakukan proses sampling sinyal masukan dengan frekuensi sampling sebesar 12000
Hz yang dilakukan dengan perangkat lunak Wavesurver
Data Windowing
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 429 Hasil Windowing data sampel
kata ldquoempat matirdquo milidetik ke-13900 menggunakan TclTk dan Snack
Bab 4 Pengujian dan Analisa
71
Proses windowing terdapat pada gambar 429 dilakukan untuk membuat sinyal yang disampel lebih
halus Proses windowing ini dilakukan dengan menggunakan perangkat lunak TclTk dan Snack
Proses windowing pada Wavesurver merupakan fasilitas yang tergabung dengan proses lainnya Misal
dengan proses Fast Fourier Transform Jadi disini tidak ditampilkan hanya sebagai proses windowing saja
tetapi digabungkan dengan proses lain
Fast Fourier Transform Sinyal
Masukan
0
20
40
60
80
100
120
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 430 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat
lunak TclTk dan Snack
Gambar 430 di atas adalah proses Fast Fourier sinyal masukan dengan perangkat lunak TclTk dan Snack
Hasil Fast Fourier Transform sinyal masukan menunjukkan sebaran spektrum frekuensi dari sinyal suara
yang telah dihasilkan oleh pengucap
Sebagai pembanding adalah proses Fast Fourier sinyal masukan yang diambil dengan Wavesurver seperti
pada gambar 431 Yang didapatkan hasil yang sama
Gambar 431 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat Wavesurver
Bab 4 Pengujian dan Analisa
72
Fast Fourier Transform Parameter
LPC
0
20
40
60
80
100
0 2000 4000 6000 8000
Frekuensi (Hz)10 x log
10(magnitude)(dB)
Gambar 432 Fast Fourier Transform LPC dengan menggunakan perangkat lunak TCLTk
dan Snack
Hasil gambar 432 menunjukkan proses Fast Fourier Transform LPC yang dilakukan dengan perangkat
lunak TclTk dan Snack
Gambar 433 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat Wavesurver
Proses Fast Fourier Transform yang dilakukan dengan Wavesurver dapat dilihat pada gambar 433
Pelekukan Jalur Suara
0
50
100
150
0 50 100 150
Sinyal Input empat mati
Sinyal Standart
empat mati
Gambar 434 Pelekukan Jalur Suara dengan Dynamic Time Warping
Bab 4 Pengujian dan Analisa
73
Dari gambar 434 dapat dianalisa bahwa dengan menggunakan dynamic time warping terdapat proses
pembandingan panjang sinyal antara dua buah sinyal input dan sinyal standart sehingga terjadi proses
pemadanan panjang sinyal dengan cara memperpanjang dan menekuk vektor spektralnya
74
BAB 5
PENUTUP
51 Kesimpulan
Dari hasil yang didapatkan maka dapat diambil kesimpulan bahwa
Sistem pengucap tak bebas atau speaker dependent system memiliki tingkat akurasi yang tinggi untuk
pengucap masukan dan pengucap standar yang sama Hal ini dibuktikan dengan hasil pengujian pertama
yang dilakukan oleh pria pertama Pria pertama ini adalah pria yang suaranya digunakan sebagai standar
Nilai prosentase keberhasilan rata-rata untuk semua perintah adalah sebesar 100 dari setiap perintah
dilakukan 8 kali percobaan
Sedangkan pengujian yang dilakukan oleh suara lain (bukan standart) prosentatase keberhasilan
rata-rata yang diperoleh untuk semua perintah 7188 dari setiap perintah dilakukan 4 kali percobaan Hal
ini disebabkan karena suara pria kedua tidak pernah berinteraksi dengan sistem
Keberhasilan sistem ditunjukkan oleh ketepatan penyalaan lampu sesuai dengan yang diperintahkan
melalui perintah suara
Kecepatan sistem secara keseluruhan diperlihatkan dalam tabel 51 dibawah
Tabel 51 Kecepatan sistem keseluruhan
No
Perintah
Waktu (detik)
1 2 3 4 Rata-rata
1 Satu Nyala 11 99 12 25 16 89 14 05 13 80
2 Satu Mati 12 51 13 28 14 83 12 25 13 22
3 Dua Nyala 10 70 11 73 11 99 12 25 11 67
4 Dua Mati 10 44 11 21 11 21 11 47 11 08
5 Tiga Nyala 10 96 12 25 13 54 12 51 12 32
6 Tiga Mati 10 70 11 99 11 99 13 28 11 99
7 Empat Nyala 11 73 11 99 13 02 12 24 12 25
8 Empat Mati 10 70 09 93 11 21 10 70 10 64
Rata-rata 12 12
Dari data yang diperoleh didapatkan kecepatan rata-rata untuk tiap perintah yang diberikan sampai
dengan terlaksananya eksekusi dari perintah adalah 12 12 detik
52 Saran
Pada penelitian ini masih sangat banyak hal yang dapat dilakukan untuk perbaikan-perbaikan dimasa
selanjutnya Saran dan usulan yang dapat dipertimbangkan untuk pengembangan sistem lebih lanjut adalah
antara lain
1 Sistem tidak lagi bersifat dependent speaker tetapi bersifat independent speaker dimana banyak
orang yang memberi perintah dan sistem dengan tepat memberikan respon
2 Sistem dapat mengatasi tingkat noise yang tinggi baik yang disebabkan oleh lingkungan atau oleh
hardware (sound card)
75
3 Otomatisasi sistem Artinya perintah tidak perlu lagi diberikan lewat penekanan tombol yang
dilakukan melalui mouse
4 Respon sistem yang real time
5 Sistem yang dapat dengan mudah beradaptasi dengan jenis sound card yang bervariasi
DAFTAR PUSTAKA
Anggraeni Triana Dewi Astutik Debi Puji Pengenalan Wicara Dengan Penutur Tak Bebas
Tugas Akhir PENS ITS 2003
Wahyudi Agus Verifikasi Sinyal Suara Sebagai Kendali Arah TA PENS-ITS 2002
Dewantara Bima Sena Bayu Aplikasi Pengenalan Wicara Untuk Perintah NirkabelRobot Mikro
Mouse Tugas Akhir PENS ITS 2004
Dutono Titon Penataran Kebahasaan Tahap I Fonetik Dan Fonologi ndashPengolahan Sinyal
Wicara Digital 20 Februari 2001
Gabel Robert A Richard A Robert Sinyal dan Sistem LinierErlangga 1996
Rabiner Lawrence Huang Juang Biing Fundamentals of Speech Recognition Prentice Hall
International Inc1993
Proakis John G Malonakis Dimitris G Digital Signal Processing Principles Algorithms and
Applications Prentice Hall Inc New Jersey 1995
Scolander Kare Snack Sound Toolkit
httpwwwtcltkmantcl85tutorialTcl11html
httpwikitcltk4074
httpwwwinveceorgtclwisefrontcoverhtml
httpwwwspeechkthsesnackmansnack22tcl-manhtml
httpwwwspeechkthsesnacktutorialhtml
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13]
Bab 1 Pendahuluan
iv
KATA PENGANTAR
Dengan mengucap puji syukur kepada Allah SWT atas limpahan rahmat dan hidayah-Nya serta
pertolongan dan ridlo-Nya sehingga kami dapat menyelesaikan penelitian ini pada waktunya Sholawat dan
salam semoga terlimpahkan kepada kekasih Allah Nabi Muhammad SAW sang Uswatun Hasanah
Dengan pengerahan segenap usaha akhirnya kami dapat menyelesaikan penelitian kami yang berjudul
SISTEM PENGENDALIAN DAN MONITORING PERALATAN RUMAH TANGGA JARAK JAUH
DENGAN METODE PENGENALAN WICARA
tepat pada waktunya
Dengan terselesaikannya buku laporan penelitian ini kami berharap semoga buku ini dapat membawa
manfaat bagi pembaca umumnya dan juga bagi kami khususnya serta semua pihak yang berkepentingan Kami
juga berharap agar penelitian ini dapat dikembangkan lebih lanjut sehingga dapat benar-benar digunakan sebaik-
baiknya untuk mendukung perkembangan ilmu pengetahuan Kami menyadari bahwa kami adalah manusia biasa
yang tidak luput dari kesalahan dan kekurangan Untuk itu kritikan dan saran yang bersifat membangun kami
harapkan untuk perbaikan selanjutnya
Akhirnya tak lupa kami ucapkan terima kasih kepada semua pihak yang telah memberikan bantuan dan
dukungan hingga terselesaikannya penelitian ini
Bandung 15 Juni 2012
Bab 1 Pendahuluan
v
DAFTAR ISI
Halaman Judul i
Abstrak ii
Kata Pengantar iv
Daftar Isi v
Daftar Gambar viii
Daftar Tabel x
BAB 1 PENDAHULUAN 1
11 Latar Belakang 1
12 Tujuan 1
13 Batasan Masalah 1
14 Sistematika Pembahasan 2
BAB 2 TEORI PENUNJANG 3
21 Sistem Pengolahan Wicara 3
211 Sinyal Suara Manusia 3
212 Sampling 5
213 Preemphasis 6
214 Frame Blocking 7
215 Windowing 7
216 Fourier Transform 8
217 Linier Prediction Code 9
2171 Autocorrelation Analysis 10
2172 LPC Analysis 10
2173 LPC Parameter Convertion to Cepstral Coefficient 11
218 Dynamic Time Warping 11
2181 Dynamic Programming 11
2182 Batasan Normalisasi Waktu 15
2183 Batasan Titik Awal Akhir 15
2184 Kondisi Monotonisasi 15
22 Awal dan Akhir Sinyal Suara 15
221 Power 15
222 Unvoiced Plosive 16
23 Jaringan dengan TCPIP 17
231 Mengenal TCPIP 17
232 Koneksi TCPIP 18
Bab 1 Pendahuluan
vi
24 Bekerja dengan Socket 19
241 Pengertian Socket Program 19
242 Penjabaran Socket 19
243 Memilih Hostname dan IP Address 20
BAB 3 PERENCANAAN DAN IMPLEMENTASI 21
31 Pendahuluan 21
32 Sistem Pengolahan Sinyal Wicara 22
321 Perekaman Suara 22
322 Sampling 23
323 Preemphasis 24
324 Frame Blocking 25
325 Windowing 25
326 FFT 26
327 Autocorrelation Analysis 27
328 LPC Analysis 28
329 LPC Parameter to Cepstrum Analysis 29
3210 DTW 30
33 Awal dan Akhir Sinyal Suara 31
331 Power 31
332 Unvoiced Plosive 32
34 Proses pada client 32
35 Proses pada server 33
BAB 4 PENGUJIAN DAN ANALYSIS 33
41 Pendahuluan 33
42 Pengujian dan Analysis Sistem Pengolahan Wicara 33
421 Perekaman Suara 33
4211 Dengan Menggunakan TclTk dan Snack 33
4212 Dengan Menggunakan Wavesurver 35
422 Sampling 37
423 Windowing 38
424 FFT Sinyal Masukan 39
4241 Dengan Menggunakan TclTk dan Snack 40
4242 Dengan Menggunakan Wavesurver 41
425 Autocorrelation Analysis 41
426 LPC Analysis 41
427 FFT LPC Parameter 42
Bab 1 Pendahuluan
vii
4271 Dengan Menggunakan TclTk dan Snack 43
4272 Dengan Menggunakan Wavesurver 43
428 LPC Parameter to LPC Cepstrum 44
429 Inverse FFT LPC Cepstrum 45
4210 Dynamic Time Warping 46
4211 Min Value dan Sorting 47
4212 Hasil Pengujian Awal dan Akhir Sinyal 48
4213 Hasil Pengujian Sistem Perangkat Lunak 51
43 Pengujian sistem client server 66
44 Analisa Pengujian Sistem Secara Keseluruhan 67
BAB 5 PENUTUP 74
51 Kesimpulan 74
52 Saran 74
DAFTAR PUSTAKA
Bab 1 Pendahuluan
viii
DAFTAR GAMBAR
21 Skema diagram organ penghasil sinyal wicara 4
22 Struktur umum model generator wicara 5
23 Pola standart dengan unit kata 6
24 Pola standart dengan unit fonem 6
25 a) Sinyal wicara untuk bunyi a pada satu frame pada pria b) Sinyal wicara untuk bunyi
a pada satu frame pada wanita 7
26 Contoh proses sampling dengan nilai frekuensi pencuplikan yang berbeda 8
27 Pergeseran frame pada sinyal suara dengan M = 13 N 10
28 Blok Metode FFT-DIT 8 titik 13
29 Plane jaringan untuk ilustrasi pemrograman dinamik 18
210 DTW antara dua rentetan waktu A dan B 19
211 Bentuk power dari kata 22
212 Unvoiced Plosive 23
31 Blok Diagram Sistem secara keseluruhan 29
32 Program aplikasi pengenalan wicara 31
33 Flowcart sistem Graphical User Interface 32
34 Sinyal hasil sampling dengan frekuensi 12000 Hz 33
35 Flowcart proses sampling 34
36 Frame blocking sinyal 35
37 Flowcart proses windowing 36
38 Flowcart Proses Fast Fourier Transform 37
39 Flowcart Proses Autokorelasi 38
310 Flowcart Proses LPC Analisis 39
311 Flowcart proses LPC Parameter ke Cepstrum 40
312 Flowcart proses Dynamic Programming 41
313 Flowcart Proses Power 42
314 Blok Diagram Proses Client 43
315 Blok Diagram Proses Server 44
41 Tampilan awal perangkat lunak menggunakan TclTk dan Snack 46
42 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan perangkat lunak
TclTk dan Snack 47
43 Tampilan awal perangkat lunak menggunakan Wavesurver 48
44 Tampilan hasil perekaman kata rdquoempat matirdquo dengan menggunakan perangkat lunak wavesurver 48
45 Kotak dialog setting perekaman perangkat lunak Wavesurver 49
46 Cuplikan dari katardquoempat matirdquo milidetik ke-13900 51
47 Hasil windowing data sampel kata rdquoempat matirdquo milidetik ke-13900 52
48 Fast fourier Transform sinyal masukan dengan menggunakan perangkat lunak TclTk da Snack 54
Bab 1 Pendahuluan
ix
49 Fast fourier Transform sinyal masukan dengan menggunakan perangkat lunak Wavesurver 54
410 FFT LPC dengan menggunakan perangkat lunak TCLTk dan Snack 57
411 FFT LPC dengan menggunakan perangkat lunak Wavesurver 58
412 Invers FFT LPC cepstrum dengan menggunakan Perangkat lunak TCLTk dan Snack 60
413 Penggabungan spektrum sinyal spektrum LPC dan Spektrum LPC Cepstrum 61
414 Pelekukan Jalur suara dengan Dynamic Time Warping 62
415 Sinyal rdquoempat matirdquo hasil program power 65
416 Perbandingan power dua kata ldquoempat matirdquo sebelum Dynamic Time Warping 65
417 Pelekukan alur suara dua kata ldquoempat matirdquo dengan DTW 66
418 Perbandingan power dua kata rdquoempat matirdquo setelah Dynamic Time Warping 67
421 Proses pada client 85
422 Proses pada server 86
423 Tampilan awal perangkat lunak menggunakan TclTk dan Snack 88
424 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan dengan menggunakan
perangkat lunak Wavesurver 89
425 Tampilan awal perangkat lunak menggunakan Wavesurver 89
426 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan perangkat lunak Wavesurver 90
427 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900 90
428 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900 dengan menggunakan perangkat
Wavesurver 91
429 Hasil Windowing data sampel kata ldquoempat matirdquo milidetik ke-13900 92
430 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat lunak TclTk dan Snack 92
431 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat lunak Wavesurver 93
432 Fast Fourier Transform LPC dengan menggunakan perangkat lunak TCLTk dan Snack 94
433 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat Wavesurver 94
434 Pelekukan jalur suara dengan Dynamic Time Warping 95
Bab 1 Pendahuluan
x
DAFTAR TABEL
41 Hasil pengujian sistem pengolahan wicara untuk pengucap yang sama (pria 1) 68
42 Hasil pengujian sistem pengolahan wicara untuk pengucap yang lain (pria 2) 79
43 Hasil pengujian system pengolahan wicara untuk pengucap yang sama (pria) 83
44 Tingkat keberhasilan system perangkat lunak 87
51 Kecepatan sistem keseluruhan 96
Bab 1 Pendahuluan
1
BAB 1
PENDAHULUAN
11 LATAR BELAKANG
Sudah sekian lama manusia memimpikan adanya pengendalian suatu alat atau sistem kontrol dengan
perintah suara Hal ini diperjelas dengan banyak beredarnya film-film fiksi yang menyuguhkan berbagai sistem
kontrol yang dilakukan dengan menggunakan suara bagaimana seorang anak bisa mengendalikan sebuah
pesawat terbang hanya dengan perintah-perintah dasar dengan menggunakan suaranya Ditambah lagi dengan
pesatnya penelitian dibidang suara yang membuat pintu gerbang sistem pengontrolan dengan suara manusia
semakin terbuka Dewantara [2] telah membuat sebuah aplikasi pengenalan wicara untuk perintah nirkabel robot
mikro mouse Anggraeni dan Astutik [1] telah menggunakan pengenalan wicara untuk mengakses suatu jaringan
sebagai password Tetapi belum ada yang membuat aplikasi pengenalan wicara untuk membuat perintah
pengontrolan pada alat-alat rumah tangga semisal lampu Selain itu beberapa tahun terakhir ini perkembangan
dunia telekomunikasi mengalami kemajuan yang sangat pesat Sehingga pada saat ini informasi yang dikirim
tidak hanya berupa data dalam bentuk teks tetapi juga suara manusia Ditambah dengan semakin banyaknya
peralatan yang memanfaatkan pengenalan suara manusia untuk mengakses maupun memberikan perintah Sinyal
suara yang masuk akan diproses dan dikenali oleh suatu alat Proses tersebut adalah pengenalan wicara (speech
recognition) yaitu pengenalan wicara melalui sampel suara yang telah diolah
Dengan pertimbangan tersebut maka pembuatan kontrol suatu peralatan jarak jauh dengan menggunakan
suara sangat sesuai jika diaplikasikan dalam sistem pengendalian dan monitoring peralatan rumah tangga jarak
jauh dengan menggunakan metode pengenalan wicara Aplikasi tersebut kami bangun dalam pelaksanaan
penelitian ini
12 TUJUAN
Penelitian ini bertujuan untuk
1 Memberikan perintah suara untuk menyalakan beberapa peralatan rumah tangga dalam contoh kasus
dalam penelitian ini adalah menyalakan lampu jarak jauh
2 Membangun sistem pengucap tak bebas (speaker dependent sistem)
3 Memberikan ciri individu untuk memberikan perintah menghidup dan matikan peralatan rumah tangga
yang dilakukan secara jarak jauh
13 BATASAN MASALAH
Batasan masalah pada penelitian ini adalah
1 Bahasa pemrograman untuk algoritma pengenalan wicara adalah Microsoft Visual C++ 60
2 Bahasa Pemrograman untuuk user interface adalah TclTk 830 dan Snack 22
3 Sistem bersifat dependentartinya sistem hanya dapat digunakan oleh orang tertentu dalam hal ini yang
pernah berinteraksi langsung dengan sistem
4 Sinyal diasumsikan ideal yaitu tidak mamperhitungkan noise yang berarti semua noise dianggap stationer
Bab 1 Pendahuluan
2
5 Perintah kata yang diberikan dibatasi untuk keperluan tone dekoder saja dengan dua perintah secara
langsung Semua kata diucapkan secara wajar dengan kecepatan normal
6 Keberhasilan penelitian ini dapat dilihat dari keberhasilan ketepatan perintah yang dihasilkan oleh sistem
dengan perintah yang diberikan
7 Jaringan komunikasi masih dilaksanakan untuk local area dari PC ke PC
14 SISTEMATIKA PEMBAHASAN
Sistematika pembahasan penelitian ini sebagai berikut
BAB I PENDAHULUAN
Pada bab ini akan diuraikan tentang latar belakang tujuan batasan masalah dan sistematika
pembahasan masalah yang digunakan
BAB II TEORI DASAR
Pada bab ini akan diuraikan tentang landasan-landasan teori yang digunakan
BAB III PERENCANAAN DAN PELAKSANAAN
Pada bab ini akan diuraikan tentang tahap-tahap perencanaan dan proses pembuatan keseluruhan sistem
yang mendukung untuk membangun sistem pengenalan wicara untuk sistem pengendalian dan monitoring
peralatan rumah tangga jarak jauh
BAB IV PENGUJIAN DAN ANALISIS
Pada bab ini akan dijelaskan tentang hasil pengujian sistem yang telah dibangun baik secara perbagian
ataupun keseluruhan serta analisis terhadap hasil pengujian sistem untuk mengetahui apakah sistem yang
dibangun sesuai dengan yang diharapkan
BAB V KESIMPULAN DAN SARAN
Pada bab ini berisi kesimpulan dari pembahasan pada perencanaan serta analisa pengujian yang
diperolehUntuk lebih baiknya sistem yang dibangun maka disertakan pula saran-saran untuk perbaikan dan
penyempurnaan
Bab 2 Teori Penunjang
3
BAB 2
TEORI PENUNJANG
21 Sistem Pengolahan Sinyal Wicara
211 Sinyal Suara Manusia
Manusia menggunakan suara sebagai sumber informasi untuk mengkomunikasikan keinginan ide dan
perasaannya kepada orang lain Organ tubuh manusia yang digunakan dalam proses produksi wicara adalah
paru-paru tenggorokan(trachea) laring faring rongga hidung(nasal cavity) dan rongga mulut(oral cavity)
Pembangkitan sinyal wicara terletak pada bentuk lintasan vokalnya(vocal tract) Lintasan vokal tersebut terdiri
atas di bawah katup tenggorokan (laryngeal pharynx) antara langit-langit lunak katup tenggorokan (oral
pharynx ) di atas velum dan di ujung depan rongga hidung (nasal pharynx) dan rongga hidung (nasal cavity)1
seperti ditunjukkan gambar 21
Gambar 21 Skema diagram organ penghasil sinyal
Wicara2
Model generator wicara atau model sintesa suara yang dipakai dan menjadi dasar dari pemrosesan
sinyal wicara hingga dewasa ini adalah apa yang dinamakan Analog Terminal seperti pada gambar 22
1 Dewantara Bima Sena Bayu Aplikasi Pengenalan Wicara Untuk Perintah Nirkabel Robot Mikro Mouse TA PENS ITS 2004 hal 5 2 Dutono Titon Penataran Kebahasaan Tahap I Fonetik dan Fonologi Pengolahan Sinyal Wicara Digital 20 Februari 2001
Bab 2 Teori Penunjang
4
Gambar 22 Struktur umum model generator wicara3
Pada model ini sinyal eksitasi(glotal wave) yang berasal dari getaran pita suara diumpankan ke suatu
filter yang merupakan suatu model pendekatan dari lintasan vokal (vocal tract) untuk menghasilkan sinyal
wicara Model analog terminal ini disebut juga pensintesa formant Dasar pendekatan model ini adalah bahwa
lintasan suara adalah suatu bumbung akustik (acoustical cavity) yang mempunyai karakteristik berdasarkan
perpaduan beberapa frekuensi resonansinya Dengan demikian fungsi transfernya dapat didekati dengan
pendekatan kombinasi riam (cascade combination) dari beberapa rangkaian resonansinya Dengan analogi yang
sama sistem ini dapat dibangun dari beberapa rangkaian resonansi yang mempunyai parameter lebar bidang dan
frekuensi resonansi yang selalu berubah setiap saat membentuk suatu sistem berubah waktu (time variant
system)
Struktur sistem pengenal wicara yang ada dapat dibagi menjadi 2 yaitu
1) Mempergunakan pola standart dengan unit kata
Gambar 23 Pola standart dengan unit kata4
2) mempergunakan pola standart dengan unit fonem
yang dilengkapi dengan kamus kosa kata
3 Ibid 4 Ibid
Ekstraksi ciri
Pola standar kata
Pemadanan kata
Algoritma keputusan
Sinyal wicara Output teks
Bab 2 Teori Penunjang
5
Gambar 24 Pola standart dengan unit fonem5
Pada sistem pertama mampu mencakup fenomena koartikulasi tapi tidak fleksibel terhadap perubahan
kosa kata
Sinyal wicara adalah sinyal yang dihasilkan oleh suara manusia dan biasanya mempunyai frekuensi
kerja antara 0 sampai dengan 5000 Hz Bentuk gelombang sinyal wicara mempunyai bentuk yang unik seperti
gambar 23
Gambar 25 a)Sinyal wicara untuk bunyi a pada satu frame pada wanita
b)Sinyal wicara untuk bunyi a pada satu frame pada pria
Berdasarkan gambar 25 terlihat bahwa setiap satu frame terdapat 120 sample yang bersifat quasi
periodik dan mempunyai unsur bunyi terkecil yang disebut sebagai pitch Panjang pitch berkisar 10 ms Pitch
manusia berbeda satu sama lain terutama jenis kelamin laki-laki dan perempuan
212 Sampling
Sinyal wicara merupakan sinyal yang tidak terbatas dalam domain waktu (finite time interval) Suara
manusia akan menghasilkan sinyal analog yang terus kontinyu Untuk keperluan pemrosesan dalam transformasi
fourier maka sinyal wicara harus dibentuk dalam potongan-potongan waktu yang terbatas (infinite time interval)
Karena itu sinyal yang ada dipotong-potong dalam slot-slot interval waktu tertentu
Berdasarkan pada teori sampling Niquist maka syarat dari frekuensi sampling adalah minimal dua kali
frekuensi sinyal
Fsampling 2 x Fsignal ( 21)
Ekstraksi ciri
Pola standar fonem
Pemadanan fonem
Kamus kosa kata
Pemadanan kata
Algoritma keputusan
Sinyal wicara
-20000
-15000
-10000
-5000
0
5000
10000
15000
0 20 40 60 80 100 120 140
pitch -10000
-8000
-6000
-4000
-2000
0
2000
4000
6000
8000
0 20 40 60 80 100 120 140
pitch
Output teks
Bab 2 Teori Penunjang
6
Contoh dari sampling seperti bisa kita lihat pada gambar di bawah
Gambar 26 Contoh proses sampling dengan nilai frekuensi pencuplikan yang berbeda
6
Frekuensi sampling yang digunakan adalah 12000 Hz
Dimana dalam 1 detik sinyal terdapat 12000 titik sampling
213 Preemphasis
Proses preemphasis dimaksudkan agar spektrum sinyal merata di semua frekuensi serta mencegah
kehilangan informasi akibat proses pembulatan pada saat komputasi Fungsi preemphasis adalah
H (z) = 1 ndash az-1 09 le a le 1 (22)
dimana nilai a berkisar 095 Berdasarkan model filter di atas maka keluaran dari preemphasis adalah
s (n) = s (n) - as (n-1) ( 23)
Penjabarannya sebagai berikut
5 Ibid 6 Ibid
Fi = 1000 Hz
Fs = 1250 Hz
Fs = 1000 Hz
Fs = 4000 Hz
Fs = 8000 Hz
Fs 2Fi
Kriteria Nyquis
Fi Frekuensi sinyal informasi Fs Frekuensi pencuplikan
H X Y
T 1 = 12000 = 833 x 10-5 s = 833 μs
10 ms = 833μs x N sample N = 120 sample
Bab 2 Teori Penunjang
7
y = H x
y = (1-az-1) xn
y = xn - 095 xn z-1
y = xn ndash 095 xn - 1
214 Frame Blocking
Sinyal wicara yang telah dipreemphasis s (n) diblok dalam M sampel dimana N 2 x M seperti yang
ditunjukkan pada gambar 27 Jika M le N pergeseran frame akan mengalami overlape hasil perkiraan LPC
spectral akan dikorelasikan dari frame 1 ke frame berikutnya Jika M laquo N perkiraan LPC spectral dari satu frame
ke frame lainnya akan sangat halus (smooth) Dan bila M gt N maka tidak akan ada overlape diantara frame yang
berbatasan dan sinyal suara akan hilang sama sekali dan korelasi diantara perkiraan spectral LPC dari frame
yang berbatasan akan berisi komponen noise
Gambar 27 Pergeseran Frame pada Sinyal Suara
dengan M = 13 N
Sehingga didapatkan nilai dari sinyal yang baru adalah sebagai berikut
x1(n) =s(M 1+n) n =012hellipN ndash 1 l = 012hellipLndash1 (24 )
215 Windowing
Merupakan proses membatasi lebar sinyal yang akan dianalisa yang dapat mengurangi efek
diskontinyuitas pada ujung-ujung frame yang dihasilkan oleh potongan-potongan sinyal Korelasi antara lebar
window dalam domain waktu dan amplitude berguna untuk menyederhanakan sinyal dengan mengurangi
puncak sinyalnya
Ada beberapa jenis windowing yang dinamakan sesuai dengan nama penemunya yaitu
Bab 2 Teori Penunjang
8
Window Hamming
052-046 cos[2лn(N-1)] 0 le n le N-1
Wham(n) =
0 elsewhere
Window Hanning
1-cos[2лn(N-1)] 2 0 le n le N-1
Whan(n) =
0 elsewhere
Window Bartlett
1-cos[2лn(N-1)] 2 0 le n le (N-1)2
WB(n) = 2-2n(N-1) (N-1)2lenleN-1
0 elsewhere
Window Blackman
042-05cos[2лn(N-1)]+008cos[4лn(N-1)]0lenleN-1
WBl(n) =
0 elsewhere
216 Fourier Transform
Transformasi Fourier Diskrit (DFT) adalah deretan yang terdefinisi pada kawasan frekuensi ndash diskrit
yang merepresentaskan Transformasi Fourier terhadap suatu deretan terhingga (Finite Duration Sequence) DFT
berperan penting untuk implementasi algoritma suatu varitas pengolah sinyal karena efisien untuk komputasi
berbagai aplikasi
Salah satu contoh aplikasi komputasi DFT dalam algoritma yang efisien yaitu Fast Fourier Transform
(FFT) Efisiensi suatu algoritma ditentukan dari sejauh mana dapat mereduksi jumlah perkalian dan
penjumlahan serta reduksi lalu lintas data pada memori komputer sehingga proses lebih cepat
Pada DFT untuk memproses N buah titik diperlukan (N-1)perkalian kompleks dan N(N-1)
penjumlahan kompleks Bila N cukup besar dibutuhkan memori yang besar dan waktu yang cukup lama Untuk
itu digunakan metode lain yang lebih cepat yaitu metode transformasi fourier cepat (FFT) FFT dilakukan
dengan membagi N buah titik pada transformasi fourier diskrit menjadi 2 masing-masing N2 titik trnsformasi
Pemecahan menjadi dua pada proses transformasi fourier cepat disebut sebagai proses rekombinasi Dua buah
N2 titik transformasi mempunyai 2(N2) = N2 perkalian Proses memecah menjadi dua ini diteruskan dengan
membagi setiap (N2) titik transformasi menjadi dua buah (N4) titik transformasi setiap (N4) menjadi dua buah
Bab 2 Teori Penunjang
9
(N8) titik transformasi dan seterusnya hingga diperoleh junlah titik yang minimum Jika besarnya N merupakan
kelipatan pangkat dari 2 (disebut radiks 2) maka jumlah titik minimum setelah setiap kali dibagi 2 adalah dua
Ada dua macam metode FFT metode Decimation in Time (DIT) dan metode Dicimation in Frekuensi
(DIF) Kedua metode ini hamper sama Pada metode FFT-DIT N buah titik transformasi dibagi 2 menjadi fungsi
ganjil dan genap masing-masing mempunyai N2 titik transformasi Sedang pada metode FFT-DIF N buah titk
transformasi dibagi menjadi fungsi N2 titk yang pertama dan fungsi N2 titik yang kedua
Operasi pada metode FFT-DIT disebut juga metode kupu-kupu Untuk N buah titik transformasi h(n)
algoritma radiks 2 memerlukan proses perkalian dan rekombinasi sebanyak N2 log N transformasi fourier
diskrit Pada metode FFT-DIT operasi dekomposisi dilakukan dengan membagi fungsi h(n) menjadi 2 bagian
fungsi ganjil dan fungsi genap Atau dengan pernyataan matematika h1(n) dan h2(n) yang masing-masing adalah
untuk n genap dan n ganjil
Prinsip FFT dengan metode DIT adalah seperti pada gambar 24 berikut ini
Gambar 28 Blok metode FFT-DIT 8 titik
7
Pada gambar di atas merupakan jumlah perkalian kompleks N2 log N juga jumlah penjumlahan
kompleks = N2 log N
217 Linear Prediction Code
Ide dasar dari LPC adalah bahwa pada model ini memberikan sampel suara pada domain waktu yang
bisa didekati sebagai kombinasi linear dari sampel suara yang telah lalu
Teori Linear Prediction Coding (LPC) yang diaplikasikan pada wicara telah dimengerti selama
beberapa tahun Pada bagian ini akan dijelaskan dasar dari bagaimana LPC diaplikasikan pada sistem pengenlan
wicara
Sebelum menjelaskan LPC secara umum sebagai pemrose front-end untuk pengenalan wicara perlu
diketahui alasan mengapa LPC sangat banyak digunakan yaitu
1 LPC menyuguhkan model yang bagus untuk sinyal wicara
2 Cara yang digunakan LPC untuk analisa sinyal wicara sangat beralasan untuk pemisahan track dari
sumber vocal
3 LPC adalah model traktabel secara analitis
Bab 2 Teori Penunjang
10
4 Model LPC bekerja dengan baik pada aplikasi pengenalan
2171 Autocorrelation Analysis
Masing-masing frame sinyal yang telah diwindow kemudian di-autokorelasikan dengan menggunakan
persamaan
N-1-M
r1(m) = sum x1(n) x1(n+m) m = 0 1 p ( 25) (25)
n = 0
dimana nilai autokorelasi tertinggi p adalah orde dari analisi LPC Pada umumnya nilai dari p yang
sering digunakan adalah dari 8 sampai 16 Sisi menguntungkan dari analisis autokorelasi adalah bahwa
autokorelasi ke-0 R1 (0) adalah energi dari frame ke-1 Energi dari frame merupakan parameter
penting untuk system deteksi wicara
2172 LPC Analysis
Langkah selanjutnya adalah analisis LPC dimana mengkonversi masing-masing frame dari
auto korelasi p+1 ke dalam sebuah ldquoLPC Parameter Setrdquo dimana kumpulan itu merupakan koefisien
LPC koefisien refleksi atau PARCOR koefisien log area ratio koefisien Cepstral atau beberapa
transformasi pada kumpulan tersebut
Metode yang formal untuk mengkonversi dari koefisien autokorelasi ke sebuah LPC parameter
set (untuk metode autokorelasi) dikenal sebagai Metode Durbin dan secara formal dapat ditunjukkan
pada algoritma berikut ini
E(0) = r(0) ( 26)
Ki=r(i)-sumαj(i-1) r(|i-j|)E(i-1) 1 le I le p ( 27)
αi(i) = ki (28)
αj(i) = αj
(i-1)-ki α(i-1) ( 29)
t-j
E(i)=(1-ki2)E (i-j) (210)
dimana penyajian akhir dari persamaan mengabaikan i=1 Kumpulan dari persamaan hellipdiselesaikan secara
rekursif untuk i=12hellipp dan penyelesaian akhir diberikan sebagai
am=koefisien PC=αm 1lemlep ( 211)
7 Agus Wahyudi Verifikasi Sinyal Suara Sebagai Kendali Arah TA PENS-ITS 2002
Bab 2 Teori Penunjang
11
km=koefisien PARCOR ( 212)
1 - km
gm=koefisien log area ratio = log ----------- ( 213)
1 + km
2173 LPC Parameter Corversion to Cepstral Coefficients
Sekumpulan parameter LPC yang sangat penting yang dapat diturunkan langsung dari kumpulan LPC
adalah koefisien cepstral LPC c(m) Rekursif yang digunakan adalah
co = ln σ2 ( 214)
m-1
cm = am + sum ck am-k 1 le m le p ( 215)
k = 1
m-1
cm = sum ck am-k m gt p
k = 1
dimana σ2 adalah penguatan dalam model LPC Koefisien cepstral koefisien yang direpresentasikan dengan
fourier transform dengan spectrum besaran log telah ditampilkan menjadi kumpulan fitur untuk pengenalan
wicara yang lebih handal terpercaya daripada koefisien LPC koefisien PARCOR atau koefisien log area ratio
218 Dynamic Time Wraping
Dynamic Time Wraping (DTW) merupakan cara untuk membandingkan pola wicara dalam menentukan
kesamaan jarak antara pola-pola yang berbeda Dimana pengenalan wicara merupakan proses secara otomatis
dalam mengambil dan menentukan informasi linguistic yang disampaikan dengan gelombang wicara
menggunakan komputer atau sirkuit elektronik Informasi linguistic tersebut pada akhirnya akan
direpresentasikan dengan deretan waktu vektor-vektor spektral
Metode nolmalisasi waktu menggunakan dua buah fungsi warping
ix = Фx (k) k = 123hellipT (216)
iy = Фy (k) k = 123hellipT
2181 Dynamic Programming
Dynamic Programming (DP) digunakan untuk memecahkan masalah deteksi pengurutan kemampuan
menggunakan pola pengenalan wicara dan masalah waktu penjajaran dan normalisasi Ada dua tipe masalah
penggunaan Dynamic Programming yaitu
(
)
k m
( )
K m ( )
Bab 2 Teori Penunjang
12
1 Masalah jalan optimal dengan menganggap sekumpulan titik mulai dari 1 sampai dengan N yang
dihubungkan dengan pasangan setiap dari titik (ij) Representasi perpindahan secara langsung dari titik
ke-1 ke titik yang lainnya Rentetan perpindahan tersebut tidak mempunyai bilangan yang ditetapkan
dari transisi satu titik ke titik yang lainnya hal ini disebut rentetan keputusan asinkron
Dengan Terminologi sederhana kita membuat garis keputusan untuk menetukan titk berikutnya setelah
kebijaksanaan pada titik i
Prinsip dari optimalisasi yang merupakan kelas dasar dari algoritma komputasi untuk optimasi masalah
di atas berdasarkan pernyataan Bellman
rdquoKebijakan optimasi yang memiliki sifat apapun ketetapan dan ketentuannya keputusan berikutnya
harus merupakan hasil ketetapan dari keputusan yang pertamardquo
2 Masalah keputusan rentetan sinkronisasi terdapat perbedaan dari satu sinkronisasi yang beraturan dari
proses keputusan
Penggunaan teknik Dynamic Programming pada Dynamic Time Warping untuk pertama kali dilakukan
oleh Slutsker (1968) Vintsyuk (1968) dan Volichko (1971) dari Jepang untuk pengenalan wicara Pada proses
ini pembicara mengucapkan kata yang sama dengan durasi berubah setiap waktu dengan ekspansi yang non
linier Oleh karena itu Dynamic Time Wraping adalah tahap yang penting dalam proses pengenalan kata Proses
DTW mengalami pengembangan pada sumbu waktu untuk mencocokan posisi phonemkata yang sama antara
input wicara dan referensi template
Dynamic Programing secara umum digunakan untuk memecahkan masalah rentetan keputusan yang
dilakukan pada bidang kisi sebagaimana ditampilkan pada gambar 27 Sinyal yang dicocokkan adalah A dan B
Di dalam bidang kisi sinyal A disesuaikan sepanjang sumbu ndashx dan sinyal B disesuaikan sepanjang sumbu ndashy
Setiap antar bagian pada bagian ini ditetapkan sebagai sebuah simpul atau titik dimana titik (ij) adalah
pencocokan frame I untuk sinyal A dengan frame j untuk sinyal B Misalnya diasumsikan dua rentetan waktu
untuk vektor utama yang dibandingkan sebagai berikut
A = a1a2hellipaI dan B = b1b2hellipbJ
Dengan menganggap rentang bidang antara A dan B sebagaimana ditunjukkan pada gambar 27
fungsi pelengkungan waktu yang sesuai menunjukkan waktu antara rentetan A dan B dapat dipresentasikan
sebagai rentetan titk-titik Lattice pada bidang c = (ij) sebagai berikut
Bab 2 Teori Penunjang
13
Gambar 29 Plane jaringan untuk ilustrasi
pemrograman dinamik8
Bilamana jarak spektral antara dua vektor utama a1 dan b1 direpresentasikan oleh d(c) = d(ij) penjumlahan
jarak dari awal sampai akhir dari rentetan sepanjang F dapat direpresentasikan dengan
K
sum d(ck)wk
k=1
D(F) = mdashmdashmdashmdashmdash (217)
K
sum wk
k=1
Semakin kecil nilai ini semakin baik kecocokan antara A dan B Dimana wk adalah fungsi pembobotan
positif terhadap F
Dengan memperkecil persamaan di atas dengan kondisi berikut
1 Kondisi monotonisasi dan kontinuitas
0 le ik-ik-1le1 0 lejk ndash jk -1 le 1 ( 218)
2 Kondisi perbatasan
I1=j1=Iik=Ijk=I (219)
3 Kondisi adjustmen window
|ik ndash jk|ler r=konstan ( 220)
Pendefinisian wk sedemikian rupa sehingga menyebut pada persamaan 219 menjadi konstan yang
tidak tergantung pada F Untuk contoh jika
Wk = (ik ndash ik -1)+(jk ndash jk -1)(i0=j0=0) wk akan menjadi
8 Ibid hal 15
Bab 2 Teori Penunjang
14
K
sum wk = I + J (221) k=1
dan persamaan 219 menjadi
1 K
D(F)= mdashmdash sum d(ck)wk ( 222)
I + J k=1
Gambar 210 DTW antara dua rentetan waktu A dan B
9
Karena fungsi obyektif yang akan diminimasi menjadi penjumlahan maka peminimisasi secara efisien
dapat diselesaikan tanpa harus menguji semua kemungkinan untuk F Penjumlahan pada sebagian rentetan c1
c2 hellip ck (ck=(ij)) adalah
(224)
Penurunan pemrograman dinamik pada persamaan-persamaan diatas penggunaan kondisi untuk F dan
formulasi perumusan wk persamaan 2115 dapat dituliskan kembali sebagai berikut
9 Ibid hal 17
Bab 2 Teori Penunjang
15
g(ij-1)+d(ij)
g(ij) = min g(i-1j-1) + 2d (ij) (225)
g(i-1j) +d(ij)
Oleh karena itu jarak antara dua rentetan waktu A dan B setelah DTW dapat diperoleh sebagai berikut
Kita set dari kondisi awal untuk g(11)=2d(11) dan j=1 dan hitung persamaan 2116 dengan variasi I dalam
sepanjang adjustment window Perhitungan ini diulangi dengan menaikkan j sampai j=1 Jarak keseluruhan
antara dua rentetan waktu A dan B dapat diperoleh dari g(IJ)(I+J)
2182 Batasan Normalisasi Waktu
Supaya proses normalisasi waktu mempunyai arti pada perbedaan batasan dengan berbagai variasi
interval waktu dibutuhkan beberapa batasan terhadap fungsi warping
2183 Batasan Titik Awal Akhir
Bilamana pola wicara yang dibandingkan merupakan tuturan per kata maka harus memenuhi syarat pola
mulai dari titik awal sampai titik akhir dari tanda permulaan dan pengakhiran pola wicara Titik awal dan akhir
mempunyi batasan yang membatasi pola wicara harus dipenuhi
Titik awal Фx(1) = 1 Фy(1) = 1 (226)
Titik akhir Фx(T) = Tx Фy(T) = Ty (227)
2184 Kondisi Monotonisasi
Rentetan pola spectral pada wicara sangat penting dalam menentukan arti linguistic sehingga tidak
akan hilang Untuk mempertahankan pola tersebut harus memenuhi
Фx(k + 1) ge Фx(k) (228)
Фy(k + 1) ge Фy(k)
22 Awal dan Akhir Sinyal Suara
221 Power
Sinyal suara yang diolah haruslah merupakan sinyal suara murni dan tidak bercampur dengan noise
ataupun header tail yang dibawa oleh suara saat perekaman apalagi jika pengenalan sinyal suara dengan jumlah
vocabulary yang besar Oleh karena itu sinyal suara hasil perekaman harus dicari nilai awal dan akhirnya agar
pengolahan sinyal suara tersebut menjadi lebih valid
Dan salah satu cara dalam menentukan nilai awal dan akhir dari sinyal suara adalah dengan
menggunakan power yang mempunyai persamaan sebagai berikut
( )
Bab 2 Teori Penunjang
16
239
p= sumradic xt2 (229)
t=0
Sinyal suara yang dibagi menjadi beberapa frame mempunyai power dari tiap framenya yang kemudian
didapatkan nilai rata-ratanya yang kemudian diperoleh nilai awal dan akhirnya dengan menambahkan 3 kali
standart deviasi Dimana penentuan awal dan akhir dari sinyal suara dapat diperoleh dengan
p ge p + 07 standart deviasi
Power
0
20000
40000
60000
80000
100000
120000
140000
160000
0 10 20 30 40 50 60
Jumlah Frame
Am
pli
tud
o
Gambar 211 Bentuk power dari kata
Nilai beberapa kali hasil percobaan
222 Unvoiced Plosive
Pada suatu sinyal suara yang terekam terdapat pemutusan sinyal atau kondisi kosong yang bukan
merupakan noise tetapi masih didalam lingkup suara Tapi kondisi ini hanya terjadi pada kebanyakan sinyal
suara yang terdapat konsonan tertentu yaitu sinyal suara dari kata yang mempunyai konsonan p t k Kondisi ini
disebut Unvoiced Plosive atau loncatan sinyal suara setelah kondisi kosong seperti ditunjukkan pada gambar
berikut
Gambar 212 Unvoiced Plosive
Bab 2 Teori Penunjang
17
Dan untuk penentuan awal dan akhir daerah kosong tersebut harus diperhitungkan agar didapatkan
nilai awal dan akhir dari sinyal suara yang valid yaitu dengan mencari nilai rata-rata dari daerah kosong dari
beberapa sinyal suara Kemudian dengan dicari nilai thresholdnya yaitu nilai terpanjang dari daerah kosong
sebesar 2 dari seluruh daerah kosong yang telah dihistogram
23 JARINGAN DENGAN TCPIP
Meskipun hubungan computer melalui serial dan parallel telah ada sejak lama multijaringan belum
menjadi masalah serius bagi para peneliti di bidang jaringan sampai awal tahun 1980 Perkembangan teknologi
LAN itu sendiri didasarkan banyak alasan Salah satu yang menjadi alasan utama adalah adanya perusahaan
yang ingin melakukan sharing data file printer dan resource lainnya ke pc lain
231 Mengenal TCPIP
Sebelumnya kita definisikan lebih dahulu apa yang dimaksud protocol itu Bila dua computer ingin
melakukan komunikasi keduanya tentu saja harus menggunkan bahasaturan yang sama Aturan-aturan inilah
yang disebut protocol Misalnya untuk mengirim mail digunakan protocol SMTP berhubungan dengan WWW
menggunakan HTTP dan sebagainya Jadi protocol merupakan aturan dalam melakukan komunikasi
TCPIP ( Transmission Control Protocol Internet Protocol) merupakan protocol yang bersifat open
networking Maksudnya semua penjelasan teknis tentang protocol tersebut diumumkan karena ada juga
mekanisme jaringan yang menyembunyikan detail dari sistemnya Hal inilah yang membuat TCPIP menjadi
terkenal
Adapun keuntungan dengan menggunakan protocol TCPIP adalah kemudahannya karena
memungkinkan hubungan antara berbagai system operasi dan berbagai jenis computer (platform)
TCPIP bukanlah protocol tunggal tetapi merupakan sekumpulan protocol sehingga lebih tepat disebut
sebagai keluarga TCPIP Setiap protocol pada TCPIP memiliki tugas tertentu yang berbeda Semua protocol
tersebut menggunakan protocol primer untuk mengirimkan paket data Protocol primer tersebut adalah TCP dan
IP
Protokol lainnya dapat dikelompokkan berdasarkan tujuannya sebagai berikut
1 Transport
Digunakan untuk mengatur perpindahan data antara dua mesin Antara lain
- TCP (Transmission Control Protocol)
- UDP (User Datagram Protocol)
2 Routing
Digunakan untuk pengalamatan data dan menentukan rute terbaik antara lain
- IP (Internet Protocol)
- ICMP (Internet Control Message Protocol)
- RIP (Routing Information Protocol)
Bab 2 Teori Penunjang
18
3 Network Address
Menangani bagaimana suatu mesin diberikan suatu alamat antara lain
- ARP ( Address Rwesolution Protocol)
- DNS ( Domain Name Sistem)
- RARP (Reverse Address Resolution Protocol)
4 User Service
Merupakan aplikasi yang harus diakses user antara lain
- FTP ( File Transfer Protocol)
- TFTP (Trivial File Transfer Protocol)
- TELNET
5 Gateway Protocol
Untuk membentuk proses komunikasi routing dan status informasi antara lain
- EGP (Exterior Geteway Protocol)
- GGP (Gateway to Gateway Protocol)
- IGP (Interior Gateway Protocol)
232 Koneksi TCPIP
Untuk mengkonfigurasi TCPIP maka dibutuhkan
Alamat IP
Alamat IP ini sebagai pengenal atau alamat mesin Karena setiap mesin yang terhubung jaringan
harus memiliki penganal yang unik sehingga memungkinkan melakukan routing Jaringan dengan TCPIP
menggunakan pengalamatan 32 bit sebagai alamat atau pengenal setiap mesin yang terkoneksi dengan jaringan
Pengenal ini disebut alamat IP Pesan atau data yang dikirim melalui TCPIP menggunakan alamat IP ini untuk
mengenali mesin pengirim dan penerimanya
Biasanya alamat IP dapat dikelompokkan menjadi dua bagian yaitu
1 Nomor Network
2 Nomor Device dalam Network tersebut
Alamat IP tersebut dipisahkan menjadi empat bagian yang masing-masing berukuran 8 bit Empat
bagian tersebut dipisahkan oleh tanda titik dan setiap bagian tersebut memiliki angka 0-255 Contohnya
192168101
Pemberian alamta IP umumnya ditentukan berdasarkan ukuran dari jaringan tersebut Jaringan
dapat diklasifikasikan menjadi tiga kategori yaitu kelas A kelas B kelas C Ketiga kelas tersebut membagi
pengalamatan 32 bit dengan ukuran berbeda untuk nomor Network dan Host
Pengalamatan pada kelas A memungkinkan bagian ini memiliki angka dari 0-127 Sedangkan
pengalamatan B memungkinkan memiliki angka dari 128-191 pengalamatan pada kelas C memungkinkan
memiliki angka dari 192-223
Network Mask
Bab 2 Teori Penunjang
19
Network mask merupakan alamat IP dimana lamat networknya diset ke nilai 255 Jika alamat IP
termasuk kelas A maka network masknya yaitu 255000 Jika alamat IP termasuk kelas B maka network
masknya yaitu 25525500 Jika alamat IP termasuk kelas C maka network masknya yaitu 2552552550
AlamatNetwork
Alamat network ini dapat diperoleh dari alamat IP dimana bit-bitnya dilakukan operasi AND
dengan network mask Dengan demikian untuk network kelas B dengan IP 192168101 maka alamat
networknya adalah 19216800
Alamat Broadcast
Alamat broadcast dibutuhkan bila suatu mesin ingin mengirimkan paket yang sama ke semua
device pada jaringan
Alamat Gateway
Alamat gateway merupakan alamat IP dari mesin yang menghubungkan jaringan dengan jaringan
di luar misalnya internet Pada umumnya alamatgateway memiliki IP yang sama dengan mesin yang kita miliki
tetapi mempunyai nomor device 1 Dengan demikian untuk network kelas B dengan alamt IP 192168101
alamat gatewaynya adalah 19216811
Alamat Nameserver
Jaringan-jaringan besar umumnya memiliki sebuah mesin untuk mentranslasikan alamat IP menjadi
nama yang lebih mudah dikenal manusia Misalkan sebuah mesin dengan IP 192168101 dapat diberi nama lain
seperti puspacsuiacid sebagai alamatnya Proses translasi ini dilakukan dengan system yang dikenal dengan
nama Domain Name System (DNS)
24 BEKERJA DENGAN SOCKET
Komponen socket program yang dapat membantu dalam pembuatan suatu aplikasi yang berkomunikasi
antara suatu system computer dengan system computer yang lain dengan menggunakan protocol TCPIP dan
protocol lain yang terhubung
241 Pengertian Socket Program
Pada sub bab ini akan dijelaskan tentang komoponen socket program yang dapat berkomunikasi antara
system computer dengan system computer yang lain dengan menggunakan protocol TCPIP dan protocol lain
yang terhubung Dengan socket program ini kita dapat membaca dan menulis pada hubungan ke mesin yang lain
tanpa mengalami kesulitan pada software jaringan Socket program dapat mengadakan hubungan berbasis
protocol TCPIP tetapi dapat juga bekerja umunya dengan protokol-protokol yang terhubung seperti Xerox
Network System (XNS) dan yang lain
Bab 2 Teori Penunjang
20
242 Penjabaran Socket
Socket mengijinkan aplikasi jaringan kita berkomunikasi dengan sistem lain di luar jaringan
Masing- masing socket bisadipandang sebagai titik akhir dalam suatu koneksi jaringan Socket tersebut memiliki
spesifikasi sebagai berikut
a) Sistem yang sedang dijalankan
b) Tipe interface port yang digunakan
Penjelasan lengkap dari sebuah koneksi socket terdiri dari address socket pada kedua titik akhir
koneksi Kita akan menguraikan address dari masing- masing titik akhir socket dengan memberi nomor IP
address atau host dan port
Sebelum membuat koneksi socket sebelumnya harus menguraikan dengan lengkap socket-socket
yang membentuk titik akhir Beberapa informasi tersedia dari sistem aplikasi yang dijalankan Sebagai contoh
kita tidaka akan membutuhkan IP Address Local dari socket client sebab informasi ini terdapat pada sistem
operasi
Informasi yang akan kita berikan bergantung pada tipe socket yang sedang bekerja Socket client
harus menggambarkan port yang merepresentasikan layanan yang mereka berikan
243 Memilih Host Name dan IP Address
Kebanyakan aplikasi menggunakan host name untuk merinci sebuah system Host Name mudah
untuk diingat dan dicek Menggunakan host name memungkinkan socket client untuk menemukan situs abstrak
yang diwakili oleh nama host meskipun telah dipindah ke IP Address yang baru Jika nama host tidak diketahui
socket client akan akan menyatakan system server sedang menggunakan IP Addressnya Ketika kita
menyediakan host name socket akan mencari IP Address yang berhubungan dengan host name sebelum socket
tersebut dapat menempatkan pada sistem server
Bab 3 Perencanaan dan Implementasi
21
BAB 3
PERENCANAAN DAN IMPLEMENTASI
31 Pendahuluan
Pada bab ini akan dijelaskan mengenai pengolahan sinyal wicara untuk mendapatkan ciri setiap
individu Juga akan dibahas mengenai pengolahan hasil keluaran sinyal wicara untuk ditransmisikan ke PC lain
(lewat jaringan) Dan selanjutnya akan dibahas pula mengenai plan atau obyek yang dalam hal ini adalah lampu
pijar
Berikut ini adalah blok diagram sistem secara keseluruhan
Gambar 31 Blok Diagram Sistem Secara Keseluruhan
Speaker pada gambar 31 memberikan suaranya sebagai masukan lewat mikrofon Masukan ini
akan diolah dalam PC client mulai dari proses sampling frame windowing FFT LPC Kemudian hasil dari
LPC dicari pemadanan dengan LPC dari sinyal standar yang telah tersimpan sebagai data base di dalam PC
client Hasil dari DTW tersebut akan dikirimkan ke PC server melalui TCPIP untuk diproses menjadi suatu
perintah ke perangkat keras Perintah tersebut merupakan bentuk implementasi dari perintah yang diberikan dari
PC client
Sebaliknya dengan adanya perubahan kondisi pada peralatan yang diinginkan maka terjadi sinyal
balikan yang berupa sinyal DTMF yang dikirimkan oleh perangkat keras ke PC server Oleh PC server sinyal ini
diolah untuk dikenali sebagai suatu kondisi tertentu yang akan dikirimkan ke PC client sebagai laporan tentang
kondisi alat yang diinginkan
32 Sistem Pengolahan Sinyal Wicara
321Perekaman Suara
TCPIP
Pengucap Speaker ADC Pengolahan Wicara dan Monitoring
Peralatan yang terkontrol
LAN Card
LAN Card
Pengenalan Pola Pengiriman Tone DTMF dan Pengenalan DTMF Sebagai Laporan
DTMF Decoding DTMF Generator Sistem Switching
Alat Terkontrol
Bab 3 Perencanaan dan Implementasi
22
Perekaman suara dilakukan menggunakan software berbasis TclTk 830 dan Snack22 Sebelumnya
akan dijelaskan satu per satu program yang dipakai
o TclTk 830
Tcl kepanjangan dari Tool Control Language Tk adalah Graphical Toolkit extension dari Tcl yang
menyediakan bermacam-macam item standar antarmuka GUI untuk memfasilitasi secara cepat pengembangan
aplikasi tingkat tinggi
o Snack22
Snack adalah tool pengolahan suara yang didesain sebagai extensi untuk bahasa script Saat ini Snack bekerja
dengan bahasa script TclTk Phyton dan Ruby Snack memiliki perintah-perintah untuk play record process
dan dan memvisualisasi suara Snack menyediakan obyek suara tingkat tinggi dengan manajemen penyimpanan
yang fleksibel dan streaming support Snack dapat bekerja pada banyak format file suara
Kita dapat membangun aplikasi sepaerti di bawah ini dengan integrasi dari TclTk dan Snack
Gambar 32 Program aplikasi pengenalan wicara
Frekuensi sampling pada program di atas diset pada frekuensi 12 kHz Frekuensi ini dipilih karena biasa
digunakan untuk voice Selain itu juga diset pada channel Mono dan sinyal encoding LIN 16 (resolusi 16 bit
PCM) Pada penekanan tombol ldquorecordrdquo diikuti tombol ldquostoprdquo dan kemudian tombol ldquostandartrdquo maka akan
dimulai proses perekaman yanag akan digunakan untuk membuat file standar untuk kedelapan perintah yang
akan digunakan untuk pembanding sinyal masukan
Adapun proses untuk sistem yang akan dibuat dapat digambarkan dengan diagram alir seperti di bawah
Bab 3 Perencanaan dan Implementasi
23
Mulai
Package Require
Snack 22
Exit
Program On
Running
Recording
Sound Card
Produser Running
Prosedur Recording
DTMF
Keluar
Tidak
YaTidak
Ya
Ya
Ya
Ya
Tidak
Tidak
Tidak
Gambar 33 Flowchart Sistem Graphical User
Interface
322 Sampling
Seperti telah dijelaskan di depan bahwa frekuensi sampling yang digunakan adalah sebesar 12000Hz
dimana dalam 1 detik sinyal terdapat 12000 titik sampling Sebagai contoh seperti gambar di bawah ini suatu
sinyal epanjang 20 ms disampling 12000 Hz menghasilkan titik sampling sebanyak 240 titik
Data Sampling
-20000
-15000
-10000
-5000
0
5000
10000
15000
20000
0 200 400 600
Amplitudo
Jumlah Data
Gambar 34 Sinyal hasil sampling dengan
frekuensi 12000 Hz
Bab 3 Perencanaan dan Implementasi
24
Mulai
Sinyal Masukan
Baca Panjang Sinyal
Bagi Menjadi N Frame
i = 0 i lt N i++
Ambil 240 Data Sampel
Tampilkan Nilai
Sampel
Selesai
Gambar 35 Flowchart Proses Sampling
323 Pre-emphasis
Agar spektrum sinyal merata di semua frekuensi dan mencegah kehilangan informasi akibat pembulatan
pada saat komputasi maka dilakukan prose preemphasis Fungsi transfer preemphasis adalah
H(z) = 1 ndash a z-1 09 le a le 1 (31)
Dimana nilai a berkisar 095 Berdasarkan model filter di atas maka keluaran dari preemphasis adalah
s(n) = s(n) ndash a s(n-1) (32)
324 Frame Blocking
Hasil perekaman merupakan sinyal dalam domain waktu yang bersifat variant time (fungsi yang
bergantung pada waktu) Sinyal yang telah dipreemphasis kemudian dibagi menjadi n buah frame Dengan
jumlah sample per frame sebesar N dan adjacent frame sebesar M sample Dimana M=05N Pada frame
pertama terdiri dari N buah sampel Frame kedua dimulai pada sampel ke M sehingga terjadi overlape sebesar
N - M sampel Begitupula untuk frame yang ketiga dimulai dari sample ke 2M sehingga terjadi overlape dari
farme kedua sebesar N + M-2M sampel juga Hal ini akan terus berlangsung hingga seluruh sinyal terbagi
menjadi beberapa frame
Bab 3 Perencanaan dan Implementasi
25
Gambar 36 Frame blocking sinyal
325 Windowing
Windowing yang digunakan adalah window hamming Setelah proses pengambilan sample maka
langkah selanjutnya adalah proses selanjutnya adalah proses windowing yang berfungsi untuk mengurangi efek
diskontinyuitas pada ujung-ujung frame Persamaannya adalah sebagai berikut
y[i] = x[i](054-046cos(20314159265(i-1)240) (33)
Flowchartnya bisa dilihat seperti di bawah
Mulai
240 Data
Sampel
i= 0 i lt 240 i++
Hamming Window
y[i] = x[i](054-046cos(2phi(i-1)
240))
Tampilkan
nilai
Hamming
Selesai
Gambar 37 Flowchart Proses Windowing
326 Fast Fourier Transform
Transformasi fourier cepat (FFT) adalah suatu metode yang sangat efisien untuk menyelesaikan
transformasi fourier diskrit (DFT) yang banyak dipakai untuk keperluan analisa sinyal Sehingga dengan FFT
N N N M
M N
N N
M
Bab 3 Perencanaan dan Implementasi
26
sinyal yang disampling dalam domain waktu ditransformasikan ke domai frekuensi dengan menggunakan
persamaan sebagai berikut
N-1
H(k) = sum h(n)e-j2лkN (34)
n=0
dengan k= 012N-1
Prosesnya dapat dilihat dari flowchart di bawah
Mulai
240 data
sampel
256 data sampel
i=0 ilt256 i++
tmp_log1=(xr[k]xr[k]+xc[k]xc[k])
tmp_log gt 0
xr[k]=10log10(tmp_log1)
Tampilkan
nilai
hamming
Selesai
xr[k]=10log10(0000001)
Ya
Tidak
Gambar 38 Flowchart Proses Fast Fourier
Transform
327 Autocorrelation analysis
Hasil dari windowing sinyal masukan kemudian dihitung autokerelasinya dengan persamaan
N-1-m
r1(m) = sum x1(n)x1(n+m) m=01p (35)
n=0
dimana niali autokorelasi tertinggi p adalah orde dari analisis LPCPada umumnya nilai dari p yang sering
digunakan adalah dari 8 sampai 16
Proses Autokorelasi dapat dilihat dari flowchart di bawah ini
Bab 3 Perencanaan dan Implementasi
27
Mulai
240 data p lpc
orde
i=0 iltp i++
j=0 jlt240-p-1 j++
RI[j]=sum(xI[i]xI[i+j])
Tampilkan nilai
autocorrelation
Selesai
Gambar 39 Flowchart Proses Autokorelasi
328 LPC Analysis
Hasil koefisien autokorelasi kemudian dikonversikan ke sebuah LPC parameter set (untuk metode LPC
autokorelasi) dikenal sebagai Metode Durbin dan secara formal ditunjukkan dari algoritma sebagai berikut
E(0) = r(0) (36)
ki=r(i)-sumαj(i-1) r(|i-j|)E(i-1) 1 le I le p (37)
αi(i) = ki (38 )
αj(i) = αj
(i-1)-ki α(i-1) ( 39)
t-j
E(i)=(1-ki2)E (i-j) (310)
dimana penyajian akhir dari persamaan 37 mengabaikan i=1 Kumpulan dari persamaan 36 -310 diselesaikan
secara rekursif untuk i=12p
Proses analisis dapat dilihat dari flowchart di bawah
Bab 3 Perencanaan dan Implementasi
28
Mulai
Autocorrelationr
p lpc orde
E (0) = r(0)
k1
= r(i)-sumalpha j (i-1) r( | i-j|E(i-1)
alpha j (i) = k
i
alpha j
(i) = alpha (i-1) -k i alpha
i-j (i-1)
E (i) = 1-k i 2) E(i-1)
Tampilkan nilai
parameter lpca
Selesai
i=0 iltp i++
Gambar 310 Flowchart proses LPC analisis
329 LPC Parameter to Cepstrum Analysis
Sekumpulan parameter LPC yang sangat penting yang dapat diturunkan langsung dari kumpulan
koefisien LPC adalah koefisien cepstral LPC c(m) Rekursif yang digunakan adalah
co = ln σ2 ( 311)
m-1
cm = am + sum ck am-k 1 le m le p (312)
k = 1
m-1
cm = sum ck am-k m gt p ( 313)
k = 1
Proses LPC parameter ke Cepstrum Analysis dapat dilihat dari flowchart di bawah ini
k m ( )
k m ( )
Bab 3 Perencanaan dan Implementasi
29
Mulai
lpc parameter a
p lpc orde
c o = ln del 2
1 lt=mlt=p
i=0 iltp i++
Cm
= am
+sum((km)Ck a
m-kC
m =sum((km)C
ka
m-k)
Tampilkan nilai lpc
cepstrumc
Selesai
Gambar 311 Flowchart Proses LPC parameter ke
Cepstrum
3210 Dynamic Time Warping
Proses yang terjadi pada Dynamic Time Warping adalah pengukuran jarak suara antara sinyal standart
dan sinyal input Yang diukur berupa deretan nilai dari hasil LPC Cepstrum dalam bentuk kolom dan baris (ij)
yang disimpan dalam satu file Pada kolom berisi nilai tiap cepstrum sedangkan baris berupa banyaknya frame
Teknik yang digunakan dinamakan Dynamic Programming Alur kerjanya dapat dilihat dari flowchart di bawah
Bab 3 Perencanaan dan Implementasi
30
Mulai
i=0 iltN i++
j=0 jlt15 j++
Cepstrum
Standart
Std_Ceps [i][j]
Cepstrum
Input
Inp_Ceps [i][j]
DP_dist = DP_match1(r)
DP_dist
Selesai
Gambar 312 Flowchart Proses Dynamic Programming
33 Awal dan Akhir Sinyal suara
331 Power
Untuk mendapatkan suatu sinyal suara tanpa adanya noise maka sinyal harus benar-benar dipotong
tepat pada awal dan akhirnya Oleh karena itu dipakai power sebagai salah satu cara yang efektif dalam
menentukan awal dan akhir suatu sinyal suara
Dimana tiap frame mempunyai power yang merupakan hasil kuadratisasi dari penyampelan tiap frame
yang kemudian hasil keseluruhan diakarkan seperti bisa dilihat pada flowchart di bawah
Bab 3 Perencanaan dan Implementasi
31
Mulai
Power = 0
i=0 ilt240 i++
Power=Power+sqrt(xixi)
Selesai
Gambar 313 Flowchart Proses Power
Jumlah sample per frame ditetapkan sebesar 240 sampel Kemudian dicari power masing-masing antara sinyal
utuh dan sinyal noise kemudian dengan p ge p + 07 standar deviasi maka didapatkan awal dan akhir sinyal
suara
332 Unvoiced Plosive
Adanya daerah kosong menyebabkan sinyal tidak valid dalam pemotongan awal dan akhirnya karena
bisa dianggap noise padahal berada dalam sinyal suara ( merupakan bagian dari sinyal suara) Oleh karena itu
dicari mean dari 25 kata sinyal suara yang kemudian dicari nilai thresholdnya sebagai panjang akhir dari daerah
kosong Dan nilai tersebut diikutsertakan dalam looping dan jika setelah itu terdapat sinyal kembali maka
berarti masih ada sinyal suara dan jika tidak ada berarti tidak ada sinyal suara
34 Proses Pada Client
Preses pada client dapat dijelaskan sebagai berikut
Gambar 314 Blok diagram proses client
Penjelasan dari blok digram tersebut adalah
1 Pertama adalah perekaman suara pada software recording yang hasilnyadisimpan dalam bentuk file
berekstensi ldquowavrdquo File ini selanjutnya akan dijadikan file input pada sistem client
2 File suara yang telah tersimpan diolah dalam program sampling untuk mendapatkan sinyal suara dalam
bentuk frame Setiap frame terdiri dari 120 sampel
Mic Extract AD Voice Dikenali
Bab 3 Perencanaan dan Implementasi
32
3 Tiap frame diwindow dengan window Hamming untuk mengurangi efek diskontinyuitas pada ujung-
ujung frame
4 Sinyal hasil window yang masih dalam domain time diubah ke dalam domain frekuensi dengan Fast
Fourier Transform (FFT)
5 Hasil dari windowing sinyal masukan kemudian dihitung autokerelasinya
6 Hasil koefisien autokorelasi kemudian dikonversikan ke sebuah LPC parameter set (untuk metode LPC
autokorelasi) Sekumpulan parameter LPC yang sangat penting yang dapat diturunkan langsung dari
kumpulan koefisien LPC adalah koefisien cepstral LPC
7 Selanjutnya dilakukan proses DTW (Dynamic Time Warping) pengukuran jarak suara antara sinyal
standart dan sinyal input Hasilnya disimpan dalam sebuah file berekstensi ldquotxtrdquo
8 File berekstensi txt tersebut ke server sebagai sinyal suara input
35 Proses Pada Server
Proses pada server dapat dijelaskan sebagai berikut
Gambar 315 Blok diagram proses server
Penjelasan dari blok diagram tersebut adalah
1 Isi file berekstensi rdquotxtrdquo diterima oleh server dan digunakan sebagai data input untuk memanggil
database tone DTMF yang sesuai sebagai pengoperasian alat yang akan dikontrol
2 Alat yang terkontrol akan menunjukkan hasilnya
Memanggil
Database
Tone
Dikode
kan
dalam
biner
Kirim
ke HW
Kontrol
Alat
Input
server
Bab 4 Pengujian dan Analisa
33
BAB 4
PENGUJIAN DAN ANALISA
41 Pendahuluan
Untuk mengetahui tingkat keberhasilan dari suatu sistem diperlukan pengujian keseluruhan dari
perencanaan hasil sistem yang telah dibuat Dalam bab ini akan dijelaskan mengenai hal tersebut
Pengujian yang akan dilakukan adalah
1 Pengujian dan analisa sistem pengolahan sinyal wicara
2 Pengujian dan analisa sistem client server
3 Pengujian dan analisa awal dan akhir sistem pengolahan wicara
42 Pengujian dan Analisa Sistem Pengolahan Wicara
Tujuan untuk mendapatkan parameter ciri individu dari sampel sinyal yang diolah
421 Perekaman Suara
Pada Tugas Akhir ini digunakan duamacam perangkat lunak yang dibangun sendiri berbasis TclTk 830
dan Snack 22 sebagai perangkat lunak yang diuji dan perangkat lunak Wavesurver sebagai pembanding
4211 Dengan menggunakan TclTk dan Snack
Tampilan awal dari perangkat lunak yang dibangun dengan menggunakan TclTk dan Snack adalah sebagai
berikut
Gambar 41 Tampilan awal perangkat lunak menggunakan TclTk dan Snack
Bab 4 Pengujian dan Analisa
34
Pertama kali tombol record ditekan maka proses pengambilan sinyal wicara yang dimasukkan
dimulai Pada saat tombol Stop ditekan maka program akan merekam kata ldquosatu nyalardquordquosatu matirdquordquodua
nyalardquordquodua matirdquordquotiga nyalardquordquotiga matirdquordquoempat nyalardquordquoempat matirdquo sesuai yang kita masukkan dan
tampilan display akan digambarkan bentuk sinyal yang dihasilkan secara otomatis Hasil perekaman dapat
dilihat pada gambar berikut 42
Gambar 42 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan perangkat lunak
TclTk dan Snack
Gambar 42 menunjukkan bahwa proses pengambilan sinyal suara telah dilakukan Sinyal suara yang
dimasukkna akan terlihat gambarnya pada layar hitam (canvas)
4212 Dengan menggunakan Wave Surver
Sebagai pembanding dari program yang telah dibuat yaitu dari perangkat lunak TclTk dan Snack
digunakan Wavesurver
Tampilan awal dari Wavesurver 157 tampak seperti pada gambar 43
Gambar 43 Tampilan awal perangkat lunak menggunakan Wavesurver
Bab 4 Pengujian dan Analisa
35
Pada saat tombol recording ditekan maka program akan merekam kata ldquosatu nyalardquo dan pada tampilan
display akan digambarkan bentuk sinyal yang dihasilkan secara otomatis Hasil perekaman bisa dilihat pada
gambar 44
Gambar 44 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan
perangkat lunak Wavesurver
Perekaman pada Wavesurver dapat diset sesuai dengan kebutuhan Dimana pada sistem pengolahan sinyal
suara untuk perekaman suara diset sebagai berikut
Gambar 45 Kotak dialog setting perekaman perangkat lunak Wavesurver
Pada data di atas dapat dilihat bahwa suara yang direkam dengan mengguanakan perangkat lunak
Wavesurver mempunyai header dan tail yang berisi keterangan perekaman sebagai berikut
12000 menunjukkan frekuensi sampling yang digunakan
Bab 4 Pengujian dan Analisa
36
Channels menunjukkan bahwa suara direkam dengan menggunakan channel Mono
Sampel Encoding Lin 16 menunjukkan bahwa suara direkam dengan menggunakan
16 bit PCM
422 Sampling
Dengan menggunakan program yang dibangun sendiri di atas proses penyamplingan sinyal input sekaligus
telah terjadi dimana dengan frekuensi sampling sebesar 12000 Hz didapatkan sinyal dari kata ldquosatu nyalardquo
dengan potongan sebagai berikut
3306
3538
3788
4076
4282
4684
4747
4956
5083
5442
5844
5901
6244
6196
6462
6104
Berikut ini adalah cuplikan dari data sampel kata ldquo empat matirdquo mulai dari milidetik ke-13900
Bab 4 Pengujian dan Analisa
37
Data Sampling
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 46 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900
Pada gambar 46 telah dilakukan proses sampling sinyal masukan dengan frekuensi sampling sebesar 12000
Hz maka didapatkan hasil sinyal yang hampir mirip dengan sinyal analognya karena sinyal suara manusia
memiliki jarak frekuensi antara 300 sampai 5000 Hz dimana syarat Nyquist minimal fsampling 2fsinyal
telah terpenuhi
423 Windowing
Jenis window yang digunakan adalah window Hamming
Pada proses window hamming kata yang telah disampel sebanyak 240 sampel akan diwindow sehingga
menghasilkan sinyal yang lebih kecil peaknya Hasilnya adalah sebagai berikut
-26174
-22078
-12518
-1444
9690
19308
23360
20049
12365
2391
-7874
-14539
-17837
-19929
-19007
-16955
Bab 4 Pengujian dan Analisa
38
Sedangkan hasil dalam bentuk gambar dapat dilihat pada gambar berikut
Data Windowing
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 47 Hasil Windowing data sampel kata ldquoempat matirdquo milidetik ke-13900
Seperti yang ditunjukkan gambar 47 proses windowing telah dilakukan Berdasarkan gambar 47
tersebut dapat dikatakan bahwa window Hamming menyebabkan sinyal yang disampel lebih halus Gambar
47 dapat dibandingkan dengan gambar 46 yaitu gambar sinyal sebelum melalui proses windowing dapat
dilihat bahwa sinyal yang telah diwindow mempunyai sinyal yang lebih halus Hal ini membuktikan bahwa
fungsi dari windowing untuk mengurangi efek diskontinyuitas pada ujung-ujung frame adalah benar
424 Fast Fourier Transform Sinyal Masukan
Pada proses ini sinyal yang sebelumnya berada dalam domain waktu akan diubah dalam domain
frekuensi Setiap sinyal yang berasal dari alam merupakan sinyal analog yang bila diolah harus diubah
dalam bentuk sinyal digital Dan pengolahan dalam digital merupakan pengolahan dalam bentuk diskrit
Pada proyek akhir ini sinyal dalam domain waktu akan diubah dalam domain frekuensi dengan 256 titik
Karena hasil yang diperoleh berupa hasil dari fungsi konvolusi maka hanya akan diambil 128 titik saja yang
akan diolah dalam proses selanjutnya Sedangkan 128 sisanya tidak dipergunakan karena berupa
pencerminan saja
Hasil dari Fast Fourier Transform (FFT) dari penggalan kata ldquoempat matirdquo pada milidetik ke-13900 dalam
bentuk teks adalah
103505157
106889458
Bab 4 Pengujian dan Analisa
39
104735321
100408661
89175987
95431992
96601654
8489315
89637459
8630304
75320663
87866905
91001945
89607201
82408546
83440155
4241 Dengan Menggunakan TclTk dan Snack
Fast Fourier Transform Sinyal
Masukan
0
20
40
60
80
100
120
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 48 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat
lunak TclTk dan Snack
Dari gambar 48 di atas sinyal suara yang sebelumnya berada di domain waktu telah diubah ke domain
frekuensi Hasil Fast Fourier Transform sinyal masukan menunjukkan sebaran spektrum frekuensi dari
sinyal suara yang telah dihasilkan oleh pengucap antara 0 sampai 6000 Hz
Bab 4 Pengujian dan Analisa
40
4242 Dengan Menggunakan Wavesurver
Gambar 49 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat
Wavesurver
Dari gambar 49 di atas hasil Fast Fourier Transform sinyal masukan menunjukkan sebaran spektrum
frekuensi dari sinyal suara yang telah dihasilkan oleh pengucap antara 0 sampai 6000 Hz adalah sama
seperti pada gambar dengan gambar 48 yang diambil dengan perangkat lunak TclTk dan Snack
425 Autocorrelation Analysis
Pada proses ini sinyal masukan dalam domain waktu yang telah diwindow hamming dihitung korelasinya
dengan menggunakan orde analisi LPC sebesar 15 Sehingga akan didapatkan hasil rk(autokorelasi) sebagai
berikut
17648453
128874
0669745
0662566
0470262
0164336
-010638
-0229032
-016249
0014062
0138456
0188749
0117826
0014517
-0052704
426 LPC Analysis
Dari hasil autokorelasi tersebut di atas selanjutnya adalah LPC dimana mengkonversi masing-masing
frame dari autokorelasi p+1 ke dalam sebuah LPC Parameter a
Bab 4 Pengujian dan Analisa
41
Metode yang formal untuk mengkonversi dari koefisien autokorelasi ke sebuah LPC parameter (untuk
metode LPC autokorelasi) dikenal sebagai Metode Durbin dan secara formal hasilnya dapat ditunjukkan
sebagai berikut ini
1
-128874
0160681
-0156173
0166653
0255508
0192145
0003037
-0202248
-0265201
-0112133
005938
0232232
0203554
0048429
Dari hasil di atas terlihat bahwa untuk setiap frame nilai pertama menunjuukan energi dari masing-masing
frame dan selanjutnya adalah parameter LPC dalam satu frame yang digunakan sebagai penentu ciri dari
sinyal suara yang dihasilkan oleh individu
427 Fast Fourier Transform LPC Parameter
Pada proses ini nilai dari parameter LPC yang sebelumnya masih berada dalam domain waktu akan diubah
dalam domain frekuensi Pada proyek akhir ini parameter LPC dalam domain waktu akan diubah dalam
domain frekuensi dengan 256 titik Karena hasil yang diperolah berupa hasil dari fungsi konvolusi maka
hanya akan diambil 128 titik saja yang akan diolah dalam proses selanjutnya Sedangkan 128 sisanya tidak
dipergunakan karena berupa pencerminan saja
Hasil dari Fast Fourier Transform (FFT) dari parameter LPC pada penggalan kata ldquoempat matirdquo pada
milidetik ke-1 dalam bentuk teks adalah
103505157
106889458
104735321
100408661
89175987
Bab 4 Pengujian dan Analisa
42
95431992
96601654
8489315
89637459
8630304
75320663
87866905
91001945
89607201
82408546
4271 Dengan menggunakan TclTk dan Snack
Fast Fourier Transform Parameter
LPC
0
20
40
60
80
100
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 410 Fast Fourier Transform LPC dengan
menggunakan perangkat lunak TCLTk
dan Snack
Hasil gambar 410 menunjukkan bahwa parameter LPC yang di-Fourier Transform-kan akan menjadi
selubung spektrum dari spektrum sinyal masukan Sehingga jika selubung dan spektrumnya secara gambar
cocok dapat dikatakan bahwa LPC parameter yang dihitung benar
Bab 4 Pengujian dan Analisa
43
4272 Dengan menggunakan Wavesurver
Gambar 411 Fast Fourier Transform LPC denganmenggunakan perangkat lunak
Wavesurver
Hasil gambar 411 menunjukkan bahwa parameter LPC yang di-Fourier Transform-kan akan menjadi
selubung spektrum dari spektrum sinyal masukan adalah sama dengan yang telah diperoleh dengan
perangkat lunak TclTk seperti pada gambar 410
428 LPC Parameter to LPC Cepstrum
Koefisien LPC cepstrum koefisien yang direpresentasikan dengan Fourier Transform dengan spektrum
besaran log telah ditampilkan menjadi kumpulan fitur untuk pengenalan wicara yang lebih handal
terpercaya daripada koefisien LPC koefisien PARCOR atau koefisien log area ratio
Hasil dari LPC cepstrum pada penggalan kata ldquoempat matirdquo pada milidetik ke-106 dalam bentuk teks adalah
16636311
1387922
0474473
0654796
0429659
0132543
0225374
0126501
0021161
0242437
Bab 4 Pengujian dan Analisa
44
0160623
0065745
0139379
0056064
-0029262
Dari hasil di atas dapat dianalisa bahwa besaran-besaran dari LPC cepstrum benar-benar dapat
digunakan sebagai penentu ciri dari sinyal suara individu karena besaranndashbesaran yang dihasilkan oleh LPC
cepstrum dari yang pertama sampai yang terakhir dalam satu frame sangat bervariasi nilainya
429 Inverse Fast Fourier Transform LPC Cepstrum
Untuk menggambarkan ciri atau fitur wicara dalam domain waktu maka LPC cepstrum di-Invers Fast
Fourier Transform-kan sehingga didapatkan gambar untuk penggalan kata ldquosatu nyalardquo pada milidetik ke-
400 seperti gamabar 412
Fast Fourier Transform LPC
Cepstrum
0
20
40
60
80
100
120
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 412 Invers Fast Fourier Transform LPC cepstrum dengan menggunakan
perangkat lunak TCLTk dan Snack
Dari gambar 412 dapat dianalisa bahwa bentuk dari invers fourier transform LPC cepstrum yang
menyerupai selubung pada domain waktu dari spektrum frekuensi juga digunakan untuk menunjukkan
bahwa perhitungan LPC cepstrumnya telah benar dan dapat digunakan sebagai penentu ciri sinyal suara
individu
Invers Fast Fourier Transform LPC
Cepstrum
Bab 4 Pengujian dan Analisa
45
Gambar 413 Penggabungan spektrum sinyal spektrum LPC dan spektrum LPC
Cepstrum
Gambar 413 spektrum sinyal yang diwakili warna merah merupakan hasil sinyal yang telah di-Fast
Fourier Transform-kan Spektrum sinyal yang berwarna hijau merupakan parameter LPC yang telah di-
Fourier Transform-kan Sinyal ini akan menjadi selubung spektrum dari spektrum sinyal masukan Bila
selubung dan spektrumnya secara gambar cocok maka dapat dikatakan bahwa LPC parameter yang dihitung
adalah benar Dari gambar 413 dapat dilihat antara selubunga dan selubung sinyal masukan sudah cocok
Sinyal yang berwarna biru merupakan sinyal rata-rata dari sinyal selubung spektrum
4210 Dynamic Time Warping
Pengujian terakhir dari proses pengolahan sinyal wicara adalah membandingkan sinyal hasil cepstrum LPC
antara data input dan data standarnya Berdasarkan daerah pembatas kontinyuitas lokal dari persamaan 21
maka digunakan model yang pertama dan menggunakan persamaan 2116 dalam menghitung jarak antara
kata sebagai standar dan sebagai masukan
Selanjutnya menetukan data data sebagai data standar dan data sebagai data masukan Pada sistem ini
digunakan 8 kombinasi kata sebagai kata standar dan kata msukan untuk masing-masing pengujian dengan
kata standar sebanyak sepuluh (10) kali Adapun kata yang digunakan sebagai standar dan kata yang diuji
adalah meliputi satu nyalasatu matidua nyaladua matitiga nyalatiga matiempat nyalaempat
mati
Pada pengujian sistem kali ini masih menggunakan datasuara dari pebgucap yang sama Dari kelima data
standar yang ada dilakukan pembandingan dengan masing-masing 10 (sepuluh) kali pemasukan data Data
yang menghasilkan jarak euclidian terpendek dari masing-masing kata itulah yang akan diambil sebagai
data perintah terbaik
Bab 4 Pengujian dan Analisa
46
Pelekukan Jalur Suara
0
50
100
150
0 50 100 150
Sinyal Input empat mati
Sinyal Standart
empat mati
Gambar 414 Pelekukan Jalur Suara dengan Dynamic Time Warping
Dari gambar 414 dapat dianalisa bahwa dengan menggunakan dynamic time warping dua buah sinyal suara
akan dibandingkan vektor-vektor spektralnya dimana juga terdapat proses pembandingan panjang sinyal
antara dua buah sinyal tersebut sehingga terjadi proses pemadanan panjang sinyal dengan cara
memperpanjang dan menekuk vektor spektralnya Memperpanjang dalam arti memperpanjang sinyal yang
lebih pendek dengan memperhatikan perbandingan vektor spektralnya dan demikian pula menekuk dalam
arti menekuk sinyal yang lebih panjang dengan memperhatikan vektor spektralnya Dengan panjang yang
sama sebagai hasil dynamic time warping maka jarak euclidian antara dua sinyal dapat diperbandingkan
atau dihitung
4211 Min Value dan Sorting
Min Value dan Sorting menjadi satu paket sendiri yang digunakan untuk mencari kemungkinan hasil
terkecil dari pembandingan pola kata masukkan dengan kedelapan kata standart Keluaran dari fungsi
dynamic time warping akan memberikan delapan buah data yaitu hasil pembandingan kata masukan
dengan kata standart satu nyala hasil pembandingan kata masukan dengan kata standart satu mati hasil
pembandingan kata masukan dengan kata standart dua nyala hasil pembandingan kata masukan dengan
kata standart dua mati hasil pembandingan kata masukan dengan kata standart tiga nyala hasil
pembandingan kata masukan dengan kata standart tiga mati hasil pembandingan kata masukan dengan
kata standart empat nyala hasil pembandingan kata masukan dengan kata standart empat mati Dengan
metode sorting buble sort maka akan didapat nilai minimalnya
0748745
0362272
0633390
0327642
0600250
0346530
Bab 4 Pengujian dan Analisa
47
0545907
0207464
Berdasarkan data diatas maka perintah input sama dengan perintah kedelapan (ldquoempat matirdquo) karena
memiliki hasil time warping terkecil yaitu 0207464
4212 Hasil Pengujian Awal dan Akhir Sinyal
Pada proses penentuan awal dan akhir agar lebih presisi menggunakan ldquoPowerrdquo Adapun kelebihan dari
power adalah dapat membedakan antara sinyal suara dengan sinyal noise
Untuk menentukan awal dan akhir dicari nilai power Pada proses power kata yang telah disampel
sebanyak 240 sampel akan menghasilkan sinyal yang halus dan terletak di atas sumbu x Hasil dalam bentuk
teks adalah sebagai berikut ini
7678195313
1165659297
123492625
8917128906
6318766797
4531086719
4338374609
4912630469
5382503125
4548908984
429756875
4739710547
4575902734
4682924609
4786217578
Bab 4 Pengujian dan Analisa
48
Gambar hasil power bisa dilihat pada gambar 415 berikut
Power
0
100000
200000
300000
400000
500000
0 50 100 150
Jumlah Frame
Amplitude
Gambar 415 Sinyal ldquoempat matirdquo hasil program power
Gambar 416 berikut ini adalah hasil pengujian kata ldquoempat matirdquo sebagai masukan dan kata standar ldquoempat
matirdquo dimana kedua kata dibandingkan berdasarkan powernya sebelum proses Dinamic Time Warping
Sinyal warna biru sebagai power sinyal standart dan sinyal yang berwarna merah merupakan power sinyal
input
Perbandingan Dua Kata empat mati
sebelum DTW
0
100000
200000
300000
400000
500000
0 50 100 150
Jumlah Frame
Amplitude
Gambar 416 Perbandingan power dua kata ldquoempat matirdquo sebelum Dynamic Time Warping
Berikut ini adalah hasil pengujian dua buah kata ldquoempat matirdquo dengan menggunakan dynamic time warping
dimana jalur pelekukan suara dapat digambarkan pada gambar 417
Bab 4 Pengujian dan Analisa
49
Pelekukan Jalur Suara
0
50
100
150
0 50 100 150
Sinyal Input empat mati
Sinyal Standart
empat mati
Gambar 417 Pelekukan jalur suara dua kata ldquoempat matirdquo dengan DTW
Gambar 418 adalah hasil pengujian dua buah kata ldquoempat matirdquo sebagai masukan dan dan kata standar
ldquoempat matirdquo dimana kedua kata dibandingkan berdasarkan powernya setelah proses dynamic time
warping
Gambar 418 dapat dibandingkan dengan gambar 416 yaitu sinyal sebelum proses Dynamic Time Warping
Sebelum proses Dynamic Time Warping sinyal tidak mengalami proses penekukan dan penarikan data
berdasarkan waktu antara keduanya sehingga antara sinyal input dan sinyal standart memiliki ukuran
panjang yang sangat jauh berbeda
Pemadanan Dua Kata Setelah DTW
0
100000
200000
300000
400000
500000
0 100 200 300
Jumlah Frame
Amplitude Power
Gambar 418 Perbandingan power dua kata ldquoempat matirdquo setelah Dynamic Time Warping
Dari gambar 418 dapat dinyatakan bahwa setelah melalui proses dynamic time warping terjadi penekukan
dan penarikan data berdasarkan waktu antara keduanya sehingga pada akhirnya kedua sinyal memiliki
ukuran panjang yang sama Sehingga dengan demikian dapat dicari jarak euclidian untuk menentukan
sebuah kata yang sesuai dengan kata yang lainnya
Bab 4 Pengujian dan Analisa
50
4213 Hasil Pengujian Sistem Perangkat Lunak
Pada pengujian sistem perangkat lunak diambil sampel data dari 3 orang dimana terdiri dari 3 orang pria
dan 1 orang wanita Pria pertama merupakan standar sekaligus pengisi suara untuk perintah Sedangkan pria
kedua dan wanita sebagai pembanding untuk mengetahui unjuk kerja sistem
Tabel 41 Hasil pengujian sistem pengolahan sinyal wicara untuk pengucap yang sama (pria
1)
8 7 6 5 4 3 2 1 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05417
03487
05964
03443
07272
04424
03449
01
961
Satu
nyala
Sinyal Standart
02496
04723
03013
05120
03450
03815
01
739
03471
Satu
mati
04389
02035
06139
03244
04343
02
158
04567
04047
Dua
nyala
01866
04517
04157
05267
01
940
02561
02036
04779
Dua
mati
04833
02168
03984
01
090
06409
04278
05019
02690
Tiga
nyala
02683
04628
01
188
03416
04046
03345
02959
04614
Tiga
mati
03807
01
046
05271
01974
05934
03134
04363
02554
Empat
nyala
01
388
03728
02269
04497
02559
03195
02476
04874
Empat
mati
Bab 4 Pengujian dan Analisa
51
16
15
14
13
12
11
10
9 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05776
02988
05100
04019
06101
05338
04219
02
047
Satu
nyala
Sinyal Standart
03382
04381
02427
05124
02642
05990
02
706
03335
Satu
mati
04453
02558
04993
04574
03381
02
344
04529
04121
Dua
nyala
01669
04532
03190
06355
01
004
04807
03466
04622
Dua
mati
05209
02261
03366
01
124
05377
04165
05369
02660
Tiga
nyala
03721
04074
00
891
03002
02637
05958
02719
04333
Tiga
mati
03889
01
755
04365
02341
04826
03150
05193
02472
Empat
nyala
01
092
03974
01802
04848
01455
05343
02717
04536
Empat
mati
Bab 4 Pengujian dan Analisa
52
24
23
22
21
20
19
18
17 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05157
04015
06277
02964
05609
04690
03376
01
369
Satu
nyala
Sinyal Standart
01787
05144
03814
04134
04952
04843
01
636
03404
Satu
mati
03988
03026
07420
03020
03977
01
905
04801
03610
Dua
nyala
01630
05662
06259
05009
01
808
03357
02206
05094
Dua
mati
04667
02681
05731
01
448
05575
03280
05344
03417
Tiga
nyala
01902
05055
03
395
02597
04700
04618
02951
04808
Tiga
mati
03809
01
863
06920
02154
04252
02455
04616
03184
Empat
nyala
00
761
04379
04288
04053
03629
04122
02419
05622
Empat
mati
Bab 4 Pengujian dan Analisa
53
32
31
30
29
28
27
26
25 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
04793
03554
06312
03247
06514
03585
03068
02
935
Satu
nyala
Sinyal Standart
01671
04661
03012
03961
02834
04667
01
079
05475
Satu
mati
04033
02359
05307
02587
03475
01
587
04781
04010
Dua
nyala
02222
04949
03652
04387
00
958
03222
02647
04966
Dua
mati
04499
02207
04170
01
873
05884
02500
05631
03257
Tiga
nyala
01791
04432
01
196
02646
02999
04619
02558
05048
Tiga
mati
03561
01
050
05061
02437
04927
01887
05325
03424
Empat
nyala
00
858
03774
02052
03974
01440
04186
02597
05381
Empat
mati
Bab 4 Pengujian dan Analisa
54
40
39
38
37
36
35
34
33 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
06471
03838
05816
03364
06492
03613
03496
01
111
Satu
nyala
Sinyal Standart
02951
05556
02631
04558
05057
04799
01
683
02958
Satu
mati
05259
02977
05228
03305
04614
00
878
05159
02707
Dua
nyala
03165
05686
03078
05512
01
088
03082
03482
04823
Dua
mati
05397
02037
03714
00
949
06365
02818
05998
02829
Tiga
nyala
02990
04867
00
921
02759
04978
04752
03131
04533
Tiga
mati
05028
01
233
05114
02070
05154
01825
05439
01975
Empat
nyala
01
914
04521
01834
04248
02711
04164
03149
04755
Empat
mati
Bab 4 Pengujian dan Analisa
55
48
47
46
45
44
43
42
41 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
07997
03701
06005
03992
05800
05223
03706
01
198
Satu
nyala
Sinyal Standart
03909
04978
02572
05339
05784
05103
01
161
03113
Satu
mati
06284
02355
05419
04194
03709
02
588
04764
02834
Dua
nyala
03737
04883
03321
06131
03
489
04229
03188
04962
Dua
mati
05885
02259
04026
00
918
06123
03601
05739
0 2867
Tiga
nyala
03583
04464
00
974
03340
05828
05114
02720
04269
Tiga
mati
05762
01
230
7
05459
02231
04899
03397
05114
0 2395
Empat
nyala
02
247
02888
01948
04994
04987
04505
02141
0 4956
Empat
mati
Bab 4 Pengujian dan Analisa
56
56
55
54
53
52
51
50
49 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05627
03923
06226
04018
05254
04895
02933
02
009
Satu
nyala
Sinyal Standart
02473
04947
02892
05661
05301
05040
01
289
03008
Satu
mati
04393
02779
06046
04425
02900
01
743
04571
02669
Dua
nyala
02222
05352
04171
06748
01
202
03736
03177
03699
Dua
mati
04644
02488
03523
00
835
05391
03319
05277
03671
Tiga
nyala
02213
04345
01
009
03758
02869
05933
02761
03900
Tiga
mati
04093
01
443
05080
05083
04959
02819
04840
02709
Empat
nyala
01
239
04029
0 2223
05428
01263
04236
02575
04141
Empat
mati
Bab 4 Pengujian dan Analisa
57
64
63
62
61
60
59
58
57 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
07489
03792
05134
04199
06459
04019
03044
01
850
Satu
nyala
Sinyal Standart
03586
04783
02186
05509
02884
04251
01
198
03243
Satu
mati
05697
02612
04576
04268
03211
01
519
04639
03845
Dua
nyala
03563
05288
02855
06752
01
074
03523
03265
04523
Dua
mati
05768
02262
03884
01
048
06348
02633
05784
02683
Tiga
nyala
03449
04859
01
009
03177
03425
04355
02975
04077
Tiga
mati
05693
01
445
04574
02498
05298
01999
05622
02359
Empat
nyala
02
236
04215
01468
05161
01827
03851
03161
04416
Empat
mati
Bab 4 Pengujian dan Analisa
58
72
71
70
69
68
67
66
65 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05439
02975
05593
03689
05796
03415
03416
01
492
Satu
nyala
Sinyal Standart
02225
04543
04586
04584
02669
04529
01
112
02881
Satu
mati
04025
02639
06303
03009
02582
01
003
05045
02767
Dua
nyala
01734
05437
04847
04897
00
826
02892
02584
04797
Dua
mati
04671
02336
04988
01
206
05595
02572
05647
02991
Tiga
nyala
02095
04805
04
025
02747
02848
04359
02773
04076
Tiga
mati
03971
01
297
05065
02121
04489
01703
05074
02131
Empat
nyala
00
901
04123
04026
04154
01514
03762
02328
04561
Empat
mati
Bab 4 Pengujian dan Analisa
59
80
79
78
77
76
75
74
73 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
07997
03054
06228
04446
05805
04687
03173
03
391
Satu
nyala
Sinyal Standart
05051
04619
05619
05749
02631
04447
01
086
05310
Satu
mati
05949
03685
05899
05607
03163
01
874
05234
03797
Dua
nyala
03109
05053
05258
07102
01
095
03368
03585
04539
Dua
mati
06473
02004
04524
01
350
05525
03084
05608
03682
Tiga
nyala
04759
04205
04
309
03701
03031
04660
02678
05243
Tiga
mati
05572
02
003
05167
02702
04478
02552
05358
03563
Empat
nyala
02
459
04960
04964
05734
01641
03971
02630
05029
Empat
mati
Pengujian pertama ini dilakukan dengan cara memasukkan suara pria pertama (yang digunakan sebagai
pengisi suara standart) Setiap satu perintah dilakukan sebanyak 10 kali pengujian Hasil pengujian
merupakan nilai dari hasil proses Dynamic Time Warping yang merupakan nilai dari pemadanan sinyal
input dengan kedelapan sinyal standart Nilai terkecil (nilai yang tercetak tebal) yang didapatkan merupakan
hasil yang paling mendekati sinyal standart Yang berarti sinyal masukan tersebut dianggap paling sesuai
dengan sinyal standart
Prosentase keberhasilan pengucapspeaker pertama untuk kedelapan perintah sebesar 100 semuanya
menunjukkan kepada sinyal masukkan dan sinyal standart yang sama
Hasil pengujian menunjukkan bahwa ciri sinyal suara yang dihasilkan oleh pengucap speaker pertama dan
sebagai pemberi standart adalah sama
Bab 4 Pengujian dan Analisa
60
Tabel 42 Hasil pengujian sistem pengolahan sinyal wicara untuk pengucap yang lain (pria
2)
8 7 6 5 4 3 2 1 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
06023
05121
07146
04599
04996
04561
07575
04
358
Satu
nyala
Sinyal Standart
04018
05701
06369
06256
03518
05738
07004
08129
Satu
mati
07120
03925
07395
04897
05938
02246
10082
06777
Dua
nyala
04963
05958
05189
07345
03449
04854
08816
08543
Dua
mati
05919
04337
05163
02
130
04797
03463
08871
05289
Tiga
nyala
03709
04519
04380
03601
03491
05239
06
046
07381
Tiga
mati
06087
03
161
06178
03280
05
068
02
439
08853
05354
Empat
nyala
03
409
04321
04
208
05569
03219
04898
06863
08596
Empat
mati
Bab 4 Pengujian dan Analisa
61
16
15
14
13
12
11
10
9 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05475
03932
05521
04
383
05634
05416
04
464
03
434
Satu
nyala
Sinyal Standart
04076
05731
04541
05681
03574
04920
03971
06662
Satu
mati
07427
04886
07924
05962
05824
02
712
07837
05504
Dua
nyala
04475
06666
05765
07616
03414
04203
05431
06334
Dua
mati
05357
03797
05099
04509
04902
04332
07097
05220
Tiga
nyala
04197
05134
04
209
05088
03169
04547
04464
06516
Tiga
mati
05936
03
769
05910
05109
05
311
03435
07646
04977
Empat
nyala
03
576
05767
04591
06367
03010
04129
04944
06850
Empat
mati
Bab 4 Pengujian dan Analisa
62
24
23
22
21
20
19
18
17 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
06927
04
279
08096
04
448
06461
05522
03935
02
444
Satu
nyala
Sinyal Standart
06409
05322
05528
05481
04912
04491
02
011
05508
Satu
mati
06134
04643
08962
06002
04868
02
579
06122
05502
Dua
nyala
04753
06443
05501
07364
02
298
03206
04239
06684
Dua
mati
05709
04928
05456
04961
06142
05726
06454
03831
Tiga
nyala
05798
04882
03
235
04708
04838
04317
03526
05462
Tiga
mati
05021
04423
06842
05583
05222
04132
06363
04235
Empat
nyala
04
457
05427
03546
05773
02946
03573
03618
07019
Empat
mati
Bab 4 Pengujian dan Analisa
63
32
31
30
29
28
27
26
25 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05260
04224
07393
04661
06292
04993
03989
03
549
Satu
nyala
Sinyal Standart
04478
04669
04568
05977
03523
04046
03
438
04819
Satu
mati
06448
04308
08152
06114
04665
02
444
07609
05162
Dua
nyala
04024
05867
05103
07873
01
872
02613
04489
06765
Dua
mati
05363
04
672
05250
04
529
05210
05103
06546
04794
Tiga
nyala
04422
04039
02
482
05102
03499
03985
03969
04371
Tiga
mati
05492
04073
06626
05239
04902
03553
06869
04794
Empat
nyala
03
326
04543
03153
06510
02133
03419
04175
05287
Empat
mati
Hasil pengujian yang kedua ini dilakukan dengan cara memasukkan suara dari pria kedua (pria lain yang
tidak digunakan sebagai suara standart) Setiap satu perintah dilakukan empat (4) kali proses pengujian
Hasil pengujian merupakan nilai dari hasil proses Dynamic Time Warping yang merupakan nilai dari
pemadanan sinyal input dengan kedelapan sinyal standart Nilai terkecil (nilai yang tercetak tebal) yang
didapatkan merupakan hasil yang paling mendekati sinyal standart Yang berarti sinyal masukan tersebut
dianggap paling sesuai dengan sinyal standart
Prosentase keberhasilan pengucapspeaker kedua untuk kedelapan perintah bervariasi sebesar 50
sampai dengan 100 semuanya menunjukkan kepada sinyal masukkan dan sinyal standart yang berbeda
Hasil pengujian menunjukkan bahwa ciri sinyal suara yang dihasilkan oleh pengucap speaker kedua dan
sebagai pemberi standart adalah mendekati sama
Bab 4 Pengujian dan Analisa
64
Tabel 43 Hasil pengujian sistem pengolahan sinyal wicara untuk pengucap yang sama (pria)
No Perintah Lampu DTMF
1 1 nyala B B
2 1 mati B G
3 2 nyala B G
4 2 mati G X
5 3 nyala G X
6 3 mati G X
7 4 nyala B B
8 4 mati B B
9 1 nyala B G
10 1 mati B B
11 2 nyala B G
12 2 mati B B
13 3 nyala B G
14 3 mati B B
15 4 nyala B G
16 4 mati B B
17 1 nyala B G
18 1 mati B B
19 2 nyala G X
20 2 mati G X
21 3 nyala B B
22 3 mati B B
23 4 nyala B B
24 4 mati G X
No Perintah Lampu DTMF
25 1 nyala B G
26 1 mati G X
27 2 nyala G X
28 2 mati B G
29 3 nyala B G
30 3 mati B G
31 4 nyala B G
32 4 mati G X
B Berhasil
G Gagal
X Donrsquot Care (Diabaikan)
Pengujian yang ketiga ini dilakukan oleh pria pertama (pria yang suaranya digunakan sebagai standart)
Masing-masing perintah dilakukan sebanyak empat kali pengujian
Bab 4 Pengujian dan Analisa
65
Pada kolom ketiga (kolom lampu) tanda B (berhasil) menunjukkan bahwa perintah yang diberikan pada
hardware berhasil dilakukan Tanda G (gagal) menunjukkan bahwa perintah yang diberikan pada hardware
gagal dilakukan(hasil tidak sesuai dengan perintah yang diberikan)
Pada kolom keempat (kolom DTMF) menunjukkan laporan dari hardware ke PC server tentang
bagaimana keadaan lampu yang sedang dikontrol apakah dalam keadaan menyala atau mati Pada kolom ini
tanda B (berhasil) menunjukkan bahwa laporan dari hardware ke PC server (yang merupakan proses
otomatisasi) berhasil dilakukan Tanda G (gagal) menunjukkan bahwa laporan ke PC client gagal dilakukan
Sedangkan tanda X (donrsquot care) menunjukkan bahwa perintah diabaikan Hal ini disebabkan perintah pada
hardware (perintah sebelumnya sebelum proses otomatisasi) sudah gagal dilakukan
Prosentase keberhasilan pengucapspeaker pertama untuk kedelapan perintah bervariasi antara 50
sampai 100 semuanya menunjukkan kepada sinyal masukkan dan sinyal standart yang berbeda
Hasil pengujian kedua ini menunjukkan bahwa ciri sinyal suara yang dihasilkan oleh pengucapspeaker
kedua ini yang merupakan suara orang lain (bukan pemberi standart) adalah mendekati sama dengan hasil
yang bervariasi antara 50 sampai 100
43 Pengujian Sistem Client Server
Pada sub bab ini akan diujikan program Client Server yang akan mengirimkan sinyal hasil pengolahan
suara
Tampilan pada client adalah seperti gambar 421 yang merupakan tampilan awal pada saat program
dimulai
Gambar 421 Proses pada client
Bab 4 Pengujian dan Analisa
66
Gambar 422 Proses pada server
1 Sebelumnya program server harus disiapkan lebih dulu
2 Setelah itu client dijalankan
3 Setelah client siap user memasukkan suara yang selanjutnya akan diolah sampai proses DTW
4 Server menerima data yang selanjutnya digunakan untuk melakukan kontrol alat rumah tangga
44 Analisa Pengujian Sistem Secara Keseluruhan
Berdasarkan data-data yang telah didapatkan di atas maka dapat ditarik suatu analisa bahwa
Berdasarkan tabel 44 untuk pengujian pertama pria 1 adalah pria yang suaranya digunakan sebagai standart
Prosentase keberhasilan rata-rata yang didapat untuk semua perintah adalah sebesar 100 Hal ini menunjukkan
bahwa suara yang diujikan adalah suara yang sama dengan standart dan pria 1 tersebut pernah berinteraksi
dengan sistem
Pengujian yang kedua adalah pengujian yang dilakukan oleh pria 2 (pria lain yang suaranya tidak
dipakai sebagai standart) Prosentase keberhasilan rata-rata yang didapat untuk semua perintah 7188 Karena
sistem bersifat dependent speaker dimana sistem hanya digunakan oleh orang tertentu dalam arti yang pernah
berinteraksi langsung dengan sistem Oleh karenanya didapat nilai prosentase keberhasilan yang bervariasi
Bab 4 Pengujian dan Analisa
67
Tabel 44 Tingkat keberhasilan sistem perangkat lunak
NNO
PENGUCAP
PERINTAH
BANYAK
PERCOBAAN
PROSENTASE
KEBERHASILAN
1 Pria 1 1 nyala 8 kali 100
2 1 mati 8 kali 100
3 2 nyala 8 kali 100
4 2 mati 8 kali 100
5 3 nyala 8 kali 100
6 3 mati 8 kali 100
7 4 nyala 8 kali 100
8 4 mati 8 kali 100
RATA-RATA 100
9 Pria 2 1 nyala 4 kali 100
10 1 mati 4 kali 75
11 2 nyala 4 kali 75
12 2 mati 4 kali 50
13 3 nyala 4 kali 50
14 3 mati 4 kali 75
15 4 nyala 4 kali 50
16 4 mati 4 kali 100
RATA-RATA 7188
Jika diurutkan proses pengolahan wicara dari awal sampai diambil keputusan suara yang dimasukkan
tersebut adalah suara yang sesuai atau tidak adalah sebagai berikut
Bab 4 Pengujian dan Analisa
68
Gambar 423 Tampilan awal perangkat lunak menggunakan TclTk dan Snack
Gambar 423 adalah tampilan awal dari perangkat lunak yang dibangun dengan menggunakan TclTk dan
Snack
Gambar 424 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan dengan
menggunakan perangkat lunak Wavesurver
Gambar 424 adalah tampilan awal dari program Wavesurver yang merupakan pembanding dari program
yang dibuat dari perangkat lunak TclTk dan Snack
Bab 4 Pengujian dan Analisa
69
Gambar 425 Tampilan awal perangkat lunak
menggunakan TclTk dan Snack
Gambar 425 adalah tampilan ketika proses pengambilan sinyal suara sedang dilakukan dengan perangkat
lunak TclTk dan Snack
Gambar 426 Tampilan hasil perekaman kata ldquoempat
matirdquo dengan menggunakan perangkat lunak Wavesurver
Gambar 426 adalah tampilan ketika proses pengambilan sinyal suara sedang dilakukan dengan perangkat
lunak Wavesurver
Bab 4 Pengujian dan Analisa
70
Data Sampling
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 427 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900 menggunakan TclTk dan
Snack
Pada gambar 427 dilakukan proses sampling sinyal masukan dengan frekuensi sampling sebesar 12000
Hz maka didapatkan hasil sinyal yang hampir mirip dengan sinyal analognya yang dilakukan dengan
perangkat lunak TclTk dan Snack
Gambar 428 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900 dengan menggunakan
perangkat Wavesurver
Pada gambar 428 dilakukan proses sampling sinyal masukan dengan frekuensi sampling sebesar 12000
Hz yang dilakukan dengan perangkat lunak Wavesurver
Data Windowing
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 429 Hasil Windowing data sampel
kata ldquoempat matirdquo milidetik ke-13900 menggunakan TclTk dan Snack
Bab 4 Pengujian dan Analisa
71
Proses windowing terdapat pada gambar 429 dilakukan untuk membuat sinyal yang disampel lebih
halus Proses windowing ini dilakukan dengan menggunakan perangkat lunak TclTk dan Snack
Proses windowing pada Wavesurver merupakan fasilitas yang tergabung dengan proses lainnya Misal
dengan proses Fast Fourier Transform Jadi disini tidak ditampilkan hanya sebagai proses windowing saja
tetapi digabungkan dengan proses lain
Fast Fourier Transform Sinyal
Masukan
0
20
40
60
80
100
120
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 430 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat
lunak TclTk dan Snack
Gambar 430 di atas adalah proses Fast Fourier sinyal masukan dengan perangkat lunak TclTk dan Snack
Hasil Fast Fourier Transform sinyal masukan menunjukkan sebaran spektrum frekuensi dari sinyal suara
yang telah dihasilkan oleh pengucap
Sebagai pembanding adalah proses Fast Fourier sinyal masukan yang diambil dengan Wavesurver seperti
pada gambar 431 Yang didapatkan hasil yang sama
Gambar 431 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat Wavesurver
Bab 4 Pengujian dan Analisa
72
Fast Fourier Transform Parameter
LPC
0
20
40
60
80
100
0 2000 4000 6000 8000
Frekuensi (Hz)10 x log
10(magnitude)(dB)
Gambar 432 Fast Fourier Transform LPC dengan menggunakan perangkat lunak TCLTk
dan Snack
Hasil gambar 432 menunjukkan proses Fast Fourier Transform LPC yang dilakukan dengan perangkat
lunak TclTk dan Snack
Gambar 433 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat Wavesurver
Proses Fast Fourier Transform yang dilakukan dengan Wavesurver dapat dilihat pada gambar 433
Pelekukan Jalur Suara
0
50
100
150
0 50 100 150
Sinyal Input empat mati
Sinyal Standart
empat mati
Gambar 434 Pelekukan Jalur Suara dengan Dynamic Time Warping
Bab 4 Pengujian dan Analisa
73
Dari gambar 434 dapat dianalisa bahwa dengan menggunakan dynamic time warping terdapat proses
pembandingan panjang sinyal antara dua buah sinyal input dan sinyal standart sehingga terjadi proses
pemadanan panjang sinyal dengan cara memperpanjang dan menekuk vektor spektralnya
74
BAB 5
PENUTUP
51 Kesimpulan
Dari hasil yang didapatkan maka dapat diambil kesimpulan bahwa
Sistem pengucap tak bebas atau speaker dependent system memiliki tingkat akurasi yang tinggi untuk
pengucap masukan dan pengucap standar yang sama Hal ini dibuktikan dengan hasil pengujian pertama
yang dilakukan oleh pria pertama Pria pertama ini adalah pria yang suaranya digunakan sebagai standar
Nilai prosentase keberhasilan rata-rata untuk semua perintah adalah sebesar 100 dari setiap perintah
dilakukan 8 kali percobaan
Sedangkan pengujian yang dilakukan oleh suara lain (bukan standart) prosentatase keberhasilan
rata-rata yang diperoleh untuk semua perintah 7188 dari setiap perintah dilakukan 4 kali percobaan Hal
ini disebabkan karena suara pria kedua tidak pernah berinteraksi dengan sistem
Keberhasilan sistem ditunjukkan oleh ketepatan penyalaan lampu sesuai dengan yang diperintahkan
melalui perintah suara
Kecepatan sistem secara keseluruhan diperlihatkan dalam tabel 51 dibawah
Tabel 51 Kecepatan sistem keseluruhan
No
Perintah
Waktu (detik)
1 2 3 4 Rata-rata
1 Satu Nyala 11 99 12 25 16 89 14 05 13 80
2 Satu Mati 12 51 13 28 14 83 12 25 13 22
3 Dua Nyala 10 70 11 73 11 99 12 25 11 67
4 Dua Mati 10 44 11 21 11 21 11 47 11 08
5 Tiga Nyala 10 96 12 25 13 54 12 51 12 32
6 Tiga Mati 10 70 11 99 11 99 13 28 11 99
7 Empat Nyala 11 73 11 99 13 02 12 24 12 25
8 Empat Mati 10 70 09 93 11 21 10 70 10 64
Rata-rata 12 12
Dari data yang diperoleh didapatkan kecepatan rata-rata untuk tiap perintah yang diberikan sampai
dengan terlaksananya eksekusi dari perintah adalah 12 12 detik
52 Saran
Pada penelitian ini masih sangat banyak hal yang dapat dilakukan untuk perbaikan-perbaikan dimasa
selanjutnya Saran dan usulan yang dapat dipertimbangkan untuk pengembangan sistem lebih lanjut adalah
antara lain
1 Sistem tidak lagi bersifat dependent speaker tetapi bersifat independent speaker dimana banyak
orang yang memberi perintah dan sistem dengan tepat memberikan respon
2 Sistem dapat mengatasi tingkat noise yang tinggi baik yang disebabkan oleh lingkungan atau oleh
hardware (sound card)
75
3 Otomatisasi sistem Artinya perintah tidak perlu lagi diberikan lewat penekanan tombol yang
dilakukan melalui mouse
4 Respon sistem yang real time
5 Sistem yang dapat dengan mudah beradaptasi dengan jenis sound card yang bervariasi
DAFTAR PUSTAKA
Anggraeni Triana Dewi Astutik Debi Puji Pengenalan Wicara Dengan Penutur Tak Bebas
Tugas Akhir PENS ITS 2003
Wahyudi Agus Verifikasi Sinyal Suara Sebagai Kendali Arah TA PENS-ITS 2002
Dewantara Bima Sena Bayu Aplikasi Pengenalan Wicara Untuk Perintah NirkabelRobot Mikro
Mouse Tugas Akhir PENS ITS 2004
Dutono Titon Penataran Kebahasaan Tahap I Fonetik Dan Fonologi ndashPengolahan Sinyal
Wicara Digital 20 Februari 2001
Gabel Robert A Richard A Robert Sinyal dan Sistem LinierErlangga 1996
Rabiner Lawrence Huang Juang Biing Fundamentals of Speech Recognition Prentice Hall
International Inc1993
Proakis John G Malonakis Dimitris G Digital Signal Processing Principles Algorithms and
Applications Prentice Hall Inc New Jersey 1995
Scolander Kare Snack Sound Toolkit
httpwwwtcltkmantcl85tutorialTcl11html
httpwikitcltk4074
httpwwwinveceorgtclwisefrontcoverhtml
httpwwwspeechkthsesnackmansnack22tcl-manhtml
httpwwwspeechkthsesnacktutorialhtml
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13]
Bab 1 Pendahuluan
v
DAFTAR ISI
Halaman Judul i
Abstrak ii
Kata Pengantar iv
Daftar Isi v
Daftar Gambar viii
Daftar Tabel x
BAB 1 PENDAHULUAN 1
11 Latar Belakang 1
12 Tujuan 1
13 Batasan Masalah 1
14 Sistematika Pembahasan 2
BAB 2 TEORI PENUNJANG 3
21 Sistem Pengolahan Wicara 3
211 Sinyal Suara Manusia 3
212 Sampling 5
213 Preemphasis 6
214 Frame Blocking 7
215 Windowing 7
216 Fourier Transform 8
217 Linier Prediction Code 9
2171 Autocorrelation Analysis 10
2172 LPC Analysis 10
2173 LPC Parameter Convertion to Cepstral Coefficient 11
218 Dynamic Time Warping 11
2181 Dynamic Programming 11
2182 Batasan Normalisasi Waktu 15
2183 Batasan Titik Awal Akhir 15
2184 Kondisi Monotonisasi 15
22 Awal dan Akhir Sinyal Suara 15
221 Power 15
222 Unvoiced Plosive 16
23 Jaringan dengan TCPIP 17
231 Mengenal TCPIP 17
232 Koneksi TCPIP 18
Bab 1 Pendahuluan
vi
24 Bekerja dengan Socket 19
241 Pengertian Socket Program 19
242 Penjabaran Socket 19
243 Memilih Hostname dan IP Address 20
BAB 3 PERENCANAAN DAN IMPLEMENTASI 21
31 Pendahuluan 21
32 Sistem Pengolahan Sinyal Wicara 22
321 Perekaman Suara 22
322 Sampling 23
323 Preemphasis 24
324 Frame Blocking 25
325 Windowing 25
326 FFT 26
327 Autocorrelation Analysis 27
328 LPC Analysis 28
329 LPC Parameter to Cepstrum Analysis 29
3210 DTW 30
33 Awal dan Akhir Sinyal Suara 31
331 Power 31
332 Unvoiced Plosive 32
34 Proses pada client 32
35 Proses pada server 33
BAB 4 PENGUJIAN DAN ANALYSIS 33
41 Pendahuluan 33
42 Pengujian dan Analysis Sistem Pengolahan Wicara 33
421 Perekaman Suara 33
4211 Dengan Menggunakan TclTk dan Snack 33
4212 Dengan Menggunakan Wavesurver 35
422 Sampling 37
423 Windowing 38
424 FFT Sinyal Masukan 39
4241 Dengan Menggunakan TclTk dan Snack 40
4242 Dengan Menggunakan Wavesurver 41
425 Autocorrelation Analysis 41
426 LPC Analysis 41
427 FFT LPC Parameter 42
Bab 1 Pendahuluan
vii
4271 Dengan Menggunakan TclTk dan Snack 43
4272 Dengan Menggunakan Wavesurver 43
428 LPC Parameter to LPC Cepstrum 44
429 Inverse FFT LPC Cepstrum 45
4210 Dynamic Time Warping 46
4211 Min Value dan Sorting 47
4212 Hasil Pengujian Awal dan Akhir Sinyal 48
4213 Hasil Pengujian Sistem Perangkat Lunak 51
43 Pengujian sistem client server 66
44 Analisa Pengujian Sistem Secara Keseluruhan 67
BAB 5 PENUTUP 74
51 Kesimpulan 74
52 Saran 74
DAFTAR PUSTAKA
Bab 1 Pendahuluan
viii
DAFTAR GAMBAR
21 Skema diagram organ penghasil sinyal wicara 4
22 Struktur umum model generator wicara 5
23 Pola standart dengan unit kata 6
24 Pola standart dengan unit fonem 6
25 a) Sinyal wicara untuk bunyi a pada satu frame pada pria b) Sinyal wicara untuk bunyi
a pada satu frame pada wanita 7
26 Contoh proses sampling dengan nilai frekuensi pencuplikan yang berbeda 8
27 Pergeseran frame pada sinyal suara dengan M = 13 N 10
28 Blok Metode FFT-DIT 8 titik 13
29 Plane jaringan untuk ilustrasi pemrograman dinamik 18
210 DTW antara dua rentetan waktu A dan B 19
211 Bentuk power dari kata 22
212 Unvoiced Plosive 23
31 Blok Diagram Sistem secara keseluruhan 29
32 Program aplikasi pengenalan wicara 31
33 Flowcart sistem Graphical User Interface 32
34 Sinyal hasil sampling dengan frekuensi 12000 Hz 33
35 Flowcart proses sampling 34
36 Frame blocking sinyal 35
37 Flowcart proses windowing 36
38 Flowcart Proses Fast Fourier Transform 37
39 Flowcart Proses Autokorelasi 38
310 Flowcart Proses LPC Analisis 39
311 Flowcart proses LPC Parameter ke Cepstrum 40
312 Flowcart proses Dynamic Programming 41
313 Flowcart Proses Power 42
314 Blok Diagram Proses Client 43
315 Blok Diagram Proses Server 44
41 Tampilan awal perangkat lunak menggunakan TclTk dan Snack 46
42 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan perangkat lunak
TclTk dan Snack 47
43 Tampilan awal perangkat lunak menggunakan Wavesurver 48
44 Tampilan hasil perekaman kata rdquoempat matirdquo dengan menggunakan perangkat lunak wavesurver 48
45 Kotak dialog setting perekaman perangkat lunak Wavesurver 49
46 Cuplikan dari katardquoempat matirdquo milidetik ke-13900 51
47 Hasil windowing data sampel kata rdquoempat matirdquo milidetik ke-13900 52
48 Fast fourier Transform sinyal masukan dengan menggunakan perangkat lunak TclTk da Snack 54
Bab 1 Pendahuluan
ix
49 Fast fourier Transform sinyal masukan dengan menggunakan perangkat lunak Wavesurver 54
410 FFT LPC dengan menggunakan perangkat lunak TCLTk dan Snack 57
411 FFT LPC dengan menggunakan perangkat lunak Wavesurver 58
412 Invers FFT LPC cepstrum dengan menggunakan Perangkat lunak TCLTk dan Snack 60
413 Penggabungan spektrum sinyal spektrum LPC dan Spektrum LPC Cepstrum 61
414 Pelekukan Jalur suara dengan Dynamic Time Warping 62
415 Sinyal rdquoempat matirdquo hasil program power 65
416 Perbandingan power dua kata ldquoempat matirdquo sebelum Dynamic Time Warping 65
417 Pelekukan alur suara dua kata ldquoempat matirdquo dengan DTW 66
418 Perbandingan power dua kata rdquoempat matirdquo setelah Dynamic Time Warping 67
421 Proses pada client 85
422 Proses pada server 86
423 Tampilan awal perangkat lunak menggunakan TclTk dan Snack 88
424 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan dengan menggunakan
perangkat lunak Wavesurver 89
425 Tampilan awal perangkat lunak menggunakan Wavesurver 89
426 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan perangkat lunak Wavesurver 90
427 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900 90
428 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900 dengan menggunakan perangkat
Wavesurver 91
429 Hasil Windowing data sampel kata ldquoempat matirdquo milidetik ke-13900 92
430 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat lunak TclTk dan Snack 92
431 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat lunak Wavesurver 93
432 Fast Fourier Transform LPC dengan menggunakan perangkat lunak TCLTk dan Snack 94
433 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat Wavesurver 94
434 Pelekukan jalur suara dengan Dynamic Time Warping 95
Bab 1 Pendahuluan
x
DAFTAR TABEL
41 Hasil pengujian sistem pengolahan wicara untuk pengucap yang sama (pria 1) 68
42 Hasil pengujian sistem pengolahan wicara untuk pengucap yang lain (pria 2) 79
43 Hasil pengujian system pengolahan wicara untuk pengucap yang sama (pria) 83
44 Tingkat keberhasilan system perangkat lunak 87
51 Kecepatan sistem keseluruhan 96
Bab 1 Pendahuluan
1
BAB 1
PENDAHULUAN
11 LATAR BELAKANG
Sudah sekian lama manusia memimpikan adanya pengendalian suatu alat atau sistem kontrol dengan
perintah suara Hal ini diperjelas dengan banyak beredarnya film-film fiksi yang menyuguhkan berbagai sistem
kontrol yang dilakukan dengan menggunakan suara bagaimana seorang anak bisa mengendalikan sebuah
pesawat terbang hanya dengan perintah-perintah dasar dengan menggunakan suaranya Ditambah lagi dengan
pesatnya penelitian dibidang suara yang membuat pintu gerbang sistem pengontrolan dengan suara manusia
semakin terbuka Dewantara [2] telah membuat sebuah aplikasi pengenalan wicara untuk perintah nirkabel robot
mikro mouse Anggraeni dan Astutik [1] telah menggunakan pengenalan wicara untuk mengakses suatu jaringan
sebagai password Tetapi belum ada yang membuat aplikasi pengenalan wicara untuk membuat perintah
pengontrolan pada alat-alat rumah tangga semisal lampu Selain itu beberapa tahun terakhir ini perkembangan
dunia telekomunikasi mengalami kemajuan yang sangat pesat Sehingga pada saat ini informasi yang dikirim
tidak hanya berupa data dalam bentuk teks tetapi juga suara manusia Ditambah dengan semakin banyaknya
peralatan yang memanfaatkan pengenalan suara manusia untuk mengakses maupun memberikan perintah Sinyal
suara yang masuk akan diproses dan dikenali oleh suatu alat Proses tersebut adalah pengenalan wicara (speech
recognition) yaitu pengenalan wicara melalui sampel suara yang telah diolah
Dengan pertimbangan tersebut maka pembuatan kontrol suatu peralatan jarak jauh dengan menggunakan
suara sangat sesuai jika diaplikasikan dalam sistem pengendalian dan monitoring peralatan rumah tangga jarak
jauh dengan menggunakan metode pengenalan wicara Aplikasi tersebut kami bangun dalam pelaksanaan
penelitian ini
12 TUJUAN
Penelitian ini bertujuan untuk
1 Memberikan perintah suara untuk menyalakan beberapa peralatan rumah tangga dalam contoh kasus
dalam penelitian ini adalah menyalakan lampu jarak jauh
2 Membangun sistem pengucap tak bebas (speaker dependent sistem)
3 Memberikan ciri individu untuk memberikan perintah menghidup dan matikan peralatan rumah tangga
yang dilakukan secara jarak jauh
13 BATASAN MASALAH
Batasan masalah pada penelitian ini adalah
1 Bahasa pemrograman untuk algoritma pengenalan wicara adalah Microsoft Visual C++ 60
2 Bahasa Pemrograman untuuk user interface adalah TclTk 830 dan Snack 22
3 Sistem bersifat dependentartinya sistem hanya dapat digunakan oleh orang tertentu dalam hal ini yang
pernah berinteraksi langsung dengan sistem
4 Sinyal diasumsikan ideal yaitu tidak mamperhitungkan noise yang berarti semua noise dianggap stationer
Bab 1 Pendahuluan
2
5 Perintah kata yang diberikan dibatasi untuk keperluan tone dekoder saja dengan dua perintah secara
langsung Semua kata diucapkan secara wajar dengan kecepatan normal
6 Keberhasilan penelitian ini dapat dilihat dari keberhasilan ketepatan perintah yang dihasilkan oleh sistem
dengan perintah yang diberikan
7 Jaringan komunikasi masih dilaksanakan untuk local area dari PC ke PC
14 SISTEMATIKA PEMBAHASAN
Sistematika pembahasan penelitian ini sebagai berikut
BAB I PENDAHULUAN
Pada bab ini akan diuraikan tentang latar belakang tujuan batasan masalah dan sistematika
pembahasan masalah yang digunakan
BAB II TEORI DASAR
Pada bab ini akan diuraikan tentang landasan-landasan teori yang digunakan
BAB III PERENCANAAN DAN PELAKSANAAN
Pada bab ini akan diuraikan tentang tahap-tahap perencanaan dan proses pembuatan keseluruhan sistem
yang mendukung untuk membangun sistem pengenalan wicara untuk sistem pengendalian dan monitoring
peralatan rumah tangga jarak jauh
BAB IV PENGUJIAN DAN ANALISIS
Pada bab ini akan dijelaskan tentang hasil pengujian sistem yang telah dibangun baik secara perbagian
ataupun keseluruhan serta analisis terhadap hasil pengujian sistem untuk mengetahui apakah sistem yang
dibangun sesuai dengan yang diharapkan
BAB V KESIMPULAN DAN SARAN
Pada bab ini berisi kesimpulan dari pembahasan pada perencanaan serta analisa pengujian yang
diperolehUntuk lebih baiknya sistem yang dibangun maka disertakan pula saran-saran untuk perbaikan dan
penyempurnaan
Bab 2 Teori Penunjang
3
BAB 2
TEORI PENUNJANG
21 Sistem Pengolahan Sinyal Wicara
211 Sinyal Suara Manusia
Manusia menggunakan suara sebagai sumber informasi untuk mengkomunikasikan keinginan ide dan
perasaannya kepada orang lain Organ tubuh manusia yang digunakan dalam proses produksi wicara adalah
paru-paru tenggorokan(trachea) laring faring rongga hidung(nasal cavity) dan rongga mulut(oral cavity)
Pembangkitan sinyal wicara terletak pada bentuk lintasan vokalnya(vocal tract) Lintasan vokal tersebut terdiri
atas di bawah katup tenggorokan (laryngeal pharynx) antara langit-langit lunak katup tenggorokan (oral
pharynx ) di atas velum dan di ujung depan rongga hidung (nasal pharynx) dan rongga hidung (nasal cavity)1
seperti ditunjukkan gambar 21
Gambar 21 Skema diagram organ penghasil sinyal
Wicara2
Model generator wicara atau model sintesa suara yang dipakai dan menjadi dasar dari pemrosesan
sinyal wicara hingga dewasa ini adalah apa yang dinamakan Analog Terminal seperti pada gambar 22
1 Dewantara Bima Sena Bayu Aplikasi Pengenalan Wicara Untuk Perintah Nirkabel Robot Mikro Mouse TA PENS ITS 2004 hal 5 2 Dutono Titon Penataran Kebahasaan Tahap I Fonetik dan Fonologi Pengolahan Sinyal Wicara Digital 20 Februari 2001
Bab 2 Teori Penunjang
4
Gambar 22 Struktur umum model generator wicara3
Pada model ini sinyal eksitasi(glotal wave) yang berasal dari getaran pita suara diumpankan ke suatu
filter yang merupakan suatu model pendekatan dari lintasan vokal (vocal tract) untuk menghasilkan sinyal
wicara Model analog terminal ini disebut juga pensintesa formant Dasar pendekatan model ini adalah bahwa
lintasan suara adalah suatu bumbung akustik (acoustical cavity) yang mempunyai karakteristik berdasarkan
perpaduan beberapa frekuensi resonansinya Dengan demikian fungsi transfernya dapat didekati dengan
pendekatan kombinasi riam (cascade combination) dari beberapa rangkaian resonansinya Dengan analogi yang
sama sistem ini dapat dibangun dari beberapa rangkaian resonansi yang mempunyai parameter lebar bidang dan
frekuensi resonansi yang selalu berubah setiap saat membentuk suatu sistem berubah waktu (time variant
system)
Struktur sistem pengenal wicara yang ada dapat dibagi menjadi 2 yaitu
1) Mempergunakan pola standart dengan unit kata
Gambar 23 Pola standart dengan unit kata4
2) mempergunakan pola standart dengan unit fonem
yang dilengkapi dengan kamus kosa kata
3 Ibid 4 Ibid
Ekstraksi ciri
Pola standar kata
Pemadanan kata
Algoritma keputusan
Sinyal wicara Output teks
Bab 2 Teori Penunjang
5
Gambar 24 Pola standart dengan unit fonem5
Pada sistem pertama mampu mencakup fenomena koartikulasi tapi tidak fleksibel terhadap perubahan
kosa kata
Sinyal wicara adalah sinyal yang dihasilkan oleh suara manusia dan biasanya mempunyai frekuensi
kerja antara 0 sampai dengan 5000 Hz Bentuk gelombang sinyal wicara mempunyai bentuk yang unik seperti
gambar 23
Gambar 25 a)Sinyal wicara untuk bunyi a pada satu frame pada wanita
b)Sinyal wicara untuk bunyi a pada satu frame pada pria
Berdasarkan gambar 25 terlihat bahwa setiap satu frame terdapat 120 sample yang bersifat quasi
periodik dan mempunyai unsur bunyi terkecil yang disebut sebagai pitch Panjang pitch berkisar 10 ms Pitch
manusia berbeda satu sama lain terutama jenis kelamin laki-laki dan perempuan
212 Sampling
Sinyal wicara merupakan sinyal yang tidak terbatas dalam domain waktu (finite time interval) Suara
manusia akan menghasilkan sinyal analog yang terus kontinyu Untuk keperluan pemrosesan dalam transformasi
fourier maka sinyal wicara harus dibentuk dalam potongan-potongan waktu yang terbatas (infinite time interval)
Karena itu sinyal yang ada dipotong-potong dalam slot-slot interval waktu tertentu
Berdasarkan pada teori sampling Niquist maka syarat dari frekuensi sampling adalah minimal dua kali
frekuensi sinyal
Fsampling 2 x Fsignal ( 21)
Ekstraksi ciri
Pola standar fonem
Pemadanan fonem
Kamus kosa kata
Pemadanan kata
Algoritma keputusan
Sinyal wicara
-20000
-15000
-10000
-5000
0
5000
10000
15000
0 20 40 60 80 100 120 140
pitch -10000
-8000
-6000
-4000
-2000
0
2000
4000
6000
8000
0 20 40 60 80 100 120 140
pitch
Output teks
Bab 2 Teori Penunjang
6
Contoh dari sampling seperti bisa kita lihat pada gambar di bawah
Gambar 26 Contoh proses sampling dengan nilai frekuensi pencuplikan yang berbeda
6
Frekuensi sampling yang digunakan adalah 12000 Hz
Dimana dalam 1 detik sinyal terdapat 12000 titik sampling
213 Preemphasis
Proses preemphasis dimaksudkan agar spektrum sinyal merata di semua frekuensi serta mencegah
kehilangan informasi akibat proses pembulatan pada saat komputasi Fungsi preemphasis adalah
H (z) = 1 ndash az-1 09 le a le 1 (22)
dimana nilai a berkisar 095 Berdasarkan model filter di atas maka keluaran dari preemphasis adalah
s (n) = s (n) - as (n-1) ( 23)
Penjabarannya sebagai berikut
5 Ibid 6 Ibid
Fi = 1000 Hz
Fs = 1250 Hz
Fs = 1000 Hz
Fs = 4000 Hz
Fs = 8000 Hz
Fs 2Fi
Kriteria Nyquis
Fi Frekuensi sinyal informasi Fs Frekuensi pencuplikan
H X Y
T 1 = 12000 = 833 x 10-5 s = 833 μs
10 ms = 833μs x N sample N = 120 sample
Bab 2 Teori Penunjang
7
y = H x
y = (1-az-1) xn
y = xn - 095 xn z-1
y = xn ndash 095 xn - 1
214 Frame Blocking
Sinyal wicara yang telah dipreemphasis s (n) diblok dalam M sampel dimana N 2 x M seperti yang
ditunjukkan pada gambar 27 Jika M le N pergeseran frame akan mengalami overlape hasil perkiraan LPC
spectral akan dikorelasikan dari frame 1 ke frame berikutnya Jika M laquo N perkiraan LPC spectral dari satu frame
ke frame lainnya akan sangat halus (smooth) Dan bila M gt N maka tidak akan ada overlape diantara frame yang
berbatasan dan sinyal suara akan hilang sama sekali dan korelasi diantara perkiraan spectral LPC dari frame
yang berbatasan akan berisi komponen noise
Gambar 27 Pergeseran Frame pada Sinyal Suara
dengan M = 13 N
Sehingga didapatkan nilai dari sinyal yang baru adalah sebagai berikut
x1(n) =s(M 1+n) n =012hellipN ndash 1 l = 012hellipLndash1 (24 )
215 Windowing
Merupakan proses membatasi lebar sinyal yang akan dianalisa yang dapat mengurangi efek
diskontinyuitas pada ujung-ujung frame yang dihasilkan oleh potongan-potongan sinyal Korelasi antara lebar
window dalam domain waktu dan amplitude berguna untuk menyederhanakan sinyal dengan mengurangi
puncak sinyalnya
Ada beberapa jenis windowing yang dinamakan sesuai dengan nama penemunya yaitu
Bab 2 Teori Penunjang
8
Window Hamming
052-046 cos[2лn(N-1)] 0 le n le N-1
Wham(n) =
0 elsewhere
Window Hanning
1-cos[2лn(N-1)] 2 0 le n le N-1
Whan(n) =
0 elsewhere
Window Bartlett
1-cos[2лn(N-1)] 2 0 le n le (N-1)2
WB(n) = 2-2n(N-1) (N-1)2lenleN-1
0 elsewhere
Window Blackman
042-05cos[2лn(N-1)]+008cos[4лn(N-1)]0lenleN-1
WBl(n) =
0 elsewhere
216 Fourier Transform
Transformasi Fourier Diskrit (DFT) adalah deretan yang terdefinisi pada kawasan frekuensi ndash diskrit
yang merepresentaskan Transformasi Fourier terhadap suatu deretan terhingga (Finite Duration Sequence) DFT
berperan penting untuk implementasi algoritma suatu varitas pengolah sinyal karena efisien untuk komputasi
berbagai aplikasi
Salah satu contoh aplikasi komputasi DFT dalam algoritma yang efisien yaitu Fast Fourier Transform
(FFT) Efisiensi suatu algoritma ditentukan dari sejauh mana dapat mereduksi jumlah perkalian dan
penjumlahan serta reduksi lalu lintas data pada memori komputer sehingga proses lebih cepat
Pada DFT untuk memproses N buah titik diperlukan (N-1)perkalian kompleks dan N(N-1)
penjumlahan kompleks Bila N cukup besar dibutuhkan memori yang besar dan waktu yang cukup lama Untuk
itu digunakan metode lain yang lebih cepat yaitu metode transformasi fourier cepat (FFT) FFT dilakukan
dengan membagi N buah titik pada transformasi fourier diskrit menjadi 2 masing-masing N2 titik trnsformasi
Pemecahan menjadi dua pada proses transformasi fourier cepat disebut sebagai proses rekombinasi Dua buah
N2 titik transformasi mempunyai 2(N2) = N2 perkalian Proses memecah menjadi dua ini diteruskan dengan
membagi setiap (N2) titik transformasi menjadi dua buah (N4) titik transformasi setiap (N4) menjadi dua buah
Bab 2 Teori Penunjang
9
(N8) titik transformasi dan seterusnya hingga diperoleh junlah titik yang minimum Jika besarnya N merupakan
kelipatan pangkat dari 2 (disebut radiks 2) maka jumlah titik minimum setelah setiap kali dibagi 2 adalah dua
Ada dua macam metode FFT metode Decimation in Time (DIT) dan metode Dicimation in Frekuensi
(DIF) Kedua metode ini hamper sama Pada metode FFT-DIT N buah titik transformasi dibagi 2 menjadi fungsi
ganjil dan genap masing-masing mempunyai N2 titik transformasi Sedang pada metode FFT-DIF N buah titk
transformasi dibagi menjadi fungsi N2 titk yang pertama dan fungsi N2 titik yang kedua
Operasi pada metode FFT-DIT disebut juga metode kupu-kupu Untuk N buah titik transformasi h(n)
algoritma radiks 2 memerlukan proses perkalian dan rekombinasi sebanyak N2 log N transformasi fourier
diskrit Pada metode FFT-DIT operasi dekomposisi dilakukan dengan membagi fungsi h(n) menjadi 2 bagian
fungsi ganjil dan fungsi genap Atau dengan pernyataan matematika h1(n) dan h2(n) yang masing-masing adalah
untuk n genap dan n ganjil
Prinsip FFT dengan metode DIT adalah seperti pada gambar 24 berikut ini
Gambar 28 Blok metode FFT-DIT 8 titik
7
Pada gambar di atas merupakan jumlah perkalian kompleks N2 log N juga jumlah penjumlahan
kompleks = N2 log N
217 Linear Prediction Code
Ide dasar dari LPC adalah bahwa pada model ini memberikan sampel suara pada domain waktu yang
bisa didekati sebagai kombinasi linear dari sampel suara yang telah lalu
Teori Linear Prediction Coding (LPC) yang diaplikasikan pada wicara telah dimengerti selama
beberapa tahun Pada bagian ini akan dijelaskan dasar dari bagaimana LPC diaplikasikan pada sistem pengenlan
wicara
Sebelum menjelaskan LPC secara umum sebagai pemrose front-end untuk pengenalan wicara perlu
diketahui alasan mengapa LPC sangat banyak digunakan yaitu
1 LPC menyuguhkan model yang bagus untuk sinyal wicara
2 Cara yang digunakan LPC untuk analisa sinyal wicara sangat beralasan untuk pemisahan track dari
sumber vocal
3 LPC adalah model traktabel secara analitis
Bab 2 Teori Penunjang
10
4 Model LPC bekerja dengan baik pada aplikasi pengenalan
2171 Autocorrelation Analysis
Masing-masing frame sinyal yang telah diwindow kemudian di-autokorelasikan dengan menggunakan
persamaan
N-1-M
r1(m) = sum x1(n) x1(n+m) m = 0 1 p ( 25) (25)
n = 0
dimana nilai autokorelasi tertinggi p adalah orde dari analisi LPC Pada umumnya nilai dari p yang
sering digunakan adalah dari 8 sampai 16 Sisi menguntungkan dari analisis autokorelasi adalah bahwa
autokorelasi ke-0 R1 (0) adalah energi dari frame ke-1 Energi dari frame merupakan parameter
penting untuk system deteksi wicara
2172 LPC Analysis
Langkah selanjutnya adalah analisis LPC dimana mengkonversi masing-masing frame dari
auto korelasi p+1 ke dalam sebuah ldquoLPC Parameter Setrdquo dimana kumpulan itu merupakan koefisien
LPC koefisien refleksi atau PARCOR koefisien log area ratio koefisien Cepstral atau beberapa
transformasi pada kumpulan tersebut
Metode yang formal untuk mengkonversi dari koefisien autokorelasi ke sebuah LPC parameter
set (untuk metode autokorelasi) dikenal sebagai Metode Durbin dan secara formal dapat ditunjukkan
pada algoritma berikut ini
E(0) = r(0) ( 26)
Ki=r(i)-sumαj(i-1) r(|i-j|)E(i-1) 1 le I le p ( 27)
αi(i) = ki (28)
αj(i) = αj
(i-1)-ki α(i-1) ( 29)
t-j
E(i)=(1-ki2)E (i-j) (210)
dimana penyajian akhir dari persamaan mengabaikan i=1 Kumpulan dari persamaan hellipdiselesaikan secara
rekursif untuk i=12hellipp dan penyelesaian akhir diberikan sebagai
am=koefisien PC=αm 1lemlep ( 211)
7 Agus Wahyudi Verifikasi Sinyal Suara Sebagai Kendali Arah TA PENS-ITS 2002
Bab 2 Teori Penunjang
11
km=koefisien PARCOR ( 212)
1 - km
gm=koefisien log area ratio = log ----------- ( 213)
1 + km
2173 LPC Parameter Corversion to Cepstral Coefficients
Sekumpulan parameter LPC yang sangat penting yang dapat diturunkan langsung dari kumpulan LPC
adalah koefisien cepstral LPC c(m) Rekursif yang digunakan adalah
co = ln σ2 ( 214)
m-1
cm = am + sum ck am-k 1 le m le p ( 215)
k = 1
m-1
cm = sum ck am-k m gt p
k = 1
dimana σ2 adalah penguatan dalam model LPC Koefisien cepstral koefisien yang direpresentasikan dengan
fourier transform dengan spectrum besaran log telah ditampilkan menjadi kumpulan fitur untuk pengenalan
wicara yang lebih handal terpercaya daripada koefisien LPC koefisien PARCOR atau koefisien log area ratio
218 Dynamic Time Wraping
Dynamic Time Wraping (DTW) merupakan cara untuk membandingkan pola wicara dalam menentukan
kesamaan jarak antara pola-pola yang berbeda Dimana pengenalan wicara merupakan proses secara otomatis
dalam mengambil dan menentukan informasi linguistic yang disampaikan dengan gelombang wicara
menggunakan komputer atau sirkuit elektronik Informasi linguistic tersebut pada akhirnya akan
direpresentasikan dengan deretan waktu vektor-vektor spektral
Metode nolmalisasi waktu menggunakan dua buah fungsi warping
ix = Фx (k) k = 123hellipT (216)
iy = Фy (k) k = 123hellipT
2181 Dynamic Programming
Dynamic Programming (DP) digunakan untuk memecahkan masalah deteksi pengurutan kemampuan
menggunakan pola pengenalan wicara dan masalah waktu penjajaran dan normalisasi Ada dua tipe masalah
penggunaan Dynamic Programming yaitu
(
)
k m
( )
K m ( )
Bab 2 Teori Penunjang
12
1 Masalah jalan optimal dengan menganggap sekumpulan titik mulai dari 1 sampai dengan N yang
dihubungkan dengan pasangan setiap dari titik (ij) Representasi perpindahan secara langsung dari titik
ke-1 ke titik yang lainnya Rentetan perpindahan tersebut tidak mempunyai bilangan yang ditetapkan
dari transisi satu titik ke titik yang lainnya hal ini disebut rentetan keputusan asinkron
Dengan Terminologi sederhana kita membuat garis keputusan untuk menetukan titk berikutnya setelah
kebijaksanaan pada titik i
Prinsip dari optimalisasi yang merupakan kelas dasar dari algoritma komputasi untuk optimasi masalah
di atas berdasarkan pernyataan Bellman
rdquoKebijakan optimasi yang memiliki sifat apapun ketetapan dan ketentuannya keputusan berikutnya
harus merupakan hasil ketetapan dari keputusan yang pertamardquo
2 Masalah keputusan rentetan sinkronisasi terdapat perbedaan dari satu sinkronisasi yang beraturan dari
proses keputusan
Penggunaan teknik Dynamic Programming pada Dynamic Time Warping untuk pertama kali dilakukan
oleh Slutsker (1968) Vintsyuk (1968) dan Volichko (1971) dari Jepang untuk pengenalan wicara Pada proses
ini pembicara mengucapkan kata yang sama dengan durasi berubah setiap waktu dengan ekspansi yang non
linier Oleh karena itu Dynamic Time Wraping adalah tahap yang penting dalam proses pengenalan kata Proses
DTW mengalami pengembangan pada sumbu waktu untuk mencocokan posisi phonemkata yang sama antara
input wicara dan referensi template
Dynamic Programing secara umum digunakan untuk memecahkan masalah rentetan keputusan yang
dilakukan pada bidang kisi sebagaimana ditampilkan pada gambar 27 Sinyal yang dicocokkan adalah A dan B
Di dalam bidang kisi sinyal A disesuaikan sepanjang sumbu ndashx dan sinyal B disesuaikan sepanjang sumbu ndashy
Setiap antar bagian pada bagian ini ditetapkan sebagai sebuah simpul atau titik dimana titik (ij) adalah
pencocokan frame I untuk sinyal A dengan frame j untuk sinyal B Misalnya diasumsikan dua rentetan waktu
untuk vektor utama yang dibandingkan sebagai berikut
A = a1a2hellipaI dan B = b1b2hellipbJ
Dengan menganggap rentang bidang antara A dan B sebagaimana ditunjukkan pada gambar 27
fungsi pelengkungan waktu yang sesuai menunjukkan waktu antara rentetan A dan B dapat dipresentasikan
sebagai rentetan titk-titik Lattice pada bidang c = (ij) sebagai berikut
Bab 2 Teori Penunjang
13
Gambar 29 Plane jaringan untuk ilustrasi
pemrograman dinamik8
Bilamana jarak spektral antara dua vektor utama a1 dan b1 direpresentasikan oleh d(c) = d(ij) penjumlahan
jarak dari awal sampai akhir dari rentetan sepanjang F dapat direpresentasikan dengan
K
sum d(ck)wk
k=1
D(F) = mdashmdashmdashmdashmdash (217)
K
sum wk
k=1
Semakin kecil nilai ini semakin baik kecocokan antara A dan B Dimana wk adalah fungsi pembobotan
positif terhadap F
Dengan memperkecil persamaan di atas dengan kondisi berikut
1 Kondisi monotonisasi dan kontinuitas
0 le ik-ik-1le1 0 lejk ndash jk -1 le 1 ( 218)
2 Kondisi perbatasan
I1=j1=Iik=Ijk=I (219)
3 Kondisi adjustmen window
|ik ndash jk|ler r=konstan ( 220)
Pendefinisian wk sedemikian rupa sehingga menyebut pada persamaan 219 menjadi konstan yang
tidak tergantung pada F Untuk contoh jika
Wk = (ik ndash ik -1)+(jk ndash jk -1)(i0=j0=0) wk akan menjadi
8 Ibid hal 15
Bab 2 Teori Penunjang
14
K
sum wk = I + J (221) k=1
dan persamaan 219 menjadi
1 K
D(F)= mdashmdash sum d(ck)wk ( 222)
I + J k=1
Gambar 210 DTW antara dua rentetan waktu A dan B
9
Karena fungsi obyektif yang akan diminimasi menjadi penjumlahan maka peminimisasi secara efisien
dapat diselesaikan tanpa harus menguji semua kemungkinan untuk F Penjumlahan pada sebagian rentetan c1
c2 hellip ck (ck=(ij)) adalah
(224)
Penurunan pemrograman dinamik pada persamaan-persamaan diatas penggunaan kondisi untuk F dan
formulasi perumusan wk persamaan 2115 dapat dituliskan kembali sebagai berikut
9 Ibid hal 17
Bab 2 Teori Penunjang
15
g(ij-1)+d(ij)
g(ij) = min g(i-1j-1) + 2d (ij) (225)
g(i-1j) +d(ij)
Oleh karena itu jarak antara dua rentetan waktu A dan B setelah DTW dapat diperoleh sebagai berikut
Kita set dari kondisi awal untuk g(11)=2d(11) dan j=1 dan hitung persamaan 2116 dengan variasi I dalam
sepanjang adjustment window Perhitungan ini diulangi dengan menaikkan j sampai j=1 Jarak keseluruhan
antara dua rentetan waktu A dan B dapat diperoleh dari g(IJ)(I+J)
2182 Batasan Normalisasi Waktu
Supaya proses normalisasi waktu mempunyai arti pada perbedaan batasan dengan berbagai variasi
interval waktu dibutuhkan beberapa batasan terhadap fungsi warping
2183 Batasan Titik Awal Akhir
Bilamana pola wicara yang dibandingkan merupakan tuturan per kata maka harus memenuhi syarat pola
mulai dari titik awal sampai titik akhir dari tanda permulaan dan pengakhiran pola wicara Titik awal dan akhir
mempunyi batasan yang membatasi pola wicara harus dipenuhi
Titik awal Фx(1) = 1 Фy(1) = 1 (226)
Titik akhir Фx(T) = Tx Фy(T) = Ty (227)
2184 Kondisi Monotonisasi
Rentetan pola spectral pada wicara sangat penting dalam menentukan arti linguistic sehingga tidak
akan hilang Untuk mempertahankan pola tersebut harus memenuhi
Фx(k + 1) ge Фx(k) (228)
Фy(k + 1) ge Фy(k)
22 Awal dan Akhir Sinyal Suara
221 Power
Sinyal suara yang diolah haruslah merupakan sinyal suara murni dan tidak bercampur dengan noise
ataupun header tail yang dibawa oleh suara saat perekaman apalagi jika pengenalan sinyal suara dengan jumlah
vocabulary yang besar Oleh karena itu sinyal suara hasil perekaman harus dicari nilai awal dan akhirnya agar
pengolahan sinyal suara tersebut menjadi lebih valid
Dan salah satu cara dalam menentukan nilai awal dan akhir dari sinyal suara adalah dengan
menggunakan power yang mempunyai persamaan sebagai berikut
( )
Bab 2 Teori Penunjang
16
239
p= sumradic xt2 (229)
t=0
Sinyal suara yang dibagi menjadi beberapa frame mempunyai power dari tiap framenya yang kemudian
didapatkan nilai rata-ratanya yang kemudian diperoleh nilai awal dan akhirnya dengan menambahkan 3 kali
standart deviasi Dimana penentuan awal dan akhir dari sinyal suara dapat diperoleh dengan
p ge p + 07 standart deviasi
Power
0
20000
40000
60000
80000
100000
120000
140000
160000
0 10 20 30 40 50 60
Jumlah Frame
Am
pli
tud
o
Gambar 211 Bentuk power dari kata
Nilai beberapa kali hasil percobaan
222 Unvoiced Plosive
Pada suatu sinyal suara yang terekam terdapat pemutusan sinyal atau kondisi kosong yang bukan
merupakan noise tetapi masih didalam lingkup suara Tapi kondisi ini hanya terjadi pada kebanyakan sinyal
suara yang terdapat konsonan tertentu yaitu sinyal suara dari kata yang mempunyai konsonan p t k Kondisi ini
disebut Unvoiced Plosive atau loncatan sinyal suara setelah kondisi kosong seperti ditunjukkan pada gambar
berikut
Gambar 212 Unvoiced Plosive
Bab 2 Teori Penunjang
17
Dan untuk penentuan awal dan akhir daerah kosong tersebut harus diperhitungkan agar didapatkan
nilai awal dan akhir dari sinyal suara yang valid yaitu dengan mencari nilai rata-rata dari daerah kosong dari
beberapa sinyal suara Kemudian dengan dicari nilai thresholdnya yaitu nilai terpanjang dari daerah kosong
sebesar 2 dari seluruh daerah kosong yang telah dihistogram
23 JARINGAN DENGAN TCPIP
Meskipun hubungan computer melalui serial dan parallel telah ada sejak lama multijaringan belum
menjadi masalah serius bagi para peneliti di bidang jaringan sampai awal tahun 1980 Perkembangan teknologi
LAN itu sendiri didasarkan banyak alasan Salah satu yang menjadi alasan utama adalah adanya perusahaan
yang ingin melakukan sharing data file printer dan resource lainnya ke pc lain
231 Mengenal TCPIP
Sebelumnya kita definisikan lebih dahulu apa yang dimaksud protocol itu Bila dua computer ingin
melakukan komunikasi keduanya tentu saja harus menggunkan bahasaturan yang sama Aturan-aturan inilah
yang disebut protocol Misalnya untuk mengirim mail digunakan protocol SMTP berhubungan dengan WWW
menggunakan HTTP dan sebagainya Jadi protocol merupakan aturan dalam melakukan komunikasi
TCPIP ( Transmission Control Protocol Internet Protocol) merupakan protocol yang bersifat open
networking Maksudnya semua penjelasan teknis tentang protocol tersebut diumumkan karena ada juga
mekanisme jaringan yang menyembunyikan detail dari sistemnya Hal inilah yang membuat TCPIP menjadi
terkenal
Adapun keuntungan dengan menggunakan protocol TCPIP adalah kemudahannya karena
memungkinkan hubungan antara berbagai system operasi dan berbagai jenis computer (platform)
TCPIP bukanlah protocol tunggal tetapi merupakan sekumpulan protocol sehingga lebih tepat disebut
sebagai keluarga TCPIP Setiap protocol pada TCPIP memiliki tugas tertentu yang berbeda Semua protocol
tersebut menggunakan protocol primer untuk mengirimkan paket data Protocol primer tersebut adalah TCP dan
IP
Protokol lainnya dapat dikelompokkan berdasarkan tujuannya sebagai berikut
1 Transport
Digunakan untuk mengatur perpindahan data antara dua mesin Antara lain
- TCP (Transmission Control Protocol)
- UDP (User Datagram Protocol)
2 Routing
Digunakan untuk pengalamatan data dan menentukan rute terbaik antara lain
- IP (Internet Protocol)
- ICMP (Internet Control Message Protocol)
- RIP (Routing Information Protocol)
Bab 2 Teori Penunjang
18
3 Network Address
Menangani bagaimana suatu mesin diberikan suatu alamat antara lain
- ARP ( Address Rwesolution Protocol)
- DNS ( Domain Name Sistem)
- RARP (Reverse Address Resolution Protocol)
4 User Service
Merupakan aplikasi yang harus diakses user antara lain
- FTP ( File Transfer Protocol)
- TFTP (Trivial File Transfer Protocol)
- TELNET
5 Gateway Protocol
Untuk membentuk proses komunikasi routing dan status informasi antara lain
- EGP (Exterior Geteway Protocol)
- GGP (Gateway to Gateway Protocol)
- IGP (Interior Gateway Protocol)
232 Koneksi TCPIP
Untuk mengkonfigurasi TCPIP maka dibutuhkan
Alamat IP
Alamat IP ini sebagai pengenal atau alamat mesin Karena setiap mesin yang terhubung jaringan
harus memiliki penganal yang unik sehingga memungkinkan melakukan routing Jaringan dengan TCPIP
menggunakan pengalamatan 32 bit sebagai alamat atau pengenal setiap mesin yang terkoneksi dengan jaringan
Pengenal ini disebut alamat IP Pesan atau data yang dikirim melalui TCPIP menggunakan alamat IP ini untuk
mengenali mesin pengirim dan penerimanya
Biasanya alamat IP dapat dikelompokkan menjadi dua bagian yaitu
1 Nomor Network
2 Nomor Device dalam Network tersebut
Alamat IP tersebut dipisahkan menjadi empat bagian yang masing-masing berukuran 8 bit Empat
bagian tersebut dipisahkan oleh tanda titik dan setiap bagian tersebut memiliki angka 0-255 Contohnya
192168101
Pemberian alamta IP umumnya ditentukan berdasarkan ukuran dari jaringan tersebut Jaringan
dapat diklasifikasikan menjadi tiga kategori yaitu kelas A kelas B kelas C Ketiga kelas tersebut membagi
pengalamatan 32 bit dengan ukuran berbeda untuk nomor Network dan Host
Pengalamatan pada kelas A memungkinkan bagian ini memiliki angka dari 0-127 Sedangkan
pengalamatan B memungkinkan memiliki angka dari 128-191 pengalamatan pada kelas C memungkinkan
memiliki angka dari 192-223
Network Mask
Bab 2 Teori Penunjang
19
Network mask merupakan alamat IP dimana lamat networknya diset ke nilai 255 Jika alamat IP
termasuk kelas A maka network masknya yaitu 255000 Jika alamat IP termasuk kelas B maka network
masknya yaitu 25525500 Jika alamat IP termasuk kelas C maka network masknya yaitu 2552552550
AlamatNetwork
Alamat network ini dapat diperoleh dari alamat IP dimana bit-bitnya dilakukan operasi AND
dengan network mask Dengan demikian untuk network kelas B dengan IP 192168101 maka alamat
networknya adalah 19216800
Alamat Broadcast
Alamat broadcast dibutuhkan bila suatu mesin ingin mengirimkan paket yang sama ke semua
device pada jaringan
Alamat Gateway
Alamat gateway merupakan alamat IP dari mesin yang menghubungkan jaringan dengan jaringan
di luar misalnya internet Pada umumnya alamatgateway memiliki IP yang sama dengan mesin yang kita miliki
tetapi mempunyai nomor device 1 Dengan demikian untuk network kelas B dengan alamt IP 192168101
alamat gatewaynya adalah 19216811
Alamat Nameserver
Jaringan-jaringan besar umumnya memiliki sebuah mesin untuk mentranslasikan alamat IP menjadi
nama yang lebih mudah dikenal manusia Misalkan sebuah mesin dengan IP 192168101 dapat diberi nama lain
seperti puspacsuiacid sebagai alamatnya Proses translasi ini dilakukan dengan system yang dikenal dengan
nama Domain Name System (DNS)
24 BEKERJA DENGAN SOCKET
Komponen socket program yang dapat membantu dalam pembuatan suatu aplikasi yang berkomunikasi
antara suatu system computer dengan system computer yang lain dengan menggunakan protocol TCPIP dan
protocol lain yang terhubung
241 Pengertian Socket Program
Pada sub bab ini akan dijelaskan tentang komoponen socket program yang dapat berkomunikasi antara
system computer dengan system computer yang lain dengan menggunakan protocol TCPIP dan protocol lain
yang terhubung Dengan socket program ini kita dapat membaca dan menulis pada hubungan ke mesin yang lain
tanpa mengalami kesulitan pada software jaringan Socket program dapat mengadakan hubungan berbasis
protocol TCPIP tetapi dapat juga bekerja umunya dengan protokol-protokol yang terhubung seperti Xerox
Network System (XNS) dan yang lain
Bab 2 Teori Penunjang
20
242 Penjabaran Socket
Socket mengijinkan aplikasi jaringan kita berkomunikasi dengan sistem lain di luar jaringan
Masing- masing socket bisadipandang sebagai titik akhir dalam suatu koneksi jaringan Socket tersebut memiliki
spesifikasi sebagai berikut
a) Sistem yang sedang dijalankan
b) Tipe interface port yang digunakan
Penjelasan lengkap dari sebuah koneksi socket terdiri dari address socket pada kedua titik akhir
koneksi Kita akan menguraikan address dari masing- masing titik akhir socket dengan memberi nomor IP
address atau host dan port
Sebelum membuat koneksi socket sebelumnya harus menguraikan dengan lengkap socket-socket
yang membentuk titik akhir Beberapa informasi tersedia dari sistem aplikasi yang dijalankan Sebagai contoh
kita tidaka akan membutuhkan IP Address Local dari socket client sebab informasi ini terdapat pada sistem
operasi
Informasi yang akan kita berikan bergantung pada tipe socket yang sedang bekerja Socket client
harus menggambarkan port yang merepresentasikan layanan yang mereka berikan
243 Memilih Host Name dan IP Address
Kebanyakan aplikasi menggunakan host name untuk merinci sebuah system Host Name mudah
untuk diingat dan dicek Menggunakan host name memungkinkan socket client untuk menemukan situs abstrak
yang diwakili oleh nama host meskipun telah dipindah ke IP Address yang baru Jika nama host tidak diketahui
socket client akan akan menyatakan system server sedang menggunakan IP Addressnya Ketika kita
menyediakan host name socket akan mencari IP Address yang berhubungan dengan host name sebelum socket
tersebut dapat menempatkan pada sistem server
Bab 3 Perencanaan dan Implementasi
21
BAB 3
PERENCANAAN DAN IMPLEMENTASI
31 Pendahuluan
Pada bab ini akan dijelaskan mengenai pengolahan sinyal wicara untuk mendapatkan ciri setiap
individu Juga akan dibahas mengenai pengolahan hasil keluaran sinyal wicara untuk ditransmisikan ke PC lain
(lewat jaringan) Dan selanjutnya akan dibahas pula mengenai plan atau obyek yang dalam hal ini adalah lampu
pijar
Berikut ini adalah blok diagram sistem secara keseluruhan
Gambar 31 Blok Diagram Sistem Secara Keseluruhan
Speaker pada gambar 31 memberikan suaranya sebagai masukan lewat mikrofon Masukan ini
akan diolah dalam PC client mulai dari proses sampling frame windowing FFT LPC Kemudian hasil dari
LPC dicari pemadanan dengan LPC dari sinyal standar yang telah tersimpan sebagai data base di dalam PC
client Hasil dari DTW tersebut akan dikirimkan ke PC server melalui TCPIP untuk diproses menjadi suatu
perintah ke perangkat keras Perintah tersebut merupakan bentuk implementasi dari perintah yang diberikan dari
PC client
Sebaliknya dengan adanya perubahan kondisi pada peralatan yang diinginkan maka terjadi sinyal
balikan yang berupa sinyal DTMF yang dikirimkan oleh perangkat keras ke PC server Oleh PC server sinyal ini
diolah untuk dikenali sebagai suatu kondisi tertentu yang akan dikirimkan ke PC client sebagai laporan tentang
kondisi alat yang diinginkan
32 Sistem Pengolahan Sinyal Wicara
321Perekaman Suara
TCPIP
Pengucap Speaker ADC Pengolahan Wicara dan Monitoring
Peralatan yang terkontrol
LAN Card
LAN Card
Pengenalan Pola Pengiriman Tone DTMF dan Pengenalan DTMF Sebagai Laporan
DTMF Decoding DTMF Generator Sistem Switching
Alat Terkontrol
Bab 3 Perencanaan dan Implementasi
22
Perekaman suara dilakukan menggunakan software berbasis TclTk 830 dan Snack22 Sebelumnya
akan dijelaskan satu per satu program yang dipakai
o TclTk 830
Tcl kepanjangan dari Tool Control Language Tk adalah Graphical Toolkit extension dari Tcl yang
menyediakan bermacam-macam item standar antarmuka GUI untuk memfasilitasi secara cepat pengembangan
aplikasi tingkat tinggi
o Snack22
Snack adalah tool pengolahan suara yang didesain sebagai extensi untuk bahasa script Saat ini Snack bekerja
dengan bahasa script TclTk Phyton dan Ruby Snack memiliki perintah-perintah untuk play record process
dan dan memvisualisasi suara Snack menyediakan obyek suara tingkat tinggi dengan manajemen penyimpanan
yang fleksibel dan streaming support Snack dapat bekerja pada banyak format file suara
Kita dapat membangun aplikasi sepaerti di bawah ini dengan integrasi dari TclTk dan Snack
Gambar 32 Program aplikasi pengenalan wicara
Frekuensi sampling pada program di atas diset pada frekuensi 12 kHz Frekuensi ini dipilih karena biasa
digunakan untuk voice Selain itu juga diset pada channel Mono dan sinyal encoding LIN 16 (resolusi 16 bit
PCM) Pada penekanan tombol ldquorecordrdquo diikuti tombol ldquostoprdquo dan kemudian tombol ldquostandartrdquo maka akan
dimulai proses perekaman yanag akan digunakan untuk membuat file standar untuk kedelapan perintah yang
akan digunakan untuk pembanding sinyal masukan
Adapun proses untuk sistem yang akan dibuat dapat digambarkan dengan diagram alir seperti di bawah
Bab 3 Perencanaan dan Implementasi
23
Mulai
Package Require
Snack 22
Exit
Program On
Running
Recording
Sound Card
Produser Running
Prosedur Recording
DTMF
Keluar
Tidak
YaTidak
Ya
Ya
Ya
Ya
Tidak
Tidak
Tidak
Gambar 33 Flowchart Sistem Graphical User
Interface
322 Sampling
Seperti telah dijelaskan di depan bahwa frekuensi sampling yang digunakan adalah sebesar 12000Hz
dimana dalam 1 detik sinyal terdapat 12000 titik sampling Sebagai contoh seperti gambar di bawah ini suatu
sinyal epanjang 20 ms disampling 12000 Hz menghasilkan titik sampling sebanyak 240 titik
Data Sampling
-20000
-15000
-10000
-5000
0
5000
10000
15000
20000
0 200 400 600
Amplitudo
Jumlah Data
Gambar 34 Sinyal hasil sampling dengan
frekuensi 12000 Hz
Bab 3 Perencanaan dan Implementasi
24
Mulai
Sinyal Masukan
Baca Panjang Sinyal
Bagi Menjadi N Frame
i = 0 i lt N i++
Ambil 240 Data Sampel
Tampilkan Nilai
Sampel
Selesai
Gambar 35 Flowchart Proses Sampling
323 Pre-emphasis
Agar spektrum sinyal merata di semua frekuensi dan mencegah kehilangan informasi akibat pembulatan
pada saat komputasi maka dilakukan prose preemphasis Fungsi transfer preemphasis adalah
H(z) = 1 ndash a z-1 09 le a le 1 (31)
Dimana nilai a berkisar 095 Berdasarkan model filter di atas maka keluaran dari preemphasis adalah
s(n) = s(n) ndash a s(n-1) (32)
324 Frame Blocking
Hasil perekaman merupakan sinyal dalam domain waktu yang bersifat variant time (fungsi yang
bergantung pada waktu) Sinyal yang telah dipreemphasis kemudian dibagi menjadi n buah frame Dengan
jumlah sample per frame sebesar N dan adjacent frame sebesar M sample Dimana M=05N Pada frame
pertama terdiri dari N buah sampel Frame kedua dimulai pada sampel ke M sehingga terjadi overlape sebesar
N - M sampel Begitupula untuk frame yang ketiga dimulai dari sample ke 2M sehingga terjadi overlape dari
farme kedua sebesar N + M-2M sampel juga Hal ini akan terus berlangsung hingga seluruh sinyal terbagi
menjadi beberapa frame
Bab 3 Perencanaan dan Implementasi
25
Gambar 36 Frame blocking sinyal
325 Windowing
Windowing yang digunakan adalah window hamming Setelah proses pengambilan sample maka
langkah selanjutnya adalah proses selanjutnya adalah proses windowing yang berfungsi untuk mengurangi efek
diskontinyuitas pada ujung-ujung frame Persamaannya adalah sebagai berikut
y[i] = x[i](054-046cos(20314159265(i-1)240) (33)
Flowchartnya bisa dilihat seperti di bawah
Mulai
240 Data
Sampel
i= 0 i lt 240 i++
Hamming Window
y[i] = x[i](054-046cos(2phi(i-1)
240))
Tampilkan
nilai
Hamming
Selesai
Gambar 37 Flowchart Proses Windowing
326 Fast Fourier Transform
Transformasi fourier cepat (FFT) adalah suatu metode yang sangat efisien untuk menyelesaikan
transformasi fourier diskrit (DFT) yang banyak dipakai untuk keperluan analisa sinyal Sehingga dengan FFT
N N N M
M N
N N
M
Bab 3 Perencanaan dan Implementasi
26
sinyal yang disampling dalam domain waktu ditransformasikan ke domai frekuensi dengan menggunakan
persamaan sebagai berikut
N-1
H(k) = sum h(n)e-j2лkN (34)
n=0
dengan k= 012N-1
Prosesnya dapat dilihat dari flowchart di bawah
Mulai
240 data
sampel
256 data sampel
i=0 ilt256 i++
tmp_log1=(xr[k]xr[k]+xc[k]xc[k])
tmp_log gt 0
xr[k]=10log10(tmp_log1)
Tampilkan
nilai
hamming
Selesai
xr[k]=10log10(0000001)
Ya
Tidak
Gambar 38 Flowchart Proses Fast Fourier
Transform
327 Autocorrelation analysis
Hasil dari windowing sinyal masukan kemudian dihitung autokerelasinya dengan persamaan
N-1-m
r1(m) = sum x1(n)x1(n+m) m=01p (35)
n=0
dimana niali autokorelasi tertinggi p adalah orde dari analisis LPCPada umumnya nilai dari p yang sering
digunakan adalah dari 8 sampai 16
Proses Autokorelasi dapat dilihat dari flowchart di bawah ini
Bab 3 Perencanaan dan Implementasi
27
Mulai
240 data p lpc
orde
i=0 iltp i++
j=0 jlt240-p-1 j++
RI[j]=sum(xI[i]xI[i+j])
Tampilkan nilai
autocorrelation
Selesai
Gambar 39 Flowchart Proses Autokorelasi
328 LPC Analysis
Hasil koefisien autokorelasi kemudian dikonversikan ke sebuah LPC parameter set (untuk metode LPC
autokorelasi) dikenal sebagai Metode Durbin dan secara formal ditunjukkan dari algoritma sebagai berikut
E(0) = r(0) (36)
ki=r(i)-sumαj(i-1) r(|i-j|)E(i-1) 1 le I le p (37)
αi(i) = ki (38 )
αj(i) = αj
(i-1)-ki α(i-1) ( 39)
t-j
E(i)=(1-ki2)E (i-j) (310)
dimana penyajian akhir dari persamaan 37 mengabaikan i=1 Kumpulan dari persamaan 36 -310 diselesaikan
secara rekursif untuk i=12p
Proses analisis dapat dilihat dari flowchart di bawah
Bab 3 Perencanaan dan Implementasi
28
Mulai
Autocorrelationr
p lpc orde
E (0) = r(0)
k1
= r(i)-sumalpha j (i-1) r( | i-j|E(i-1)
alpha j (i) = k
i
alpha j
(i) = alpha (i-1) -k i alpha
i-j (i-1)
E (i) = 1-k i 2) E(i-1)
Tampilkan nilai
parameter lpca
Selesai
i=0 iltp i++
Gambar 310 Flowchart proses LPC analisis
329 LPC Parameter to Cepstrum Analysis
Sekumpulan parameter LPC yang sangat penting yang dapat diturunkan langsung dari kumpulan
koefisien LPC adalah koefisien cepstral LPC c(m) Rekursif yang digunakan adalah
co = ln σ2 ( 311)
m-1
cm = am + sum ck am-k 1 le m le p (312)
k = 1
m-1
cm = sum ck am-k m gt p ( 313)
k = 1
Proses LPC parameter ke Cepstrum Analysis dapat dilihat dari flowchart di bawah ini
k m ( )
k m ( )
Bab 3 Perencanaan dan Implementasi
29
Mulai
lpc parameter a
p lpc orde
c o = ln del 2
1 lt=mlt=p
i=0 iltp i++
Cm
= am
+sum((km)Ck a
m-kC
m =sum((km)C
ka
m-k)
Tampilkan nilai lpc
cepstrumc
Selesai
Gambar 311 Flowchart Proses LPC parameter ke
Cepstrum
3210 Dynamic Time Warping
Proses yang terjadi pada Dynamic Time Warping adalah pengukuran jarak suara antara sinyal standart
dan sinyal input Yang diukur berupa deretan nilai dari hasil LPC Cepstrum dalam bentuk kolom dan baris (ij)
yang disimpan dalam satu file Pada kolom berisi nilai tiap cepstrum sedangkan baris berupa banyaknya frame
Teknik yang digunakan dinamakan Dynamic Programming Alur kerjanya dapat dilihat dari flowchart di bawah
Bab 3 Perencanaan dan Implementasi
30
Mulai
i=0 iltN i++
j=0 jlt15 j++
Cepstrum
Standart
Std_Ceps [i][j]
Cepstrum
Input
Inp_Ceps [i][j]
DP_dist = DP_match1(r)
DP_dist
Selesai
Gambar 312 Flowchart Proses Dynamic Programming
33 Awal dan Akhir Sinyal suara
331 Power
Untuk mendapatkan suatu sinyal suara tanpa adanya noise maka sinyal harus benar-benar dipotong
tepat pada awal dan akhirnya Oleh karena itu dipakai power sebagai salah satu cara yang efektif dalam
menentukan awal dan akhir suatu sinyal suara
Dimana tiap frame mempunyai power yang merupakan hasil kuadratisasi dari penyampelan tiap frame
yang kemudian hasil keseluruhan diakarkan seperti bisa dilihat pada flowchart di bawah
Bab 3 Perencanaan dan Implementasi
31
Mulai
Power = 0
i=0 ilt240 i++
Power=Power+sqrt(xixi)
Selesai
Gambar 313 Flowchart Proses Power
Jumlah sample per frame ditetapkan sebesar 240 sampel Kemudian dicari power masing-masing antara sinyal
utuh dan sinyal noise kemudian dengan p ge p + 07 standar deviasi maka didapatkan awal dan akhir sinyal
suara
332 Unvoiced Plosive
Adanya daerah kosong menyebabkan sinyal tidak valid dalam pemotongan awal dan akhirnya karena
bisa dianggap noise padahal berada dalam sinyal suara ( merupakan bagian dari sinyal suara) Oleh karena itu
dicari mean dari 25 kata sinyal suara yang kemudian dicari nilai thresholdnya sebagai panjang akhir dari daerah
kosong Dan nilai tersebut diikutsertakan dalam looping dan jika setelah itu terdapat sinyal kembali maka
berarti masih ada sinyal suara dan jika tidak ada berarti tidak ada sinyal suara
34 Proses Pada Client
Preses pada client dapat dijelaskan sebagai berikut
Gambar 314 Blok diagram proses client
Penjelasan dari blok digram tersebut adalah
1 Pertama adalah perekaman suara pada software recording yang hasilnyadisimpan dalam bentuk file
berekstensi ldquowavrdquo File ini selanjutnya akan dijadikan file input pada sistem client
2 File suara yang telah tersimpan diolah dalam program sampling untuk mendapatkan sinyal suara dalam
bentuk frame Setiap frame terdiri dari 120 sampel
Mic Extract AD Voice Dikenali
Bab 3 Perencanaan dan Implementasi
32
3 Tiap frame diwindow dengan window Hamming untuk mengurangi efek diskontinyuitas pada ujung-
ujung frame
4 Sinyal hasil window yang masih dalam domain time diubah ke dalam domain frekuensi dengan Fast
Fourier Transform (FFT)
5 Hasil dari windowing sinyal masukan kemudian dihitung autokerelasinya
6 Hasil koefisien autokorelasi kemudian dikonversikan ke sebuah LPC parameter set (untuk metode LPC
autokorelasi) Sekumpulan parameter LPC yang sangat penting yang dapat diturunkan langsung dari
kumpulan koefisien LPC adalah koefisien cepstral LPC
7 Selanjutnya dilakukan proses DTW (Dynamic Time Warping) pengukuran jarak suara antara sinyal
standart dan sinyal input Hasilnya disimpan dalam sebuah file berekstensi ldquotxtrdquo
8 File berekstensi txt tersebut ke server sebagai sinyal suara input
35 Proses Pada Server
Proses pada server dapat dijelaskan sebagai berikut
Gambar 315 Blok diagram proses server
Penjelasan dari blok diagram tersebut adalah
1 Isi file berekstensi rdquotxtrdquo diterima oleh server dan digunakan sebagai data input untuk memanggil
database tone DTMF yang sesuai sebagai pengoperasian alat yang akan dikontrol
2 Alat yang terkontrol akan menunjukkan hasilnya
Memanggil
Database
Tone
Dikode
kan
dalam
biner
Kirim
ke HW
Kontrol
Alat
Input
server
Bab 4 Pengujian dan Analisa
33
BAB 4
PENGUJIAN DAN ANALISA
41 Pendahuluan
Untuk mengetahui tingkat keberhasilan dari suatu sistem diperlukan pengujian keseluruhan dari
perencanaan hasil sistem yang telah dibuat Dalam bab ini akan dijelaskan mengenai hal tersebut
Pengujian yang akan dilakukan adalah
1 Pengujian dan analisa sistem pengolahan sinyal wicara
2 Pengujian dan analisa sistem client server
3 Pengujian dan analisa awal dan akhir sistem pengolahan wicara
42 Pengujian dan Analisa Sistem Pengolahan Wicara
Tujuan untuk mendapatkan parameter ciri individu dari sampel sinyal yang diolah
421 Perekaman Suara
Pada Tugas Akhir ini digunakan duamacam perangkat lunak yang dibangun sendiri berbasis TclTk 830
dan Snack 22 sebagai perangkat lunak yang diuji dan perangkat lunak Wavesurver sebagai pembanding
4211 Dengan menggunakan TclTk dan Snack
Tampilan awal dari perangkat lunak yang dibangun dengan menggunakan TclTk dan Snack adalah sebagai
berikut
Gambar 41 Tampilan awal perangkat lunak menggunakan TclTk dan Snack
Bab 4 Pengujian dan Analisa
34
Pertama kali tombol record ditekan maka proses pengambilan sinyal wicara yang dimasukkan
dimulai Pada saat tombol Stop ditekan maka program akan merekam kata ldquosatu nyalardquordquosatu matirdquordquodua
nyalardquordquodua matirdquordquotiga nyalardquordquotiga matirdquordquoempat nyalardquordquoempat matirdquo sesuai yang kita masukkan dan
tampilan display akan digambarkan bentuk sinyal yang dihasilkan secara otomatis Hasil perekaman dapat
dilihat pada gambar berikut 42
Gambar 42 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan perangkat lunak
TclTk dan Snack
Gambar 42 menunjukkan bahwa proses pengambilan sinyal suara telah dilakukan Sinyal suara yang
dimasukkna akan terlihat gambarnya pada layar hitam (canvas)
4212 Dengan menggunakan Wave Surver
Sebagai pembanding dari program yang telah dibuat yaitu dari perangkat lunak TclTk dan Snack
digunakan Wavesurver
Tampilan awal dari Wavesurver 157 tampak seperti pada gambar 43
Gambar 43 Tampilan awal perangkat lunak menggunakan Wavesurver
Bab 4 Pengujian dan Analisa
35
Pada saat tombol recording ditekan maka program akan merekam kata ldquosatu nyalardquo dan pada tampilan
display akan digambarkan bentuk sinyal yang dihasilkan secara otomatis Hasil perekaman bisa dilihat pada
gambar 44
Gambar 44 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan
perangkat lunak Wavesurver
Perekaman pada Wavesurver dapat diset sesuai dengan kebutuhan Dimana pada sistem pengolahan sinyal
suara untuk perekaman suara diset sebagai berikut
Gambar 45 Kotak dialog setting perekaman perangkat lunak Wavesurver
Pada data di atas dapat dilihat bahwa suara yang direkam dengan mengguanakan perangkat lunak
Wavesurver mempunyai header dan tail yang berisi keterangan perekaman sebagai berikut
12000 menunjukkan frekuensi sampling yang digunakan
Bab 4 Pengujian dan Analisa
36
Channels menunjukkan bahwa suara direkam dengan menggunakan channel Mono
Sampel Encoding Lin 16 menunjukkan bahwa suara direkam dengan menggunakan
16 bit PCM
422 Sampling
Dengan menggunakan program yang dibangun sendiri di atas proses penyamplingan sinyal input sekaligus
telah terjadi dimana dengan frekuensi sampling sebesar 12000 Hz didapatkan sinyal dari kata ldquosatu nyalardquo
dengan potongan sebagai berikut
3306
3538
3788
4076
4282
4684
4747
4956
5083
5442
5844
5901
6244
6196
6462
6104
Berikut ini adalah cuplikan dari data sampel kata ldquo empat matirdquo mulai dari milidetik ke-13900
Bab 4 Pengujian dan Analisa
37
Data Sampling
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 46 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900
Pada gambar 46 telah dilakukan proses sampling sinyal masukan dengan frekuensi sampling sebesar 12000
Hz maka didapatkan hasil sinyal yang hampir mirip dengan sinyal analognya karena sinyal suara manusia
memiliki jarak frekuensi antara 300 sampai 5000 Hz dimana syarat Nyquist minimal fsampling 2fsinyal
telah terpenuhi
423 Windowing
Jenis window yang digunakan adalah window Hamming
Pada proses window hamming kata yang telah disampel sebanyak 240 sampel akan diwindow sehingga
menghasilkan sinyal yang lebih kecil peaknya Hasilnya adalah sebagai berikut
-26174
-22078
-12518
-1444
9690
19308
23360
20049
12365
2391
-7874
-14539
-17837
-19929
-19007
-16955
Bab 4 Pengujian dan Analisa
38
Sedangkan hasil dalam bentuk gambar dapat dilihat pada gambar berikut
Data Windowing
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 47 Hasil Windowing data sampel kata ldquoempat matirdquo milidetik ke-13900
Seperti yang ditunjukkan gambar 47 proses windowing telah dilakukan Berdasarkan gambar 47
tersebut dapat dikatakan bahwa window Hamming menyebabkan sinyal yang disampel lebih halus Gambar
47 dapat dibandingkan dengan gambar 46 yaitu gambar sinyal sebelum melalui proses windowing dapat
dilihat bahwa sinyal yang telah diwindow mempunyai sinyal yang lebih halus Hal ini membuktikan bahwa
fungsi dari windowing untuk mengurangi efek diskontinyuitas pada ujung-ujung frame adalah benar
424 Fast Fourier Transform Sinyal Masukan
Pada proses ini sinyal yang sebelumnya berada dalam domain waktu akan diubah dalam domain
frekuensi Setiap sinyal yang berasal dari alam merupakan sinyal analog yang bila diolah harus diubah
dalam bentuk sinyal digital Dan pengolahan dalam digital merupakan pengolahan dalam bentuk diskrit
Pada proyek akhir ini sinyal dalam domain waktu akan diubah dalam domain frekuensi dengan 256 titik
Karena hasil yang diperoleh berupa hasil dari fungsi konvolusi maka hanya akan diambil 128 titik saja yang
akan diolah dalam proses selanjutnya Sedangkan 128 sisanya tidak dipergunakan karena berupa
pencerminan saja
Hasil dari Fast Fourier Transform (FFT) dari penggalan kata ldquoempat matirdquo pada milidetik ke-13900 dalam
bentuk teks adalah
103505157
106889458
Bab 4 Pengujian dan Analisa
39
104735321
100408661
89175987
95431992
96601654
8489315
89637459
8630304
75320663
87866905
91001945
89607201
82408546
83440155
4241 Dengan Menggunakan TclTk dan Snack
Fast Fourier Transform Sinyal
Masukan
0
20
40
60
80
100
120
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 48 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat
lunak TclTk dan Snack
Dari gambar 48 di atas sinyal suara yang sebelumnya berada di domain waktu telah diubah ke domain
frekuensi Hasil Fast Fourier Transform sinyal masukan menunjukkan sebaran spektrum frekuensi dari
sinyal suara yang telah dihasilkan oleh pengucap antara 0 sampai 6000 Hz
Bab 4 Pengujian dan Analisa
40
4242 Dengan Menggunakan Wavesurver
Gambar 49 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat
Wavesurver
Dari gambar 49 di atas hasil Fast Fourier Transform sinyal masukan menunjukkan sebaran spektrum
frekuensi dari sinyal suara yang telah dihasilkan oleh pengucap antara 0 sampai 6000 Hz adalah sama
seperti pada gambar dengan gambar 48 yang diambil dengan perangkat lunak TclTk dan Snack
425 Autocorrelation Analysis
Pada proses ini sinyal masukan dalam domain waktu yang telah diwindow hamming dihitung korelasinya
dengan menggunakan orde analisi LPC sebesar 15 Sehingga akan didapatkan hasil rk(autokorelasi) sebagai
berikut
17648453
128874
0669745
0662566
0470262
0164336
-010638
-0229032
-016249
0014062
0138456
0188749
0117826
0014517
-0052704
426 LPC Analysis
Dari hasil autokorelasi tersebut di atas selanjutnya adalah LPC dimana mengkonversi masing-masing
frame dari autokorelasi p+1 ke dalam sebuah LPC Parameter a
Bab 4 Pengujian dan Analisa
41
Metode yang formal untuk mengkonversi dari koefisien autokorelasi ke sebuah LPC parameter (untuk
metode LPC autokorelasi) dikenal sebagai Metode Durbin dan secara formal hasilnya dapat ditunjukkan
sebagai berikut ini
1
-128874
0160681
-0156173
0166653
0255508
0192145
0003037
-0202248
-0265201
-0112133
005938
0232232
0203554
0048429
Dari hasil di atas terlihat bahwa untuk setiap frame nilai pertama menunjuukan energi dari masing-masing
frame dan selanjutnya adalah parameter LPC dalam satu frame yang digunakan sebagai penentu ciri dari
sinyal suara yang dihasilkan oleh individu
427 Fast Fourier Transform LPC Parameter
Pada proses ini nilai dari parameter LPC yang sebelumnya masih berada dalam domain waktu akan diubah
dalam domain frekuensi Pada proyek akhir ini parameter LPC dalam domain waktu akan diubah dalam
domain frekuensi dengan 256 titik Karena hasil yang diperolah berupa hasil dari fungsi konvolusi maka
hanya akan diambil 128 titik saja yang akan diolah dalam proses selanjutnya Sedangkan 128 sisanya tidak
dipergunakan karena berupa pencerminan saja
Hasil dari Fast Fourier Transform (FFT) dari parameter LPC pada penggalan kata ldquoempat matirdquo pada
milidetik ke-1 dalam bentuk teks adalah
103505157
106889458
104735321
100408661
89175987
Bab 4 Pengujian dan Analisa
42
95431992
96601654
8489315
89637459
8630304
75320663
87866905
91001945
89607201
82408546
4271 Dengan menggunakan TclTk dan Snack
Fast Fourier Transform Parameter
LPC
0
20
40
60
80
100
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 410 Fast Fourier Transform LPC dengan
menggunakan perangkat lunak TCLTk
dan Snack
Hasil gambar 410 menunjukkan bahwa parameter LPC yang di-Fourier Transform-kan akan menjadi
selubung spektrum dari spektrum sinyal masukan Sehingga jika selubung dan spektrumnya secara gambar
cocok dapat dikatakan bahwa LPC parameter yang dihitung benar
Bab 4 Pengujian dan Analisa
43
4272 Dengan menggunakan Wavesurver
Gambar 411 Fast Fourier Transform LPC denganmenggunakan perangkat lunak
Wavesurver
Hasil gambar 411 menunjukkan bahwa parameter LPC yang di-Fourier Transform-kan akan menjadi
selubung spektrum dari spektrum sinyal masukan adalah sama dengan yang telah diperoleh dengan
perangkat lunak TclTk seperti pada gambar 410
428 LPC Parameter to LPC Cepstrum
Koefisien LPC cepstrum koefisien yang direpresentasikan dengan Fourier Transform dengan spektrum
besaran log telah ditampilkan menjadi kumpulan fitur untuk pengenalan wicara yang lebih handal
terpercaya daripada koefisien LPC koefisien PARCOR atau koefisien log area ratio
Hasil dari LPC cepstrum pada penggalan kata ldquoempat matirdquo pada milidetik ke-106 dalam bentuk teks adalah
16636311
1387922
0474473
0654796
0429659
0132543
0225374
0126501
0021161
0242437
Bab 4 Pengujian dan Analisa
44
0160623
0065745
0139379
0056064
-0029262
Dari hasil di atas dapat dianalisa bahwa besaran-besaran dari LPC cepstrum benar-benar dapat
digunakan sebagai penentu ciri dari sinyal suara individu karena besaranndashbesaran yang dihasilkan oleh LPC
cepstrum dari yang pertama sampai yang terakhir dalam satu frame sangat bervariasi nilainya
429 Inverse Fast Fourier Transform LPC Cepstrum
Untuk menggambarkan ciri atau fitur wicara dalam domain waktu maka LPC cepstrum di-Invers Fast
Fourier Transform-kan sehingga didapatkan gambar untuk penggalan kata ldquosatu nyalardquo pada milidetik ke-
400 seperti gamabar 412
Fast Fourier Transform LPC
Cepstrum
0
20
40
60
80
100
120
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 412 Invers Fast Fourier Transform LPC cepstrum dengan menggunakan
perangkat lunak TCLTk dan Snack
Dari gambar 412 dapat dianalisa bahwa bentuk dari invers fourier transform LPC cepstrum yang
menyerupai selubung pada domain waktu dari spektrum frekuensi juga digunakan untuk menunjukkan
bahwa perhitungan LPC cepstrumnya telah benar dan dapat digunakan sebagai penentu ciri sinyal suara
individu
Invers Fast Fourier Transform LPC
Cepstrum
Bab 4 Pengujian dan Analisa
45
Gambar 413 Penggabungan spektrum sinyal spektrum LPC dan spektrum LPC
Cepstrum
Gambar 413 spektrum sinyal yang diwakili warna merah merupakan hasil sinyal yang telah di-Fast
Fourier Transform-kan Spektrum sinyal yang berwarna hijau merupakan parameter LPC yang telah di-
Fourier Transform-kan Sinyal ini akan menjadi selubung spektrum dari spektrum sinyal masukan Bila
selubung dan spektrumnya secara gambar cocok maka dapat dikatakan bahwa LPC parameter yang dihitung
adalah benar Dari gambar 413 dapat dilihat antara selubunga dan selubung sinyal masukan sudah cocok
Sinyal yang berwarna biru merupakan sinyal rata-rata dari sinyal selubung spektrum
4210 Dynamic Time Warping
Pengujian terakhir dari proses pengolahan sinyal wicara adalah membandingkan sinyal hasil cepstrum LPC
antara data input dan data standarnya Berdasarkan daerah pembatas kontinyuitas lokal dari persamaan 21
maka digunakan model yang pertama dan menggunakan persamaan 2116 dalam menghitung jarak antara
kata sebagai standar dan sebagai masukan
Selanjutnya menetukan data data sebagai data standar dan data sebagai data masukan Pada sistem ini
digunakan 8 kombinasi kata sebagai kata standar dan kata msukan untuk masing-masing pengujian dengan
kata standar sebanyak sepuluh (10) kali Adapun kata yang digunakan sebagai standar dan kata yang diuji
adalah meliputi satu nyalasatu matidua nyaladua matitiga nyalatiga matiempat nyalaempat
mati
Pada pengujian sistem kali ini masih menggunakan datasuara dari pebgucap yang sama Dari kelima data
standar yang ada dilakukan pembandingan dengan masing-masing 10 (sepuluh) kali pemasukan data Data
yang menghasilkan jarak euclidian terpendek dari masing-masing kata itulah yang akan diambil sebagai
data perintah terbaik
Bab 4 Pengujian dan Analisa
46
Pelekukan Jalur Suara
0
50
100
150
0 50 100 150
Sinyal Input empat mati
Sinyal Standart
empat mati
Gambar 414 Pelekukan Jalur Suara dengan Dynamic Time Warping
Dari gambar 414 dapat dianalisa bahwa dengan menggunakan dynamic time warping dua buah sinyal suara
akan dibandingkan vektor-vektor spektralnya dimana juga terdapat proses pembandingan panjang sinyal
antara dua buah sinyal tersebut sehingga terjadi proses pemadanan panjang sinyal dengan cara
memperpanjang dan menekuk vektor spektralnya Memperpanjang dalam arti memperpanjang sinyal yang
lebih pendek dengan memperhatikan perbandingan vektor spektralnya dan demikian pula menekuk dalam
arti menekuk sinyal yang lebih panjang dengan memperhatikan vektor spektralnya Dengan panjang yang
sama sebagai hasil dynamic time warping maka jarak euclidian antara dua sinyal dapat diperbandingkan
atau dihitung
4211 Min Value dan Sorting
Min Value dan Sorting menjadi satu paket sendiri yang digunakan untuk mencari kemungkinan hasil
terkecil dari pembandingan pola kata masukkan dengan kedelapan kata standart Keluaran dari fungsi
dynamic time warping akan memberikan delapan buah data yaitu hasil pembandingan kata masukan
dengan kata standart satu nyala hasil pembandingan kata masukan dengan kata standart satu mati hasil
pembandingan kata masukan dengan kata standart dua nyala hasil pembandingan kata masukan dengan
kata standart dua mati hasil pembandingan kata masukan dengan kata standart tiga nyala hasil
pembandingan kata masukan dengan kata standart tiga mati hasil pembandingan kata masukan dengan
kata standart empat nyala hasil pembandingan kata masukan dengan kata standart empat mati Dengan
metode sorting buble sort maka akan didapat nilai minimalnya
0748745
0362272
0633390
0327642
0600250
0346530
Bab 4 Pengujian dan Analisa
47
0545907
0207464
Berdasarkan data diatas maka perintah input sama dengan perintah kedelapan (ldquoempat matirdquo) karena
memiliki hasil time warping terkecil yaitu 0207464
4212 Hasil Pengujian Awal dan Akhir Sinyal
Pada proses penentuan awal dan akhir agar lebih presisi menggunakan ldquoPowerrdquo Adapun kelebihan dari
power adalah dapat membedakan antara sinyal suara dengan sinyal noise
Untuk menentukan awal dan akhir dicari nilai power Pada proses power kata yang telah disampel
sebanyak 240 sampel akan menghasilkan sinyal yang halus dan terletak di atas sumbu x Hasil dalam bentuk
teks adalah sebagai berikut ini
7678195313
1165659297
123492625
8917128906
6318766797
4531086719
4338374609
4912630469
5382503125
4548908984
429756875
4739710547
4575902734
4682924609
4786217578
Bab 4 Pengujian dan Analisa
48
Gambar hasil power bisa dilihat pada gambar 415 berikut
Power
0
100000
200000
300000
400000
500000
0 50 100 150
Jumlah Frame
Amplitude
Gambar 415 Sinyal ldquoempat matirdquo hasil program power
Gambar 416 berikut ini adalah hasil pengujian kata ldquoempat matirdquo sebagai masukan dan kata standar ldquoempat
matirdquo dimana kedua kata dibandingkan berdasarkan powernya sebelum proses Dinamic Time Warping
Sinyal warna biru sebagai power sinyal standart dan sinyal yang berwarna merah merupakan power sinyal
input
Perbandingan Dua Kata empat mati
sebelum DTW
0
100000
200000
300000
400000
500000
0 50 100 150
Jumlah Frame
Amplitude
Gambar 416 Perbandingan power dua kata ldquoempat matirdquo sebelum Dynamic Time Warping
Berikut ini adalah hasil pengujian dua buah kata ldquoempat matirdquo dengan menggunakan dynamic time warping
dimana jalur pelekukan suara dapat digambarkan pada gambar 417
Bab 4 Pengujian dan Analisa
49
Pelekukan Jalur Suara
0
50
100
150
0 50 100 150
Sinyal Input empat mati
Sinyal Standart
empat mati
Gambar 417 Pelekukan jalur suara dua kata ldquoempat matirdquo dengan DTW
Gambar 418 adalah hasil pengujian dua buah kata ldquoempat matirdquo sebagai masukan dan dan kata standar
ldquoempat matirdquo dimana kedua kata dibandingkan berdasarkan powernya setelah proses dynamic time
warping
Gambar 418 dapat dibandingkan dengan gambar 416 yaitu sinyal sebelum proses Dynamic Time Warping
Sebelum proses Dynamic Time Warping sinyal tidak mengalami proses penekukan dan penarikan data
berdasarkan waktu antara keduanya sehingga antara sinyal input dan sinyal standart memiliki ukuran
panjang yang sangat jauh berbeda
Pemadanan Dua Kata Setelah DTW
0
100000
200000
300000
400000
500000
0 100 200 300
Jumlah Frame
Amplitude Power
Gambar 418 Perbandingan power dua kata ldquoempat matirdquo setelah Dynamic Time Warping
Dari gambar 418 dapat dinyatakan bahwa setelah melalui proses dynamic time warping terjadi penekukan
dan penarikan data berdasarkan waktu antara keduanya sehingga pada akhirnya kedua sinyal memiliki
ukuran panjang yang sama Sehingga dengan demikian dapat dicari jarak euclidian untuk menentukan
sebuah kata yang sesuai dengan kata yang lainnya
Bab 4 Pengujian dan Analisa
50
4213 Hasil Pengujian Sistem Perangkat Lunak
Pada pengujian sistem perangkat lunak diambil sampel data dari 3 orang dimana terdiri dari 3 orang pria
dan 1 orang wanita Pria pertama merupakan standar sekaligus pengisi suara untuk perintah Sedangkan pria
kedua dan wanita sebagai pembanding untuk mengetahui unjuk kerja sistem
Tabel 41 Hasil pengujian sistem pengolahan sinyal wicara untuk pengucap yang sama (pria
1)
8 7 6 5 4 3 2 1 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05417
03487
05964
03443
07272
04424
03449
01
961
Satu
nyala
Sinyal Standart
02496
04723
03013
05120
03450
03815
01
739
03471
Satu
mati
04389
02035
06139
03244
04343
02
158
04567
04047
Dua
nyala
01866
04517
04157
05267
01
940
02561
02036
04779
Dua
mati
04833
02168
03984
01
090
06409
04278
05019
02690
Tiga
nyala
02683
04628
01
188
03416
04046
03345
02959
04614
Tiga
mati
03807
01
046
05271
01974
05934
03134
04363
02554
Empat
nyala
01
388
03728
02269
04497
02559
03195
02476
04874
Empat
mati
Bab 4 Pengujian dan Analisa
51
16
15
14
13
12
11
10
9 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05776
02988
05100
04019
06101
05338
04219
02
047
Satu
nyala
Sinyal Standart
03382
04381
02427
05124
02642
05990
02
706
03335
Satu
mati
04453
02558
04993
04574
03381
02
344
04529
04121
Dua
nyala
01669
04532
03190
06355
01
004
04807
03466
04622
Dua
mati
05209
02261
03366
01
124
05377
04165
05369
02660
Tiga
nyala
03721
04074
00
891
03002
02637
05958
02719
04333
Tiga
mati
03889
01
755
04365
02341
04826
03150
05193
02472
Empat
nyala
01
092
03974
01802
04848
01455
05343
02717
04536
Empat
mati
Bab 4 Pengujian dan Analisa
52
24
23
22
21
20
19
18
17 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05157
04015
06277
02964
05609
04690
03376
01
369
Satu
nyala
Sinyal Standart
01787
05144
03814
04134
04952
04843
01
636
03404
Satu
mati
03988
03026
07420
03020
03977
01
905
04801
03610
Dua
nyala
01630
05662
06259
05009
01
808
03357
02206
05094
Dua
mati
04667
02681
05731
01
448
05575
03280
05344
03417
Tiga
nyala
01902
05055
03
395
02597
04700
04618
02951
04808
Tiga
mati
03809
01
863
06920
02154
04252
02455
04616
03184
Empat
nyala
00
761
04379
04288
04053
03629
04122
02419
05622
Empat
mati
Bab 4 Pengujian dan Analisa
53
32
31
30
29
28
27
26
25 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
04793
03554
06312
03247
06514
03585
03068
02
935
Satu
nyala
Sinyal Standart
01671
04661
03012
03961
02834
04667
01
079
05475
Satu
mati
04033
02359
05307
02587
03475
01
587
04781
04010
Dua
nyala
02222
04949
03652
04387
00
958
03222
02647
04966
Dua
mati
04499
02207
04170
01
873
05884
02500
05631
03257
Tiga
nyala
01791
04432
01
196
02646
02999
04619
02558
05048
Tiga
mati
03561
01
050
05061
02437
04927
01887
05325
03424
Empat
nyala
00
858
03774
02052
03974
01440
04186
02597
05381
Empat
mati
Bab 4 Pengujian dan Analisa
54
40
39
38
37
36
35
34
33 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
06471
03838
05816
03364
06492
03613
03496
01
111
Satu
nyala
Sinyal Standart
02951
05556
02631
04558
05057
04799
01
683
02958
Satu
mati
05259
02977
05228
03305
04614
00
878
05159
02707
Dua
nyala
03165
05686
03078
05512
01
088
03082
03482
04823
Dua
mati
05397
02037
03714
00
949
06365
02818
05998
02829
Tiga
nyala
02990
04867
00
921
02759
04978
04752
03131
04533
Tiga
mati
05028
01
233
05114
02070
05154
01825
05439
01975
Empat
nyala
01
914
04521
01834
04248
02711
04164
03149
04755
Empat
mati
Bab 4 Pengujian dan Analisa
55
48
47
46
45
44
43
42
41 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
07997
03701
06005
03992
05800
05223
03706
01
198
Satu
nyala
Sinyal Standart
03909
04978
02572
05339
05784
05103
01
161
03113
Satu
mati
06284
02355
05419
04194
03709
02
588
04764
02834
Dua
nyala
03737
04883
03321
06131
03
489
04229
03188
04962
Dua
mati
05885
02259
04026
00
918
06123
03601
05739
0 2867
Tiga
nyala
03583
04464
00
974
03340
05828
05114
02720
04269
Tiga
mati
05762
01
230
7
05459
02231
04899
03397
05114
0 2395
Empat
nyala
02
247
02888
01948
04994
04987
04505
02141
0 4956
Empat
mati
Bab 4 Pengujian dan Analisa
56
56
55
54
53
52
51
50
49 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05627
03923
06226
04018
05254
04895
02933
02
009
Satu
nyala
Sinyal Standart
02473
04947
02892
05661
05301
05040
01
289
03008
Satu
mati
04393
02779
06046
04425
02900
01
743
04571
02669
Dua
nyala
02222
05352
04171
06748
01
202
03736
03177
03699
Dua
mati
04644
02488
03523
00
835
05391
03319
05277
03671
Tiga
nyala
02213
04345
01
009
03758
02869
05933
02761
03900
Tiga
mati
04093
01
443
05080
05083
04959
02819
04840
02709
Empat
nyala
01
239
04029
0 2223
05428
01263
04236
02575
04141
Empat
mati
Bab 4 Pengujian dan Analisa
57
64
63
62
61
60
59
58
57 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
07489
03792
05134
04199
06459
04019
03044
01
850
Satu
nyala
Sinyal Standart
03586
04783
02186
05509
02884
04251
01
198
03243
Satu
mati
05697
02612
04576
04268
03211
01
519
04639
03845
Dua
nyala
03563
05288
02855
06752
01
074
03523
03265
04523
Dua
mati
05768
02262
03884
01
048
06348
02633
05784
02683
Tiga
nyala
03449
04859
01
009
03177
03425
04355
02975
04077
Tiga
mati
05693
01
445
04574
02498
05298
01999
05622
02359
Empat
nyala
02
236
04215
01468
05161
01827
03851
03161
04416
Empat
mati
Bab 4 Pengujian dan Analisa
58
72
71
70
69
68
67
66
65 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05439
02975
05593
03689
05796
03415
03416
01
492
Satu
nyala
Sinyal Standart
02225
04543
04586
04584
02669
04529
01
112
02881
Satu
mati
04025
02639
06303
03009
02582
01
003
05045
02767
Dua
nyala
01734
05437
04847
04897
00
826
02892
02584
04797
Dua
mati
04671
02336
04988
01
206
05595
02572
05647
02991
Tiga
nyala
02095
04805
04
025
02747
02848
04359
02773
04076
Tiga
mati
03971
01
297
05065
02121
04489
01703
05074
02131
Empat
nyala
00
901
04123
04026
04154
01514
03762
02328
04561
Empat
mati
Bab 4 Pengujian dan Analisa
59
80
79
78
77
76
75
74
73 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
07997
03054
06228
04446
05805
04687
03173
03
391
Satu
nyala
Sinyal Standart
05051
04619
05619
05749
02631
04447
01
086
05310
Satu
mati
05949
03685
05899
05607
03163
01
874
05234
03797
Dua
nyala
03109
05053
05258
07102
01
095
03368
03585
04539
Dua
mati
06473
02004
04524
01
350
05525
03084
05608
03682
Tiga
nyala
04759
04205
04
309
03701
03031
04660
02678
05243
Tiga
mati
05572
02
003
05167
02702
04478
02552
05358
03563
Empat
nyala
02
459
04960
04964
05734
01641
03971
02630
05029
Empat
mati
Pengujian pertama ini dilakukan dengan cara memasukkan suara pria pertama (yang digunakan sebagai
pengisi suara standart) Setiap satu perintah dilakukan sebanyak 10 kali pengujian Hasil pengujian
merupakan nilai dari hasil proses Dynamic Time Warping yang merupakan nilai dari pemadanan sinyal
input dengan kedelapan sinyal standart Nilai terkecil (nilai yang tercetak tebal) yang didapatkan merupakan
hasil yang paling mendekati sinyal standart Yang berarti sinyal masukan tersebut dianggap paling sesuai
dengan sinyal standart
Prosentase keberhasilan pengucapspeaker pertama untuk kedelapan perintah sebesar 100 semuanya
menunjukkan kepada sinyal masukkan dan sinyal standart yang sama
Hasil pengujian menunjukkan bahwa ciri sinyal suara yang dihasilkan oleh pengucap speaker pertama dan
sebagai pemberi standart adalah sama
Bab 4 Pengujian dan Analisa
60
Tabel 42 Hasil pengujian sistem pengolahan sinyal wicara untuk pengucap yang lain (pria
2)
8 7 6 5 4 3 2 1 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
06023
05121
07146
04599
04996
04561
07575
04
358
Satu
nyala
Sinyal Standart
04018
05701
06369
06256
03518
05738
07004
08129
Satu
mati
07120
03925
07395
04897
05938
02246
10082
06777
Dua
nyala
04963
05958
05189
07345
03449
04854
08816
08543
Dua
mati
05919
04337
05163
02
130
04797
03463
08871
05289
Tiga
nyala
03709
04519
04380
03601
03491
05239
06
046
07381
Tiga
mati
06087
03
161
06178
03280
05
068
02
439
08853
05354
Empat
nyala
03
409
04321
04
208
05569
03219
04898
06863
08596
Empat
mati
Bab 4 Pengujian dan Analisa
61
16
15
14
13
12
11
10
9 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05475
03932
05521
04
383
05634
05416
04
464
03
434
Satu
nyala
Sinyal Standart
04076
05731
04541
05681
03574
04920
03971
06662
Satu
mati
07427
04886
07924
05962
05824
02
712
07837
05504
Dua
nyala
04475
06666
05765
07616
03414
04203
05431
06334
Dua
mati
05357
03797
05099
04509
04902
04332
07097
05220
Tiga
nyala
04197
05134
04
209
05088
03169
04547
04464
06516
Tiga
mati
05936
03
769
05910
05109
05
311
03435
07646
04977
Empat
nyala
03
576
05767
04591
06367
03010
04129
04944
06850
Empat
mati
Bab 4 Pengujian dan Analisa
62
24
23
22
21
20
19
18
17 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
06927
04
279
08096
04
448
06461
05522
03935
02
444
Satu
nyala
Sinyal Standart
06409
05322
05528
05481
04912
04491
02
011
05508
Satu
mati
06134
04643
08962
06002
04868
02
579
06122
05502
Dua
nyala
04753
06443
05501
07364
02
298
03206
04239
06684
Dua
mati
05709
04928
05456
04961
06142
05726
06454
03831
Tiga
nyala
05798
04882
03
235
04708
04838
04317
03526
05462
Tiga
mati
05021
04423
06842
05583
05222
04132
06363
04235
Empat
nyala
04
457
05427
03546
05773
02946
03573
03618
07019
Empat
mati
Bab 4 Pengujian dan Analisa
63
32
31
30
29
28
27
26
25 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05260
04224
07393
04661
06292
04993
03989
03
549
Satu
nyala
Sinyal Standart
04478
04669
04568
05977
03523
04046
03
438
04819
Satu
mati
06448
04308
08152
06114
04665
02
444
07609
05162
Dua
nyala
04024
05867
05103
07873
01
872
02613
04489
06765
Dua
mati
05363
04
672
05250
04
529
05210
05103
06546
04794
Tiga
nyala
04422
04039
02
482
05102
03499
03985
03969
04371
Tiga
mati
05492
04073
06626
05239
04902
03553
06869
04794
Empat
nyala
03
326
04543
03153
06510
02133
03419
04175
05287
Empat
mati
Hasil pengujian yang kedua ini dilakukan dengan cara memasukkan suara dari pria kedua (pria lain yang
tidak digunakan sebagai suara standart) Setiap satu perintah dilakukan empat (4) kali proses pengujian
Hasil pengujian merupakan nilai dari hasil proses Dynamic Time Warping yang merupakan nilai dari
pemadanan sinyal input dengan kedelapan sinyal standart Nilai terkecil (nilai yang tercetak tebal) yang
didapatkan merupakan hasil yang paling mendekati sinyal standart Yang berarti sinyal masukan tersebut
dianggap paling sesuai dengan sinyal standart
Prosentase keberhasilan pengucapspeaker kedua untuk kedelapan perintah bervariasi sebesar 50
sampai dengan 100 semuanya menunjukkan kepada sinyal masukkan dan sinyal standart yang berbeda
Hasil pengujian menunjukkan bahwa ciri sinyal suara yang dihasilkan oleh pengucap speaker kedua dan
sebagai pemberi standart adalah mendekati sama
Bab 4 Pengujian dan Analisa
64
Tabel 43 Hasil pengujian sistem pengolahan sinyal wicara untuk pengucap yang sama (pria)
No Perintah Lampu DTMF
1 1 nyala B B
2 1 mati B G
3 2 nyala B G
4 2 mati G X
5 3 nyala G X
6 3 mati G X
7 4 nyala B B
8 4 mati B B
9 1 nyala B G
10 1 mati B B
11 2 nyala B G
12 2 mati B B
13 3 nyala B G
14 3 mati B B
15 4 nyala B G
16 4 mati B B
17 1 nyala B G
18 1 mati B B
19 2 nyala G X
20 2 mati G X
21 3 nyala B B
22 3 mati B B
23 4 nyala B B
24 4 mati G X
No Perintah Lampu DTMF
25 1 nyala B G
26 1 mati G X
27 2 nyala G X
28 2 mati B G
29 3 nyala B G
30 3 mati B G
31 4 nyala B G
32 4 mati G X
B Berhasil
G Gagal
X Donrsquot Care (Diabaikan)
Pengujian yang ketiga ini dilakukan oleh pria pertama (pria yang suaranya digunakan sebagai standart)
Masing-masing perintah dilakukan sebanyak empat kali pengujian
Bab 4 Pengujian dan Analisa
65
Pada kolom ketiga (kolom lampu) tanda B (berhasil) menunjukkan bahwa perintah yang diberikan pada
hardware berhasil dilakukan Tanda G (gagal) menunjukkan bahwa perintah yang diberikan pada hardware
gagal dilakukan(hasil tidak sesuai dengan perintah yang diberikan)
Pada kolom keempat (kolom DTMF) menunjukkan laporan dari hardware ke PC server tentang
bagaimana keadaan lampu yang sedang dikontrol apakah dalam keadaan menyala atau mati Pada kolom ini
tanda B (berhasil) menunjukkan bahwa laporan dari hardware ke PC server (yang merupakan proses
otomatisasi) berhasil dilakukan Tanda G (gagal) menunjukkan bahwa laporan ke PC client gagal dilakukan
Sedangkan tanda X (donrsquot care) menunjukkan bahwa perintah diabaikan Hal ini disebabkan perintah pada
hardware (perintah sebelumnya sebelum proses otomatisasi) sudah gagal dilakukan
Prosentase keberhasilan pengucapspeaker pertama untuk kedelapan perintah bervariasi antara 50
sampai 100 semuanya menunjukkan kepada sinyal masukkan dan sinyal standart yang berbeda
Hasil pengujian kedua ini menunjukkan bahwa ciri sinyal suara yang dihasilkan oleh pengucapspeaker
kedua ini yang merupakan suara orang lain (bukan pemberi standart) adalah mendekati sama dengan hasil
yang bervariasi antara 50 sampai 100
43 Pengujian Sistem Client Server
Pada sub bab ini akan diujikan program Client Server yang akan mengirimkan sinyal hasil pengolahan
suara
Tampilan pada client adalah seperti gambar 421 yang merupakan tampilan awal pada saat program
dimulai
Gambar 421 Proses pada client
Bab 4 Pengujian dan Analisa
66
Gambar 422 Proses pada server
1 Sebelumnya program server harus disiapkan lebih dulu
2 Setelah itu client dijalankan
3 Setelah client siap user memasukkan suara yang selanjutnya akan diolah sampai proses DTW
4 Server menerima data yang selanjutnya digunakan untuk melakukan kontrol alat rumah tangga
44 Analisa Pengujian Sistem Secara Keseluruhan
Berdasarkan data-data yang telah didapatkan di atas maka dapat ditarik suatu analisa bahwa
Berdasarkan tabel 44 untuk pengujian pertama pria 1 adalah pria yang suaranya digunakan sebagai standart
Prosentase keberhasilan rata-rata yang didapat untuk semua perintah adalah sebesar 100 Hal ini menunjukkan
bahwa suara yang diujikan adalah suara yang sama dengan standart dan pria 1 tersebut pernah berinteraksi
dengan sistem
Pengujian yang kedua adalah pengujian yang dilakukan oleh pria 2 (pria lain yang suaranya tidak
dipakai sebagai standart) Prosentase keberhasilan rata-rata yang didapat untuk semua perintah 7188 Karena
sistem bersifat dependent speaker dimana sistem hanya digunakan oleh orang tertentu dalam arti yang pernah
berinteraksi langsung dengan sistem Oleh karenanya didapat nilai prosentase keberhasilan yang bervariasi
Bab 4 Pengujian dan Analisa
67
Tabel 44 Tingkat keberhasilan sistem perangkat lunak
NNO
PENGUCAP
PERINTAH
BANYAK
PERCOBAAN
PROSENTASE
KEBERHASILAN
1 Pria 1 1 nyala 8 kali 100
2 1 mati 8 kali 100
3 2 nyala 8 kali 100
4 2 mati 8 kali 100
5 3 nyala 8 kali 100
6 3 mati 8 kali 100
7 4 nyala 8 kali 100
8 4 mati 8 kali 100
RATA-RATA 100
9 Pria 2 1 nyala 4 kali 100
10 1 mati 4 kali 75
11 2 nyala 4 kali 75
12 2 mati 4 kali 50
13 3 nyala 4 kali 50
14 3 mati 4 kali 75
15 4 nyala 4 kali 50
16 4 mati 4 kali 100
RATA-RATA 7188
Jika diurutkan proses pengolahan wicara dari awal sampai diambil keputusan suara yang dimasukkan
tersebut adalah suara yang sesuai atau tidak adalah sebagai berikut
Bab 4 Pengujian dan Analisa
68
Gambar 423 Tampilan awal perangkat lunak menggunakan TclTk dan Snack
Gambar 423 adalah tampilan awal dari perangkat lunak yang dibangun dengan menggunakan TclTk dan
Snack
Gambar 424 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan dengan
menggunakan perangkat lunak Wavesurver
Gambar 424 adalah tampilan awal dari program Wavesurver yang merupakan pembanding dari program
yang dibuat dari perangkat lunak TclTk dan Snack
Bab 4 Pengujian dan Analisa
69
Gambar 425 Tampilan awal perangkat lunak
menggunakan TclTk dan Snack
Gambar 425 adalah tampilan ketika proses pengambilan sinyal suara sedang dilakukan dengan perangkat
lunak TclTk dan Snack
Gambar 426 Tampilan hasil perekaman kata ldquoempat
matirdquo dengan menggunakan perangkat lunak Wavesurver
Gambar 426 adalah tampilan ketika proses pengambilan sinyal suara sedang dilakukan dengan perangkat
lunak Wavesurver
Bab 4 Pengujian dan Analisa
70
Data Sampling
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 427 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900 menggunakan TclTk dan
Snack
Pada gambar 427 dilakukan proses sampling sinyal masukan dengan frekuensi sampling sebesar 12000
Hz maka didapatkan hasil sinyal yang hampir mirip dengan sinyal analognya yang dilakukan dengan
perangkat lunak TclTk dan Snack
Gambar 428 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900 dengan menggunakan
perangkat Wavesurver
Pada gambar 428 dilakukan proses sampling sinyal masukan dengan frekuensi sampling sebesar 12000
Hz yang dilakukan dengan perangkat lunak Wavesurver
Data Windowing
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 429 Hasil Windowing data sampel
kata ldquoempat matirdquo milidetik ke-13900 menggunakan TclTk dan Snack
Bab 4 Pengujian dan Analisa
71
Proses windowing terdapat pada gambar 429 dilakukan untuk membuat sinyal yang disampel lebih
halus Proses windowing ini dilakukan dengan menggunakan perangkat lunak TclTk dan Snack
Proses windowing pada Wavesurver merupakan fasilitas yang tergabung dengan proses lainnya Misal
dengan proses Fast Fourier Transform Jadi disini tidak ditampilkan hanya sebagai proses windowing saja
tetapi digabungkan dengan proses lain
Fast Fourier Transform Sinyal
Masukan
0
20
40
60
80
100
120
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 430 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat
lunak TclTk dan Snack
Gambar 430 di atas adalah proses Fast Fourier sinyal masukan dengan perangkat lunak TclTk dan Snack
Hasil Fast Fourier Transform sinyal masukan menunjukkan sebaran spektrum frekuensi dari sinyal suara
yang telah dihasilkan oleh pengucap
Sebagai pembanding adalah proses Fast Fourier sinyal masukan yang diambil dengan Wavesurver seperti
pada gambar 431 Yang didapatkan hasil yang sama
Gambar 431 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat Wavesurver
Bab 4 Pengujian dan Analisa
72
Fast Fourier Transform Parameter
LPC
0
20
40
60
80
100
0 2000 4000 6000 8000
Frekuensi (Hz)10 x log
10(magnitude)(dB)
Gambar 432 Fast Fourier Transform LPC dengan menggunakan perangkat lunak TCLTk
dan Snack
Hasil gambar 432 menunjukkan proses Fast Fourier Transform LPC yang dilakukan dengan perangkat
lunak TclTk dan Snack
Gambar 433 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat Wavesurver
Proses Fast Fourier Transform yang dilakukan dengan Wavesurver dapat dilihat pada gambar 433
Pelekukan Jalur Suara
0
50
100
150
0 50 100 150
Sinyal Input empat mati
Sinyal Standart
empat mati
Gambar 434 Pelekukan Jalur Suara dengan Dynamic Time Warping
Bab 4 Pengujian dan Analisa
73
Dari gambar 434 dapat dianalisa bahwa dengan menggunakan dynamic time warping terdapat proses
pembandingan panjang sinyal antara dua buah sinyal input dan sinyal standart sehingga terjadi proses
pemadanan panjang sinyal dengan cara memperpanjang dan menekuk vektor spektralnya
74
BAB 5
PENUTUP
51 Kesimpulan
Dari hasil yang didapatkan maka dapat diambil kesimpulan bahwa
Sistem pengucap tak bebas atau speaker dependent system memiliki tingkat akurasi yang tinggi untuk
pengucap masukan dan pengucap standar yang sama Hal ini dibuktikan dengan hasil pengujian pertama
yang dilakukan oleh pria pertama Pria pertama ini adalah pria yang suaranya digunakan sebagai standar
Nilai prosentase keberhasilan rata-rata untuk semua perintah adalah sebesar 100 dari setiap perintah
dilakukan 8 kali percobaan
Sedangkan pengujian yang dilakukan oleh suara lain (bukan standart) prosentatase keberhasilan
rata-rata yang diperoleh untuk semua perintah 7188 dari setiap perintah dilakukan 4 kali percobaan Hal
ini disebabkan karena suara pria kedua tidak pernah berinteraksi dengan sistem
Keberhasilan sistem ditunjukkan oleh ketepatan penyalaan lampu sesuai dengan yang diperintahkan
melalui perintah suara
Kecepatan sistem secara keseluruhan diperlihatkan dalam tabel 51 dibawah
Tabel 51 Kecepatan sistem keseluruhan
No
Perintah
Waktu (detik)
1 2 3 4 Rata-rata
1 Satu Nyala 11 99 12 25 16 89 14 05 13 80
2 Satu Mati 12 51 13 28 14 83 12 25 13 22
3 Dua Nyala 10 70 11 73 11 99 12 25 11 67
4 Dua Mati 10 44 11 21 11 21 11 47 11 08
5 Tiga Nyala 10 96 12 25 13 54 12 51 12 32
6 Tiga Mati 10 70 11 99 11 99 13 28 11 99
7 Empat Nyala 11 73 11 99 13 02 12 24 12 25
8 Empat Mati 10 70 09 93 11 21 10 70 10 64
Rata-rata 12 12
Dari data yang diperoleh didapatkan kecepatan rata-rata untuk tiap perintah yang diberikan sampai
dengan terlaksananya eksekusi dari perintah adalah 12 12 detik
52 Saran
Pada penelitian ini masih sangat banyak hal yang dapat dilakukan untuk perbaikan-perbaikan dimasa
selanjutnya Saran dan usulan yang dapat dipertimbangkan untuk pengembangan sistem lebih lanjut adalah
antara lain
1 Sistem tidak lagi bersifat dependent speaker tetapi bersifat independent speaker dimana banyak
orang yang memberi perintah dan sistem dengan tepat memberikan respon
2 Sistem dapat mengatasi tingkat noise yang tinggi baik yang disebabkan oleh lingkungan atau oleh
hardware (sound card)
75
3 Otomatisasi sistem Artinya perintah tidak perlu lagi diberikan lewat penekanan tombol yang
dilakukan melalui mouse
4 Respon sistem yang real time
5 Sistem yang dapat dengan mudah beradaptasi dengan jenis sound card yang bervariasi
DAFTAR PUSTAKA
Anggraeni Triana Dewi Astutik Debi Puji Pengenalan Wicara Dengan Penutur Tak Bebas
Tugas Akhir PENS ITS 2003
Wahyudi Agus Verifikasi Sinyal Suara Sebagai Kendali Arah TA PENS-ITS 2002
Dewantara Bima Sena Bayu Aplikasi Pengenalan Wicara Untuk Perintah NirkabelRobot Mikro
Mouse Tugas Akhir PENS ITS 2004
Dutono Titon Penataran Kebahasaan Tahap I Fonetik Dan Fonologi ndashPengolahan Sinyal
Wicara Digital 20 Februari 2001
Gabel Robert A Richard A Robert Sinyal dan Sistem LinierErlangga 1996
Rabiner Lawrence Huang Juang Biing Fundamentals of Speech Recognition Prentice Hall
International Inc1993
Proakis John G Malonakis Dimitris G Digital Signal Processing Principles Algorithms and
Applications Prentice Hall Inc New Jersey 1995
Scolander Kare Snack Sound Toolkit
httpwwwtcltkmantcl85tutorialTcl11html
httpwikitcltk4074
httpwwwinveceorgtclwisefrontcoverhtml
httpwwwspeechkthsesnackmansnack22tcl-manhtml
httpwwwspeechkthsesnacktutorialhtml
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13]
Bab 1 Pendahuluan
vi
24 Bekerja dengan Socket 19
241 Pengertian Socket Program 19
242 Penjabaran Socket 19
243 Memilih Hostname dan IP Address 20
BAB 3 PERENCANAAN DAN IMPLEMENTASI 21
31 Pendahuluan 21
32 Sistem Pengolahan Sinyal Wicara 22
321 Perekaman Suara 22
322 Sampling 23
323 Preemphasis 24
324 Frame Blocking 25
325 Windowing 25
326 FFT 26
327 Autocorrelation Analysis 27
328 LPC Analysis 28
329 LPC Parameter to Cepstrum Analysis 29
3210 DTW 30
33 Awal dan Akhir Sinyal Suara 31
331 Power 31
332 Unvoiced Plosive 32
34 Proses pada client 32
35 Proses pada server 33
BAB 4 PENGUJIAN DAN ANALYSIS 33
41 Pendahuluan 33
42 Pengujian dan Analysis Sistem Pengolahan Wicara 33
421 Perekaman Suara 33
4211 Dengan Menggunakan TclTk dan Snack 33
4212 Dengan Menggunakan Wavesurver 35
422 Sampling 37
423 Windowing 38
424 FFT Sinyal Masukan 39
4241 Dengan Menggunakan TclTk dan Snack 40
4242 Dengan Menggunakan Wavesurver 41
425 Autocorrelation Analysis 41
426 LPC Analysis 41
427 FFT LPC Parameter 42
Bab 1 Pendahuluan
vii
4271 Dengan Menggunakan TclTk dan Snack 43
4272 Dengan Menggunakan Wavesurver 43
428 LPC Parameter to LPC Cepstrum 44
429 Inverse FFT LPC Cepstrum 45
4210 Dynamic Time Warping 46
4211 Min Value dan Sorting 47
4212 Hasil Pengujian Awal dan Akhir Sinyal 48
4213 Hasil Pengujian Sistem Perangkat Lunak 51
43 Pengujian sistem client server 66
44 Analisa Pengujian Sistem Secara Keseluruhan 67
BAB 5 PENUTUP 74
51 Kesimpulan 74
52 Saran 74
DAFTAR PUSTAKA
Bab 1 Pendahuluan
viii
DAFTAR GAMBAR
21 Skema diagram organ penghasil sinyal wicara 4
22 Struktur umum model generator wicara 5
23 Pola standart dengan unit kata 6
24 Pola standart dengan unit fonem 6
25 a) Sinyal wicara untuk bunyi a pada satu frame pada pria b) Sinyal wicara untuk bunyi
a pada satu frame pada wanita 7
26 Contoh proses sampling dengan nilai frekuensi pencuplikan yang berbeda 8
27 Pergeseran frame pada sinyal suara dengan M = 13 N 10
28 Blok Metode FFT-DIT 8 titik 13
29 Plane jaringan untuk ilustrasi pemrograman dinamik 18
210 DTW antara dua rentetan waktu A dan B 19
211 Bentuk power dari kata 22
212 Unvoiced Plosive 23
31 Blok Diagram Sistem secara keseluruhan 29
32 Program aplikasi pengenalan wicara 31
33 Flowcart sistem Graphical User Interface 32
34 Sinyal hasil sampling dengan frekuensi 12000 Hz 33
35 Flowcart proses sampling 34
36 Frame blocking sinyal 35
37 Flowcart proses windowing 36
38 Flowcart Proses Fast Fourier Transform 37
39 Flowcart Proses Autokorelasi 38
310 Flowcart Proses LPC Analisis 39
311 Flowcart proses LPC Parameter ke Cepstrum 40
312 Flowcart proses Dynamic Programming 41
313 Flowcart Proses Power 42
314 Blok Diagram Proses Client 43
315 Blok Diagram Proses Server 44
41 Tampilan awal perangkat lunak menggunakan TclTk dan Snack 46
42 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan perangkat lunak
TclTk dan Snack 47
43 Tampilan awal perangkat lunak menggunakan Wavesurver 48
44 Tampilan hasil perekaman kata rdquoempat matirdquo dengan menggunakan perangkat lunak wavesurver 48
45 Kotak dialog setting perekaman perangkat lunak Wavesurver 49
46 Cuplikan dari katardquoempat matirdquo milidetik ke-13900 51
47 Hasil windowing data sampel kata rdquoempat matirdquo milidetik ke-13900 52
48 Fast fourier Transform sinyal masukan dengan menggunakan perangkat lunak TclTk da Snack 54
Bab 1 Pendahuluan
ix
49 Fast fourier Transform sinyal masukan dengan menggunakan perangkat lunak Wavesurver 54
410 FFT LPC dengan menggunakan perangkat lunak TCLTk dan Snack 57
411 FFT LPC dengan menggunakan perangkat lunak Wavesurver 58
412 Invers FFT LPC cepstrum dengan menggunakan Perangkat lunak TCLTk dan Snack 60
413 Penggabungan spektrum sinyal spektrum LPC dan Spektrum LPC Cepstrum 61
414 Pelekukan Jalur suara dengan Dynamic Time Warping 62
415 Sinyal rdquoempat matirdquo hasil program power 65
416 Perbandingan power dua kata ldquoempat matirdquo sebelum Dynamic Time Warping 65
417 Pelekukan alur suara dua kata ldquoempat matirdquo dengan DTW 66
418 Perbandingan power dua kata rdquoempat matirdquo setelah Dynamic Time Warping 67
421 Proses pada client 85
422 Proses pada server 86
423 Tampilan awal perangkat lunak menggunakan TclTk dan Snack 88
424 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan dengan menggunakan
perangkat lunak Wavesurver 89
425 Tampilan awal perangkat lunak menggunakan Wavesurver 89
426 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan perangkat lunak Wavesurver 90
427 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900 90
428 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900 dengan menggunakan perangkat
Wavesurver 91
429 Hasil Windowing data sampel kata ldquoempat matirdquo milidetik ke-13900 92
430 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat lunak TclTk dan Snack 92
431 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat lunak Wavesurver 93
432 Fast Fourier Transform LPC dengan menggunakan perangkat lunak TCLTk dan Snack 94
433 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat Wavesurver 94
434 Pelekukan jalur suara dengan Dynamic Time Warping 95
Bab 1 Pendahuluan
x
DAFTAR TABEL
41 Hasil pengujian sistem pengolahan wicara untuk pengucap yang sama (pria 1) 68
42 Hasil pengujian sistem pengolahan wicara untuk pengucap yang lain (pria 2) 79
43 Hasil pengujian system pengolahan wicara untuk pengucap yang sama (pria) 83
44 Tingkat keberhasilan system perangkat lunak 87
51 Kecepatan sistem keseluruhan 96
Bab 1 Pendahuluan
1
BAB 1
PENDAHULUAN
11 LATAR BELAKANG
Sudah sekian lama manusia memimpikan adanya pengendalian suatu alat atau sistem kontrol dengan
perintah suara Hal ini diperjelas dengan banyak beredarnya film-film fiksi yang menyuguhkan berbagai sistem
kontrol yang dilakukan dengan menggunakan suara bagaimana seorang anak bisa mengendalikan sebuah
pesawat terbang hanya dengan perintah-perintah dasar dengan menggunakan suaranya Ditambah lagi dengan
pesatnya penelitian dibidang suara yang membuat pintu gerbang sistem pengontrolan dengan suara manusia
semakin terbuka Dewantara [2] telah membuat sebuah aplikasi pengenalan wicara untuk perintah nirkabel robot
mikro mouse Anggraeni dan Astutik [1] telah menggunakan pengenalan wicara untuk mengakses suatu jaringan
sebagai password Tetapi belum ada yang membuat aplikasi pengenalan wicara untuk membuat perintah
pengontrolan pada alat-alat rumah tangga semisal lampu Selain itu beberapa tahun terakhir ini perkembangan
dunia telekomunikasi mengalami kemajuan yang sangat pesat Sehingga pada saat ini informasi yang dikirim
tidak hanya berupa data dalam bentuk teks tetapi juga suara manusia Ditambah dengan semakin banyaknya
peralatan yang memanfaatkan pengenalan suara manusia untuk mengakses maupun memberikan perintah Sinyal
suara yang masuk akan diproses dan dikenali oleh suatu alat Proses tersebut adalah pengenalan wicara (speech
recognition) yaitu pengenalan wicara melalui sampel suara yang telah diolah
Dengan pertimbangan tersebut maka pembuatan kontrol suatu peralatan jarak jauh dengan menggunakan
suara sangat sesuai jika diaplikasikan dalam sistem pengendalian dan monitoring peralatan rumah tangga jarak
jauh dengan menggunakan metode pengenalan wicara Aplikasi tersebut kami bangun dalam pelaksanaan
penelitian ini
12 TUJUAN
Penelitian ini bertujuan untuk
1 Memberikan perintah suara untuk menyalakan beberapa peralatan rumah tangga dalam contoh kasus
dalam penelitian ini adalah menyalakan lampu jarak jauh
2 Membangun sistem pengucap tak bebas (speaker dependent sistem)
3 Memberikan ciri individu untuk memberikan perintah menghidup dan matikan peralatan rumah tangga
yang dilakukan secara jarak jauh
13 BATASAN MASALAH
Batasan masalah pada penelitian ini adalah
1 Bahasa pemrograman untuk algoritma pengenalan wicara adalah Microsoft Visual C++ 60
2 Bahasa Pemrograman untuuk user interface adalah TclTk 830 dan Snack 22
3 Sistem bersifat dependentartinya sistem hanya dapat digunakan oleh orang tertentu dalam hal ini yang
pernah berinteraksi langsung dengan sistem
4 Sinyal diasumsikan ideal yaitu tidak mamperhitungkan noise yang berarti semua noise dianggap stationer
Bab 1 Pendahuluan
2
5 Perintah kata yang diberikan dibatasi untuk keperluan tone dekoder saja dengan dua perintah secara
langsung Semua kata diucapkan secara wajar dengan kecepatan normal
6 Keberhasilan penelitian ini dapat dilihat dari keberhasilan ketepatan perintah yang dihasilkan oleh sistem
dengan perintah yang diberikan
7 Jaringan komunikasi masih dilaksanakan untuk local area dari PC ke PC
14 SISTEMATIKA PEMBAHASAN
Sistematika pembahasan penelitian ini sebagai berikut
BAB I PENDAHULUAN
Pada bab ini akan diuraikan tentang latar belakang tujuan batasan masalah dan sistematika
pembahasan masalah yang digunakan
BAB II TEORI DASAR
Pada bab ini akan diuraikan tentang landasan-landasan teori yang digunakan
BAB III PERENCANAAN DAN PELAKSANAAN
Pada bab ini akan diuraikan tentang tahap-tahap perencanaan dan proses pembuatan keseluruhan sistem
yang mendukung untuk membangun sistem pengenalan wicara untuk sistem pengendalian dan monitoring
peralatan rumah tangga jarak jauh
BAB IV PENGUJIAN DAN ANALISIS
Pada bab ini akan dijelaskan tentang hasil pengujian sistem yang telah dibangun baik secara perbagian
ataupun keseluruhan serta analisis terhadap hasil pengujian sistem untuk mengetahui apakah sistem yang
dibangun sesuai dengan yang diharapkan
BAB V KESIMPULAN DAN SARAN
Pada bab ini berisi kesimpulan dari pembahasan pada perencanaan serta analisa pengujian yang
diperolehUntuk lebih baiknya sistem yang dibangun maka disertakan pula saran-saran untuk perbaikan dan
penyempurnaan
Bab 2 Teori Penunjang
3
BAB 2
TEORI PENUNJANG
21 Sistem Pengolahan Sinyal Wicara
211 Sinyal Suara Manusia
Manusia menggunakan suara sebagai sumber informasi untuk mengkomunikasikan keinginan ide dan
perasaannya kepada orang lain Organ tubuh manusia yang digunakan dalam proses produksi wicara adalah
paru-paru tenggorokan(trachea) laring faring rongga hidung(nasal cavity) dan rongga mulut(oral cavity)
Pembangkitan sinyal wicara terletak pada bentuk lintasan vokalnya(vocal tract) Lintasan vokal tersebut terdiri
atas di bawah katup tenggorokan (laryngeal pharynx) antara langit-langit lunak katup tenggorokan (oral
pharynx ) di atas velum dan di ujung depan rongga hidung (nasal pharynx) dan rongga hidung (nasal cavity)1
seperti ditunjukkan gambar 21
Gambar 21 Skema diagram organ penghasil sinyal
Wicara2
Model generator wicara atau model sintesa suara yang dipakai dan menjadi dasar dari pemrosesan
sinyal wicara hingga dewasa ini adalah apa yang dinamakan Analog Terminal seperti pada gambar 22
1 Dewantara Bima Sena Bayu Aplikasi Pengenalan Wicara Untuk Perintah Nirkabel Robot Mikro Mouse TA PENS ITS 2004 hal 5 2 Dutono Titon Penataran Kebahasaan Tahap I Fonetik dan Fonologi Pengolahan Sinyal Wicara Digital 20 Februari 2001
Bab 2 Teori Penunjang
4
Gambar 22 Struktur umum model generator wicara3
Pada model ini sinyal eksitasi(glotal wave) yang berasal dari getaran pita suara diumpankan ke suatu
filter yang merupakan suatu model pendekatan dari lintasan vokal (vocal tract) untuk menghasilkan sinyal
wicara Model analog terminal ini disebut juga pensintesa formant Dasar pendekatan model ini adalah bahwa
lintasan suara adalah suatu bumbung akustik (acoustical cavity) yang mempunyai karakteristik berdasarkan
perpaduan beberapa frekuensi resonansinya Dengan demikian fungsi transfernya dapat didekati dengan
pendekatan kombinasi riam (cascade combination) dari beberapa rangkaian resonansinya Dengan analogi yang
sama sistem ini dapat dibangun dari beberapa rangkaian resonansi yang mempunyai parameter lebar bidang dan
frekuensi resonansi yang selalu berubah setiap saat membentuk suatu sistem berubah waktu (time variant
system)
Struktur sistem pengenal wicara yang ada dapat dibagi menjadi 2 yaitu
1) Mempergunakan pola standart dengan unit kata
Gambar 23 Pola standart dengan unit kata4
2) mempergunakan pola standart dengan unit fonem
yang dilengkapi dengan kamus kosa kata
3 Ibid 4 Ibid
Ekstraksi ciri
Pola standar kata
Pemadanan kata
Algoritma keputusan
Sinyal wicara Output teks
Bab 2 Teori Penunjang
5
Gambar 24 Pola standart dengan unit fonem5
Pada sistem pertama mampu mencakup fenomena koartikulasi tapi tidak fleksibel terhadap perubahan
kosa kata
Sinyal wicara adalah sinyal yang dihasilkan oleh suara manusia dan biasanya mempunyai frekuensi
kerja antara 0 sampai dengan 5000 Hz Bentuk gelombang sinyal wicara mempunyai bentuk yang unik seperti
gambar 23
Gambar 25 a)Sinyal wicara untuk bunyi a pada satu frame pada wanita
b)Sinyal wicara untuk bunyi a pada satu frame pada pria
Berdasarkan gambar 25 terlihat bahwa setiap satu frame terdapat 120 sample yang bersifat quasi
periodik dan mempunyai unsur bunyi terkecil yang disebut sebagai pitch Panjang pitch berkisar 10 ms Pitch
manusia berbeda satu sama lain terutama jenis kelamin laki-laki dan perempuan
212 Sampling
Sinyal wicara merupakan sinyal yang tidak terbatas dalam domain waktu (finite time interval) Suara
manusia akan menghasilkan sinyal analog yang terus kontinyu Untuk keperluan pemrosesan dalam transformasi
fourier maka sinyal wicara harus dibentuk dalam potongan-potongan waktu yang terbatas (infinite time interval)
Karena itu sinyal yang ada dipotong-potong dalam slot-slot interval waktu tertentu
Berdasarkan pada teori sampling Niquist maka syarat dari frekuensi sampling adalah minimal dua kali
frekuensi sinyal
Fsampling 2 x Fsignal ( 21)
Ekstraksi ciri
Pola standar fonem
Pemadanan fonem
Kamus kosa kata
Pemadanan kata
Algoritma keputusan
Sinyal wicara
-20000
-15000
-10000
-5000
0
5000
10000
15000
0 20 40 60 80 100 120 140
pitch -10000
-8000
-6000
-4000
-2000
0
2000
4000
6000
8000
0 20 40 60 80 100 120 140
pitch
Output teks
Bab 2 Teori Penunjang
6
Contoh dari sampling seperti bisa kita lihat pada gambar di bawah
Gambar 26 Contoh proses sampling dengan nilai frekuensi pencuplikan yang berbeda
6
Frekuensi sampling yang digunakan adalah 12000 Hz
Dimana dalam 1 detik sinyal terdapat 12000 titik sampling
213 Preemphasis
Proses preemphasis dimaksudkan agar spektrum sinyal merata di semua frekuensi serta mencegah
kehilangan informasi akibat proses pembulatan pada saat komputasi Fungsi preemphasis adalah
H (z) = 1 ndash az-1 09 le a le 1 (22)
dimana nilai a berkisar 095 Berdasarkan model filter di atas maka keluaran dari preemphasis adalah
s (n) = s (n) - as (n-1) ( 23)
Penjabarannya sebagai berikut
5 Ibid 6 Ibid
Fi = 1000 Hz
Fs = 1250 Hz
Fs = 1000 Hz
Fs = 4000 Hz
Fs = 8000 Hz
Fs 2Fi
Kriteria Nyquis
Fi Frekuensi sinyal informasi Fs Frekuensi pencuplikan
H X Y
T 1 = 12000 = 833 x 10-5 s = 833 μs
10 ms = 833μs x N sample N = 120 sample
Bab 2 Teori Penunjang
7
y = H x
y = (1-az-1) xn
y = xn - 095 xn z-1
y = xn ndash 095 xn - 1
214 Frame Blocking
Sinyal wicara yang telah dipreemphasis s (n) diblok dalam M sampel dimana N 2 x M seperti yang
ditunjukkan pada gambar 27 Jika M le N pergeseran frame akan mengalami overlape hasil perkiraan LPC
spectral akan dikorelasikan dari frame 1 ke frame berikutnya Jika M laquo N perkiraan LPC spectral dari satu frame
ke frame lainnya akan sangat halus (smooth) Dan bila M gt N maka tidak akan ada overlape diantara frame yang
berbatasan dan sinyal suara akan hilang sama sekali dan korelasi diantara perkiraan spectral LPC dari frame
yang berbatasan akan berisi komponen noise
Gambar 27 Pergeseran Frame pada Sinyal Suara
dengan M = 13 N
Sehingga didapatkan nilai dari sinyal yang baru adalah sebagai berikut
x1(n) =s(M 1+n) n =012hellipN ndash 1 l = 012hellipLndash1 (24 )
215 Windowing
Merupakan proses membatasi lebar sinyal yang akan dianalisa yang dapat mengurangi efek
diskontinyuitas pada ujung-ujung frame yang dihasilkan oleh potongan-potongan sinyal Korelasi antara lebar
window dalam domain waktu dan amplitude berguna untuk menyederhanakan sinyal dengan mengurangi
puncak sinyalnya
Ada beberapa jenis windowing yang dinamakan sesuai dengan nama penemunya yaitu
Bab 2 Teori Penunjang
8
Window Hamming
052-046 cos[2лn(N-1)] 0 le n le N-1
Wham(n) =
0 elsewhere
Window Hanning
1-cos[2лn(N-1)] 2 0 le n le N-1
Whan(n) =
0 elsewhere
Window Bartlett
1-cos[2лn(N-1)] 2 0 le n le (N-1)2
WB(n) = 2-2n(N-1) (N-1)2lenleN-1
0 elsewhere
Window Blackman
042-05cos[2лn(N-1)]+008cos[4лn(N-1)]0lenleN-1
WBl(n) =
0 elsewhere
216 Fourier Transform
Transformasi Fourier Diskrit (DFT) adalah deretan yang terdefinisi pada kawasan frekuensi ndash diskrit
yang merepresentaskan Transformasi Fourier terhadap suatu deretan terhingga (Finite Duration Sequence) DFT
berperan penting untuk implementasi algoritma suatu varitas pengolah sinyal karena efisien untuk komputasi
berbagai aplikasi
Salah satu contoh aplikasi komputasi DFT dalam algoritma yang efisien yaitu Fast Fourier Transform
(FFT) Efisiensi suatu algoritma ditentukan dari sejauh mana dapat mereduksi jumlah perkalian dan
penjumlahan serta reduksi lalu lintas data pada memori komputer sehingga proses lebih cepat
Pada DFT untuk memproses N buah titik diperlukan (N-1)perkalian kompleks dan N(N-1)
penjumlahan kompleks Bila N cukup besar dibutuhkan memori yang besar dan waktu yang cukup lama Untuk
itu digunakan metode lain yang lebih cepat yaitu metode transformasi fourier cepat (FFT) FFT dilakukan
dengan membagi N buah titik pada transformasi fourier diskrit menjadi 2 masing-masing N2 titik trnsformasi
Pemecahan menjadi dua pada proses transformasi fourier cepat disebut sebagai proses rekombinasi Dua buah
N2 titik transformasi mempunyai 2(N2) = N2 perkalian Proses memecah menjadi dua ini diteruskan dengan
membagi setiap (N2) titik transformasi menjadi dua buah (N4) titik transformasi setiap (N4) menjadi dua buah
Bab 2 Teori Penunjang
9
(N8) titik transformasi dan seterusnya hingga diperoleh junlah titik yang minimum Jika besarnya N merupakan
kelipatan pangkat dari 2 (disebut radiks 2) maka jumlah titik minimum setelah setiap kali dibagi 2 adalah dua
Ada dua macam metode FFT metode Decimation in Time (DIT) dan metode Dicimation in Frekuensi
(DIF) Kedua metode ini hamper sama Pada metode FFT-DIT N buah titik transformasi dibagi 2 menjadi fungsi
ganjil dan genap masing-masing mempunyai N2 titik transformasi Sedang pada metode FFT-DIF N buah titk
transformasi dibagi menjadi fungsi N2 titk yang pertama dan fungsi N2 titik yang kedua
Operasi pada metode FFT-DIT disebut juga metode kupu-kupu Untuk N buah titik transformasi h(n)
algoritma radiks 2 memerlukan proses perkalian dan rekombinasi sebanyak N2 log N transformasi fourier
diskrit Pada metode FFT-DIT operasi dekomposisi dilakukan dengan membagi fungsi h(n) menjadi 2 bagian
fungsi ganjil dan fungsi genap Atau dengan pernyataan matematika h1(n) dan h2(n) yang masing-masing adalah
untuk n genap dan n ganjil
Prinsip FFT dengan metode DIT adalah seperti pada gambar 24 berikut ini
Gambar 28 Blok metode FFT-DIT 8 titik
7
Pada gambar di atas merupakan jumlah perkalian kompleks N2 log N juga jumlah penjumlahan
kompleks = N2 log N
217 Linear Prediction Code
Ide dasar dari LPC adalah bahwa pada model ini memberikan sampel suara pada domain waktu yang
bisa didekati sebagai kombinasi linear dari sampel suara yang telah lalu
Teori Linear Prediction Coding (LPC) yang diaplikasikan pada wicara telah dimengerti selama
beberapa tahun Pada bagian ini akan dijelaskan dasar dari bagaimana LPC diaplikasikan pada sistem pengenlan
wicara
Sebelum menjelaskan LPC secara umum sebagai pemrose front-end untuk pengenalan wicara perlu
diketahui alasan mengapa LPC sangat banyak digunakan yaitu
1 LPC menyuguhkan model yang bagus untuk sinyal wicara
2 Cara yang digunakan LPC untuk analisa sinyal wicara sangat beralasan untuk pemisahan track dari
sumber vocal
3 LPC adalah model traktabel secara analitis
Bab 2 Teori Penunjang
10
4 Model LPC bekerja dengan baik pada aplikasi pengenalan
2171 Autocorrelation Analysis
Masing-masing frame sinyal yang telah diwindow kemudian di-autokorelasikan dengan menggunakan
persamaan
N-1-M
r1(m) = sum x1(n) x1(n+m) m = 0 1 p ( 25) (25)
n = 0
dimana nilai autokorelasi tertinggi p adalah orde dari analisi LPC Pada umumnya nilai dari p yang
sering digunakan adalah dari 8 sampai 16 Sisi menguntungkan dari analisis autokorelasi adalah bahwa
autokorelasi ke-0 R1 (0) adalah energi dari frame ke-1 Energi dari frame merupakan parameter
penting untuk system deteksi wicara
2172 LPC Analysis
Langkah selanjutnya adalah analisis LPC dimana mengkonversi masing-masing frame dari
auto korelasi p+1 ke dalam sebuah ldquoLPC Parameter Setrdquo dimana kumpulan itu merupakan koefisien
LPC koefisien refleksi atau PARCOR koefisien log area ratio koefisien Cepstral atau beberapa
transformasi pada kumpulan tersebut
Metode yang formal untuk mengkonversi dari koefisien autokorelasi ke sebuah LPC parameter
set (untuk metode autokorelasi) dikenal sebagai Metode Durbin dan secara formal dapat ditunjukkan
pada algoritma berikut ini
E(0) = r(0) ( 26)
Ki=r(i)-sumαj(i-1) r(|i-j|)E(i-1) 1 le I le p ( 27)
αi(i) = ki (28)
αj(i) = αj
(i-1)-ki α(i-1) ( 29)
t-j
E(i)=(1-ki2)E (i-j) (210)
dimana penyajian akhir dari persamaan mengabaikan i=1 Kumpulan dari persamaan hellipdiselesaikan secara
rekursif untuk i=12hellipp dan penyelesaian akhir diberikan sebagai
am=koefisien PC=αm 1lemlep ( 211)
7 Agus Wahyudi Verifikasi Sinyal Suara Sebagai Kendali Arah TA PENS-ITS 2002
Bab 2 Teori Penunjang
11
km=koefisien PARCOR ( 212)
1 - km
gm=koefisien log area ratio = log ----------- ( 213)
1 + km
2173 LPC Parameter Corversion to Cepstral Coefficients
Sekumpulan parameter LPC yang sangat penting yang dapat diturunkan langsung dari kumpulan LPC
adalah koefisien cepstral LPC c(m) Rekursif yang digunakan adalah
co = ln σ2 ( 214)
m-1
cm = am + sum ck am-k 1 le m le p ( 215)
k = 1
m-1
cm = sum ck am-k m gt p
k = 1
dimana σ2 adalah penguatan dalam model LPC Koefisien cepstral koefisien yang direpresentasikan dengan
fourier transform dengan spectrum besaran log telah ditampilkan menjadi kumpulan fitur untuk pengenalan
wicara yang lebih handal terpercaya daripada koefisien LPC koefisien PARCOR atau koefisien log area ratio
218 Dynamic Time Wraping
Dynamic Time Wraping (DTW) merupakan cara untuk membandingkan pola wicara dalam menentukan
kesamaan jarak antara pola-pola yang berbeda Dimana pengenalan wicara merupakan proses secara otomatis
dalam mengambil dan menentukan informasi linguistic yang disampaikan dengan gelombang wicara
menggunakan komputer atau sirkuit elektronik Informasi linguistic tersebut pada akhirnya akan
direpresentasikan dengan deretan waktu vektor-vektor spektral
Metode nolmalisasi waktu menggunakan dua buah fungsi warping
ix = Фx (k) k = 123hellipT (216)
iy = Фy (k) k = 123hellipT
2181 Dynamic Programming
Dynamic Programming (DP) digunakan untuk memecahkan masalah deteksi pengurutan kemampuan
menggunakan pola pengenalan wicara dan masalah waktu penjajaran dan normalisasi Ada dua tipe masalah
penggunaan Dynamic Programming yaitu
(
)
k m
( )
K m ( )
Bab 2 Teori Penunjang
12
1 Masalah jalan optimal dengan menganggap sekumpulan titik mulai dari 1 sampai dengan N yang
dihubungkan dengan pasangan setiap dari titik (ij) Representasi perpindahan secara langsung dari titik
ke-1 ke titik yang lainnya Rentetan perpindahan tersebut tidak mempunyai bilangan yang ditetapkan
dari transisi satu titik ke titik yang lainnya hal ini disebut rentetan keputusan asinkron
Dengan Terminologi sederhana kita membuat garis keputusan untuk menetukan titk berikutnya setelah
kebijaksanaan pada titik i
Prinsip dari optimalisasi yang merupakan kelas dasar dari algoritma komputasi untuk optimasi masalah
di atas berdasarkan pernyataan Bellman
rdquoKebijakan optimasi yang memiliki sifat apapun ketetapan dan ketentuannya keputusan berikutnya
harus merupakan hasil ketetapan dari keputusan yang pertamardquo
2 Masalah keputusan rentetan sinkronisasi terdapat perbedaan dari satu sinkronisasi yang beraturan dari
proses keputusan
Penggunaan teknik Dynamic Programming pada Dynamic Time Warping untuk pertama kali dilakukan
oleh Slutsker (1968) Vintsyuk (1968) dan Volichko (1971) dari Jepang untuk pengenalan wicara Pada proses
ini pembicara mengucapkan kata yang sama dengan durasi berubah setiap waktu dengan ekspansi yang non
linier Oleh karena itu Dynamic Time Wraping adalah tahap yang penting dalam proses pengenalan kata Proses
DTW mengalami pengembangan pada sumbu waktu untuk mencocokan posisi phonemkata yang sama antara
input wicara dan referensi template
Dynamic Programing secara umum digunakan untuk memecahkan masalah rentetan keputusan yang
dilakukan pada bidang kisi sebagaimana ditampilkan pada gambar 27 Sinyal yang dicocokkan adalah A dan B
Di dalam bidang kisi sinyal A disesuaikan sepanjang sumbu ndashx dan sinyal B disesuaikan sepanjang sumbu ndashy
Setiap antar bagian pada bagian ini ditetapkan sebagai sebuah simpul atau titik dimana titik (ij) adalah
pencocokan frame I untuk sinyal A dengan frame j untuk sinyal B Misalnya diasumsikan dua rentetan waktu
untuk vektor utama yang dibandingkan sebagai berikut
A = a1a2hellipaI dan B = b1b2hellipbJ
Dengan menganggap rentang bidang antara A dan B sebagaimana ditunjukkan pada gambar 27
fungsi pelengkungan waktu yang sesuai menunjukkan waktu antara rentetan A dan B dapat dipresentasikan
sebagai rentetan titk-titik Lattice pada bidang c = (ij) sebagai berikut
Bab 2 Teori Penunjang
13
Gambar 29 Plane jaringan untuk ilustrasi
pemrograman dinamik8
Bilamana jarak spektral antara dua vektor utama a1 dan b1 direpresentasikan oleh d(c) = d(ij) penjumlahan
jarak dari awal sampai akhir dari rentetan sepanjang F dapat direpresentasikan dengan
K
sum d(ck)wk
k=1
D(F) = mdashmdashmdashmdashmdash (217)
K
sum wk
k=1
Semakin kecil nilai ini semakin baik kecocokan antara A dan B Dimana wk adalah fungsi pembobotan
positif terhadap F
Dengan memperkecil persamaan di atas dengan kondisi berikut
1 Kondisi monotonisasi dan kontinuitas
0 le ik-ik-1le1 0 lejk ndash jk -1 le 1 ( 218)
2 Kondisi perbatasan
I1=j1=Iik=Ijk=I (219)
3 Kondisi adjustmen window
|ik ndash jk|ler r=konstan ( 220)
Pendefinisian wk sedemikian rupa sehingga menyebut pada persamaan 219 menjadi konstan yang
tidak tergantung pada F Untuk contoh jika
Wk = (ik ndash ik -1)+(jk ndash jk -1)(i0=j0=0) wk akan menjadi
8 Ibid hal 15
Bab 2 Teori Penunjang
14
K
sum wk = I + J (221) k=1
dan persamaan 219 menjadi
1 K
D(F)= mdashmdash sum d(ck)wk ( 222)
I + J k=1
Gambar 210 DTW antara dua rentetan waktu A dan B
9
Karena fungsi obyektif yang akan diminimasi menjadi penjumlahan maka peminimisasi secara efisien
dapat diselesaikan tanpa harus menguji semua kemungkinan untuk F Penjumlahan pada sebagian rentetan c1
c2 hellip ck (ck=(ij)) adalah
(224)
Penurunan pemrograman dinamik pada persamaan-persamaan diatas penggunaan kondisi untuk F dan
formulasi perumusan wk persamaan 2115 dapat dituliskan kembali sebagai berikut
9 Ibid hal 17
Bab 2 Teori Penunjang
15
g(ij-1)+d(ij)
g(ij) = min g(i-1j-1) + 2d (ij) (225)
g(i-1j) +d(ij)
Oleh karena itu jarak antara dua rentetan waktu A dan B setelah DTW dapat diperoleh sebagai berikut
Kita set dari kondisi awal untuk g(11)=2d(11) dan j=1 dan hitung persamaan 2116 dengan variasi I dalam
sepanjang adjustment window Perhitungan ini diulangi dengan menaikkan j sampai j=1 Jarak keseluruhan
antara dua rentetan waktu A dan B dapat diperoleh dari g(IJ)(I+J)
2182 Batasan Normalisasi Waktu
Supaya proses normalisasi waktu mempunyai arti pada perbedaan batasan dengan berbagai variasi
interval waktu dibutuhkan beberapa batasan terhadap fungsi warping
2183 Batasan Titik Awal Akhir
Bilamana pola wicara yang dibandingkan merupakan tuturan per kata maka harus memenuhi syarat pola
mulai dari titik awal sampai titik akhir dari tanda permulaan dan pengakhiran pola wicara Titik awal dan akhir
mempunyi batasan yang membatasi pola wicara harus dipenuhi
Titik awal Фx(1) = 1 Фy(1) = 1 (226)
Titik akhir Фx(T) = Tx Фy(T) = Ty (227)
2184 Kondisi Monotonisasi
Rentetan pola spectral pada wicara sangat penting dalam menentukan arti linguistic sehingga tidak
akan hilang Untuk mempertahankan pola tersebut harus memenuhi
Фx(k + 1) ge Фx(k) (228)
Фy(k + 1) ge Фy(k)
22 Awal dan Akhir Sinyal Suara
221 Power
Sinyal suara yang diolah haruslah merupakan sinyal suara murni dan tidak bercampur dengan noise
ataupun header tail yang dibawa oleh suara saat perekaman apalagi jika pengenalan sinyal suara dengan jumlah
vocabulary yang besar Oleh karena itu sinyal suara hasil perekaman harus dicari nilai awal dan akhirnya agar
pengolahan sinyal suara tersebut menjadi lebih valid
Dan salah satu cara dalam menentukan nilai awal dan akhir dari sinyal suara adalah dengan
menggunakan power yang mempunyai persamaan sebagai berikut
( )
Bab 2 Teori Penunjang
16
239
p= sumradic xt2 (229)
t=0
Sinyal suara yang dibagi menjadi beberapa frame mempunyai power dari tiap framenya yang kemudian
didapatkan nilai rata-ratanya yang kemudian diperoleh nilai awal dan akhirnya dengan menambahkan 3 kali
standart deviasi Dimana penentuan awal dan akhir dari sinyal suara dapat diperoleh dengan
p ge p + 07 standart deviasi
Power
0
20000
40000
60000
80000
100000
120000
140000
160000
0 10 20 30 40 50 60
Jumlah Frame
Am
pli
tud
o
Gambar 211 Bentuk power dari kata
Nilai beberapa kali hasil percobaan
222 Unvoiced Plosive
Pada suatu sinyal suara yang terekam terdapat pemutusan sinyal atau kondisi kosong yang bukan
merupakan noise tetapi masih didalam lingkup suara Tapi kondisi ini hanya terjadi pada kebanyakan sinyal
suara yang terdapat konsonan tertentu yaitu sinyal suara dari kata yang mempunyai konsonan p t k Kondisi ini
disebut Unvoiced Plosive atau loncatan sinyal suara setelah kondisi kosong seperti ditunjukkan pada gambar
berikut
Gambar 212 Unvoiced Plosive
Bab 2 Teori Penunjang
17
Dan untuk penentuan awal dan akhir daerah kosong tersebut harus diperhitungkan agar didapatkan
nilai awal dan akhir dari sinyal suara yang valid yaitu dengan mencari nilai rata-rata dari daerah kosong dari
beberapa sinyal suara Kemudian dengan dicari nilai thresholdnya yaitu nilai terpanjang dari daerah kosong
sebesar 2 dari seluruh daerah kosong yang telah dihistogram
23 JARINGAN DENGAN TCPIP
Meskipun hubungan computer melalui serial dan parallel telah ada sejak lama multijaringan belum
menjadi masalah serius bagi para peneliti di bidang jaringan sampai awal tahun 1980 Perkembangan teknologi
LAN itu sendiri didasarkan banyak alasan Salah satu yang menjadi alasan utama adalah adanya perusahaan
yang ingin melakukan sharing data file printer dan resource lainnya ke pc lain
231 Mengenal TCPIP
Sebelumnya kita definisikan lebih dahulu apa yang dimaksud protocol itu Bila dua computer ingin
melakukan komunikasi keduanya tentu saja harus menggunkan bahasaturan yang sama Aturan-aturan inilah
yang disebut protocol Misalnya untuk mengirim mail digunakan protocol SMTP berhubungan dengan WWW
menggunakan HTTP dan sebagainya Jadi protocol merupakan aturan dalam melakukan komunikasi
TCPIP ( Transmission Control Protocol Internet Protocol) merupakan protocol yang bersifat open
networking Maksudnya semua penjelasan teknis tentang protocol tersebut diumumkan karena ada juga
mekanisme jaringan yang menyembunyikan detail dari sistemnya Hal inilah yang membuat TCPIP menjadi
terkenal
Adapun keuntungan dengan menggunakan protocol TCPIP adalah kemudahannya karena
memungkinkan hubungan antara berbagai system operasi dan berbagai jenis computer (platform)
TCPIP bukanlah protocol tunggal tetapi merupakan sekumpulan protocol sehingga lebih tepat disebut
sebagai keluarga TCPIP Setiap protocol pada TCPIP memiliki tugas tertentu yang berbeda Semua protocol
tersebut menggunakan protocol primer untuk mengirimkan paket data Protocol primer tersebut adalah TCP dan
IP
Protokol lainnya dapat dikelompokkan berdasarkan tujuannya sebagai berikut
1 Transport
Digunakan untuk mengatur perpindahan data antara dua mesin Antara lain
- TCP (Transmission Control Protocol)
- UDP (User Datagram Protocol)
2 Routing
Digunakan untuk pengalamatan data dan menentukan rute terbaik antara lain
- IP (Internet Protocol)
- ICMP (Internet Control Message Protocol)
- RIP (Routing Information Protocol)
Bab 2 Teori Penunjang
18
3 Network Address
Menangani bagaimana suatu mesin diberikan suatu alamat antara lain
- ARP ( Address Rwesolution Protocol)
- DNS ( Domain Name Sistem)
- RARP (Reverse Address Resolution Protocol)
4 User Service
Merupakan aplikasi yang harus diakses user antara lain
- FTP ( File Transfer Protocol)
- TFTP (Trivial File Transfer Protocol)
- TELNET
5 Gateway Protocol
Untuk membentuk proses komunikasi routing dan status informasi antara lain
- EGP (Exterior Geteway Protocol)
- GGP (Gateway to Gateway Protocol)
- IGP (Interior Gateway Protocol)
232 Koneksi TCPIP
Untuk mengkonfigurasi TCPIP maka dibutuhkan
Alamat IP
Alamat IP ini sebagai pengenal atau alamat mesin Karena setiap mesin yang terhubung jaringan
harus memiliki penganal yang unik sehingga memungkinkan melakukan routing Jaringan dengan TCPIP
menggunakan pengalamatan 32 bit sebagai alamat atau pengenal setiap mesin yang terkoneksi dengan jaringan
Pengenal ini disebut alamat IP Pesan atau data yang dikirim melalui TCPIP menggunakan alamat IP ini untuk
mengenali mesin pengirim dan penerimanya
Biasanya alamat IP dapat dikelompokkan menjadi dua bagian yaitu
1 Nomor Network
2 Nomor Device dalam Network tersebut
Alamat IP tersebut dipisahkan menjadi empat bagian yang masing-masing berukuran 8 bit Empat
bagian tersebut dipisahkan oleh tanda titik dan setiap bagian tersebut memiliki angka 0-255 Contohnya
192168101
Pemberian alamta IP umumnya ditentukan berdasarkan ukuran dari jaringan tersebut Jaringan
dapat diklasifikasikan menjadi tiga kategori yaitu kelas A kelas B kelas C Ketiga kelas tersebut membagi
pengalamatan 32 bit dengan ukuran berbeda untuk nomor Network dan Host
Pengalamatan pada kelas A memungkinkan bagian ini memiliki angka dari 0-127 Sedangkan
pengalamatan B memungkinkan memiliki angka dari 128-191 pengalamatan pada kelas C memungkinkan
memiliki angka dari 192-223
Network Mask
Bab 2 Teori Penunjang
19
Network mask merupakan alamat IP dimana lamat networknya diset ke nilai 255 Jika alamat IP
termasuk kelas A maka network masknya yaitu 255000 Jika alamat IP termasuk kelas B maka network
masknya yaitu 25525500 Jika alamat IP termasuk kelas C maka network masknya yaitu 2552552550
AlamatNetwork
Alamat network ini dapat diperoleh dari alamat IP dimana bit-bitnya dilakukan operasi AND
dengan network mask Dengan demikian untuk network kelas B dengan IP 192168101 maka alamat
networknya adalah 19216800
Alamat Broadcast
Alamat broadcast dibutuhkan bila suatu mesin ingin mengirimkan paket yang sama ke semua
device pada jaringan
Alamat Gateway
Alamat gateway merupakan alamat IP dari mesin yang menghubungkan jaringan dengan jaringan
di luar misalnya internet Pada umumnya alamatgateway memiliki IP yang sama dengan mesin yang kita miliki
tetapi mempunyai nomor device 1 Dengan demikian untuk network kelas B dengan alamt IP 192168101
alamat gatewaynya adalah 19216811
Alamat Nameserver
Jaringan-jaringan besar umumnya memiliki sebuah mesin untuk mentranslasikan alamat IP menjadi
nama yang lebih mudah dikenal manusia Misalkan sebuah mesin dengan IP 192168101 dapat diberi nama lain
seperti puspacsuiacid sebagai alamatnya Proses translasi ini dilakukan dengan system yang dikenal dengan
nama Domain Name System (DNS)
24 BEKERJA DENGAN SOCKET
Komponen socket program yang dapat membantu dalam pembuatan suatu aplikasi yang berkomunikasi
antara suatu system computer dengan system computer yang lain dengan menggunakan protocol TCPIP dan
protocol lain yang terhubung
241 Pengertian Socket Program
Pada sub bab ini akan dijelaskan tentang komoponen socket program yang dapat berkomunikasi antara
system computer dengan system computer yang lain dengan menggunakan protocol TCPIP dan protocol lain
yang terhubung Dengan socket program ini kita dapat membaca dan menulis pada hubungan ke mesin yang lain
tanpa mengalami kesulitan pada software jaringan Socket program dapat mengadakan hubungan berbasis
protocol TCPIP tetapi dapat juga bekerja umunya dengan protokol-protokol yang terhubung seperti Xerox
Network System (XNS) dan yang lain
Bab 2 Teori Penunjang
20
242 Penjabaran Socket
Socket mengijinkan aplikasi jaringan kita berkomunikasi dengan sistem lain di luar jaringan
Masing- masing socket bisadipandang sebagai titik akhir dalam suatu koneksi jaringan Socket tersebut memiliki
spesifikasi sebagai berikut
a) Sistem yang sedang dijalankan
b) Tipe interface port yang digunakan
Penjelasan lengkap dari sebuah koneksi socket terdiri dari address socket pada kedua titik akhir
koneksi Kita akan menguraikan address dari masing- masing titik akhir socket dengan memberi nomor IP
address atau host dan port
Sebelum membuat koneksi socket sebelumnya harus menguraikan dengan lengkap socket-socket
yang membentuk titik akhir Beberapa informasi tersedia dari sistem aplikasi yang dijalankan Sebagai contoh
kita tidaka akan membutuhkan IP Address Local dari socket client sebab informasi ini terdapat pada sistem
operasi
Informasi yang akan kita berikan bergantung pada tipe socket yang sedang bekerja Socket client
harus menggambarkan port yang merepresentasikan layanan yang mereka berikan
243 Memilih Host Name dan IP Address
Kebanyakan aplikasi menggunakan host name untuk merinci sebuah system Host Name mudah
untuk diingat dan dicek Menggunakan host name memungkinkan socket client untuk menemukan situs abstrak
yang diwakili oleh nama host meskipun telah dipindah ke IP Address yang baru Jika nama host tidak diketahui
socket client akan akan menyatakan system server sedang menggunakan IP Addressnya Ketika kita
menyediakan host name socket akan mencari IP Address yang berhubungan dengan host name sebelum socket
tersebut dapat menempatkan pada sistem server
Bab 3 Perencanaan dan Implementasi
21
BAB 3
PERENCANAAN DAN IMPLEMENTASI
31 Pendahuluan
Pada bab ini akan dijelaskan mengenai pengolahan sinyal wicara untuk mendapatkan ciri setiap
individu Juga akan dibahas mengenai pengolahan hasil keluaran sinyal wicara untuk ditransmisikan ke PC lain
(lewat jaringan) Dan selanjutnya akan dibahas pula mengenai plan atau obyek yang dalam hal ini adalah lampu
pijar
Berikut ini adalah blok diagram sistem secara keseluruhan
Gambar 31 Blok Diagram Sistem Secara Keseluruhan
Speaker pada gambar 31 memberikan suaranya sebagai masukan lewat mikrofon Masukan ini
akan diolah dalam PC client mulai dari proses sampling frame windowing FFT LPC Kemudian hasil dari
LPC dicari pemadanan dengan LPC dari sinyal standar yang telah tersimpan sebagai data base di dalam PC
client Hasil dari DTW tersebut akan dikirimkan ke PC server melalui TCPIP untuk diproses menjadi suatu
perintah ke perangkat keras Perintah tersebut merupakan bentuk implementasi dari perintah yang diberikan dari
PC client
Sebaliknya dengan adanya perubahan kondisi pada peralatan yang diinginkan maka terjadi sinyal
balikan yang berupa sinyal DTMF yang dikirimkan oleh perangkat keras ke PC server Oleh PC server sinyal ini
diolah untuk dikenali sebagai suatu kondisi tertentu yang akan dikirimkan ke PC client sebagai laporan tentang
kondisi alat yang diinginkan
32 Sistem Pengolahan Sinyal Wicara
321Perekaman Suara
TCPIP
Pengucap Speaker ADC Pengolahan Wicara dan Monitoring
Peralatan yang terkontrol
LAN Card
LAN Card
Pengenalan Pola Pengiriman Tone DTMF dan Pengenalan DTMF Sebagai Laporan
DTMF Decoding DTMF Generator Sistem Switching
Alat Terkontrol
Bab 3 Perencanaan dan Implementasi
22
Perekaman suara dilakukan menggunakan software berbasis TclTk 830 dan Snack22 Sebelumnya
akan dijelaskan satu per satu program yang dipakai
o TclTk 830
Tcl kepanjangan dari Tool Control Language Tk adalah Graphical Toolkit extension dari Tcl yang
menyediakan bermacam-macam item standar antarmuka GUI untuk memfasilitasi secara cepat pengembangan
aplikasi tingkat tinggi
o Snack22
Snack adalah tool pengolahan suara yang didesain sebagai extensi untuk bahasa script Saat ini Snack bekerja
dengan bahasa script TclTk Phyton dan Ruby Snack memiliki perintah-perintah untuk play record process
dan dan memvisualisasi suara Snack menyediakan obyek suara tingkat tinggi dengan manajemen penyimpanan
yang fleksibel dan streaming support Snack dapat bekerja pada banyak format file suara
Kita dapat membangun aplikasi sepaerti di bawah ini dengan integrasi dari TclTk dan Snack
Gambar 32 Program aplikasi pengenalan wicara
Frekuensi sampling pada program di atas diset pada frekuensi 12 kHz Frekuensi ini dipilih karena biasa
digunakan untuk voice Selain itu juga diset pada channel Mono dan sinyal encoding LIN 16 (resolusi 16 bit
PCM) Pada penekanan tombol ldquorecordrdquo diikuti tombol ldquostoprdquo dan kemudian tombol ldquostandartrdquo maka akan
dimulai proses perekaman yanag akan digunakan untuk membuat file standar untuk kedelapan perintah yang
akan digunakan untuk pembanding sinyal masukan
Adapun proses untuk sistem yang akan dibuat dapat digambarkan dengan diagram alir seperti di bawah
Bab 3 Perencanaan dan Implementasi
23
Mulai
Package Require
Snack 22
Exit
Program On
Running
Recording
Sound Card
Produser Running
Prosedur Recording
DTMF
Keluar
Tidak
YaTidak
Ya
Ya
Ya
Ya
Tidak
Tidak
Tidak
Gambar 33 Flowchart Sistem Graphical User
Interface
322 Sampling
Seperti telah dijelaskan di depan bahwa frekuensi sampling yang digunakan adalah sebesar 12000Hz
dimana dalam 1 detik sinyal terdapat 12000 titik sampling Sebagai contoh seperti gambar di bawah ini suatu
sinyal epanjang 20 ms disampling 12000 Hz menghasilkan titik sampling sebanyak 240 titik
Data Sampling
-20000
-15000
-10000
-5000
0
5000
10000
15000
20000
0 200 400 600
Amplitudo
Jumlah Data
Gambar 34 Sinyal hasil sampling dengan
frekuensi 12000 Hz
Bab 3 Perencanaan dan Implementasi
24
Mulai
Sinyal Masukan
Baca Panjang Sinyal
Bagi Menjadi N Frame
i = 0 i lt N i++
Ambil 240 Data Sampel
Tampilkan Nilai
Sampel
Selesai
Gambar 35 Flowchart Proses Sampling
323 Pre-emphasis
Agar spektrum sinyal merata di semua frekuensi dan mencegah kehilangan informasi akibat pembulatan
pada saat komputasi maka dilakukan prose preemphasis Fungsi transfer preemphasis adalah
H(z) = 1 ndash a z-1 09 le a le 1 (31)
Dimana nilai a berkisar 095 Berdasarkan model filter di atas maka keluaran dari preemphasis adalah
s(n) = s(n) ndash a s(n-1) (32)
324 Frame Blocking
Hasil perekaman merupakan sinyal dalam domain waktu yang bersifat variant time (fungsi yang
bergantung pada waktu) Sinyal yang telah dipreemphasis kemudian dibagi menjadi n buah frame Dengan
jumlah sample per frame sebesar N dan adjacent frame sebesar M sample Dimana M=05N Pada frame
pertama terdiri dari N buah sampel Frame kedua dimulai pada sampel ke M sehingga terjadi overlape sebesar
N - M sampel Begitupula untuk frame yang ketiga dimulai dari sample ke 2M sehingga terjadi overlape dari
farme kedua sebesar N + M-2M sampel juga Hal ini akan terus berlangsung hingga seluruh sinyal terbagi
menjadi beberapa frame
Bab 3 Perencanaan dan Implementasi
25
Gambar 36 Frame blocking sinyal
325 Windowing
Windowing yang digunakan adalah window hamming Setelah proses pengambilan sample maka
langkah selanjutnya adalah proses selanjutnya adalah proses windowing yang berfungsi untuk mengurangi efek
diskontinyuitas pada ujung-ujung frame Persamaannya adalah sebagai berikut
y[i] = x[i](054-046cos(20314159265(i-1)240) (33)
Flowchartnya bisa dilihat seperti di bawah
Mulai
240 Data
Sampel
i= 0 i lt 240 i++
Hamming Window
y[i] = x[i](054-046cos(2phi(i-1)
240))
Tampilkan
nilai
Hamming
Selesai
Gambar 37 Flowchart Proses Windowing
326 Fast Fourier Transform
Transformasi fourier cepat (FFT) adalah suatu metode yang sangat efisien untuk menyelesaikan
transformasi fourier diskrit (DFT) yang banyak dipakai untuk keperluan analisa sinyal Sehingga dengan FFT
N N N M
M N
N N
M
Bab 3 Perencanaan dan Implementasi
26
sinyal yang disampling dalam domain waktu ditransformasikan ke domai frekuensi dengan menggunakan
persamaan sebagai berikut
N-1
H(k) = sum h(n)e-j2лkN (34)
n=0
dengan k= 012N-1
Prosesnya dapat dilihat dari flowchart di bawah
Mulai
240 data
sampel
256 data sampel
i=0 ilt256 i++
tmp_log1=(xr[k]xr[k]+xc[k]xc[k])
tmp_log gt 0
xr[k]=10log10(tmp_log1)
Tampilkan
nilai
hamming
Selesai
xr[k]=10log10(0000001)
Ya
Tidak
Gambar 38 Flowchart Proses Fast Fourier
Transform
327 Autocorrelation analysis
Hasil dari windowing sinyal masukan kemudian dihitung autokerelasinya dengan persamaan
N-1-m
r1(m) = sum x1(n)x1(n+m) m=01p (35)
n=0
dimana niali autokorelasi tertinggi p adalah orde dari analisis LPCPada umumnya nilai dari p yang sering
digunakan adalah dari 8 sampai 16
Proses Autokorelasi dapat dilihat dari flowchart di bawah ini
Bab 3 Perencanaan dan Implementasi
27
Mulai
240 data p lpc
orde
i=0 iltp i++
j=0 jlt240-p-1 j++
RI[j]=sum(xI[i]xI[i+j])
Tampilkan nilai
autocorrelation
Selesai
Gambar 39 Flowchart Proses Autokorelasi
328 LPC Analysis
Hasil koefisien autokorelasi kemudian dikonversikan ke sebuah LPC parameter set (untuk metode LPC
autokorelasi) dikenal sebagai Metode Durbin dan secara formal ditunjukkan dari algoritma sebagai berikut
E(0) = r(0) (36)
ki=r(i)-sumαj(i-1) r(|i-j|)E(i-1) 1 le I le p (37)
αi(i) = ki (38 )
αj(i) = αj
(i-1)-ki α(i-1) ( 39)
t-j
E(i)=(1-ki2)E (i-j) (310)
dimana penyajian akhir dari persamaan 37 mengabaikan i=1 Kumpulan dari persamaan 36 -310 diselesaikan
secara rekursif untuk i=12p
Proses analisis dapat dilihat dari flowchart di bawah
Bab 3 Perencanaan dan Implementasi
28
Mulai
Autocorrelationr
p lpc orde
E (0) = r(0)
k1
= r(i)-sumalpha j (i-1) r( | i-j|E(i-1)
alpha j (i) = k
i
alpha j
(i) = alpha (i-1) -k i alpha
i-j (i-1)
E (i) = 1-k i 2) E(i-1)
Tampilkan nilai
parameter lpca
Selesai
i=0 iltp i++
Gambar 310 Flowchart proses LPC analisis
329 LPC Parameter to Cepstrum Analysis
Sekumpulan parameter LPC yang sangat penting yang dapat diturunkan langsung dari kumpulan
koefisien LPC adalah koefisien cepstral LPC c(m) Rekursif yang digunakan adalah
co = ln σ2 ( 311)
m-1
cm = am + sum ck am-k 1 le m le p (312)
k = 1
m-1
cm = sum ck am-k m gt p ( 313)
k = 1
Proses LPC parameter ke Cepstrum Analysis dapat dilihat dari flowchart di bawah ini
k m ( )
k m ( )
Bab 3 Perencanaan dan Implementasi
29
Mulai
lpc parameter a
p lpc orde
c o = ln del 2
1 lt=mlt=p
i=0 iltp i++
Cm
= am
+sum((km)Ck a
m-kC
m =sum((km)C
ka
m-k)
Tampilkan nilai lpc
cepstrumc
Selesai
Gambar 311 Flowchart Proses LPC parameter ke
Cepstrum
3210 Dynamic Time Warping
Proses yang terjadi pada Dynamic Time Warping adalah pengukuran jarak suara antara sinyal standart
dan sinyal input Yang diukur berupa deretan nilai dari hasil LPC Cepstrum dalam bentuk kolom dan baris (ij)
yang disimpan dalam satu file Pada kolom berisi nilai tiap cepstrum sedangkan baris berupa banyaknya frame
Teknik yang digunakan dinamakan Dynamic Programming Alur kerjanya dapat dilihat dari flowchart di bawah
Bab 3 Perencanaan dan Implementasi
30
Mulai
i=0 iltN i++
j=0 jlt15 j++
Cepstrum
Standart
Std_Ceps [i][j]
Cepstrum
Input
Inp_Ceps [i][j]
DP_dist = DP_match1(r)
DP_dist
Selesai
Gambar 312 Flowchart Proses Dynamic Programming
33 Awal dan Akhir Sinyal suara
331 Power
Untuk mendapatkan suatu sinyal suara tanpa adanya noise maka sinyal harus benar-benar dipotong
tepat pada awal dan akhirnya Oleh karena itu dipakai power sebagai salah satu cara yang efektif dalam
menentukan awal dan akhir suatu sinyal suara
Dimana tiap frame mempunyai power yang merupakan hasil kuadratisasi dari penyampelan tiap frame
yang kemudian hasil keseluruhan diakarkan seperti bisa dilihat pada flowchart di bawah
Bab 3 Perencanaan dan Implementasi
31
Mulai
Power = 0
i=0 ilt240 i++
Power=Power+sqrt(xixi)
Selesai
Gambar 313 Flowchart Proses Power
Jumlah sample per frame ditetapkan sebesar 240 sampel Kemudian dicari power masing-masing antara sinyal
utuh dan sinyal noise kemudian dengan p ge p + 07 standar deviasi maka didapatkan awal dan akhir sinyal
suara
332 Unvoiced Plosive
Adanya daerah kosong menyebabkan sinyal tidak valid dalam pemotongan awal dan akhirnya karena
bisa dianggap noise padahal berada dalam sinyal suara ( merupakan bagian dari sinyal suara) Oleh karena itu
dicari mean dari 25 kata sinyal suara yang kemudian dicari nilai thresholdnya sebagai panjang akhir dari daerah
kosong Dan nilai tersebut diikutsertakan dalam looping dan jika setelah itu terdapat sinyal kembali maka
berarti masih ada sinyal suara dan jika tidak ada berarti tidak ada sinyal suara
34 Proses Pada Client
Preses pada client dapat dijelaskan sebagai berikut
Gambar 314 Blok diagram proses client
Penjelasan dari blok digram tersebut adalah
1 Pertama adalah perekaman suara pada software recording yang hasilnyadisimpan dalam bentuk file
berekstensi ldquowavrdquo File ini selanjutnya akan dijadikan file input pada sistem client
2 File suara yang telah tersimpan diolah dalam program sampling untuk mendapatkan sinyal suara dalam
bentuk frame Setiap frame terdiri dari 120 sampel
Mic Extract AD Voice Dikenali
Bab 3 Perencanaan dan Implementasi
32
3 Tiap frame diwindow dengan window Hamming untuk mengurangi efek diskontinyuitas pada ujung-
ujung frame
4 Sinyal hasil window yang masih dalam domain time diubah ke dalam domain frekuensi dengan Fast
Fourier Transform (FFT)
5 Hasil dari windowing sinyal masukan kemudian dihitung autokerelasinya
6 Hasil koefisien autokorelasi kemudian dikonversikan ke sebuah LPC parameter set (untuk metode LPC
autokorelasi) Sekumpulan parameter LPC yang sangat penting yang dapat diturunkan langsung dari
kumpulan koefisien LPC adalah koefisien cepstral LPC
7 Selanjutnya dilakukan proses DTW (Dynamic Time Warping) pengukuran jarak suara antara sinyal
standart dan sinyal input Hasilnya disimpan dalam sebuah file berekstensi ldquotxtrdquo
8 File berekstensi txt tersebut ke server sebagai sinyal suara input
35 Proses Pada Server
Proses pada server dapat dijelaskan sebagai berikut
Gambar 315 Blok diagram proses server
Penjelasan dari blok diagram tersebut adalah
1 Isi file berekstensi rdquotxtrdquo diterima oleh server dan digunakan sebagai data input untuk memanggil
database tone DTMF yang sesuai sebagai pengoperasian alat yang akan dikontrol
2 Alat yang terkontrol akan menunjukkan hasilnya
Memanggil
Database
Tone
Dikode
kan
dalam
biner
Kirim
ke HW
Kontrol
Alat
Input
server
Bab 4 Pengujian dan Analisa
33
BAB 4
PENGUJIAN DAN ANALISA
41 Pendahuluan
Untuk mengetahui tingkat keberhasilan dari suatu sistem diperlukan pengujian keseluruhan dari
perencanaan hasil sistem yang telah dibuat Dalam bab ini akan dijelaskan mengenai hal tersebut
Pengujian yang akan dilakukan adalah
1 Pengujian dan analisa sistem pengolahan sinyal wicara
2 Pengujian dan analisa sistem client server
3 Pengujian dan analisa awal dan akhir sistem pengolahan wicara
42 Pengujian dan Analisa Sistem Pengolahan Wicara
Tujuan untuk mendapatkan parameter ciri individu dari sampel sinyal yang diolah
421 Perekaman Suara
Pada Tugas Akhir ini digunakan duamacam perangkat lunak yang dibangun sendiri berbasis TclTk 830
dan Snack 22 sebagai perangkat lunak yang diuji dan perangkat lunak Wavesurver sebagai pembanding
4211 Dengan menggunakan TclTk dan Snack
Tampilan awal dari perangkat lunak yang dibangun dengan menggunakan TclTk dan Snack adalah sebagai
berikut
Gambar 41 Tampilan awal perangkat lunak menggunakan TclTk dan Snack
Bab 4 Pengujian dan Analisa
34
Pertama kali tombol record ditekan maka proses pengambilan sinyal wicara yang dimasukkan
dimulai Pada saat tombol Stop ditekan maka program akan merekam kata ldquosatu nyalardquordquosatu matirdquordquodua
nyalardquordquodua matirdquordquotiga nyalardquordquotiga matirdquordquoempat nyalardquordquoempat matirdquo sesuai yang kita masukkan dan
tampilan display akan digambarkan bentuk sinyal yang dihasilkan secara otomatis Hasil perekaman dapat
dilihat pada gambar berikut 42
Gambar 42 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan perangkat lunak
TclTk dan Snack
Gambar 42 menunjukkan bahwa proses pengambilan sinyal suara telah dilakukan Sinyal suara yang
dimasukkna akan terlihat gambarnya pada layar hitam (canvas)
4212 Dengan menggunakan Wave Surver
Sebagai pembanding dari program yang telah dibuat yaitu dari perangkat lunak TclTk dan Snack
digunakan Wavesurver
Tampilan awal dari Wavesurver 157 tampak seperti pada gambar 43
Gambar 43 Tampilan awal perangkat lunak menggunakan Wavesurver
Bab 4 Pengujian dan Analisa
35
Pada saat tombol recording ditekan maka program akan merekam kata ldquosatu nyalardquo dan pada tampilan
display akan digambarkan bentuk sinyal yang dihasilkan secara otomatis Hasil perekaman bisa dilihat pada
gambar 44
Gambar 44 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan
perangkat lunak Wavesurver
Perekaman pada Wavesurver dapat diset sesuai dengan kebutuhan Dimana pada sistem pengolahan sinyal
suara untuk perekaman suara diset sebagai berikut
Gambar 45 Kotak dialog setting perekaman perangkat lunak Wavesurver
Pada data di atas dapat dilihat bahwa suara yang direkam dengan mengguanakan perangkat lunak
Wavesurver mempunyai header dan tail yang berisi keterangan perekaman sebagai berikut
12000 menunjukkan frekuensi sampling yang digunakan
Bab 4 Pengujian dan Analisa
36
Channels menunjukkan bahwa suara direkam dengan menggunakan channel Mono
Sampel Encoding Lin 16 menunjukkan bahwa suara direkam dengan menggunakan
16 bit PCM
422 Sampling
Dengan menggunakan program yang dibangun sendiri di atas proses penyamplingan sinyal input sekaligus
telah terjadi dimana dengan frekuensi sampling sebesar 12000 Hz didapatkan sinyal dari kata ldquosatu nyalardquo
dengan potongan sebagai berikut
3306
3538
3788
4076
4282
4684
4747
4956
5083
5442
5844
5901
6244
6196
6462
6104
Berikut ini adalah cuplikan dari data sampel kata ldquo empat matirdquo mulai dari milidetik ke-13900
Bab 4 Pengujian dan Analisa
37
Data Sampling
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 46 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900
Pada gambar 46 telah dilakukan proses sampling sinyal masukan dengan frekuensi sampling sebesar 12000
Hz maka didapatkan hasil sinyal yang hampir mirip dengan sinyal analognya karena sinyal suara manusia
memiliki jarak frekuensi antara 300 sampai 5000 Hz dimana syarat Nyquist minimal fsampling 2fsinyal
telah terpenuhi
423 Windowing
Jenis window yang digunakan adalah window Hamming
Pada proses window hamming kata yang telah disampel sebanyak 240 sampel akan diwindow sehingga
menghasilkan sinyal yang lebih kecil peaknya Hasilnya adalah sebagai berikut
-26174
-22078
-12518
-1444
9690
19308
23360
20049
12365
2391
-7874
-14539
-17837
-19929
-19007
-16955
Bab 4 Pengujian dan Analisa
38
Sedangkan hasil dalam bentuk gambar dapat dilihat pada gambar berikut
Data Windowing
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 47 Hasil Windowing data sampel kata ldquoempat matirdquo milidetik ke-13900
Seperti yang ditunjukkan gambar 47 proses windowing telah dilakukan Berdasarkan gambar 47
tersebut dapat dikatakan bahwa window Hamming menyebabkan sinyal yang disampel lebih halus Gambar
47 dapat dibandingkan dengan gambar 46 yaitu gambar sinyal sebelum melalui proses windowing dapat
dilihat bahwa sinyal yang telah diwindow mempunyai sinyal yang lebih halus Hal ini membuktikan bahwa
fungsi dari windowing untuk mengurangi efek diskontinyuitas pada ujung-ujung frame adalah benar
424 Fast Fourier Transform Sinyal Masukan
Pada proses ini sinyal yang sebelumnya berada dalam domain waktu akan diubah dalam domain
frekuensi Setiap sinyal yang berasal dari alam merupakan sinyal analog yang bila diolah harus diubah
dalam bentuk sinyal digital Dan pengolahan dalam digital merupakan pengolahan dalam bentuk diskrit
Pada proyek akhir ini sinyal dalam domain waktu akan diubah dalam domain frekuensi dengan 256 titik
Karena hasil yang diperoleh berupa hasil dari fungsi konvolusi maka hanya akan diambil 128 titik saja yang
akan diolah dalam proses selanjutnya Sedangkan 128 sisanya tidak dipergunakan karena berupa
pencerminan saja
Hasil dari Fast Fourier Transform (FFT) dari penggalan kata ldquoempat matirdquo pada milidetik ke-13900 dalam
bentuk teks adalah
103505157
106889458
Bab 4 Pengujian dan Analisa
39
104735321
100408661
89175987
95431992
96601654
8489315
89637459
8630304
75320663
87866905
91001945
89607201
82408546
83440155
4241 Dengan Menggunakan TclTk dan Snack
Fast Fourier Transform Sinyal
Masukan
0
20
40
60
80
100
120
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 48 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat
lunak TclTk dan Snack
Dari gambar 48 di atas sinyal suara yang sebelumnya berada di domain waktu telah diubah ke domain
frekuensi Hasil Fast Fourier Transform sinyal masukan menunjukkan sebaran spektrum frekuensi dari
sinyal suara yang telah dihasilkan oleh pengucap antara 0 sampai 6000 Hz
Bab 4 Pengujian dan Analisa
40
4242 Dengan Menggunakan Wavesurver
Gambar 49 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat
Wavesurver
Dari gambar 49 di atas hasil Fast Fourier Transform sinyal masukan menunjukkan sebaran spektrum
frekuensi dari sinyal suara yang telah dihasilkan oleh pengucap antara 0 sampai 6000 Hz adalah sama
seperti pada gambar dengan gambar 48 yang diambil dengan perangkat lunak TclTk dan Snack
425 Autocorrelation Analysis
Pada proses ini sinyal masukan dalam domain waktu yang telah diwindow hamming dihitung korelasinya
dengan menggunakan orde analisi LPC sebesar 15 Sehingga akan didapatkan hasil rk(autokorelasi) sebagai
berikut
17648453
128874
0669745
0662566
0470262
0164336
-010638
-0229032
-016249
0014062
0138456
0188749
0117826
0014517
-0052704
426 LPC Analysis
Dari hasil autokorelasi tersebut di atas selanjutnya adalah LPC dimana mengkonversi masing-masing
frame dari autokorelasi p+1 ke dalam sebuah LPC Parameter a
Bab 4 Pengujian dan Analisa
41
Metode yang formal untuk mengkonversi dari koefisien autokorelasi ke sebuah LPC parameter (untuk
metode LPC autokorelasi) dikenal sebagai Metode Durbin dan secara formal hasilnya dapat ditunjukkan
sebagai berikut ini
1
-128874
0160681
-0156173
0166653
0255508
0192145
0003037
-0202248
-0265201
-0112133
005938
0232232
0203554
0048429
Dari hasil di atas terlihat bahwa untuk setiap frame nilai pertama menunjuukan energi dari masing-masing
frame dan selanjutnya adalah parameter LPC dalam satu frame yang digunakan sebagai penentu ciri dari
sinyal suara yang dihasilkan oleh individu
427 Fast Fourier Transform LPC Parameter
Pada proses ini nilai dari parameter LPC yang sebelumnya masih berada dalam domain waktu akan diubah
dalam domain frekuensi Pada proyek akhir ini parameter LPC dalam domain waktu akan diubah dalam
domain frekuensi dengan 256 titik Karena hasil yang diperolah berupa hasil dari fungsi konvolusi maka
hanya akan diambil 128 titik saja yang akan diolah dalam proses selanjutnya Sedangkan 128 sisanya tidak
dipergunakan karena berupa pencerminan saja
Hasil dari Fast Fourier Transform (FFT) dari parameter LPC pada penggalan kata ldquoempat matirdquo pada
milidetik ke-1 dalam bentuk teks adalah
103505157
106889458
104735321
100408661
89175987
Bab 4 Pengujian dan Analisa
42
95431992
96601654
8489315
89637459
8630304
75320663
87866905
91001945
89607201
82408546
4271 Dengan menggunakan TclTk dan Snack
Fast Fourier Transform Parameter
LPC
0
20
40
60
80
100
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 410 Fast Fourier Transform LPC dengan
menggunakan perangkat lunak TCLTk
dan Snack
Hasil gambar 410 menunjukkan bahwa parameter LPC yang di-Fourier Transform-kan akan menjadi
selubung spektrum dari spektrum sinyal masukan Sehingga jika selubung dan spektrumnya secara gambar
cocok dapat dikatakan bahwa LPC parameter yang dihitung benar
Bab 4 Pengujian dan Analisa
43
4272 Dengan menggunakan Wavesurver
Gambar 411 Fast Fourier Transform LPC denganmenggunakan perangkat lunak
Wavesurver
Hasil gambar 411 menunjukkan bahwa parameter LPC yang di-Fourier Transform-kan akan menjadi
selubung spektrum dari spektrum sinyal masukan adalah sama dengan yang telah diperoleh dengan
perangkat lunak TclTk seperti pada gambar 410
428 LPC Parameter to LPC Cepstrum
Koefisien LPC cepstrum koefisien yang direpresentasikan dengan Fourier Transform dengan spektrum
besaran log telah ditampilkan menjadi kumpulan fitur untuk pengenalan wicara yang lebih handal
terpercaya daripada koefisien LPC koefisien PARCOR atau koefisien log area ratio
Hasil dari LPC cepstrum pada penggalan kata ldquoempat matirdquo pada milidetik ke-106 dalam bentuk teks adalah
16636311
1387922
0474473
0654796
0429659
0132543
0225374
0126501
0021161
0242437
Bab 4 Pengujian dan Analisa
44
0160623
0065745
0139379
0056064
-0029262
Dari hasil di atas dapat dianalisa bahwa besaran-besaran dari LPC cepstrum benar-benar dapat
digunakan sebagai penentu ciri dari sinyal suara individu karena besaranndashbesaran yang dihasilkan oleh LPC
cepstrum dari yang pertama sampai yang terakhir dalam satu frame sangat bervariasi nilainya
429 Inverse Fast Fourier Transform LPC Cepstrum
Untuk menggambarkan ciri atau fitur wicara dalam domain waktu maka LPC cepstrum di-Invers Fast
Fourier Transform-kan sehingga didapatkan gambar untuk penggalan kata ldquosatu nyalardquo pada milidetik ke-
400 seperti gamabar 412
Fast Fourier Transform LPC
Cepstrum
0
20
40
60
80
100
120
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 412 Invers Fast Fourier Transform LPC cepstrum dengan menggunakan
perangkat lunak TCLTk dan Snack
Dari gambar 412 dapat dianalisa bahwa bentuk dari invers fourier transform LPC cepstrum yang
menyerupai selubung pada domain waktu dari spektrum frekuensi juga digunakan untuk menunjukkan
bahwa perhitungan LPC cepstrumnya telah benar dan dapat digunakan sebagai penentu ciri sinyal suara
individu
Invers Fast Fourier Transform LPC
Cepstrum
Bab 4 Pengujian dan Analisa
45
Gambar 413 Penggabungan spektrum sinyal spektrum LPC dan spektrum LPC
Cepstrum
Gambar 413 spektrum sinyal yang diwakili warna merah merupakan hasil sinyal yang telah di-Fast
Fourier Transform-kan Spektrum sinyal yang berwarna hijau merupakan parameter LPC yang telah di-
Fourier Transform-kan Sinyal ini akan menjadi selubung spektrum dari spektrum sinyal masukan Bila
selubung dan spektrumnya secara gambar cocok maka dapat dikatakan bahwa LPC parameter yang dihitung
adalah benar Dari gambar 413 dapat dilihat antara selubunga dan selubung sinyal masukan sudah cocok
Sinyal yang berwarna biru merupakan sinyal rata-rata dari sinyal selubung spektrum
4210 Dynamic Time Warping
Pengujian terakhir dari proses pengolahan sinyal wicara adalah membandingkan sinyal hasil cepstrum LPC
antara data input dan data standarnya Berdasarkan daerah pembatas kontinyuitas lokal dari persamaan 21
maka digunakan model yang pertama dan menggunakan persamaan 2116 dalam menghitung jarak antara
kata sebagai standar dan sebagai masukan
Selanjutnya menetukan data data sebagai data standar dan data sebagai data masukan Pada sistem ini
digunakan 8 kombinasi kata sebagai kata standar dan kata msukan untuk masing-masing pengujian dengan
kata standar sebanyak sepuluh (10) kali Adapun kata yang digunakan sebagai standar dan kata yang diuji
adalah meliputi satu nyalasatu matidua nyaladua matitiga nyalatiga matiempat nyalaempat
mati
Pada pengujian sistem kali ini masih menggunakan datasuara dari pebgucap yang sama Dari kelima data
standar yang ada dilakukan pembandingan dengan masing-masing 10 (sepuluh) kali pemasukan data Data
yang menghasilkan jarak euclidian terpendek dari masing-masing kata itulah yang akan diambil sebagai
data perintah terbaik
Bab 4 Pengujian dan Analisa
46
Pelekukan Jalur Suara
0
50
100
150
0 50 100 150
Sinyal Input empat mati
Sinyal Standart
empat mati
Gambar 414 Pelekukan Jalur Suara dengan Dynamic Time Warping
Dari gambar 414 dapat dianalisa bahwa dengan menggunakan dynamic time warping dua buah sinyal suara
akan dibandingkan vektor-vektor spektralnya dimana juga terdapat proses pembandingan panjang sinyal
antara dua buah sinyal tersebut sehingga terjadi proses pemadanan panjang sinyal dengan cara
memperpanjang dan menekuk vektor spektralnya Memperpanjang dalam arti memperpanjang sinyal yang
lebih pendek dengan memperhatikan perbandingan vektor spektralnya dan demikian pula menekuk dalam
arti menekuk sinyal yang lebih panjang dengan memperhatikan vektor spektralnya Dengan panjang yang
sama sebagai hasil dynamic time warping maka jarak euclidian antara dua sinyal dapat diperbandingkan
atau dihitung
4211 Min Value dan Sorting
Min Value dan Sorting menjadi satu paket sendiri yang digunakan untuk mencari kemungkinan hasil
terkecil dari pembandingan pola kata masukkan dengan kedelapan kata standart Keluaran dari fungsi
dynamic time warping akan memberikan delapan buah data yaitu hasil pembandingan kata masukan
dengan kata standart satu nyala hasil pembandingan kata masukan dengan kata standart satu mati hasil
pembandingan kata masukan dengan kata standart dua nyala hasil pembandingan kata masukan dengan
kata standart dua mati hasil pembandingan kata masukan dengan kata standart tiga nyala hasil
pembandingan kata masukan dengan kata standart tiga mati hasil pembandingan kata masukan dengan
kata standart empat nyala hasil pembandingan kata masukan dengan kata standart empat mati Dengan
metode sorting buble sort maka akan didapat nilai minimalnya
0748745
0362272
0633390
0327642
0600250
0346530
Bab 4 Pengujian dan Analisa
47
0545907
0207464
Berdasarkan data diatas maka perintah input sama dengan perintah kedelapan (ldquoempat matirdquo) karena
memiliki hasil time warping terkecil yaitu 0207464
4212 Hasil Pengujian Awal dan Akhir Sinyal
Pada proses penentuan awal dan akhir agar lebih presisi menggunakan ldquoPowerrdquo Adapun kelebihan dari
power adalah dapat membedakan antara sinyal suara dengan sinyal noise
Untuk menentukan awal dan akhir dicari nilai power Pada proses power kata yang telah disampel
sebanyak 240 sampel akan menghasilkan sinyal yang halus dan terletak di atas sumbu x Hasil dalam bentuk
teks adalah sebagai berikut ini
7678195313
1165659297
123492625
8917128906
6318766797
4531086719
4338374609
4912630469
5382503125
4548908984
429756875
4739710547
4575902734
4682924609
4786217578
Bab 4 Pengujian dan Analisa
48
Gambar hasil power bisa dilihat pada gambar 415 berikut
Power
0
100000
200000
300000
400000
500000
0 50 100 150
Jumlah Frame
Amplitude
Gambar 415 Sinyal ldquoempat matirdquo hasil program power
Gambar 416 berikut ini adalah hasil pengujian kata ldquoempat matirdquo sebagai masukan dan kata standar ldquoempat
matirdquo dimana kedua kata dibandingkan berdasarkan powernya sebelum proses Dinamic Time Warping
Sinyal warna biru sebagai power sinyal standart dan sinyal yang berwarna merah merupakan power sinyal
input
Perbandingan Dua Kata empat mati
sebelum DTW
0
100000
200000
300000
400000
500000
0 50 100 150
Jumlah Frame
Amplitude
Gambar 416 Perbandingan power dua kata ldquoempat matirdquo sebelum Dynamic Time Warping
Berikut ini adalah hasil pengujian dua buah kata ldquoempat matirdquo dengan menggunakan dynamic time warping
dimana jalur pelekukan suara dapat digambarkan pada gambar 417
Bab 4 Pengujian dan Analisa
49
Pelekukan Jalur Suara
0
50
100
150
0 50 100 150
Sinyal Input empat mati
Sinyal Standart
empat mati
Gambar 417 Pelekukan jalur suara dua kata ldquoempat matirdquo dengan DTW
Gambar 418 adalah hasil pengujian dua buah kata ldquoempat matirdquo sebagai masukan dan dan kata standar
ldquoempat matirdquo dimana kedua kata dibandingkan berdasarkan powernya setelah proses dynamic time
warping
Gambar 418 dapat dibandingkan dengan gambar 416 yaitu sinyal sebelum proses Dynamic Time Warping
Sebelum proses Dynamic Time Warping sinyal tidak mengalami proses penekukan dan penarikan data
berdasarkan waktu antara keduanya sehingga antara sinyal input dan sinyal standart memiliki ukuran
panjang yang sangat jauh berbeda
Pemadanan Dua Kata Setelah DTW
0
100000
200000
300000
400000
500000
0 100 200 300
Jumlah Frame
Amplitude Power
Gambar 418 Perbandingan power dua kata ldquoempat matirdquo setelah Dynamic Time Warping
Dari gambar 418 dapat dinyatakan bahwa setelah melalui proses dynamic time warping terjadi penekukan
dan penarikan data berdasarkan waktu antara keduanya sehingga pada akhirnya kedua sinyal memiliki
ukuran panjang yang sama Sehingga dengan demikian dapat dicari jarak euclidian untuk menentukan
sebuah kata yang sesuai dengan kata yang lainnya
Bab 4 Pengujian dan Analisa
50
4213 Hasil Pengujian Sistem Perangkat Lunak
Pada pengujian sistem perangkat lunak diambil sampel data dari 3 orang dimana terdiri dari 3 orang pria
dan 1 orang wanita Pria pertama merupakan standar sekaligus pengisi suara untuk perintah Sedangkan pria
kedua dan wanita sebagai pembanding untuk mengetahui unjuk kerja sistem
Tabel 41 Hasil pengujian sistem pengolahan sinyal wicara untuk pengucap yang sama (pria
1)
8 7 6 5 4 3 2 1 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05417
03487
05964
03443
07272
04424
03449
01
961
Satu
nyala
Sinyal Standart
02496
04723
03013
05120
03450
03815
01
739
03471
Satu
mati
04389
02035
06139
03244
04343
02
158
04567
04047
Dua
nyala
01866
04517
04157
05267
01
940
02561
02036
04779
Dua
mati
04833
02168
03984
01
090
06409
04278
05019
02690
Tiga
nyala
02683
04628
01
188
03416
04046
03345
02959
04614
Tiga
mati
03807
01
046
05271
01974
05934
03134
04363
02554
Empat
nyala
01
388
03728
02269
04497
02559
03195
02476
04874
Empat
mati
Bab 4 Pengujian dan Analisa
51
16
15
14
13
12
11
10
9 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05776
02988
05100
04019
06101
05338
04219
02
047
Satu
nyala
Sinyal Standart
03382
04381
02427
05124
02642
05990
02
706
03335
Satu
mati
04453
02558
04993
04574
03381
02
344
04529
04121
Dua
nyala
01669
04532
03190
06355
01
004
04807
03466
04622
Dua
mati
05209
02261
03366
01
124
05377
04165
05369
02660
Tiga
nyala
03721
04074
00
891
03002
02637
05958
02719
04333
Tiga
mati
03889
01
755
04365
02341
04826
03150
05193
02472
Empat
nyala
01
092
03974
01802
04848
01455
05343
02717
04536
Empat
mati
Bab 4 Pengujian dan Analisa
52
24
23
22
21
20
19
18
17 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05157
04015
06277
02964
05609
04690
03376
01
369
Satu
nyala
Sinyal Standart
01787
05144
03814
04134
04952
04843
01
636
03404
Satu
mati
03988
03026
07420
03020
03977
01
905
04801
03610
Dua
nyala
01630
05662
06259
05009
01
808
03357
02206
05094
Dua
mati
04667
02681
05731
01
448
05575
03280
05344
03417
Tiga
nyala
01902
05055
03
395
02597
04700
04618
02951
04808
Tiga
mati
03809
01
863
06920
02154
04252
02455
04616
03184
Empat
nyala
00
761
04379
04288
04053
03629
04122
02419
05622
Empat
mati
Bab 4 Pengujian dan Analisa
53
32
31
30
29
28
27
26
25 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
04793
03554
06312
03247
06514
03585
03068
02
935
Satu
nyala
Sinyal Standart
01671
04661
03012
03961
02834
04667
01
079
05475
Satu
mati
04033
02359
05307
02587
03475
01
587
04781
04010
Dua
nyala
02222
04949
03652
04387
00
958
03222
02647
04966
Dua
mati
04499
02207
04170
01
873
05884
02500
05631
03257
Tiga
nyala
01791
04432
01
196
02646
02999
04619
02558
05048
Tiga
mati
03561
01
050
05061
02437
04927
01887
05325
03424
Empat
nyala
00
858
03774
02052
03974
01440
04186
02597
05381
Empat
mati
Bab 4 Pengujian dan Analisa
54
40
39
38
37
36
35
34
33 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
06471
03838
05816
03364
06492
03613
03496
01
111
Satu
nyala
Sinyal Standart
02951
05556
02631
04558
05057
04799
01
683
02958
Satu
mati
05259
02977
05228
03305
04614
00
878
05159
02707
Dua
nyala
03165
05686
03078
05512
01
088
03082
03482
04823
Dua
mati
05397
02037
03714
00
949
06365
02818
05998
02829
Tiga
nyala
02990
04867
00
921
02759
04978
04752
03131
04533
Tiga
mati
05028
01
233
05114
02070
05154
01825
05439
01975
Empat
nyala
01
914
04521
01834
04248
02711
04164
03149
04755
Empat
mati
Bab 4 Pengujian dan Analisa
55
48
47
46
45
44
43
42
41 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
07997
03701
06005
03992
05800
05223
03706
01
198
Satu
nyala
Sinyal Standart
03909
04978
02572
05339
05784
05103
01
161
03113
Satu
mati
06284
02355
05419
04194
03709
02
588
04764
02834
Dua
nyala
03737
04883
03321
06131
03
489
04229
03188
04962
Dua
mati
05885
02259
04026
00
918
06123
03601
05739
0 2867
Tiga
nyala
03583
04464
00
974
03340
05828
05114
02720
04269
Tiga
mati
05762
01
230
7
05459
02231
04899
03397
05114
0 2395
Empat
nyala
02
247
02888
01948
04994
04987
04505
02141
0 4956
Empat
mati
Bab 4 Pengujian dan Analisa
56
56
55
54
53
52
51
50
49 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05627
03923
06226
04018
05254
04895
02933
02
009
Satu
nyala
Sinyal Standart
02473
04947
02892
05661
05301
05040
01
289
03008
Satu
mati
04393
02779
06046
04425
02900
01
743
04571
02669
Dua
nyala
02222
05352
04171
06748
01
202
03736
03177
03699
Dua
mati
04644
02488
03523
00
835
05391
03319
05277
03671
Tiga
nyala
02213
04345
01
009
03758
02869
05933
02761
03900
Tiga
mati
04093
01
443
05080
05083
04959
02819
04840
02709
Empat
nyala
01
239
04029
0 2223
05428
01263
04236
02575
04141
Empat
mati
Bab 4 Pengujian dan Analisa
57
64
63
62
61
60
59
58
57 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
07489
03792
05134
04199
06459
04019
03044
01
850
Satu
nyala
Sinyal Standart
03586
04783
02186
05509
02884
04251
01
198
03243
Satu
mati
05697
02612
04576
04268
03211
01
519
04639
03845
Dua
nyala
03563
05288
02855
06752
01
074
03523
03265
04523
Dua
mati
05768
02262
03884
01
048
06348
02633
05784
02683
Tiga
nyala
03449
04859
01
009
03177
03425
04355
02975
04077
Tiga
mati
05693
01
445
04574
02498
05298
01999
05622
02359
Empat
nyala
02
236
04215
01468
05161
01827
03851
03161
04416
Empat
mati
Bab 4 Pengujian dan Analisa
58
72
71
70
69
68
67
66
65 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05439
02975
05593
03689
05796
03415
03416
01
492
Satu
nyala
Sinyal Standart
02225
04543
04586
04584
02669
04529
01
112
02881
Satu
mati
04025
02639
06303
03009
02582
01
003
05045
02767
Dua
nyala
01734
05437
04847
04897
00
826
02892
02584
04797
Dua
mati
04671
02336
04988
01
206
05595
02572
05647
02991
Tiga
nyala
02095
04805
04
025
02747
02848
04359
02773
04076
Tiga
mati
03971
01
297
05065
02121
04489
01703
05074
02131
Empat
nyala
00
901
04123
04026
04154
01514
03762
02328
04561
Empat
mati
Bab 4 Pengujian dan Analisa
59
80
79
78
77
76
75
74
73 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
07997
03054
06228
04446
05805
04687
03173
03
391
Satu
nyala
Sinyal Standart
05051
04619
05619
05749
02631
04447
01
086
05310
Satu
mati
05949
03685
05899
05607
03163
01
874
05234
03797
Dua
nyala
03109
05053
05258
07102
01
095
03368
03585
04539
Dua
mati
06473
02004
04524
01
350
05525
03084
05608
03682
Tiga
nyala
04759
04205
04
309
03701
03031
04660
02678
05243
Tiga
mati
05572
02
003
05167
02702
04478
02552
05358
03563
Empat
nyala
02
459
04960
04964
05734
01641
03971
02630
05029
Empat
mati
Pengujian pertama ini dilakukan dengan cara memasukkan suara pria pertama (yang digunakan sebagai
pengisi suara standart) Setiap satu perintah dilakukan sebanyak 10 kali pengujian Hasil pengujian
merupakan nilai dari hasil proses Dynamic Time Warping yang merupakan nilai dari pemadanan sinyal
input dengan kedelapan sinyal standart Nilai terkecil (nilai yang tercetak tebal) yang didapatkan merupakan
hasil yang paling mendekati sinyal standart Yang berarti sinyal masukan tersebut dianggap paling sesuai
dengan sinyal standart
Prosentase keberhasilan pengucapspeaker pertama untuk kedelapan perintah sebesar 100 semuanya
menunjukkan kepada sinyal masukkan dan sinyal standart yang sama
Hasil pengujian menunjukkan bahwa ciri sinyal suara yang dihasilkan oleh pengucap speaker pertama dan
sebagai pemberi standart adalah sama
Bab 4 Pengujian dan Analisa
60
Tabel 42 Hasil pengujian sistem pengolahan sinyal wicara untuk pengucap yang lain (pria
2)
8 7 6 5 4 3 2 1 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
06023
05121
07146
04599
04996
04561
07575
04
358
Satu
nyala
Sinyal Standart
04018
05701
06369
06256
03518
05738
07004
08129
Satu
mati
07120
03925
07395
04897
05938
02246
10082
06777
Dua
nyala
04963
05958
05189
07345
03449
04854
08816
08543
Dua
mati
05919
04337
05163
02
130
04797
03463
08871
05289
Tiga
nyala
03709
04519
04380
03601
03491
05239
06
046
07381
Tiga
mati
06087
03
161
06178
03280
05
068
02
439
08853
05354
Empat
nyala
03
409
04321
04
208
05569
03219
04898
06863
08596
Empat
mati
Bab 4 Pengujian dan Analisa
61
16
15
14
13
12
11
10
9 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05475
03932
05521
04
383
05634
05416
04
464
03
434
Satu
nyala
Sinyal Standart
04076
05731
04541
05681
03574
04920
03971
06662
Satu
mati
07427
04886
07924
05962
05824
02
712
07837
05504
Dua
nyala
04475
06666
05765
07616
03414
04203
05431
06334
Dua
mati
05357
03797
05099
04509
04902
04332
07097
05220
Tiga
nyala
04197
05134
04
209
05088
03169
04547
04464
06516
Tiga
mati
05936
03
769
05910
05109
05
311
03435
07646
04977
Empat
nyala
03
576
05767
04591
06367
03010
04129
04944
06850
Empat
mati
Bab 4 Pengujian dan Analisa
62
24
23
22
21
20
19
18
17 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
06927
04
279
08096
04
448
06461
05522
03935
02
444
Satu
nyala
Sinyal Standart
06409
05322
05528
05481
04912
04491
02
011
05508
Satu
mati
06134
04643
08962
06002
04868
02
579
06122
05502
Dua
nyala
04753
06443
05501
07364
02
298
03206
04239
06684
Dua
mati
05709
04928
05456
04961
06142
05726
06454
03831
Tiga
nyala
05798
04882
03
235
04708
04838
04317
03526
05462
Tiga
mati
05021
04423
06842
05583
05222
04132
06363
04235
Empat
nyala
04
457
05427
03546
05773
02946
03573
03618
07019
Empat
mati
Bab 4 Pengujian dan Analisa
63
32
31
30
29
28
27
26
25 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05260
04224
07393
04661
06292
04993
03989
03
549
Satu
nyala
Sinyal Standart
04478
04669
04568
05977
03523
04046
03
438
04819
Satu
mati
06448
04308
08152
06114
04665
02
444
07609
05162
Dua
nyala
04024
05867
05103
07873
01
872
02613
04489
06765
Dua
mati
05363
04
672
05250
04
529
05210
05103
06546
04794
Tiga
nyala
04422
04039
02
482
05102
03499
03985
03969
04371
Tiga
mati
05492
04073
06626
05239
04902
03553
06869
04794
Empat
nyala
03
326
04543
03153
06510
02133
03419
04175
05287
Empat
mati
Hasil pengujian yang kedua ini dilakukan dengan cara memasukkan suara dari pria kedua (pria lain yang
tidak digunakan sebagai suara standart) Setiap satu perintah dilakukan empat (4) kali proses pengujian
Hasil pengujian merupakan nilai dari hasil proses Dynamic Time Warping yang merupakan nilai dari
pemadanan sinyal input dengan kedelapan sinyal standart Nilai terkecil (nilai yang tercetak tebal) yang
didapatkan merupakan hasil yang paling mendekati sinyal standart Yang berarti sinyal masukan tersebut
dianggap paling sesuai dengan sinyal standart
Prosentase keberhasilan pengucapspeaker kedua untuk kedelapan perintah bervariasi sebesar 50
sampai dengan 100 semuanya menunjukkan kepada sinyal masukkan dan sinyal standart yang berbeda
Hasil pengujian menunjukkan bahwa ciri sinyal suara yang dihasilkan oleh pengucap speaker kedua dan
sebagai pemberi standart adalah mendekati sama
Bab 4 Pengujian dan Analisa
64
Tabel 43 Hasil pengujian sistem pengolahan sinyal wicara untuk pengucap yang sama (pria)
No Perintah Lampu DTMF
1 1 nyala B B
2 1 mati B G
3 2 nyala B G
4 2 mati G X
5 3 nyala G X
6 3 mati G X
7 4 nyala B B
8 4 mati B B
9 1 nyala B G
10 1 mati B B
11 2 nyala B G
12 2 mati B B
13 3 nyala B G
14 3 mati B B
15 4 nyala B G
16 4 mati B B
17 1 nyala B G
18 1 mati B B
19 2 nyala G X
20 2 mati G X
21 3 nyala B B
22 3 mati B B
23 4 nyala B B
24 4 mati G X
No Perintah Lampu DTMF
25 1 nyala B G
26 1 mati G X
27 2 nyala G X
28 2 mati B G
29 3 nyala B G
30 3 mati B G
31 4 nyala B G
32 4 mati G X
B Berhasil
G Gagal
X Donrsquot Care (Diabaikan)
Pengujian yang ketiga ini dilakukan oleh pria pertama (pria yang suaranya digunakan sebagai standart)
Masing-masing perintah dilakukan sebanyak empat kali pengujian
Bab 4 Pengujian dan Analisa
65
Pada kolom ketiga (kolom lampu) tanda B (berhasil) menunjukkan bahwa perintah yang diberikan pada
hardware berhasil dilakukan Tanda G (gagal) menunjukkan bahwa perintah yang diberikan pada hardware
gagal dilakukan(hasil tidak sesuai dengan perintah yang diberikan)
Pada kolom keempat (kolom DTMF) menunjukkan laporan dari hardware ke PC server tentang
bagaimana keadaan lampu yang sedang dikontrol apakah dalam keadaan menyala atau mati Pada kolom ini
tanda B (berhasil) menunjukkan bahwa laporan dari hardware ke PC server (yang merupakan proses
otomatisasi) berhasil dilakukan Tanda G (gagal) menunjukkan bahwa laporan ke PC client gagal dilakukan
Sedangkan tanda X (donrsquot care) menunjukkan bahwa perintah diabaikan Hal ini disebabkan perintah pada
hardware (perintah sebelumnya sebelum proses otomatisasi) sudah gagal dilakukan
Prosentase keberhasilan pengucapspeaker pertama untuk kedelapan perintah bervariasi antara 50
sampai 100 semuanya menunjukkan kepada sinyal masukkan dan sinyal standart yang berbeda
Hasil pengujian kedua ini menunjukkan bahwa ciri sinyal suara yang dihasilkan oleh pengucapspeaker
kedua ini yang merupakan suara orang lain (bukan pemberi standart) adalah mendekati sama dengan hasil
yang bervariasi antara 50 sampai 100
43 Pengujian Sistem Client Server
Pada sub bab ini akan diujikan program Client Server yang akan mengirimkan sinyal hasil pengolahan
suara
Tampilan pada client adalah seperti gambar 421 yang merupakan tampilan awal pada saat program
dimulai
Gambar 421 Proses pada client
Bab 4 Pengujian dan Analisa
66
Gambar 422 Proses pada server
1 Sebelumnya program server harus disiapkan lebih dulu
2 Setelah itu client dijalankan
3 Setelah client siap user memasukkan suara yang selanjutnya akan diolah sampai proses DTW
4 Server menerima data yang selanjutnya digunakan untuk melakukan kontrol alat rumah tangga
44 Analisa Pengujian Sistem Secara Keseluruhan
Berdasarkan data-data yang telah didapatkan di atas maka dapat ditarik suatu analisa bahwa
Berdasarkan tabel 44 untuk pengujian pertama pria 1 adalah pria yang suaranya digunakan sebagai standart
Prosentase keberhasilan rata-rata yang didapat untuk semua perintah adalah sebesar 100 Hal ini menunjukkan
bahwa suara yang diujikan adalah suara yang sama dengan standart dan pria 1 tersebut pernah berinteraksi
dengan sistem
Pengujian yang kedua adalah pengujian yang dilakukan oleh pria 2 (pria lain yang suaranya tidak
dipakai sebagai standart) Prosentase keberhasilan rata-rata yang didapat untuk semua perintah 7188 Karena
sistem bersifat dependent speaker dimana sistem hanya digunakan oleh orang tertentu dalam arti yang pernah
berinteraksi langsung dengan sistem Oleh karenanya didapat nilai prosentase keberhasilan yang bervariasi
Bab 4 Pengujian dan Analisa
67
Tabel 44 Tingkat keberhasilan sistem perangkat lunak
NNO
PENGUCAP
PERINTAH
BANYAK
PERCOBAAN
PROSENTASE
KEBERHASILAN
1 Pria 1 1 nyala 8 kali 100
2 1 mati 8 kali 100
3 2 nyala 8 kali 100
4 2 mati 8 kali 100
5 3 nyala 8 kali 100
6 3 mati 8 kali 100
7 4 nyala 8 kali 100
8 4 mati 8 kali 100
RATA-RATA 100
9 Pria 2 1 nyala 4 kali 100
10 1 mati 4 kali 75
11 2 nyala 4 kali 75
12 2 mati 4 kali 50
13 3 nyala 4 kali 50
14 3 mati 4 kali 75
15 4 nyala 4 kali 50
16 4 mati 4 kali 100
RATA-RATA 7188
Jika diurutkan proses pengolahan wicara dari awal sampai diambil keputusan suara yang dimasukkan
tersebut adalah suara yang sesuai atau tidak adalah sebagai berikut
Bab 4 Pengujian dan Analisa
68
Gambar 423 Tampilan awal perangkat lunak menggunakan TclTk dan Snack
Gambar 423 adalah tampilan awal dari perangkat lunak yang dibangun dengan menggunakan TclTk dan
Snack
Gambar 424 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan dengan
menggunakan perangkat lunak Wavesurver
Gambar 424 adalah tampilan awal dari program Wavesurver yang merupakan pembanding dari program
yang dibuat dari perangkat lunak TclTk dan Snack
Bab 4 Pengujian dan Analisa
69
Gambar 425 Tampilan awal perangkat lunak
menggunakan TclTk dan Snack
Gambar 425 adalah tampilan ketika proses pengambilan sinyal suara sedang dilakukan dengan perangkat
lunak TclTk dan Snack
Gambar 426 Tampilan hasil perekaman kata ldquoempat
matirdquo dengan menggunakan perangkat lunak Wavesurver
Gambar 426 adalah tampilan ketika proses pengambilan sinyal suara sedang dilakukan dengan perangkat
lunak Wavesurver
Bab 4 Pengujian dan Analisa
70
Data Sampling
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 427 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900 menggunakan TclTk dan
Snack
Pada gambar 427 dilakukan proses sampling sinyal masukan dengan frekuensi sampling sebesar 12000
Hz maka didapatkan hasil sinyal yang hampir mirip dengan sinyal analognya yang dilakukan dengan
perangkat lunak TclTk dan Snack
Gambar 428 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900 dengan menggunakan
perangkat Wavesurver
Pada gambar 428 dilakukan proses sampling sinyal masukan dengan frekuensi sampling sebesar 12000
Hz yang dilakukan dengan perangkat lunak Wavesurver
Data Windowing
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 429 Hasil Windowing data sampel
kata ldquoempat matirdquo milidetik ke-13900 menggunakan TclTk dan Snack
Bab 4 Pengujian dan Analisa
71
Proses windowing terdapat pada gambar 429 dilakukan untuk membuat sinyal yang disampel lebih
halus Proses windowing ini dilakukan dengan menggunakan perangkat lunak TclTk dan Snack
Proses windowing pada Wavesurver merupakan fasilitas yang tergabung dengan proses lainnya Misal
dengan proses Fast Fourier Transform Jadi disini tidak ditampilkan hanya sebagai proses windowing saja
tetapi digabungkan dengan proses lain
Fast Fourier Transform Sinyal
Masukan
0
20
40
60
80
100
120
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 430 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat
lunak TclTk dan Snack
Gambar 430 di atas adalah proses Fast Fourier sinyal masukan dengan perangkat lunak TclTk dan Snack
Hasil Fast Fourier Transform sinyal masukan menunjukkan sebaran spektrum frekuensi dari sinyal suara
yang telah dihasilkan oleh pengucap
Sebagai pembanding adalah proses Fast Fourier sinyal masukan yang diambil dengan Wavesurver seperti
pada gambar 431 Yang didapatkan hasil yang sama
Gambar 431 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat Wavesurver
Bab 4 Pengujian dan Analisa
72
Fast Fourier Transform Parameter
LPC
0
20
40
60
80
100
0 2000 4000 6000 8000
Frekuensi (Hz)10 x log
10(magnitude)(dB)
Gambar 432 Fast Fourier Transform LPC dengan menggunakan perangkat lunak TCLTk
dan Snack
Hasil gambar 432 menunjukkan proses Fast Fourier Transform LPC yang dilakukan dengan perangkat
lunak TclTk dan Snack
Gambar 433 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat Wavesurver
Proses Fast Fourier Transform yang dilakukan dengan Wavesurver dapat dilihat pada gambar 433
Pelekukan Jalur Suara
0
50
100
150
0 50 100 150
Sinyal Input empat mati
Sinyal Standart
empat mati
Gambar 434 Pelekukan Jalur Suara dengan Dynamic Time Warping
Bab 4 Pengujian dan Analisa
73
Dari gambar 434 dapat dianalisa bahwa dengan menggunakan dynamic time warping terdapat proses
pembandingan panjang sinyal antara dua buah sinyal input dan sinyal standart sehingga terjadi proses
pemadanan panjang sinyal dengan cara memperpanjang dan menekuk vektor spektralnya
74
BAB 5
PENUTUP
51 Kesimpulan
Dari hasil yang didapatkan maka dapat diambil kesimpulan bahwa
Sistem pengucap tak bebas atau speaker dependent system memiliki tingkat akurasi yang tinggi untuk
pengucap masukan dan pengucap standar yang sama Hal ini dibuktikan dengan hasil pengujian pertama
yang dilakukan oleh pria pertama Pria pertama ini adalah pria yang suaranya digunakan sebagai standar
Nilai prosentase keberhasilan rata-rata untuk semua perintah adalah sebesar 100 dari setiap perintah
dilakukan 8 kali percobaan
Sedangkan pengujian yang dilakukan oleh suara lain (bukan standart) prosentatase keberhasilan
rata-rata yang diperoleh untuk semua perintah 7188 dari setiap perintah dilakukan 4 kali percobaan Hal
ini disebabkan karena suara pria kedua tidak pernah berinteraksi dengan sistem
Keberhasilan sistem ditunjukkan oleh ketepatan penyalaan lampu sesuai dengan yang diperintahkan
melalui perintah suara
Kecepatan sistem secara keseluruhan diperlihatkan dalam tabel 51 dibawah
Tabel 51 Kecepatan sistem keseluruhan
No
Perintah
Waktu (detik)
1 2 3 4 Rata-rata
1 Satu Nyala 11 99 12 25 16 89 14 05 13 80
2 Satu Mati 12 51 13 28 14 83 12 25 13 22
3 Dua Nyala 10 70 11 73 11 99 12 25 11 67
4 Dua Mati 10 44 11 21 11 21 11 47 11 08
5 Tiga Nyala 10 96 12 25 13 54 12 51 12 32
6 Tiga Mati 10 70 11 99 11 99 13 28 11 99
7 Empat Nyala 11 73 11 99 13 02 12 24 12 25
8 Empat Mati 10 70 09 93 11 21 10 70 10 64
Rata-rata 12 12
Dari data yang diperoleh didapatkan kecepatan rata-rata untuk tiap perintah yang diberikan sampai
dengan terlaksananya eksekusi dari perintah adalah 12 12 detik
52 Saran
Pada penelitian ini masih sangat banyak hal yang dapat dilakukan untuk perbaikan-perbaikan dimasa
selanjutnya Saran dan usulan yang dapat dipertimbangkan untuk pengembangan sistem lebih lanjut adalah
antara lain
1 Sistem tidak lagi bersifat dependent speaker tetapi bersifat independent speaker dimana banyak
orang yang memberi perintah dan sistem dengan tepat memberikan respon
2 Sistem dapat mengatasi tingkat noise yang tinggi baik yang disebabkan oleh lingkungan atau oleh
hardware (sound card)
75
3 Otomatisasi sistem Artinya perintah tidak perlu lagi diberikan lewat penekanan tombol yang
dilakukan melalui mouse
4 Respon sistem yang real time
5 Sistem yang dapat dengan mudah beradaptasi dengan jenis sound card yang bervariasi
DAFTAR PUSTAKA
Anggraeni Triana Dewi Astutik Debi Puji Pengenalan Wicara Dengan Penutur Tak Bebas
Tugas Akhir PENS ITS 2003
Wahyudi Agus Verifikasi Sinyal Suara Sebagai Kendali Arah TA PENS-ITS 2002
Dewantara Bima Sena Bayu Aplikasi Pengenalan Wicara Untuk Perintah NirkabelRobot Mikro
Mouse Tugas Akhir PENS ITS 2004
Dutono Titon Penataran Kebahasaan Tahap I Fonetik Dan Fonologi ndashPengolahan Sinyal
Wicara Digital 20 Februari 2001
Gabel Robert A Richard A Robert Sinyal dan Sistem LinierErlangga 1996
Rabiner Lawrence Huang Juang Biing Fundamentals of Speech Recognition Prentice Hall
International Inc1993
Proakis John G Malonakis Dimitris G Digital Signal Processing Principles Algorithms and
Applications Prentice Hall Inc New Jersey 1995
Scolander Kare Snack Sound Toolkit
httpwwwtcltkmantcl85tutorialTcl11html
httpwikitcltk4074
httpwwwinveceorgtclwisefrontcoverhtml
httpwwwspeechkthsesnackmansnack22tcl-manhtml
httpwwwspeechkthsesnacktutorialhtml
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13]
Bab 1 Pendahuluan
vii
4271 Dengan Menggunakan TclTk dan Snack 43
4272 Dengan Menggunakan Wavesurver 43
428 LPC Parameter to LPC Cepstrum 44
429 Inverse FFT LPC Cepstrum 45
4210 Dynamic Time Warping 46
4211 Min Value dan Sorting 47
4212 Hasil Pengujian Awal dan Akhir Sinyal 48
4213 Hasil Pengujian Sistem Perangkat Lunak 51
43 Pengujian sistem client server 66
44 Analisa Pengujian Sistem Secara Keseluruhan 67
BAB 5 PENUTUP 74
51 Kesimpulan 74
52 Saran 74
DAFTAR PUSTAKA
Bab 1 Pendahuluan
viii
DAFTAR GAMBAR
21 Skema diagram organ penghasil sinyal wicara 4
22 Struktur umum model generator wicara 5
23 Pola standart dengan unit kata 6
24 Pola standart dengan unit fonem 6
25 a) Sinyal wicara untuk bunyi a pada satu frame pada pria b) Sinyal wicara untuk bunyi
a pada satu frame pada wanita 7
26 Contoh proses sampling dengan nilai frekuensi pencuplikan yang berbeda 8
27 Pergeseran frame pada sinyal suara dengan M = 13 N 10
28 Blok Metode FFT-DIT 8 titik 13
29 Plane jaringan untuk ilustrasi pemrograman dinamik 18
210 DTW antara dua rentetan waktu A dan B 19
211 Bentuk power dari kata 22
212 Unvoiced Plosive 23
31 Blok Diagram Sistem secara keseluruhan 29
32 Program aplikasi pengenalan wicara 31
33 Flowcart sistem Graphical User Interface 32
34 Sinyal hasil sampling dengan frekuensi 12000 Hz 33
35 Flowcart proses sampling 34
36 Frame blocking sinyal 35
37 Flowcart proses windowing 36
38 Flowcart Proses Fast Fourier Transform 37
39 Flowcart Proses Autokorelasi 38
310 Flowcart Proses LPC Analisis 39
311 Flowcart proses LPC Parameter ke Cepstrum 40
312 Flowcart proses Dynamic Programming 41
313 Flowcart Proses Power 42
314 Blok Diagram Proses Client 43
315 Blok Diagram Proses Server 44
41 Tampilan awal perangkat lunak menggunakan TclTk dan Snack 46
42 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan perangkat lunak
TclTk dan Snack 47
43 Tampilan awal perangkat lunak menggunakan Wavesurver 48
44 Tampilan hasil perekaman kata rdquoempat matirdquo dengan menggunakan perangkat lunak wavesurver 48
45 Kotak dialog setting perekaman perangkat lunak Wavesurver 49
46 Cuplikan dari katardquoempat matirdquo milidetik ke-13900 51
47 Hasil windowing data sampel kata rdquoempat matirdquo milidetik ke-13900 52
48 Fast fourier Transform sinyal masukan dengan menggunakan perangkat lunak TclTk da Snack 54
Bab 1 Pendahuluan
ix
49 Fast fourier Transform sinyal masukan dengan menggunakan perangkat lunak Wavesurver 54
410 FFT LPC dengan menggunakan perangkat lunak TCLTk dan Snack 57
411 FFT LPC dengan menggunakan perangkat lunak Wavesurver 58
412 Invers FFT LPC cepstrum dengan menggunakan Perangkat lunak TCLTk dan Snack 60
413 Penggabungan spektrum sinyal spektrum LPC dan Spektrum LPC Cepstrum 61
414 Pelekukan Jalur suara dengan Dynamic Time Warping 62
415 Sinyal rdquoempat matirdquo hasil program power 65
416 Perbandingan power dua kata ldquoempat matirdquo sebelum Dynamic Time Warping 65
417 Pelekukan alur suara dua kata ldquoempat matirdquo dengan DTW 66
418 Perbandingan power dua kata rdquoempat matirdquo setelah Dynamic Time Warping 67
421 Proses pada client 85
422 Proses pada server 86
423 Tampilan awal perangkat lunak menggunakan TclTk dan Snack 88
424 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan dengan menggunakan
perangkat lunak Wavesurver 89
425 Tampilan awal perangkat lunak menggunakan Wavesurver 89
426 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan perangkat lunak Wavesurver 90
427 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900 90
428 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900 dengan menggunakan perangkat
Wavesurver 91
429 Hasil Windowing data sampel kata ldquoempat matirdquo milidetik ke-13900 92
430 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat lunak TclTk dan Snack 92
431 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat lunak Wavesurver 93
432 Fast Fourier Transform LPC dengan menggunakan perangkat lunak TCLTk dan Snack 94
433 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat Wavesurver 94
434 Pelekukan jalur suara dengan Dynamic Time Warping 95
Bab 1 Pendahuluan
x
DAFTAR TABEL
41 Hasil pengujian sistem pengolahan wicara untuk pengucap yang sama (pria 1) 68
42 Hasil pengujian sistem pengolahan wicara untuk pengucap yang lain (pria 2) 79
43 Hasil pengujian system pengolahan wicara untuk pengucap yang sama (pria) 83
44 Tingkat keberhasilan system perangkat lunak 87
51 Kecepatan sistem keseluruhan 96
Bab 1 Pendahuluan
1
BAB 1
PENDAHULUAN
11 LATAR BELAKANG
Sudah sekian lama manusia memimpikan adanya pengendalian suatu alat atau sistem kontrol dengan
perintah suara Hal ini diperjelas dengan banyak beredarnya film-film fiksi yang menyuguhkan berbagai sistem
kontrol yang dilakukan dengan menggunakan suara bagaimana seorang anak bisa mengendalikan sebuah
pesawat terbang hanya dengan perintah-perintah dasar dengan menggunakan suaranya Ditambah lagi dengan
pesatnya penelitian dibidang suara yang membuat pintu gerbang sistem pengontrolan dengan suara manusia
semakin terbuka Dewantara [2] telah membuat sebuah aplikasi pengenalan wicara untuk perintah nirkabel robot
mikro mouse Anggraeni dan Astutik [1] telah menggunakan pengenalan wicara untuk mengakses suatu jaringan
sebagai password Tetapi belum ada yang membuat aplikasi pengenalan wicara untuk membuat perintah
pengontrolan pada alat-alat rumah tangga semisal lampu Selain itu beberapa tahun terakhir ini perkembangan
dunia telekomunikasi mengalami kemajuan yang sangat pesat Sehingga pada saat ini informasi yang dikirim
tidak hanya berupa data dalam bentuk teks tetapi juga suara manusia Ditambah dengan semakin banyaknya
peralatan yang memanfaatkan pengenalan suara manusia untuk mengakses maupun memberikan perintah Sinyal
suara yang masuk akan diproses dan dikenali oleh suatu alat Proses tersebut adalah pengenalan wicara (speech
recognition) yaitu pengenalan wicara melalui sampel suara yang telah diolah
Dengan pertimbangan tersebut maka pembuatan kontrol suatu peralatan jarak jauh dengan menggunakan
suara sangat sesuai jika diaplikasikan dalam sistem pengendalian dan monitoring peralatan rumah tangga jarak
jauh dengan menggunakan metode pengenalan wicara Aplikasi tersebut kami bangun dalam pelaksanaan
penelitian ini
12 TUJUAN
Penelitian ini bertujuan untuk
1 Memberikan perintah suara untuk menyalakan beberapa peralatan rumah tangga dalam contoh kasus
dalam penelitian ini adalah menyalakan lampu jarak jauh
2 Membangun sistem pengucap tak bebas (speaker dependent sistem)
3 Memberikan ciri individu untuk memberikan perintah menghidup dan matikan peralatan rumah tangga
yang dilakukan secara jarak jauh
13 BATASAN MASALAH
Batasan masalah pada penelitian ini adalah
1 Bahasa pemrograman untuk algoritma pengenalan wicara adalah Microsoft Visual C++ 60
2 Bahasa Pemrograman untuuk user interface adalah TclTk 830 dan Snack 22
3 Sistem bersifat dependentartinya sistem hanya dapat digunakan oleh orang tertentu dalam hal ini yang
pernah berinteraksi langsung dengan sistem
4 Sinyal diasumsikan ideal yaitu tidak mamperhitungkan noise yang berarti semua noise dianggap stationer
Bab 1 Pendahuluan
2
5 Perintah kata yang diberikan dibatasi untuk keperluan tone dekoder saja dengan dua perintah secara
langsung Semua kata diucapkan secara wajar dengan kecepatan normal
6 Keberhasilan penelitian ini dapat dilihat dari keberhasilan ketepatan perintah yang dihasilkan oleh sistem
dengan perintah yang diberikan
7 Jaringan komunikasi masih dilaksanakan untuk local area dari PC ke PC
14 SISTEMATIKA PEMBAHASAN
Sistematika pembahasan penelitian ini sebagai berikut
BAB I PENDAHULUAN
Pada bab ini akan diuraikan tentang latar belakang tujuan batasan masalah dan sistematika
pembahasan masalah yang digunakan
BAB II TEORI DASAR
Pada bab ini akan diuraikan tentang landasan-landasan teori yang digunakan
BAB III PERENCANAAN DAN PELAKSANAAN
Pada bab ini akan diuraikan tentang tahap-tahap perencanaan dan proses pembuatan keseluruhan sistem
yang mendukung untuk membangun sistem pengenalan wicara untuk sistem pengendalian dan monitoring
peralatan rumah tangga jarak jauh
BAB IV PENGUJIAN DAN ANALISIS
Pada bab ini akan dijelaskan tentang hasil pengujian sistem yang telah dibangun baik secara perbagian
ataupun keseluruhan serta analisis terhadap hasil pengujian sistem untuk mengetahui apakah sistem yang
dibangun sesuai dengan yang diharapkan
BAB V KESIMPULAN DAN SARAN
Pada bab ini berisi kesimpulan dari pembahasan pada perencanaan serta analisa pengujian yang
diperolehUntuk lebih baiknya sistem yang dibangun maka disertakan pula saran-saran untuk perbaikan dan
penyempurnaan
Bab 2 Teori Penunjang
3
BAB 2
TEORI PENUNJANG
21 Sistem Pengolahan Sinyal Wicara
211 Sinyal Suara Manusia
Manusia menggunakan suara sebagai sumber informasi untuk mengkomunikasikan keinginan ide dan
perasaannya kepada orang lain Organ tubuh manusia yang digunakan dalam proses produksi wicara adalah
paru-paru tenggorokan(trachea) laring faring rongga hidung(nasal cavity) dan rongga mulut(oral cavity)
Pembangkitan sinyal wicara terletak pada bentuk lintasan vokalnya(vocal tract) Lintasan vokal tersebut terdiri
atas di bawah katup tenggorokan (laryngeal pharynx) antara langit-langit lunak katup tenggorokan (oral
pharynx ) di atas velum dan di ujung depan rongga hidung (nasal pharynx) dan rongga hidung (nasal cavity)1
seperti ditunjukkan gambar 21
Gambar 21 Skema diagram organ penghasil sinyal
Wicara2
Model generator wicara atau model sintesa suara yang dipakai dan menjadi dasar dari pemrosesan
sinyal wicara hingga dewasa ini adalah apa yang dinamakan Analog Terminal seperti pada gambar 22
1 Dewantara Bima Sena Bayu Aplikasi Pengenalan Wicara Untuk Perintah Nirkabel Robot Mikro Mouse TA PENS ITS 2004 hal 5 2 Dutono Titon Penataran Kebahasaan Tahap I Fonetik dan Fonologi Pengolahan Sinyal Wicara Digital 20 Februari 2001
Bab 2 Teori Penunjang
4
Gambar 22 Struktur umum model generator wicara3
Pada model ini sinyal eksitasi(glotal wave) yang berasal dari getaran pita suara diumpankan ke suatu
filter yang merupakan suatu model pendekatan dari lintasan vokal (vocal tract) untuk menghasilkan sinyal
wicara Model analog terminal ini disebut juga pensintesa formant Dasar pendekatan model ini adalah bahwa
lintasan suara adalah suatu bumbung akustik (acoustical cavity) yang mempunyai karakteristik berdasarkan
perpaduan beberapa frekuensi resonansinya Dengan demikian fungsi transfernya dapat didekati dengan
pendekatan kombinasi riam (cascade combination) dari beberapa rangkaian resonansinya Dengan analogi yang
sama sistem ini dapat dibangun dari beberapa rangkaian resonansi yang mempunyai parameter lebar bidang dan
frekuensi resonansi yang selalu berubah setiap saat membentuk suatu sistem berubah waktu (time variant
system)
Struktur sistem pengenal wicara yang ada dapat dibagi menjadi 2 yaitu
1) Mempergunakan pola standart dengan unit kata
Gambar 23 Pola standart dengan unit kata4
2) mempergunakan pola standart dengan unit fonem
yang dilengkapi dengan kamus kosa kata
3 Ibid 4 Ibid
Ekstraksi ciri
Pola standar kata
Pemadanan kata
Algoritma keputusan
Sinyal wicara Output teks
Bab 2 Teori Penunjang
5
Gambar 24 Pola standart dengan unit fonem5
Pada sistem pertama mampu mencakup fenomena koartikulasi tapi tidak fleksibel terhadap perubahan
kosa kata
Sinyal wicara adalah sinyal yang dihasilkan oleh suara manusia dan biasanya mempunyai frekuensi
kerja antara 0 sampai dengan 5000 Hz Bentuk gelombang sinyal wicara mempunyai bentuk yang unik seperti
gambar 23
Gambar 25 a)Sinyal wicara untuk bunyi a pada satu frame pada wanita
b)Sinyal wicara untuk bunyi a pada satu frame pada pria
Berdasarkan gambar 25 terlihat bahwa setiap satu frame terdapat 120 sample yang bersifat quasi
periodik dan mempunyai unsur bunyi terkecil yang disebut sebagai pitch Panjang pitch berkisar 10 ms Pitch
manusia berbeda satu sama lain terutama jenis kelamin laki-laki dan perempuan
212 Sampling
Sinyal wicara merupakan sinyal yang tidak terbatas dalam domain waktu (finite time interval) Suara
manusia akan menghasilkan sinyal analog yang terus kontinyu Untuk keperluan pemrosesan dalam transformasi
fourier maka sinyal wicara harus dibentuk dalam potongan-potongan waktu yang terbatas (infinite time interval)
Karena itu sinyal yang ada dipotong-potong dalam slot-slot interval waktu tertentu
Berdasarkan pada teori sampling Niquist maka syarat dari frekuensi sampling adalah minimal dua kali
frekuensi sinyal
Fsampling 2 x Fsignal ( 21)
Ekstraksi ciri
Pola standar fonem
Pemadanan fonem
Kamus kosa kata
Pemadanan kata
Algoritma keputusan
Sinyal wicara
-20000
-15000
-10000
-5000
0
5000
10000
15000
0 20 40 60 80 100 120 140
pitch -10000
-8000
-6000
-4000
-2000
0
2000
4000
6000
8000
0 20 40 60 80 100 120 140
pitch
Output teks
Bab 2 Teori Penunjang
6
Contoh dari sampling seperti bisa kita lihat pada gambar di bawah
Gambar 26 Contoh proses sampling dengan nilai frekuensi pencuplikan yang berbeda
6
Frekuensi sampling yang digunakan adalah 12000 Hz
Dimana dalam 1 detik sinyal terdapat 12000 titik sampling
213 Preemphasis
Proses preemphasis dimaksudkan agar spektrum sinyal merata di semua frekuensi serta mencegah
kehilangan informasi akibat proses pembulatan pada saat komputasi Fungsi preemphasis adalah
H (z) = 1 ndash az-1 09 le a le 1 (22)
dimana nilai a berkisar 095 Berdasarkan model filter di atas maka keluaran dari preemphasis adalah
s (n) = s (n) - as (n-1) ( 23)
Penjabarannya sebagai berikut
5 Ibid 6 Ibid
Fi = 1000 Hz
Fs = 1250 Hz
Fs = 1000 Hz
Fs = 4000 Hz
Fs = 8000 Hz
Fs 2Fi
Kriteria Nyquis
Fi Frekuensi sinyal informasi Fs Frekuensi pencuplikan
H X Y
T 1 = 12000 = 833 x 10-5 s = 833 μs
10 ms = 833μs x N sample N = 120 sample
Bab 2 Teori Penunjang
7
y = H x
y = (1-az-1) xn
y = xn - 095 xn z-1
y = xn ndash 095 xn - 1
214 Frame Blocking
Sinyal wicara yang telah dipreemphasis s (n) diblok dalam M sampel dimana N 2 x M seperti yang
ditunjukkan pada gambar 27 Jika M le N pergeseran frame akan mengalami overlape hasil perkiraan LPC
spectral akan dikorelasikan dari frame 1 ke frame berikutnya Jika M laquo N perkiraan LPC spectral dari satu frame
ke frame lainnya akan sangat halus (smooth) Dan bila M gt N maka tidak akan ada overlape diantara frame yang
berbatasan dan sinyal suara akan hilang sama sekali dan korelasi diantara perkiraan spectral LPC dari frame
yang berbatasan akan berisi komponen noise
Gambar 27 Pergeseran Frame pada Sinyal Suara
dengan M = 13 N
Sehingga didapatkan nilai dari sinyal yang baru adalah sebagai berikut
x1(n) =s(M 1+n) n =012hellipN ndash 1 l = 012hellipLndash1 (24 )
215 Windowing
Merupakan proses membatasi lebar sinyal yang akan dianalisa yang dapat mengurangi efek
diskontinyuitas pada ujung-ujung frame yang dihasilkan oleh potongan-potongan sinyal Korelasi antara lebar
window dalam domain waktu dan amplitude berguna untuk menyederhanakan sinyal dengan mengurangi
puncak sinyalnya
Ada beberapa jenis windowing yang dinamakan sesuai dengan nama penemunya yaitu
Bab 2 Teori Penunjang
8
Window Hamming
052-046 cos[2лn(N-1)] 0 le n le N-1
Wham(n) =
0 elsewhere
Window Hanning
1-cos[2лn(N-1)] 2 0 le n le N-1
Whan(n) =
0 elsewhere
Window Bartlett
1-cos[2лn(N-1)] 2 0 le n le (N-1)2
WB(n) = 2-2n(N-1) (N-1)2lenleN-1
0 elsewhere
Window Blackman
042-05cos[2лn(N-1)]+008cos[4лn(N-1)]0lenleN-1
WBl(n) =
0 elsewhere
216 Fourier Transform
Transformasi Fourier Diskrit (DFT) adalah deretan yang terdefinisi pada kawasan frekuensi ndash diskrit
yang merepresentaskan Transformasi Fourier terhadap suatu deretan terhingga (Finite Duration Sequence) DFT
berperan penting untuk implementasi algoritma suatu varitas pengolah sinyal karena efisien untuk komputasi
berbagai aplikasi
Salah satu contoh aplikasi komputasi DFT dalam algoritma yang efisien yaitu Fast Fourier Transform
(FFT) Efisiensi suatu algoritma ditentukan dari sejauh mana dapat mereduksi jumlah perkalian dan
penjumlahan serta reduksi lalu lintas data pada memori komputer sehingga proses lebih cepat
Pada DFT untuk memproses N buah titik diperlukan (N-1)perkalian kompleks dan N(N-1)
penjumlahan kompleks Bila N cukup besar dibutuhkan memori yang besar dan waktu yang cukup lama Untuk
itu digunakan metode lain yang lebih cepat yaitu metode transformasi fourier cepat (FFT) FFT dilakukan
dengan membagi N buah titik pada transformasi fourier diskrit menjadi 2 masing-masing N2 titik trnsformasi
Pemecahan menjadi dua pada proses transformasi fourier cepat disebut sebagai proses rekombinasi Dua buah
N2 titik transformasi mempunyai 2(N2) = N2 perkalian Proses memecah menjadi dua ini diteruskan dengan
membagi setiap (N2) titik transformasi menjadi dua buah (N4) titik transformasi setiap (N4) menjadi dua buah
Bab 2 Teori Penunjang
9
(N8) titik transformasi dan seterusnya hingga diperoleh junlah titik yang minimum Jika besarnya N merupakan
kelipatan pangkat dari 2 (disebut radiks 2) maka jumlah titik minimum setelah setiap kali dibagi 2 adalah dua
Ada dua macam metode FFT metode Decimation in Time (DIT) dan metode Dicimation in Frekuensi
(DIF) Kedua metode ini hamper sama Pada metode FFT-DIT N buah titik transformasi dibagi 2 menjadi fungsi
ganjil dan genap masing-masing mempunyai N2 titik transformasi Sedang pada metode FFT-DIF N buah titk
transformasi dibagi menjadi fungsi N2 titk yang pertama dan fungsi N2 titik yang kedua
Operasi pada metode FFT-DIT disebut juga metode kupu-kupu Untuk N buah titik transformasi h(n)
algoritma radiks 2 memerlukan proses perkalian dan rekombinasi sebanyak N2 log N transformasi fourier
diskrit Pada metode FFT-DIT operasi dekomposisi dilakukan dengan membagi fungsi h(n) menjadi 2 bagian
fungsi ganjil dan fungsi genap Atau dengan pernyataan matematika h1(n) dan h2(n) yang masing-masing adalah
untuk n genap dan n ganjil
Prinsip FFT dengan metode DIT adalah seperti pada gambar 24 berikut ini
Gambar 28 Blok metode FFT-DIT 8 titik
7
Pada gambar di atas merupakan jumlah perkalian kompleks N2 log N juga jumlah penjumlahan
kompleks = N2 log N
217 Linear Prediction Code
Ide dasar dari LPC adalah bahwa pada model ini memberikan sampel suara pada domain waktu yang
bisa didekati sebagai kombinasi linear dari sampel suara yang telah lalu
Teori Linear Prediction Coding (LPC) yang diaplikasikan pada wicara telah dimengerti selama
beberapa tahun Pada bagian ini akan dijelaskan dasar dari bagaimana LPC diaplikasikan pada sistem pengenlan
wicara
Sebelum menjelaskan LPC secara umum sebagai pemrose front-end untuk pengenalan wicara perlu
diketahui alasan mengapa LPC sangat banyak digunakan yaitu
1 LPC menyuguhkan model yang bagus untuk sinyal wicara
2 Cara yang digunakan LPC untuk analisa sinyal wicara sangat beralasan untuk pemisahan track dari
sumber vocal
3 LPC adalah model traktabel secara analitis
Bab 2 Teori Penunjang
10
4 Model LPC bekerja dengan baik pada aplikasi pengenalan
2171 Autocorrelation Analysis
Masing-masing frame sinyal yang telah diwindow kemudian di-autokorelasikan dengan menggunakan
persamaan
N-1-M
r1(m) = sum x1(n) x1(n+m) m = 0 1 p ( 25) (25)
n = 0
dimana nilai autokorelasi tertinggi p adalah orde dari analisi LPC Pada umumnya nilai dari p yang
sering digunakan adalah dari 8 sampai 16 Sisi menguntungkan dari analisis autokorelasi adalah bahwa
autokorelasi ke-0 R1 (0) adalah energi dari frame ke-1 Energi dari frame merupakan parameter
penting untuk system deteksi wicara
2172 LPC Analysis
Langkah selanjutnya adalah analisis LPC dimana mengkonversi masing-masing frame dari
auto korelasi p+1 ke dalam sebuah ldquoLPC Parameter Setrdquo dimana kumpulan itu merupakan koefisien
LPC koefisien refleksi atau PARCOR koefisien log area ratio koefisien Cepstral atau beberapa
transformasi pada kumpulan tersebut
Metode yang formal untuk mengkonversi dari koefisien autokorelasi ke sebuah LPC parameter
set (untuk metode autokorelasi) dikenal sebagai Metode Durbin dan secara formal dapat ditunjukkan
pada algoritma berikut ini
E(0) = r(0) ( 26)
Ki=r(i)-sumαj(i-1) r(|i-j|)E(i-1) 1 le I le p ( 27)
αi(i) = ki (28)
αj(i) = αj
(i-1)-ki α(i-1) ( 29)
t-j
E(i)=(1-ki2)E (i-j) (210)
dimana penyajian akhir dari persamaan mengabaikan i=1 Kumpulan dari persamaan hellipdiselesaikan secara
rekursif untuk i=12hellipp dan penyelesaian akhir diberikan sebagai
am=koefisien PC=αm 1lemlep ( 211)
7 Agus Wahyudi Verifikasi Sinyal Suara Sebagai Kendali Arah TA PENS-ITS 2002
Bab 2 Teori Penunjang
11
km=koefisien PARCOR ( 212)
1 - km
gm=koefisien log area ratio = log ----------- ( 213)
1 + km
2173 LPC Parameter Corversion to Cepstral Coefficients
Sekumpulan parameter LPC yang sangat penting yang dapat diturunkan langsung dari kumpulan LPC
adalah koefisien cepstral LPC c(m) Rekursif yang digunakan adalah
co = ln σ2 ( 214)
m-1
cm = am + sum ck am-k 1 le m le p ( 215)
k = 1
m-1
cm = sum ck am-k m gt p
k = 1
dimana σ2 adalah penguatan dalam model LPC Koefisien cepstral koefisien yang direpresentasikan dengan
fourier transform dengan spectrum besaran log telah ditampilkan menjadi kumpulan fitur untuk pengenalan
wicara yang lebih handal terpercaya daripada koefisien LPC koefisien PARCOR atau koefisien log area ratio
218 Dynamic Time Wraping
Dynamic Time Wraping (DTW) merupakan cara untuk membandingkan pola wicara dalam menentukan
kesamaan jarak antara pola-pola yang berbeda Dimana pengenalan wicara merupakan proses secara otomatis
dalam mengambil dan menentukan informasi linguistic yang disampaikan dengan gelombang wicara
menggunakan komputer atau sirkuit elektronik Informasi linguistic tersebut pada akhirnya akan
direpresentasikan dengan deretan waktu vektor-vektor spektral
Metode nolmalisasi waktu menggunakan dua buah fungsi warping
ix = Фx (k) k = 123hellipT (216)
iy = Фy (k) k = 123hellipT
2181 Dynamic Programming
Dynamic Programming (DP) digunakan untuk memecahkan masalah deteksi pengurutan kemampuan
menggunakan pola pengenalan wicara dan masalah waktu penjajaran dan normalisasi Ada dua tipe masalah
penggunaan Dynamic Programming yaitu
(
)
k m
( )
K m ( )
Bab 2 Teori Penunjang
12
1 Masalah jalan optimal dengan menganggap sekumpulan titik mulai dari 1 sampai dengan N yang
dihubungkan dengan pasangan setiap dari titik (ij) Representasi perpindahan secara langsung dari titik
ke-1 ke titik yang lainnya Rentetan perpindahan tersebut tidak mempunyai bilangan yang ditetapkan
dari transisi satu titik ke titik yang lainnya hal ini disebut rentetan keputusan asinkron
Dengan Terminologi sederhana kita membuat garis keputusan untuk menetukan titk berikutnya setelah
kebijaksanaan pada titik i
Prinsip dari optimalisasi yang merupakan kelas dasar dari algoritma komputasi untuk optimasi masalah
di atas berdasarkan pernyataan Bellman
rdquoKebijakan optimasi yang memiliki sifat apapun ketetapan dan ketentuannya keputusan berikutnya
harus merupakan hasil ketetapan dari keputusan yang pertamardquo
2 Masalah keputusan rentetan sinkronisasi terdapat perbedaan dari satu sinkronisasi yang beraturan dari
proses keputusan
Penggunaan teknik Dynamic Programming pada Dynamic Time Warping untuk pertama kali dilakukan
oleh Slutsker (1968) Vintsyuk (1968) dan Volichko (1971) dari Jepang untuk pengenalan wicara Pada proses
ini pembicara mengucapkan kata yang sama dengan durasi berubah setiap waktu dengan ekspansi yang non
linier Oleh karena itu Dynamic Time Wraping adalah tahap yang penting dalam proses pengenalan kata Proses
DTW mengalami pengembangan pada sumbu waktu untuk mencocokan posisi phonemkata yang sama antara
input wicara dan referensi template
Dynamic Programing secara umum digunakan untuk memecahkan masalah rentetan keputusan yang
dilakukan pada bidang kisi sebagaimana ditampilkan pada gambar 27 Sinyal yang dicocokkan adalah A dan B
Di dalam bidang kisi sinyal A disesuaikan sepanjang sumbu ndashx dan sinyal B disesuaikan sepanjang sumbu ndashy
Setiap antar bagian pada bagian ini ditetapkan sebagai sebuah simpul atau titik dimana titik (ij) adalah
pencocokan frame I untuk sinyal A dengan frame j untuk sinyal B Misalnya diasumsikan dua rentetan waktu
untuk vektor utama yang dibandingkan sebagai berikut
A = a1a2hellipaI dan B = b1b2hellipbJ
Dengan menganggap rentang bidang antara A dan B sebagaimana ditunjukkan pada gambar 27
fungsi pelengkungan waktu yang sesuai menunjukkan waktu antara rentetan A dan B dapat dipresentasikan
sebagai rentetan titk-titik Lattice pada bidang c = (ij) sebagai berikut
Bab 2 Teori Penunjang
13
Gambar 29 Plane jaringan untuk ilustrasi
pemrograman dinamik8
Bilamana jarak spektral antara dua vektor utama a1 dan b1 direpresentasikan oleh d(c) = d(ij) penjumlahan
jarak dari awal sampai akhir dari rentetan sepanjang F dapat direpresentasikan dengan
K
sum d(ck)wk
k=1
D(F) = mdashmdashmdashmdashmdash (217)
K
sum wk
k=1
Semakin kecil nilai ini semakin baik kecocokan antara A dan B Dimana wk adalah fungsi pembobotan
positif terhadap F
Dengan memperkecil persamaan di atas dengan kondisi berikut
1 Kondisi monotonisasi dan kontinuitas
0 le ik-ik-1le1 0 lejk ndash jk -1 le 1 ( 218)
2 Kondisi perbatasan
I1=j1=Iik=Ijk=I (219)
3 Kondisi adjustmen window
|ik ndash jk|ler r=konstan ( 220)
Pendefinisian wk sedemikian rupa sehingga menyebut pada persamaan 219 menjadi konstan yang
tidak tergantung pada F Untuk contoh jika
Wk = (ik ndash ik -1)+(jk ndash jk -1)(i0=j0=0) wk akan menjadi
8 Ibid hal 15
Bab 2 Teori Penunjang
14
K
sum wk = I + J (221) k=1
dan persamaan 219 menjadi
1 K
D(F)= mdashmdash sum d(ck)wk ( 222)
I + J k=1
Gambar 210 DTW antara dua rentetan waktu A dan B
9
Karena fungsi obyektif yang akan diminimasi menjadi penjumlahan maka peminimisasi secara efisien
dapat diselesaikan tanpa harus menguji semua kemungkinan untuk F Penjumlahan pada sebagian rentetan c1
c2 hellip ck (ck=(ij)) adalah
(224)
Penurunan pemrograman dinamik pada persamaan-persamaan diatas penggunaan kondisi untuk F dan
formulasi perumusan wk persamaan 2115 dapat dituliskan kembali sebagai berikut
9 Ibid hal 17
Bab 2 Teori Penunjang
15
g(ij-1)+d(ij)
g(ij) = min g(i-1j-1) + 2d (ij) (225)
g(i-1j) +d(ij)
Oleh karena itu jarak antara dua rentetan waktu A dan B setelah DTW dapat diperoleh sebagai berikut
Kita set dari kondisi awal untuk g(11)=2d(11) dan j=1 dan hitung persamaan 2116 dengan variasi I dalam
sepanjang adjustment window Perhitungan ini diulangi dengan menaikkan j sampai j=1 Jarak keseluruhan
antara dua rentetan waktu A dan B dapat diperoleh dari g(IJ)(I+J)
2182 Batasan Normalisasi Waktu
Supaya proses normalisasi waktu mempunyai arti pada perbedaan batasan dengan berbagai variasi
interval waktu dibutuhkan beberapa batasan terhadap fungsi warping
2183 Batasan Titik Awal Akhir
Bilamana pola wicara yang dibandingkan merupakan tuturan per kata maka harus memenuhi syarat pola
mulai dari titik awal sampai titik akhir dari tanda permulaan dan pengakhiran pola wicara Titik awal dan akhir
mempunyi batasan yang membatasi pola wicara harus dipenuhi
Titik awal Фx(1) = 1 Фy(1) = 1 (226)
Titik akhir Фx(T) = Tx Фy(T) = Ty (227)
2184 Kondisi Monotonisasi
Rentetan pola spectral pada wicara sangat penting dalam menentukan arti linguistic sehingga tidak
akan hilang Untuk mempertahankan pola tersebut harus memenuhi
Фx(k + 1) ge Фx(k) (228)
Фy(k + 1) ge Фy(k)
22 Awal dan Akhir Sinyal Suara
221 Power
Sinyal suara yang diolah haruslah merupakan sinyal suara murni dan tidak bercampur dengan noise
ataupun header tail yang dibawa oleh suara saat perekaman apalagi jika pengenalan sinyal suara dengan jumlah
vocabulary yang besar Oleh karena itu sinyal suara hasil perekaman harus dicari nilai awal dan akhirnya agar
pengolahan sinyal suara tersebut menjadi lebih valid
Dan salah satu cara dalam menentukan nilai awal dan akhir dari sinyal suara adalah dengan
menggunakan power yang mempunyai persamaan sebagai berikut
( )
Bab 2 Teori Penunjang
16
239
p= sumradic xt2 (229)
t=0
Sinyal suara yang dibagi menjadi beberapa frame mempunyai power dari tiap framenya yang kemudian
didapatkan nilai rata-ratanya yang kemudian diperoleh nilai awal dan akhirnya dengan menambahkan 3 kali
standart deviasi Dimana penentuan awal dan akhir dari sinyal suara dapat diperoleh dengan
p ge p + 07 standart deviasi
Power
0
20000
40000
60000
80000
100000
120000
140000
160000
0 10 20 30 40 50 60
Jumlah Frame
Am
pli
tud
o
Gambar 211 Bentuk power dari kata
Nilai beberapa kali hasil percobaan
222 Unvoiced Plosive
Pada suatu sinyal suara yang terekam terdapat pemutusan sinyal atau kondisi kosong yang bukan
merupakan noise tetapi masih didalam lingkup suara Tapi kondisi ini hanya terjadi pada kebanyakan sinyal
suara yang terdapat konsonan tertentu yaitu sinyal suara dari kata yang mempunyai konsonan p t k Kondisi ini
disebut Unvoiced Plosive atau loncatan sinyal suara setelah kondisi kosong seperti ditunjukkan pada gambar
berikut
Gambar 212 Unvoiced Plosive
Bab 2 Teori Penunjang
17
Dan untuk penentuan awal dan akhir daerah kosong tersebut harus diperhitungkan agar didapatkan
nilai awal dan akhir dari sinyal suara yang valid yaitu dengan mencari nilai rata-rata dari daerah kosong dari
beberapa sinyal suara Kemudian dengan dicari nilai thresholdnya yaitu nilai terpanjang dari daerah kosong
sebesar 2 dari seluruh daerah kosong yang telah dihistogram
23 JARINGAN DENGAN TCPIP
Meskipun hubungan computer melalui serial dan parallel telah ada sejak lama multijaringan belum
menjadi masalah serius bagi para peneliti di bidang jaringan sampai awal tahun 1980 Perkembangan teknologi
LAN itu sendiri didasarkan banyak alasan Salah satu yang menjadi alasan utama adalah adanya perusahaan
yang ingin melakukan sharing data file printer dan resource lainnya ke pc lain
231 Mengenal TCPIP
Sebelumnya kita definisikan lebih dahulu apa yang dimaksud protocol itu Bila dua computer ingin
melakukan komunikasi keduanya tentu saja harus menggunkan bahasaturan yang sama Aturan-aturan inilah
yang disebut protocol Misalnya untuk mengirim mail digunakan protocol SMTP berhubungan dengan WWW
menggunakan HTTP dan sebagainya Jadi protocol merupakan aturan dalam melakukan komunikasi
TCPIP ( Transmission Control Protocol Internet Protocol) merupakan protocol yang bersifat open
networking Maksudnya semua penjelasan teknis tentang protocol tersebut diumumkan karena ada juga
mekanisme jaringan yang menyembunyikan detail dari sistemnya Hal inilah yang membuat TCPIP menjadi
terkenal
Adapun keuntungan dengan menggunakan protocol TCPIP adalah kemudahannya karena
memungkinkan hubungan antara berbagai system operasi dan berbagai jenis computer (platform)
TCPIP bukanlah protocol tunggal tetapi merupakan sekumpulan protocol sehingga lebih tepat disebut
sebagai keluarga TCPIP Setiap protocol pada TCPIP memiliki tugas tertentu yang berbeda Semua protocol
tersebut menggunakan protocol primer untuk mengirimkan paket data Protocol primer tersebut adalah TCP dan
IP
Protokol lainnya dapat dikelompokkan berdasarkan tujuannya sebagai berikut
1 Transport
Digunakan untuk mengatur perpindahan data antara dua mesin Antara lain
- TCP (Transmission Control Protocol)
- UDP (User Datagram Protocol)
2 Routing
Digunakan untuk pengalamatan data dan menentukan rute terbaik antara lain
- IP (Internet Protocol)
- ICMP (Internet Control Message Protocol)
- RIP (Routing Information Protocol)
Bab 2 Teori Penunjang
18
3 Network Address
Menangani bagaimana suatu mesin diberikan suatu alamat antara lain
- ARP ( Address Rwesolution Protocol)
- DNS ( Domain Name Sistem)
- RARP (Reverse Address Resolution Protocol)
4 User Service
Merupakan aplikasi yang harus diakses user antara lain
- FTP ( File Transfer Protocol)
- TFTP (Trivial File Transfer Protocol)
- TELNET
5 Gateway Protocol
Untuk membentuk proses komunikasi routing dan status informasi antara lain
- EGP (Exterior Geteway Protocol)
- GGP (Gateway to Gateway Protocol)
- IGP (Interior Gateway Protocol)
232 Koneksi TCPIP
Untuk mengkonfigurasi TCPIP maka dibutuhkan
Alamat IP
Alamat IP ini sebagai pengenal atau alamat mesin Karena setiap mesin yang terhubung jaringan
harus memiliki penganal yang unik sehingga memungkinkan melakukan routing Jaringan dengan TCPIP
menggunakan pengalamatan 32 bit sebagai alamat atau pengenal setiap mesin yang terkoneksi dengan jaringan
Pengenal ini disebut alamat IP Pesan atau data yang dikirim melalui TCPIP menggunakan alamat IP ini untuk
mengenali mesin pengirim dan penerimanya
Biasanya alamat IP dapat dikelompokkan menjadi dua bagian yaitu
1 Nomor Network
2 Nomor Device dalam Network tersebut
Alamat IP tersebut dipisahkan menjadi empat bagian yang masing-masing berukuran 8 bit Empat
bagian tersebut dipisahkan oleh tanda titik dan setiap bagian tersebut memiliki angka 0-255 Contohnya
192168101
Pemberian alamta IP umumnya ditentukan berdasarkan ukuran dari jaringan tersebut Jaringan
dapat diklasifikasikan menjadi tiga kategori yaitu kelas A kelas B kelas C Ketiga kelas tersebut membagi
pengalamatan 32 bit dengan ukuran berbeda untuk nomor Network dan Host
Pengalamatan pada kelas A memungkinkan bagian ini memiliki angka dari 0-127 Sedangkan
pengalamatan B memungkinkan memiliki angka dari 128-191 pengalamatan pada kelas C memungkinkan
memiliki angka dari 192-223
Network Mask
Bab 2 Teori Penunjang
19
Network mask merupakan alamat IP dimana lamat networknya diset ke nilai 255 Jika alamat IP
termasuk kelas A maka network masknya yaitu 255000 Jika alamat IP termasuk kelas B maka network
masknya yaitu 25525500 Jika alamat IP termasuk kelas C maka network masknya yaitu 2552552550
AlamatNetwork
Alamat network ini dapat diperoleh dari alamat IP dimana bit-bitnya dilakukan operasi AND
dengan network mask Dengan demikian untuk network kelas B dengan IP 192168101 maka alamat
networknya adalah 19216800
Alamat Broadcast
Alamat broadcast dibutuhkan bila suatu mesin ingin mengirimkan paket yang sama ke semua
device pada jaringan
Alamat Gateway
Alamat gateway merupakan alamat IP dari mesin yang menghubungkan jaringan dengan jaringan
di luar misalnya internet Pada umumnya alamatgateway memiliki IP yang sama dengan mesin yang kita miliki
tetapi mempunyai nomor device 1 Dengan demikian untuk network kelas B dengan alamt IP 192168101
alamat gatewaynya adalah 19216811
Alamat Nameserver
Jaringan-jaringan besar umumnya memiliki sebuah mesin untuk mentranslasikan alamat IP menjadi
nama yang lebih mudah dikenal manusia Misalkan sebuah mesin dengan IP 192168101 dapat diberi nama lain
seperti puspacsuiacid sebagai alamatnya Proses translasi ini dilakukan dengan system yang dikenal dengan
nama Domain Name System (DNS)
24 BEKERJA DENGAN SOCKET
Komponen socket program yang dapat membantu dalam pembuatan suatu aplikasi yang berkomunikasi
antara suatu system computer dengan system computer yang lain dengan menggunakan protocol TCPIP dan
protocol lain yang terhubung
241 Pengertian Socket Program
Pada sub bab ini akan dijelaskan tentang komoponen socket program yang dapat berkomunikasi antara
system computer dengan system computer yang lain dengan menggunakan protocol TCPIP dan protocol lain
yang terhubung Dengan socket program ini kita dapat membaca dan menulis pada hubungan ke mesin yang lain
tanpa mengalami kesulitan pada software jaringan Socket program dapat mengadakan hubungan berbasis
protocol TCPIP tetapi dapat juga bekerja umunya dengan protokol-protokol yang terhubung seperti Xerox
Network System (XNS) dan yang lain
Bab 2 Teori Penunjang
20
242 Penjabaran Socket
Socket mengijinkan aplikasi jaringan kita berkomunikasi dengan sistem lain di luar jaringan
Masing- masing socket bisadipandang sebagai titik akhir dalam suatu koneksi jaringan Socket tersebut memiliki
spesifikasi sebagai berikut
a) Sistem yang sedang dijalankan
b) Tipe interface port yang digunakan
Penjelasan lengkap dari sebuah koneksi socket terdiri dari address socket pada kedua titik akhir
koneksi Kita akan menguraikan address dari masing- masing titik akhir socket dengan memberi nomor IP
address atau host dan port
Sebelum membuat koneksi socket sebelumnya harus menguraikan dengan lengkap socket-socket
yang membentuk titik akhir Beberapa informasi tersedia dari sistem aplikasi yang dijalankan Sebagai contoh
kita tidaka akan membutuhkan IP Address Local dari socket client sebab informasi ini terdapat pada sistem
operasi
Informasi yang akan kita berikan bergantung pada tipe socket yang sedang bekerja Socket client
harus menggambarkan port yang merepresentasikan layanan yang mereka berikan
243 Memilih Host Name dan IP Address
Kebanyakan aplikasi menggunakan host name untuk merinci sebuah system Host Name mudah
untuk diingat dan dicek Menggunakan host name memungkinkan socket client untuk menemukan situs abstrak
yang diwakili oleh nama host meskipun telah dipindah ke IP Address yang baru Jika nama host tidak diketahui
socket client akan akan menyatakan system server sedang menggunakan IP Addressnya Ketika kita
menyediakan host name socket akan mencari IP Address yang berhubungan dengan host name sebelum socket
tersebut dapat menempatkan pada sistem server
Bab 3 Perencanaan dan Implementasi
21
BAB 3
PERENCANAAN DAN IMPLEMENTASI
31 Pendahuluan
Pada bab ini akan dijelaskan mengenai pengolahan sinyal wicara untuk mendapatkan ciri setiap
individu Juga akan dibahas mengenai pengolahan hasil keluaran sinyal wicara untuk ditransmisikan ke PC lain
(lewat jaringan) Dan selanjutnya akan dibahas pula mengenai plan atau obyek yang dalam hal ini adalah lampu
pijar
Berikut ini adalah blok diagram sistem secara keseluruhan
Gambar 31 Blok Diagram Sistem Secara Keseluruhan
Speaker pada gambar 31 memberikan suaranya sebagai masukan lewat mikrofon Masukan ini
akan diolah dalam PC client mulai dari proses sampling frame windowing FFT LPC Kemudian hasil dari
LPC dicari pemadanan dengan LPC dari sinyal standar yang telah tersimpan sebagai data base di dalam PC
client Hasil dari DTW tersebut akan dikirimkan ke PC server melalui TCPIP untuk diproses menjadi suatu
perintah ke perangkat keras Perintah tersebut merupakan bentuk implementasi dari perintah yang diberikan dari
PC client
Sebaliknya dengan adanya perubahan kondisi pada peralatan yang diinginkan maka terjadi sinyal
balikan yang berupa sinyal DTMF yang dikirimkan oleh perangkat keras ke PC server Oleh PC server sinyal ini
diolah untuk dikenali sebagai suatu kondisi tertentu yang akan dikirimkan ke PC client sebagai laporan tentang
kondisi alat yang diinginkan
32 Sistem Pengolahan Sinyal Wicara
321Perekaman Suara
TCPIP
Pengucap Speaker ADC Pengolahan Wicara dan Monitoring
Peralatan yang terkontrol
LAN Card
LAN Card
Pengenalan Pola Pengiriman Tone DTMF dan Pengenalan DTMF Sebagai Laporan
DTMF Decoding DTMF Generator Sistem Switching
Alat Terkontrol
Bab 3 Perencanaan dan Implementasi
22
Perekaman suara dilakukan menggunakan software berbasis TclTk 830 dan Snack22 Sebelumnya
akan dijelaskan satu per satu program yang dipakai
o TclTk 830
Tcl kepanjangan dari Tool Control Language Tk adalah Graphical Toolkit extension dari Tcl yang
menyediakan bermacam-macam item standar antarmuka GUI untuk memfasilitasi secara cepat pengembangan
aplikasi tingkat tinggi
o Snack22
Snack adalah tool pengolahan suara yang didesain sebagai extensi untuk bahasa script Saat ini Snack bekerja
dengan bahasa script TclTk Phyton dan Ruby Snack memiliki perintah-perintah untuk play record process
dan dan memvisualisasi suara Snack menyediakan obyek suara tingkat tinggi dengan manajemen penyimpanan
yang fleksibel dan streaming support Snack dapat bekerja pada banyak format file suara
Kita dapat membangun aplikasi sepaerti di bawah ini dengan integrasi dari TclTk dan Snack
Gambar 32 Program aplikasi pengenalan wicara
Frekuensi sampling pada program di atas diset pada frekuensi 12 kHz Frekuensi ini dipilih karena biasa
digunakan untuk voice Selain itu juga diset pada channel Mono dan sinyal encoding LIN 16 (resolusi 16 bit
PCM) Pada penekanan tombol ldquorecordrdquo diikuti tombol ldquostoprdquo dan kemudian tombol ldquostandartrdquo maka akan
dimulai proses perekaman yanag akan digunakan untuk membuat file standar untuk kedelapan perintah yang
akan digunakan untuk pembanding sinyal masukan
Adapun proses untuk sistem yang akan dibuat dapat digambarkan dengan diagram alir seperti di bawah
Bab 3 Perencanaan dan Implementasi
23
Mulai
Package Require
Snack 22
Exit
Program On
Running
Recording
Sound Card
Produser Running
Prosedur Recording
DTMF
Keluar
Tidak
YaTidak
Ya
Ya
Ya
Ya
Tidak
Tidak
Tidak
Gambar 33 Flowchart Sistem Graphical User
Interface
322 Sampling
Seperti telah dijelaskan di depan bahwa frekuensi sampling yang digunakan adalah sebesar 12000Hz
dimana dalam 1 detik sinyal terdapat 12000 titik sampling Sebagai contoh seperti gambar di bawah ini suatu
sinyal epanjang 20 ms disampling 12000 Hz menghasilkan titik sampling sebanyak 240 titik
Data Sampling
-20000
-15000
-10000
-5000
0
5000
10000
15000
20000
0 200 400 600
Amplitudo
Jumlah Data
Gambar 34 Sinyal hasil sampling dengan
frekuensi 12000 Hz
Bab 3 Perencanaan dan Implementasi
24
Mulai
Sinyal Masukan
Baca Panjang Sinyal
Bagi Menjadi N Frame
i = 0 i lt N i++
Ambil 240 Data Sampel
Tampilkan Nilai
Sampel
Selesai
Gambar 35 Flowchart Proses Sampling
323 Pre-emphasis
Agar spektrum sinyal merata di semua frekuensi dan mencegah kehilangan informasi akibat pembulatan
pada saat komputasi maka dilakukan prose preemphasis Fungsi transfer preemphasis adalah
H(z) = 1 ndash a z-1 09 le a le 1 (31)
Dimana nilai a berkisar 095 Berdasarkan model filter di atas maka keluaran dari preemphasis adalah
s(n) = s(n) ndash a s(n-1) (32)
324 Frame Blocking
Hasil perekaman merupakan sinyal dalam domain waktu yang bersifat variant time (fungsi yang
bergantung pada waktu) Sinyal yang telah dipreemphasis kemudian dibagi menjadi n buah frame Dengan
jumlah sample per frame sebesar N dan adjacent frame sebesar M sample Dimana M=05N Pada frame
pertama terdiri dari N buah sampel Frame kedua dimulai pada sampel ke M sehingga terjadi overlape sebesar
N - M sampel Begitupula untuk frame yang ketiga dimulai dari sample ke 2M sehingga terjadi overlape dari
farme kedua sebesar N + M-2M sampel juga Hal ini akan terus berlangsung hingga seluruh sinyal terbagi
menjadi beberapa frame
Bab 3 Perencanaan dan Implementasi
25
Gambar 36 Frame blocking sinyal
325 Windowing
Windowing yang digunakan adalah window hamming Setelah proses pengambilan sample maka
langkah selanjutnya adalah proses selanjutnya adalah proses windowing yang berfungsi untuk mengurangi efek
diskontinyuitas pada ujung-ujung frame Persamaannya adalah sebagai berikut
y[i] = x[i](054-046cos(20314159265(i-1)240) (33)
Flowchartnya bisa dilihat seperti di bawah
Mulai
240 Data
Sampel
i= 0 i lt 240 i++
Hamming Window
y[i] = x[i](054-046cos(2phi(i-1)
240))
Tampilkan
nilai
Hamming
Selesai
Gambar 37 Flowchart Proses Windowing
326 Fast Fourier Transform
Transformasi fourier cepat (FFT) adalah suatu metode yang sangat efisien untuk menyelesaikan
transformasi fourier diskrit (DFT) yang banyak dipakai untuk keperluan analisa sinyal Sehingga dengan FFT
N N N M
M N
N N
M
Bab 3 Perencanaan dan Implementasi
26
sinyal yang disampling dalam domain waktu ditransformasikan ke domai frekuensi dengan menggunakan
persamaan sebagai berikut
N-1
H(k) = sum h(n)e-j2лkN (34)
n=0
dengan k= 012N-1
Prosesnya dapat dilihat dari flowchart di bawah
Mulai
240 data
sampel
256 data sampel
i=0 ilt256 i++
tmp_log1=(xr[k]xr[k]+xc[k]xc[k])
tmp_log gt 0
xr[k]=10log10(tmp_log1)
Tampilkan
nilai
hamming
Selesai
xr[k]=10log10(0000001)
Ya
Tidak
Gambar 38 Flowchart Proses Fast Fourier
Transform
327 Autocorrelation analysis
Hasil dari windowing sinyal masukan kemudian dihitung autokerelasinya dengan persamaan
N-1-m
r1(m) = sum x1(n)x1(n+m) m=01p (35)
n=0
dimana niali autokorelasi tertinggi p adalah orde dari analisis LPCPada umumnya nilai dari p yang sering
digunakan adalah dari 8 sampai 16
Proses Autokorelasi dapat dilihat dari flowchart di bawah ini
Bab 3 Perencanaan dan Implementasi
27
Mulai
240 data p lpc
orde
i=0 iltp i++
j=0 jlt240-p-1 j++
RI[j]=sum(xI[i]xI[i+j])
Tampilkan nilai
autocorrelation
Selesai
Gambar 39 Flowchart Proses Autokorelasi
328 LPC Analysis
Hasil koefisien autokorelasi kemudian dikonversikan ke sebuah LPC parameter set (untuk metode LPC
autokorelasi) dikenal sebagai Metode Durbin dan secara formal ditunjukkan dari algoritma sebagai berikut
E(0) = r(0) (36)
ki=r(i)-sumαj(i-1) r(|i-j|)E(i-1) 1 le I le p (37)
αi(i) = ki (38 )
αj(i) = αj
(i-1)-ki α(i-1) ( 39)
t-j
E(i)=(1-ki2)E (i-j) (310)
dimana penyajian akhir dari persamaan 37 mengabaikan i=1 Kumpulan dari persamaan 36 -310 diselesaikan
secara rekursif untuk i=12p
Proses analisis dapat dilihat dari flowchart di bawah
Bab 3 Perencanaan dan Implementasi
28
Mulai
Autocorrelationr
p lpc orde
E (0) = r(0)
k1
= r(i)-sumalpha j (i-1) r( | i-j|E(i-1)
alpha j (i) = k
i
alpha j
(i) = alpha (i-1) -k i alpha
i-j (i-1)
E (i) = 1-k i 2) E(i-1)
Tampilkan nilai
parameter lpca
Selesai
i=0 iltp i++
Gambar 310 Flowchart proses LPC analisis
329 LPC Parameter to Cepstrum Analysis
Sekumpulan parameter LPC yang sangat penting yang dapat diturunkan langsung dari kumpulan
koefisien LPC adalah koefisien cepstral LPC c(m) Rekursif yang digunakan adalah
co = ln σ2 ( 311)
m-1
cm = am + sum ck am-k 1 le m le p (312)
k = 1
m-1
cm = sum ck am-k m gt p ( 313)
k = 1
Proses LPC parameter ke Cepstrum Analysis dapat dilihat dari flowchart di bawah ini
k m ( )
k m ( )
Bab 3 Perencanaan dan Implementasi
29
Mulai
lpc parameter a
p lpc orde
c o = ln del 2
1 lt=mlt=p
i=0 iltp i++
Cm
= am
+sum((km)Ck a
m-kC
m =sum((km)C
ka
m-k)
Tampilkan nilai lpc
cepstrumc
Selesai
Gambar 311 Flowchart Proses LPC parameter ke
Cepstrum
3210 Dynamic Time Warping
Proses yang terjadi pada Dynamic Time Warping adalah pengukuran jarak suara antara sinyal standart
dan sinyal input Yang diukur berupa deretan nilai dari hasil LPC Cepstrum dalam bentuk kolom dan baris (ij)
yang disimpan dalam satu file Pada kolom berisi nilai tiap cepstrum sedangkan baris berupa banyaknya frame
Teknik yang digunakan dinamakan Dynamic Programming Alur kerjanya dapat dilihat dari flowchart di bawah
Bab 3 Perencanaan dan Implementasi
30
Mulai
i=0 iltN i++
j=0 jlt15 j++
Cepstrum
Standart
Std_Ceps [i][j]
Cepstrum
Input
Inp_Ceps [i][j]
DP_dist = DP_match1(r)
DP_dist
Selesai
Gambar 312 Flowchart Proses Dynamic Programming
33 Awal dan Akhir Sinyal suara
331 Power
Untuk mendapatkan suatu sinyal suara tanpa adanya noise maka sinyal harus benar-benar dipotong
tepat pada awal dan akhirnya Oleh karena itu dipakai power sebagai salah satu cara yang efektif dalam
menentukan awal dan akhir suatu sinyal suara
Dimana tiap frame mempunyai power yang merupakan hasil kuadratisasi dari penyampelan tiap frame
yang kemudian hasil keseluruhan diakarkan seperti bisa dilihat pada flowchart di bawah
Bab 3 Perencanaan dan Implementasi
31
Mulai
Power = 0
i=0 ilt240 i++
Power=Power+sqrt(xixi)
Selesai
Gambar 313 Flowchart Proses Power
Jumlah sample per frame ditetapkan sebesar 240 sampel Kemudian dicari power masing-masing antara sinyal
utuh dan sinyal noise kemudian dengan p ge p + 07 standar deviasi maka didapatkan awal dan akhir sinyal
suara
332 Unvoiced Plosive
Adanya daerah kosong menyebabkan sinyal tidak valid dalam pemotongan awal dan akhirnya karena
bisa dianggap noise padahal berada dalam sinyal suara ( merupakan bagian dari sinyal suara) Oleh karena itu
dicari mean dari 25 kata sinyal suara yang kemudian dicari nilai thresholdnya sebagai panjang akhir dari daerah
kosong Dan nilai tersebut diikutsertakan dalam looping dan jika setelah itu terdapat sinyal kembali maka
berarti masih ada sinyal suara dan jika tidak ada berarti tidak ada sinyal suara
34 Proses Pada Client
Preses pada client dapat dijelaskan sebagai berikut
Gambar 314 Blok diagram proses client
Penjelasan dari blok digram tersebut adalah
1 Pertama adalah perekaman suara pada software recording yang hasilnyadisimpan dalam bentuk file
berekstensi ldquowavrdquo File ini selanjutnya akan dijadikan file input pada sistem client
2 File suara yang telah tersimpan diolah dalam program sampling untuk mendapatkan sinyal suara dalam
bentuk frame Setiap frame terdiri dari 120 sampel
Mic Extract AD Voice Dikenali
Bab 3 Perencanaan dan Implementasi
32
3 Tiap frame diwindow dengan window Hamming untuk mengurangi efek diskontinyuitas pada ujung-
ujung frame
4 Sinyal hasil window yang masih dalam domain time diubah ke dalam domain frekuensi dengan Fast
Fourier Transform (FFT)
5 Hasil dari windowing sinyal masukan kemudian dihitung autokerelasinya
6 Hasil koefisien autokorelasi kemudian dikonversikan ke sebuah LPC parameter set (untuk metode LPC
autokorelasi) Sekumpulan parameter LPC yang sangat penting yang dapat diturunkan langsung dari
kumpulan koefisien LPC adalah koefisien cepstral LPC
7 Selanjutnya dilakukan proses DTW (Dynamic Time Warping) pengukuran jarak suara antara sinyal
standart dan sinyal input Hasilnya disimpan dalam sebuah file berekstensi ldquotxtrdquo
8 File berekstensi txt tersebut ke server sebagai sinyal suara input
35 Proses Pada Server
Proses pada server dapat dijelaskan sebagai berikut
Gambar 315 Blok diagram proses server
Penjelasan dari blok diagram tersebut adalah
1 Isi file berekstensi rdquotxtrdquo diterima oleh server dan digunakan sebagai data input untuk memanggil
database tone DTMF yang sesuai sebagai pengoperasian alat yang akan dikontrol
2 Alat yang terkontrol akan menunjukkan hasilnya
Memanggil
Database
Tone
Dikode
kan
dalam
biner
Kirim
ke HW
Kontrol
Alat
Input
server
Bab 4 Pengujian dan Analisa
33
BAB 4
PENGUJIAN DAN ANALISA
41 Pendahuluan
Untuk mengetahui tingkat keberhasilan dari suatu sistem diperlukan pengujian keseluruhan dari
perencanaan hasil sistem yang telah dibuat Dalam bab ini akan dijelaskan mengenai hal tersebut
Pengujian yang akan dilakukan adalah
1 Pengujian dan analisa sistem pengolahan sinyal wicara
2 Pengujian dan analisa sistem client server
3 Pengujian dan analisa awal dan akhir sistem pengolahan wicara
42 Pengujian dan Analisa Sistem Pengolahan Wicara
Tujuan untuk mendapatkan parameter ciri individu dari sampel sinyal yang diolah
421 Perekaman Suara
Pada Tugas Akhir ini digunakan duamacam perangkat lunak yang dibangun sendiri berbasis TclTk 830
dan Snack 22 sebagai perangkat lunak yang diuji dan perangkat lunak Wavesurver sebagai pembanding
4211 Dengan menggunakan TclTk dan Snack
Tampilan awal dari perangkat lunak yang dibangun dengan menggunakan TclTk dan Snack adalah sebagai
berikut
Gambar 41 Tampilan awal perangkat lunak menggunakan TclTk dan Snack
Bab 4 Pengujian dan Analisa
34
Pertama kali tombol record ditekan maka proses pengambilan sinyal wicara yang dimasukkan
dimulai Pada saat tombol Stop ditekan maka program akan merekam kata ldquosatu nyalardquordquosatu matirdquordquodua
nyalardquordquodua matirdquordquotiga nyalardquordquotiga matirdquordquoempat nyalardquordquoempat matirdquo sesuai yang kita masukkan dan
tampilan display akan digambarkan bentuk sinyal yang dihasilkan secara otomatis Hasil perekaman dapat
dilihat pada gambar berikut 42
Gambar 42 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan perangkat lunak
TclTk dan Snack
Gambar 42 menunjukkan bahwa proses pengambilan sinyal suara telah dilakukan Sinyal suara yang
dimasukkna akan terlihat gambarnya pada layar hitam (canvas)
4212 Dengan menggunakan Wave Surver
Sebagai pembanding dari program yang telah dibuat yaitu dari perangkat lunak TclTk dan Snack
digunakan Wavesurver
Tampilan awal dari Wavesurver 157 tampak seperti pada gambar 43
Gambar 43 Tampilan awal perangkat lunak menggunakan Wavesurver
Bab 4 Pengujian dan Analisa
35
Pada saat tombol recording ditekan maka program akan merekam kata ldquosatu nyalardquo dan pada tampilan
display akan digambarkan bentuk sinyal yang dihasilkan secara otomatis Hasil perekaman bisa dilihat pada
gambar 44
Gambar 44 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan
perangkat lunak Wavesurver
Perekaman pada Wavesurver dapat diset sesuai dengan kebutuhan Dimana pada sistem pengolahan sinyal
suara untuk perekaman suara diset sebagai berikut
Gambar 45 Kotak dialog setting perekaman perangkat lunak Wavesurver
Pada data di atas dapat dilihat bahwa suara yang direkam dengan mengguanakan perangkat lunak
Wavesurver mempunyai header dan tail yang berisi keterangan perekaman sebagai berikut
12000 menunjukkan frekuensi sampling yang digunakan
Bab 4 Pengujian dan Analisa
36
Channels menunjukkan bahwa suara direkam dengan menggunakan channel Mono
Sampel Encoding Lin 16 menunjukkan bahwa suara direkam dengan menggunakan
16 bit PCM
422 Sampling
Dengan menggunakan program yang dibangun sendiri di atas proses penyamplingan sinyal input sekaligus
telah terjadi dimana dengan frekuensi sampling sebesar 12000 Hz didapatkan sinyal dari kata ldquosatu nyalardquo
dengan potongan sebagai berikut
3306
3538
3788
4076
4282
4684
4747
4956
5083
5442
5844
5901
6244
6196
6462
6104
Berikut ini adalah cuplikan dari data sampel kata ldquo empat matirdquo mulai dari milidetik ke-13900
Bab 4 Pengujian dan Analisa
37
Data Sampling
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 46 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900
Pada gambar 46 telah dilakukan proses sampling sinyal masukan dengan frekuensi sampling sebesar 12000
Hz maka didapatkan hasil sinyal yang hampir mirip dengan sinyal analognya karena sinyal suara manusia
memiliki jarak frekuensi antara 300 sampai 5000 Hz dimana syarat Nyquist minimal fsampling 2fsinyal
telah terpenuhi
423 Windowing
Jenis window yang digunakan adalah window Hamming
Pada proses window hamming kata yang telah disampel sebanyak 240 sampel akan diwindow sehingga
menghasilkan sinyal yang lebih kecil peaknya Hasilnya adalah sebagai berikut
-26174
-22078
-12518
-1444
9690
19308
23360
20049
12365
2391
-7874
-14539
-17837
-19929
-19007
-16955
Bab 4 Pengujian dan Analisa
38
Sedangkan hasil dalam bentuk gambar dapat dilihat pada gambar berikut
Data Windowing
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 47 Hasil Windowing data sampel kata ldquoempat matirdquo milidetik ke-13900
Seperti yang ditunjukkan gambar 47 proses windowing telah dilakukan Berdasarkan gambar 47
tersebut dapat dikatakan bahwa window Hamming menyebabkan sinyal yang disampel lebih halus Gambar
47 dapat dibandingkan dengan gambar 46 yaitu gambar sinyal sebelum melalui proses windowing dapat
dilihat bahwa sinyal yang telah diwindow mempunyai sinyal yang lebih halus Hal ini membuktikan bahwa
fungsi dari windowing untuk mengurangi efek diskontinyuitas pada ujung-ujung frame adalah benar
424 Fast Fourier Transform Sinyal Masukan
Pada proses ini sinyal yang sebelumnya berada dalam domain waktu akan diubah dalam domain
frekuensi Setiap sinyal yang berasal dari alam merupakan sinyal analog yang bila diolah harus diubah
dalam bentuk sinyal digital Dan pengolahan dalam digital merupakan pengolahan dalam bentuk diskrit
Pada proyek akhir ini sinyal dalam domain waktu akan diubah dalam domain frekuensi dengan 256 titik
Karena hasil yang diperoleh berupa hasil dari fungsi konvolusi maka hanya akan diambil 128 titik saja yang
akan diolah dalam proses selanjutnya Sedangkan 128 sisanya tidak dipergunakan karena berupa
pencerminan saja
Hasil dari Fast Fourier Transform (FFT) dari penggalan kata ldquoempat matirdquo pada milidetik ke-13900 dalam
bentuk teks adalah
103505157
106889458
Bab 4 Pengujian dan Analisa
39
104735321
100408661
89175987
95431992
96601654
8489315
89637459
8630304
75320663
87866905
91001945
89607201
82408546
83440155
4241 Dengan Menggunakan TclTk dan Snack
Fast Fourier Transform Sinyal
Masukan
0
20
40
60
80
100
120
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 48 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat
lunak TclTk dan Snack
Dari gambar 48 di atas sinyal suara yang sebelumnya berada di domain waktu telah diubah ke domain
frekuensi Hasil Fast Fourier Transform sinyal masukan menunjukkan sebaran spektrum frekuensi dari
sinyal suara yang telah dihasilkan oleh pengucap antara 0 sampai 6000 Hz
Bab 4 Pengujian dan Analisa
40
4242 Dengan Menggunakan Wavesurver
Gambar 49 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat
Wavesurver
Dari gambar 49 di atas hasil Fast Fourier Transform sinyal masukan menunjukkan sebaran spektrum
frekuensi dari sinyal suara yang telah dihasilkan oleh pengucap antara 0 sampai 6000 Hz adalah sama
seperti pada gambar dengan gambar 48 yang diambil dengan perangkat lunak TclTk dan Snack
425 Autocorrelation Analysis
Pada proses ini sinyal masukan dalam domain waktu yang telah diwindow hamming dihitung korelasinya
dengan menggunakan orde analisi LPC sebesar 15 Sehingga akan didapatkan hasil rk(autokorelasi) sebagai
berikut
17648453
128874
0669745
0662566
0470262
0164336
-010638
-0229032
-016249
0014062
0138456
0188749
0117826
0014517
-0052704
426 LPC Analysis
Dari hasil autokorelasi tersebut di atas selanjutnya adalah LPC dimana mengkonversi masing-masing
frame dari autokorelasi p+1 ke dalam sebuah LPC Parameter a
Bab 4 Pengujian dan Analisa
41
Metode yang formal untuk mengkonversi dari koefisien autokorelasi ke sebuah LPC parameter (untuk
metode LPC autokorelasi) dikenal sebagai Metode Durbin dan secara formal hasilnya dapat ditunjukkan
sebagai berikut ini
1
-128874
0160681
-0156173
0166653
0255508
0192145
0003037
-0202248
-0265201
-0112133
005938
0232232
0203554
0048429
Dari hasil di atas terlihat bahwa untuk setiap frame nilai pertama menunjuukan energi dari masing-masing
frame dan selanjutnya adalah parameter LPC dalam satu frame yang digunakan sebagai penentu ciri dari
sinyal suara yang dihasilkan oleh individu
427 Fast Fourier Transform LPC Parameter
Pada proses ini nilai dari parameter LPC yang sebelumnya masih berada dalam domain waktu akan diubah
dalam domain frekuensi Pada proyek akhir ini parameter LPC dalam domain waktu akan diubah dalam
domain frekuensi dengan 256 titik Karena hasil yang diperolah berupa hasil dari fungsi konvolusi maka
hanya akan diambil 128 titik saja yang akan diolah dalam proses selanjutnya Sedangkan 128 sisanya tidak
dipergunakan karena berupa pencerminan saja
Hasil dari Fast Fourier Transform (FFT) dari parameter LPC pada penggalan kata ldquoempat matirdquo pada
milidetik ke-1 dalam bentuk teks adalah
103505157
106889458
104735321
100408661
89175987
Bab 4 Pengujian dan Analisa
42
95431992
96601654
8489315
89637459
8630304
75320663
87866905
91001945
89607201
82408546
4271 Dengan menggunakan TclTk dan Snack
Fast Fourier Transform Parameter
LPC
0
20
40
60
80
100
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 410 Fast Fourier Transform LPC dengan
menggunakan perangkat lunak TCLTk
dan Snack
Hasil gambar 410 menunjukkan bahwa parameter LPC yang di-Fourier Transform-kan akan menjadi
selubung spektrum dari spektrum sinyal masukan Sehingga jika selubung dan spektrumnya secara gambar
cocok dapat dikatakan bahwa LPC parameter yang dihitung benar
Bab 4 Pengujian dan Analisa
43
4272 Dengan menggunakan Wavesurver
Gambar 411 Fast Fourier Transform LPC denganmenggunakan perangkat lunak
Wavesurver
Hasil gambar 411 menunjukkan bahwa parameter LPC yang di-Fourier Transform-kan akan menjadi
selubung spektrum dari spektrum sinyal masukan adalah sama dengan yang telah diperoleh dengan
perangkat lunak TclTk seperti pada gambar 410
428 LPC Parameter to LPC Cepstrum
Koefisien LPC cepstrum koefisien yang direpresentasikan dengan Fourier Transform dengan spektrum
besaran log telah ditampilkan menjadi kumpulan fitur untuk pengenalan wicara yang lebih handal
terpercaya daripada koefisien LPC koefisien PARCOR atau koefisien log area ratio
Hasil dari LPC cepstrum pada penggalan kata ldquoempat matirdquo pada milidetik ke-106 dalam bentuk teks adalah
16636311
1387922
0474473
0654796
0429659
0132543
0225374
0126501
0021161
0242437
Bab 4 Pengujian dan Analisa
44
0160623
0065745
0139379
0056064
-0029262
Dari hasil di atas dapat dianalisa bahwa besaran-besaran dari LPC cepstrum benar-benar dapat
digunakan sebagai penentu ciri dari sinyal suara individu karena besaranndashbesaran yang dihasilkan oleh LPC
cepstrum dari yang pertama sampai yang terakhir dalam satu frame sangat bervariasi nilainya
429 Inverse Fast Fourier Transform LPC Cepstrum
Untuk menggambarkan ciri atau fitur wicara dalam domain waktu maka LPC cepstrum di-Invers Fast
Fourier Transform-kan sehingga didapatkan gambar untuk penggalan kata ldquosatu nyalardquo pada milidetik ke-
400 seperti gamabar 412
Fast Fourier Transform LPC
Cepstrum
0
20
40
60
80
100
120
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 412 Invers Fast Fourier Transform LPC cepstrum dengan menggunakan
perangkat lunak TCLTk dan Snack
Dari gambar 412 dapat dianalisa bahwa bentuk dari invers fourier transform LPC cepstrum yang
menyerupai selubung pada domain waktu dari spektrum frekuensi juga digunakan untuk menunjukkan
bahwa perhitungan LPC cepstrumnya telah benar dan dapat digunakan sebagai penentu ciri sinyal suara
individu
Invers Fast Fourier Transform LPC
Cepstrum
Bab 4 Pengujian dan Analisa
45
Gambar 413 Penggabungan spektrum sinyal spektrum LPC dan spektrum LPC
Cepstrum
Gambar 413 spektrum sinyal yang diwakili warna merah merupakan hasil sinyal yang telah di-Fast
Fourier Transform-kan Spektrum sinyal yang berwarna hijau merupakan parameter LPC yang telah di-
Fourier Transform-kan Sinyal ini akan menjadi selubung spektrum dari spektrum sinyal masukan Bila
selubung dan spektrumnya secara gambar cocok maka dapat dikatakan bahwa LPC parameter yang dihitung
adalah benar Dari gambar 413 dapat dilihat antara selubunga dan selubung sinyal masukan sudah cocok
Sinyal yang berwarna biru merupakan sinyal rata-rata dari sinyal selubung spektrum
4210 Dynamic Time Warping
Pengujian terakhir dari proses pengolahan sinyal wicara adalah membandingkan sinyal hasil cepstrum LPC
antara data input dan data standarnya Berdasarkan daerah pembatas kontinyuitas lokal dari persamaan 21
maka digunakan model yang pertama dan menggunakan persamaan 2116 dalam menghitung jarak antara
kata sebagai standar dan sebagai masukan
Selanjutnya menetukan data data sebagai data standar dan data sebagai data masukan Pada sistem ini
digunakan 8 kombinasi kata sebagai kata standar dan kata msukan untuk masing-masing pengujian dengan
kata standar sebanyak sepuluh (10) kali Adapun kata yang digunakan sebagai standar dan kata yang diuji
adalah meliputi satu nyalasatu matidua nyaladua matitiga nyalatiga matiempat nyalaempat
mati
Pada pengujian sistem kali ini masih menggunakan datasuara dari pebgucap yang sama Dari kelima data
standar yang ada dilakukan pembandingan dengan masing-masing 10 (sepuluh) kali pemasukan data Data
yang menghasilkan jarak euclidian terpendek dari masing-masing kata itulah yang akan diambil sebagai
data perintah terbaik
Bab 4 Pengujian dan Analisa
46
Pelekukan Jalur Suara
0
50
100
150
0 50 100 150
Sinyal Input empat mati
Sinyal Standart
empat mati
Gambar 414 Pelekukan Jalur Suara dengan Dynamic Time Warping
Dari gambar 414 dapat dianalisa bahwa dengan menggunakan dynamic time warping dua buah sinyal suara
akan dibandingkan vektor-vektor spektralnya dimana juga terdapat proses pembandingan panjang sinyal
antara dua buah sinyal tersebut sehingga terjadi proses pemadanan panjang sinyal dengan cara
memperpanjang dan menekuk vektor spektralnya Memperpanjang dalam arti memperpanjang sinyal yang
lebih pendek dengan memperhatikan perbandingan vektor spektralnya dan demikian pula menekuk dalam
arti menekuk sinyal yang lebih panjang dengan memperhatikan vektor spektralnya Dengan panjang yang
sama sebagai hasil dynamic time warping maka jarak euclidian antara dua sinyal dapat diperbandingkan
atau dihitung
4211 Min Value dan Sorting
Min Value dan Sorting menjadi satu paket sendiri yang digunakan untuk mencari kemungkinan hasil
terkecil dari pembandingan pola kata masukkan dengan kedelapan kata standart Keluaran dari fungsi
dynamic time warping akan memberikan delapan buah data yaitu hasil pembandingan kata masukan
dengan kata standart satu nyala hasil pembandingan kata masukan dengan kata standart satu mati hasil
pembandingan kata masukan dengan kata standart dua nyala hasil pembandingan kata masukan dengan
kata standart dua mati hasil pembandingan kata masukan dengan kata standart tiga nyala hasil
pembandingan kata masukan dengan kata standart tiga mati hasil pembandingan kata masukan dengan
kata standart empat nyala hasil pembandingan kata masukan dengan kata standart empat mati Dengan
metode sorting buble sort maka akan didapat nilai minimalnya
0748745
0362272
0633390
0327642
0600250
0346530
Bab 4 Pengujian dan Analisa
47
0545907
0207464
Berdasarkan data diatas maka perintah input sama dengan perintah kedelapan (ldquoempat matirdquo) karena
memiliki hasil time warping terkecil yaitu 0207464
4212 Hasil Pengujian Awal dan Akhir Sinyal
Pada proses penentuan awal dan akhir agar lebih presisi menggunakan ldquoPowerrdquo Adapun kelebihan dari
power adalah dapat membedakan antara sinyal suara dengan sinyal noise
Untuk menentukan awal dan akhir dicari nilai power Pada proses power kata yang telah disampel
sebanyak 240 sampel akan menghasilkan sinyal yang halus dan terletak di atas sumbu x Hasil dalam bentuk
teks adalah sebagai berikut ini
7678195313
1165659297
123492625
8917128906
6318766797
4531086719
4338374609
4912630469
5382503125
4548908984
429756875
4739710547
4575902734
4682924609
4786217578
Bab 4 Pengujian dan Analisa
48
Gambar hasil power bisa dilihat pada gambar 415 berikut
Power
0
100000
200000
300000
400000
500000
0 50 100 150
Jumlah Frame
Amplitude
Gambar 415 Sinyal ldquoempat matirdquo hasil program power
Gambar 416 berikut ini adalah hasil pengujian kata ldquoempat matirdquo sebagai masukan dan kata standar ldquoempat
matirdquo dimana kedua kata dibandingkan berdasarkan powernya sebelum proses Dinamic Time Warping
Sinyal warna biru sebagai power sinyal standart dan sinyal yang berwarna merah merupakan power sinyal
input
Perbandingan Dua Kata empat mati
sebelum DTW
0
100000
200000
300000
400000
500000
0 50 100 150
Jumlah Frame
Amplitude
Gambar 416 Perbandingan power dua kata ldquoempat matirdquo sebelum Dynamic Time Warping
Berikut ini adalah hasil pengujian dua buah kata ldquoempat matirdquo dengan menggunakan dynamic time warping
dimana jalur pelekukan suara dapat digambarkan pada gambar 417
Bab 4 Pengujian dan Analisa
49
Pelekukan Jalur Suara
0
50
100
150
0 50 100 150
Sinyal Input empat mati
Sinyal Standart
empat mati
Gambar 417 Pelekukan jalur suara dua kata ldquoempat matirdquo dengan DTW
Gambar 418 adalah hasil pengujian dua buah kata ldquoempat matirdquo sebagai masukan dan dan kata standar
ldquoempat matirdquo dimana kedua kata dibandingkan berdasarkan powernya setelah proses dynamic time
warping
Gambar 418 dapat dibandingkan dengan gambar 416 yaitu sinyal sebelum proses Dynamic Time Warping
Sebelum proses Dynamic Time Warping sinyal tidak mengalami proses penekukan dan penarikan data
berdasarkan waktu antara keduanya sehingga antara sinyal input dan sinyal standart memiliki ukuran
panjang yang sangat jauh berbeda
Pemadanan Dua Kata Setelah DTW
0
100000
200000
300000
400000
500000
0 100 200 300
Jumlah Frame
Amplitude Power
Gambar 418 Perbandingan power dua kata ldquoempat matirdquo setelah Dynamic Time Warping
Dari gambar 418 dapat dinyatakan bahwa setelah melalui proses dynamic time warping terjadi penekukan
dan penarikan data berdasarkan waktu antara keduanya sehingga pada akhirnya kedua sinyal memiliki
ukuran panjang yang sama Sehingga dengan demikian dapat dicari jarak euclidian untuk menentukan
sebuah kata yang sesuai dengan kata yang lainnya
Bab 4 Pengujian dan Analisa
50
4213 Hasil Pengujian Sistem Perangkat Lunak
Pada pengujian sistem perangkat lunak diambil sampel data dari 3 orang dimana terdiri dari 3 orang pria
dan 1 orang wanita Pria pertama merupakan standar sekaligus pengisi suara untuk perintah Sedangkan pria
kedua dan wanita sebagai pembanding untuk mengetahui unjuk kerja sistem
Tabel 41 Hasil pengujian sistem pengolahan sinyal wicara untuk pengucap yang sama (pria
1)
8 7 6 5 4 3 2 1 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05417
03487
05964
03443
07272
04424
03449
01
961
Satu
nyala
Sinyal Standart
02496
04723
03013
05120
03450
03815
01
739
03471
Satu
mati
04389
02035
06139
03244
04343
02
158
04567
04047
Dua
nyala
01866
04517
04157
05267
01
940
02561
02036
04779
Dua
mati
04833
02168
03984
01
090
06409
04278
05019
02690
Tiga
nyala
02683
04628
01
188
03416
04046
03345
02959
04614
Tiga
mati
03807
01
046
05271
01974
05934
03134
04363
02554
Empat
nyala
01
388
03728
02269
04497
02559
03195
02476
04874
Empat
mati
Bab 4 Pengujian dan Analisa
51
16
15
14
13
12
11
10
9 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05776
02988
05100
04019
06101
05338
04219
02
047
Satu
nyala
Sinyal Standart
03382
04381
02427
05124
02642
05990
02
706
03335
Satu
mati
04453
02558
04993
04574
03381
02
344
04529
04121
Dua
nyala
01669
04532
03190
06355
01
004
04807
03466
04622
Dua
mati
05209
02261
03366
01
124
05377
04165
05369
02660
Tiga
nyala
03721
04074
00
891
03002
02637
05958
02719
04333
Tiga
mati
03889
01
755
04365
02341
04826
03150
05193
02472
Empat
nyala
01
092
03974
01802
04848
01455
05343
02717
04536
Empat
mati
Bab 4 Pengujian dan Analisa
52
24
23
22
21
20
19
18
17 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05157
04015
06277
02964
05609
04690
03376
01
369
Satu
nyala
Sinyal Standart
01787
05144
03814
04134
04952
04843
01
636
03404
Satu
mati
03988
03026
07420
03020
03977
01
905
04801
03610
Dua
nyala
01630
05662
06259
05009
01
808
03357
02206
05094
Dua
mati
04667
02681
05731
01
448
05575
03280
05344
03417
Tiga
nyala
01902
05055
03
395
02597
04700
04618
02951
04808
Tiga
mati
03809
01
863
06920
02154
04252
02455
04616
03184
Empat
nyala
00
761
04379
04288
04053
03629
04122
02419
05622
Empat
mati
Bab 4 Pengujian dan Analisa
53
32
31
30
29
28
27
26
25 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
04793
03554
06312
03247
06514
03585
03068
02
935
Satu
nyala
Sinyal Standart
01671
04661
03012
03961
02834
04667
01
079
05475
Satu
mati
04033
02359
05307
02587
03475
01
587
04781
04010
Dua
nyala
02222
04949
03652
04387
00
958
03222
02647
04966
Dua
mati
04499
02207
04170
01
873
05884
02500
05631
03257
Tiga
nyala
01791
04432
01
196
02646
02999
04619
02558
05048
Tiga
mati
03561
01
050
05061
02437
04927
01887
05325
03424
Empat
nyala
00
858
03774
02052
03974
01440
04186
02597
05381
Empat
mati
Bab 4 Pengujian dan Analisa
54
40
39
38
37
36
35
34
33 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
06471
03838
05816
03364
06492
03613
03496
01
111
Satu
nyala
Sinyal Standart
02951
05556
02631
04558
05057
04799
01
683
02958
Satu
mati
05259
02977
05228
03305
04614
00
878
05159
02707
Dua
nyala
03165
05686
03078
05512
01
088
03082
03482
04823
Dua
mati
05397
02037
03714
00
949
06365
02818
05998
02829
Tiga
nyala
02990
04867
00
921
02759
04978
04752
03131
04533
Tiga
mati
05028
01
233
05114
02070
05154
01825
05439
01975
Empat
nyala
01
914
04521
01834
04248
02711
04164
03149
04755
Empat
mati
Bab 4 Pengujian dan Analisa
55
48
47
46
45
44
43
42
41 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
07997
03701
06005
03992
05800
05223
03706
01
198
Satu
nyala
Sinyal Standart
03909
04978
02572
05339
05784
05103
01
161
03113
Satu
mati
06284
02355
05419
04194
03709
02
588
04764
02834
Dua
nyala
03737
04883
03321
06131
03
489
04229
03188
04962
Dua
mati
05885
02259
04026
00
918
06123
03601
05739
0 2867
Tiga
nyala
03583
04464
00
974
03340
05828
05114
02720
04269
Tiga
mati
05762
01
230
7
05459
02231
04899
03397
05114
0 2395
Empat
nyala
02
247
02888
01948
04994
04987
04505
02141
0 4956
Empat
mati
Bab 4 Pengujian dan Analisa
56
56
55
54
53
52
51
50
49 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05627
03923
06226
04018
05254
04895
02933
02
009
Satu
nyala
Sinyal Standart
02473
04947
02892
05661
05301
05040
01
289
03008
Satu
mati
04393
02779
06046
04425
02900
01
743
04571
02669
Dua
nyala
02222
05352
04171
06748
01
202
03736
03177
03699
Dua
mati
04644
02488
03523
00
835
05391
03319
05277
03671
Tiga
nyala
02213
04345
01
009
03758
02869
05933
02761
03900
Tiga
mati
04093
01
443
05080
05083
04959
02819
04840
02709
Empat
nyala
01
239
04029
0 2223
05428
01263
04236
02575
04141
Empat
mati
Bab 4 Pengujian dan Analisa
57
64
63
62
61
60
59
58
57 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
07489
03792
05134
04199
06459
04019
03044
01
850
Satu
nyala
Sinyal Standart
03586
04783
02186
05509
02884
04251
01
198
03243
Satu
mati
05697
02612
04576
04268
03211
01
519
04639
03845
Dua
nyala
03563
05288
02855
06752
01
074
03523
03265
04523
Dua
mati
05768
02262
03884
01
048
06348
02633
05784
02683
Tiga
nyala
03449
04859
01
009
03177
03425
04355
02975
04077
Tiga
mati
05693
01
445
04574
02498
05298
01999
05622
02359
Empat
nyala
02
236
04215
01468
05161
01827
03851
03161
04416
Empat
mati
Bab 4 Pengujian dan Analisa
58
72
71
70
69
68
67
66
65 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05439
02975
05593
03689
05796
03415
03416
01
492
Satu
nyala
Sinyal Standart
02225
04543
04586
04584
02669
04529
01
112
02881
Satu
mati
04025
02639
06303
03009
02582
01
003
05045
02767
Dua
nyala
01734
05437
04847
04897
00
826
02892
02584
04797
Dua
mati
04671
02336
04988
01
206
05595
02572
05647
02991
Tiga
nyala
02095
04805
04
025
02747
02848
04359
02773
04076
Tiga
mati
03971
01
297
05065
02121
04489
01703
05074
02131
Empat
nyala
00
901
04123
04026
04154
01514
03762
02328
04561
Empat
mati
Bab 4 Pengujian dan Analisa
59
80
79
78
77
76
75
74
73 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
07997
03054
06228
04446
05805
04687
03173
03
391
Satu
nyala
Sinyal Standart
05051
04619
05619
05749
02631
04447
01
086
05310
Satu
mati
05949
03685
05899
05607
03163
01
874
05234
03797
Dua
nyala
03109
05053
05258
07102
01
095
03368
03585
04539
Dua
mati
06473
02004
04524
01
350
05525
03084
05608
03682
Tiga
nyala
04759
04205
04
309
03701
03031
04660
02678
05243
Tiga
mati
05572
02
003
05167
02702
04478
02552
05358
03563
Empat
nyala
02
459
04960
04964
05734
01641
03971
02630
05029
Empat
mati
Pengujian pertama ini dilakukan dengan cara memasukkan suara pria pertama (yang digunakan sebagai
pengisi suara standart) Setiap satu perintah dilakukan sebanyak 10 kali pengujian Hasil pengujian
merupakan nilai dari hasil proses Dynamic Time Warping yang merupakan nilai dari pemadanan sinyal
input dengan kedelapan sinyal standart Nilai terkecil (nilai yang tercetak tebal) yang didapatkan merupakan
hasil yang paling mendekati sinyal standart Yang berarti sinyal masukan tersebut dianggap paling sesuai
dengan sinyal standart
Prosentase keberhasilan pengucapspeaker pertama untuk kedelapan perintah sebesar 100 semuanya
menunjukkan kepada sinyal masukkan dan sinyal standart yang sama
Hasil pengujian menunjukkan bahwa ciri sinyal suara yang dihasilkan oleh pengucap speaker pertama dan
sebagai pemberi standart adalah sama
Bab 4 Pengujian dan Analisa
60
Tabel 42 Hasil pengujian sistem pengolahan sinyal wicara untuk pengucap yang lain (pria
2)
8 7 6 5 4 3 2 1 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
06023
05121
07146
04599
04996
04561
07575
04
358
Satu
nyala
Sinyal Standart
04018
05701
06369
06256
03518
05738
07004
08129
Satu
mati
07120
03925
07395
04897
05938
02246
10082
06777
Dua
nyala
04963
05958
05189
07345
03449
04854
08816
08543
Dua
mati
05919
04337
05163
02
130
04797
03463
08871
05289
Tiga
nyala
03709
04519
04380
03601
03491
05239
06
046
07381
Tiga
mati
06087
03
161
06178
03280
05
068
02
439
08853
05354
Empat
nyala
03
409
04321
04
208
05569
03219
04898
06863
08596
Empat
mati
Bab 4 Pengujian dan Analisa
61
16
15
14
13
12
11
10
9 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05475
03932
05521
04
383
05634
05416
04
464
03
434
Satu
nyala
Sinyal Standart
04076
05731
04541
05681
03574
04920
03971
06662
Satu
mati
07427
04886
07924
05962
05824
02
712
07837
05504
Dua
nyala
04475
06666
05765
07616
03414
04203
05431
06334
Dua
mati
05357
03797
05099
04509
04902
04332
07097
05220
Tiga
nyala
04197
05134
04
209
05088
03169
04547
04464
06516
Tiga
mati
05936
03
769
05910
05109
05
311
03435
07646
04977
Empat
nyala
03
576
05767
04591
06367
03010
04129
04944
06850
Empat
mati
Bab 4 Pengujian dan Analisa
62
24
23
22
21
20
19
18
17 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
06927
04
279
08096
04
448
06461
05522
03935
02
444
Satu
nyala
Sinyal Standart
06409
05322
05528
05481
04912
04491
02
011
05508
Satu
mati
06134
04643
08962
06002
04868
02
579
06122
05502
Dua
nyala
04753
06443
05501
07364
02
298
03206
04239
06684
Dua
mati
05709
04928
05456
04961
06142
05726
06454
03831
Tiga
nyala
05798
04882
03
235
04708
04838
04317
03526
05462
Tiga
mati
05021
04423
06842
05583
05222
04132
06363
04235
Empat
nyala
04
457
05427
03546
05773
02946
03573
03618
07019
Empat
mati
Bab 4 Pengujian dan Analisa
63
32
31
30
29
28
27
26
25 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05260
04224
07393
04661
06292
04993
03989
03
549
Satu
nyala
Sinyal Standart
04478
04669
04568
05977
03523
04046
03
438
04819
Satu
mati
06448
04308
08152
06114
04665
02
444
07609
05162
Dua
nyala
04024
05867
05103
07873
01
872
02613
04489
06765
Dua
mati
05363
04
672
05250
04
529
05210
05103
06546
04794
Tiga
nyala
04422
04039
02
482
05102
03499
03985
03969
04371
Tiga
mati
05492
04073
06626
05239
04902
03553
06869
04794
Empat
nyala
03
326
04543
03153
06510
02133
03419
04175
05287
Empat
mati
Hasil pengujian yang kedua ini dilakukan dengan cara memasukkan suara dari pria kedua (pria lain yang
tidak digunakan sebagai suara standart) Setiap satu perintah dilakukan empat (4) kali proses pengujian
Hasil pengujian merupakan nilai dari hasil proses Dynamic Time Warping yang merupakan nilai dari
pemadanan sinyal input dengan kedelapan sinyal standart Nilai terkecil (nilai yang tercetak tebal) yang
didapatkan merupakan hasil yang paling mendekati sinyal standart Yang berarti sinyal masukan tersebut
dianggap paling sesuai dengan sinyal standart
Prosentase keberhasilan pengucapspeaker kedua untuk kedelapan perintah bervariasi sebesar 50
sampai dengan 100 semuanya menunjukkan kepada sinyal masukkan dan sinyal standart yang berbeda
Hasil pengujian menunjukkan bahwa ciri sinyal suara yang dihasilkan oleh pengucap speaker kedua dan
sebagai pemberi standart adalah mendekati sama
Bab 4 Pengujian dan Analisa
64
Tabel 43 Hasil pengujian sistem pengolahan sinyal wicara untuk pengucap yang sama (pria)
No Perintah Lampu DTMF
1 1 nyala B B
2 1 mati B G
3 2 nyala B G
4 2 mati G X
5 3 nyala G X
6 3 mati G X
7 4 nyala B B
8 4 mati B B
9 1 nyala B G
10 1 mati B B
11 2 nyala B G
12 2 mati B B
13 3 nyala B G
14 3 mati B B
15 4 nyala B G
16 4 mati B B
17 1 nyala B G
18 1 mati B B
19 2 nyala G X
20 2 mati G X
21 3 nyala B B
22 3 mati B B
23 4 nyala B B
24 4 mati G X
No Perintah Lampu DTMF
25 1 nyala B G
26 1 mati G X
27 2 nyala G X
28 2 mati B G
29 3 nyala B G
30 3 mati B G
31 4 nyala B G
32 4 mati G X
B Berhasil
G Gagal
X Donrsquot Care (Diabaikan)
Pengujian yang ketiga ini dilakukan oleh pria pertama (pria yang suaranya digunakan sebagai standart)
Masing-masing perintah dilakukan sebanyak empat kali pengujian
Bab 4 Pengujian dan Analisa
65
Pada kolom ketiga (kolom lampu) tanda B (berhasil) menunjukkan bahwa perintah yang diberikan pada
hardware berhasil dilakukan Tanda G (gagal) menunjukkan bahwa perintah yang diberikan pada hardware
gagal dilakukan(hasil tidak sesuai dengan perintah yang diberikan)
Pada kolom keempat (kolom DTMF) menunjukkan laporan dari hardware ke PC server tentang
bagaimana keadaan lampu yang sedang dikontrol apakah dalam keadaan menyala atau mati Pada kolom ini
tanda B (berhasil) menunjukkan bahwa laporan dari hardware ke PC server (yang merupakan proses
otomatisasi) berhasil dilakukan Tanda G (gagal) menunjukkan bahwa laporan ke PC client gagal dilakukan
Sedangkan tanda X (donrsquot care) menunjukkan bahwa perintah diabaikan Hal ini disebabkan perintah pada
hardware (perintah sebelumnya sebelum proses otomatisasi) sudah gagal dilakukan
Prosentase keberhasilan pengucapspeaker pertama untuk kedelapan perintah bervariasi antara 50
sampai 100 semuanya menunjukkan kepada sinyal masukkan dan sinyal standart yang berbeda
Hasil pengujian kedua ini menunjukkan bahwa ciri sinyal suara yang dihasilkan oleh pengucapspeaker
kedua ini yang merupakan suara orang lain (bukan pemberi standart) adalah mendekati sama dengan hasil
yang bervariasi antara 50 sampai 100
43 Pengujian Sistem Client Server
Pada sub bab ini akan diujikan program Client Server yang akan mengirimkan sinyal hasil pengolahan
suara
Tampilan pada client adalah seperti gambar 421 yang merupakan tampilan awal pada saat program
dimulai
Gambar 421 Proses pada client
Bab 4 Pengujian dan Analisa
66
Gambar 422 Proses pada server
1 Sebelumnya program server harus disiapkan lebih dulu
2 Setelah itu client dijalankan
3 Setelah client siap user memasukkan suara yang selanjutnya akan diolah sampai proses DTW
4 Server menerima data yang selanjutnya digunakan untuk melakukan kontrol alat rumah tangga
44 Analisa Pengujian Sistem Secara Keseluruhan
Berdasarkan data-data yang telah didapatkan di atas maka dapat ditarik suatu analisa bahwa
Berdasarkan tabel 44 untuk pengujian pertama pria 1 adalah pria yang suaranya digunakan sebagai standart
Prosentase keberhasilan rata-rata yang didapat untuk semua perintah adalah sebesar 100 Hal ini menunjukkan
bahwa suara yang diujikan adalah suara yang sama dengan standart dan pria 1 tersebut pernah berinteraksi
dengan sistem
Pengujian yang kedua adalah pengujian yang dilakukan oleh pria 2 (pria lain yang suaranya tidak
dipakai sebagai standart) Prosentase keberhasilan rata-rata yang didapat untuk semua perintah 7188 Karena
sistem bersifat dependent speaker dimana sistem hanya digunakan oleh orang tertentu dalam arti yang pernah
berinteraksi langsung dengan sistem Oleh karenanya didapat nilai prosentase keberhasilan yang bervariasi
Bab 4 Pengujian dan Analisa
67
Tabel 44 Tingkat keberhasilan sistem perangkat lunak
NNO
PENGUCAP
PERINTAH
BANYAK
PERCOBAAN
PROSENTASE
KEBERHASILAN
1 Pria 1 1 nyala 8 kali 100
2 1 mati 8 kali 100
3 2 nyala 8 kali 100
4 2 mati 8 kali 100
5 3 nyala 8 kali 100
6 3 mati 8 kali 100
7 4 nyala 8 kali 100
8 4 mati 8 kali 100
RATA-RATA 100
9 Pria 2 1 nyala 4 kali 100
10 1 mati 4 kali 75
11 2 nyala 4 kali 75
12 2 mati 4 kali 50
13 3 nyala 4 kali 50
14 3 mati 4 kali 75
15 4 nyala 4 kali 50
16 4 mati 4 kali 100
RATA-RATA 7188
Jika diurutkan proses pengolahan wicara dari awal sampai diambil keputusan suara yang dimasukkan
tersebut adalah suara yang sesuai atau tidak adalah sebagai berikut
Bab 4 Pengujian dan Analisa
68
Gambar 423 Tampilan awal perangkat lunak menggunakan TclTk dan Snack
Gambar 423 adalah tampilan awal dari perangkat lunak yang dibangun dengan menggunakan TclTk dan
Snack
Gambar 424 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan dengan
menggunakan perangkat lunak Wavesurver
Gambar 424 adalah tampilan awal dari program Wavesurver yang merupakan pembanding dari program
yang dibuat dari perangkat lunak TclTk dan Snack
Bab 4 Pengujian dan Analisa
69
Gambar 425 Tampilan awal perangkat lunak
menggunakan TclTk dan Snack
Gambar 425 adalah tampilan ketika proses pengambilan sinyal suara sedang dilakukan dengan perangkat
lunak TclTk dan Snack
Gambar 426 Tampilan hasil perekaman kata ldquoempat
matirdquo dengan menggunakan perangkat lunak Wavesurver
Gambar 426 adalah tampilan ketika proses pengambilan sinyal suara sedang dilakukan dengan perangkat
lunak Wavesurver
Bab 4 Pengujian dan Analisa
70
Data Sampling
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 427 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900 menggunakan TclTk dan
Snack
Pada gambar 427 dilakukan proses sampling sinyal masukan dengan frekuensi sampling sebesar 12000
Hz maka didapatkan hasil sinyal yang hampir mirip dengan sinyal analognya yang dilakukan dengan
perangkat lunak TclTk dan Snack
Gambar 428 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900 dengan menggunakan
perangkat Wavesurver
Pada gambar 428 dilakukan proses sampling sinyal masukan dengan frekuensi sampling sebesar 12000
Hz yang dilakukan dengan perangkat lunak Wavesurver
Data Windowing
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 429 Hasil Windowing data sampel
kata ldquoempat matirdquo milidetik ke-13900 menggunakan TclTk dan Snack
Bab 4 Pengujian dan Analisa
71
Proses windowing terdapat pada gambar 429 dilakukan untuk membuat sinyal yang disampel lebih
halus Proses windowing ini dilakukan dengan menggunakan perangkat lunak TclTk dan Snack
Proses windowing pada Wavesurver merupakan fasilitas yang tergabung dengan proses lainnya Misal
dengan proses Fast Fourier Transform Jadi disini tidak ditampilkan hanya sebagai proses windowing saja
tetapi digabungkan dengan proses lain
Fast Fourier Transform Sinyal
Masukan
0
20
40
60
80
100
120
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 430 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat
lunak TclTk dan Snack
Gambar 430 di atas adalah proses Fast Fourier sinyal masukan dengan perangkat lunak TclTk dan Snack
Hasil Fast Fourier Transform sinyal masukan menunjukkan sebaran spektrum frekuensi dari sinyal suara
yang telah dihasilkan oleh pengucap
Sebagai pembanding adalah proses Fast Fourier sinyal masukan yang diambil dengan Wavesurver seperti
pada gambar 431 Yang didapatkan hasil yang sama
Gambar 431 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat Wavesurver
Bab 4 Pengujian dan Analisa
72
Fast Fourier Transform Parameter
LPC
0
20
40
60
80
100
0 2000 4000 6000 8000
Frekuensi (Hz)10 x log
10(magnitude)(dB)
Gambar 432 Fast Fourier Transform LPC dengan menggunakan perangkat lunak TCLTk
dan Snack
Hasil gambar 432 menunjukkan proses Fast Fourier Transform LPC yang dilakukan dengan perangkat
lunak TclTk dan Snack
Gambar 433 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat Wavesurver
Proses Fast Fourier Transform yang dilakukan dengan Wavesurver dapat dilihat pada gambar 433
Pelekukan Jalur Suara
0
50
100
150
0 50 100 150
Sinyal Input empat mati
Sinyal Standart
empat mati
Gambar 434 Pelekukan Jalur Suara dengan Dynamic Time Warping
Bab 4 Pengujian dan Analisa
73
Dari gambar 434 dapat dianalisa bahwa dengan menggunakan dynamic time warping terdapat proses
pembandingan panjang sinyal antara dua buah sinyal input dan sinyal standart sehingga terjadi proses
pemadanan panjang sinyal dengan cara memperpanjang dan menekuk vektor spektralnya
74
BAB 5
PENUTUP
51 Kesimpulan
Dari hasil yang didapatkan maka dapat diambil kesimpulan bahwa
Sistem pengucap tak bebas atau speaker dependent system memiliki tingkat akurasi yang tinggi untuk
pengucap masukan dan pengucap standar yang sama Hal ini dibuktikan dengan hasil pengujian pertama
yang dilakukan oleh pria pertama Pria pertama ini adalah pria yang suaranya digunakan sebagai standar
Nilai prosentase keberhasilan rata-rata untuk semua perintah adalah sebesar 100 dari setiap perintah
dilakukan 8 kali percobaan
Sedangkan pengujian yang dilakukan oleh suara lain (bukan standart) prosentatase keberhasilan
rata-rata yang diperoleh untuk semua perintah 7188 dari setiap perintah dilakukan 4 kali percobaan Hal
ini disebabkan karena suara pria kedua tidak pernah berinteraksi dengan sistem
Keberhasilan sistem ditunjukkan oleh ketepatan penyalaan lampu sesuai dengan yang diperintahkan
melalui perintah suara
Kecepatan sistem secara keseluruhan diperlihatkan dalam tabel 51 dibawah
Tabel 51 Kecepatan sistem keseluruhan
No
Perintah
Waktu (detik)
1 2 3 4 Rata-rata
1 Satu Nyala 11 99 12 25 16 89 14 05 13 80
2 Satu Mati 12 51 13 28 14 83 12 25 13 22
3 Dua Nyala 10 70 11 73 11 99 12 25 11 67
4 Dua Mati 10 44 11 21 11 21 11 47 11 08
5 Tiga Nyala 10 96 12 25 13 54 12 51 12 32
6 Tiga Mati 10 70 11 99 11 99 13 28 11 99
7 Empat Nyala 11 73 11 99 13 02 12 24 12 25
8 Empat Mati 10 70 09 93 11 21 10 70 10 64
Rata-rata 12 12
Dari data yang diperoleh didapatkan kecepatan rata-rata untuk tiap perintah yang diberikan sampai
dengan terlaksananya eksekusi dari perintah adalah 12 12 detik
52 Saran
Pada penelitian ini masih sangat banyak hal yang dapat dilakukan untuk perbaikan-perbaikan dimasa
selanjutnya Saran dan usulan yang dapat dipertimbangkan untuk pengembangan sistem lebih lanjut adalah
antara lain
1 Sistem tidak lagi bersifat dependent speaker tetapi bersifat independent speaker dimana banyak
orang yang memberi perintah dan sistem dengan tepat memberikan respon
2 Sistem dapat mengatasi tingkat noise yang tinggi baik yang disebabkan oleh lingkungan atau oleh
hardware (sound card)
75
3 Otomatisasi sistem Artinya perintah tidak perlu lagi diberikan lewat penekanan tombol yang
dilakukan melalui mouse
4 Respon sistem yang real time
5 Sistem yang dapat dengan mudah beradaptasi dengan jenis sound card yang bervariasi
DAFTAR PUSTAKA
Anggraeni Triana Dewi Astutik Debi Puji Pengenalan Wicara Dengan Penutur Tak Bebas
Tugas Akhir PENS ITS 2003
Wahyudi Agus Verifikasi Sinyal Suara Sebagai Kendali Arah TA PENS-ITS 2002
Dewantara Bima Sena Bayu Aplikasi Pengenalan Wicara Untuk Perintah NirkabelRobot Mikro
Mouse Tugas Akhir PENS ITS 2004
Dutono Titon Penataran Kebahasaan Tahap I Fonetik Dan Fonologi ndashPengolahan Sinyal
Wicara Digital 20 Februari 2001
Gabel Robert A Richard A Robert Sinyal dan Sistem LinierErlangga 1996
Rabiner Lawrence Huang Juang Biing Fundamentals of Speech Recognition Prentice Hall
International Inc1993
Proakis John G Malonakis Dimitris G Digital Signal Processing Principles Algorithms and
Applications Prentice Hall Inc New Jersey 1995
Scolander Kare Snack Sound Toolkit
httpwwwtcltkmantcl85tutorialTcl11html
httpwikitcltk4074
httpwwwinveceorgtclwisefrontcoverhtml
httpwwwspeechkthsesnackmansnack22tcl-manhtml
httpwwwspeechkthsesnacktutorialhtml
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13]
Bab 1 Pendahuluan
viii
DAFTAR GAMBAR
21 Skema diagram organ penghasil sinyal wicara 4
22 Struktur umum model generator wicara 5
23 Pola standart dengan unit kata 6
24 Pola standart dengan unit fonem 6
25 a) Sinyal wicara untuk bunyi a pada satu frame pada pria b) Sinyal wicara untuk bunyi
a pada satu frame pada wanita 7
26 Contoh proses sampling dengan nilai frekuensi pencuplikan yang berbeda 8
27 Pergeseran frame pada sinyal suara dengan M = 13 N 10
28 Blok Metode FFT-DIT 8 titik 13
29 Plane jaringan untuk ilustrasi pemrograman dinamik 18
210 DTW antara dua rentetan waktu A dan B 19
211 Bentuk power dari kata 22
212 Unvoiced Plosive 23
31 Blok Diagram Sistem secara keseluruhan 29
32 Program aplikasi pengenalan wicara 31
33 Flowcart sistem Graphical User Interface 32
34 Sinyal hasil sampling dengan frekuensi 12000 Hz 33
35 Flowcart proses sampling 34
36 Frame blocking sinyal 35
37 Flowcart proses windowing 36
38 Flowcart Proses Fast Fourier Transform 37
39 Flowcart Proses Autokorelasi 38
310 Flowcart Proses LPC Analisis 39
311 Flowcart proses LPC Parameter ke Cepstrum 40
312 Flowcart proses Dynamic Programming 41
313 Flowcart Proses Power 42
314 Blok Diagram Proses Client 43
315 Blok Diagram Proses Server 44
41 Tampilan awal perangkat lunak menggunakan TclTk dan Snack 46
42 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan perangkat lunak
TclTk dan Snack 47
43 Tampilan awal perangkat lunak menggunakan Wavesurver 48
44 Tampilan hasil perekaman kata rdquoempat matirdquo dengan menggunakan perangkat lunak wavesurver 48
45 Kotak dialog setting perekaman perangkat lunak Wavesurver 49
46 Cuplikan dari katardquoempat matirdquo milidetik ke-13900 51
47 Hasil windowing data sampel kata rdquoempat matirdquo milidetik ke-13900 52
48 Fast fourier Transform sinyal masukan dengan menggunakan perangkat lunak TclTk da Snack 54
Bab 1 Pendahuluan
ix
49 Fast fourier Transform sinyal masukan dengan menggunakan perangkat lunak Wavesurver 54
410 FFT LPC dengan menggunakan perangkat lunak TCLTk dan Snack 57
411 FFT LPC dengan menggunakan perangkat lunak Wavesurver 58
412 Invers FFT LPC cepstrum dengan menggunakan Perangkat lunak TCLTk dan Snack 60
413 Penggabungan spektrum sinyal spektrum LPC dan Spektrum LPC Cepstrum 61
414 Pelekukan Jalur suara dengan Dynamic Time Warping 62
415 Sinyal rdquoempat matirdquo hasil program power 65
416 Perbandingan power dua kata ldquoempat matirdquo sebelum Dynamic Time Warping 65
417 Pelekukan alur suara dua kata ldquoempat matirdquo dengan DTW 66
418 Perbandingan power dua kata rdquoempat matirdquo setelah Dynamic Time Warping 67
421 Proses pada client 85
422 Proses pada server 86
423 Tampilan awal perangkat lunak menggunakan TclTk dan Snack 88
424 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan dengan menggunakan
perangkat lunak Wavesurver 89
425 Tampilan awal perangkat lunak menggunakan Wavesurver 89
426 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan perangkat lunak Wavesurver 90
427 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900 90
428 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900 dengan menggunakan perangkat
Wavesurver 91
429 Hasil Windowing data sampel kata ldquoempat matirdquo milidetik ke-13900 92
430 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat lunak TclTk dan Snack 92
431 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat lunak Wavesurver 93
432 Fast Fourier Transform LPC dengan menggunakan perangkat lunak TCLTk dan Snack 94
433 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat Wavesurver 94
434 Pelekukan jalur suara dengan Dynamic Time Warping 95
Bab 1 Pendahuluan
x
DAFTAR TABEL
41 Hasil pengujian sistem pengolahan wicara untuk pengucap yang sama (pria 1) 68
42 Hasil pengujian sistem pengolahan wicara untuk pengucap yang lain (pria 2) 79
43 Hasil pengujian system pengolahan wicara untuk pengucap yang sama (pria) 83
44 Tingkat keberhasilan system perangkat lunak 87
51 Kecepatan sistem keseluruhan 96
Bab 1 Pendahuluan
1
BAB 1
PENDAHULUAN
11 LATAR BELAKANG
Sudah sekian lama manusia memimpikan adanya pengendalian suatu alat atau sistem kontrol dengan
perintah suara Hal ini diperjelas dengan banyak beredarnya film-film fiksi yang menyuguhkan berbagai sistem
kontrol yang dilakukan dengan menggunakan suara bagaimana seorang anak bisa mengendalikan sebuah
pesawat terbang hanya dengan perintah-perintah dasar dengan menggunakan suaranya Ditambah lagi dengan
pesatnya penelitian dibidang suara yang membuat pintu gerbang sistem pengontrolan dengan suara manusia
semakin terbuka Dewantara [2] telah membuat sebuah aplikasi pengenalan wicara untuk perintah nirkabel robot
mikro mouse Anggraeni dan Astutik [1] telah menggunakan pengenalan wicara untuk mengakses suatu jaringan
sebagai password Tetapi belum ada yang membuat aplikasi pengenalan wicara untuk membuat perintah
pengontrolan pada alat-alat rumah tangga semisal lampu Selain itu beberapa tahun terakhir ini perkembangan
dunia telekomunikasi mengalami kemajuan yang sangat pesat Sehingga pada saat ini informasi yang dikirim
tidak hanya berupa data dalam bentuk teks tetapi juga suara manusia Ditambah dengan semakin banyaknya
peralatan yang memanfaatkan pengenalan suara manusia untuk mengakses maupun memberikan perintah Sinyal
suara yang masuk akan diproses dan dikenali oleh suatu alat Proses tersebut adalah pengenalan wicara (speech
recognition) yaitu pengenalan wicara melalui sampel suara yang telah diolah
Dengan pertimbangan tersebut maka pembuatan kontrol suatu peralatan jarak jauh dengan menggunakan
suara sangat sesuai jika diaplikasikan dalam sistem pengendalian dan monitoring peralatan rumah tangga jarak
jauh dengan menggunakan metode pengenalan wicara Aplikasi tersebut kami bangun dalam pelaksanaan
penelitian ini
12 TUJUAN
Penelitian ini bertujuan untuk
1 Memberikan perintah suara untuk menyalakan beberapa peralatan rumah tangga dalam contoh kasus
dalam penelitian ini adalah menyalakan lampu jarak jauh
2 Membangun sistem pengucap tak bebas (speaker dependent sistem)
3 Memberikan ciri individu untuk memberikan perintah menghidup dan matikan peralatan rumah tangga
yang dilakukan secara jarak jauh
13 BATASAN MASALAH
Batasan masalah pada penelitian ini adalah
1 Bahasa pemrograman untuk algoritma pengenalan wicara adalah Microsoft Visual C++ 60
2 Bahasa Pemrograman untuuk user interface adalah TclTk 830 dan Snack 22
3 Sistem bersifat dependentartinya sistem hanya dapat digunakan oleh orang tertentu dalam hal ini yang
pernah berinteraksi langsung dengan sistem
4 Sinyal diasumsikan ideal yaitu tidak mamperhitungkan noise yang berarti semua noise dianggap stationer
Bab 1 Pendahuluan
2
5 Perintah kata yang diberikan dibatasi untuk keperluan tone dekoder saja dengan dua perintah secara
langsung Semua kata diucapkan secara wajar dengan kecepatan normal
6 Keberhasilan penelitian ini dapat dilihat dari keberhasilan ketepatan perintah yang dihasilkan oleh sistem
dengan perintah yang diberikan
7 Jaringan komunikasi masih dilaksanakan untuk local area dari PC ke PC
14 SISTEMATIKA PEMBAHASAN
Sistematika pembahasan penelitian ini sebagai berikut
BAB I PENDAHULUAN
Pada bab ini akan diuraikan tentang latar belakang tujuan batasan masalah dan sistematika
pembahasan masalah yang digunakan
BAB II TEORI DASAR
Pada bab ini akan diuraikan tentang landasan-landasan teori yang digunakan
BAB III PERENCANAAN DAN PELAKSANAAN
Pada bab ini akan diuraikan tentang tahap-tahap perencanaan dan proses pembuatan keseluruhan sistem
yang mendukung untuk membangun sistem pengenalan wicara untuk sistem pengendalian dan monitoring
peralatan rumah tangga jarak jauh
BAB IV PENGUJIAN DAN ANALISIS
Pada bab ini akan dijelaskan tentang hasil pengujian sistem yang telah dibangun baik secara perbagian
ataupun keseluruhan serta analisis terhadap hasil pengujian sistem untuk mengetahui apakah sistem yang
dibangun sesuai dengan yang diharapkan
BAB V KESIMPULAN DAN SARAN
Pada bab ini berisi kesimpulan dari pembahasan pada perencanaan serta analisa pengujian yang
diperolehUntuk lebih baiknya sistem yang dibangun maka disertakan pula saran-saran untuk perbaikan dan
penyempurnaan
Bab 2 Teori Penunjang
3
BAB 2
TEORI PENUNJANG
21 Sistem Pengolahan Sinyal Wicara
211 Sinyal Suara Manusia
Manusia menggunakan suara sebagai sumber informasi untuk mengkomunikasikan keinginan ide dan
perasaannya kepada orang lain Organ tubuh manusia yang digunakan dalam proses produksi wicara adalah
paru-paru tenggorokan(trachea) laring faring rongga hidung(nasal cavity) dan rongga mulut(oral cavity)
Pembangkitan sinyal wicara terletak pada bentuk lintasan vokalnya(vocal tract) Lintasan vokal tersebut terdiri
atas di bawah katup tenggorokan (laryngeal pharynx) antara langit-langit lunak katup tenggorokan (oral
pharynx ) di atas velum dan di ujung depan rongga hidung (nasal pharynx) dan rongga hidung (nasal cavity)1
seperti ditunjukkan gambar 21
Gambar 21 Skema diagram organ penghasil sinyal
Wicara2
Model generator wicara atau model sintesa suara yang dipakai dan menjadi dasar dari pemrosesan
sinyal wicara hingga dewasa ini adalah apa yang dinamakan Analog Terminal seperti pada gambar 22
1 Dewantara Bima Sena Bayu Aplikasi Pengenalan Wicara Untuk Perintah Nirkabel Robot Mikro Mouse TA PENS ITS 2004 hal 5 2 Dutono Titon Penataran Kebahasaan Tahap I Fonetik dan Fonologi Pengolahan Sinyal Wicara Digital 20 Februari 2001
Bab 2 Teori Penunjang
4
Gambar 22 Struktur umum model generator wicara3
Pada model ini sinyal eksitasi(glotal wave) yang berasal dari getaran pita suara diumpankan ke suatu
filter yang merupakan suatu model pendekatan dari lintasan vokal (vocal tract) untuk menghasilkan sinyal
wicara Model analog terminal ini disebut juga pensintesa formant Dasar pendekatan model ini adalah bahwa
lintasan suara adalah suatu bumbung akustik (acoustical cavity) yang mempunyai karakteristik berdasarkan
perpaduan beberapa frekuensi resonansinya Dengan demikian fungsi transfernya dapat didekati dengan
pendekatan kombinasi riam (cascade combination) dari beberapa rangkaian resonansinya Dengan analogi yang
sama sistem ini dapat dibangun dari beberapa rangkaian resonansi yang mempunyai parameter lebar bidang dan
frekuensi resonansi yang selalu berubah setiap saat membentuk suatu sistem berubah waktu (time variant
system)
Struktur sistem pengenal wicara yang ada dapat dibagi menjadi 2 yaitu
1) Mempergunakan pola standart dengan unit kata
Gambar 23 Pola standart dengan unit kata4
2) mempergunakan pola standart dengan unit fonem
yang dilengkapi dengan kamus kosa kata
3 Ibid 4 Ibid
Ekstraksi ciri
Pola standar kata
Pemadanan kata
Algoritma keputusan
Sinyal wicara Output teks
Bab 2 Teori Penunjang
5
Gambar 24 Pola standart dengan unit fonem5
Pada sistem pertama mampu mencakup fenomena koartikulasi tapi tidak fleksibel terhadap perubahan
kosa kata
Sinyal wicara adalah sinyal yang dihasilkan oleh suara manusia dan biasanya mempunyai frekuensi
kerja antara 0 sampai dengan 5000 Hz Bentuk gelombang sinyal wicara mempunyai bentuk yang unik seperti
gambar 23
Gambar 25 a)Sinyal wicara untuk bunyi a pada satu frame pada wanita
b)Sinyal wicara untuk bunyi a pada satu frame pada pria
Berdasarkan gambar 25 terlihat bahwa setiap satu frame terdapat 120 sample yang bersifat quasi
periodik dan mempunyai unsur bunyi terkecil yang disebut sebagai pitch Panjang pitch berkisar 10 ms Pitch
manusia berbeda satu sama lain terutama jenis kelamin laki-laki dan perempuan
212 Sampling
Sinyal wicara merupakan sinyal yang tidak terbatas dalam domain waktu (finite time interval) Suara
manusia akan menghasilkan sinyal analog yang terus kontinyu Untuk keperluan pemrosesan dalam transformasi
fourier maka sinyal wicara harus dibentuk dalam potongan-potongan waktu yang terbatas (infinite time interval)
Karena itu sinyal yang ada dipotong-potong dalam slot-slot interval waktu tertentu
Berdasarkan pada teori sampling Niquist maka syarat dari frekuensi sampling adalah minimal dua kali
frekuensi sinyal
Fsampling 2 x Fsignal ( 21)
Ekstraksi ciri
Pola standar fonem
Pemadanan fonem
Kamus kosa kata
Pemadanan kata
Algoritma keputusan
Sinyal wicara
-20000
-15000
-10000
-5000
0
5000
10000
15000
0 20 40 60 80 100 120 140
pitch -10000
-8000
-6000
-4000
-2000
0
2000
4000
6000
8000
0 20 40 60 80 100 120 140
pitch
Output teks
Bab 2 Teori Penunjang
6
Contoh dari sampling seperti bisa kita lihat pada gambar di bawah
Gambar 26 Contoh proses sampling dengan nilai frekuensi pencuplikan yang berbeda
6
Frekuensi sampling yang digunakan adalah 12000 Hz
Dimana dalam 1 detik sinyal terdapat 12000 titik sampling
213 Preemphasis
Proses preemphasis dimaksudkan agar spektrum sinyal merata di semua frekuensi serta mencegah
kehilangan informasi akibat proses pembulatan pada saat komputasi Fungsi preemphasis adalah
H (z) = 1 ndash az-1 09 le a le 1 (22)
dimana nilai a berkisar 095 Berdasarkan model filter di atas maka keluaran dari preemphasis adalah
s (n) = s (n) - as (n-1) ( 23)
Penjabarannya sebagai berikut
5 Ibid 6 Ibid
Fi = 1000 Hz
Fs = 1250 Hz
Fs = 1000 Hz
Fs = 4000 Hz
Fs = 8000 Hz
Fs 2Fi
Kriteria Nyquis
Fi Frekuensi sinyal informasi Fs Frekuensi pencuplikan
H X Y
T 1 = 12000 = 833 x 10-5 s = 833 μs
10 ms = 833μs x N sample N = 120 sample
Bab 2 Teori Penunjang
7
y = H x
y = (1-az-1) xn
y = xn - 095 xn z-1
y = xn ndash 095 xn - 1
214 Frame Blocking
Sinyal wicara yang telah dipreemphasis s (n) diblok dalam M sampel dimana N 2 x M seperti yang
ditunjukkan pada gambar 27 Jika M le N pergeseran frame akan mengalami overlape hasil perkiraan LPC
spectral akan dikorelasikan dari frame 1 ke frame berikutnya Jika M laquo N perkiraan LPC spectral dari satu frame
ke frame lainnya akan sangat halus (smooth) Dan bila M gt N maka tidak akan ada overlape diantara frame yang
berbatasan dan sinyal suara akan hilang sama sekali dan korelasi diantara perkiraan spectral LPC dari frame
yang berbatasan akan berisi komponen noise
Gambar 27 Pergeseran Frame pada Sinyal Suara
dengan M = 13 N
Sehingga didapatkan nilai dari sinyal yang baru adalah sebagai berikut
x1(n) =s(M 1+n) n =012hellipN ndash 1 l = 012hellipLndash1 (24 )
215 Windowing
Merupakan proses membatasi lebar sinyal yang akan dianalisa yang dapat mengurangi efek
diskontinyuitas pada ujung-ujung frame yang dihasilkan oleh potongan-potongan sinyal Korelasi antara lebar
window dalam domain waktu dan amplitude berguna untuk menyederhanakan sinyal dengan mengurangi
puncak sinyalnya
Ada beberapa jenis windowing yang dinamakan sesuai dengan nama penemunya yaitu
Bab 2 Teori Penunjang
8
Window Hamming
052-046 cos[2лn(N-1)] 0 le n le N-1
Wham(n) =
0 elsewhere
Window Hanning
1-cos[2лn(N-1)] 2 0 le n le N-1
Whan(n) =
0 elsewhere
Window Bartlett
1-cos[2лn(N-1)] 2 0 le n le (N-1)2
WB(n) = 2-2n(N-1) (N-1)2lenleN-1
0 elsewhere
Window Blackman
042-05cos[2лn(N-1)]+008cos[4лn(N-1)]0lenleN-1
WBl(n) =
0 elsewhere
216 Fourier Transform
Transformasi Fourier Diskrit (DFT) adalah deretan yang terdefinisi pada kawasan frekuensi ndash diskrit
yang merepresentaskan Transformasi Fourier terhadap suatu deretan terhingga (Finite Duration Sequence) DFT
berperan penting untuk implementasi algoritma suatu varitas pengolah sinyal karena efisien untuk komputasi
berbagai aplikasi
Salah satu contoh aplikasi komputasi DFT dalam algoritma yang efisien yaitu Fast Fourier Transform
(FFT) Efisiensi suatu algoritma ditentukan dari sejauh mana dapat mereduksi jumlah perkalian dan
penjumlahan serta reduksi lalu lintas data pada memori komputer sehingga proses lebih cepat
Pada DFT untuk memproses N buah titik diperlukan (N-1)perkalian kompleks dan N(N-1)
penjumlahan kompleks Bila N cukup besar dibutuhkan memori yang besar dan waktu yang cukup lama Untuk
itu digunakan metode lain yang lebih cepat yaitu metode transformasi fourier cepat (FFT) FFT dilakukan
dengan membagi N buah titik pada transformasi fourier diskrit menjadi 2 masing-masing N2 titik trnsformasi
Pemecahan menjadi dua pada proses transformasi fourier cepat disebut sebagai proses rekombinasi Dua buah
N2 titik transformasi mempunyai 2(N2) = N2 perkalian Proses memecah menjadi dua ini diteruskan dengan
membagi setiap (N2) titik transformasi menjadi dua buah (N4) titik transformasi setiap (N4) menjadi dua buah
Bab 2 Teori Penunjang
9
(N8) titik transformasi dan seterusnya hingga diperoleh junlah titik yang minimum Jika besarnya N merupakan
kelipatan pangkat dari 2 (disebut radiks 2) maka jumlah titik minimum setelah setiap kali dibagi 2 adalah dua
Ada dua macam metode FFT metode Decimation in Time (DIT) dan metode Dicimation in Frekuensi
(DIF) Kedua metode ini hamper sama Pada metode FFT-DIT N buah titik transformasi dibagi 2 menjadi fungsi
ganjil dan genap masing-masing mempunyai N2 titik transformasi Sedang pada metode FFT-DIF N buah titk
transformasi dibagi menjadi fungsi N2 titk yang pertama dan fungsi N2 titik yang kedua
Operasi pada metode FFT-DIT disebut juga metode kupu-kupu Untuk N buah titik transformasi h(n)
algoritma radiks 2 memerlukan proses perkalian dan rekombinasi sebanyak N2 log N transformasi fourier
diskrit Pada metode FFT-DIT operasi dekomposisi dilakukan dengan membagi fungsi h(n) menjadi 2 bagian
fungsi ganjil dan fungsi genap Atau dengan pernyataan matematika h1(n) dan h2(n) yang masing-masing adalah
untuk n genap dan n ganjil
Prinsip FFT dengan metode DIT adalah seperti pada gambar 24 berikut ini
Gambar 28 Blok metode FFT-DIT 8 titik
7
Pada gambar di atas merupakan jumlah perkalian kompleks N2 log N juga jumlah penjumlahan
kompleks = N2 log N
217 Linear Prediction Code
Ide dasar dari LPC adalah bahwa pada model ini memberikan sampel suara pada domain waktu yang
bisa didekati sebagai kombinasi linear dari sampel suara yang telah lalu
Teori Linear Prediction Coding (LPC) yang diaplikasikan pada wicara telah dimengerti selama
beberapa tahun Pada bagian ini akan dijelaskan dasar dari bagaimana LPC diaplikasikan pada sistem pengenlan
wicara
Sebelum menjelaskan LPC secara umum sebagai pemrose front-end untuk pengenalan wicara perlu
diketahui alasan mengapa LPC sangat banyak digunakan yaitu
1 LPC menyuguhkan model yang bagus untuk sinyal wicara
2 Cara yang digunakan LPC untuk analisa sinyal wicara sangat beralasan untuk pemisahan track dari
sumber vocal
3 LPC adalah model traktabel secara analitis
Bab 2 Teori Penunjang
10
4 Model LPC bekerja dengan baik pada aplikasi pengenalan
2171 Autocorrelation Analysis
Masing-masing frame sinyal yang telah diwindow kemudian di-autokorelasikan dengan menggunakan
persamaan
N-1-M
r1(m) = sum x1(n) x1(n+m) m = 0 1 p ( 25) (25)
n = 0
dimana nilai autokorelasi tertinggi p adalah orde dari analisi LPC Pada umumnya nilai dari p yang
sering digunakan adalah dari 8 sampai 16 Sisi menguntungkan dari analisis autokorelasi adalah bahwa
autokorelasi ke-0 R1 (0) adalah energi dari frame ke-1 Energi dari frame merupakan parameter
penting untuk system deteksi wicara
2172 LPC Analysis
Langkah selanjutnya adalah analisis LPC dimana mengkonversi masing-masing frame dari
auto korelasi p+1 ke dalam sebuah ldquoLPC Parameter Setrdquo dimana kumpulan itu merupakan koefisien
LPC koefisien refleksi atau PARCOR koefisien log area ratio koefisien Cepstral atau beberapa
transformasi pada kumpulan tersebut
Metode yang formal untuk mengkonversi dari koefisien autokorelasi ke sebuah LPC parameter
set (untuk metode autokorelasi) dikenal sebagai Metode Durbin dan secara formal dapat ditunjukkan
pada algoritma berikut ini
E(0) = r(0) ( 26)
Ki=r(i)-sumαj(i-1) r(|i-j|)E(i-1) 1 le I le p ( 27)
αi(i) = ki (28)
αj(i) = αj
(i-1)-ki α(i-1) ( 29)
t-j
E(i)=(1-ki2)E (i-j) (210)
dimana penyajian akhir dari persamaan mengabaikan i=1 Kumpulan dari persamaan hellipdiselesaikan secara
rekursif untuk i=12hellipp dan penyelesaian akhir diberikan sebagai
am=koefisien PC=αm 1lemlep ( 211)
7 Agus Wahyudi Verifikasi Sinyal Suara Sebagai Kendali Arah TA PENS-ITS 2002
Bab 2 Teori Penunjang
11
km=koefisien PARCOR ( 212)
1 - km
gm=koefisien log area ratio = log ----------- ( 213)
1 + km
2173 LPC Parameter Corversion to Cepstral Coefficients
Sekumpulan parameter LPC yang sangat penting yang dapat diturunkan langsung dari kumpulan LPC
adalah koefisien cepstral LPC c(m) Rekursif yang digunakan adalah
co = ln σ2 ( 214)
m-1
cm = am + sum ck am-k 1 le m le p ( 215)
k = 1
m-1
cm = sum ck am-k m gt p
k = 1
dimana σ2 adalah penguatan dalam model LPC Koefisien cepstral koefisien yang direpresentasikan dengan
fourier transform dengan spectrum besaran log telah ditampilkan menjadi kumpulan fitur untuk pengenalan
wicara yang lebih handal terpercaya daripada koefisien LPC koefisien PARCOR atau koefisien log area ratio
218 Dynamic Time Wraping
Dynamic Time Wraping (DTW) merupakan cara untuk membandingkan pola wicara dalam menentukan
kesamaan jarak antara pola-pola yang berbeda Dimana pengenalan wicara merupakan proses secara otomatis
dalam mengambil dan menentukan informasi linguistic yang disampaikan dengan gelombang wicara
menggunakan komputer atau sirkuit elektronik Informasi linguistic tersebut pada akhirnya akan
direpresentasikan dengan deretan waktu vektor-vektor spektral
Metode nolmalisasi waktu menggunakan dua buah fungsi warping
ix = Фx (k) k = 123hellipT (216)
iy = Фy (k) k = 123hellipT
2181 Dynamic Programming
Dynamic Programming (DP) digunakan untuk memecahkan masalah deteksi pengurutan kemampuan
menggunakan pola pengenalan wicara dan masalah waktu penjajaran dan normalisasi Ada dua tipe masalah
penggunaan Dynamic Programming yaitu
(
)
k m
( )
K m ( )
Bab 2 Teori Penunjang
12
1 Masalah jalan optimal dengan menganggap sekumpulan titik mulai dari 1 sampai dengan N yang
dihubungkan dengan pasangan setiap dari titik (ij) Representasi perpindahan secara langsung dari titik
ke-1 ke titik yang lainnya Rentetan perpindahan tersebut tidak mempunyai bilangan yang ditetapkan
dari transisi satu titik ke titik yang lainnya hal ini disebut rentetan keputusan asinkron
Dengan Terminologi sederhana kita membuat garis keputusan untuk menetukan titk berikutnya setelah
kebijaksanaan pada titik i
Prinsip dari optimalisasi yang merupakan kelas dasar dari algoritma komputasi untuk optimasi masalah
di atas berdasarkan pernyataan Bellman
rdquoKebijakan optimasi yang memiliki sifat apapun ketetapan dan ketentuannya keputusan berikutnya
harus merupakan hasil ketetapan dari keputusan yang pertamardquo
2 Masalah keputusan rentetan sinkronisasi terdapat perbedaan dari satu sinkronisasi yang beraturan dari
proses keputusan
Penggunaan teknik Dynamic Programming pada Dynamic Time Warping untuk pertama kali dilakukan
oleh Slutsker (1968) Vintsyuk (1968) dan Volichko (1971) dari Jepang untuk pengenalan wicara Pada proses
ini pembicara mengucapkan kata yang sama dengan durasi berubah setiap waktu dengan ekspansi yang non
linier Oleh karena itu Dynamic Time Wraping adalah tahap yang penting dalam proses pengenalan kata Proses
DTW mengalami pengembangan pada sumbu waktu untuk mencocokan posisi phonemkata yang sama antara
input wicara dan referensi template
Dynamic Programing secara umum digunakan untuk memecahkan masalah rentetan keputusan yang
dilakukan pada bidang kisi sebagaimana ditampilkan pada gambar 27 Sinyal yang dicocokkan adalah A dan B
Di dalam bidang kisi sinyal A disesuaikan sepanjang sumbu ndashx dan sinyal B disesuaikan sepanjang sumbu ndashy
Setiap antar bagian pada bagian ini ditetapkan sebagai sebuah simpul atau titik dimana titik (ij) adalah
pencocokan frame I untuk sinyal A dengan frame j untuk sinyal B Misalnya diasumsikan dua rentetan waktu
untuk vektor utama yang dibandingkan sebagai berikut
A = a1a2hellipaI dan B = b1b2hellipbJ
Dengan menganggap rentang bidang antara A dan B sebagaimana ditunjukkan pada gambar 27
fungsi pelengkungan waktu yang sesuai menunjukkan waktu antara rentetan A dan B dapat dipresentasikan
sebagai rentetan titk-titik Lattice pada bidang c = (ij) sebagai berikut
Bab 2 Teori Penunjang
13
Gambar 29 Plane jaringan untuk ilustrasi
pemrograman dinamik8
Bilamana jarak spektral antara dua vektor utama a1 dan b1 direpresentasikan oleh d(c) = d(ij) penjumlahan
jarak dari awal sampai akhir dari rentetan sepanjang F dapat direpresentasikan dengan
K
sum d(ck)wk
k=1
D(F) = mdashmdashmdashmdashmdash (217)
K
sum wk
k=1
Semakin kecil nilai ini semakin baik kecocokan antara A dan B Dimana wk adalah fungsi pembobotan
positif terhadap F
Dengan memperkecil persamaan di atas dengan kondisi berikut
1 Kondisi monotonisasi dan kontinuitas
0 le ik-ik-1le1 0 lejk ndash jk -1 le 1 ( 218)
2 Kondisi perbatasan
I1=j1=Iik=Ijk=I (219)
3 Kondisi adjustmen window
|ik ndash jk|ler r=konstan ( 220)
Pendefinisian wk sedemikian rupa sehingga menyebut pada persamaan 219 menjadi konstan yang
tidak tergantung pada F Untuk contoh jika
Wk = (ik ndash ik -1)+(jk ndash jk -1)(i0=j0=0) wk akan menjadi
8 Ibid hal 15
Bab 2 Teori Penunjang
14
K
sum wk = I + J (221) k=1
dan persamaan 219 menjadi
1 K
D(F)= mdashmdash sum d(ck)wk ( 222)
I + J k=1
Gambar 210 DTW antara dua rentetan waktu A dan B
9
Karena fungsi obyektif yang akan diminimasi menjadi penjumlahan maka peminimisasi secara efisien
dapat diselesaikan tanpa harus menguji semua kemungkinan untuk F Penjumlahan pada sebagian rentetan c1
c2 hellip ck (ck=(ij)) adalah
(224)
Penurunan pemrograman dinamik pada persamaan-persamaan diatas penggunaan kondisi untuk F dan
formulasi perumusan wk persamaan 2115 dapat dituliskan kembali sebagai berikut
9 Ibid hal 17
Bab 2 Teori Penunjang
15
g(ij-1)+d(ij)
g(ij) = min g(i-1j-1) + 2d (ij) (225)
g(i-1j) +d(ij)
Oleh karena itu jarak antara dua rentetan waktu A dan B setelah DTW dapat diperoleh sebagai berikut
Kita set dari kondisi awal untuk g(11)=2d(11) dan j=1 dan hitung persamaan 2116 dengan variasi I dalam
sepanjang adjustment window Perhitungan ini diulangi dengan menaikkan j sampai j=1 Jarak keseluruhan
antara dua rentetan waktu A dan B dapat diperoleh dari g(IJ)(I+J)
2182 Batasan Normalisasi Waktu
Supaya proses normalisasi waktu mempunyai arti pada perbedaan batasan dengan berbagai variasi
interval waktu dibutuhkan beberapa batasan terhadap fungsi warping
2183 Batasan Titik Awal Akhir
Bilamana pola wicara yang dibandingkan merupakan tuturan per kata maka harus memenuhi syarat pola
mulai dari titik awal sampai titik akhir dari tanda permulaan dan pengakhiran pola wicara Titik awal dan akhir
mempunyi batasan yang membatasi pola wicara harus dipenuhi
Titik awal Фx(1) = 1 Фy(1) = 1 (226)
Titik akhir Фx(T) = Tx Фy(T) = Ty (227)
2184 Kondisi Monotonisasi
Rentetan pola spectral pada wicara sangat penting dalam menentukan arti linguistic sehingga tidak
akan hilang Untuk mempertahankan pola tersebut harus memenuhi
Фx(k + 1) ge Фx(k) (228)
Фy(k + 1) ge Фy(k)
22 Awal dan Akhir Sinyal Suara
221 Power
Sinyal suara yang diolah haruslah merupakan sinyal suara murni dan tidak bercampur dengan noise
ataupun header tail yang dibawa oleh suara saat perekaman apalagi jika pengenalan sinyal suara dengan jumlah
vocabulary yang besar Oleh karena itu sinyal suara hasil perekaman harus dicari nilai awal dan akhirnya agar
pengolahan sinyal suara tersebut menjadi lebih valid
Dan salah satu cara dalam menentukan nilai awal dan akhir dari sinyal suara adalah dengan
menggunakan power yang mempunyai persamaan sebagai berikut
( )
Bab 2 Teori Penunjang
16
239
p= sumradic xt2 (229)
t=0
Sinyal suara yang dibagi menjadi beberapa frame mempunyai power dari tiap framenya yang kemudian
didapatkan nilai rata-ratanya yang kemudian diperoleh nilai awal dan akhirnya dengan menambahkan 3 kali
standart deviasi Dimana penentuan awal dan akhir dari sinyal suara dapat diperoleh dengan
p ge p + 07 standart deviasi
Power
0
20000
40000
60000
80000
100000
120000
140000
160000
0 10 20 30 40 50 60
Jumlah Frame
Am
pli
tud
o
Gambar 211 Bentuk power dari kata
Nilai beberapa kali hasil percobaan
222 Unvoiced Plosive
Pada suatu sinyal suara yang terekam terdapat pemutusan sinyal atau kondisi kosong yang bukan
merupakan noise tetapi masih didalam lingkup suara Tapi kondisi ini hanya terjadi pada kebanyakan sinyal
suara yang terdapat konsonan tertentu yaitu sinyal suara dari kata yang mempunyai konsonan p t k Kondisi ini
disebut Unvoiced Plosive atau loncatan sinyal suara setelah kondisi kosong seperti ditunjukkan pada gambar
berikut
Gambar 212 Unvoiced Plosive
Bab 2 Teori Penunjang
17
Dan untuk penentuan awal dan akhir daerah kosong tersebut harus diperhitungkan agar didapatkan
nilai awal dan akhir dari sinyal suara yang valid yaitu dengan mencari nilai rata-rata dari daerah kosong dari
beberapa sinyal suara Kemudian dengan dicari nilai thresholdnya yaitu nilai terpanjang dari daerah kosong
sebesar 2 dari seluruh daerah kosong yang telah dihistogram
23 JARINGAN DENGAN TCPIP
Meskipun hubungan computer melalui serial dan parallel telah ada sejak lama multijaringan belum
menjadi masalah serius bagi para peneliti di bidang jaringan sampai awal tahun 1980 Perkembangan teknologi
LAN itu sendiri didasarkan banyak alasan Salah satu yang menjadi alasan utama adalah adanya perusahaan
yang ingin melakukan sharing data file printer dan resource lainnya ke pc lain
231 Mengenal TCPIP
Sebelumnya kita definisikan lebih dahulu apa yang dimaksud protocol itu Bila dua computer ingin
melakukan komunikasi keduanya tentu saja harus menggunkan bahasaturan yang sama Aturan-aturan inilah
yang disebut protocol Misalnya untuk mengirim mail digunakan protocol SMTP berhubungan dengan WWW
menggunakan HTTP dan sebagainya Jadi protocol merupakan aturan dalam melakukan komunikasi
TCPIP ( Transmission Control Protocol Internet Protocol) merupakan protocol yang bersifat open
networking Maksudnya semua penjelasan teknis tentang protocol tersebut diumumkan karena ada juga
mekanisme jaringan yang menyembunyikan detail dari sistemnya Hal inilah yang membuat TCPIP menjadi
terkenal
Adapun keuntungan dengan menggunakan protocol TCPIP adalah kemudahannya karena
memungkinkan hubungan antara berbagai system operasi dan berbagai jenis computer (platform)
TCPIP bukanlah protocol tunggal tetapi merupakan sekumpulan protocol sehingga lebih tepat disebut
sebagai keluarga TCPIP Setiap protocol pada TCPIP memiliki tugas tertentu yang berbeda Semua protocol
tersebut menggunakan protocol primer untuk mengirimkan paket data Protocol primer tersebut adalah TCP dan
IP
Protokol lainnya dapat dikelompokkan berdasarkan tujuannya sebagai berikut
1 Transport
Digunakan untuk mengatur perpindahan data antara dua mesin Antara lain
- TCP (Transmission Control Protocol)
- UDP (User Datagram Protocol)
2 Routing
Digunakan untuk pengalamatan data dan menentukan rute terbaik antara lain
- IP (Internet Protocol)
- ICMP (Internet Control Message Protocol)
- RIP (Routing Information Protocol)
Bab 2 Teori Penunjang
18
3 Network Address
Menangani bagaimana suatu mesin diberikan suatu alamat antara lain
- ARP ( Address Rwesolution Protocol)
- DNS ( Domain Name Sistem)
- RARP (Reverse Address Resolution Protocol)
4 User Service
Merupakan aplikasi yang harus diakses user antara lain
- FTP ( File Transfer Protocol)
- TFTP (Trivial File Transfer Protocol)
- TELNET
5 Gateway Protocol
Untuk membentuk proses komunikasi routing dan status informasi antara lain
- EGP (Exterior Geteway Protocol)
- GGP (Gateway to Gateway Protocol)
- IGP (Interior Gateway Protocol)
232 Koneksi TCPIP
Untuk mengkonfigurasi TCPIP maka dibutuhkan
Alamat IP
Alamat IP ini sebagai pengenal atau alamat mesin Karena setiap mesin yang terhubung jaringan
harus memiliki penganal yang unik sehingga memungkinkan melakukan routing Jaringan dengan TCPIP
menggunakan pengalamatan 32 bit sebagai alamat atau pengenal setiap mesin yang terkoneksi dengan jaringan
Pengenal ini disebut alamat IP Pesan atau data yang dikirim melalui TCPIP menggunakan alamat IP ini untuk
mengenali mesin pengirim dan penerimanya
Biasanya alamat IP dapat dikelompokkan menjadi dua bagian yaitu
1 Nomor Network
2 Nomor Device dalam Network tersebut
Alamat IP tersebut dipisahkan menjadi empat bagian yang masing-masing berukuran 8 bit Empat
bagian tersebut dipisahkan oleh tanda titik dan setiap bagian tersebut memiliki angka 0-255 Contohnya
192168101
Pemberian alamta IP umumnya ditentukan berdasarkan ukuran dari jaringan tersebut Jaringan
dapat diklasifikasikan menjadi tiga kategori yaitu kelas A kelas B kelas C Ketiga kelas tersebut membagi
pengalamatan 32 bit dengan ukuran berbeda untuk nomor Network dan Host
Pengalamatan pada kelas A memungkinkan bagian ini memiliki angka dari 0-127 Sedangkan
pengalamatan B memungkinkan memiliki angka dari 128-191 pengalamatan pada kelas C memungkinkan
memiliki angka dari 192-223
Network Mask
Bab 2 Teori Penunjang
19
Network mask merupakan alamat IP dimana lamat networknya diset ke nilai 255 Jika alamat IP
termasuk kelas A maka network masknya yaitu 255000 Jika alamat IP termasuk kelas B maka network
masknya yaitu 25525500 Jika alamat IP termasuk kelas C maka network masknya yaitu 2552552550
AlamatNetwork
Alamat network ini dapat diperoleh dari alamat IP dimana bit-bitnya dilakukan operasi AND
dengan network mask Dengan demikian untuk network kelas B dengan IP 192168101 maka alamat
networknya adalah 19216800
Alamat Broadcast
Alamat broadcast dibutuhkan bila suatu mesin ingin mengirimkan paket yang sama ke semua
device pada jaringan
Alamat Gateway
Alamat gateway merupakan alamat IP dari mesin yang menghubungkan jaringan dengan jaringan
di luar misalnya internet Pada umumnya alamatgateway memiliki IP yang sama dengan mesin yang kita miliki
tetapi mempunyai nomor device 1 Dengan demikian untuk network kelas B dengan alamt IP 192168101
alamat gatewaynya adalah 19216811
Alamat Nameserver
Jaringan-jaringan besar umumnya memiliki sebuah mesin untuk mentranslasikan alamat IP menjadi
nama yang lebih mudah dikenal manusia Misalkan sebuah mesin dengan IP 192168101 dapat diberi nama lain
seperti puspacsuiacid sebagai alamatnya Proses translasi ini dilakukan dengan system yang dikenal dengan
nama Domain Name System (DNS)
24 BEKERJA DENGAN SOCKET
Komponen socket program yang dapat membantu dalam pembuatan suatu aplikasi yang berkomunikasi
antara suatu system computer dengan system computer yang lain dengan menggunakan protocol TCPIP dan
protocol lain yang terhubung
241 Pengertian Socket Program
Pada sub bab ini akan dijelaskan tentang komoponen socket program yang dapat berkomunikasi antara
system computer dengan system computer yang lain dengan menggunakan protocol TCPIP dan protocol lain
yang terhubung Dengan socket program ini kita dapat membaca dan menulis pada hubungan ke mesin yang lain
tanpa mengalami kesulitan pada software jaringan Socket program dapat mengadakan hubungan berbasis
protocol TCPIP tetapi dapat juga bekerja umunya dengan protokol-protokol yang terhubung seperti Xerox
Network System (XNS) dan yang lain
Bab 2 Teori Penunjang
20
242 Penjabaran Socket
Socket mengijinkan aplikasi jaringan kita berkomunikasi dengan sistem lain di luar jaringan
Masing- masing socket bisadipandang sebagai titik akhir dalam suatu koneksi jaringan Socket tersebut memiliki
spesifikasi sebagai berikut
a) Sistem yang sedang dijalankan
b) Tipe interface port yang digunakan
Penjelasan lengkap dari sebuah koneksi socket terdiri dari address socket pada kedua titik akhir
koneksi Kita akan menguraikan address dari masing- masing titik akhir socket dengan memberi nomor IP
address atau host dan port
Sebelum membuat koneksi socket sebelumnya harus menguraikan dengan lengkap socket-socket
yang membentuk titik akhir Beberapa informasi tersedia dari sistem aplikasi yang dijalankan Sebagai contoh
kita tidaka akan membutuhkan IP Address Local dari socket client sebab informasi ini terdapat pada sistem
operasi
Informasi yang akan kita berikan bergantung pada tipe socket yang sedang bekerja Socket client
harus menggambarkan port yang merepresentasikan layanan yang mereka berikan
243 Memilih Host Name dan IP Address
Kebanyakan aplikasi menggunakan host name untuk merinci sebuah system Host Name mudah
untuk diingat dan dicek Menggunakan host name memungkinkan socket client untuk menemukan situs abstrak
yang diwakili oleh nama host meskipun telah dipindah ke IP Address yang baru Jika nama host tidak diketahui
socket client akan akan menyatakan system server sedang menggunakan IP Addressnya Ketika kita
menyediakan host name socket akan mencari IP Address yang berhubungan dengan host name sebelum socket
tersebut dapat menempatkan pada sistem server
Bab 3 Perencanaan dan Implementasi
21
BAB 3
PERENCANAAN DAN IMPLEMENTASI
31 Pendahuluan
Pada bab ini akan dijelaskan mengenai pengolahan sinyal wicara untuk mendapatkan ciri setiap
individu Juga akan dibahas mengenai pengolahan hasil keluaran sinyal wicara untuk ditransmisikan ke PC lain
(lewat jaringan) Dan selanjutnya akan dibahas pula mengenai plan atau obyek yang dalam hal ini adalah lampu
pijar
Berikut ini adalah blok diagram sistem secara keseluruhan
Gambar 31 Blok Diagram Sistem Secara Keseluruhan
Speaker pada gambar 31 memberikan suaranya sebagai masukan lewat mikrofon Masukan ini
akan diolah dalam PC client mulai dari proses sampling frame windowing FFT LPC Kemudian hasil dari
LPC dicari pemadanan dengan LPC dari sinyal standar yang telah tersimpan sebagai data base di dalam PC
client Hasil dari DTW tersebut akan dikirimkan ke PC server melalui TCPIP untuk diproses menjadi suatu
perintah ke perangkat keras Perintah tersebut merupakan bentuk implementasi dari perintah yang diberikan dari
PC client
Sebaliknya dengan adanya perubahan kondisi pada peralatan yang diinginkan maka terjadi sinyal
balikan yang berupa sinyal DTMF yang dikirimkan oleh perangkat keras ke PC server Oleh PC server sinyal ini
diolah untuk dikenali sebagai suatu kondisi tertentu yang akan dikirimkan ke PC client sebagai laporan tentang
kondisi alat yang diinginkan
32 Sistem Pengolahan Sinyal Wicara
321Perekaman Suara
TCPIP
Pengucap Speaker ADC Pengolahan Wicara dan Monitoring
Peralatan yang terkontrol
LAN Card
LAN Card
Pengenalan Pola Pengiriman Tone DTMF dan Pengenalan DTMF Sebagai Laporan
DTMF Decoding DTMF Generator Sistem Switching
Alat Terkontrol
Bab 3 Perencanaan dan Implementasi
22
Perekaman suara dilakukan menggunakan software berbasis TclTk 830 dan Snack22 Sebelumnya
akan dijelaskan satu per satu program yang dipakai
o TclTk 830
Tcl kepanjangan dari Tool Control Language Tk adalah Graphical Toolkit extension dari Tcl yang
menyediakan bermacam-macam item standar antarmuka GUI untuk memfasilitasi secara cepat pengembangan
aplikasi tingkat tinggi
o Snack22
Snack adalah tool pengolahan suara yang didesain sebagai extensi untuk bahasa script Saat ini Snack bekerja
dengan bahasa script TclTk Phyton dan Ruby Snack memiliki perintah-perintah untuk play record process
dan dan memvisualisasi suara Snack menyediakan obyek suara tingkat tinggi dengan manajemen penyimpanan
yang fleksibel dan streaming support Snack dapat bekerja pada banyak format file suara
Kita dapat membangun aplikasi sepaerti di bawah ini dengan integrasi dari TclTk dan Snack
Gambar 32 Program aplikasi pengenalan wicara
Frekuensi sampling pada program di atas diset pada frekuensi 12 kHz Frekuensi ini dipilih karena biasa
digunakan untuk voice Selain itu juga diset pada channel Mono dan sinyal encoding LIN 16 (resolusi 16 bit
PCM) Pada penekanan tombol ldquorecordrdquo diikuti tombol ldquostoprdquo dan kemudian tombol ldquostandartrdquo maka akan
dimulai proses perekaman yanag akan digunakan untuk membuat file standar untuk kedelapan perintah yang
akan digunakan untuk pembanding sinyal masukan
Adapun proses untuk sistem yang akan dibuat dapat digambarkan dengan diagram alir seperti di bawah
Bab 3 Perencanaan dan Implementasi
23
Mulai
Package Require
Snack 22
Exit
Program On
Running
Recording
Sound Card
Produser Running
Prosedur Recording
DTMF
Keluar
Tidak
YaTidak
Ya
Ya
Ya
Ya
Tidak
Tidak
Tidak
Gambar 33 Flowchart Sistem Graphical User
Interface
322 Sampling
Seperti telah dijelaskan di depan bahwa frekuensi sampling yang digunakan adalah sebesar 12000Hz
dimana dalam 1 detik sinyal terdapat 12000 titik sampling Sebagai contoh seperti gambar di bawah ini suatu
sinyal epanjang 20 ms disampling 12000 Hz menghasilkan titik sampling sebanyak 240 titik
Data Sampling
-20000
-15000
-10000
-5000
0
5000
10000
15000
20000
0 200 400 600
Amplitudo
Jumlah Data
Gambar 34 Sinyal hasil sampling dengan
frekuensi 12000 Hz
Bab 3 Perencanaan dan Implementasi
24
Mulai
Sinyal Masukan
Baca Panjang Sinyal
Bagi Menjadi N Frame
i = 0 i lt N i++
Ambil 240 Data Sampel
Tampilkan Nilai
Sampel
Selesai
Gambar 35 Flowchart Proses Sampling
323 Pre-emphasis
Agar spektrum sinyal merata di semua frekuensi dan mencegah kehilangan informasi akibat pembulatan
pada saat komputasi maka dilakukan prose preemphasis Fungsi transfer preemphasis adalah
H(z) = 1 ndash a z-1 09 le a le 1 (31)
Dimana nilai a berkisar 095 Berdasarkan model filter di atas maka keluaran dari preemphasis adalah
s(n) = s(n) ndash a s(n-1) (32)
324 Frame Blocking
Hasil perekaman merupakan sinyal dalam domain waktu yang bersifat variant time (fungsi yang
bergantung pada waktu) Sinyal yang telah dipreemphasis kemudian dibagi menjadi n buah frame Dengan
jumlah sample per frame sebesar N dan adjacent frame sebesar M sample Dimana M=05N Pada frame
pertama terdiri dari N buah sampel Frame kedua dimulai pada sampel ke M sehingga terjadi overlape sebesar
N - M sampel Begitupula untuk frame yang ketiga dimulai dari sample ke 2M sehingga terjadi overlape dari
farme kedua sebesar N + M-2M sampel juga Hal ini akan terus berlangsung hingga seluruh sinyal terbagi
menjadi beberapa frame
Bab 3 Perencanaan dan Implementasi
25
Gambar 36 Frame blocking sinyal
325 Windowing
Windowing yang digunakan adalah window hamming Setelah proses pengambilan sample maka
langkah selanjutnya adalah proses selanjutnya adalah proses windowing yang berfungsi untuk mengurangi efek
diskontinyuitas pada ujung-ujung frame Persamaannya adalah sebagai berikut
y[i] = x[i](054-046cos(20314159265(i-1)240) (33)
Flowchartnya bisa dilihat seperti di bawah
Mulai
240 Data
Sampel
i= 0 i lt 240 i++
Hamming Window
y[i] = x[i](054-046cos(2phi(i-1)
240))
Tampilkan
nilai
Hamming
Selesai
Gambar 37 Flowchart Proses Windowing
326 Fast Fourier Transform
Transformasi fourier cepat (FFT) adalah suatu metode yang sangat efisien untuk menyelesaikan
transformasi fourier diskrit (DFT) yang banyak dipakai untuk keperluan analisa sinyal Sehingga dengan FFT
N N N M
M N
N N
M
Bab 3 Perencanaan dan Implementasi
26
sinyal yang disampling dalam domain waktu ditransformasikan ke domai frekuensi dengan menggunakan
persamaan sebagai berikut
N-1
H(k) = sum h(n)e-j2лkN (34)
n=0
dengan k= 012N-1
Prosesnya dapat dilihat dari flowchart di bawah
Mulai
240 data
sampel
256 data sampel
i=0 ilt256 i++
tmp_log1=(xr[k]xr[k]+xc[k]xc[k])
tmp_log gt 0
xr[k]=10log10(tmp_log1)
Tampilkan
nilai
hamming
Selesai
xr[k]=10log10(0000001)
Ya
Tidak
Gambar 38 Flowchart Proses Fast Fourier
Transform
327 Autocorrelation analysis
Hasil dari windowing sinyal masukan kemudian dihitung autokerelasinya dengan persamaan
N-1-m
r1(m) = sum x1(n)x1(n+m) m=01p (35)
n=0
dimana niali autokorelasi tertinggi p adalah orde dari analisis LPCPada umumnya nilai dari p yang sering
digunakan adalah dari 8 sampai 16
Proses Autokorelasi dapat dilihat dari flowchart di bawah ini
Bab 3 Perencanaan dan Implementasi
27
Mulai
240 data p lpc
orde
i=0 iltp i++
j=0 jlt240-p-1 j++
RI[j]=sum(xI[i]xI[i+j])
Tampilkan nilai
autocorrelation
Selesai
Gambar 39 Flowchart Proses Autokorelasi
328 LPC Analysis
Hasil koefisien autokorelasi kemudian dikonversikan ke sebuah LPC parameter set (untuk metode LPC
autokorelasi) dikenal sebagai Metode Durbin dan secara formal ditunjukkan dari algoritma sebagai berikut
E(0) = r(0) (36)
ki=r(i)-sumαj(i-1) r(|i-j|)E(i-1) 1 le I le p (37)
αi(i) = ki (38 )
αj(i) = αj
(i-1)-ki α(i-1) ( 39)
t-j
E(i)=(1-ki2)E (i-j) (310)
dimana penyajian akhir dari persamaan 37 mengabaikan i=1 Kumpulan dari persamaan 36 -310 diselesaikan
secara rekursif untuk i=12p
Proses analisis dapat dilihat dari flowchart di bawah
Bab 3 Perencanaan dan Implementasi
28
Mulai
Autocorrelationr
p lpc orde
E (0) = r(0)
k1
= r(i)-sumalpha j (i-1) r( | i-j|E(i-1)
alpha j (i) = k
i
alpha j
(i) = alpha (i-1) -k i alpha
i-j (i-1)
E (i) = 1-k i 2) E(i-1)
Tampilkan nilai
parameter lpca
Selesai
i=0 iltp i++
Gambar 310 Flowchart proses LPC analisis
329 LPC Parameter to Cepstrum Analysis
Sekumpulan parameter LPC yang sangat penting yang dapat diturunkan langsung dari kumpulan
koefisien LPC adalah koefisien cepstral LPC c(m) Rekursif yang digunakan adalah
co = ln σ2 ( 311)
m-1
cm = am + sum ck am-k 1 le m le p (312)
k = 1
m-1
cm = sum ck am-k m gt p ( 313)
k = 1
Proses LPC parameter ke Cepstrum Analysis dapat dilihat dari flowchart di bawah ini
k m ( )
k m ( )
Bab 3 Perencanaan dan Implementasi
29
Mulai
lpc parameter a
p lpc orde
c o = ln del 2
1 lt=mlt=p
i=0 iltp i++
Cm
= am
+sum((km)Ck a
m-kC
m =sum((km)C
ka
m-k)
Tampilkan nilai lpc
cepstrumc
Selesai
Gambar 311 Flowchart Proses LPC parameter ke
Cepstrum
3210 Dynamic Time Warping
Proses yang terjadi pada Dynamic Time Warping adalah pengukuran jarak suara antara sinyal standart
dan sinyal input Yang diukur berupa deretan nilai dari hasil LPC Cepstrum dalam bentuk kolom dan baris (ij)
yang disimpan dalam satu file Pada kolom berisi nilai tiap cepstrum sedangkan baris berupa banyaknya frame
Teknik yang digunakan dinamakan Dynamic Programming Alur kerjanya dapat dilihat dari flowchart di bawah
Bab 3 Perencanaan dan Implementasi
30
Mulai
i=0 iltN i++
j=0 jlt15 j++
Cepstrum
Standart
Std_Ceps [i][j]
Cepstrum
Input
Inp_Ceps [i][j]
DP_dist = DP_match1(r)
DP_dist
Selesai
Gambar 312 Flowchart Proses Dynamic Programming
33 Awal dan Akhir Sinyal suara
331 Power
Untuk mendapatkan suatu sinyal suara tanpa adanya noise maka sinyal harus benar-benar dipotong
tepat pada awal dan akhirnya Oleh karena itu dipakai power sebagai salah satu cara yang efektif dalam
menentukan awal dan akhir suatu sinyal suara
Dimana tiap frame mempunyai power yang merupakan hasil kuadratisasi dari penyampelan tiap frame
yang kemudian hasil keseluruhan diakarkan seperti bisa dilihat pada flowchart di bawah
Bab 3 Perencanaan dan Implementasi
31
Mulai
Power = 0
i=0 ilt240 i++
Power=Power+sqrt(xixi)
Selesai
Gambar 313 Flowchart Proses Power
Jumlah sample per frame ditetapkan sebesar 240 sampel Kemudian dicari power masing-masing antara sinyal
utuh dan sinyal noise kemudian dengan p ge p + 07 standar deviasi maka didapatkan awal dan akhir sinyal
suara
332 Unvoiced Plosive
Adanya daerah kosong menyebabkan sinyal tidak valid dalam pemotongan awal dan akhirnya karena
bisa dianggap noise padahal berada dalam sinyal suara ( merupakan bagian dari sinyal suara) Oleh karena itu
dicari mean dari 25 kata sinyal suara yang kemudian dicari nilai thresholdnya sebagai panjang akhir dari daerah
kosong Dan nilai tersebut diikutsertakan dalam looping dan jika setelah itu terdapat sinyal kembali maka
berarti masih ada sinyal suara dan jika tidak ada berarti tidak ada sinyal suara
34 Proses Pada Client
Preses pada client dapat dijelaskan sebagai berikut
Gambar 314 Blok diagram proses client
Penjelasan dari blok digram tersebut adalah
1 Pertama adalah perekaman suara pada software recording yang hasilnyadisimpan dalam bentuk file
berekstensi ldquowavrdquo File ini selanjutnya akan dijadikan file input pada sistem client
2 File suara yang telah tersimpan diolah dalam program sampling untuk mendapatkan sinyal suara dalam
bentuk frame Setiap frame terdiri dari 120 sampel
Mic Extract AD Voice Dikenali
Bab 3 Perencanaan dan Implementasi
32
3 Tiap frame diwindow dengan window Hamming untuk mengurangi efek diskontinyuitas pada ujung-
ujung frame
4 Sinyal hasil window yang masih dalam domain time diubah ke dalam domain frekuensi dengan Fast
Fourier Transform (FFT)
5 Hasil dari windowing sinyal masukan kemudian dihitung autokerelasinya
6 Hasil koefisien autokorelasi kemudian dikonversikan ke sebuah LPC parameter set (untuk metode LPC
autokorelasi) Sekumpulan parameter LPC yang sangat penting yang dapat diturunkan langsung dari
kumpulan koefisien LPC adalah koefisien cepstral LPC
7 Selanjutnya dilakukan proses DTW (Dynamic Time Warping) pengukuran jarak suara antara sinyal
standart dan sinyal input Hasilnya disimpan dalam sebuah file berekstensi ldquotxtrdquo
8 File berekstensi txt tersebut ke server sebagai sinyal suara input
35 Proses Pada Server
Proses pada server dapat dijelaskan sebagai berikut
Gambar 315 Blok diagram proses server
Penjelasan dari blok diagram tersebut adalah
1 Isi file berekstensi rdquotxtrdquo diterima oleh server dan digunakan sebagai data input untuk memanggil
database tone DTMF yang sesuai sebagai pengoperasian alat yang akan dikontrol
2 Alat yang terkontrol akan menunjukkan hasilnya
Memanggil
Database
Tone
Dikode
kan
dalam
biner
Kirim
ke HW
Kontrol
Alat
Input
server
Bab 4 Pengujian dan Analisa
33
BAB 4
PENGUJIAN DAN ANALISA
41 Pendahuluan
Untuk mengetahui tingkat keberhasilan dari suatu sistem diperlukan pengujian keseluruhan dari
perencanaan hasil sistem yang telah dibuat Dalam bab ini akan dijelaskan mengenai hal tersebut
Pengujian yang akan dilakukan adalah
1 Pengujian dan analisa sistem pengolahan sinyal wicara
2 Pengujian dan analisa sistem client server
3 Pengujian dan analisa awal dan akhir sistem pengolahan wicara
42 Pengujian dan Analisa Sistem Pengolahan Wicara
Tujuan untuk mendapatkan parameter ciri individu dari sampel sinyal yang diolah
421 Perekaman Suara
Pada Tugas Akhir ini digunakan duamacam perangkat lunak yang dibangun sendiri berbasis TclTk 830
dan Snack 22 sebagai perangkat lunak yang diuji dan perangkat lunak Wavesurver sebagai pembanding
4211 Dengan menggunakan TclTk dan Snack
Tampilan awal dari perangkat lunak yang dibangun dengan menggunakan TclTk dan Snack adalah sebagai
berikut
Gambar 41 Tampilan awal perangkat lunak menggunakan TclTk dan Snack
Bab 4 Pengujian dan Analisa
34
Pertama kali tombol record ditekan maka proses pengambilan sinyal wicara yang dimasukkan
dimulai Pada saat tombol Stop ditekan maka program akan merekam kata ldquosatu nyalardquordquosatu matirdquordquodua
nyalardquordquodua matirdquordquotiga nyalardquordquotiga matirdquordquoempat nyalardquordquoempat matirdquo sesuai yang kita masukkan dan
tampilan display akan digambarkan bentuk sinyal yang dihasilkan secara otomatis Hasil perekaman dapat
dilihat pada gambar berikut 42
Gambar 42 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan perangkat lunak
TclTk dan Snack
Gambar 42 menunjukkan bahwa proses pengambilan sinyal suara telah dilakukan Sinyal suara yang
dimasukkna akan terlihat gambarnya pada layar hitam (canvas)
4212 Dengan menggunakan Wave Surver
Sebagai pembanding dari program yang telah dibuat yaitu dari perangkat lunak TclTk dan Snack
digunakan Wavesurver
Tampilan awal dari Wavesurver 157 tampak seperti pada gambar 43
Gambar 43 Tampilan awal perangkat lunak menggunakan Wavesurver
Bab 4 Pengujian dan Analisa
35
Pada saat tombol recording ditekan maka program akan merekam kata ldquosatu nyalardquo dan pada tampilan
display akan digambarkan bentuk sinyal yang dihasilkan secara otomatis Hasil perekaman bisa dilihat pada
gambar 44
Gambar 44 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan
perangkat lunak Wavesurver
Perekaman pada Wavesurver dapat diset sesuai dengan kebutuhan Dimana pada sistem pengolahan sinyal
suara untuk perekaman suara diset sebagai berikut
Gambar 45 Kotak dialog setting perekaman perangkat lunak Wavesurver
Pada data di atas dapat dilihat bahwa suara yang direkam dengan mengguanakan perangkat lunak
Wavesurver mempunyai header dan tail yang berisi keterangan perekaman sebagai berikut
12000 menunjukkan frekuensi sampling yang digunakan
Bab 4 Pengujian dan Analisa
36
Channels menunjukkan bahwa suara direkam dengan menggunakan channel Mono
Sampel Encoding Lin 16 menunjukkan bahwa suara direkam dengan menggunakan
16 bit PCM
422 Sampling
Dengan menggunakan program yang dibangun sendiri di atas proses penyamplingan sinyal input sekaligus
telah terjadi dimana dengan frekuensi sampling sebesar 12000 Hz didapatkan sinyal dari kata ldquosatu nyalardquo
dengan potongan sebagai berikut
3306
3538
3788
4076
4282
4684
4747
4956
5083
5442
5844
5901
6244
6196
6462
6104
Berikut ini adalah cuplikan dari data sampel kata ldquo empat matirdquo mulai dari milidetik ke-13900
Bab 4 Pengujian dan Analisa
37
Data Sampling
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 46 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900
Pada gambar 46 telah dilakukan proses sampling sinyal masukan dengan frekuensi sampling sebesar 12000
Hz maka didapatkan hasil sinyal yang hampir mirip dengan sinyal analognya karena sinyal suara manusia
memiliki jarak frekuensi antara 300 sampai 5000 Hz dimana syarat Nyquist minimal fsampling 2fsinyal
telah terpenuhi
423 Windowing
Jenis window yang digunakan adalah window Hamming
Pada proses window hamming kata yang telah disampel sebanyak 240 sampel akan diwindow sehingga
menghasilkan sinyal yang lebih kecil peaknya Hasilnya adalah sebagai berikut
-26174
-22078
-12518
-1444
9690
19308
23360
20049
12365
2391
-7874
-14539
-17837
-19929
-19007
-16955
Bab 4 Pengujian dan Analisa
38
Sedangkan hasil dalam bentuk gambar dapat dilihat pada gambar berikut
Data Windowing
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 47 Hasil Windowing data sampel kata ldquoempat matirdquo milidetik ke-13900
Seperti yang ditunjukkan gambar 47 proses windowing telah dilakukan Berdasarkan gambar 47
tersebut dapat dikatakan bahwa window Hamming menyebabkan sinyal yang disampel lebih halus Gambar
47 dapat dibandingkan dengan gambar 46 yaitu gambar sinyal sebelum melalui proses windowing dapat
dilihat bahwa sinyal yang telah diwindow mempunyai sinyal yang lebih halus Hal ini membuktikan bahwa
fungsi dari windowing untuk mengurangi efek diskontinyuitas pada ujung-ujung frame adalah benar
424 Fast Fourier Transform Sinyal Masukan
Pada proses ini sinyal yang sebelumnya berada dalam domain waktu akan diubah dalam domain
frekuensi Setiap sinyal yang berasal dari alam merupakan sinyal analog yang bila diolah harus diubah
dalam bentuk sinyal digital Dan pengolahan dalam digital merupakan pengolahan dalam bentuk diskrit
Pada proyek akhir ini sinyal dalam domain waktu akan diubah dalam domain frekuensi dengan 256 titik
Karena hasil yang diperoleh berupa hasil dari fungsi konvolusi maka hanya akan diambil 128 titik saja yang
akan diolah dalam proses selanjutnya Sedangkan 128 sisanya tidak dipergunakan karena berupa
pencerminan saja
Hasil dari Fast Fourier Transform (FFT) dari penggalan kata ldquoempat matirdquo pada milidetik ke-13900 dalam
bentuk teks adalah
103505157
106889458
Bab 4 Pengujian dan Analisa
39
104735321
100408661
89175987
95431992
96601654
8489315
89637459
8630304
75320663
87866905
91001945
89607201
82408546
83440155
4241 Dengan Menggunakan TclTk dan Snack
Fast Fourier Transform Sinyal
Masukan
0
20
40
60
80
100
120
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 48 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat
lunak TclTk dan Snack
Dari gambar 48 di atas sinyal suara yang sebelumnya berada di domain waktu telah diubah ke domain
frekuensi Hasil Fast Fourier Transform sinyal masukan menunjukkan sebaran spektrum frekuensi dari
sinyal suara yang telah dihasilkan oleh pengucap antara 0 sampai 6000 Hz
Bab 4 Pengujian dan Analisa
40
4242 Dengan Menggunakan Wavesurver
Gambar 49 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat
Wavesurver
Dari gambar 49 di atas hasil Fast Fourier Transform sinyal masukan menunjukkan sebaran spektrum
frekuensi dari sinyal suara yang telah dihasilkan oleh pengucap antara 0 sampai 6000 Hz adalah sama
seperti pada gambar dengan gambar 48 yang diambil dengan perangkat lunak TclTk dan Snack
425 Autocorrelation Analysis
Pada proses ini sinyal masukan dalam domain waktu yang telah diwindow hamming dihitung korelasinya
dengan menggunakan orde analisi LPC sebesar 15 Sehingga akan didapatkan hasil rk(autokorelasi) sebagai
berikut
17648453
128874
0669745
0662566
0470262
0164336
-010638
-0229032
-016249
0014062
0138456
0188749
0117826
0014517
-0052704
426 LPC Analysis
Dari hasil autokorelasi tersebut di atas selanjutnya adalah LPC dimana mengkonversi masing-masing
frame dari autokorelasi p+1 ke dalam sebuah LPC Parameter a
Bab 4 Pengujian dan Analisa
41
Metode yang formal untuk mengkonversi dari koefisien autokorelasi ke sebuah LPC parameter (untuk
metode LPC autokorelasi) dikenal sebagai Metode Durbin dan secara formal hasilnya dapat ditunjukkan
sebagai berikut ini
1
-128874
0160681
-0156173
0166653
0255508
0192145
0003037
-0202248
-0265201
-0112133
005938
0232232
0203554
0048429
Dari hasil di atas terlihat bahwa untuk setiap frame nilai pertama menunjuukan energi dari masing-masing
frame dan selanjutnya adalah parameter LPC dalam satu frame yang digunakan sebagai penentu ciri dari
sinyal suara yang dihasilkan oleh individu
427 Fast Fourier Transform LPC Parameter
Pada proses ini nilai dari parameter LPC yang sebelumnya masih berada dalam domain waktu akan diubah
dalam domain frekuensi Pada proyek akhir ini parameter LPC dalam domain waktu akan diubah dalam
domain frekuensi dengan 256 titik Karena hasil yang diperolah berupa hasil dari fungsi konvolusi maka
hanya akan diambil 128 titik saja yang akan diolah dalam proses selanjutnya Sedangkan 128 sisanya tidak
dipergunakan karena berupa pencerminan saja
Hasil dari Fast Fourier Transform (FFT) dari parameter LPC pada penggalan kata ldquoempat matirdquo pada
milidetik ke-1 dalam bentuk teks adalah
103505157
106889458
104735321
100408661
89175987
Bab 4 Pengujian dan Analisa
42
95431992
96601654
8489315
89637459
8630304
75320663
87866905
91001945
89607201
82408546
4271 Dengan menggunakan TclTk dan Snack
Fast Fourier Transform Parameter
LPC
0
20
40
60
80
100
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 410 Fast Fourier Transform LPC dengan
menggunakan perangkat lunak TCLTk
dan Snack
Hasil gambar 410 menunjukkan bahwa parameter LPC yang di-Fourier Transform-kan akan menjadi
selubung spektrum dari spektrum sinyal masukan Sehingga jika selubung dan spektrumnya secara gambar
cocok dapat dikatakan bahwa LPC parameter yang dihitung benar
Bab 4 Pengujian dan Analisa
43
4272 Dengan menggunakan Wavesurver
Gambar 411 Fast Fourier Transform LPC denganmenggunakan perangkat lunak
Wavesurver
Hasil gambar 411 menunjukkan bahwa parameter LPC yang di-Fourier Transform-kan akan menjadi
selubung spektrum dari spektrum sinyal masukan adalah sama dengan yang telah diperoleh dengan
perangkat lunak TclTk seperti pada gambar 410
428 LPC Parameter to LPC Cepstrum
Koefisien LPC cepstrum koefisien yang direpresentasikan dengan Fourier Transform dengan spektrum
besaran log telah ditampilkan menjadi kumpulan fitur untuk pengenalan wicara yang lebih handal
terpercaya daripada koefisien LPC koefisien PARCOR atau koefisien log area ratio
Hasil dari LPC cepstrum pada penggalan kata ldquoempat matirdquo pada milidetik ke-106 dalam bentuk teks adalah
16636311
1387922
0474473
0654796
0429659
0132543
0225374
0126501
0021161
0242437
Bab 4 Pengujian dan Analisa
44
0160623
0065745
0139379
0056064
-0029262
Dari hasil di atas dapat dianalisa bahwa besaran-besaran dari LPC cepstrum benar-benar dapat
digunakan sebagai penentu ciri dari sinyal suara individu karena besaranndashbesaran yang dihasilkan oleh LPC
cepstrum dari yang pertama sampai yang terakhir dalam satu frame sangat bervariasi nilainya
429 Inverse Fast Fourier Transform LPC Cepstrum
Untuk menggambarkan ciri atau fitur wicara dalam domain waktu maka LPC cepstrum di-Invers Fast
Fourier Transform-kan sehingga didapatkan gambar untuk penggalan kata ldquosatu nyalardquo pada milidetik ke-
400 seperti gamabar 412
Fast Fourier Transform LPC
Cepstrum
0
20
40
60
80
100
120
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 412 Invers Fast Fourier Transform LPC cepstrum dengan menggunakan
perangkat lunak TCLTk dan Snack
Dari gambar 412 dapat dianalisa bahwa bentuk dari invers fourier transform LPC cepstrum yang
menyerupai selubung pada domain waktu dari spektrum frekuensi juga digunakan untuk menunjukkan
bahwa perhitungan LPC cepstrumnya telah benar dan dapat digunakan sebagai penentu ciri sinyal suara
individu
Invers Fast Fourier Transform LPC
Cepstrum
Bab 4 Pengujian dan Analisa
45
Gambar 413 Penggabungan spektrum sinyal spektrum LPC dan spektrum LPC
Cepstrum
Gambar 413 spektrum sinyal yang diwakili warna merah merupakan hasil sinyal yang telah di-Fast
Fourier Transform-kan Spektrum sinyal yang berwarna hijau merupakan parameter LPC yang telah di-
Fourier Transform-kan Sinyal ini akan menjadi selubung spektrum dari spektrum sinyal masukan Bila
selubung dan spektrumnya secara gambar cocok maka dapat dikatakan bahwa LPC parameter yang dihitung
adalah benar Dari gambar 413 dapat dilihat antara selubunga dan selubung sinyal masukan sudah cocok
Sinyal yang berwarna biru merupakan sinyal rata-rata dari sinyal selubung spektrum
4210 Dynamic Time Warping
Pengujian terakhir dari proses pengolahan sinyal wicara adalah membandingkan sinyal hasil cepstrum LPC
antara data input dan data standarnya Berdasarkan daerah pembatas kontinyuitas lokal dari persamaan 21
maka digunakan model yang pertama dan menggunakan persamaan 2116 dalam menghitung jarak antara
kata sebagai standar dan sebagai masukan
Selanjutnya menetukan data data sebagai data standar dan data sebagai data masukan Pada sistem ini
digunakan 8 kombinasi kata sebagai kata standar dan kata msukan untuk masing-masing pengujian dengan
kata standar sebanyak sepuluh (10) kali Adapun kata yang digunakan sebagai standar dan kata yang diuji
adalah meliputi satu nyalasatu matidua nyaladua matitiga nyalatiga matiempat nyalaempat
mati
Pada pengujian sistem kali ini masih menggunakan datasuara dari pebgucap yang sama Dari kelima data
standar yang ada dilakukan pembandingan dengan masing-masing 10 (sepuluh) kali pemasukan data Data
yang menghasilkan jarak euclidian terpendek dari masing-masing kata itulah yang akan diambil sebagai
data perintah terbaik
Bab 4 Pengujian dan Analisa
46
Pelekukan Jalur Suara
0
50
100
150
0 50 100 150
Sinyal Input empat mati
Sinyal Standart
empat mati
Gambar 414 Pelekukan Jalur Suara dengan Dynamic Time Warping
Dari gambar 414 dapat dianalisa bahwa dengan menggunakan dynamic time warping dua buah sinyal suara
akan dibandingkan vektor-vektor spektralnya dimana juga terdapat proses pembandingan panjang sinyal
antara dua buah sinyal tersebut sehingga terjadi proses pemadanan panjang sinyal dengan cara
memperpanjang dan menekuk vektor spektralnya Memperpanjang dalam arti memperpanjang sinyal yang
lebih pendek dengan memperhatikan perbandingan vektor spektralnya dan demikian pula menekuk dalam
arti menekuk sinyal yang lebih panjang dengan memperhatikan vektor spektralnya Dengan panjang yang
sama sebagai hasil dynamic time warping maka jarak euclidian antara dua sinyal dapat diperbandingkan
atau dihitung
4211 Min Value dan Sorting
Min Value dan Sorting menjadi satu paket sendiri yang digunakan untuk mencari kemungkinan hasil
terkecil dari pembandingan pola kata masukkan dengan kedelapan kata standart Keluaran dari fungsi
dynamic time warping akan memberikan delapan buah data yaitu hasil pembandingan kata masukan
dengan kata standart satu nyala hasil pembandingan kata masukan dengan kata standart satu mati hasil
pembandingan kata masukan dengan kata standart dua nyala hasil pembandingan kata masukan dengan
kata standart dua mati hasil pembandingan kata masukan dengan kata standart tiga nyala hasil
pembandingan kata masukan dengan kata standart tiga mati hasil pembandingan kata masukan dengan
kata standart empat nyala hasil pembandingan kata masukan dengan kata standart empat mati Dengan
metode sorting buble sort maka akan didapat nilai minimalnya
0748745
0362272
0633390
0327642
0600250
0346530
Bab 4 Pengujian dan Analisa
47
0545907
0207464
Berdasarkan data diatas maka perintah input sama dengan perintah kedelapan (ldquoempat matirdquo) karena
memiliki hasil time warping terkecil yaitu 0207464
4212 Hasil Pengujian Awal dan Akhir Sinyal
Pada proses penentuan awal dan akhir agar lebih presisi menggunakan ldquoPowerrdquo Adapun kelebihan dari
power adalah dapat membedakan antara sinyal suara dengan sinyal noise
Untuk menentukan awal dan akhir dicari nilai power Pada proses power kata yang telah disampel
sebanyak 240 sampel akan menghasilkan sinyal yang halus dan terletak di atas sumbu x Hasil dalam bentuk
teks adalah sebagai berikut ini
7678195313
1165659297
123492625
8917128906
6318766797
4531086719
4338374609
4912630469
5382503125
4548908984
429756875
4739710547
4575902734
4682924609
4786217578
Bab 4 Pengujian dan Analisa
48
Gambar hasil power bisa dilihat pada gambar 415 berikut
Power
0
100000
200000
300000
400000
500000
0 50 100 150
Jumlah Frame
Amplitude
Gambar 415 Sinyal ldquoempat matirdquo hasil program power
Gambar 416 berikut ini adalah hasil pengujian kata ldquoempat matirdquo sebagai masukan dan kata standar ldquoempat
matirdquo dimana kedua kata dibandingkan berdasarkan powernya sebelum proses Dinamic Time Warping
Sinyal warna biru sebagai power sinyal standart dan sinyal yang berwarna merah merupakan power sinyal
input
Perbandingan Dua Kata empat mati
sebelum DTW
0
100000
200000
300000
400000
500000
0 50 100 150
Jumlah Frame
Amplitude
Gambar 416 Perbandingan power dua kata ldquoempat matirdquo sebelum Dynamic Time Warping
Berikut ini adalah hasil pengujian dua buah kata ldquoempat matirdquo dengan menggunakan dynamic time warping
dimana jalur pelekukan suara dapat digambarkan pada gambar 417
Bab 4 Pengujian dan Analisa
49
Pelekukan Jalur Suara
0
50
100
150
0 50 100 150
Sinyal Input empat mati
Sinyal Standart
empat mati
Gambar 417 Pelekukan jalur suara dua kata ldquoempat matirdquo dengan DTW
Gambar 418 adalah hasil pengujian dua buah kata ldquoempat matirdquo sebagai masukan dan dan kata standar
ldquoempat matirdquo dimana kedua kata dibandingkan berdasarkan powernya setelah proses dynamic time
warping
Gambar 418 dapat dibandingkan dengan gambar 416 yaitu sinyal sebelum proses Dynamic Time Warping
Sebelum proses Dynamic Time Warping sinyal tidak mengalami proses penekukan dan penarikan data
berdasarkan waktu antara keduanya sehingga antara sinyal input dan sinyal standart memiliki ukuran
panjang yang sangat jauh berbeda
Pemadanan Dua Kata Setelah DTW
0
100000
200000
300000
400000
500000
0 100 200 300
Jumlah Frame
Amplitude Power
Gambar 418 Perbandingan power dua kata ldquoempat matirdquo setelah Dynamic Time Warping
Dari gambar 418 dapat dinyatakan bahwa setelah melalui proses dynamic time warping terjadi penekukan
dan penarikan data berdasarkan waktu antara keduanya sehingga pada akhirnya kedua sinyal memiliki
ukuran panjang yang sama Sehingga dengan demikian dapat dicari jarak euclidian untuk menentukan
sebuah kata yang sesuai dengan kata yang lainnya
Bab 4 Pengujian dan Analisa
50
4213 Hasil Pengujian Sistem Perangkat Lunak
Pada pengujian sistem perangkat lunak diambil sampel data dari 3 orang dimana terdiri dari 3 orang pria
dan 1 orang wanita Pria pertama merupakan standar sekaligus pengisi suara untuk perintah Sedangkan pria
kedua dan wanita sebagai pembanding untuk mengetahui unjuk kerja sistem
Tabel 41 Hasil pengujian sistem pengolahan sinyal wicara untuk pengucap yang sama (pria
1)
8 7 6 5 4 3 2 1 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05417
03487
05964
03443
07272
04424
03449
01
961
Satu
nyala
Sinyal Standart
02496
04723
03013
05120
03450
03815
01
739
03471
Satu
mati
04389
02035
06139
03244
04343
02
158
04567
04047
Dua
nyala
01866
04517
04157
05267
01
940
02561
02036
04779
Dua
mati
04833
02168
03984
01
090
06409
04278
05019
02690
Tiga
nyala
02683
04628
01
188
03416
04046
03345
02959
04614
Tiga
mati
03807
01
046
05271
01974
05934
03134
04363
02554
Empat
nyala
01
388
03728
02269
04497
02559
03195
02476
04874
Empat
mati
Bab 4 Pengujian dan Analisa
51
16
15
14
13
12
11
10
9 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05776
02988
05100
04019
06101
05338
04219
02
047
Satu
nyala
Sinyal Standart
03382
04381
02427
05124
02642
05990
02
706
03335
Satu
mati
04453
02558
04993
04574
03381
02
344
04529
04121
Dua
nyala
01669
04532
03190
06355
01
004
04807
03466
04622
Dua
mati
05209
02261
03366
01
124
05377
04165
05369
02660
Tiga
nyala
03721
04074
00
891
03002
02637
05958
02719
04333
Tiga
mati
03889
01
755
04365
02341
04826
03150
05193
02472
Empat
nyala
01
092
03974
01802
04848
01455
05343
02717
04536
Empat
mati
Bab 4 Pengujian dan Analisa
52
24
23
22
21
20
19
18
17 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05157
04015
06277
02964
05609
04690
03376
01
369
Satu
nyala
Sinyal Standart
01787
05144
03814
04134
04952
04843
01
636
03404
Satu
mati
03988
03026
07420
03020
03977
01
905
04801
03610
Dua
nyala
01630
05662
06259
05009
01
808
03357
02206
05094
Dua
mati
04667
02681
05731
01
448
05575
03280
05344
03417
Tiga
nyala
01902
05055
03
395
02597
04700
04618
02951
04808
Tiga
mati
03809
01
863
06920
02154
04252
02455
04616
03184
Empat
nyala
00
761
04379
04288
04053
03629
04122
02419
05622
Empat
mati
Bab 4 Pengujian dan Analisa
53
32
31
30
29
28
27
26
25 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
04793
03554
06312
03247
06514
03585
03068
02
935
Satu
nyala
Sinyal Standart
01671
04661
03012
03961
02834
04667
01
079
05475
Satu
mati
04033
02359
05307
02587
03475
01
587
04781
04010
Dua
nyala
02222
04949
03652
04387
00
958
03222
02647
04966
Dua
mati
04499
02207
04170
01
873
05884
02500
05631
03257
Tiga
nyala
01791
04432
01
196
02646
02999
04619
02558
05048
Tiga
mati
03561
01
050
05061
02437
04927
01887
05325
03424
Empat
nyala
00
858
03774
02052
03974
01440
04186
02597
05381
Empat
mati
Bab 4 Pengujian dan Analisa
54
40
39
38
37
36
35
34
33 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
06471
03838
05816
03364
06492
03613
03496
01
111
Satu
nyala
Sinyal Standart
02951
05556
02631
04558
05057
04799
01
683
02958
Satu
mati
05259
02977
05228
03305
04614
00
878
05159
02707
Dua
nyala
03165
05686
03078
05512
01
088
03082
03482
04823
Dua
mati
05397
02037
03714
00
949
06365
02818
05998
02829
Tiga
nyala
02990
04867
00
921
02759
04978
04752
03131
04533
Tiga
mati
05028
01
233
05114
02070
05154
01825
05439
01975
Empat
nyala
01
914
04521
01834
04248
02711
04164
03149
04755
Empat
mati
Bab 4 Pengujian dan Analisa
55
48
47
46
45
44
43
42
41 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
07997
03701
06005
03992
05800
05223
03706
01
198
Satu
nyala
Sinyal Standart
03909
04978
02572
05339
05784
05103
01
161
03113
Satu
mati
06284
02355
05419
04194
03709
02
588
04764
02834
Dua
nyala
03737
04883
03321
06131
03
489
04229
03188
04962
Dua
mati
05885
02259
04026
00
918
06123
03601
05739
0 2867
Tiga
nyala
03583
04464
00
974
03340
05828
05114
02720
04269
Tiga
mati
05762
01
230
7
05459
02231
04899
03397
05114
0 2395
Empat
nyala
02
247
02888
01948
04994
04987
04505
02141
0 4956
Empat
mati
Bab 4 Pengujian dan Analisa
56
56
55
54
53
52
51
50
49 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05627
03923
06226
04018
05254
04895
02933
02
009
Satu
nyala
Sinyal Standart
02473
04947
02892
05661
05301
05040
01
289
03008
Satu
mati
04393
02779
06046
04425
02900
01
743
04571
02669
Dua
nyala
02222
05352
04171
06748
01
202
03736
03177
03699
Dua
mati
04644
02488
03523
00
835
05391
03319
05277
03671
Tiga
nyala
02213
04345
01
009
03758
02869
05933
02761
03900
Tiga
mati
04093
01
443
05080
05083
04959
02819
04840
02709
Empat
nyala
01
239
04029
0 2223
05428
01263
04236
02575
04141
Empat
mati
Bab 4 Pengujian dan Analisa
57
64
63
62
61
60
59
58
57 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
07489
03792
05134
04199
06459
04019
03044
01
850
Satu
nyala
Sinyal Standart
03586
04783
02186
05509
02884
04251
01
198
03243
Satu
mati
05697
02612
04576
04268
03211
01
519
04639
03845
Dua
nyala
03563
05288
02855
06752
01
074
03523
03265
04523
Dua
mati
05768
02262
03884
01
048
06348
02633
05784
02683
Tiga
nyala
03449
04859
01
009
03177
03425
04355
02975
04077
Tiga
mati
05693
01
445
04574
02498
05298
01999
05622
02359
Empat
nyala
02
236
04215
01468
05161
01827
03851
03161
04416
Empat
mati
Bab 4 Pengujian dan Analisa
58
72
71
70
69
68
67
66
65 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05439
02975
05593
03689
05796
03415
03416
01
492
Satu
nyala
Sinyal Standart
02225
04543
04586
04584
02669
04529
01
112
02881
Satu
mati
04025
02639
06303
03009
02582
01
003
05045
02767
Dua
nyala
01734
05437
04847
04897
00
826
02892
02584
04797
Dua
mati
04671
02336
04988
01
206
05595
02572
05647
02991
Tiga
nyala
02095
04805
04
025
02747
02848
04359
02773
04076
Tiga
mati
03971
01
297
05065
02121
04489
01703
05074
02131
Empat
nyala
00
901
04123
04026
04154
01514
03762
02328
04561
Empat
mati
Bab 4 Pengujian dan Analisa
59
80
79
78
77
76
75
74
73 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
07997
03054
06228
04446
05805
04687
03173
03
391
Satu
nyala
Sinyal Standart
05051
04619
05619
05749
02631
04447
01
086
05310
Satu
mati
05949
03685
05899
05607
03163
01
874
05234
03797
Dua
nyala
03109
05053
05258
07102
01
095
03368
03585
04539
Dua
mati
06473
02004
04524
01
350
05525
03084
05608
03682
Tiga
nyala
04759
04205
04
309
03701
03031
04660
02678
05243
Tiga
mati
05572
02
003
05167
02702
04478
02552
05358
03563
Empat
nyala
02
459
04960
04964
05734
01641
03971
02630
05029
Empat
mati
Pengujian pertama ini dilakukan dengan cara memasukkan suara pria pertama (yang digunakan sebagai
pengisi suara standart) Setiap satu perintah dilakukan sebanyak 10 kali pengujian Hasil pengujian
merupakan nilai dari hasil proses Dynamic Time Warping yang merupakan nilai dari pemadanan sinyal
input dengan kedelapan sinyal standart Nilai terkecil (nilai yang tercetak tebal) yang didapatkan merupakan
hasil yang paling mendekati sinyal standart Yang berarti sinyal masukan tersebut dianggap paling sesuai
dengan sinyal standart
Prosentase keberhasilan pengucapspeaker pertama untuk kedelapan perintah sebesar 100 semuanya
menunjukkan kepada sinyal masukkan dan sinyal standart yang sama
Hasil pengujian menunjukkan bahwa ciri sinyal suara yang dihasilkan oleh pengucap speaker pertama dan
sebagai pemberi standart adalah sama
Bab 4 Pengujian dan Analisa
60
Tabel 42 Hasil pengujian sistem pengolahan sinyal wicara untuk pengucap yang lain (pria
2)
8 7 6 5 4 3 2 1 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
06023
05121
07146
04599
04996
04561
07575
04
358
Satu
nyala
Sinyal Standart
04018
05701
06369
06256
03518
05738
07004
08129
Satu
mati
07120
03925
07395
04897
05938
02246
10082
06777
Dua
nyala
04963
05958
05189
07345
03449
04854
08816
08543
Dua
mati
05919
04337
05163
02
130
04797
03463
08871
05289
Tiga
nyala
03709
04519
04380
03601
03491
05239
06
046
07381
Tiga
mati
06087
03
161
06178
03280
05
068
02
439
08853
05354
Empat
nyala
03
409
04321
04
208
05569
03219
04898
06863
08596
Empat
mati
Bab 4 Pengujian dan Analisa
61
16
15
14
13
12
11
10
9 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05475
03932
05521
04
383
05634
05416
04
464
03
434
Satu
nyala
Sinyal Standart
04076
05731
04541
05681
03574
04920
03971
06662
Satu
mati
07427
04886
07924
05962
05824
02
712
07837
05504
Dua
nyala
04475
06666
05765
07616
03414
04203
05431
06334
Dua
mati
05357
03797
05099
04509
04902
04332
07097
05220
Tiga
nyala
04197
05134
04
209
05088
03169
04547
04464
06516
Tiga
mati
05936
03
769
05910
05109
05
311
03435
07646
04977
Empat
nyala
03
576
05767
04591
06367
03010
04129
04944
06850
Empat
mati
Bab 4 Pengujian dan Analisa
62
24
23
22
21
20
19
18
17 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
06927
04
279
08096
04
448
06461
05522
03935
02
444
Satu
nyala
Sinyal Standart
06409
05322
05528
05481
04912
04491
02
011
05508
Satu
mati
06134
04643
08962
06002
04868
02
579
06122
05502
Dua
nyala
04753
06443
05501
07364
02
298
03206
04239
06684
Dua
mati
05709
04928
05456
04961
06142
05726
06454
03831
Tiga
nyala
05798
04882
03
235
04708
04838
04317
03526
05462
Tiga
mati
05021
04423
06842
05583
05222
04132
06363
04235
Empat
nyala
04
457
05427
03546
05773
02946
03573
03618
07019
Empat
mati
Bab 4 Pengujian dan Analisa
63
32
31
30
29
28
27
26
25 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05260
04224
07393
04661
06292
04993
03989
03
549
Satu
nyala
Sinyal Standart
04478
04669
04568
05977
03523
04046
03
438
04819
Satu
mati
06448
04308
08152
06114
04665
02
444
07609
05162
Dua
nyala
04024
05867
05103
07873
01
872
02613
04489
06765
Dua
mati
05363
04
672
05250
04
529
05210
05103
06546
04794
Tiga
nyala
04422
04039
02
482
05102
03499
03985
03969
04371
Tiga
mati
05492
04073
06626
05239
04902
03553
06869
04794
Empat
nyala
03
326
04543
03153
06510
02133
03419
04175
05287
Empat
mati
Hasil pengujian yang kedua ini dilakukan dengan cara memasukkan suara dari pria kedua (pria lain yang
tidak digunakan sebagai suara standart) Setiap satu perintah dilakukan empat (4) kali proses pengujian
Hasil pengujian merupakan nilai dari hasil proses Dynamic Time Warping yang merupakan nilai dari
pemadanan sinyal input dengan kedelapan sinyal standart Nilai terkecil (nilai yang tercetak tebal) yang
didapatkan merupakan hasil yang paling mendekati sinyal standart Yang berarti sinyal masukan tersebut
dianggap paling sesuai dengan sinyal standart
Prosentase keberhasilan pengucapspeaker kedua untuk kedelapan perintah bervariasi sebesar 50
sampai dengan 100 semuanya menunjukkan kepada sinyal masukkan dan sinyal standart yang berbeda
Hasil pengujian menunjukkan bahwa ciri sinyal suara yang dihasilkan oleh pengucap speaker kedua dan
sebagai pemberi standart adalah mendekati sama
Bab 4 Pengujian dan Analisa
64
Tabel 43 Hasil pengujian sistem pengolahan sinyal wicara untuk pengucap yang sama (pria)
No Perintah Lampu DTMF
1 1 nyala B B
2 1 mati B G
3 2 nyala B G
4 2 mati G X
5 3 nyala G X
6 3 mati G X
7 4 nyala B B
8 4 mati B B
9 1 nyala B G
10 1 mati B B
11 2 nyala B G
12 2 mati B B
13 3 nyala B G
14 3 mati B B
15 4 nyala B G
16 4 mati B B
17 1 nyala B G
18 1 mati B B
19 2 nyala G X
20 2 mati G X
21 3 nyala B B
22 3 mati B B
23 4 nyala B B
24 4 mati G X
No Perintah Lampu DTMF
25 1 nyala B G
26 1 mati G X
27 2 nyala G X
28 2 mati B G
29 3 nyala B G
30 3 mati B G
31 4 nyala B G
32 4 mati G X
B Berhasil
G Gagal
X Donrsquot Care (Diabaikan)
Pengujian yang ketiga ini dilakukan oleh pria pertama (pria yang suaranya digunakan sebagai standart)
Masing-masing perintah dilakukan sebanyak empat kali pengujian
Bab 4 Pengujian dan Analisa
65
Pada kolom ketiga (kolom lampu) tanda B (berhasil) menunjukkan bahwa perintah yang diberikan pada
hardware berhasil dilakukan Tanda G (gagal) menunjukkan bahwa perintah yang diberikan pada hardware
gagal dilakukan(hasil tidak sesuai dengan perintah yang diberikan)
Pada kolom keempat (kolom DTMF) menunjukkan laporan dari hardware ke PC server tentang
bagaimana keadaan lampu yang sedang dikontrol apakah dalam keadaan menyala atau mati Pada kolom ini
tanda B (berhasil) menunjukkan bahwa laporan dari hardware ke PC server (yang merupakan proses
otomatisasi) berhasil dilakukan Tanda G (gagal) menunjukkan bahwa laporan ke PC client gagal dilakukan
Sedangkan tanda X (donrsquot care) menunjukkan bahwa perintah diabaikan Hal ini disebabkan perintah pada
hardware (perintah sebelumnya sebelum proses otomatisasi) sudah gagal dilakukan
Prosentase keberhasilan pengucapspeaker pertama untuk kedelapan perintah bervariasi antara 50
sampai 100 semuanya menunjukkan kepada sinyal masukkan dan sinyal standart yang berbeda
Hasil pengujian kedua ini menunjukkan bahwa ciri sinyal suara yang dihasilkan oleh pengucapspeaker
kedua ini yang merupakan suara orang lain (bukan pemberi standart) adalah mendekati sama dengan hasil
yang bervariasi antara 50 sampai 100
43 Pengujian Sistem Client Server
Pada sub bab ini akan diujikan program Client Server yang akan mengirimkan sinyal hasil pengolahan
suara
Tampilan pada client adalah seperti gambar 421 yang merupakan tampilan awal pada saat program
dimulai
Gambar 421 Proses pada client
Bab 4 Pengujian dan Analisa
66
Gambar 422 Proses pada server
1 Sebelumnya program server harus disiapkan lebih dulu
2 Setelah itu client dijalankan
3 Setelah client siap user memasukkan suara yang selanjutnya akan diolah sampai proses DTW
4 Server menerima data yang selanjutnya digunakan untuk melakukan kontrol alat rumah tangga
44 Analisa Pengujian Sistem Secara Keseluruhan
Berdasarkan data-data yang telah didapatkan di atas maka dapat ditarik suatu analisa bahwa
Berdasarkan tabel 44 untuk pengujian pertama pria 1 adalah pria yang suaranya digunakan sebagai standart
Prosentase keberhasilan rata-rata yang didapat untuk semua perintah adalah sebesar 100 Hal ini menunjukkan
bahwa suara yang diujikan adalah suara yang sama dengan standart dan pria 1 tersebut pernah berinteraksi
dengan sistem
Pengujian yang kedua adalah pengujian yang dilakukan oleh pria 2 (pria lain yang suaranya tidak
dipakai sebagai standart) Prosentase keberhasilan rata-rata yang didapat untuk semua perintah 7188 Karena
sistem bersifat dependent speaker dimana sistem hanya digunakan oleh orang tertentu dalam arti yang pernah
berinteraksi langsung dengan sistem Oleh karenanya didapat nilai prosentase keberhasilan yang bervariasi
Bab 4 Pengujian dan Analisa
67
Tabel 44 Tingkat keberhasilan sistem perangkat lunak
NNO
PENGUCAP
PERINTAH
BANYAK
PERCOBAAN
PROSENTASE
KEBERHASILAN
1 Pria 1 1 nyala 8 kali 100
2 1 mati 8 kali 100
3 2 nyala 8 kali 100
4 2 mati 8 kali 100
5 3 nyala 8 kali 100
6 3 mati 8 kali 100
7 4 nyala 8 kali 100
8 4 mati 8 kali 100
RATA-RATA 100
9 Pria 2 1 nyala 4 kali 100
10 1 mati 4 kali 75
11 2 nyala 4 kali 75
12 2 mati 4 kali 50
13 3 nyala 4 kali 50
14 3 mati 4 kali 75
15 4 nyala 4 kali 50
16 4 mati 4 kali 100
RATA-RATA 7188
Jika diurutkan proses pengolahan wicara dari awal sampai diambil keputusan suara yang dimasukkan
tersebut adalah suara yang sesuai atau tidak adalah sebagai berikut
Bab 4 Pengujian dan Analisa
68
Gambar 423 Tampilan awal perangkat lunak menggunakan TclTk dan Snack
Gambar 423 adalah tampilan awal dari perangkat lunak yang dibangun dengan menggunakan TclTk dan
Snack
Gambar 424 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan dengan
menggunakan perangkat lunak Wavesurver
Gambar 424 adalah tampilan awal dari program Wavesurver yang merupakan pembanding dari program
yang dibuat dari perangkat lunak TclTk dan Snack
Bab 4 Pengujian dan Analisa
69
Gambar 425 Tampilan awal perangkat lunak
menggunakan TclTk dan Snack
Gambar 425 adalah tampilan ketika proses pengambilan sinyal suara sedang dilakukan dengan perangkat
lunak TclTk dan Snack
Gambar 426 Tampilan hasil perekaman kata ldquoempat
matirdquo dengan menggunakan perangkat lunak Wavesurver
Gambar 426 adalah tampilan ketika proses pengambilan sinyal suara sedang dilakukan dengan perangkat
lunak Wavesurver
Bab 4 Pengujian dan Analisa
70
Data Sampling
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 427 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900 menggunakan TclTk dan
Snack
Pada gambar 427 dilakukan proses sampling sinyal masukan dengan frekuensi sampling sebesar 12000
Hz maka didapatkan hasil sinyal yang hampir mirip dengan sinyal analognya yang dilakukan dengan
perangkat lunak TclTk dan Snack
Gambar 428 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900 dengan menggunakan
perangkat Wavesurver
Pada gambar 428 dilakukan proses sampling sinyal masukan dengan frekuensi sampling sebesar 12000
Hz yang dilakukan dengan perangkat lunak Wavesurver
Data Windowing
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 429 Hasil Windowing data sampel
kata ldquoempat matirdquo milidetik ke-13900 menggunakan TclTk dan Snack
Bab 4 Pengujian dan Analisa
71
Proses windowing terdapat pada gambar 429 dilakukan untuk membuat sinyal yang disampel lebih
halus Proses windowing ini dilakukan dengan menggunakan perangkat lunak TclTk dan Snack
Proses windowing pada Wavesurver merupakan fasilitas yang tergabung dengan proses lainnya Misal
dengan proses Fast Fourier Transform Jadi disini tidak ditampilkan hanya sebagai proses windowing saja
tetapi digabungkan dengan proses lain
Fast Fourier Transform Sinyal
Masukan
0
20
40
60
80
100
120
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 430 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat
lunak TclTk dan Snack
Gambar 430 di atas adalah proses Fast Fourier sinyal masukan dengan perangkat lunak TclTk dan Snack
Hasil Fast Fourier Transform sinyal masukan menunjukkan sebaran spektrum frekuensi dari sinyal suara
yang telah dihasilkan oleh pengucap
Sebagai pembanding adalah proses Fast Fourier sinyal masukan yang diambil dengan Wavesurver seperti
pada gambar 431 Yang didapatkan hasil yang sama
Gambar 431 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat Wavesurver
Bab 4 Pengujian dan Analisa
72
Fast Fourier Transform Parameter
LPC
0
20
40
60
80
100
0 2000 4000 6000 8000
Frekuensi (Hz)10 x log
10(magnitude)(dB)
Gambar 432 Fast Fourier Transform LPC dengan menggunakan perangkat lunak TCLTk
dan Snack
Hasil gambar 432 menunjukkan proses Fast Fourier Transform LPC yang dilakukan dengan perangkat
lunak TclTk dan Snack
Gambar 433 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat Wavesurver
Proses Fast Fourier Transform yang dilakukan dengan Wavesurver dapat dilihat pada gambar 433
Pelekukan Jalur Suara
0
50
100
150
0 50 100 150
Sinyal Input empat mati
Sinyal Standart
empat mati
Gambar 434 Pelekukan Jalur Suara dengan Dynamic Time Warping
Bab 4 Pengujian dan Analisa
73
Dari gambar 434 dapat dianalisa bahwa dengan menggunakan dynamic time warping terdapat proses
pembandingan panjang sinyal antara dua buah sinyal input dan sinyal standart sehingga terjadi proses
pemadanan panjang sinyal dengan cara memperpanjang dan menekuk vektor spektralnya
74
BAB 5
PENUTUP
51 Kesimpulan
Dari hasil yang didapatkan maka dapat diambil kesimpulan bahwa
Sistem pengucap tak bebas atau speaker dependent system memiliki tingkat akurasi yang tinggi untuk
pengucap masukan dan pengucap standar yang sama Hal ini dibuktikan dengan hasil pengujian pertama
yang dilakukan oleh pria pertama Pria pertama ini adalah pria yang suaranya digunakan sebagai standar
Nilai prosentase keberhasilan rata-rata untuk semua perintah adalah sebesar 100 dari setiap perintah
dilakukan 8 kali percobaan
Sedangkan pengujian yang dilakukan oleh suara lain (bukan standart) prosentatase keberhasilan
rata-rata yang diperoleh untuk semua perintah 7188 dari setiap perintah dilakukan 4 kali percobaan Hal
ini disebabkan karena suara pria kedua tidak pernah berinteraksi dengan sistem
Keberhasilan sistem ditunjukkan oleh ketepatan penyalaan lampu sesuai dengan yang diperintahkan
melalui perintah suara
Kecepatan sistem secara keseluruhan diperlihatkan dalam tabel 51 dibawah
Tabel 51 Kecepatan sistem keseluruhan
No
Perintah
Waktu (detik)
1 2 3 4 Rata-rata
1 Satu Nyala 11 99 12 25 16 89 14 05 13 80
2 Satu Mati 12 51 13 28 14 83 12 25 13 22
3 Dua Nyala 10 70 11 73 11 99 12 25 11 67
4 Dua Mati 10 44 11 21 11 21 11 47 11 08
5 Tiga Nyala 10 96 12 25 13 54 12 51 12 32
6 Tiga Mati 10 70 11 99 11 99 13 28 11 99
7 Empat Nyala 11 73 11 99 13 02 12 24 12 25
8 Empat Mati 10 70 09 93 11 21 10 70 10 64
Rata-rata 12 12
Dari data yang diperoleh didapatkan kecepatan rata-rata untuk tiap perintah yang diberikan sampai
dengan terlaksananya eksekusi dari perintah adalah 12 12 detik
52 Saran
Pada penelitian ini masih sangat banyak hal yang dapat dilakukan untuk perbaikan-perbaikan dimasa
selanjutnya Saran dan usulan yang dapat dipertimbangkan untuk pengembangan sistem lebih lanjut adalah
antara lain
1 Sistem tidak lagi bersifat dependent speaker tetapi bersifat independent speaker dimana banyak
orang yang memberi perintah dan sistem dengan tepat memberikan respon
2 Sistem dapat mengatasi tingkat noise yang tinggi baik yang disebabkan oleh lingkungan atau oleh
hardware (sound card)
75
3 Otomatisasi sistem Artinya perintah tidak perlu lagi diberikan lewat penekanan tombol yang
dilakukan melalui mouse
4 Respon sistem yang real time
5 Sistem yang dapat dengan mudah beradaptasi dengan jenis sound card yang bervariasi
DAFTAR PUSTAKA
Anggraeni Triana Dewi Astutik Debi Puji Pengenalan Wicara Dengan Penutur Tak Bebas
Tugas Akhir PENS ITS 2003
Wahyudi Agus Verifikasi Sinyal Suara Sebagai Kendali Arah TA PENS-ITS 2002
Dewantara Bima Sena Bayu Aplikasi Pengenalan Wicara Untuk Perintah NirkabelRobot Mikro
Mouse Tugas Akhir PENS ITS 2004
Dutono Titon Penataran Kebahasaan Tahap I Fonetik Dan Fonologi ndashPengolahan Sinyal
Wicara Digital 20 Februari 2001
Gabel Robert A Richard A Robert Sinyal dan Sistem LinierErlangga 1996
Rabiner Lawrence Huang Juang Biing Fundamentals of Speech Recognition Prentice Hall
International Inc1993
Proakis John G Malonakis Dimitris G Digital Signal Processing Principles Algorithms and
Applications Prentice Hall Inc New Jersey 1995
Scolander Kare Snack Sound Toolkit
httpwwwtcltkmantcl85tutorialTcl11html
httpwikitcltk4074
httpwwwinveceorgtclwisefrontcoverhtml
httpwwwspeechkthsesnackmansnack22tcl-manhtml
httpwwwspeechkthsesnacktutorialhtml
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13]
Bab 1 Pendahuluan
ix
49 Fast fourier Transform sinyal masukan dengan menggunakan perangkat lunak Wavesurver 54
410 FFT LPC dengan menggunakan perangkat lunak TCLTk dan Snack 57
411 FFT LPC dengan menggunakan perangkat lunak Wavesurver 58
412 Invers FFT LPC cepstrum dengan menggunakan Perangkat lunak TCLTk dan Snack 60
413 Penggabungan spektrum sinyal spektrum LPC dan Spektrum LPC Cepstrum 61
414 Pelekukan Jalur suara dengan Dynamic Time Warping 62
415 Sinyal rdquoempat matirdquo hasil program power 65
416 Perbandingan power dua kata ldquoempat matirdquo sebelum Dynamic Time Warping 65
417 Pelekukan alur suara dua kata ldquoempat matirdquo dengan DTW 66
418 Perbandingan power dua kata rdquoempat matirdquo setelah Dynamic Time Warping 67
421 Proses pada client 85
422 Proses pada server 86
423 Tampilan awal perangkat lunak menggunakan TclTk dan Snack 88
424 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan dengan menggunakan
perangkat lunak Wavesurver 89
425 Tampilan awal perangkat lunak menggunakan Wavesurver 89
426 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan perangkat lunak Wavesurver 90
427 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900 90
428 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900 dengan menggunakan perangkat
Wavesurver 91
429 Hasil Windowing data sampel kata ldquoempat matirdquo milidetik ke-13900 92
430 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat lunak TclTk dan Snack 92
431 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat lunak Wavesurver 93
432 Fast Fourier Transform LPC dengan menggunakan perangkat lunak TCLTk dan Snack 94
433 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat Wavesurver 94
434 Pelekukan jalur suara dengan Dynamic Time Warping 95
Bab 1 Pendahuluan
x
DAFTAR TABEL
41 Hasil pengujian sistem pengolahan wicara untuk pengucap yang sama (pria 1) 68
42 Hasil pengujian sistem pengolahan wicara untuk pengucap yang lain (pria 2) 79
43 Hasil pengujian system pengolahan wicara untuk pengucap yang sama (pria) 83
44 Tingkat keberhasilan system perangkat lunak 87
51 Kecepatan sistem keseluruhan 96
Bab 1 Pendahuluan
1
BAB 1
PENDAHULUAN
11 LATAR BELAKANG
Sudah sekian lama manusia memimpikan adanya pengendalian suatu alat atau sistem kontrol dengan
perintah suara Hal ini diperjelas dengan banyak beredarnya film-film fiksi yang menyuguhkan berbagai sistem
kontrol yang dilakukan dengan menggunakan suara bagaimana seorang anak bisa mengendalikan sebuah
pesawat terbang hanya dengan perintah-perintah dasar dengan menggunakan suaranya Ditambah lagi dengan
pesatnya penelitian dibidang suara yang membuat pintu gerbang sistem pengontrolan dengan suara manusia
semakin terbuka Dewantara [2] telah membuat sebuah aplikasi pengenalan wicara untuk perintah nirkabel robot
mikro mouse Anggraeni dan Astutik [1] telah menggunakan pengenalan wicara untuk mengakses suatu jaringan
sebagai password Tetapi belum ada yang membuat aplikasi pengenalan wicara untuk membuat perintah
pengontrolan pada alat-alat rumah tangga semisal lampu Selain itu beberapa tahun terakhir ini perkembangan
dunia telekomunikasi mengalami kemajuan yang sangat pesat Sehingga pada saat ini informasi yang dikirim
tidak hanya berupa data dalam bentuk teks tetapi juga suara manusia Ditambah dengan semakin banyaknya
peralatan yang memanfaatkan pengenalan suara manusia untuk mengakses maupun memberikan perintah Sinyal
suara yang masuk akan diproses dan dikenali oleh suatu alat Proses tersebut adalah pengenalan wicara (speech
recognition) yaitu pengenalan wicara melalui sampel suara yang telah diolah
Dengan pertimbangan tersebut maka pembuatan kontrol suatu peralatan jarak jauh dengan menggunakan
suara sangat sesuai jika diaplikasikan dalam sistem pengendalian dan monitoring peralatan rumah tangga jarak
jauh dengan menggunakan metode pengenalan wicara Aplikasi tersebut kami bangun dalam pelaksanaan
penelitian ini
12 TUJUAN
Penelitian ini bertujuan untuk
1 Memberikan perintah suara untuk menyalakan beberapa peralatan rumah tangga dalam contoh kasus
dalam penelitian ini adalah menyalakan lampu jarak jauh
2 Membangun sistem pengucap tak bebas (speaker dependent sistem)
3 Memberikan ciri individu untuk memberikan perintah menghidup dan matikan peralatan rumah tangga
yang dilakukan secara jarak jauh
13 BATASAN MASALAH
Batasan masalah pada penelitian ini adalah
1 Bahasa pemrograman untuk algoritma pengenalan wicara adalah Microsoft Visual C++ 60
2 Bahasa Pemrograman untuuk user interface adalah TclTk 830 dan Snack 22
3 Sistem bersifat dependentartinya sistem hanya dapat digunakan oleh orang tertentu dalam hal ini yang
pernah berinteraksi langsung dengan sistem
4 Sinyal diasumsikan ideal yaitu tidak mamperhitungkan noise yang berarti semua noise dianggap stationer
Bab 1 Pendahuluan
2
5 Perintah kata yang diberikan dibatasi untuk keperluan tone dekoder saja dengan dua perintah secara
langsung Semua kata diucapkan secara wajar dengan kecepatan normal
6 Keberhasilan penelitian ini dapat dilihat dari keberhasilan ketepatan perintah yang dihasilkan oleh sistem
dengan perintah yang diberikan
7 Jaringan komunikasi masih dilaksanakan untuk local area dari PC ke PC
14 SISTEMATIKA PEMBAHASAN
Sistematika pembahasan penelitian ini sebagai berikut
BAB I PENDAHULUAN
Pada bab ini akan diuraikan tentang latar belakang tujuan batasan masalah dan sistematika
pembahasan masalah yang digunakan
BAB II TEORI DASAR
Pada bab ini akan diuraikan tentang landasan-landasan teori yang digunakan
BAB III PERENCANAAN DAN PELAKSANAAN
Pada bab ini akan diuraikan tentang tahap-tahap perencanaan dan proses pembuatan keseluruhan sistem
yang mendukung untuk membangun sistem pengenalan wicara untuk sistem pengendalian dan monitoring
peralatan rumah tangga jarak jauh
BAB IV PENGUJIAN DAN ANALISIS
Pada bab ini akan dijelaskan tentang hasil pengujian sistem yang telah dibangun baik secara perbagian
ataupun keseluruhan serta analisis terhadap hasil pengujian sistem untuk mengetahui apakah sistem yang
dibangun sesuai dengan yang diharapkan
BAB V KESIMPULAN DAN SARAN
Pada bab ini berisi kesimpulan dari pembahasan pada perencanaan serta analisa pengujian yang
diperolehUntuk lebih baiknya sistem yang dibangun maka disertakan pula saran-saran untuk perbaikan dan
penyempurnaan
Bab 2 Teori Penunjang
3
BAB 2
TEORI PENUNJANG
21 Sistem Pengolahan Sinyal Wicara
211 Sinyal Suara Manusia
Manusia menggunakan suara sebagai sumber informasi untuk mengkomunikasikan keinginan ide dan
perasaannya kepada orang lain Organ tubuh manusia yang digunakan dalam proses produksi wicara adalah
paru-paru tenggorokan(trachea) laring faring rongga hidung(nasal cavity) dan rongga mulut(oral cavity)
Pembangkitan sinyal wicara terletak pada bentuk lintasan vokalnya(vocal tract) Lintasan vokal tersebut terdiri
atas di bawah katup tenggorokan (laryngeal pharynx) antara langit-langit lunak katup tenggorokan (oral
pharynx ) di atas velum dan di ujung depan rongga hidung (nasal pharynx) dan rongga hidung (nasal cavity)1
seperti ditunjukkan gambar 21
Gambar 21 Skema diagram organ penghasil sinyal
Wicara2
Model generator wicara atau model sintesa suara yang dipakai dan menjadi dasar dari pemrosesan
sinyal wicara hingga dewasa ini adalah apa yang dinamakan Analog Terminal seperti pada gambar 22
1 Dewantara Bima Sena Bayu Aplikasi Pengenalan Wicara Untuk Perintah Nirkabel Robot Mikro Mouse TA PENS ITS 2004 hal 5 2 Dutono Titon Penataran Kebahasaan Tahap I Fonetik dan Fonologi Pengolahan Sinyal Wicara Digital 20 Februari 2001
Bab 2 Teori Penunjang
4
Gambar 22 Struktur umum model generator wicara3
Pada model ini sinyal eksitasi(glotal wave) yang berasal dari getaran pita suara diumpankan ke suatu
filter yang merupakan suatu model pendekatan dari lintasan vokal (vocal tract) untuk menghasilkan sinyal
wicara Model analog terminal ini disebut juga pensintesa formant Dasar pendekatan model ini adalah bahwa
lintasan suara adalah suatu bumbung akustik (acoustical cavity) yang mempunyai karakteristik berdasarkan
perpaduan beberapa frekuensi resonansinya Dengan demikian fungsi transfernya dapat didekati dengan
pendekatan kombinasi riam (cascade combination) dari beberapa rangkaian resonansinya Dengan analogi yang
sama sistem ini dapat dibangun dari beberapa rangkaian resonansi yang mempunyai parameter lebar bidang dan
frekuensi resonansi yang selalu berubah setiap saat membentuk suatu sistem berubah waktu (time variant
system)
Struktur sistem pengenal wicara yang ada dapat dibagi menjadi 2 yaitu
1) Mempergunakan pola standart dengan unit kata
Gambar 23 Pola standart dengan unit kata4
2) mempergunakan pola standart dengan unit fonem
yang dilengkapi dengan kamus kosa kata
3 Ibid 4 Ibid
Ekstraksi ciri
Pola standar kata
Pemadanan kata
Algoritma keputusan
Sinyal wicara Output teks
Bab 2 Teori Penunjang
5
Gambar 24 Pola standart dengan unit fonem5
Pada sistem pertama mampu mencakup fenomena koartikulasi tapi tidak fleksibel terhadap perubahan
kosa kata
Sinyal wicara adalah sinyal yang dihasilkan oleh suara manusia dan biasanya mempunyai frekuensi
kerja antara 0 sampai dengan 5000 Hz Bentuk gelombang sinyal wicara mempunyai bentuk yang unik seperti
gambar 23
Gambar 25 a)Sinyal wicara untuk bunyi a pada satu frame pada wanita
b)Sinyal wicara untuk bunyi a pada satu frame pada pria
Berdasarkan gambar 25 terlihat bahwa setiap satu frame terdapat 120 sample yang bersifat quasi
periodik dan mempunyai unsur bunyi terkecil yang disebut sebagai pitch Panjang pitch berkisar 10 ms Pitch
manusia berbeda satu sama lain terutama jenis kelamin laki-laki dan perempuan
212 Sampling
Sinyal wicara merupakan sinyal yang tidak terbatas dalam domain waktu (finite time interval) Suara
manusia akan menghasilkan sinyal analog yang terus kontinyu Untuk keperluan pemrosesan dalam transformasi
fourier maka sinyal wicara harus dibentuk dalam potongan-potongan waktu yang terbatas (infinite time interval)
Karena itu sinyal yang ada dipotong-potong dalam slot-slot interval waktu tertentu
Berdasarkan pada teori sampling Niquist maka syarat dari frekuensi sampling adalah minimal dua kali
frekuensi sinyal
Fsampling 2 x Fsignal ( 21)
Ekstraksi ciri
Pola standar fonem
Pemadanan fonem
Kamus kosa kata
Pemadanan kata
Algoritma keputusan
Sinyal wicara
-20000
-15000
-10000
-5000
0
5000
10000
15000
0 20 40 60 80 100 120 140
pitch -10000
-8000
-6000
-4000
-2000
0
2000
4000
6000
8000
0 20 40 60 80 100 120 140
pitch
Output teks
Bab 2 Teori Penunjang
6
Contoh dari sampling seperti bisa kita lihat pada gambar di bawah
Gambar 26 Contoh proses sampling dengan nilai frekuensi pencuplikan yang berbeda
6
Frekuensi sampling yang digunakan adalah 12000 Hz
Dimana dalam 1 detik sinyal terdapat 12000 titik sampling
213 Preemphasis
Proses preemphasis dimaksudkan agar spektrum sinyal merata di semua frekuensi serta mencegah
kehilangan informasi akibat proses pembulatan pada saat komputasi Fungsi preemphasis adalah
H (z) = 1 ndash az-1 09 le a le 1 (22)
dimana nilai a berkisar 095 Berdasarkan model filter di atas maka keluaran dari preemphasis adalah
s (n) = s (n) - as (n-1) ( 23)
Penjabarannya sebagai berikut
5 Ibid 6 Ibid
Fi = 1000 Hz
Fs = 1250 Hz
Fs = 1000 Hz
Fs = 4000 Hz
Fs = 8000 Hz
Fs 2Fi
Kriteria Nyquis
Fi Frekuensi sinyal informasi Fs Frekuensi pencuplikan
H X Y
T 1 = 12000 = 833 x 10-5 s = 833 μs
10 ms = 833μs x N sample N = 120 sample
Bab 2 Teori Penunjang
7
y = H x
y = (1-az-1) xn
y = xn - 095 xn z-1
y = xn ndash 095 xn - 1
214 Frame Blocking
Sinyal wicara yang telah dipreemphasis s (n) diblok dalam M sampel dimana N 2 x M seperti yang
ditunjukkan pada gambar 27 Jika M le N pergeseran frame akan mengalami overlape hasil perkiraan LPC
spectral akan dikorelasikan dari frame 1 ke frame berikutnya Jika M laquo N perkiraan LPC spectral dari satu frame
ke frame lainnya akan sangat halus (smooth) Dan bila M gt N maka tidak akan ada overlape diantara frame yang
berbatasan dan sinyal suara akan hilang sama sekali dan korelasi diantara perkiraan spectral LPC dari frame
yang berbatasan akan berisi komponen noise
Gambar 27 Pergeseran Frame pada Sinyal Suara
dengan M = 13 N
Sehingga didapatkan nilai dari sinyal yang baru adalah sebagai berikut
x1(n) =s(M 1+n) n =012hellipN ndash 1 l = 012hellipLndash1 (24 )
215 Windowing
Merupakan proses membatasi lebar sinyal yang akan dianalisa yang dapat mengurangi efek
diskontinyuitas pada ujung-ujung frame yang dihasilkan oleh potongan-potongan sinyal Korelasi antara lebar
window dalam domain waktu dan amplitude berguna untuk menyederhanakan sinyal dengan mengurangi
puncak sinyalnya
Ada beberapa jenis windowing yang dinamakan sesuai dengan nama penemunya yaitu
Bab 2 Teori Penunjang
8
Window Hamming
052-046 cos[2лn(N-1)] 0 le n le N-1
Wham(n) =
0 elsewhere
Window Hanning
1-cos[2лn(N-1)] 2 0 le n le N-1
Whan(n) =
0 elsewhere
Window Bartlett
1-cos[2лn(N-1)] 2 0 le n le (N-1)2
WB(n) = 2-2n(N-1) (N-1)2lenleN-1
0 elsewhere
Window Blackman
042-05cos[2лn(N-1)]+008cos[4лn(N-1)]0lenleN-1
WBl(n) =
0 elsewhere
216 Fourier Transform
Transformasi Fourier Diskrit (DFT) adalah deretan yang terdefinisi pada kawasan frekuensi ndash diskrit
yang merepresentaskan Transformasi Fourier terhadap suatu deretan terhingga (Finite Duration Sequence) DFT
berperan penting untuk implementasi algoritma suatu varitas pengolah sinyal karena efisien untuk komputasi
berbagai aplikasi
Salah satu contoh aplikasi komputasi DFT dalam algoritma yang efisien yaitu Fast Fourier Transform
(FFT) Efisiensi suatu algoritma ditentukan dari sejauh mana dapat mereduksi jumlah perkalian dan
penjumlahan serta reduksi lalu lintas data pada memori komputer sehingga proses lebih cepat
Pada DFT untuk memproses N buah titik diperlukan (N-1)perkalian kompleks dan N(N-1)
penjumlahan kompleks Bila N cukup besar dibutuhkan memori yang besar dan waktu yang cukup lama Untuk
itu digunakan metode lain yang lebih cepat yaitu metode transformasi fourier cepat (FFT) FFT dilakukan
dengan membagi N buah titik pada transformasi fourier diskrit menjadi 2 masing-masing N2 titik trnsformasi
Pemecahan menjadi dua pada proses transformasi fourier cepat disebut sebagai proses rekombinasi Dua buah
N2 titik transformasi mempunyai 2(N2) = N2 perkalian Proses memecah menjadi dua ini diteruskan dengan
membagi setiap (N2) titik transformasi menjadi dua buah (N4) titik transformasi setiap (N4) menjadi dua buah
Bab 2 Teori Penunjang
9
(N8) titik transformasi dan seterusnya hingga diperoleh junlah titik yang minimum Jika besarnya N merupakan
kelipatan pangkat dari 2 (disebut radiks 2) maka jumlah titik minimum setelah setiap kali dibagi 2 adalah dua
Ada dua macam metode FFT metode Decimation in Time (DIT) dan metode Dicimation in Frekuensi
(DIF) Kedua metode ini hamper sama Pada metode FFT-DIT N buah titik transformasi dibagi 2 menjadi fungsi
ganjil dan genap masing-masing mempunyai N2 titik transformasi Sedang pada metode FFT-DIF N buah titk
transformasi dibagi menjadi fungsi N2 titk yang pertama dan fungsi N2 titik yang kedua
Operasi pada metode FFT-DIT disebut juga metode kupu-kupu Untuk N buah titik transformasi h(n)
algoritma radiks 2 memerlukan proses perkalian dan rekombinasi sebanyak N2 log N transformasi fourier
diskrit Pada metode FFT-DIT operasi dekomposisi dilakukan dengan membagi fungsi h(n) menjadi 2 bagian
fungsi ganjil dan fungsi genap Atau dengan pernyataan matematika h1(n) dan h2(n) yang masing-masing adalah
untuk n genap dan n ganjil
Prinsip FFT dengan metode DIT adalah seperti pada gambar 24 berikut ini
Gambar 28 Blok metode FFT-DIT 8 titik
7
Pada gambar di atas merupakan jumlah perkalian kompleks N2 log N juga jumlah penjumlahan
kompleks = N2 log N
217 Linear Prediction Code
Ide dasar dari LPC adalah bahwa pada model ini memberikan sampel suara pada domain waktu yang
bisa didekati sebagai kombinasi linear dari sampel suara yang telah lalu
Teori Linear Prediction Coding (LPC) yang diaplikasikan pada wicara telah dimengerti selama
beberapa tahun Pada bagian ini akan dijelaskan dasar dari bagaimana LPC diaplikasikan pada sistem pengenlan
wicara
Sebelum menjelaskan LPC secara umum sebagai pemrose front-end untuk pengenalan wicara perlu
diketahui alasan mengapa LPC sangat banyak digunakan yaitu
1 LPC menyuguhkan model yang bagus untuk sinyal wicara
2 Cara yang digunakan LPC untuk analisa sinyal wicara sangat beralasan untuk pemisahan track dari
sumber vocal
3 LPC adalah model traktabel secara analitis
Bab 2 Teori Penunjang
10
4 Model LPC bekerja dengan baik pada aplikasi pengenalan
2171 Autocorrelation Analysis
Masing-masing frame sinyal yang telah diwindow kemudian di-autokorelasikan dengan menggunakan
persamaan
N-1-M
r1(m) = sum x1(n) x1(n+m) m = 0 1 p ( 25) (25)
n = 0
dimana nilai autokorelasi tertinggi p adalah orde dari analisi LPC Pada umumnya nilai dari p yang
sering digunakan adalah dari 8 sampai 16 Sisi menguntungkan dari analisis autokorelasi adalah bahwa
autokorelasi ke-0 R1 (0) adalah energi dari frame ke-1 Energi dari frame merupakan parameter
penting untuk system deteksi wicara
2172 LPC Analysis
Langkah selanjutnya adalah analisis LPC dimana mengkonversi masing-masing frame dari
auto korelasi p+1 ke dalam sebuah ldquoLPC Parameter Setrdquo dimana kumpulan itu merupakan koefisien
LPC koefisien refleksi atau PARCOR koefisien log area ratio koefisien Cepstral atau beberapa
transformasi pada kumpulan tersebut
Metode yang formal untuk mengkonversi dari koefisien autokorelasi ke sebuah LPC parameter
set (untuk metode autokorelasi) dikenal sebagai Metode Durbin dan secara formal dapat ditunjukkan
pada algoritma berikut ini
E(0) = r(0) ( 26)
Ki=r(i)-sumαj(i-1) r(|i-j|)E(i-1) 1 le I le p ( 27)
αi(i) = ki (28)
αj(i) = αj
(i-1)-ki α(i-1) ( 29)
t-j
E(i)=(1-ki2)E (i-j) (210)
dimana penyajian akhir dari persamaan mengabaikan i=1 Kumpulan dari persamaan hellipdiselesaikan secara
rekursif untuk i=12hellipp dan penyelesaian akhir diberikan sebagai
am=koefisien PC=αm 1lemlep ( 211)
7 Agus Wahyudi Verifikasi Sinyal Suara Sebagai Kendali Arah TA PENS-ITS 2002
Bab 2 Teori Penunjang
11
km=koefisien PARCOR ( 212)
1 - km
gm=koefisien log area ratio = log ----------- ( 213)
1 + km
2173 LPC Parameter Corversion to Cepstral Coefficients
Sekumpulan parameter LPC yang sangat penting yang dapat diturunkan langsung dari kumpulan LPC
adalah koefisien cepstral LPC c(m) Rekursif yang digunakan adalah
co = ln σ2 ( 214)
m-1
cm = am + sum ck am-k 1 le m le p ( 215)
k = 1
m-1
cm = sum ck am-k m gt p
k = 1
dimana σ2 adalah penguatan dalam model LPC Koefisien cepstral koefisien yang direpresentasikan dengan
fourier transform dengan spectrum besaran log telah ditampilkan menjadi kumpulan fitur untuk pengenalan
wicara yang lebih handal terpercaya daripada koefisien LPC koefisien PARCOR atau koefisien log area ratio
218 Dynamic Time Wraping
Dynamic Time Wraping (DTW) merupakan cara untuk membandingkan pola wicara dalam menentukan
kesamaan jarak antara pola-pola yang berbeda Dimana pengenalan wicara merupakan proses secara otomatis
dalam mengambil dan menentukan informasi linguistic yang disampaikan dengan gelombang wicara
menggunakan komputer atau sirkuit elektronik Informasi linguistic tersebut pada akhirnya akan
direpresentasikan dengan deretan waktu vektor-vektor spektral
Metode nolmalisasi waktu menggunakan dua buah fungsi warping
ix = Фx (k) k = 123hellipT (216)
iy = Фy (k) k = 123hellipT
2181 Dynamic Programming
Dynamic Programming (DP) digunakan untuk memecahkan masalah deteksi pengurutan kemampuan
menggunakan pola pengenalan wicara dan masalah waktu penjajaran dan normalisasi Ada dua tipe masalah
penggunaan Dynamic Programming yaitu
(
)
k m
( )
K m ( )
Bab 2 Teori Penunjang
12
1 Masalah jalan optimal dengan menganggap sekumpulan titik mulai dari 1 sampai dengan N yang
dihubungkan dengan pasangan setiap dari titik (ij) Representasi perpindahan secara langsung dari titik
ke-1 ke titik yang lainnya Rentetan perpindahan tersebut tidak mempunyai bilangan yang ditetapkan
dari transisi satu titik ke titik yang lainnya hal ini disebut rentetan keputusan asinkron
Dengan Terminologi sederhana kita membuat garis keputusan untuk menetukan titk berikutnya setelah
kebijaksanaan pada titik i
Prinsip dari optimalisasi yang merupakan kelas dasar dari algoritma komputasi untuk optimasi masalah
di atas berdasarkan pernyataan Bellman
rdquoKebijakan optimasi yang memiliki sifat apapun ketetapan dan ketentuannya keputusan berikutnya
harus merupakan hasil ketetapan dari keputusan yang pertamardquo
2 Masalah keputusan rentetan sinkronisasi terdapat perbedaan dari satu sinkronisasi yang beraturan dari
proses keputusan
Penggunaan teknik Dynamic Programming pada Dynamic Time Warping untuk pertama kali dilakukan
oleh Slutsker (1968) Vintsyuk (1968) dan Volichko (1971) dari Jepang untuk pengenalan wicara Pada proses
ini pembicara mengucapkan kata yang sama dengan durasi berubah setiap waktu dengan ekspansi yang non
linier Oleh karena itu Dynamic Time Wraping adalah tahap yang penting dalam proses pengenalan kata Proses
DTW mengalami pengembangan pada sumbu waktu untuk mencocokan posisi phonemkata yang sama antara
input wicara dan referensi template
Dynamic Programing secara umum digunakan untuk memecahkan masalah rentetan keputusan yang
dilakukan pada bidang kisi sebagaimana ditampilkan pada gambar 27 Sinyal yang dicocokkan adalah A dan B
Di dalam bidang kisi sinyal A disesuaikan sepanjang sumbu ndashx dan sinyal B disesuaikan sepanjang sumbu ndashy
Setiap antar bagian pada bagian ini ditetapkan sebagai sebuah simpul atau titik dimana titik (ij) adalah
pencocokan frame I untuk sinyal A dengan frame j untuk sinyal B Misalnya diasumsikan dua rentetan waktu
untuk vektor utama yang dibandingkan sebagai berikut
A = a1a2hellipaI dan B = b1b2hellipbJ
Dengan menganggap rentang bidang antara A dan B sebagaimana ditunjukkan pada gambar 27
fungsi pelengkungan waktu yang sesuai menunjukkan waktu antara rentetan A dan B dapat dipresentasikan
sebagai rentetan titk-titik Lattice pada bidang c = (ij) sebagai berikut
Bab 2 Teori Penunjang
13
Gambar 29 Plane jaringan untuk ilustrasi
pemrograman dinamik8
Bilamana jarak spektral antara dua vektor utama a1 dan b1 direpresentasikan oleh d(c) = d(ij) penjumlahan
jarak dari awal sampai akhir dari rentetan sepanjang F dapat direpresentasikan dengan
K
sum d(ck)wk
k=1
D(F) = mdashmdashmdashmdashmdash (217)
K
sum wk
k=1
Semakin kecil nilai ini semakin baik kecocokan antara A dan B Dimana wk adalah fungsi pembobotan
positif terhadap F
Dengan memperkecil persamaan di atas dengan kondisi berikut
1 Kondisi monotonisasi dan kontinuitas
0 le ik-ik-1le1 0 lejk ndash jk -1 le 1 ( 218)
2 Kondisi perbatasan
I1=j1=Iik=Ijk=I (219)
3 Kondisi adjustmen window
|ik ndash jk|ler r=konstan ( 220)
Pendefinisian wk sedemikian rupa sehingga menyebut pada persamaan 219 menjadi konstan yang
tidak tergantung pada F Untuk contoh jika
Wk = (ik ndash ik -1)+(jk ndash jk -1)(i0=j0=0) wk akan menjadi
8 Ibid hal 15
Bab 2 Teori Penunjang
14
K
sum wk = I + J (221) k=1
dan persamaan 219 menjadi
1 K
D(F)= mdashmdash sum d(ck)wk ( 222)
I + J k=1
Gambar 210 DTW antara dua rentetan waktu A dan B
9
Karena fungsi obyektif yang akan diminimasi menjadi penjumlahan maka peminimisasi secara efisien
dapat diselesaikan tanpa harus menguji semua kemungkinan untuk F Penjumlahan pada sebagian rentetan c1
c2 hellip ck (ck=(ij)) adalah
(224)
Penurunan pemrograman dinamik pada persamaan-persamaan diatas penggunaan kondisi untuk F dan
formulasi perumusan wk persamaan 2115 dapat dituliskan kembali sebagai berikut
9 Ibid hal 17
Bab 2 Teori Penunjang
15
g(ij-1)+d(ij)
g(ij) = min g(i-1j-1) + 2d (ij) (225)
g(i-1j) +d(ij)
Oleh karena itu jarak antara dua rentetan waktu A dan B setelah DTW dapat diperoleh sebagai berikut
Kita set dari kondisi awal untuk g(11)=2d(11) dan j=1 dan hitung persamaan 2116 dengan variasi I dalam
sepanjang adjustment window Perhitungan ini diulangi dengan menaikkan j sampai j=1 Jarak keseluruhan
antara dua rentetan waktu A dan B dapat diperoleh dari g(IJ)(I+J)
2182 Batasan Normalisasi Waktu
Supaya proses normalisasi waktu mempunyai arti pada perbedaan batasan dengan berbagai variasi
interval waktu dibutuhkan beberapa batasan terhadap fungsi warping
2183 Batasan Titik Awal Akhir
Bilamana pola wicara yang dibandingkan merupakan tuturan per kata maka harus memenuhi syarat pola
mulai dari titik awal sampai titik akhir dari tanda permulaan dan pengakhiran pola wicara Titik awal dan akhir
mempunyi batasan yang membatasi pola wicara harus dipenuhi
Titik awal Фx(1) = 1 Фy(1) = 1 (226)
Titik akhir Фx(T) = Tx Фy(T) = Ty (227)
2184 Kondisi Monotonisasi
Rentetan pola spectral pada wicara sangat penting dalam menentukan arti linguistic sehingga tidak
akan hilang Untuk mempertahankan pola tersebut harus memenuhi
Фx(k + 1) ge Фx(k) (228)
Фy(k + 1) ge Фy(k)
22 Awal dan Akhir Sinyal Suara
221 Power
Sinyal suara yang diolah haruslah merupakan sinyal suara murni dan tidak bercampur dengan noise
ataupun header tail yang dibawa oleh suara saat perekaman apalagi jika pengenalan sinyal suara dengan jumlah
vocabulary yang besar Oleh karena itu sinyal suara hasil perekaman harus dicari nilai awal dan akhirnya agar
pengolahan sinyal suara tersebut menjadi lebih valid
Dan salah satu cara dalam menentukan nilai awal dan akhir dari sinyal suara adalah dengan
menggunakan power yang mempunyai persamaan sebagai berikut
( )
Bab 2 Teori Penunjang
16
239
p= sumradic xt2 (229)
t=0
Sinyal suara yang dibagi menjadi beberapa frame mempunyai power dari tiap framenya yang kemudian
didapatkan nilai rata-ratanya yang kemudian diperoleh nilai awal dan akhirnya dengan menambahkan 3 kali
standart deviasi Dimana penentuan awal dan akhir dari sinyal suara dapat diperoleh dengan
p ge p + 07 standart deviasi
Power
0
20000
40000
60000
80000
100000
120000
140000
160000
0 10 20 30 40 50 60
Jumlah Frame
Am
pli
tud
o
Gambar 211 Bentuk power dari kata
Nilai beberapa kali hasil percobaan
222 Unvoiced Plosive
Pada suatu sinyal suara yang terekam terdapat pemutusan sinyal atau kondisi kosong yang bukan
merupakan noise tetapi masih didalam lingkup suara Tapi kondisi ini hanya terjadi pada kebanyakan sinyal
suara yang terdapat konsonan tertentu yaitu sinyal suara dari kata yang mempunyai konsonan p t k Kondisi ini
disebut Unvoiced Plosive atau loncatan sinyal suara setelah kondisi kosong seperti ditunjukkan pada gambar
berikut
Gambar 212 Unvoiced Plosive
Bab 2 Teori Penunjang
17
Dan untuk penentuan awal dan akhir daerah kosong tersebut harus diperhitungkan agar didapatkan
nilai awal dan akhir dari sinyal suara yang valid yaitu dengan mencari nilai rata-rata dari daerah kosong dari
beberapa sinyal suara Kemudian dengan dicari nilai thresholdnya yaitu nilai terpanjang dari daerah kosong
sebesar 2 dari seluruh daerah kosong yang telah dihistogram
23 JARINGAN DENGAN TCPIP
Meskipun hubungan computer melalui serial dan parallel telah ada sejak lama multijaringan belum
menjadi masalah serius bagi para peneliti di bidang jaringan sampai awal tahun 1980 Perkembangan teknologi
LAN itu sendiri didasarkan banyak alasan Salah satu yang menjadi alasan utama adalah adanya perusahaan
yang ingin melakukan sharing data file printer dan resource lainnya ke pc lain
231 Mengenal TCPIP
Sebelumnya kita definisikan lebih dahulu apa yang dimaksud protocol itu Bila dua computer ingin
melakukan komunikasi keduanya tentu saja harus menggunkan bahasaturan yang sama Aturan-aturan inilah
yang disebut protocol Misalnya untuk mengirim mail digunakan protocol SMTP berhubungan dengan WWW
menggunakan HTTP dan sebagainya Jadi protocol merupakan aturan dalam melakukan komunikasi
TCPIP ( Transmission Control Protocol Internet Protocol) merupakan protocol yang bersifat open
networking Maksudnya semua penjelasan teknis tentang protocol tersebut diumumkan karena ada juga
mekanisme jaringan yang menyembunyikan detail dari sistemnya Hal inilah yang membuat TCPIP menjadi
terkenal
Adapun keuntungan dengan menggunakan protocol TCPIP adalah kemudahannya karena
memungkinkan hubungan antara berbagai system operasi dan berbagai jenis computer (platform)
TCPIP bukanlah protocol tunggal tetapi merupakan sekumpulan protocol sehingga lebih tepat disebut
sebagai keluarga TCPIP Setiap protocol pada TCPIP memiliki tugas tertentu yang berbeda Semua protocol
tersebut menggunakan protocol primer untuk mengirimkan paket data Protocol primer tersebut adalah TCP dan
IP
Protokol lainnya dapat dikelompokkan berdasarkan tujuannya sebagai berikut
1 Transport
Digunakan untuk mengatur perpindahan data antara dua mesin Antara lain
- TCP (Transmission Control Protocol)
- UDP (User Datagram Protocol)
2 Routing
Digunakan untuk pengalamatan data dan menentukan rute terbaik antara lain
- IP (Internet Protocol)
- ICMP (Internet Control Message Protocol)
- RIP (Routing Information Protocol)
Bab 2 Teori Penunjang
18
3 Network Address
Menangani bagaimana suatu mesin diberikan suatu alamat antara lain
- ARP ( Address Rwesolution Protocol)
- DNS ( Domain Name Sistem)
- RARP (Reverse Address Resolution Protocol)
4 User Service
Merupakan aplikasi yang harus diakses user antara lain
- FTP ( File Transfer Protocol)
- TFTP (Trivial File Transfer Protocol)
- TELNET
5 Gateway Protocol
Untuk membentuk proses komunikasi routing dan status informasi antara lain
- EGP (Exterior Geteway Protocol)
- GGP (Gateway to Gateway Protocol)
- IGP (Interior Gateway Protocol)
232 Koneksi TCPIP
Untuk mengkonfigurasi TCPIP maka dibutuhkan
Alamat IP
Alamat IP ini sebagai pengenal atau alamat mesin Karena setiap mesin yang terhubung jaringan
harus memiliki penganal yang unik sehingga memungkinkan melakukan routing Jaringan dengan TCPIP
menggunakan pengalamatan 32 bit sebagai alamat atau pengenal setiap mesin yang terkoneksi dengan jaringan
Pengenal ini disebut alamat IP Pesan atau data yang dikirim melalui TCPIP menggunakan alamat IP ini untuk
mengenali mesin pengirim dan penerimanya
Biasanya alamat IP dapat dikelompokkan menjadi dua bagian yaitu
1 Nomor Network
2 Nomor Device dalam Network tersebut
Alamat IP tersebut dipisahkan menjadi empat bagian yang masing-masing berukuran 8 bit Empat
bagian tersebut dipisahkan oleh tanda titik dan setiap bagian tersebut memiliki angka 0-255 Contohnya
192168101
Pemberian alamta IP umumnya ditentukan berdasarkan ukuran dari jaringan tersebut Jaringan
dapat diklasifikasikan menjadi tiga kategori yaitu kelas A kelas B kelas C Ketiga kelas tersebut membagi
pengalamatan 32 bit dengan ukuran berbeda untuk nomor Network dan Host
Pengalamatan pada kelas A memungkinkan bagian ini memiliki angka dari 0-127 Sedangkan
pengalamatan B memungkinkan memiliki angka dari 128-191 pengalamatan pada kelas C memungkinkan
memiliki angka dari 192-223
Network Mask
Bab 2 Teori Penunjang
19
Network mask merupakan alamat IP dimana lamat networknya diset ke nilai 255 Jika alamat IP
termasuk kelas A maka network masknya yaitu 255000 Jika alamat IP termasuk kelas B maka network
masknya yaitu 25525500 Jika alamat IP termasuk kelas C maka network masknya yaitu 2552552550
AlamatNetwork
Alamat network ini dapat diperoleh dari alamat IP dimana bit-bitnya dilakukan operasi AND
dengan network mask Dengan demikian untuk network kelas B dengan IP 192168101 maka alamat
networknya adalah 19216800
Alamat Broadcast
Alamat broadcast dibutuhkan bila suatu mesin ingin mengirimkan paket yang sama ke semua
device pada jaringan
Alamat Gateway
Alamat gateway merupakan alamat IP dari mesin yang menghubungkan jaringan dengan jaringan
di luar misalnya internet Pada umumnya alamatgateway memiliki IP yang sama dengan mesin yang kita miliki
tetapi mempunyai nomor device 1 Dengan demikian untuk network kelas B dengan alamt IP 192168101
alamat gatewaynya adalah 19216811
Alamat Nameserver
Jaringan-jaringan besar umumnya memiliki sebuah mesin untuk mentranslasikan alamat IP menjadi
nama yang lebih mudah dikenal manusia Misalkan sebuah mesin dengan IP 192168101 dapat diberi nama lain
seperti puspacsuiacid sebagai alamatnya Proses translasi ini dilakukan dengan system yang dikenal dengan
nama Domain Name System (DNS)
24 BEKERJA DENGAN SOCKET
Komponen socket program yang dapat membantu dalam pembuatan suatu aplikasi yang berkomunikasi
antara suatu system computer dengan system computer yang lain dengan menggunakan protocol TCPIP dan
protocol lain yang terhubung
241 Pengertian Socket Program
Pada sub bab ini akan dijelaskan tentang komoponen socket program yang dapat berkomunikasi antara
system computer dengan system computer yang lain dengan menggunakan protocol TCPIP dan protocol lain
yang terhubung Dengan socket program ini kita dapat membaca dan menulis pada hubungan ke mesin yang lain
tanpa mengalami kesulitan pada software jaringan Socket program dapat mengadakan hubungan berbasis
protocol TCPIP tetapi dapat juga bekerja umunya dengan protokol-protokol yang terhubung seperti Xerox
Network System (XNS) dan yang lain
Bab 2 Teori Penunjang
20
242 Penjabaran Socket
Socket mengijinkan aplikasi jaringan kita berkomunikasi dengan sistem lain di luar jaringan
Masing- masing socket bisadipandang sebagai titik akhir dalam suatu koneksi jaringan Socket tersebut memiliki
spesifikasi sebagai berikut
a) Sistem yang sedang dijalankan
b) Tipe interface port yang digunakan
Penjelasan lengkap dari sebuah koneksi socket terdiri dari address socket pada kedua titik akhir
koneksi Kita akan menguraikan address dari masing- masing titik akhir socket dengan memberi nomor IP
address atau host dan port
Sebelum membuat koneksi socket sebelumnya harus menguraikan dengan lengkap socket-socket
yang membentuk titik akhir Beberapa informasi tersedia dari sistem aplikasi yang dijalankan Sebagai contoh
kita tidaka akan membutuhkan IP Address Local dari socket client sebab informasi ini terdapat pada sistem
operasi
Informasi yang akan kita berikan bergantung pada tipe socket yang sedang bekerja Socket client
harus menggambarkan port yang merepresentasikan layanan yang mereka berikan
243 Memilih Host Name dan IP Address
Kebanyakan aplikasi menggunakan host name untuk merinci sebuah system Host Name mudah
untuk diingat dan dicek Menggunakan host name memungkinkan socket client untuk menemukan situs abstrak
yang diwakili oleh nama host meskipun telah dipindah ke IP Address yang baru Jika nama host tidak diketahui
socket client akan akan menyatakan system server sedang menggunakan IP Addressnya Ketika kita
menyediakan host name socket akan mencari IP Address yang berhubungan dengan host name sebelum socket
tersebut dapat menempatkan pada sistem server
Bab 3 Perencanaan dan Implementasi
21
BAB 3
PERENCANAAN DAN IMPLEMENTASI
31 Pendahuluan
Pada bab ini akan dijelaskan mengenai pengolahan sinyal wicara untuk mendapatkan ciri setiap
individu Juga akan dibahas mengenai pengolahan hasil keluaran sinyal wicara untuk ditransmisikan ke PC lain
(lewat jaringan) Dan selanjutnya akan dibahas pula mengenai plan atau obyek yang dalam hal ini adalah lampu
pijar
Berikut ini adalah blok diagram sistem secara keseluruhan
Gambar 31 Blok Diagram Sistem Secara Keseluruhan
Speaker pada gambar 31 memberikan suaranya sebagai masukan lewat mikrofon Masukan ini
akan diolah dalam PC client mulai dari proses sampling frame windowing FFT LPC Kemudian hasil dari
LPC dicari pemadanan dengan LPC dari sinyal standar yang telah tersimpan sebagai data base di dalam PC
client Hasil dari DTW tersebut akan dikirimkan ke PC server melalui TCPIP untuk diproses menjadi suatu
perintah ke perangkat keras Perintah tersebut merupakan bentuk implementasi dari perintah yang diberikan dari
PC client
Sebaliknya dengan adanya perubahan kondisi pada peralatan yang diinginkan maka terjadi sinyal
balikan yang berupa sinyal DTMF yang dikirimkan oleh perangkat keras ke PC server Oleh PC server sinyal ini
diolah untuk dikenali sebagai suatu kondisi tertentu yang akan dikirimkan ke PC client sebagai laporan tentang
kondisi alat yang diinginkan
32 Sistem Pengolahan Sinyal Wicara
321Perekaman Suara
TCPIP
Pengucap Speaker ADC Pengolahan Wicara dan Monitoring
Peralatan yang terkontrol
LAN Card
LAN Card
Pengenalan Pola Pengiriman Tone DTMF dan Pengenalan DTMF Sebagai Laporan
DTMF Decoding DTMF Generator Sistem Switching
Alat Terkontrol
Bab 3 Perencanaan dan Implementasi
22
Perekaman suara dilakukan menggunakan software berbasis TclTk 830 dan Snack22 Sebelumnya
akan dijelaskan satu per satu program yang dipakai
o TclTk 830
Tcl kepanjangan dari Tool Control Language Tk adalah Graphical Toolkit extension dari Tcl yang
menyediakan bermacam-macam item standar antarmuka GUI untuk memfasilitasi secara cepat pengembangan
aplikasi tingkat tinggi
o Snack22
Snack adalah tool pengolahan suara yang didesain sebagai extensi untuk bahasa script Saat ini Snack bekerja
dengan bahasa script TclTk Phyton dan Ruby Snack memiliki perintah-perintah untuk play record process
dan dan memvisualisasi suara Snack menyediakan obyek suara tingkat tinggi dengan manajemen penyimpanan
yang fleksibel dan streaming support Snack dapat bekerja pada banyak format file suara
Kita dapat membangun aplikasi sepaerti di bawah ini dengan integrasi dari TclTk dan Snack
Gambar 32 Program aplikasi pengenalan wicara
Frekuensi sampling pada program di atas diset pada frekuensi 12 kHz Frekuensi ini dipilih karena biasa
digunakan untuk voice Selain itu juga diset pada channel Mono dan sinyal encoding LIN 16 (resolusi 16 bit
PCM) Pada penekanan tombol ldquorecordrdquo diikuti tombol ldquostoprdquo dan kemudian tombol ldquostandartrdquo maka akan
dimulai proses perekaman yanag akan digunakan untuk membuat file standar untuk kedelapan perintah yang
akan digunakan untuk pembanding sinyal masukan
Adapun proses untuk sistem yang akan dibuat dapat digambarkan dengan diagram alir seperti di bawah
Bab 3 Perencanaan dan Implementasi
23
Mulai
Package Require
Snack 22
Exit
Program On
Running
Recording
Sound Card
Produser Running
Prosedur Recording
DTMF
Keluar
Tidak
YaTidak
Ya
Ya
Ya
Ya
Tidak
Tidak
Tidak
Gambar 33 Flowchart Sistem Graphical User
Interface
322 Sampling
Seperti telah dijelaskan di depan bahwa frekuensi sampling yang digunakan adalah sebesar 12000Hz
dimana dalam 1 detik sinyal terdapat 12000 titik sampling Sebagai contoh seperti gambar di bawah ini suatu
sinyal epanjang 20 ms disampling 12000 Hz menghasilkan titik sampling sebanyak 240 titik
Data Sampling
-20000
-15000
-10000
-5000
0
5000
10000
15000
20000
0 200 400 600
Amplitudo
Jumlah Data
Gambar 34 Sinyal hasil sampling dengan
frekuensi 12000 Hz
Bab 3 Perencanaan dan Implementasi
24
Mulai
Sinyal Masukan
Baca Panjang Sinyal
Bagi Menjadi N Frame
i = 0 i lt N i++
Ambil 240 Data Sampel
Tampilkan Nilai
Sampel
Selesai
Gambar 35 Flowchart Proses Sampling
323 Pre-emphasis
Agar spektrum sinyal merata di semua frekuensi dan mencegah kehilangan informasi akibat pembulatan
pada saat komputasi maka dilakukan prose preemphasis Fungsi transfer preemphasis adalah
H(z) = 1 ndash a z-1 09 le a le 1 (31)
Dimana nilai a berkisar 095 Berdasarkan model filter di atas maka keluaran dari preemphasis adalah
s(n) = s(n) ndash a s(n-1) (32)
324 Frame Blocking
Hasil perekaman merupakan sinyal dalam domain waktu yang bersifat variant time (fungsi yang
bergantung pada waktu) Sinyal yang telah dipreemphasis kemudian dibagi menjadi n buah frame Dengan
jumlah sample per frame sebesar N dan adjacent frame sebesar M sample Dimana M=05N Pada frame
pertama terdiri dari N buah sampel Frame kedua dimulai pada sampel ke M sehingga terjadi overlape sebesar
N - M sampel Begitupula untuk frame yang ketiga dimulai dari sample ke 2M sehingga terjadi overlape dari
farme kedua sebesar N + M-2M sampel juga Hal ini akan terus berlangsung hingga seluruh sinyal terbagi
menjadi beberapa frame
Bab 3 Perencanaan dan Implementasi
25
Gambar 36 Frame blocking sinyal
325 Windowing
Windowing yang digunakan adalah window hamming Setelah proses pengambilan sample maka
langkah selanjutnya adalah proses selanjutnya adalah proses windowing yang berfungsi untuk mengurangi efek
diskontinyuitas pada ujung-ujung frame Persamaannya adalah sebagai berikut
y[i] = x[i](054-046cos(20314159265(i-1)240) (33)
Flowchartnya bisa dilihat seperti di bawah
Mulai
240 Data
Sampel
i= 0 i lt 240 i++
Hamming Window
y[i] = x[i](054-046cos(2phi(i-1)
240))
Tampilkan
nilai
Hamming
Selesai
Gambar 37 Flowchart Proses Windowing
326 Fast Fourier Transform
Transformasi fourier cepat (FFT) adalah suatu metode yang sangat efisien untuk menyelesaikan
transformasi fourier diskrit (DFT) yang banyak dipakai untuk keperluan analisa sinyal Sehingga dengan FFT
N N N M
M N
N N
M
Bab 3 Perencanaan dan Implementasi
26
sinyal yang disampling dalam domain waktu ditransformasikan ke domai frekuensi dengan menggunakan
persamaan sebagai berikut
N-1
H(k) = sum h(n)e-j2лkN (34)
n=0
dengan k= 012N-1
Prosesnya dapat dilihat dari flowchart di bawah
Mulai
240 data
sampel
256 data sampel
i=0 ilt256 i++
tmp_log1=(xr[k]xr[k]+xc[k]xc[k])
tmp_log gt 0
xr[k]=10log10(tmp_log1)
Tampilkan
nilai
hamming
Selesai
xr[k]=10log10(0000001)
Ya
Tidak
Gambar 38 Flowchart Proses Fast Fourier
Transform
327 Autocorrelation analysis
Hasil dari windowing sinyal masukan kemudian dihitung autokerelasinya dengan persamaan
N-1-m
r1(m) = sum x1(n)x1(n+m) m=01p (35)
n=0
dimana niali autokorelasi tertinggi p adalah orde dari analisis LPCPada umumnya nilai dari p yang sering
digunakan adalah dari 8 sampai 16
Proses Autokorelasi dapat dilihat dari flowchart di bawah ini
Bab 3 Perencanaan dan Implementasi
27
Mulai
240 data p lpc
orde
i=0 iltp i++
j=0 jlt240-p-1 j++
RI[j]=sum(xI[i]xI[i+j])
Tampilkan nilai
autocorrelation
Selesai
Gambar 39 Flowchart Proses Autokorelasi
328 LPC Analysis
Hasil koefisien autokorelasi kemudian dikonversikan ke sebuah LPC parameter set (untuk metode LPC
autokorelasi) dikenal sebagai Metode Durbin dan secara formal ditunjukkan dari algoritma sebagai berikut
E(0) = r(0) (36)
ki=r(i)-sumαj(i-1) r(|i-j|)E(i-1) 1 le I le p (37)
αi(i) = ki (38 )
αj(i) = αj
(i-1)-ki α(i-1) ( 39)
t-j
E(i)=(1-ki2)E (i-j) (310)
dimana penyajian akhir dari persamaan 37 mengabaikan i=1 Kumpulan dari persamaan 36 -310 diselesaikan
secara rekursif untuk i=12p
Proses analisis dapat dilihat dari flowchart di bawah
Bab 3 Perencanaan dan Implementasi
28
Mulai
Autocorrelationr
p lpc orde
E (0) = r(0)
k1
= r(i)-sumalpha j (i-1) r( | i-j|E(i-1)
alpha j (i) = k
i
alpha j
(i) = alpha (i-1) -k i alpha
i-j (i-1)
E (i) = 1-k i 2) E(i-1)
Tampilkan nilai
parameter lpca
Selesai
i=0 iltp i++
Gambar 310 Flowchart proses LPC analisis
329 LPC Parameter to Cepstrum Analysis
Sekumpulan parameter LPC yang sangat penting yang dapat diturunkan langsung dari kumpulan
koefisien LPC adalah koefisien cepstral LPC c(m) Rekursif yang digunakan adalah
co = ln σ2 ( 311)
m-1
cm = am + sum ck am-k 1 le m le p (312)
k = 1
m-1
cm = sum ck am-k m gt p ( 313)
k = 1
Proses LPC parameter ke Cepstrum Analysis dapat dilihat dari flowchart di bawah ini
k m ( )
k m ( )
Bab 3 Perencanaan dan Implementasi
29
Mulai
lpc parameter a
p lpc orde
c o = ln del 2
1 lt=mlt=p
i=0 iltp i++
Cm
= am
+sum((km)Ck a
m-kC
m =sum((km)C
ka
m-k)
Tampilkan nilai lpc
cepstrumc
Selesai
Gambar 311 Flowchart Proses LPC parameter ke
Cepstrum
3210 Dynamic Time Warping
Proses yang terjadi pada Dynamic Time Warping adalah pengukuran jarak suara antara sinyal standart
dan sinyal input Yang diukur berupa deretan nilai dari hasil LPC Cepstrum dalam bentuk kolom dan baris (ij)
yang disimpan dalam satu file Pada kolom berisi nilai tiap cepstrum sedangkan baris berupa banyaknya frame
Teknik yang digunakan dinamakan Dynamic Programming Alur kerjanya dapat dilihat dari flowchart di bawah
Bab 3 Perencanaan dan Implementasi
30
Mulai
i=0 iltN i++
j=0 jlt15 j++
Cepstrum
Standart
Std_Ceps [i][j]
Cepstrum
Input
Inp_Ceps [i][j]
DP_dist = DP_match1(r)
DP_dist
Selesai
Gambar 312 Flowchart Proses Dynamic Programming
33 Awal dan Akhir Sinyal suara
331 Power
Untuk mendapatkan suatu sinyal suara tanpa adanya noise maka sinyal harus benar-benar dipotong
tepat pada awal dan akhirnya Oleh karena itu dipakai power sebagai salah satu cara yang efektif dalam
menentukan awal dan akhir suatu sinyal suara
Dimana tiap frame mempunyai power yang merupakan hasil kuadratisasi dari penyampelan tiap frame
yang kemudian hasil keseluruhan diakarkan seperti bisa dilihat pada flowchart di bawah
Bab 3 Perencanaan dan Implementasi
31
Mulai
Power = 0
i=0 ilt240 i++
Power=Power+sqrt(xixi)
Selesai
Gambar 313 Flowchart Proses Power
Jumlah sample per frame ditetapkan sebesar 240 sampel Kemudian dicari power masing-masing antara sinyal
utuh dan sinyal noise kemudian dengan p ge p + 07 standar deviasi maka didapatkan awal dan akhir sinyal
suara
332 Unvoiced Plosive
Adanya daerah kosong menyebabkan sinyal tidak valid dalam pemotongan awal dan akhirnya karena
bisa dianggap noise padahal berada dalam sinyal suara ( merupakan bagian dari sinyal suara) Oleh karena itu
dicari mean dari 25 kata sinyal suara yang kemudian dicari nilai thresholdnya sebagai panjang akhir dari daerah
kosong Dan nilai tersebut diikutsertakan dalam looping dan jika setelah itu terdapat sinyal kembali maka
berarti masih ada sinyal suara dan jika tidak ada berarti tidak ada sinyal suara
34 Proses Pada Client
Preses pada client dapat dijelaskan sebagai berikut
Gambar 314 Blok diagram proses client
Penjelasan dari blok digram tersebut adalah
1 Pertama adalah perekaman suara pada software recording yang hasilnyadisimpan dalam bentuk file
berekstensi ldquowavrdquo File ini selanjutnya akan dijadikan file input pada sistem client
2 File suara yang telah tersimpan diolah dalam program sampling untuk mendapatkan sinyal suara dalam
bentuk frame Setiap frame terdiri dari 120 sampel
Mic Extract AD Voice Dikenali
Bab 3 Perencanaan dan Implementasi
32
3 Tiap frame diwindow dengan window Hamming untuk mengurangi efek diskontinyuitas pada ujung-
ujung frame
4 Sinyal hasil window yang masih dalam domain time diubah ke dalam domain frekuensi dengan Fast
Fourier Transform (FFT)
5 Hasil dari windowing sinyal masukan kemudian dihitung autokerelasinya
6 Hasil koefisien autokorelasi kemudian dikonversikan ke sebuah LPC parameter set (untuk metode LPC
autokorelasi) Sekumpulan parameter LPC yang sangat penting yang dapat diturunkan langsung dari
kumpulan koefisien LPC adalah koefisien cepstral LPC
7 Selanjutnya dilakukan proses DTW (Dynamic Time Warping) pengukuran jarak suara antara sinyal
standart dan sinyal input Hasilnya disimpan dalam sebuah file berekstensi ldquotxtrdquo
8 File berekstensi txt tersebut ke server sebagai sinyal suara input
35 Proses Pada Server
Proses pada server dapat dijelaskan sebagai berikut
Gambar 315 Blok diagram proses server
Penjelasan dari blok diagram tersebut adalah
1 Isi file berekstensi rdquotxtrdquo diterima oleh server dan digunakan sebagai data input untuk memanggil
database tone DTMF yang sesuai sebagai pengoperasian alat yang akan dikontrol
2 Alat yang terkontrol akan menunjukkan hasilnya
Memanggil
Database
Tone
Dikode
kan
dalam
biner
Kirim
ke HW
Kontrol
Alat
Input
server
Bab 4 Pengujian dan Analisa
33
BAB 4
PENGUJIAN DAN ANALISA
41 Pendahuluan
Untuk mengetahui tingkat keberhasilan dari suatu sistem diperlukan pengujian keseluruhan dari
perencanaan hasil sistem yang telah dibuat Dalam bab ini akan dijelaskan mengenai hal tersebut
Pengujian yang akan dilakukan adalah
1 Pengujian dan analisa sistem pengolahan sinyal wicara
2 Pengujian dan analisa sistem client server
3 Pengujian dan analisa awal dan akhir sistem pengolahan wicara
42 Pengujian dan Analisa Sistem Pengolahan Wicara
Tujuan untuk mendapatkan parameter ciri individu dari sampel sinyal yang diolah
421 Perekaman Suara
Pada Tugas Akhir ini digunakan duamacam perangkat lunak yang dibangun sendiri berbasis TclTk 830
dan Snack 22 sebagai perangkat lunak yang diuji dan perangkat lunak Wavesurver sebagai pembanding
4211 Dengan menggunakan TclTk dan Snack
Tampilan awal dari perangkat lunak yang dibangun dengan menggunakan TclTk dan Snack adalah sebagai
berikut
Gambar 41 Tampilan awal perangkat lunak menggunakan TclTk dan Snack
Bab 4 Pengujian dan Analisa
34
Pertama kali tombol record ditekan maka proses pengambilan sinyal wicara yang dimasukkan
dimulai Pada saat tombol Stop ditekan maka program akan merekam kata ldquosatu nyalardquordquosatu matirdquordquodua
nyalardquordquodua matirdquordquotiga nyalardquordquotiga matirdquordquoempat nyalardquordquoempat matirdquo sesuai yang kita masukkan dan
tampilan display akan digambarkan bentuk sinyal yang dihasilkan secara otomatis Hasil perekaman dapat
dilihat pada gambar berikut 42
Gambar 42 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan perangkat lunak
TclTk dan Snack
Gambar 42 menunjukkan bahwa proses pengambilan sinyal suara telah dilakukan Sinyal suara yang
dimasukkna akan terlihat gambarnya pada layar hitam (canvas)
4212 Dengan menggunakan Wave Surver
Sebagai pembanding dari program yang telah dibuat yaitu dari perangkat lunak TclTk dan Snack
digunakan Wavesurver
Tampilan awal dari Wavesurver 157 tampak seperti pada gambar 43
Gambar 43 Tampilan awal perangkat lunak menggunakan Wavesurver
Bab 4 Pengujian dan Analisa
35
Pada saat tombol recording ditekan maka program akan merekam kata ldquosatu nyalardquo dan pada tampilan
display akan digambarkan bentuk sinyal yang dihasilkan secara otomatis Hasil perekaman bisa dilihat pada
gambar 44
Gambar 44 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan
perangkat lunak Wavesurver
Perekaman pada Wavesurver dapat diset sesuai dengan kebutuhan Dimana pada sistem pengolahan sinyal
suara untuk perekaman suara diset sebagai berikut
Gambar 45 Kotak dialog setting perekaman perangkat lunak Wavesurver
Pada data di atas dapat dilihat bahwa suara yang direkam dengan mengguanakan perangkat lunak
Wavesurver mempunyai header dan tail yang berisi keterangan perekaman sebagai berikut
12000 menunjukkan frekuensi sampling yang digunakan
Bab 4 Pengujian dan Analisa
36
Channels menunjukkan bahwa suara direkam dengan menggunakan channel Mono
Sampel Encoding Lin 16 menunjukkan bahwa suara direkam dengan menggunakan
16 bit PCM
422 Sampling
Dengan menggunakan program yang dibangun sendiri di atas proses penyamplingan sinyal input sekaligus
telah terjadi dimana dengan frekuensi sampling sebesar 12000 Hz didapatkan sinyal dari kata ldquosatu nyalardquo
dengan potongan sebagai berikut
3306
3538
3788
4076
4282
4684
4747
4956
5083
5442
5844
5901
6244
6196
6462
6104
Berikut ini adalah cuplikan dari data sampel kata ldquo empat matirdquo mulai dari milidetik ke-13900
Bab 4 Pengujian dan Analisa
37
Data Sampling
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 46 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900
Pada gambar 46 telah dilakukan proses sampling sinyal masukan dengan frekuensi sampling sebesar 12000
Hz maka didapatkan hasil sinyal yang hampir mirip dengan sinyal analognya karena sinyal suara manusia
memiliki jarak frekuensi antara 300 sampai 5000 Hz dimana syarat Nyquist minimal fsampling 2fsinyal
telah terpenuhi
423 Windowing
Jenis window yang digunakan adalah window Hamming
Pada proses window hamming kata yang telah disampel sebanyak 240 sampel akan diwindow sehingga
menghasilkan sinyal yang lebih kecil peaknya Hasilnya adalah sebagai berikut
-26174
-22078
-12518
-1444
9690
19308
23360
20049
12365
2391
-7874
-14539
-17837
-19929
-19007
-16955
Bab 4 Pengujian dan Analisa
38
Sedangkan hasil dalam bentuk gambar dapat dilihat pada gambar berikut
Data Windowing
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 47 Hasil Windowing data sampel kata ldquoempat matirdquo milidetik ke-13900
Seperti yang ditunjukkan gambar 47 proses windowing telah dilakukan Berdasarkan gambar 47
tersebut dapat dikatakan bahwa window Hamming menyebabkan sinyal yang disampel lebih halus Gambar
47 dapat dibandingkan dengan gambar 46 yaitu gambar sinyal sebelum melalui proses windowing dapat
dilihat bahwa sinyal yang telah diwindow mempunyai sinyal yang lebih halus Hal ini membuktikan bahwa
fungsi dari windowing untuk mengurangi efek diskontinyuitas pada ujung-ujung frame adalah benar
424 Fast Fourier Transform Sinyal Masukan
Pada proses ini sinyal yang sebelumnya berada dalam domain waktu akan diubah dalam domain
frekuensi Setiap sinyal yang berasal dari alam merupakan sinyal analog yang bila diolah harus diubah
dalam bentuk sinyal digital Dan pengolahan dalam digital merupakan pengolahan dalam bentuk diskrit
Pada proyek akhir ini sinyal dalam domain waktu akan diubah dalam domain frekuensi dengan 256 titik
Karena hasil yang diperoleh berupa hasil dari fungsi konvolusi maka hanya akan diambil 128 titik saja yang
akan diolah dalam proses selanjutnya Sedangkan 128 sisanya tidak dipergunakan karena berupa
pencerminan saja
Hasil dari Fast Fourier Transform (FFT) dari penggalan kata ldquoempat matirdquo pada milidetik ke-13900 dalam
bentuk teks adalah
103505157
106889458
Bab 4 Pengujian dan Analisa
39
104735321
100408661
89175987
95431992
96601654
8489315
89637459
8630304
75320663
87866905
91001945
89607201
82408546
83440155
4241 Dengan Menggunakan TclTk dan Snack
Fast Fourier Transform Sinyal
Masukan
0
20
40
60
80
100
120
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 48 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat
lunak TclTk dan Snack
Dari gambar 48 di atas sinyal suara yang sebelumnya berada di domain waktu telah diubah ke domain
frekuensi Hasil Fast Fourier Transform sinyal masukan menunjukkan sebaran spektrum frekuensi dari
sinyal suara yang telah dihasilkan oleh pengucap antara 0 sampai 6000 Hz
Bab 4 Pengujian dan Analisa
40
4242 Dengan Menggunakan Wavesurver
Gambar 49 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat
Wavesurver
Dari gambar 49 di atas hasil Fast Fourier Transform sinyal masukan menunjukkan sebaran spektrum
frekuensi dari sinyal suara yang telah dihasilkan oleh pengucap antara 0 sampai 6000 Hz adalah sama
seperti pada gambar dengan gambar 48 yang diambil dengan perangkat lunak TclTk dan Snack
425 Autocorrelation Analysis
Pada proses ini sinyal masukan dalam domain waktu yang telah diwindow hamming dihitung korelasinya
dengan menggunakan orde analisi LPC sebesar 15 Sehingga akan didapatkan hasil rk(autokorelasi) sebagai
berikut
17648453
128874
0669745
0662566
0470262
0164336
-010638
-0229032
-016249
0014062
0138456
0188749
0117826
0014517
-0052704
426 LPC Analysis
Dari hasil autokorelasi tersebut di atas selanjutnya adalah LPC dimana mengkonversi masing-masing
frame dari autokorelasi p+1 ke dalam sebuah LPC Parameter a
Bab 4 Pengujian dan Analisa
41
Metode yang formal untuk mengkonversi dari koefisien autokorelasi ke sebuah LPC parameter (untuk
metode LPC autokorelasi) dikenal sebagai Metode Durbin dan secara formal hasilnya dapat ditunjukkan
sebagai berikut ini
1
-128874
0160681
-0156173
0166653
0255508
0192145
0003037
-0202248
-0265201
-0112133
005938
0232232
0203554
0048429
Dari hasil di atas terlihat bahwa untuk setiap frame nilai pertama menunjuukan energi dari masing-masing
frame dan selanjutnya adalah parameter LPC dalam satu frame yang digunakan sebagai penentu ciri dari
sinyal suara yang dihasilkan oleh individu
427 Fast Fourier Transform LPC Parameter
Pada proses ini nilai dari parameter LPC yang sebelumnya masih berada dalam domain waktu akan diubah
dalam domain frekuensi Pada proyek akhir ini parameter LPC dalam domain waktu akan diubah dalam
domain frekuensi dengan 256 titik Karena hasil yang diperolah berupa hasil dari fungsi konvolusi maka
hanya akan diambil 128 titik saja yang akan diolah dalam proses selanjutnya Sedangkan 128 sisanya tidak
dipergunakan karena berupa pencerminan saja
Hasil dari Fast Fourier Transform (FFT) dari parameter LPC pada penggalan kata ldquoempat matirdquo pada
milidetik ke-1 dalam bentuk teks adalah
103505157
106889458
104735321
100408661
89175987
Bab 4 Pengujian dan Analisa
42
95431992
96601654
8489315
89637459
8630304
75320663
87866905
91001945
89607201
82408546
4271 Dengan menggunakan TclTk dan Snack
Fast Fourier Transform Parameter
LPC
0
20
40
60
80
100
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 410 Fast Fourier Transform LPC dengan
menggunakan perangkat lunak TCLTk
dan Snack
Hasil gambar 410 menunjukkan bahwa parameter LPC yang di-Fourier Transform-kan akan menjadi
selubung spektrum dari spektrum sinyal masukan Sehingga jika selubung dan spektrumnya secara gambar
cocok dapat dikatakan bahwa LPC parameter yang dihitung benar
Bab 4 Pengujian dan Analisa
43
4272 Dengan menggunakan Wavesurver
Gambar 411 Fast Fourier Transform LPC denganmenggunakan perangkat lunak
Wavesurver
Hasil gambar 411 menunjukkan bahwa parameter LPC yang di-Fourier Transform-kan akan menjadi
selubung spektrum dari spektrum sinyal masukan adalah sama dengan yang telah diperoleh dengan
perangkat lunak TclTk seperti pada gambar 410
428 LPC Parameter to LPC Cepstrum
Koefisien LPC cepstrum koefisien yang direpresentasikan dengan Fourier Transform dengan spektrum
besaran log telah ditampilkan menjadi kumpulan fitur untuk pengenalan wicara yang lebih handal
terpercaya daripada koefisien LPC koefisien PARCOR atau koefisien log area ratio
Hasil dari LPC cepstrum pada penggalan kata ldquoempat matirdquo pada milidetik ke-106 dalam bentuk teks adalah
16636311
1387922
0474473
0654796
0429659
0132543
0225374
0126501
0021161
0242437
Bab 4 Pengujian dan Analisa
44
0160623
0065745
0139379
0056064
-0029262
Dari hasil di atas dapat dianalisa bahwa besaran-besaran dari LPC cepstrum benar-benar dapat
digunakan sebagai penentu ciri dari sinyal suara individu karena besaranndashbesaran yang dihasilkan oleh LPC
cepstrum dari yang pertama sampai yang terakhir dalam satu frame sangat bervariasi nilainya
429 Inverse Fast Fourier Transform LPC Cepstrum
Untuk menggambarkan ciri atau fitur wicara dalam domain waktu maka LPC cepstrum di-Invers Fast
Fourier Transform-kan sehingga didapatkan gambar untuk penggalan kata ldquosatu nyalardquo pada milidetik ke-
400 seperti gamabar 412
Fast Fourier Transform LPC
Cepstrum
0
20
40
60
80
100
120
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 412 Invers Fast Fourier Transform LPC cepstrum dengan menggunakan
perangkat lunak TCLTk dan Snack
Dari gambar 412 dapat dianalisa bahwa bentuk dari invers fourier transform LPC cepstrum yang
menyerupai selubung pada domain waktu dari spektrum frekuensi juga digunakan untuk menunjukkan
bahwa perhitungan LPC cepstrumnya telah benar dan dapat digunakan sebagai penentu ciri sinyal suara
individu
Invers Fast Fourier Transform LPC
Cepstrum
Bab 4 Pengujian dan Analisa
45
Gambar 413 Penggabungan spektrum sinyal spektrum LPC dan spektrum LPC
Cepstrum
Gambar 413 spektrum sinyal yang diwakili warna merah merupakan hasil sinyal yang telah di-Fast
Fourier Transform-kan Spektrum sinyal yang berwarna hijau merupakan parameter LPC yang telah di-
Fourier Transform-kan Sinyal ini akan menjadi selubung spektrum dari spektrum sinyal masukan Bila
selubung dan spektrumnya secara gambar cocok maka dapat dikatakan bahwa LPC parameter yang dihitung
adalah benar Dari gambar 413 dapat dilihat antara selubunga dan selubung sinyal masukan sudah cocok
Sinyal yang berwarna biru merupakan sinyal rata-rata dari sinyal selubung spektrum
4210 Dynamic Time Warping
Pengujian terakhir dari proses pengolahan sinyal wicara adalah membandingkan sinyal hasil cepstrum LPC
antara data input dan data standarnya Berdasarkan daerah pembatas kontinyuitas lokal dari persamaan 21
maka digunakan model yang pertama dan menggunakan persamaan 2116 dalam menghitung jarak antara
kata sebagai standar dan sebagai masukan
Selanjutnya menetukan data data sebagai data standar dan data sebagai data masukan Pada sistem ini
digunakan 8 kombinasi kata sebagai kata standar dan kata msukan untuk masing-masing pengujian dengan
kata standar sebanyak sepuluh (10) kali Adapun kata yang digunakan sebagai standar dan kata yang diuji
adalah meliputi satu nyalasatu matidua nyaladua matitiga nyalatiga matiempat nyalaempat
mati
Pada pengujian sistem kali ini masih menggunakan datasuara dari pebgucap yang sama Dari kelima data
standar yang ada dilakukan pembandingan dengan masing-masing 10 (sepuluh) kali pemasukan data Data
yang menghasilkan jarak euclidian terpendek dari masing-masing kata itulah yang akan diambil sebagai
data perintah terbaik
Bab 4 Pengujian dan Analisa
46
Pelekukan Jalur Suara
0
50
100
150
0 50 100 150
Sinyal Input empat mati
Sinyal Standart
empat mati
Gambar 414 Pelekukan Jalur Suara dengan Dynamic Time Warping
Dari gambar 414 dapat dianalisa bahwa dengan menggunakan dynamic time warping dua buah sinyal suara
akan dibandingkan vektor-vektor spektralnya dimana juga terdapat proses pembandingan panjang sinyal
antara dua buah sinyal tersebut sehingga terjadi proses pemadanan panjang sinyal dengan cara
memperpanjang dan menekuk vektor spektralnya Memperpanjang dalam arti memperpanjang sinyal yang
lebih pendek dengan memperhatikan perbandingan vektor spektralnya dan demikian pula menekuk dalam
arti menekuk sinyal yang lebih panjang dengan memperhatikan vektor spektralnya Dengan panjang yang
sama sebagai hasil dynamic time warping maka jarak euclidian antara dua sinyal dapat diperbandingkan
atau dihitung
4211 Min Value dan Sorting
Min Value dan Sorting menjadi satu paket sendiri yang digunakan untuk mencari kemungkinan hasil
terkecil dari pembandingan pola kata masukkan dengan kedelapan kata standart Keluaran dari fungsi
dynamic time warping akan memberikan delapan buah data yaitu hasil pembandingan kata masukan
dengan kata standart satu nyala hasil pembandingan kata masukan dengan kata standart satu mati hasil
pembandingan kata masukan dengan kata standart dua nyala hasil pembandingan kata masukan dengan
kata standart dua mati hasil pembandingan kata masukan dengan kata standart tiga nyala hasil
pembandingan kata masukan dengan kata standart tiga mati hasil pembandingan kata masukan dengan
kata standart empat nyala hasil pembandingan kata masukan dengan kata standart empat mati Dengan
metode sorting buble sort maka akan didapat nilai minimalnya
0748745
0362272
0633390
0327642
0600250
0346530
Bab 4 Pengujian dan Analisa
47
0545907
0207464
Berdasarkan data diatas maka perintah input sama dengan perintah kedelapan (ldquoempat matirdquo) karena
memiliki hasil time warping terkecil yaitu 0207464
4212 Hasil Pengujian Awal dan Akhir Sinyal
Pada proses penentuan awal dan akhir agar lebih presisi menggunakan ldquoPowerrdquo Adapun kelebihan dari
power adalah dapat membedakan antara sinyal suara dengan sinyal noise
Untuk menentukan awal dan akhir dicari nilai power Pada proses power kata yang telah disampel
sebanyak 240 sampel akan menghasilkan sinyal yang halus dan terletak di atas sumbu x Hasil dalam bentuk
teks adalah sebagai berikut ini
7678195313
1165659297
123492625
8917128906
6318766797
4531086719
4338374609
4912630469
5382503125
4548908984
429756875
4739710547
4575902734
4682924609
4786217578
Bab 4 Pengujian dan Analisa
48
Gambar hasil power bisa dilihat pada gambar 415 berikut
Power
0
100000
200000
300000
400000
500000
0 50 100 150
Jumlah Frame
Amplitude
Gambar 415 Sinyal ldquoempat matirdquo hasil program power
Gambar 416 berikut ini adalah hasil pengujian kata ldquoempat matirdquo sebagai masukan dan kata standar ldquoempat
matirdquo dimana kedua kata dibandingkan berdasarkan powernya sebelum proses Dinamic Time Warping
Sinyal warna biru sebagai power sinyal standart dan sinyal yang berwarna merah merupakan power sinyal
input
Perbandingan Dua Kata empat mati
sebelum DTW
0
100000
200000
300000
400000
500000
0 50 100 150
Jumlah Frame
Amplitude
Gambar 416 Perbandingan power dua kata ldquoempat matirdquo sebelum Dynamic Time Warping
Berikut ini adalah hasil pengujian dua buah kata ldquoempat matirdquo dengan menggunakan dynamic time warping
dimana jalur pelekukan suara dapat digambarkan pada gambar 417
Bab 4 Pengujian dan Analisa
49
Pelekukan Jalur Suara
0
50
100
150
0 50 100 150
Sinyal Input empat mati
Sinyal Standart
empat mati
Gambar 417 Pelekukan jalur suara dua kata ldquoempat matirdquo dengan DTW
Gambar 418 adalah hasil pengujian dua buah kata ldquoempat matirdquo sebagai masukan dan dan kata standar
ldquoempat matirdquo dimana kedua kata dibandingkan berdasarkan powernya setelah proses dynamic time
warping
Gambar 418 dapat dibandingkan dengan gambar 416 yaitu sinyal sebelum proses Dynamic Time Warping
Sebelum proses Dynamic Time Warping sinyal tidak mengalami proses penekukan dan penarikan data
berdasarkan waktu antara keduanya sehingga antara sinyal input dan sinyal standart memiliki ukuran
panjang yang sangat jauh berbeda
Pemadanan Dua Kata Setelah DTW
0
100000
200000
300000
400000
500000
0 100 200 300
Jumlah Frame
Amplitude Power
Gambar 418 Perbandingan power dua kata ldquoempat matirdquo setelah Dynamic Time Warping
Dari gambar 418 dapat dinyatakan bahwa setelah melalui proses dynamic time warping terjadi penekukan
dan penarikan data berdasarkan waktu antara keduanya sehingga pada akhirnya kedua sinyal memiliki
ukuran panjang yang sama Sehingga dengan demikian dapat dicari jarak euclidian untuk menentukan
sebuah kata yang sesuai dengan kata yang lainnya
Bab 4 Pengujian dan Analisa
50
4213 Hasil Pengujian Sistem Perangkat Lunak
Pada pengujian sistem perangkat lunak diambil sampel data dari 3 orang dimana terdiri dari 3 orang pria
dan 1 orang wanita Pria pertama merupakan standar sekaligus pengisi suara untuk perintah Sedangkan pria
kedua dan wanita sebagai pembanding untuk mengetahui unjuk kerja sistem
Tabel 41 Hasil pengujian sistem pengolahan sinyal wicara untuk pengucap yang sama (pria
1)
8 7 6 5 4 3 2 1 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05417
03487
05964
03443
07272
04424
03449
01
961
Satu
nyala
Sinyal Standart
02496
04723
03013
05120
03450
03815
01
739
03471
Satu
mati
04389
02035
06139
03244
04343
02
158
04567
04047
Dua
nyala
01866
04517
04157
05267
01
940
02561
02036
04779
Dua
mati
04833
02168
03984
01
090
06409
04278
05019
02690
Tiga
nyala
02683
04628
01
188
03416
04046
03345
02959
04614
Tiga
mati
03807
01
046
05271
01974
05934
03134
04363
02554
Empat
nyala
01
388
03728
02269
04497
02559
03195
02476
04874
Empat
mati
Bab 4 Pengujian dan Analisa
51
16
15
14
13
12
11
10
9 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05776
02988
05100
04019
06101
05338
04219
02
047
Satu
nyala
Sinyal Standart
03382
04381
02427
05124
02642
05990
02
706
03335
Satu
mati
04453
02558
04993
04574
03381
02
344
04529
04121
Dua
nyala
01669
04532
03190
06355
01
004
04807
03466
04622
Dua
mati
05209
02261
03366
01
124
05377
04165
05369
02660
Tiga
nyala
03721
04074
00
891
03002
02637
05958
02719
04333
Tiga
mati
03889
01
755
04365
02341
04826
03150
05193
02472
Empat
nyala
01
092
03974
01802
04848
01455
05343
02717
04536
Empat
mati
Bab 4 Pengujian dan Analisa
52
24
23
22
21
20
19
18
17 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05157
04015
06277
02964
05609
04690
03376
01
369
Satu
nyala
Sinyal Standart
01787
05144
03814
04134
04952
04843
01
636
03404
Satu
mati
03988
03026
07420
03020
03977
01
905
04801
03610
Dua
nyala
01630
05662
06259
05009
01
808
03357
02206
05094
Dua
mati
04667
02681
05731
01
448
05575
03280
05344
03417
Tiga
nyala
01902
05055
03
395
02597
04700
04618
02951
04808
Tiga
mati
03809
01
863
06920
02154
04252
02455
04616
03184
Empat
nyala
00
761
04379
04288
04053
03629
04122
02419
05622
Empat
mati
Bab 4 Pengujian dan Analisa
53
32
31
30
29
28
27
26
25 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
04793
03554
06312
03247
06514
03585
03068
02
935
Satu
nyala
Sinyal Standart
01671
04661
03012
03961
02834
04667
01
079
05475
Satu
mati
04033
02359
05307
02587
03475
01
587
04781
04010
Dua
nyala
02222
04949
03652
04387
00
958
03222
02647
04966
Dua
mati
04499
02207
04170
01
873
05884
02500
05631
03257
Tiga
nyala
01791
04432
01
196
02646
02999
04619
02558
05048
Tiga
mati
03561
01
050
05061
02437
04927
01887
05325
03424
Empat
nyala
00
858
03774
02052
03974
01440
04186
02597
05381
Empat
mati
Bab 4 Pengujian dan Analisa
54
40
39
38
37
36
35
34
33 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
06471
03838
05816
03364
06492
03613
03496
01
111
Satu
nyala
Sinyal Standart
02951
05556
02631
04558
05057
04799
01
683
02958
Satu
mati
05259
02977
05228
03305
04614
00
878
05159
02707
Dua
nyala
03165
05686
03078
05512
01
088
03082
03482
04823
Dua
mati
05397
02037
03714
00
949
06365
02818
05998
02829
Tiga
nyala
02990
04867
00
921
02759
04978
04752
03131
04533
Tiga
mati
05028
01
233
05114
02070
05154
01825
05439
01975
Empat
nyala
01
914
04521
01834
04248
02711
04164
03149
04755
Empat
mati
Bab 4 Pengujian dan Analisa
55
48
47
46
45
44
43
42
41 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
07997
03701
06005
03992
05800
05223
03706
01
198
Satu
nyala
Sinyal Standart
03909
04978
02572
05339
05784
05103
01
161
03113
Satu
mati
06284
02355
05419
04194
03709
02
588
04764
02834
Dua
nyala
03737
04883
03321
06131
03
489
04229
03188
04962
Dua
mati
05885
02259
04026
00
918
06123
03601
05739
0 2867
Tiga
nyala
03583
04464
00
974
03340
05828
05114
02720
04269
Tiga
mati
05762
01
230
7
05459
02231
04899
03397
05114
0 2395
Empat
nyala
02
247
02888
01948
04994
04987
04505
02141
0 4956
Empat
mati
Bab 4 Pengujian dan Analisa
56
56
55
54
53
52
51
50
49 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05627
03923
06226
04018
05254
04895
02933
02
009
Satu
nyala
Sinyal Standart
02473
04947
02892
05661
05301
05040
01
289
03008
Satu
mati
04393
02779
06046
04425
02900
01
743
04571
02669
Dua
nyala
02222
05352
04171
06748
01
202
03736
03177
03699
Dua
mati
04644
02488
03523
00
835
05391
03319
05277
03671
Tiga
nyala
02213
04345
01
009
03758
02869
05933
02761
03900
Tiga
mati
04093
01
443
05080
05083
04959
02819
04840
02709
Empat
nyala
01
239
04029
0 2223
05428
01263
04236
02575
04141
Empat
mati
Bab 4 Pengujian dan Analisa
57
64
63
62
61
60
59
58
57 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
07489
03792
05134
04199
06459
04019
03044
01
850
Satu
nyala
Sinyal Standart
03586
04783
02186
05509
02884
04251
01
198
03243
Satu
mati
05697
02612
04576
04268
03211
01
519
04639
03845
Dua
nyala
03563
05288
02855
06752
01
074
03523
03265
04523
Dua
mati
05768
02262
03884
01
048
06348
02633
05784
02683
Tiga
nyala
03449
04859
01
009
03177
03425
04355
02975
04077
Tiga
mati
05693
01
445
04574
02498
05298
01999
05622
02359
Empat
nyala
02
236
04215
01468
05161
01827
03851
03161
04416
Empat
mati
Bab 4 Pengujian dan Analisa
58
72
71
70
69
68
67
66
65 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05439
02975
05593
03689
05796
03415
03416
01
492
Satu
nyala
Sinyal Standart
02225
04543
04586
04584
02669
04529
01
112
02881
Satu
mati
04025
02639
06303
03009
02582
01
003
05045
02767
Dua
nyala
01734
05437
04847
04897
00
826
02892
02584
04797
Dua
mati
04671
02336
04988
01
206
05595
02572
05647
02991
Tiga
nyala
02095
04805
04
025
02747
02848
04359
02773
04076
Tiga
mati
03971
01
297
05065
02121
04489
01703
05074
02131
Empat
nyala
00
901
04123
04026
04154
01514
03762
02328
04561
Empat
mati
Bab 4 Pengujian dan Analisa
59
80
79
78
77
76
75
74
73 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
07997
03054
06228
04446
05805
04687
03173
03
391
Satu
nyala
Sinyal Standart
05051
04619
05619
05749
02631
04447
01
086
05310
Satu
mati
05949
03685
05899
05607
03163
01
874
05234
03797
Dua
nyala
03109
05053
05258
07102
01
095
03368
03585
04539
Dua
mati
06473
02004
04524
01
350
05525
03084
05608
03682
Tiga
nyala
04759
04205
04
309
03701
03031
04660
02678
05243
Tiga
mati
05572
02
003
05167
02702
04478
02552
05358
03563
Empat
nyala
02
459
04960
04964
05734
01641
03971
02630
05029
Empat
mati
Pengujian pertama ini dilakukan dengan cara memasukkan suara pria pertama (yang digunakan sebagai
pengisi suara standart) Setiap satu perintah dilakukan sebanyak 10 kali pengujian Hasil pengujian
merupakan nilai dari hasil proses Dynamic Time Warping yang merupakan nilai dari pemadanan sinyal
input dengan kedelapan sinyal standart Nilai terkecil (nilai yang tercetak tebal) yang didapatkan merupakan
hasil yang paling mendekati sinyal standart Yang berarti sinyal masukan tersebut dianggap paling sesuai
dengan sinyal standart
Prosentase keberhasilan pengucapspeaker pertama untuk kedelapan perintah sebesar 100 semuanya
menunjukkan kepada sinyal masukkan dan sinyal standart yang sama
Hasil pengujian menunjukkan bahwa ciri sinyal suara yang dihasilkan oleh pengucap speaker pertama dan
sebagai pemberi standart adalah sama
Bab 4 Pengujian dan Analisa
60
Tabel 42 Hasil pengujian sistem pengolahan sinyal wicara untuk pengucap yang lain (pria
2)
8 7 6 5 4 3 2 1 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
06023
05121
07146
04599
04996
04561
07575
04
358
Satu
nyala
Sinyal Standart
04018
05701
06369
06256
03518
05738
07004
08129
Satu
mati
07120
03925
07395
04897
05938
02246
10082
06777
Dua
nyala
04963
05958
05189
07345
03449
04854
08816
08543
Dua
mati
05919
04337
05163
02
130
04797
03463
08871
05289
Tiga
nyala
03709
04519
04380
03601
03491
05239
06
046
07381
Tiga
mati
06087
03
161
06178
03280
05
068
02
439
08853
05354
Empat
nyala
03
409
04321
04
208
05569
03219
04898
06863
08596
Empat
mati
Bab 4 Pengujian dan Analisa
61
16
15
14
13
12
11
10
9 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05475
03932
05521
04
383
05634
05416
04
464
03
434
Satu
nyala
Sinyal Standart
04076
05731
04541
05681
03574
04920
03971
06662
Satu
mati
07427
04886
07924
05962
05824
02
712
07837
05504
Dua
nyala
04475
06666
05765
07616
03414
04203
05431
06334
Dua
mati
05357
03797
05099
04509
04902
04332
07097
05220
Tiga
nyala
04197
05134
04
209
05088
03169
04547
04464
06516
Tiga
mati
05936
03
769
05910
05109
05
311
03435
07646
04977
Empat
nyala
03
576
05767
04591
06367
03010
04129
04944
06850
Empat
mati
Bab 4 Pengujian dan Analisa
62
24
23
22
21
20
19
18
17 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
06927
04
279
08096
04
448
06461
05522
03935
02
444
Satu
nyala
Sinyal Standart
06409
05322
05528
05481
04912
04491
02
011
05508
Satu
mati
06134
04643
08962
06002
04868
02
579
06122
05502
Dua
nyala
04753
06443
05501
07364
02
298
03206
04239
06684
Dua
mati
05709
04928
05456
04961
06142
05726
06454
03831
Tiga
nyala
05798
04882
03
235
04708
04838
04317
03526
05462
Tiga
mati
05021
04423
06842
05583
05222
04132
06363
04235
Empat
nyala
04
457
05427
03546
05773
02946
03573
03618
07019
Empat
mati
Bab 4 Pengujian dan Analisa
63
32
31
30
29
28
27
26
25 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05260
04224
07393
04661
06292
04993
03989
03
549
Satu
nyala
Sinyal Standart
04478
04669
04568
05977
03523
04046
03
438
04819
Satu
mati
06448
04308
08152
06114
04665
02
444
07609
05162
Dua
nyala
04024
05867
05103
07873
01
872
02613
04489
06765
Dua
mati
05363
04
672
05250
04
529
05210
05103
06546
04794
Tiga
nyala
04422
04039
02
482
05102
03499
03985
03969
04371
Tiga
mati
05492
04073
06626
05239
04902
03553
06869
04794
Empat
nyala
03
326
04543
03153
06510
02133
03419
04175
05287
Empat
mati
Hasil pengujian yang kedua ini dilakukan dengan cara memasukkan suara dari pria kedua (pria lain yang
tidak digunakan sebagai suara standart) Setiap satu perintah dilakukan empat (4) kali proses pengujian
Hasil pengujian merupakan nilai dari hasil proses Dynamic Time Warping yang merupakan nilai dari
pemadanan sinyal input dengan kedelapan sinyal standart Nilai terkecil (nilai yang tercetak tebal) yang
didapatkan merupakan hasil yang paling mendekati sinyal standart Yang berarti sinyal masukan tersebut
dianggap paling sesuai dengan sinyal standart
Prosentase keberhasilan pengucapspeaker kedua untuk kedelapan perintah bervariasi sebesar 50
sampai dengan 100 semuanya menunjukkan kepada sinyal masukkan dan sinyal standart yang berbeda
Hasil pengujian menunjukkan bahwa ciri sinyal suara yang dihasilkan oleh pengucap speaker kedua dan
sebagai pemberi standart adalah mendekati sama
Bab 4 Pengujian dan Analisa
64
Tabel 43 Hasil pengujian sistem pengolahan sinyal wicara untuk pengucap yang sama (pria)
No Perintah Lampu DTMF
1 1 nyala B B
2 1 mati B G
3 2 nyala B G
4 2 mati G X
5 3 nyala G X
6 3 mati G X
7 4 nyala B B
8 4 mati B B
9 1 nyala B G
10 1 mati B B
11 2 nyala B G
12 2 mati B B
13 3 nyala B G
14 3 mati B B
15 4 nyala B G
16 4 mati B B
17 1 nyala B G
18 1 mati B B
19 2 nyala G X
20 2 mati G X
21 3 nyala B B
22 3 mati B B
23 4 nyala B B
24 4 mati G X
No Perintah Lampu DTMF
25 1 nyala B G
26 1 mati G X
27 2 nyala G X
28 2 mati B G
29 3 nyala B G
30 3 mati B G
31 4 nyala B G
32 4 mati G X
B Berhasil
G Gagal
X Donrsquot Care (Diabaikan)
Pengujian yang ketiga ini dilakukan oleh pria pertama (pria yang suaranya digunakan sebagai standart)
Masing-masing perintah dilakukan sebanyak empat kali pengujian
Bab 4 Pengujian dan Analisa
65
Pada kolom ketiga (kolom lampu) tanda B (berhasil) menunjukkan bahwa perintah yang diberikan pada
hardware berhasil dilakukan Tanda G (gagal) menunjukkan bahwa perintah yang diberikan pada hardware
gagal dilakukan(hasil tidak sesuai dengan perintah yang diberikan)
Pada kolom keempat (kolom DTMF) menunjukkan laporan dari hardware ke PC server tentang
bagaimana keadaan lampu yang sedang dikontrol apakah dalam keadaan menyala atau mati Pada kolom ini
tanda B (berhasil) menunjukkan bahwa laporan dari hardware ke PC server (yang merupakan proses
otomatisasi) berhasil dilakukan Tanda G (gagal) menunjukkan bahwa laporan ke PC client gagal dilakukan
Sedangkan tanda X (donrsquot care) menunjukkan bahwa perintah diabaikan Hal ini disebabkan perintah pada
hardware (perintah sebelumnya sebelum proses otomatisasi) sudah gagal dilakukan
Prosentase keberhasilan pengucapspeaker pertama untuk kedelapan perintah bervariasi antara 50
sampai 100 semuanya menunjukkan kepada sinyal masukkan dan sinyal standart yang berbeda
Hasil pengujian kedua ini menunjukkan bahwa ciri sinyal suara yang dihasilkan oleh pengucapspeaker
kedua ini yang merupakan suara orang lain (bukan pemberi standart) adalah mendekati sama dengan hasil
yang bervariasi antara 50 sampai 100
43 Pengujian Sistem Client Server
Pada sub bab ini akan diujikan program Client Server yang akan mengirimkan sinyal hasil pengolahan
suara
Tampilan pada client adalah seperti gambar 421 yang merupakan tampilan awal pada saat program
dimulai
Gambar 421 Proses pada client
Bab 4 Pengujian dan Analisa
66
Gambar 422 Proses pada server
1 Sebelumnya program server harus disiapkan lebih dulu
2 Setelah itu client dijalankan
3 Setelah client siap user memasukkan suara yang selanjutnya akan diolah sampai proses DTW
4 Server menerima data yang selanjutnya digunakan untuk melakukan kontrol alat rumah tangga
44 Analisa Pengujian Sistem Secara Keseluruhan
Berdasarkan data-data yang telah didapatkan di atas maka dapat ditarik suatu analisa bahwa
Berdasarkan tabel 44 untuk pengujian pertama pria 1 adalah pria yang suaranya digunakan sebagai standart
Prosentase keberhasilan rata-rata yang didapat untuk semua perintah adalah sebesar 100 Hal ini menunjukkan
bahwa suara yang diujikan adalah suara yang sama dengan standart dan pria 1 tersebut pernah berinteraksi
dengan sistem
Pengujian yang kedua adalah pengujian yang dilakukan oleh pria 2 (pria lain yang suaranya tidak
dipakai sebagai standart) Prosentase keberhasilan rata-rata yang didapat untuk semua perintah 7188 Karena
sistem bersifat dependent speaker dimana sistem hanya digunakan oleh orang tertentu dalam arti yang pernah
berinteraksi langsung dengan sistem Oleh karenanya didapat nilai prosentase keberhasilan yang bervariasi
Bab 4 Pengujian dan Analisa
67
Tabel 44 Tingkat keberhasilan sistem perangkat lunak
NNO
PENGUCAP
PERINTAH
BANYAK
PERCOBAAN
PROSENTASE
KEBERHASILAN
1 Pria 1 1 nyala 8 kali 100
2 1 mati 8 kali 100
3 2 nyala 8 kali 100
4 2 mati 8 kali 100
5 3 nyala 8 kali 100
6 3 mati 8 kali 100
7 4 nyala 8 kali 100
8 4 mati 8 kali 100
RATA-RATA 100
9 Pria 2 1 nyala 4 kali 100
10 1 mati 4 kali 75
11 2 nyala 4 kali 75
12 2 mati 4 kali 50
13 3 nyala 4 kali 50
14 3 mati 4 kali 75
15 4 nyala 4 kali 50
16 4 mati 4 kali 100
RATA-RATA 7188
Jika diurutkan proses pengolahan wicara dari awal sampai diambil keputusan suara yang dimasukkan
tersebut adalah suara yang sesuai atau tidak adalah sebagai berikut
Bab 4 Pengujian dan Analisa
68
Gambar 423 Tampilan awal perangkat lunak menggunakan TclTk dan Snack
Gambar 423 adalah tampilan awal dari perangkat lunak yang dibangun dengan menggunakan TclTk dan
Snack
Gambar 424 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan dengan
menggunakan perangkat lunak Wavesurver
Gambar 424 adalah tampilan awal dari program Wavesurver yang merupakan pembanding dari program
yang dibuat dari perangkat lunak TclTk dan Snack
Bab 4 Pengujian dan Analisa
69
Gambar 425 Tampilan awal perangkat lunak
menggunakan TclTk dan Snack
Gambar 425 adalah tampilan ketika proses pengambilan sinyal suara sedang dilakukan dengan perangkat
lunak TclTk dan Snack
Gambar 426 Tampilan hasil perekaman kata ldquoempat
matirdquo dengan menggunakan perangkat lunak Wavesurver
Gambar 426 adalah tampilan ketika proses pengambilan sinyal suara sedang dilakukan dengan perangkat
lunak Wavesurver
Bab 4 Pengujian dan Analisa
70
Data Sampling
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 427 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900 menggunakan TclTk dan
Snack
Pada gambar 427 dilakukan proses sampling sinyal masukan dengan frekuensi sampling sebesar 12000
Hz maka didapatkan hasil sinyal yang hampir mirip dengan sinyal analognya yang dilakukan dengan
perangkat lunak TclTk dan Snack
Gambar 428 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900 dengan menggunakan
perangkat Wavesurver
Pada gambar 428 dilakukan proses sampling sinyal masukan dengan frekuensi sampling sebesar 12000
Hz yang dilakukan dengan perangkat lunak Wavesurver
Data Windowing
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 429 Hasil Windowing data sampel
kata ldquoempat matirdquo milidetik ke-13900 menggunakan TclTk dan Snack
Bab 4 Pengujian dan Analisa
71
Proses windowing terdapat pada gambar 429 dilakukan untuk membuat sinyal yang disampel lebih
halus Proses windowing ini dilakukan dengan menggunakan perangkat lunak TclTk dan Snack
Proses windowing pada Wavesurver merupakan fasilitas yang tergabung dengan proses lainnya Misal
dengan proses Fast Fourier Transform Jadi disini tidak ditampilkan hanya sebagai proses windowing saja
tetapi digabungkan dengan proses lain
Fast Fourier Transform Sinyal
Masukan
0
20
40
60
80
100
120
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 430 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat
lunak TclTk dan Snack
Gambar 430 di atas adalah proses Fast Fourier sinyal masukan dengan perangkat lunak TclTk dan Snack
Hasil Fast Fourier Transform sinyal masukan menunjukkan sebaran spektrum frekuensi dari sinyal suara
yang telah dihasilkan oleh pengucap
Sebagai pembanding adalah proses Fast Fourier sinyal masukan yang diambil dengan Wavesurver seperti
pada gambar 431 Yang didapatkan hasil yang sama
Gambar 431 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat Wavesurver
Bab 4 Pengujian dan Analisa
72
Fast Fourier Transform Parameter
LPC
0
20
40
60
80
100
0 2000 4000 6000 8000
Frekuensi (Hz)10 x log
10(magnitude)(dB)
Gambar 432 Fast Fourier Transform LPC dengan menggunakan perangkat lunak TCLTk
dan Snack
Hasil gambar 432 menunjukkan proses Fast Fourier Transform LPC yang dilakukan dengan perangkat
lunak TclTk dan Snack
Gambar 433 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat Wavesurver
Proses Fast Fourier Transform yang dilakukan dengan Wavesurver dapat dilihat pada gambar 433
Pelekukan Jalur Suara
0
50
100
150
0 50 100 150
Sinyal Input empat mati
Sinyal Standart
empat mati
Gambar 434 Pelekukan Jalur Suara dengan Dynamic Time Warping
Bab 4 Pengujian dan Analisa
73
Dari gambar 434 dapat dianalisa bahwa dengan menggunakan dynamic time warping terdapat proses
pembandingan panjang sinyal antara dua buah sinyal input dan sinyal standart sehingga terjadi proses
pemadanan panjang sinyal dengan cara memperpanjang dan menekuk vektor spektralnya
74
BAB 5
PENUTUP
51 Kesimpulan
Dari hasil yang didapatkan maka dapat diambil kesimpulan bahwa
Sistem pengucap tak bebas atau speaker dependent system memiliki tingkat akurasi yang tinggi untuk
pengucap masukan dan pengucap standar yang sama Hal ini dibuktikan dengan hasil pengujian pertama
yang dilakukan oleh pria pertama Pria pertama ini adalah pria yang suaranya digunakan sebagai standar
Nilai prosentase keberhasilan rata-rata untuk semua perintah adalah sebesar 100 dari setiap perintah
dilakukan 8 kali percobaan
Sedangkan pengujian yang dilakukan oleh suara lain (bukan standart) prosentatase keberhasilan
rata-rata yang diperoleh untuk semua perintah 7188 dari setiap perintah dilakukan 4 kali percobaan Hal
ini disebabkan karena suara pria kedua tidak pernah berinteraksi dengan sistem
Keberhasilan sistem ditunjukkan oleh ketepatan penyalaan lampu sesuai dengan yang diperintahkan
melalui perintah suara
Kecepatan sistem secara keseluruhan diperlihatkan dalam tabel 51 dibawah
Tabel 51 Kecepatan sistem keseluruhan
No
Perintah
Waktu (detik)
1 2 3 4 Rata-rata
1 Satu Nyala 11 99 12 25 16 89 14 05 13 80
2 Satu Mati 12 51 13 28 14 83 12 25 13 22
3 Dua Nyala 10 70 11 73 11 99 12 25 11 67
4 Dua Mati 10 44 11 21 11 21 11 47 11 08
5 Tiga Nyala 10 96 12 25 13 54 12 51 12 32
6 Tiga Mati 10 70 11 99 11 99 13 28 11 99
7 Empat Nyala 11 73 11 99 13 02 12 24 12 25
8 Empat Mati 10 70 09 93 11 21 10 70 10 64
Rata-rata 12 12
Dari data yang diperoleh didapatkan kecepatan rata-rata untuk tiap perintah yang diberikan sampai
dengan terlaksananya eksekusi dari perintah adalah 12 12 detik
52 Saran
Pada penelitian ini masih sangat banyak hal yang dapat dilakukan untuk perbaikan-perbaikan dimasa
selanjutnya Saran dan usulan yang dapat dipertimbangkan untuk pengembangan sistem lebih lanjut adalah
antara lain
1 Sistem tidak lagi bersifat dependent speaker tetapi bersifat independent speaker dimana banyak
orang yang memberi perintah dan sistem dengan tepat memberikan respon
2 Sistem dapat mengatasi tingkat noise yang tinggi baik yang disebabkan oleh lingkungan atau oleh
hardware (sound card)
75
3 Otomatisasi sistem Artinya perintah tidak perlu lagi diberikan lewat penekanan tombol yang
dilakukan melalui mouse
4 Respon sistem yang real time
5 Sistem yang dapat dengan mudah beradaptasi dengan jenis sound card yang bervariasi
DAFTAR PUSTAKA
Anggraeni Triana Dewi Astutik Debi Puji Pengenalan Wicara Dengan Penutur Tak Bebas
Tugas Akhir PENS ITS 2003
Wahyudi Agus Verifikasi Sinyal Suara Sebagai Kendali Arah TA PENS-ITS 2002
Dewantara Bima Sena Bayu Aplikasi Pengenalan Wicara Untuk Perintah NirkabelRobot Mikro
Mouse Tugas Akhir PENS ITS 2004
Dutono Titon Penataran Kebahasaan Tahap I Fonetik Dan Fonologi ndashPengolahan Sinyal
Wicara Digital 20 Februari 2001
Gabel Robert A Richard A Robert Sinyal dan Sistem LinierErlangga 1996
Rabiner Lawrence Huang Juang Biing Fundamentals of Speech Recognition Prentice Hall
International Inc1993
Proakis John G Malonakis Dimitris G Digital Signal Processing Principles Algorithms and
Applications Prentice Hall Inc New Jersey 1995
Scolander Kare Snack Sound Toolkit
httpwwwtcltkmantcl85tutorialTcl11html
httpwikitcltk4074
httpwwwinveceorgtclwisefrontcoverhtml
httpwwwspeechkthsesnackmansnack22tcl-manhtml
httpwwwspeechkthsesnacktutorialhtml
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13]
Bab 1 Pendahuluan
x
DAFTAR TABEL
41 Hasil pengujian sistem pengolahan wicara untuk pengucap yang sama (pria 1) 68
42 Hasil pengujian sistem pengolahan wicara untuk pengucap yang lain (pria 2) 79
43 Hasil pengujian system pengolahan wicara untuk pengucap yang sama (pria) 83
44 Tingkat keberhasilan system perangkat lunak 87
51 Kecepatan sistem keseluruhan 96
Bab 1 Pendahuluan
1
BAB 1
PENDAHULUAN
11 LATAR BELAKANG
Sudah sekian lama manusia memimpikan adanya pengendalian suatu alat atau sistem kontrol dengan
perintah suara Hal ini diperjelas dengan banyak beredarnya film-film fiksi yang menyuguhkan berbagai sistem
kontrol yang dilakukan dengan menggunakan suara bagaimana seorang anak bisa mengendalikan sebuah
pesawat terbang hanya dengan perintah-perintah dasar dengan menggunakan suaranya Ditambah lagi dengan
pesatnya penelitian dibidang suara yang membuat pintu gerbang sistem pengontrolan dengan suara manusia
semakin terbuka Dewantara [2] telah membuat sebuah aplikasi pengenalan wicara untuk perintah nirkabel robot
mikro mouse Anggraeni dan Astutik [1] telah menggunakan pengenalan wicara untuk mengakses suatu jaringan
sebagai password Tetapi belum ada yang membuat aplikasi pengenalan wicara untuk membuat perintah
pengontrolan pada alat-alat rumah tangga semisal lampu Selain itu beberapa tahun terakhir ini perkembangan
dunia telekomunikasi mengalami kemajuan yang sangat pesat Sehingga pada saat ini informasi yang dikirim
tidak hanya berupa data dalam bentuk teks tetapi juga suara manusia Ditambah dengan semakin banyaknya
peralatan yang memanfaatkan pengenalan suara manusia untuk mengakses maupun memberikan perintah Sinyal
suara yang masuk akan diproses dan dikenali oleh suatu alat Proses tersebut adalah pengenalan wicara (speech
recognition) yaitu pengenalan wicara melalui sampel suara yang telah diolah
Dengan pertimbangan tersebut maka pembuatan kontrol suatu peralatan jarak jauh dengan menggunakan
suara sangat sesuai jika diaplikasikan dalam sistem pengendalian dan monitoring peralatan rumah tangga jarak
jauh dengan menggunakan metode pengenalan wicara Aplikasi tersebut kami bangun dalam pelaksanaan
penelitian ini
12 TUJUAN
Penelitian ini bertujuan untuk
1 Memberikan perintah suara untuk menyalakan beberapa peralatan rumah tangga dalam contoh kasus
dalam penelitian ini adalah menyalakan lampu jarak jauh
2 Membangun sistem pengucap tak bebas (speaker dependent sistem)
3 Memberikan ciri individu untuk memberikan perintah menghidup dan matikan peralatan rumah tangga
yang dilakukan secara jarak jauh
13 BATASAN MASALAH
Batasan masalah pada penelitian ini adalah
1 Bahasa pemrograman untuk algoritma pengenalan wicara adalah Microsoft Visual C++ 60
2 Bahasa Pemrograman untuuk user interface adalah TclTk 830 dan Snack 22
3 Sistem bersifat dependentartinya sistem hanya dapat digunakan oleh orang tertentu dalam hal ini yang
pernah berinteraksi langsung dengan sistem
4 Sinyal diasumsikan ideal yaitu tidak mamperhitungkan noise yang berarti semua noise dianggap stationer
Bab 1 Pendahuluan
2
5 Perintah kata yang diberikan dibatasi untuk keperluan tone dekoder saja dengan dua perintah secara
langsung Semua kata diucapkan secara wajar dengan kecepatan normal
6 Keberhasilan penelitian ini dapat dilihat dari keberhasilan ketepatan perintah yang dihasilkan oleh sistem
dengan perintah yang diberikan
7 Jaringan komunikasi masih dilaksanakan untuk local area dari PC ke PC
14 SISTEMATIKA PEMBAHASAN
Sistematika pembahasan penelitian ini sebagai berikut
BAB I PENDAHULUAN
Pada bab ini akan diuraikan tentang latar belakang tujuan batasan masalah dan sistematika
pembahasan masalah yang digunakan
BAB II TEORI DASAR
Pada bab ini akan diuraikan tentang landasan-landasan teori yang digunakan
BAB III PERENCANAAN DAN PELAKSANAAN
Pada bab ini akan diuraikan tentang tahap-tahap perencanaan dan proses pembuatan keseluruhan sistem
yang mendukung untuk membangun sistem pengenalan wicara untuk sistem pengendalian dan monitoring
peralatan rumah tangga jarak jauh
BAB IV PENGUJIAN DAN ANALISIS
Pada bab ini akan dijelaskan tentang hasil pengujian sistem yang telah dibangun baik secara perbagian
ataupun keseluruhan serta analisis terhadap hasil pengujian sistem untuk mengetahui apakah sistem yang
dibangun sesuai dengan yang diharapkan
BAB V KESIMPULAN DAN SARAN
Pada bab ini berisi kesimpulan dari pembahasan pada perencanaan serta analisa pengujian yang
diperolehUntuk lebih baiknya sistem yang dibangun maka disertakan pula saran-saran untuk perbaikan dan
penyempurnaan
Bab 2 Teori Penunjang
3
BAB 2
TEORI PENUNJANG
21 Sistem Pengolahan Sinyal Wicara
211 Sinyal Suara Manusia
Manusia menggunakan suara sebagai sumber informasi untuk mengkomunikasikan keinginan ide dan
perasaannya kepada orang lain Organ tubuh manusia yang digunakan dalam proses produksi wicara adalah
paru-paru tenggorokan(trachea) laring faring rongga hidung(nasal cavity) dan rongga mulut(oral cavity)
Pembangkitan sinyal wicara terletak pada bentuk lintasan vokalnya(vocal tract) Lintasan vokal tersebut terdiri
atas di bawah katup tenggorokan (laryngeal pharynx) antara langit-langit lunak katup tenggorokan (oral
pharynx ) di atas velum dan di ujung depan rongga hidung (nasal pharynx) dan rongga hidung (nasal cavity)1
seperti ditunjukkan gambar 21
Gambar 21 Skema diagram organ penghasil sinyal
Wicara2
Model generator wicara atau model sintesa suara yang dipakai dan menjadi dasar dari pemrosesan
sinyal wicara hingga dewasa ini adalah apa yang dinamakan Analog Terminal seperti pada gambar 22
1 Dewantara Bima Sena Bayu Aplikasi Pengenalan Wicara Untuk Perintah Nirkabel Robot Mikro Mouse TA PENS ITS 2004 hal 5 2 Dutono Titon Penataran Kebahasaan Tahap I Fonetik dan Fonologi Pengolahan Sinyal Wicara Digital 20 Februari 2001
Bab 2 Teori Penunjang
4
Gambar 22 Struktur umum model generator wicara3
Pada model ini sinyal eksitasi(glotal wave) yang berasal dari getaran pita suara diumpankan ke suatu
filter yang merupakan suatu model pendekatan dari lintasan vokal (vocal tract) untuk menghasilkan sinyal
wicara Model analog terminal ini disebut juga pensintesa formant Dasar pendekatan model ini adalah bahwa
lintasan suara adalah suatu bumbung akustik (acoustical cavity) yang mempunyai karakteristik berdasarkan
perpaduan beberapa frekuensi resonansinya Dengan demikian fungsi transfernya dapat didekati dengan
pendekatan kombinasi riam (cascade combination) dari beberapa rangkaian resonansinya Dengan analogi yang
sama sistem ini dapat dibangun dari beberapa rangkaian resonansi yang mempunyai parameter lebar bidang dan
frekuensi resonansi yang selalu berubah setiap saat membentuk suatu sistem berubah waktu (time variant
system)
Struktur sistem pengenal wicara yang ada dapat dibagi menjadi 2 yaitu
1) Mempergunakan pola standart dengan unit kata
Gambar 23 Pola standart dengan unit kata4
2) mempergunakan pola standart dengan unit fonem
yang dilengkapi dengan kamus kosa kata
3 Ibid 4 Ibid
Ekstraksi ciri
Pola standar kata
Pemadanan kata
Algoritma keputusan
Sinyal wicara Output teks
Bab 2 Teori Penunjang
5
Gambar 24 Pola standart dengan unit fonem5
Pada sistem pertama mampu mencakup fenomena koartikulasi tapi tidak fleksibel terhadap perubahan
kosa kata
Sinyal wicara adalah sinyal yang dihasilkan oleh suara manusia dan biasanya mempunyai frekuensi
kerja antara 0 sampai dengan 5000 Hz Bentuk gelombang sinyal wicara mempunyai bentuk yang unik seperti
gambar 23
Gambar 25 a)Sinyal wicara untuk bunyi a pada satu frame pada wanita
b)Sinyal wicara untuk bunyi a pada satu frame pada pria
Berdasarkan gambar 25 terlihat bahwa setiap satu frame terdapat 120 sample yang bersifat quasi
periodik dan mempunyai unsur bunyi terkecil yang disebut sebagai pitch Panjang pitch berkisar 10 ms Pitch
manusia berbeda satu sama lain terutama jenis kelamin laki-laki dan perempuan
212 Sampling
Sinyal wicara merupakan sinyal yang tidak terbatas dalam domain waktu (finite time interval) Suara
manusia akan menghasilkan sinyal analog yang terus kontinyu Untuk keperluan pemrosesan dalam transformasi
fourier maka sinyal wicara harus dibentuk dalam potongan-potongan waktu yang terbatas (infinite time interval)
Karena itu sinyal yang ada dipotong-potong dalam slot-slot interval waktu tertentu
Berdasarkan pada teori sampling Niquist maka syarat dari frekuensi sampling adalah minimal dua kali
frekuensi sinyal
Fsampling 2 x Fsignal ( 21)
Ekstraksi ciri
Pola standar fonem
Pemadanan fonem
Kamus kosa kata
Pemadanan kata
Algoritma keputusan
Sinyal wicara
-20000
-15000
-10000
-5000
0
5000
10000
15000
0 20 40 60 80 100 120 140
pitch -10000
-8000
-6000
-4000
-2000
0
2000
4000
6000
8000
0 20 40 60 80 100 120 140
pitch
Output teks
Bab 2 Teori Penunjang
6
Contoh dari sampling seperti bisa kita lihat pada gambar di bawah
Gambar 26 Contoh proses sampling dengan nilai frekuensi pencuplikan yang berbeda
6
Frekuensi sampling yang digunakan adalah 12000 Hz
Dimana dalam 1 detik sinyal terdapat 12000 titik sampling
213 Preemphasis
Proses preemphasis dimaksudkan agar spektrum sinyal merata di semua frekuensi serta mencegah
kehilangan informasi akibat proses pembulatan pada saat komputasi Fungsi preemphasis adalah
H (z) = 1 ndash az-1 09 le a le 1 (22)
dimana nilai a berkisar 095 Berdasarkan model filter di atas maka keluaran dari preemphasis adalah
s (n) = s (n) - as (n-1) ( 23)
Penjabarannya sebagai berikut
5 Ibid 6 Ibid
Fi = 1000 Hz
Fs = 1250 Hz
Fs = 1000 Hz
Fs = 4000 Hz
Fs = 8000 Hz
Fs 2Fi
Kriteria Nyquis
Fi Frekuensi sinyal informasi Fs Frekuensi pencuplikan
H X Y
T 1 = 12000 = 833 x 10-5 s = 833 μs
10 ms = 833μs x N sample N = 120 sample
Bab 2 Teori Penunjang
7
y = H x
y = (1-az-1) xn
y = xn - 095 xn z-1
y = xn ndash 095 xn - 1
214 Frame Blocking
Sinyal wicara yang telah dipreemphasis s (n) diblok dalam M sampel dimana N 2 x M seperti yang
ditunjukkan pada gambar 27 Jika M le N pergeseran frame akan mengalami overlape hasil perkiraan LPC
spectral akan dikorelasikan dari frame 1 ke frame berikutnya Jika M laquo N perkiraan LPC spectral dari satu frame
ke frame lainnya akan sangat halus (smooth) Dan bila M gt N maka tidak akan ada overlape diantara frame yang
berbatasan dan sinyal suara akan hilang sama sekali dan korelasi diantara perkiraan spectral LPC dari frame
yang berbatasan akan berisi komponen noise
Gambar 27 Pergeseran Frame pada Sinyal Suara
dengan M = 13 N
Sehingga didapatkan nilai dari sinyal yang baru adalah sebagai berikut
x1(n) =s(M 1+n) n =012hellipN ndash 1 l = 012hellipLndash1 (24 )
215 Windowing
Merupakan proses membatasi lebar sinyal yang akan dianalisa yang dapat mengurangi efek
diskontinyuitas pada ujung-ujung frame yang dihasilkan oleh potongan-potongan sinyal Korelasi antara lebar
window dalam domain waktu dan amplitude berguna untuk menyederhanakan sinyal dengan mengurangi
puncak sinyalnya
Ada beberapa jenis windowing yang dinamakan sesuai dengan nama penemunya yaitu
Bab 2 Teori Penunjang
8
Window Hamming
052-046 cos[2лn(N-1)] 0 le n le N-1
Wham(n) =
0 elsewhere
Window Hanning
1-cos[2лn(N-1)] 2 0 le n le N-1
Whan(n) =
0 elsewhere
Window Bartlett
1-cos[2лn(N-1)] 2 0 le n le (N-1)2
WB(n) = 2-2n(N-1) (N-1)2lenleN-1
0 elsewhere
Window Blackman
042-05cos[2лn(N-1)]+008cos[4лn(N-1)]0lenleN-1
WBl(n) =
0 elsewhere
216 Fourier Transform
Transformasi Fourier Diskrit (DFT) adalah deretan yang terdefinisi pada kawasan frekuensi ndash diskrit
yang merepresentaskan Transformasi Fourier terhadap suatu deretan terhingga (Finite Duration Sequence) DFT
berperan penting untuk implementasi algoritma suatu varitas pengolah sinyal karena efisien untuk komputasi
berbagai aplikasi
Salah satu contoh aplikasi komputasi DFT dalam algoritma yang efisien yaitu Fast Fourier Transform
(FFT) Efisiensi suatu algoritma ditentukan dari sejauh mana dapat mereduksi jumlah perkalian dan
penjumlahan serta reduksi lalu lintas data pada memori komputer sehingga proses lebih cepat
Pada DFT untuk memproses N buah titik diperlukan (N-1)perkalian kompleks dan N(N-1)
penjumlahan kompleks Bila N cukup besar dibutuhkan memori yang besar dan waktu yang cukup lama Untuk
itu digunakan metode lain yang lebih cepat yaitu metode transformasi fourier cepat (FFT) FFT dilakukan
dengan membagi N buah titik pada transformasi fourier diskrit menjadi 2 masing-masing N2 titik trnsformasi
Pemecahan menjadi dua pada proses transformasi fourier cepat disebut sebagai proses rekombinasi Dua buah
N2 titik transformasi mempunyai 2(N2) = N2 perkalian Proses memecah menjadi dua ini diteruskan dengan
membagi setiap (N2) titik transformasi menjadi dua buah (N4) titik transformasi setiap (N4) menjadi dua buah
Bab 2 Teori Penunjang
9
(N8) titik transformasi dan seterusnya hingga diperoleh junlah titik yang minimum Jika besarnya N merupakan
kelipatan pangkat dari 2 (disebut radiks 2) maka jumlah titik minimum setelah setiap kali dibagi 2 adalah dua
Ada dua macam metode FFT metode Decimation in Time (DIT) dan metode Dicimation in Frekuensi
(DIF) Kedua metode ini hamper sama Pada metode FFT-DIT N buah titik transformasi dibagi 2 menjadi fungsi
ganjil dan genap masing-masing mempunyai N2 titik transformasi Sedang pada metode FFT-DIF N buah titk
transformasi dibagi menjadi fungsi N2 titk yang pertama dan fungsi N2 titik yang kedua
Operasi pada metode FFT-DIT disebut juga metode kupu-kupu Untuk N buah titik transformasi h(n)
algoritma radiks 2 memerlukan proses perkalian dan rekombinasi sebanyak N2 log N transformasi fourier
diskrit Pada metode FFT-DIT operasi dekomposisi dilakukan dengan membagi fungsi h(n) menjadi 2 bagian
fungsi ganjil dan fungsi genap Atau dengan pernyataan matematika h1(n) dan h2(n) yang masing-masing adalah
untuk n genap dan n ganjil
Prinsip FFT dengan metode DIT adalah seperti pada gambar 24 berikut ini
Gambar 28 Blok metode FFT-DIT 8 titik
7
Pada gambar di atas merupakan jumlah perkalian kompleks N2 log N juga jumlah penjumlahan
kompleks = N2 log N
217 Linear Prediction Code
Ide dasar dari LPC adalah bahwa pada model ini memberikan sampel suara pada domain waktu yang
bisa didekati sebagai kombinasi linear dari sampel suara yang telah lalu
Teori Linear Prediction Coding (LPC) yang diaplikasikan pada wicara telah dimengerti selama
beberapa tahun Pada bagian ini akan dijelaskan dasar dari bagaimana LPC diaplikasikan pada sistem pengenlan
wicara
Sebelum menjelaskan LPC secara umum sebagai pemrose front-end untuk pengenalan wicara perlu
diketahui alasan mengapa LPC sangat banyak digunakan yaitu
1 LPC menyuguhkan model yang bagus untuk sinyal wicara
2 Cara yang digunakan LPC untuk analisa sinyal wicara sangat beralasan untuk pemisahan track dari
sumber vocal
3 LPC adalah model traktabel secara analitis
Bab 2 Teori Penunjang
10
4 Model LPC bekerja dengan baik pada aplikasi pengenalan
2171 Autocorrelation Analysis
Masing-masing frame sinyal yang telah diwindow kemudian di-autokorelasikan dengan menggunakan
persamaan
N-1-M
r1(m) = sum x1(n) x1(n+m) m = 0 1 p ( 25) (25)
n = 0
dimana nilai autokorelasi tertinggi p adalah orde dari analisi LPC Pada umumnya nilai dari p yang
sering digunakan adalah dari 8 sampai 16 Sisi menguntungkan dari analisis autokorelasi adalah bahwa
autokorelasi ke-0 R1 (0) adalah energi dari frame ke-1 Energi dari frame merupakan parameter
penting untuk system deteksi wicara
2172 LPC Analysis
Langkah selanjutnya adalah analisis LPC dimana mengkonversi masing-masing frame dari
auto korelasi p+1 ke dalam sebuah ldquoLPC Parameter Setrdquo dimana kumpulan itu merupakan koefisien
LPC koefisien refleksi atau PARCOR koefisien log area ratio koefisien Cepstral atau beberapa
transformasi pada kumpulan tersebut
Metode yang formal untuk mengkonversi dari koefisien autokorelasi ke sebuah LPC parameter
set (untuk metode autokorelasi) dikenal sebagai Metode Durbin dan secara formal dapat ditunjukkan
pada algoritma berikut ini
E(0) = r(0) ( 26)
Ki=r(i)-sumαj(i-1) r(|i-j|)E(i-1) 1 le I le p ( 27)
αi(i) = ki (28)
αj(i) = αj
(i-1)-ki α(i-1) ( 29)
t-j
E(i)=(1-ki2)E (i-j) (210)
dimana penyajian akhir dari persamaan mengabaikan i=1 Kumpulan dari persamaan hellipdiselesaikan secara
rekursif untuk i=12hellipp dan penyelesaian akhir diberikan sebagai
am=koefisien PC=αm 1lemlep ( 211)
7 Agus Wahyudi Verifikasi Sinyal Suara Sebagai Kendali Arah TA PENS-ITS 2002
Bab 2 Teori Penunjang
11
km=koefisien PARCOR ( 212)
1 - km
gm=koefisien log area ratio = log ----------- ( 213)
1 + km
2173 LPC Parameter Corversion to Cepstral Coefficients
Sekumpulan parameter LPC yang sangat penting yang dapat diturunkan langsung dari kumpulan LPC
adalah koefisien cepstral LPC c(m) Rekursif yang digunakan adalah
co = ln σ2 ( 214)
m-1
cm = am + sum ck am-k 1 le m le p ( 215)
k = 1
m-1
cm = sum ck am-k m gt p
k = 1
dimana σ2 adalah penguatan dalam model LPC Koefisien cepstral koefisien yang direpresentasikan dengan
fourier transform dengan spectrum besaran log telah ditampilkan menjadi kumpulan fitur untuk pengenalan
wicara yang lebih handal terpercaya daripada koefisien LPC koefisien PARCOR atau koefisien log area ratio
218 Dynamic Time Wraping
Dynamic Time Wraping (DTW) merupakan cara untuk membandingkan pola wicara dalam menentukan
kesamaan jarak antara pola-pola yang berbeda Dimana pengenalan wicara merupakan proses secara otomatis
dalam mengambil dan menentukan informasi linguistic yang disampaikan dengan gelombang wicara
menggunakan komputer atau sirkuit elektronik Informasi linguistic tersebut pada akhirnya akan
direpresentasikan dengan deretan waktu vektor-vektor spektral
Metode nolmalisasi waktu menggunakan dua buah fungsi warping
ix = Фx (k) k = 123hellipT (216)
iy = Фy (k) k = 123hellipT
2181 Dynamic Programming
Dynamic Programming (DP) digunakan untuk memecahkan masalah deteksi pengurutan kemampuan
menggunakan pola pengenalan wicara dan masalah waktu penjajaran dan normalisasi Ada dua tipe masalah
penggunaan Dynamic Programming yaitu
(
)
k m
( )
K m ( )
Bab 2 Teori Penunjang
12
1 Masalah jalan optimal dengan menganggap sekumpulan titik mulai dari 1 sampai dengan N yang
dihubungkan dengan pasangan setiap dari titik (ij) Representasi perpindahan secara langsung dari titik
ke-1 ke titik yang lainnya Rentetan perpindahan tersebut tidak mempunyai bilangan yang ditetapkan
dari transisi satu titik ke titik yang lainnya hal ini disebut rentetan keputusan asinkron
Dengan Terminologi sederhana kita membuat garis keputusan untuk menetukan titk berikutnya setelah
kebijaksanaan pada titik i
Prinsip dari optimalisasi yang merupakan kelas dasar dari algoritma komputasi untuk optimasi masalah
di atas berdasarkan pernyataan Bellman
rdquoKebijakan optimasi yang memiliki sifat apapun ketetapan dan ketentuannya keputusan berikutnya
harus merupakan hasil ketetapan dari keputusan yang pertamardquo
2 Masalah keputusan rentetan sinkronisasi terdapat perbedaan dari satu sinkronisasi yang beraturan dari
proses keputusan
Penggunaan teknik Dynamic Programming pada Dynamic Time Warping untuk pertama kali dilakukan
oleh Slutsker (1968) Vintsyuk (1968) dan Volichko (1971) dari Jepang untuk pengenalan wicara Pada proses
ini pembicara mengucapkan kata yang sama dengan durasi berubah setiap waktu dengan ekspansi yang non
linier Oleh karena itu Dynamic Time Wraping adalah tahap yang penting dalam proses pengenalan kata Proses
DTW mengalami pengembangan pada sumbu waktu untuk mencocokan posisi phonemkata yang sama antara
input wicara dan referensi template
Dynamic Programing secara umum digunakan untuk memecahkan masalah rentetan keputusan yang
dilakukan pada bidang kisi sebagaimana ditampilkan pada gambar 27 Sinyal yang dicocokkan adalah A dan B
Di dalam bidang kisi sinyal A disesuaikan sepanjang sumbu ndashx dan sinyal B disesuaikan sepanjang sumbu ndashy
Setiap antar bagian pada bagian ini ditetapkan sebagai sebuah simpul atau titik dimana titik (ij) adalah
pencocokan frame I untuk sinyal A dengan frame j untuk sinyal B Misalnya diasumsikan dua rentetan waktu
untuk vektor utama yang dibandingkan sebagai berikut
A = a1a2hellipaI dan B = b1b2hellipbJ
Dengan menganggap rentang bidang antara A dan B sebagaimana ditunjukkan pada gambar 27
fungsi pelengkungan waktu yang sesuai menunjukkan waktu antara rentetan A dan B dapat dipresentasikan
sebagai rentetan titk-titik Lattice pada bidang c = (ij) sebagai berikut
Bab 2 Teori Penunjang
13
Gambar 29 Plane jaringan untuk ilustrasi
pemrograman dinamik8
Bilamana jarak spektral antara dua vektor utama a1 dan b1 direpresentasikan oleh d(c) = d(ij) penjumlahan
jarak dari awal sampai akhir dari rentetan sepanjang F dapat direpresentasikan dengan
K
sum d(ck)wk
k=1
D(F) = mdashmdashmdashmdashmdash (217)
K
sum wk
k=1
Semakin kecil nilai ini semakin baik kecocokan antara A dan B Dimana wk adalah fungsi pembobotan
positif terhadap F
Dengan memperkecil persamaan di atas dengan kondisi berikut
1 Kondisi monotonisasi dan kontinuitas
0 le ik-ik-1le1 0 lejk ndash jk -1 le 1 ( 218)
2 Kondisi perbatasan
I1=j1=Iik=Ijk=I (219)
3 Kondisi adjustmen window
|ik ndash jk|ler r=konstan ( 220)
Pendefinisian wk sedemikian rupa sehingga menyebut pada persamaan 219 menjadi konstan yang
tidak tergantung pada F Untuk contoh jika
Wk = (ik ndash ik -1)+(jk ndash jk -1)(i0=j0=0) wk akan menjadi
8 Ibid hal 15
Bab 2 Teori Penunjang
14
K
sum wk = I + J (221) k=1
dan persamaan 219 menjadi
1 K
D(F)= mdashmdash sum d(ck)wk ( 222)
I + J k=1
Gambar 210 DTW antara dua rentetan waktu A dan B
9
Karena fungsi obyektif yang akan diminimasi menjadi penjumlahan maka peminimisasi secara efisien
dapat diselesaikan tanpa harus menguji semua kemungkinan untuk F Penjumlahan pada sebagian rentetan c1
c2 hellip ck (ck=(ij)) adalah
(224)
Penurunan pemrograman dinamik pada persamaan-persamaan diatas penggunaan kondisi untuk F dan
formulasi perumusan wk persamaan 2115 dapat dituliskan kembali sebagai berikut
9 Ibid hal 17
Bab 2 Teori Penunjang
15
g(ij-1)+d(ij)
g(ij) = min g(i-1j-1) + 2d (ij) (225)
g(i-1j) +d(ij)
Oleh karena itu jarak antara dua rentetan waktu A dan B setelah DTW dapat diperoleh sebagai berikut
Kita set dari kondisi awal untuk g(11)=2d(11) dan j=1 dan hitung persamaan 2116 dengan variasi I dalam
sepanjang adjustment window Perhitungan ini diulangi dengan menaikkan j sampai j=1 Jarak keseluruhan
antara dua rentetan waktu A dan B dapat diperoleh dari g(IJ)(I+J)
2182 Batasan Normalisasi Waktu
Supaya proses normalisasi waktu mempunyai arti pada perbedaan batasan dengan berbagai variasi
interval waktu dibutuhkan beberapa batasan terhadap fungsi warping
2183 Batasan Titik Awal Akhir
Bilamana pola wicara yang dibandingkan merupakan tuturan per kata maka harus memenuhi syarat pola
mulai dari titik awal sampai titik akhir dari tanda permulaan dan pengakhiran pola wicara Titik awal dan akhir
mempunyi batasan yang membatasi pola wicara harus dipenuhi
Titik awal Фx(1) = 1 Фy(1) = 1 (226)
Titik akhir Фx(T) = Tx Фy(T) = Ty (227)
2184 Kondisi Monotonisasi
Rentetan pola spectral pada wicara sangat penting dalam menentukan arti linguistic sehingga tidak
akan hilang Untuk mempertahankan pola tersebut harus memenuhi
Фx(k + 1) ge Фx(k) (228)
Фy(k + 1) ge Фy(k)
22 Awal dan Akhir Sinyal Suara
221 Power
Sinyal suara yang diolah haruslah merupakan sinyal suara murni dan tidak bercampur dengan noise
ataupun header tail yang dibawa oleh suara saat perekaman apalagi jika pengenalan sinyal suara dengan jumlah
vocabulary yang besar Oleh karena itu sinyal suara hasil perekaman harus dicari nilai awal dan akhirnya agar
pengolahan sinyal suara tersebut menjadi lebih valid
Dan salah satu cara dalam menentukan nilai awal dan akhir dari sinyal suara adalah dengan
menggunakan power yang mempunyai persamaan sebagai berikut
( )
Bab 2 Teori Penunjang
16
239
p= sumradic xt2 (229)
t=0
Sinyal suara yang dibagi menjadi beberapa frame mempunyai power dari tiap framenya yang kemudian
didapatkan nilai rata-ratanya yang kemudian diperoleh nilai awal dan akhirnya dengan menambahkan 3 kali
standart deviasi Dimana penentuan awal dan akhir dari sinyal suara dapat diperoleh dengan
p ge p + 07 standart deviasi
Power
0
20000
40000
60000
80000
100000
120000
140000
160000
0 10 20 30 40 50 60
Jumlah Frame
Am
pli
tud
o
Gambar 211 Bentuk power dari kata
Nilai beberapa kali hasil percobaan
222 Unvoiced Plosive
Pada suatu sinyal suara yang terekam terdapat pemutusan sinyal atau kondisi kosong yang bukan
merupakan noise tetapi masih didalam lingkup suara Tapi kondisi ini hanya terjadi pada kebanyakan sinyal
suara yang terdapat konsonan tertentu yaitu sinyal suara dari kata yang mempunyai konsonan p t k Kondisi ini
disebut Unvoiced Plosive atau loncatan sinyal suara setelah kondisi kosong seperti ditunjukkan pada gambar
berikut
Gambar 212 Unvoiced Plosive
Bab 2 Teori Penunjang
17
Dan untuk penentuan awal dan akhir daerah kosong tersebut harus diperhitungkan agar didapatkan
nilai awal dan akhir dari sinyal suara yang valid yaitu dengan mencari nilai rata-rata dari daerah kosong dari
beberapa sinyal suara Kemudian dengan dicari nilai thresholdnya yaitu nilai terpanjang dari daerah kosong
sebesar 2 dari seluruh daerah kosong yang telah dihistogram
23 JARINGAN DENGAN TCPIP
Meskipun hubungan computer melalui serial dan parallel telah ada sejak lama multijaringan belum
menjadi masalah serius bagi para peneliti di bidang jaringan sampai awal tahun 1980 Perkembangan teknologi
LAN itu sendiri didasarkan banyak alasan Salah satu yang menjadi alasan utama adalah adanya perusahaan
yang ingin melakukan sharing data file printer dan resource lainnya ke pc lain
231 Mengenal TCPIP
Sebelumnya kita definisikan lebih dahulu apa yang dimaksud protocol itu Bila dua computer ingin
melakukan komunikasi keduanya tentu saja harus menggunkan bahasaturan yang sama Aturan-aturan inilah
yang disebut protocol Misalnya untuk mengirim mail digunakan protocol SMTP berhubungan dengan WWW
menggunakan HTTP dan sebagainya Jadi protocol merupakan aturan dalam melakukan komunikasi
TCPIP ( Transmission Control Protocol Internet Protocol) merupakan protocol yang bersifat open
networking Maksudnya semua penjelasan teknis tentang protocol tersebut diumumkan karena ada juga
mekanisme jaringan yang menyembunyikan detail dari sistemnya Hal inilah yang membuat TCPIP menjadi
terkenal
Adapun keuntungan dengan menggunakan protocol TCPIP adalah kemudahannya karena
memungkinkan hubungan antara berbagai system operasi dan berbagai jenis computer (platform)
TCPIP bukanlah protocol tunggal tetapi merupakan sekumpulan protocol sehingga lebih tepat disebut
sebagai keluarga TCPIP Setiap protocol pada TCPIP memiliki tugas tertentu yang berbeda Semua protocol
tersebut menggunakan protocol primer untuk mengirimkan paket data Protocol primer tersebut adalah TCP dan
IP
Protokol lainnya dapat dikelompokkan berdasarkan tujuannya sebagai berikut
1 Transport
Digunakan untuk mengatur perpindahan data antara dua mesin Antara lain
- TCP (Transmission Control Protocol)
- UDP (User Datagram Protocol)
2 Routing
Digunakan untuk pengalamatan data dan menentukan rute terbaik antara lain
- IP (Internet Protocol)
- ICMP (Internet Control Message Protocol)
- RIP (Routing Information Protocol)
Bab 2 Teori Penunjang
18
3 Network Address
Menangani bagaimana suatu mesin diberikan suatu alamat antara lain
- ARP ( Address Rwesolution Protocol)
- DNS ( Domain Name Sistem)
- RARP (Reverse Address Resolution Protocol)
4 User Service
Merupakan aplikasi yang harus diakses user antara lain
- FTP ( File Transfer Protocol)
- TFTP (Trivial File Transfer Protocol)
- TELNET
5 Gateway Protocol
Untuk membentuk proses komunikasi routing dan status informasi antara lain
- EGP (Exterior Geteway Protocol)
- GGP (Gateway to Gateway Protocol)
- IGP (Interior Gateway Protocol)
232 Koneksi TCPIP
Untuk mengkonfigurasi TCPIP maka dibutuhkan
Alamat IP
Alamat IP ini sebagai pengenal atau alamat mesin Karena setiap mesin yang terhubung jaringan
harus memiliki penganal yang unik sehingga memungkinkan melakukan routing Jaringan dengan TCPIP
menggunakan pengalamatan 32 bit sebagai alamat atau pengenal setiap mesin yang terkoneksi dengan jaringan
Pengenal ini disebut alamat IP Pesan atau data yang dikirim melalui TCPIP menggunakan alamat IP ini untuk
mengenali mesin pengirim dan penerimanya
Biasanya alamat IP dapat dikelompokkan menjadi dua bagian yaitu
1 Nomor Network
2 Nomor Device dalam Network tersebut
Alamat IP tersebut dipisahkan menjadi empat bagian yang masing-masing berukuran 8 bit Empat
bagian tersebut dipisahkan oleh tanda titik dan setiap bagian tersebut memiliki angka 0-255 Contohnya
192168101
Pemberian alamta IP umumnya ditentukan berdasarkan ukuran dari jaringan tersebut Jaringan
dapat diklasifikasikan menjadi tiga kategori yaitu kelas A kelas B kelas C Ketiga kelas tersebut membagi
pengalamatan 32 bit dengan ukuran berbeda untuk nomor Network dan Host
Pengalamatan pada kelas A memungkinkan bagian ini memiliki angka dari 0-127 Sedangkan
pengalamatan B memungkinkan memiliki angka dari 128-191 pengalamatan pada kelas C memungkinkan
memiliki angka dari 192-223
Network Mask
Bab 2 Teori Penunjang
19
Network mask merupakan alamat IP dimana lamat networknya diset ke nilai 255 Jika alamat IP
termasuk kelas A maka network masknya yaitu 255000 Jika alamat IP termasuk kelas B maka network
masknya yaitu 25525500 Jika alamat IP termasuk kelas C maka network masknya yaitu 2552552550
AlamatNetwork
Alamat network ini dapat diperoleh dari alamat IP dimana bit-bitnya dilakukan operasi AND
dengan network mask Dengan demikian untuk network kelas B dengan IP 192168101 maka alamat
networknya adalah 19216800
Alamat Broadcast
Alamat broadcast dibutuhkan bila suatu mesin ingin mengirimkan paket yang sama ke semua
device pada jaringan
Alamat Gateway
Alamat gateway merupakan alamat IP dari mesin yang menghubungkan jaringan dengan jaringan
di luar misalnya internet Pada umumnya alamatgateway memiliki IP yang sama dengan mesin yang kita miliki
tetapi mempunyai nomor device 1 Dengan demikian untuk network kelas B dengan alamt IP 192168101
alamat gatewaynya adalah 19216811
Alamat Nameserver
Jaringan-jaringan besar umumnya memiliki sebuah mesin untuk mentranslasikan alamat IP menjadi
nama yang lebih mudah dikenal manusia Misalkan sebuah mesin dengan IP 192168101 dapat diberi nama lain
seperti puspacsuiacid sebagai alamatnya Proses translasi ini dilakukan dengan system yang dikenal dengan
nama Domain Name System (DNS)
24 BEKERJA DENGAN SOCKET
Komponen socket program yang dapat membantu dalam pembuatan suatu aplikasi yang berkomunikasi
antara suatu system computer dengan system computer yang lain dengan menggunakan protocol TCPIP dan
protocol lain yang terhubung
241 Pengertian Socket Program
Pada sub bab ini akan dijelaskan tentang komoponen socket program yang dapat berkomunikasi antara
system computer dengan system computer yang lain dengan menggunakan protocol TCPIP dan protocol lain
yang terhubung Dengan socket program ini kita dapat membaca dan menulis pada hubungan ke mesin yang lain
tanpa mengalami kesulitan pada software jaringan Socket program dapat mengadakan hubungan berbasis
protocol TCPIP tetapi dapat juga bekerja umunya dengan protokol-protokol yang terhubung seperti Xerox
Network System (XNS) dan yang lain
Bab 2 Teori Penunjang
20
242 Penjabaran Socket
Socket mengijinkan aplikasi jaringan kita berkomunikasi dengan sistem lain di luar jaringan
Masing- masing socket bisadipandang sebagai titik akhir dalam suatu koneksi jaringan Socket tersebut memiliki
spesifikasi sebagai berikut
a) Sistem yang sedang dijalankan
b) Tipe interface port yang digunakan
Penjelasan lengkap dari sebuah koneksi socket terdiri dari address socket pada kedua titik akhir
koneksi Kita akan menguraikan address dari masing- masing titik akhir socket dengan memberi nomor IP
address atau host dan port
Sebelum membuat koneksi socket sebelumnya harus menguraikan dengan lengkap socket-socket
yang membentuk titik akhir Beberapa informasi tersedia dari sistem aplikasi yang dijalankan Sebagai contoh
kita tidaka akan membutuhkan IP Address Local dari socket client sebab informasi ini terdapat pada sistem
operasi
Informasi yang akan kita berikan bergantung pada tipe socket yang sedang bekerja Socket client
harus menggambarkan port yang merepresentasikan layanan yang mereka berikan
243 Memilih Host Name dan IP Address
Kebanyakan aplikasi menggunakan host name untuk merinci sebuah system Host Name mudah
untuk diingat dan dicek Menggunakan host name memungkinkan socket client untuk menemukan situs abstrak
yang diwakili oleh nama host meskipun telah dipindah ke IP Address yang baru Jika nama host tidak diketahui
socket client akan akan menyatakan system server sedang menggunakan IP Addressnya Ketika kita
menyediakan host name socket akan mencari IP Address yang berhubungan dengan host name sebelum socket
tersebut dapat menempatkan pada sistem server
Bab 3 Perencanaan dan Implementasi
21
BAB 3
PERENCANAAN DAN IMPLEMENTASI
31 Pendahuluan
Pada bab ini akan dijelaskan mengenai pengolahan sinyal wicara untuk mendapatkan ciri setiap
individu Juga akan dibahas mengenai pengolahan hasil keluaran sinyal wicara untuk ditransmisikan ke PC lain
(lewat jaringan) Dan selanjutnya akan dibahas pula mengenai plan atau obyek yang dalam hal ini adalah lampu
pijar
Berikut ini adalah blok diagram sistem secara keseluruhan
Gambar 31 Blok Diagram Sistem Secara Keseluruhan
Speaker pada gambar 31 memberikan suaranya sebagai masukan lewat mikrofon Masukan ini
akan diolah dalam PC client mulai dari proses sampling frame windowing FFT LPC Kemudian hasil dari
LPC dicari pemadanan dengan LPC dari sinyal standar yang telah tersimpan sebagai data base di dalam PC
client Hasil dari DTW tersebut akan dikirimkan ke PC server melalui TCPIP untuk diproses menjadi suatu
perintah ke perangkat keras Perintah tersebut merupakan bentuk implementasi dari perintah yang diberikan dari
PC client
Sebaliknya dengan adanya perubahan kondisi pada peralatan yang diinginkan maka terjadi sinyal
balikan yang berupa sinyal DTMF yang dikirimkan oleh perangkat keras ke PC server Oleh PC server sinyal ini
diolah untuk dikenali sebagai suatu kondisi tertentu yang akan dikirimkan ke PC client sebagai laporan tentang
kondisi alat yang diinginkan
32 Sistem Pengolahan Sinyal Wicara
321Perekaman Suara
TCPIP
Pengucap Speaker ADC Pengolahan Wicara dan Monitoring
Peralatan yang terkontrol
LAN Card
LAN Card
Pengenalan Pola Pengiriman Tone DTMF dan Pengenalan DTMF Sebagai Laporan
DTMF Decoding DTMF Generator Sistem Switching
Alat Terkontrol
Bab 3 Perencanaan dan Implementasi
22
Perekaman suara dilakukan menggunakan software berbasis TclTk 830 dan Snack22 Sebelumnya
akan dijelaskan satu per satu program yang dipakai
o TclTk 830
Tcl kepanjangan dari Tool Control Language Tk adalah Graphical Toolkit extension dari Tcl yang
menyediakan bermacam-macam item standar antarmuka GUI untuk memfasilitasi secara cepat pengembangan
aplikasi tingkat tinggi
o Snack22
Snack adalah tool pengolahan suara yang didesain sebagai extensi untuk bahasa script Saat ini Snack bekerja
dengan bahasa script TclTk Phyton dan Ruby Snack memiliki perintah-perintah untuk play record process
dan dan memvisualisasi suara Snack menyediakan obyek suara tingkat tinggi dengan manajemen penyimpanan
yang fleksibel dan streaming support Snack dapat bekerja pada banyak format file suara
Kita dapat membangun aplikasi sepaerti di bawah ini dengan integrasi dari TclTk dan Snack
Gambar 32 Program aplikasi pengenalan wicara
Frekuensi sampling pada program di atas diset pada frekuensi 12 kHz Frekuensi ini dipilih karena biasa
digunakan untuk voice Selain itu juga diset pada channel Mono dan sinyal encoding LIN 16 (resolusi 16 bit
PCM) Pada penekanan tombol ldquorecordrdquo diikuti tombol ldquostoprdquo dan kemudian tombol ldquostandartrdquo maka akan
dimulai proses perekaman yanag akan digunakan untuk membuat file standar untuk kedelapan perintah yang
akan digunakan untuk pembanding sinyal masukan
Adapun proses untuk sistem yang akan dibuat dapat digambarkan dengan diagram alir seperti di bawah
Bab 3 Perencanaan dan Implementasi
23
Mulai
Package Require
Snack 22
Exit
Program On
Running
Recording
Sound Card
Produser Running
Prosedur Recording
DTMF
Keluar
Tidak
YaTidak
Ya
Ya
Ya
Ya
Tidak
Tidak
Tidak
Gambar 33 Flowchart Sistem Graphical User
Interface
322 Sampling
Seperti telah dijelaskan di depan bahwa frekuensi sampling yang digunakan adalah sebesar 12000Hz
dimana dalam 1 detik sinyal terdapat 12000 titik sampling Sebagai contoh seperti gambar di bawah ini suatu
sinyal epanjang 20 ms disampling 12000 Hz menghasilkan titik sampling sebanyak 240 titik
Data Sampling
-20000
-15000
-10000
-5000
0
5000
10000
15000
20000
0 200 400 600
Amplitudo
Jumlah Data
Gambar 34 Sinyal hasil sampling dengan
frekuensi 12000 Hz
Bab 3 Perencanaan dan Implementasi
24
Mulai
Sinyal Masukan
Baca Panjang Sinyal
Bagi Menjadi N Frame
i = 0 i lt N i++
Ambil 240 Data Sampel
Tampilkan Nilai
Sampel
Selesai
Gambar 35 Flowchart Proses Sampling
323 Pre-emphasis
Agar spektrum sinyal merata di semua frekuensi dan mencegah kehilangan informasi akibat pembulatan
pada saat komputasi maka dilakukan prose preemphasis Fungsi transfer preemphasis adalah
H(z) = 1 ndash a z-1 09 le a le 1 (31)
Dimana nilai a berkisar 095 Berdasarkan model filter di atas maka keluaran dari preemphasis adalah
s(n) = s(n) ndash a s(n-1) (32)
324 Frame Blocking
Hasil perekaman merupakan sinyal dalam domain waktu yang bersifat variant time (fungsi yang
bergantung pada waktu) Sinyal yang telah dipreemphasis kemudian dibagi menjadi n buah frame Dengan
jumlah sample per frame sebesar N dan adjacent frame sebesar M sample Dimana M=05N Pada frame
pertama terdiri dari N buah sampel Frame kedua dimulai pada sampel ke M sehingga terjadi overlape sebesar
N - M sampel Begitupula untuk frame yang ketiga dimulai dari sample ke 2M sehingga terjadi overlape dari
farme kedua sebesar N + M-2M sampel juga Hal ini akan terus berlangsung hingga seluruh sinyal terbagi
menjadi beberapa frame
Bab 3 Perencanaan dan Implementasi
25
Gambar 36 Frame blocking sinyal
325 Windowing
Windowing yang digunakan adalah window hamming Setelah proses pengambilan sample maka
langkah selanjutnya adalah proses selanjutnya adalah proses windowing yang berfungsi untuk mengurangi efek
diskontinyuitas pada ujung-ujung frame Persamaannya adalah sebagai berikut
y[i] = x[i](054-046cos(20314159265(i-1)240) (33)
Flowchartnya bisa dilihat seperti di bawah
Mulai
240 Data
Sampel
i= 0 i lt 240 i++
Hamming Window
y[i] = x[i](054-046cos(2phi(i-1)
240))
Tampilkan
nilai
Hamming
Selesai
Gambar 37 Flowchart Proses Windowing
326 Fast Fourier Transform
Transformasi fourier cepat (FFT) adalah suatu metode yang sangat efisien untuk menyelesaikan
transformasi fourier diskrit (DFT) yang banyak dipakai untuk keperluan analisa sinyal Sehingga dengan FFT
N N N M
M N
N N
M
Bab 3 Perencanaan dan Implementasi
26
sinyal yang disampling dalam domain waktu ditransformasikan ke domai frekuensi dengan menggunakan
persamaan sebagai berikut
N-1
H(k) = sum h(n)e-j2лkN (34)
n=0
dengan k= 012N-1
Prosesnya dapat dilihat dari flowchart di bawah
Mulai
240 data
sampel
256 data sampel
i=0 ilt256 i++
tmp_log1=(xr[k]xr[k]+xc[k]xc[k])
tmp_log gt 0
xr[k]=10log10(tmp_log1)
Tampilkan
nilai
hamming
Selesai
xr[k]=10log10(0000001)
Ya
Tidak
Gambar 38 Flowchart Proses Fast Fourier
Transform
327 Autocorrelation analysis
Hasil dari windowing sinyal masukan kemudian dihitung autokerelasinya dengan persamaan
N-1-m
r1(m) = sum x1(n)x1(n+m) m=01p (35)
n=0
dimana niali autokorelasi tertinggi p adalah orde dari analisis LPCPada umumnya nilai dari p yang sering
digunakan adalah dari 8 sampai 16
Proses Autokorelasi dapat dilihat dari flowchart di bawah ini
Bab 3 Perencanaan dan Implementasi
27
Mulai
240 data p lpc
orde
i=0 iltp i++
j=0 jlt240-p-1 j++
RI[j]=sum(xI[i]xI[i+j])
Tampilkan nilai
autocorrelation
Selesai
Gambar 39 Flowchart Proses Autokorelasi
328 LPC Analysis
Hasil koefisien autokorelasi kemudian dikonversikan ke sebuah LPC parameter set (untuk metode LPC
autokorelasi) dikenal sebagai Metode Durbin dan secara formal ditunjukkan dari algoritma sebagai berikut
E(0) = r(0) (36)
ki=r(i)-sumαj(i-1) r(|i-j|)E(i-1) 1 le I le p (37)
αi(i) = ki (38 )
αj(i) = αj
(i-1)-ki α(i-1) ( 39)
t-j
E(i)=(1-ki2)E (i-j) (310)
dimana penyajian akhir dari persamaan 37 mengabaikan i=1 Kumpulan dari persamaan 36 -310 diselesaikan
secara rekursif untuk i=12p
Proses analisis dapat dilihat dari flowchart di bawah
Bab 3 Perencanaan dan Implementasi
28
Mulai
Autocorrelationr
p lpc orde
E (0) = r(0)
k1
= r(i)-sumalpha j (i-1) r( | i-j|E(i-1)
alpha j (i) = k
i
alpha j
(i) = alpha (i-1) -k i alpha
i-j (i-1)
E (i) = 1-k i 2) E(i-1)
Tampilkan nilai
parameter lpca
Selesai
i=0 iltp i++
Gambar 310 Flowchart proses LPC analisis
329 LPC Parameter to Cepstrum Analysis
Sekumpulan parameter LPC yang sangat penting yang dapat diturunkan langsung dari kumpulan
koefisien LPC adalah koefisien cepstral LPC c(m) Rekursif yang digunakan adalah
co = ln σ2 ( 311)
m-1
cm = am + sum ck am-k 1 le m le p (312)
k = 1
m-1
cm = sum ck am-k m gt p ( 313)
k = 1
Proses LPC parameter ke Cepstrum Analysis dapat dilihat dari flowchart di bawah ini
k m ( )
k m ( )
Bab 3 Perencanaan dan Implementasi
29
Mulai
lpc parameter a
p lpc orde
c o = ln del 2
1 lt=mlt=p
i=0 iltp i++
Cm
= am
+sum((km)Ck a
m-kC
m =sum((km)C
ka
m-k)
Tampilkan nilai lpc
cepstrumc
Selesai
Gambar 311 Flowchart Proses LPC parameter ke
Cepstrum
3210 Dynamic Time Warping
Proses yang terjadi pada Dynamic Time Warping adalah pengukuran jarak suara antara sinyal standart
dan sinyal input Yang diukur berupa deretan nilai dari hasil LPC Cepstrum dalam bentuk kolom dan baris (ij)
yang disimpan dalam satu file Pada kolom berisi nilai tiap cepstrum sedangkan baris berupa banyaknya frame
Teknik yang digunakan dinamakan Dynamic Programming Alur kerjanya dapat dilihat dari flowchart di bawah
Bab 3 Perencanaan dan Implementasi
30
Mulai
i=0 iltN i++
j=0 jlt15 j++
Cepstrum
Standart
Std_Ceps [i][j]
Cepstrum
Input
Inp_Ceps [i][j]
DP_dist = DP_match1(r)
DP_dist
Selesai
Gambar 312 Flowchart Proses Dynamic Programming
33 Awal dan Akhir Sinyal suara
331 Power
Untuk mendapatkan suatu sinyal suara tanpa adanya noise maka sinyal harus benar-benar dipotong
tepat pada awal dan akhirnya Oleh karena itu dipakai power sebagai salah satu cara yang efektif dalam
menentukan awal dan akhir suatu sinyal suara
Dimana tiap frame mempunyai power yang merupakan hasil kuadratisasi dari penyampelan tiap frame
yang kemudian hasil keseluruhan diakarkan seperti bisa dilihat pada flowchart di bawah
Bab 3 Perencanaan dan Implementasi
31
Mulai
Power = 0
i=0 ilt240 i++
Power=Power+sqrt(xixi)
Selesai
Gambar 313 Flowchart Proses Power
Jumlah sample per frame ditetapkan sebesar 240 sampel Kemudian dicari power masing-masing antara sinyal
utuh dan sinyal noise kemudian dengan p ge p + 07 standar deviasi maka didapatkan awal dan akhir sinyal
suara
332 Unvoiced Plosive
Adanya daerah kosong menyebabkan sinyal tidak valid dalam pemotongan awal dan akhirnya karena
bisa dianggap noise padahal berada dalam sinyal suara ( merupakan bagian dari sinyal suara) Oleh karena itu
dicari mean dari 25 kata sinyal suara yang kemudian dicari nilai thresholdnya sebagai panjang akhir dari daerah
kosong Dan nilai tersebut diikutsertakan dalam looping dan jika setelah itu terdapat sinyal kembali maka
berarti masih ada sinyal suara dan jika tidak ada berarti tidak ada sinyal suara
34 Proses Pada Client
Preses pada client dapat dijelaskan sebagai berikut
Gambar 314 Blok diagram proses client
Penjelasan dari blok digram tersebut adalah
1 Pertama adalah perekaman suara pada software recording yang hasilnyadisimpan dalam bentuk file
berekstensi ldquowavrdquo File ini selanjutnya akan dijadikan file input pada sistem client
2 File suara yang telah tersimpan diolah dalam program sampling untuk mendapatkan sinyal suara dalam
bentuk frame Setiap frame terdiri dari 120 sampel
Mic Extract AD Voice Dikenali
Bab 3 Perencanaan dan Implementasi
32
3 Tiap frame diwindow dengan window Hamming untuk mengurangi efek diskontinyuitas pada ujung-
ujung frame
4 Sinyal hasil window yang masih dalam domain time diubah ke dalam domain frekuensi dengan Fast
Fourier Transform (FFT)
5 Hasil dari windowing sinyal masukan kemudian dihitung autokerelasinya
6 Hasil koefisien autokorelasi kemudian dikonversikan ke sebuah LPC parameter set (untuk metode LPC
autokorelasi) Sekumpulan parameter LPC yang sangat penting yang dapat diturunkan langsung dari
kumpulan koefisien LPC adalah koefisien cepstral LPC
7 Selanjutnya dilakukan proses DTW (Dynamic Time Warping) pengukuran jarak suara antara sinyal
standart dan sinyal input Hasilnya disimpan dalam sebuah file berekstensi ldquotxtrdquo
8 File berekstensi txt tersebut ke server sebagai sinyal suara input
35 Proses Pada Server
Proses pada server dapat dijelaskan sebagai berikut
Gambar 315 Blok diagram proses server
Penjelasan dari blok diagram tersebut adalah
1 Isi file berekstensi rdquotxtrdquo diterima oleh server dan digunakan sebagai data input untuk memanggil
database tone DTMF yang sesuai sebagai pengoperasian alat yang akan dikontrol
2 Alat yang terkontrol akan menunjukkan hasilnya
Memanggil
Database
Tone
Dikode
kan
dalam
biner
Kirim
ke HW
Kontrol
Alat
Input
server
Bab 4 Pengujian dan Analisa
33
BAB 4
PENGUJIAN DAN ANALISA
41 Pendahuluan
Untuk mengetahui tingkat keberhasilan dari suatu sistem diperlukan pengujian keseluruhan dari
perencanaan hasil sistem yang telah dibuat Dalam bab ini akan dijelaskan mengenai hal tersebut
Pengujian yang akan dilakukan adalah
1 Pengujian dan analisa sistem pengolahan sinyal wicara
2 Pengujian dan analisa sistem client server
3 Pengujian dan analisa awal dan akhir sistem pengolahan wicara
42 Pengujian dan Analisa Sistem Pengolahan Wicara
Tujuan untuk mendapatkan parameter ciri individu dari sampel sinyal yang diolah
421 Perekaman Suara
Pada Tugas Akhir ini digunakan duamacam perangkat lunak yang dibangun sendiri berbasis TclTk 830
dan Snack 22 sebagai perangkat lunak yang diuji dan perangkat lunak Wavesurver sebagai pembanding
4211 Dengan menggunakan TclTk dan Snack
Tampilan awal dari perangkat lunak yang dibangun dengan menggunakan TclTk dan Snack adalah sebagai
berikut
Gambar 41 Tampilan awal perangkat lunak menggunakan TclTk dan Snack
Bab 4 Pengujian dan Analisa
34
Pertama kali tombol record ditekan maka proses pengambilan sinyal wicara yang dimasukkan
dimulai Pada saat tombol Stop ditekan maka program akan merekam kata ldquosatu nyalardquordquosatu matirdquordquodua
nyalardquordquodua matirdquordquotiga nyalardquordquotiga matirdquordquoempat nyalardquordquoempat matirdquo sesuai yang kita masukkan dan
tampilan display akan digambarkan bentuk sinyal yang dihasilkan secara otomatis Hasil perekaman dapat
dilihat pada gambar berikut 42
Gambar 42 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan perangkat lunak
TclTk dan Snack
Gambar 42 menunjukkan bahwa proses pengambilan sinyal suara telah dilakukan Sinyal suara yang
dimasukkna akan terlihat gambarnya pada layar hitam (canvas)
4212 Dengan menggunakan Wave Surver
Sebagai pembanding dari program yang telah dibuat yaitu dari perangkat lunak TclTk dan Snack
digunakan Wavesurver
Tampilan awal dari Wavesurver 157 tampak seperti pada gambar 43
Gambar 43 Tampilan awal perangkat lunak menggunakan Wavesurver
Bab 4 Pengujian dan Analisa
35
Pada saat tombol recording ditekan maka program akan merekam kata ldquosatu nyalardquo dan pada tampilan
display akan digambarkan bentuk sinyal yang dihasilkan secara otomatis Hasil perekaman bisa dilihat pada
gambar 44
Gambar 44 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan
perangkat lunak Wavesurver
Perekaman pada Wavesurver dapat diset sesuai dengan kebutuhan Dimana pada sistem pengolahan sinyal
suara untuk perekaman suara diset sebagai berikut
Gambar 45 Kotak dialog setting perekaman perangkat lunak Wavesurver
Pada data di atas dapat dilihat bahwa suara yang direkam dengan mengguanakan perangkat lunak
Wavesurver mempunyai header dan tail yang berisi keterangan perekaman sebagai berikut
12000 menunjukkan frekuensi sampling yang digunakan
Bab 4 Pengujian dan Analisa
36
Channels menunjukkan bahwa suara direkam dengan menggunakan channel Mono
Sampel Encoding Lin 16 menunjukkan bahwa suara direkam dengan menggunakan
16 bit PCM
422 Sampling
Dengan menggunakan program yang dibangun sendiri di atas proses penyamplingan sinyal input sekaligus
telah terjadi dimana dengan frekuensi sampling sebesar 12000 Hz didapatkan sinyal dari kata ldquosatu nyalardquo
dengan potongan sebagai berikut
3306
3538
3788
4076
4282
4684
4747
4956
5083
5442
5844
5901
6244
6196
6462
6104
Berikut ini adalah cuplikan dari data sampel kata ldquo empat matirdquo mulai dari milidetik ke-13900
Bab 4 Pengujian dan Analisa
37
Data Sampling
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 46 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900
Pada gambar 46 telah dilakukan proses sampling sinyal masukan dengan frekuensi sampling sebesar 12000
Hz maka didapatkan hasil sinyal yang hampir mirip dengan sinyal analognya karena sinyal suara manusia
memiliki jarak frekuensi antara 300 sampai 5000 Hz dimana syarat Nyquist minimal fsampling 2fsinyal
telah terpenuhi
423 Windowing
Jenis window yang digunakan adalah window Hamming
Pada proses window hamming kata yang telah disampel sebanyak 240 sampel akan diwindow sehingga
menghasilkan sinyal yang lebih kecil peaknya Hasilnya adalah sebagai berikut
-26174
-22078
-12518
-1444
9690
19308
23360
20049
12365
2391
-7874
-14539
-17837
-19929
-19007
-16955
Bab 4 Pengujian dan Analisa
38
Sedangkan hasil dalam bentuk gambar dapat dilihat pada gambar berikut
Data Windowing
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 47 Hasil Windowing data sampel kata ldquoempat matirdquo milidetik ke-13900
Seperti yang ditunjukkan gambar 47 proses windowing telah dilakukan Berdasarkan gambar 47
tersebut dapat dikatakan bahwa window Hamming menyebabkan sinyal yang disampel lebih halus Gambar
47 dapat dibandingkan dengan gambar 46 yaitu gambar sinyal sebelum melalui proses windowing dapat
dilihat bahwa sinyal yang telah diwindow mempunyai sinyal yang lebih halus Hal ini membuktikan bahwa
fungsi dari windowing untuk mengurangi efek diskontinyuitas pada ujung-ujung frame adalah benar
424 Fast Fourier Transform Sinyal Masukan
Pada proses ini sinyal yang sebelumnya berada dalam domain waktu akan diubah dalam domain
frekuensi Setiap sinyal yang berasal dari alam merupakan sinyal analog yang bila diolah harus diubah
dalam bentuk sinyal digital Dan pengolahan dalam digital merupakan pengolahan dalam bentuk diskrit
Pada proyek akhir ini sinyal dalam domain waktu akan diubah dalam domain frekuensi dengan 256 titik
Karena hasil yang diperoleh berupa hasil dari fungsi konvolusi maka hanya akan diambil 128 titik saja yang
akan diolah dalam proses selanjutnya Sedangkan 128 sisanya tidak dipergunakan karena berupa
pencerminan saja
Hasil dari Fast Fourier Transform (FFT) dari penggalan kata ldquoempat matirdquo pada milidetik ke-13900 dalam
bentuk teks adalah
103505157
106889458
Bab 4 Pengujian dan Analisa
39
104735321
100408661
89175987
95431992
96601654
8489315
89637459
8630304
75320663
87866905
91001945
89607201
82408546
83440155
4241 Dengan Menggunakan TclTk dan Snack
Fast Fourier Transform Sinyal
Masukan
0
20
40
60
80
100
120
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 48 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat
lunak TclTk dan Snack
Dari gambar 48 di atas sinyal suara yang sebelumnya berada di domain waktu telah diubah ke domain
frekuensi Hasil Fast Fourier Transform sinyal masukan menunjukkan sebaran spektrum frekuensi dari
sinyal suara yang telah dihasilkan oleh pengucap antara 0 sampai 6000 Hz
Bab 4 Pengujian dan Analisa
40
4242 Dengan Menggunakan Wavesurver
Gambar 49 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat
Wavesurver
Dari gambar 49 di atas hasil Fast Fourier Transform sinyal masukan menunjukkan sebaran spektrum
frekuensi dari sinyal suara yang telah dihasilkan oleh pengucap antara 0 sampai 6000 Hz adalah sama
seperti pada gambar dengan gambar 48 yang diambil dengan perangkat lunak TclTk dan Snack
425 Autocorrelation Analysis
Pada proses ini sinyal masukan dalam domain waktu yang telah diwindow hamming dihitung korelasinya
dengan menggunakan orde analisi LPC sebesar 15 Sehingga akan didapatkan hasil rk(autokorelasi) sebagai
berikut
17648453
128874
0669745
0662566
0470262
0164336
-010638
-0229032
-016249
0014062
0138456
0188749
0117826
0014517
-0052704
426 LPC Analysis
Dari hasil autokorelasi tersebut di atas selanjutnya adalah LPC dimana mengkonversi masing-masing
frame dari autokorelasi p+1 ke dalam sebuah LPC Parameter a
Bab 4 Pengujian dan Analisa
41
Metode yang formal untuk mengkonversi dari koefisien autokorelasi ke sebuah LPC parameter (untuk
metode LPC autokorelasi) dikenal sebagai Metode Durbin dan secara formal hasilnya dapat ditunjukkan
sebagai berikut ini
1
-128874
0160681
-0156173
0166653
0255508
0192145
0003037
-0202248
-0265201
-0112133
005938
0232232
0203554
0048429
Dari hasil di atas terlihat bahwa untuk setiap frame nilai pertama menunjuukan energi dari masing-masing
frame dan selanjutnya adalah parameter LPC dalam satu frame yang digunakan sebagai penentu ciri dari
sinyal suara yang dihasilkan oleh individu
427 Fast Fourier Transform LPC Parameter
Pada proses ini nilai dari parameter LPC yang sebelumnya masih berada dalam domain waktu akan diubah
dalam domain frekuensi Pada proyek akhir ini parameter LPC dalam domain waktu akan diubah dalam
domain frekuensi dengan 256 titik Karena hasil yang diperolah berupa hasil dari fungsi konvolusi maka
hanya akan diambil 128 titik saja yang akan diolah dalam proses selanjutnya Sedangkan 128 sisanya tidak
dipergunakan karena berupa pencerminan saja
Hasil dari Fast Fourier Transform (FFT) dari parameter LPC pada penggalan kata ldquoempat matirdquo pada
milidetik ke-1 dalam bentuk teks adalah
103505157
106889458
104735321
100408661
89175987
Bab 4 Pengujian dan Analisa
42
95431992
96601654
8489315
89637459
8630304
75320663
87866905
91001945
89607201
82408546
4271 Dengan menggunakan TclTk dan Snack
Fast Fourier Transform Parameter
LPC
0
20
40
60
80
100
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 410 Fast Fourier Transform LPC dengan
menggunakan perangkat lunak TCLTk
dan Snack
Hasil gambar 410 menunjukkan bahwa parameter LPC yang di-Fourier Transform-kan akan menjadi
selubung spektrum dari spektrum sinyal masukan Sehingga jika selubung dan spektrumnya secara gambar
cocok dapat dikatakan bahwa LPC parameter yang dihitung benar
Bab 4 Pengujian dan Analisa
43
4272 Dengan menggunakan Wavesurver
Gambar 411 Fast Fourier Transform LPC denganmenggunakan perangkat lunak
Wavesurver
Hasil gambar 411 menunjukkan bahwa parameter LPC yang di-Fourier Transform-kan akan menjadi
selubung spektrum dari spektrum sinyal masukan adalah sama dengan yang telah diperoleh dengan
perangkat lunak TclTk seperti pada gambar 410
428 LPC Parameter to LPC Cepstrum
Koefisien LPC cepstrum koefisien yang direpresentasikan dengan Fourier Transform dengan spektrum
besaran log telah ditampilkan menjadi kumpulan fitur untuk pengenalan wicara yang lebih handal
terpercaya daripada koefisien LPC koefisien PARCOR atau koefisien log area ratio
Hasil dari LPC cepstrum pada penggalan kata ldquoempat matirdquo pada milidetik ke-106 dalam bentuk teks adalah
16636311
1387922
0474473
0654796
0429659
0132543
0225374
0126501
0021161
0242437
Bab 4 Pengujian dan Analisa
44
0160623
0065745
0139379
0056064
-0029262
Dari hasil di atas dapat dianalisa bahwa besaran-besaran dari LPC cepstrum benar-benar dapat
digunakan sebagai penentu ciri dari sinyal suara individu karena besaranndashbesaran yang dihasilkan oleh LPC
cepstrum dari yang pertama sampai yang terakhir dalam satu frame sangat bervariasi nilainya
429 Inverse Fast Fourier Transform LPC Cepstrum
Untuk menggambarkan ciri atau fitur wicara dalam domain waktu maka LPC cepstrum di-Invers Fast
Fourier Transform-kan sehingga didapatkan gambar untuk penggalan kata ldquosatu nyalardquo pada milidetik ke-
400 seperti gamabar 412
Fast Fourier Transform LPC
Cepstrum
0
20
40
60
80
100
120
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 412 Invers Fast Fourier Transform LPC cepstrum dengan menggunakan
perangkat lunak TCLTk dan Snack
Dari gambar 412 dapat dianalisa bahwa bentuk dari invers fourier transform LPC cepstrum yang
menyerupai selubung pada domain waktu dari spektrum frekuensi juga digunakan untuk menunjukkan
bahwa perhitungan LPC cepstrumnya telah benar dan dapat digunakan sebagai penentu ciri sinyal suara
individu
Invers Fast Fourier Transform LPC
Cepstrum
Bab 4 Pengujian dan Analisa
45
Gambar 413 Penggabungan spektrum sinyal spektrum LPC dan spektrum LPC
Cepstrum
Gambar 413 spektrum sinyal yang diwakili warna merah merupakan hasil sinyal yang telah di-Fast
Fourier Transform-kan Spektrum sinyal yang berwarna hijau merupakan parameter LPC yang telah di-
Fourier Transform-kan Sinyal ini akan menjadi selubung spektrum dari spektrum sinyal masukan Bila
selubung dan spektrumnya secara gambar cocok maka dapat dikatakan bahwa LPC parameter yang dihitung
adalah benar Dari gambar 413 dapat dilihat antara selubunga dan selubung sinyal masukan sudah cocok
Sinyal yang berwarna biru merupakan sinyal rata-rata dari sinyal selubung spektrum
4210 Dynamic Time Warping
Pengujian terakhir dari proses pengolahan sinyal wicara adalah membandingkan sinyal hasil cepstrum LPC
antara data input dan data standarnya Berdasarkan daerah pembatas kontinyuitas lokal dari persamaan 21
maka digunakan model yang pertama dan menggunakan persamaan 2116 dalam menghitung jarak antara
kata sebagai standar dan sebagai masukan
Selanjutnya menetukan data data sebagai data standar dan data sebagai data masukan Pada sistem ini
digunakan 8 kombinasi kata sebagai kata standar dan kata msukan untuk masing-masing pengujian dengan
kata standar sebanyak sepuluh (10) kali Adapun kata yang digunakan sebagai standar dan kata yang diuji
adalah meliputi satu nyalasatu matidua nyaladua matitiga nyalatiga matiempat nyalaempat
mati
Pada pengujian sistem kali ini masih menggunakan datasuara dari pebgucap yang sama Dari kelima data
standar yang ada dilakukan pembandingan dengan masing-masing 10 (sepuluh) kali pemasukan data Data
yang menghasilkan jarak euclidian terpendek dari masing-masing kata itulah yang akan diambil sebagai
data perintah terbaik
Bab 4 Pengujian dan Analisa
46
Pelekukan Jalur Suara
0
50
100
150
0 50 100 150
Sinyal Input empat mati
Sinyal Standart
empat mati
Gambar 414 Pelekukan Jalur Suara dengan Dynamic Time Warping
Dari gambar 414 dapat dianalisa bahwa dengan menggunakan dynamic time warping dua buah sinyal suara
akan dibandingkan vektor-vektor spektralnya dimana juga terdapat proses pembandingan panjang sinyal
antara dua buah sinyal tersebut sehingga terjadi proses pemadanan panjang sinyal dengan cara
memperpanjang dan menekuk vektor spektralnya Memperpanjang dalam arti memperpanjang sinyal yang
lebih pendek dengan memperhatikan perbandingan vektor spektralnya dan demikian pula menekuk dalam
arti menekuk sinyal yang lebih panjang dengan memperhatikan vektor spektralnya Dengan panjang yang
sama sebagai hasil dynamic time warping maka jarak euclidian antara dua sinyal dapat diperbandingkan
atau dihitung
4211 Min Value dan Sorting
Min Value dan Sorting menjadi satu paket sendiri yang digunakan untuk mencari kemungkinan hasil
terkecil dari pembandingan pola kata masukkan dengan kedelapan kata standart Keluaran dari fungsi
dynamic time warping akan memberikan delapan buah data yaitu hasil pembandingan kata masukan
dengan kata standart satu nyala hasil pembandingan kata masukan dengan kata standart satu mati hasil
pembandingan kata masukan dengan kata standart dua nyala hasil pembandingan kata masukan dengan
kata standart dua mati hasil pembandingan kata masukan dengan kata standart tiga nyala hasil
pembandingan kata masukan dengan kata standart tiga mati hasil pembandingan kata masukan dengan
kata standart empat nyala hasil pembandingan kata masukan dengan kata standart empat mati Dengan
metode sorting buble sort maka akan didapat nilai minimalnya
0748745
0362272
0633390
0327642
0600250
0346530
Bab 4 Pengujian dan Analisa
47
0545907
0207464
Berdasarkan data diatas maka perintah input sama dengan perintah kedelapan (ldquoempat matirdquo) karena
memiliki hasil time warping terkecil yaitu 0207464
4212 Hasil Pengujian Awal dan Akhir Sinyal
Pada proses penentuan awal dan akhir agar lebih presisi menggunakan ldquoPowerrdquo Adapun kelebihan dari
power adalah dapat membedakan antara sinyal suara dengan sinyal noise
Untuk menentukan awal dan akhir dicari nilai power Pada proses power kata yang telah disampel
sebanyak 240 sampel akan menghasilkan sinyal yang halus dan terletak di atas sumbu x Hasil dalam bentuk
teks adalah sebagai berikut ini
7678195313
1165659297
123492625
8917128906
6318766797
4531086719
4338374609
4912630469
5382503125
4548908984
429756875
4739710547
4575902734
4682924609
4786217578
Bab 4 Pengujian dan Analisa
48
Gambar hasil power bisa dilihat pada gambar 415 berikut
Power
0
100000
200000
300000
400000
500000
0 50 100 150
Jumlah Frame
Amplitude
Gambar 415 Sinyal ldquoempat matirdquo hasil program power
Gambar 416 berikut ini adalah hasil pengujian kata ldquoempat matirdquo sebagai masukan dan kata standar ldquoempat
matirdquo dimana kedua kata dibandingkan berdasarkan powernya sebelum proses Dinamic Time Warping
Sinyal warna biru sebagai power sinyal standart dan sinyal yang berwarna merah merupakan power sinyal
input
Perbandingan Dua Kata empat mati
sebelum DTW
0
100000
200000
300000
400000
500000
0 50 100 150
Jumlah Frame
Amplitude
Gambar 416 Perbandingan power dua kata ldquoempat matirdquo sebelum Dynamic Time Warping
Berikut ini adalah hasil pengujian dua buah kata ldquoempat matirdquo dengan menggunakan dynamic time warping
dimana jalur pelekukan suara dapat digambarkan pada gambar 417
Bab 4 Pengujian dan Analisa
49
Pelekukan Jalur Suara
0
50
100
150
0 50 100 150
Sinyal Input empat mati
Sinyal Standart
empat mati
Gambar 417 Pelekukan jalur suara dua kata ldquoempat matirdquo dengan DTW
Gambar 418 adalah hasil pengujian dua buah kata ldquoempat matirdquo sebagai masukan dan dan kata standar
ldquoempat matirdquo dimana kedua kata dibandingkan berdasarkan powernya setelah proses dynamic time
warping
Gambar 418 dapat dibandingkan dengan gambar 416 yaitu sinyal sebelum proses Dynamic Time Warping
Sebelum proses Dynamic Time Warping sinyal tidak mengalami proses penekukan dan penarikan data
berdasarkan waktu antara keduanya sehingga antara sinyal input dan sinyal standart memiliki ukuran
panjang yang sangat jauh berbeda
Pemadanan Dua Kata Setelah DTW
0
100000
200000
300000
400000
500000
0 100 200 300
Jumlah Frame
Amplitude Power
Gambar 418 Perbandingan power dua kata ldquoempat matirdquo setelah Dynamic Time Warping
Dari gambar 418 dapat dinyatakan bahwa setelah melalui proses dynamic time warping terjadi penekukan
dan penarikan data berdasarkan waktu antara keduanya sehingga pada akhirnya kedua sinyal memiliki
ukuran panjang yang sama Sehingga dengan demikian dapat dicari jarak euclidian untuk menentukan
sebuah kata yang sesuai dengan kata yang lainnya
Bab 4 Pengujian dan Analisa
50
4213 Hasil Pengujian Sistem Perangkat Lunak
Pada pengujian sistem perangkat lunak diambil sampel data dari 3 orang dimana terdiri dari 3 orang pria
dan 1 orang wanita Pria pertama merupakan standar sekaligus pengisi suara untuk perintah Sedangkan pria
kedua dan wanita sebagai pembanding untuk mengetahui unjuk kerja sistem
Tabel 41 Hasil pengujian sistem pengolahan sinyal wicara untuk pengucap yang sama (pria
1)
8 7 6 5 4 3 2 1 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05417
03487
05964
03443
07272
04424
03449
01
961
Satu
nyala
Sinyal Standart
02496
04723
03013
05120
03450
03815
01
739
03471
Satu
mati
04389
02035
06139
03244
04343
02
158
04567
04047
Dua
nyala
01866
04517
04157
05267
01
940
02561
02036
04779
Dua
mati
04833
02168
03984
01
090
06409
04278
05019
02690
Tiga
nyala
02683
04628
01
188
03416
04046
03345
02959
04614
Tiga
mati
03807
01
046
05271
01974
05934
03134
04363
02554
Empat
nyala
01
388
03728
02269
04497
02559
03195
02476
04874
Empat
mati
Bab 4 Pengujian dan Analisa
51
16
15
14
13
12
11
10
9 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05776
02988
05100
04019
06101
05338
04219
02
047
Satu
nyala
Sinyal Standart
03382
04381
02427
05124
02642
05990
02
706
03335
Satu
mati
04453
02558
04993
04574
03381
02
344
04529
04121
Dua
nyala
01669
04532
03190
06355
01
004
04807
03466
04622
Dua
mati
05209
02261
03366
01
124
05377
04165
05369
02660
Tiga
nyala
03721
04074
00
891
03002
02637
05958
02719
04333
Tiga
mati
03889
01
755
04365
02341
04826
03150
05193
02472
Empat
nyala
01
092
03974
01802
04848
01455
05343
02717
04536
Empat
mati
Bab 4 Pengujian dan Analisa
52
24
23
22
21
20
19
18
17 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05157
04015
06277
02964
05609
04690
03376
01
369
Satu
nyala
Sinyal Standart
01787
05144
03814
04134
04952
04843
01
636
03404
Satu
mati
03988
03026
07420
03020
03977
01
905
04801
03610
Dua
nyala
01630
05662
06259
05009
01
808
03357
02206
05094
Dua
mati
04667
02681
05731
01
448
05575
03280
05344
03417
Tiga
nyala
01902
05055
03
395
02597
04700
04618
02951
04808
Tiga
mati
03809
01
863
06920
02154
04252
02455
04616
03184
Empat
nyala
00
761
04379
04288
04053
03629
04122
02419
05622
Empat
mati
Bab 4 Pengujian dan Analisa
53
32
31
30
29
28
27
26
25 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
04793
03554
06312
03247
06514
03585
03068
02
935
Satu
nyala
Sinyal Standart
01671
04661
03012
03961
02834
04667
01
079
05475
Satu
mati
04033
02359
05307
02587
03475
01
587
04781
04010
Dua
nyala
02222
04949
03652
04387
00
958
03222
02647
04966
Dua
mati
04499
02207
04170
01
873
05884
02500
05631
03257
Tiga
nyala
01791
04432
01
196
02646
02999
04619
02558
05048
Tiga
mati
03561
01
050
05061
02437
04927
01887
05325
03424
Empat
nyala
00
858
03774
02052
03974
01440
04186
02597
05381
Empat
mati
Bab 4 Pengujian dan Analisa
54
40
39
38
37
36
35
34
33 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
06471
03838
05816
03364
06492
03613
03496
01
111
Satu
nyala
Sinyal Standart
02951
05556
02631
04558
05057
04799
01
683
02958
Satu
mati
05259
02977
05228
03305
04614
00
878
05159
02707
Dua
nyala
03165
05686
03078
05512
01
088
03082
03482
04823
Dua
mati
05397
02037
03714
00
949
06365
02818
05998
02829
Tiga
nyala
02990
04867
00
921
02759
04978
04752
03131
04533
Tiga
mati
05028
01
233
05114
02070
05154
01825
05439
01975
Empat
nyala
01
914
04521
01834
04248
02711
04164
03149
04755
Empat
mati
Bab 4 Pengujian dan Analisa
55
48
47
46
45
44
43
42
41 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
07997
03701
06005
03992
05800
05223
03706
01
198
Satu
nyala
Sinyal Standart
03909
04978
02572
05339
05784
05103
01
161
03113
Satu
mati
06284
02355
05419
04194
03709
02
588
04764
02834
Dua
nyala
03737
04883
03321
06131
03
489
04229
03188
04962
Dua
mati
05885
02259
04026
00
918
06123
03601
05739
0 2867
Tiga
nyala
03583
04464
00
974
03340
05828
05114
02720
04269
Tiga
mati
05762
01
230
7
05459
02231
04899
03397
05114
0 2395
Empat
nyala
02
247
02888
01948
04994
04987
04505
02141
0 4956
Empat
mati
Bab 4 Pengujian dan Analisa
56
56
55
54
53
52
51
50
49 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05627
03923
06226
04018
05254
04895
02933
02
009
Satu
nyala
Sinyal Standart
02473
04947
02892
05661
05301
05040
01
289
03008
Satu
mati
04393
02779
06046
04425
02900
01
743
04571
02669
Dua
nyala
02222
05352
04171
06748
01
202
03736
03177
03699
Dua
mati
04644
02488
03523
00
835
05391
03319
05277
03671
Tiga
nyala
02213
04345
01
009
03758
02869
05933
02761
03900
Tiga
mati
04093
01
443
05080
05083
04959
02819
04840
02709
Empat
nyala
01
239
04029
0 2223
05428
01263
04236
02575
04141
Empat
mati
Bab 4 Pengujian dan Analisa
57
64
63
62
61
60
59
58
57 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
07489
03792
05134
04199
06459
04019
03044
01
850
Satu
nyala
Sinyal Standart
03586
04783
02186
05509
02884
04251
01
198
03243
Satu
mati
05697
02612
04576
04268
03211
01
519
04639
03845
Dua
nyala
03563
05288
02855
06752
01
074
03523
03265
04523
Dua
mati
05768
02262
03884
01
048
06348
02633
05784
02683
Tiga
nyala
03449
04859
01
009
03177
03425
04355
02975
04077
Tiga
mati
05693
01
445
04574
02498
05298
01999
05622
02359
Empat
nyala
02
236
04215
01468
05161
01827
03851
03161
04416
Empat
mati
Bab 4 Pengujian dan Analisa
58
72
71
70
69
68
67
66
65 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05439
02975
05593
03689
05796
03415
03416
01
492
Satu
nyala
Sinyal Standart
02225
04543
04586
04584
02669
04529
01
112
02881
Satu
mati
04025
02639
06303
03009
02582
01
003
05045
02767
Dua
nyala
01734
05437
04847
04897
00
826
02892
02584
04797
Dua
mati
04671
02336
04988
01
206
05595
02572
05647
02991
Tiga
nyala
02095
04805
04
025
02747
02848
04359
02773
04076
Tiga
mati
03971
01
297
05065
02121
04489
01703
05074
02131
Empat
nyala
00
901
04123
04026
04154
01514
03762
02328
04561
Empat
mati
Bab 4 Pengujian dan Analisa
59
80
79
78
77
76
75
74
73 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
07997
03054
06228
04446
05805
04687
03173
03
391
Satu
nyala
Sinyal Standart
05051
04619
05619
05749
02631
04447
01
086
05310
Satu
mati
05949
03685
05899
05607
03163
01
874
05234
03797
Dua
nyala
03109
05053
05258
07102
01
095
03368
03585
04539
Dua
mati
06473
02004
04524
01
350
05525
03084
05608
03682
Tiga
nyala
04759
04205
04
309
03701
03031
04660
02678
05243
Tiga
mati
05572
02
003
05167
02702
04478
02552
05358
03563
Empat
nyala
02
459
04960
04964
05734
01641
03971
02630
05029
Empat
mati
Pengujian pertama ini dilakukan dengan cara memasukkan suara pria pertama (yang digunakan sebagai
pengisi suara standart) Setiap satu perintah dilakukan sebanyak 10 kali pengujian Hasil pengujian
merupakan nilai dari hasil proses Dynamic Time Warping yang merupakan nilai dari pemadanan sinyal
input dengan kedelapan sinyal standart Nilai terkecil (nilai yang tercetak tebal) yang didapatkan merupakan
hasil yang paling mendekati sinyal standart Yang berarti sinyal masukan tersebut dianggap paling sesuai
dengan sinyal standart
Prosentase keberhasilan pengucapspeaker pertama untuk kedelapan perintah sebesar 100 semuanya
menunjukkan kepada sinyal masukkan dan sinyal standart yang sama
Hasil pengujian menunjukkan bahwa ciri sinyal suara yang dihasilkan oleh pengucap speaker pertama dan
sebagai pemberi standart adalah sama
Bab 4 Pengujian dan Analisa
60
Tabel 42 Hasil pengujian sistem pengolahan sinyal wicara untuk pengucap yang lain (pria
2)
8 7 6 5 4 3 2 1 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
06023
05121
07146
04599
04996
04561
07575
04
358
Satu
nyala
Sinyal Standart
04018
05701
06369
06256
03518
05738
07004
08129
Satu
mati
07120
03925
07395
04897
05938
02246
10082
06777
Dua
nyala
04963
05958
05189
07345
03449
04854
08816
08543
Dua
mati
05919
04337
05163
02
130
04797
03463
08871
05289
Tiga
nyala
03709
04519
04380
03601
03491
05239
06
046
07381
Tiga
mati
06087
03
161
06178
03280
05
068
02
439
08853
05354
Empat
nyala
03
409
04321
04
208
05569
03219
04898
06863
08596
Empat
mati
Bab 4 Pengujian dan Analisa
61
16
15
14
13
12
11
10
9 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05475
03932
05521
04
383
05634
05416
04
464
03
434
Satu
nyala
Sinyal Standart
04076
05731
04541
05681
03574
04920
03971
06662
Satu
mati
07427
04886
07924
05962
05824
02
712
07837
05504
Dua
nyala
04475
06666
05765
07616
03414
04203
05431
06334
Dua
mati
05357
03797
05099
04509
04902
04332
07097
05220
Tiga
nyala
04197
05134
04
209
05088
03169
04547
04464
06516
Tiga
mati
05936
03
769
05910
05109
05
311
03435
07646
04977
Empat
nyala
03
576
05767
04591
06367
03010
04129
04944
06850
Empat
mati
Bab 4 Pengujian dan Analisa
62
24
23
22
21
20
19
18
17 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
06927
04
279
08096
04
448
06461
05522
03935
02
444
Satu
nyala
Sinyal Standart
06409
05322
05528
05481
04912
04491
02
011
05508
Satu
mati
06134
04643
08962
06002
04868
02
579
06122
05502
Dua
nyala
04753
06443
05501
07364
02
298
03206
04239
06684
Dua
mati
05709
04928
05456
04961
06142
05726
06454
03831
Tiga
nyala
05798
04882
03
235
04708
04838
04317
03526
05462
Tiga
mati
05021
04423
06842
05583
05222
04132
06363
04235
Empat
nyala
04
457
05427
03546
05773
02946
03573
03618
07019
Empat
mati
Bab 4 Pengujian dan Analisa
63
32
31
30
29
28
27
26
25 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05260
04224
07393
04661
06292
04993
03989
03
549
Satu
nyala
Sinyal Standart
04478
04669
04568
05977
03523
04046
03
438
04819
Satu
mati
06448
04308
08152
06114
04665
02
444
07609
05162
Dua
nyala
04024
05867
05103
07873
01
872
02613
04489
06765
Dua
mati
05363
04
672
05250
04
529
05210
05103
06546
04794
Tiga
nyala
04422
04039
02
482
05102
03499
03985
03969
04371
Tiga
mati
05492
04073
06626
05239
04902
03553
06869
04794
Empat
nyala
03
326
04543
03153
06510
02133
03419
04175
05287
Empat
mati
Hasil pengujian yang kedua ini dilakukan dengan cara memasukkan suara dari pria kedua (pria lain yang
tidak digunakan sebagai suara standart) Setiap satu perintah dilakukan empat (4) kali proses pengujian
Hasil pengujian merupakan nilai dari hasil proses Dynamic Time Warping yang merupakan nilai dari
pemadanan sinyal input dengan kedelapan sinyal standart Nilai terkecil (nilai yang tercetak tebal) yang
didapatkan merupakan hasil yang paling mendekati sinyal standart Yang berarti sinyal masukan tersebut
dianggap paling sesuai dengan sinyal standart
Prosentase keberhasilan pengucapspeaker kedua untuk kedelapan perintah bervariasi sebesar 50
sampai dengan 100 semuanya menunjukkan kepada sinyal masukkan dan sinyal standart yang berbeda
Hasil pengujian menunjukkan bahwa ciri sinyal suara yang dihasilkan oleh pengucap speaker kedua dan
sebagai pemberi standart adalah mendekati sama
Bab 4 Pengujian dan Analisa
64
Tabel 43 Hasil pengujian sistem pengolahan sinyal wicara untuk pengucap yang sama (pria)
No Perintah Lampu DTMF
1 1 nyala B B
2 1 mati B G
3 2 nyala B G
4 2 mati G X
5 3 nyala G X
6 3 mati G X
7 4 nyala B B
8 4 mati B B
9 1 nyala B G
10 1 mati B B
11 2 nyala B G
12 2 mati B B
13 3 nyala B G
14 3 mati B B
15 4 nyala B G
16 4 mati B B
17 1 nyala B G
18 1 mati B B
19 2 nyala G X
20 2 mati G X
21 3 nyala B B
22 3 mati B B
23 4 nyala B B
24 4 mati G X
No Perintah Lampu DTMF
25 1 nyala B G
26 1 mati G X
27 2 nyala G X
28 2 mati B G
29 3 nyala B G
30 3 mati B G
31 4 nyala B G
32 4 mati G X
B Berhasil
G Gagal
X Donrsquot Care (Diabaikan)
Pengujian yang ketiga ini dilakukan oleh pria pertama (pria yang suaranya digunakan sebagai standart)
Masing-masing perintah dilakukan sebanyak empat kali pengujian
Bab 4 Pengujian dan Analisa
65
Pada kolom ketiga (kolom lampu) tanda B (berhasil) menunjukkan bahwa perintah yang diberikan pada
hardware berhasil dilakukan Tanda G (gagal) menunjukkan bahwa perintah yang diberikan pada hardware
gagal dilakukan(hasil tidak sesuai dengan perintah yang diberikan)
Pada kolom keempat (kolom DTMF) menunjukkan laporan dari hardware ke PC server tentang
bagaimana keadaan lampu yang sedang dikontrol apakah dalam keadaan menyala atau mati Pada kolom ini
tanda B (berhasil) menunjukkan bahwa laporan dari hardware ke PC server (yang merupakan proses
otomatisasi) berhasil dilakukan Tanda G (gagal) menunjukkan bahwa laporan ke PC client gagal dilakukan
Sedangkan tanda X (donrsquot care) menunjukkan bahwa perintah diabaikan Hal ini disebabkan perintah pada
hardware (perintah sebelumnya sebelum proses otomatisasi) sudah gagal dilakukan
Prosentase keberhasilan pengucapspeaker pertama untuk kedelapan perintah bervariasi antara 50
sampai 100 semuanya menunjukkan kepada sinyal masukkan dan sinyal standart yang berbeda
Hasil pengujian kedua ini menunjukkan bahwa ciri sinyal suara yang dihasilkan oleh pengucapspeaker
kedua ini yang merupakan suara orang lain (bukan pemberi standart) adalah mendekati sama dengan hasil
yang bervariasi antara 50 sampai 100
43 Pengujian Sistem Client Server
Pada sub bab ini akan diujikan program Client Server yang akan mengirimkan sinyal hasil pengolahan
suara
Tampilan pada client adalah seperti gambar 421 yang merupakan tampilan awal pada saat program
dimulai
Gambar 421 Proses pada client
Bab 4 Pengujian dan Analisa
66
Gambar 422 Proses pada server
1 Sebelumnya program server harus disiapkan lebih dulu
2 Setelah itu client dijalankan
3 Setelah client siap user memasukkan suara yang selanjutnya akan diolah sampai proses DTW
4 Server menerima data yang selanjutnya digunakan untuk melakukan kontrol alat rumah tangga
44 Analisa Pengujian Sistem Secara Keseluruhan
Berdasarkan data-data yang telah didapatkan di atas maka dapat ditarik suatu analisa bahwa
Berdasarkan tabel 44 untuk pengujian pertama pria 1 adalah pria yang suaranya digunakan sebagai standart
Prosentase keberhasilan rata-rata yang didapat untuk semua perintah adalah sebesar 100 Hal ini menunjukkan
bahwa suara yang diujikan adalah suara yang sama dengan standart dan pria 1 tersebut pernah berinteraksi
dengan sistem
Pengujian yang kedua adalah pengujian yang dilakukan oleh pria 2 (pria lain yang suaranya tidak
dipakai sebagai standart) Prosentase keberhasilan rata-rata yang didapat untuk semua perintah 7188 Karena
sistem bersifat dependent speaker dimana sistem hanya digunakan oleh orang tertentu dalam arti yang pernah
berinteraksi langsung dengan sistem Oleh karenanya didapat nilai prosentase keberhasilan yang bervariasi
Bab 4 Pengujian dan Analisa
67
Tabel 44 Tingkat keberhasilan sistem perangkat lunak
NNO
PENGUCAP
PERINTAH
BANYAK
PERCOBAAN
PROSENTASE
KEBERHASILAN
1 Pria 1 1 nyala 8 kali 100
2 1 mati 8 kali 100
3 2 nyala 8 kali 100
4 2 mati 8 kali 100
5 3 nyala 8 kali 100
6 3 mati 8 kali 100
7 4 nyala 8 kali 100
8 4 mati 8 kali 100
RATA-RATA 100
9 Pria 2 1 nyala 4 kali 100
10 1 mati 4 kali 75
11 2 nyala 4 kali 75
12 2 mati 4 kali 50
13 3 nyala 4 kali 50
14 3 mati 4 kali 75
15 4 nyala 4 kali 50
16 4 mati 4 kali 100
RATA-RATA 7188
Jika diurutkan proses pengolahan wicara dari awal sampai diambil keputusan suara yang dimasukkan
tersebut adalah suara yang sesuai atau tidak adalah sebagai berikut
Bab 4 Pengujian dan Analisa
68
Gambar 423 Tampilan awal perangkat lunak menggunakan TclTk dan Snack
Gambar 423 adalah tampilan awal dari perangkat lunak yang dibangun dengan menggunakan TclTk dan
Snack
Gambar 424 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan dengan
menggunakan perangkat lunak Wavesurver
Gambar 424 adalah tampilan awal dari program Wavesurver yang merupakan pembanding dari program
yang dibuat dari perangkat lunak TclTk dan Snack
Bab 4 Pengujian dan Analisa
69
Gambar 425 Tampilan awal perangkat lunak
menggunakan TclTk dan Snack
Gambar 425 adalah tampilan ketika proses pengambilan sinyal suara sedang dilakukan dengan perangkat
lunak TclTk dan Snack
Gambar 426 Tampilan hasil perekaman kata ldquoempat
matirdquo dengan menggunakan perangkat lunak Wavesurver
Gambar 426 adalah tampilan ketika proses pengambilan sinyal suara sedang dilakukan dengan perangkat
lunak Wavesurver
Bab 4 Pengujian dan Analisa
70
Data Sampling
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 427 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900 menggunakan TclTk dan
Snack
Pada gambar 427 dilakukan proses sampling sinyal masukan dengan frekuensi sampling sebesar 12000
Hz maka didapatkan hasil sinyal yang hampir mirip dengan sinyal analognya yang dilakukan dengan
perangkat lunak TclTk dan Snack
Gambar 428 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900 dengan menggunakan
perangkat Wavesurver
Pada gambar 428 dilakukan proses sampling sinyal masukan dengan frekuensi sampling sebesar 12000
Hz yang dilakukan dengan perangkat lunak Wavesurver
Data Windowing
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 429 Hasil Windowing data sampel
kata ldquoempat matirdquo milidetik ke-13900 menggunakan TclTk dan Snack
Bab 4 Pengujian dan Analisa
71
Proses windowing terdapat pada gambar 429 dilakukan untuk membuat sinyal yang disampel lebih
halus Proses windowing ini dilakukan dengan menggunakan perangkat lunak TclTk dan Snack
Proses windowing pada Wavesurver merupakan fasilitas yang tergabung dengan proses lainnya Misal
dengan proses Fast Fourier Transform Jadi disini tidak ditampilkan hanya sebagai proses windowing saja
tetapi digabungkan dengan proses lain
Fast Fourier Transform Sinyal
Masukan
0
20
40
60
80
100
120
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 430 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat
lunak TclTk dan Snack
Gambar 430 di atas adalah proses Fast Fourier sinyal masukan dengan perangkat lunak TclTk dan Snack
Hasil Fast Fourier Transform sinyal masukan menunjukkan sebaran spektrum frekuensi dari sinyal suara
yang telah dihasilkan oleh pengucap
Sebagai pembanding adalah proses Fast Fourier sinyal masukan yang diambil dengan Wavesurver seperti
pada gambar 431 Yang didapatkan hasil yang sama
Gambar 431 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat Wavesurver
Bab 4 Pengujian dan Analisa
72
Fast Fourier Transform Parameter
LPC
0
20
40
60
80
100
0 2000 4000 6000 8000
Frekuensi (Hz)10 x log
10(magnitude)(dB)
Gambar 432 Fast Fourier Transform LPC dengan menggunakan perangkat lunak TCLTk
dan Snack
Hasil gambar 432 menunjukkan proses Fast Fourier Transform LPC yang dilakukan dengan perangkat
lunak TclTk dan Snack
Gambar 433 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat Wavesurver
Proses Fast Fourier Transform yang dilakukan dengan Wavesurver dapat dilihat pada gambar 433
Pelekukan Jalur Suara
0
50
100
150
0 50 100 150
Sinyal Input empat mati
Sinyal Standart
empat mati
Gambar 434 Pelekukan Jalur Suara dengan Dynamic Time Warping
Bab 4 Pengujian dan Analisa
73
Dari gambar 434 dapat dianalisa bahwa dengan menggunakan dynamic time warping terdapat proses
pembandingan panjang sinyal antara dua buah sinyal input dan sinyal standart sehingga terjadi proses
pemadanan panjang sinyal dengan cara memperpanjang dan menekuk vektor spektralnya
74
BAB 5
PENUTUP
51 Kesimpulan
Dari hasil yang didapatkan maka dapat diambil kesimpulan bahwa
Sistem pengucap tak bebas atau speaker dependent system memiliki tingkat akurasi yang tinggi untuk
pengucap masukan dan pengucap standar yang sama Hal ini dibuktikan dengan hasil pengujian pertama
yang dilakukan oleh pria pertama Pria pertama ini adalah pria yang suaranya digunakan sebagai standar
Nilai prosentase keberhasilan rata-rata untuk semua perintah adalah sebesar 100 dari setiap perintah
dilakukan 8 kali percobaan
Sedangkan pengujian yang dilakukan oleh suara lain (bukan standart) prosentatase keberhasilan
rata-rata yang diperoleh untuk semua perintah 7188 dari setiap perintah dilakukan 4 kali percobaan Hal
ini disebabkan karena suara pria kedua tidak pernah berinteraksi dengan sistem
Keberhasilan sistem ditunjukkan oleh ketepatan penyalaan lampu sesuai dengan yang diperintahkan
melalui perintah suara
Kecepatan sistem secara keseluruhan diperlihatkan dalam tabel 51 dibawah
Tabel 51 Kecepatan sistem keseluruhan
No
Perintah
Waktu (detik)
1 2 3 4 Rata-rata
1 Satu Nyala 11 99 12 25 16 89 14 05 13 80
2 Satu Mati 12 51 13 28 14 83 12 25 13 22
3 Dua Nyala 10 70 11 73 11 99 12 25 11 67
4 Dua Mati 10 44 11 21 11 21 11 47 11 08
5 Tiga Nyala 10 96 12 25 13 54 12 51 12 32
6 Tiga Mati 10 70 11 99 11 99 13 28 11 99
7 Empat Nyala 11 73 11 99 13 02 12 24 12 25
8 Empat Mati 10 70 09 93 11 21 10 70 10 64
Rata-rata 12 12
Dari data yang diperoleh didapatkan kecepatan rata-rata untuk tiap perintah yang diberikan sampai
dengan terlaksananya eksekusi dari perintah adalah 12 12 detik
52 Saran
Pada penelitian ini masih sangat banyak hal yang dapat dilakukan untuk perbaikan-perbaikan dimasa
selanjutnya Saran dan usulan yang dapat dipertimbangkan untuk pengembangan sistem lebih lanjut adalah
antara lain
1 Sistem tidak lagi bersifat dependent speaker tetapi bersifat independent speaker dimana banyak
orang yang memberi perintah dan sistem dengan tepat memberikan respon
2 Sistem dapat mengatasi tingkat noise yang tinggi baik yang disebabkan oleh lingkungan atau oleh
hardware (sound card)
75
3 Otomatisasi sistem Artinya perintah tidak perlu lagi diberikan lewat penekanan tombol yang
dilakukan melalui mouse
4 Respon sistem yang real time
5 Sistem yang dapat dengan mudah beradaptasi dengan jenis sound card yang bervariasi
DAFTAR PUSTAKA
Anggraeni Triana Dewi Astutik Debi Puji Pengenalan Wicara Dengan Penutur Tak Bebas
Tugas Akhir PENS ITS 2003
Wahyudi Agus Verifikasi Sinyal Suara Sebagai Kendali Arah TA PENS-ITS 2002
Dewantara Bima Sena Bayu Aplikasi Pengenalan Wicara Untuk Perintah NirkabelRobot Mikro
Mouse Tugas Akhir PENS ITS 2004
Dutono Titon Penataran Kebahasaan Tahap I Fonetik Dan Fonologi ndashPengolahan Sinyal
Wicara Digital 20 Februari 2001
Gabel Robert A Richard A Robert Sinyal dan Sistem LinierErlangga 1996
Rabiner Lawrence Huang Juang Biing Fundamentals of Speech Recognition Prentice Hall
International Inc1993
Proakis John G Malonakis Dimitris G Digital Signal Processing Principles Algorithms and
Applications Prentice Hall Inc New Jersey 1995
Scolander Kare Snack Sound Toolkit
httpwwwtcltkmantcl85tutorialTcl11html
httpwikitcltk4074
httpwwwinveceorgtclwisefrontcoverhtml
httpwwwspeechkthsesnackmansnack22tcl-manhtml
httpwwwspeechkthsesnacktutorialhtml
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13]
Bab 1 Pendahuluan
1
BAB 1
PENDAHULUAN
11 LATAR BELAKANG
Sudah sekian lama manusia memimpikan adanya pengendalian suatu alat atau sistem kontrol dengan
perintah suara Hal ini diperjelas dengan banyak beredarnya film-film fiksi yang menyuguhkan berbagai sistem
kontrol yang dilakukan dengan menggunakan suara bagaimana seorang anak bisa mengendalikan sebuah
pesawat terbang hanya dengan perintah-perintah dasar dengan menggunakan suaranya Ditambah lagi dengan
pesatnya penelitian dibidang suara yang membuat pintu gerbang sistem pengontrolan dengan suara manusia
semakin terbuka Dewantara [2] telah membuat sebuah aplikasi pengenalan wicara untuk perintah nirkabel robot
mikro mouse Anggraeni dan Astutik [1] telah menggunakan pengenalan wicara untuk mengakses suatu jaringan
sebagai password Tetapi belum ada yang membuat aplikasi pengenalan wicara untuk membuat perintah
pengontrolan pada alat-alat rumah tangga semisal lampu Selain itu beberapa tahun terakhir ini perkembangan
dunia telekomunikasi mengalami kemajuan yang sangat pesat Sehingga pada saat ini informasi yang dikirim
tidak hanya berupa data dalam bentuk teks tetapi juga suara manusia Ditambah dengan semakin banyaknya
peralatan yang memanfaatkan pengenalan suara manusia untuk mengakses maupun memberikan perintah Sinyal
suara yang masuk akan diproses dan dikenali oleh suatu alat Proses tersebut adalah pengenalan wicara (speech
recognition) yaitu pengenalan wicara melalui sampel suara yang telah diolah
Dengan pertimbangan tersebut maka pembuatan kontrol suatu peralatan jarak jauh dengan menggunakan
suara sangat sesuai jika diaplikasikan dalam sistem pengendalian dan monitoring peralatan rumah tangga jarak
jauh dengan menggunakan metode pengenalan wicara Aplikasi tersebut kami bangun dalam pelaksanaan
penelitian ini
12 TUJUAN
Penelitian ini bertujuan untuk
1 Memberikan perintah suara untuk menyalakan beberapa peralatan rumah tangga dalam contoh kasus
dalam penelitian ini adalah menyalakan lampu jarak jauh
2 Membangun sistem pengucap tak bebas (speaker dependent sistem)
3 Memberikan ciri individu untuk memberikan perintah menghidup dan matikan peralatan rumah tangga
yang dilakukan secara jarak jauh
13 BATASAN MASALAH
Batasan masalah pada penelitian ini adalah
1 Bahasa pemrograman untuk algoritma pengenalan wicara adalah Microsoft Visual C++ 60
2 Bahasa Pemrograman untuuk user interface adalah TclTk 830 dan Snack 22
3 Sistem bersifat dependentartinya sistem hanya dapat digunakan oleh orang tertentu dalam hal ini yang
pernah berinteraksi langsung dengan sistem
4 Sinyal diasumsikan ideal yaitu tidak mamperhitungkan noise yang berarti semua noise dianggap stationer
Bab 1 Pendahuluan
2
5 Perintah kata yang diberikan dibatasi untuk keperluan tone dekoder saja dengan dua perintah secara
langsung Semua kata diucapkan secara wajar dengan kecepatan normal
6 Keberhasilan penelitian ini dapat dilihat dari keberhasilan ketepatan perintah yang dihasilkan oleh sistem
dengan perintah yang diberikan
7 Jaringan komunikasi masih dilaksanakan untuk local area dari PC ke PC
14 SISTEMATIKA PEMBAHASAN
Sistematika pembahasan penelitian ini sebagai berikut
BAB I PENDAHULUAN
Pada bab ini akan diuraikan tentang latar belakang tujuan batasan masalah dan sistematika
pembahasan masalah yang digunakan
BAB II TEORI DASAR
Pada bab ini akan diuraikan tentang landasan-landasan teori yang digunakan
BAB III PERENCANAAN DAN PELAKSANAAN
Pada bab ini akan diuraikan tentang tahap-tahap perencanaan dan proses pembuatan keseluruhan sistem
yang mendukung untuk membangun sistem pengenalan wicara untuk sistem pengendalian dan monitoring
peralatan rumah tangga jarak jauh
BAB IV PENGUJIAN DAN ANALISIS
Pada bab ini akan dijelaskan tentang hasil pengujian sistem yang telah dibangun baik secara perbagian
ataupun keseluruhan serta analisis terhadap hasil pengujian sistem untuk mengetahui apakah sistem yang
dibangun sesuai dengan yang diharapkan
BAB V KESIMPULAN DAN SARAN
Pada bab ini berisi kesimpulan dari pembahasan pada perencanaan serta analisa pengujian yang
diperolehUntuk lebih baiknya sistem yang dibangun maka disertakan pula saran-saran untuk perbaikan dan
penyempurnaan
Bab 2 Teori Penunjang
3
BAB 2
TEORI PENUNJANG
21 Sistem Pengolahan Sinyal Wicara
211 Sinyal Suara Manusia
Manusia menggunakan suara sebagai sumber informasi untuk mengkomunikasikan keinginan ide dan
perasaannya kepada orang lain Organ tubuh manusia yang digunakan dalam proses produksi wicara adalah
paru-paru tenggorokan(trachea) laring faring rongga hidung(nasal cavity) dan rongga mulut(oral cavity)
Pembangkitan sinyal wicara terletak pada bentuk lintasan vokalnya(vocal tract) Lintasan vokal tersebut terdiri
atas di bawah katup tenggorokan (laryngeal pharynx) antara langit-langit lunak katup tenggorokan (oral
pharynx ) di atas velum dan di ujung depan rongga hidung (nasal pharynx) dan rongga hidung (nasal cavity)1
seperti ditunjukkan gambar 21
Gambar 21 Skema diagram organ penghasil sinyal
Wicara2
Model generator wicara atau model sintesa suara yang dipakai dan menjadi dasar dari pemrosesan
sinyal wicara hingga dewasa ini adalah apa yang dinamakan Analog Terminal seperti pada gambar 22
1 Dewantara Bima Sena Bayu Aplikasi Pengenalan Wicara Untuk Perintah Nirkabel Robot Mikro Mouse TA PENS ITS 2004 hal 5 2 Dutono Titon Penataran Kebahasaan Tahap I Fonetik dan Fonologi Pengolahan Sinyal Wicara Digital 20 Februari 2001
Bab 2 Teori Penunjang
4
Gambar 22 Struktur umum model generator wicara3
Pada model ini sinyal eksitasi(glotal wave) yang berasal dari getaran pita suara diumpankan ke suatu
filter yang merupakan suatu model pendekatan dari lintasan vokal (vocal tract) untuk menghasilkan sinyal
wicara Model analog terminal ini disebut juga pensintesa formant Dasar pendekatan model ini adalah bahwa
lintasan suara adalah suatu bumbung akustik (acoustical cavity) yang mempunyai karakteristik berdasarkan
perpaduan beberapa frekuensi resonansinya Dengan demikian fungsi transfernya dapat didekati dengan
pendekatan kombinasi riam (cascade combination) dari beberapa rangkaian resonansinya Dengan analogi yang
sama sistem ini dapat dibangun dari beberapa rangkaian resonansi yang mempunyai parameter lebar bidang dan
frekuensi resonansi yang selalu berubah setiap saat membentuk suatu sistem berubah waktu (time variant
system)
Struktur sistem pengenal wicara yang ada dapat dibagi menjadi 2 yaitu
1) Mempergunakan pola standart dengan unit kata
Gambar 23 Pola standart dengan unit kata4
2) mempergunakan pola standart dengan unit fonem
yang dilengkapi dengan kamus kosa kata
3 Ibid 4 Ibid
Ekstraksi ciri
Pola standar kata
Pemadanan kata
Algoritma keputusan
Sinyal wicara Output teks
Bab 2 Teori Penunjang
5
Gambar 24 Pola standart dengan unit fonem5
Pada sistem pertama mampu mencakup fenomena koartikulasi tapi tidak fleksibel terhadap perubahan
kosa kata
Sinyal wicara adalah sinyal yang dihasilkan oleh suara manusia dan biasanya mempunyai frekuensi
kerja antara 0 sampai dengan 5000 Hz Bentuk gelombang sinyal wicara mempunyai bentuk yang unik seperti
gambar 23
Gambar 25 a)Sinyal wicara untuk bunyi a pada satu frame pada wanita
b)Sinyal wicara untuk bunyi a pada satu frame pada pria
Berdasarkan gambar 25 terlihat bahwa setiap satu frame terdapat 120 sample yang bersifat quasi
periodik dan mempunyai unsur bunyi terkecil yang disebut sebagai pitch Panjang pitch berkisar 10 ms Pitch
manusia berbeda satu sama lain terutama jenis kelamin laki-laki dan perempuan
212 Sampling
Sinyal wicara merupakan sinyal yang tidak terbatas dalam domain waktu (finite time interval) Suara
manusia akan menghasilkan sinyal analog yang terus kontinyu Untuk keperluan pemrosesan dalam transformasi
fourier maka sinyal wicara harus dibentuk dalam potongan-potongan waktu yang terbatas (infinite time interval)
Karena itu sinyal yang ada dipotong-potong dalam slot-slot interval waktu tertentu
Berdasarkan pada teori sampling Niquist maka syarat dari frekuensi sampling adalah minimal dua kali
frekuensi sinyal
Fsampling 2 x Fsignal ( 21)
Ekstraksi ciri
Pola standar fonem
Pemadanan fonem
Kamus kosa kata
Pemadanan kata
Algoritma keputusan
Sinyal wicara
-20000
-15000
-10000
-5000
0
5000
10000
15000
0 20 40 60 80 100 120 140
pitch -10000
-8000
-6000
-4000
-2000
0
2000
4000
6000
8000
0 20 40 60 80 100 120 140
pitch
Output teks
Bab 2 Teori Penunjang
6
Contoh dari sampling seperti bisa kita lihat pada gambar di bawah
Gambar 26 Contoh proses sampling dengan nilai frekuensi pencuplikan yang berbeda
6
Frekuensi sampling yang digunakan adalah 12000 Hz
Dimana dalam 1 detik sinyal terdapat 12000 titik sampling
213 Preemphasis
Proses preemphasis dimaksudkan agar spektrum sinyal merata di semua frekuensi serta mencegah
kehilangan informasi akibat proses pembulatan pada saat komputasi Fungsi preemphasis adalah
H (z) = 1 ndash az-1 09 le a le 1 (22)
dimana nilai a berkisar 095 Berdasarkan model filter di atas maka keluaran dari preemphasis adalah
s (n) = s (n) - as (n-1) ( 23)
Penjabarannya sebagai berikut
5 Ibid 6 Ibid
Fi = 1000 Hz
Fs = 1250 Hz
Fs = 1000 Hz
Fs = 4000 Hz
Fs = 8000 Hz
Fs 2Fi
Kriteria Nyquis
Fi Frekuensi sinyal informasi Fs Frekuensi pencuplikan
H X Y
T 1 = 12000 = 833 x 10-5 s = 833 μs
10 ms = 833μs x N sample N = 120 sample
Bab 2 Teori Penunjang
7
y = H x
y = (1-az-1) xn
y = xn - 095 xn z-1
y = xn ndash 095 xn - 1
214 Frame Blocking
Sinyal wicara yang telah dipreemphasis s (n) diblok dalam M sampel dimana N 2 x M seperti yang
ditunjukkan pada gambar 27 Jika M le N pergeseran frame akan mengalami overlape hasil perkiraan LPC
spectral akan dikorelasikan dari frame 1 ke frame berikutnya Jika M laquo N perkiraan LPC spectral dari satu frame
ke frame lainnya akan sangat halus (smooth) Dan bila M gt N maka tidak akan ada overlape diantara frame yang
berbatasan dan sinyal suara akan hilang sama sekali dan korelasi diantara perkiraan spectral LPC dari frame
yang berbatasan akan berisi komponen noise
Gambar 27 Pergeseran Frame pada Sinyal Suara
dengan M = 13 N
Sehingga didapatkan nilai dari sinyal yang baru adalah sebagai berikut
x1(n) =s(M 1+n) n =012hellipN ndash 1 l = 012hellipLndash1 (24 )
215 Windowing
Merupakan proses membatasi lebar sinyal yang akan dianalisa yang dapat mengurangi efek
diskontinyuitas pada ujung-ujung frame yang dihasilkan oleh potongan-potongan sinyal Korelasi antara lebar
window dalam domain waktu dan amplitude berguna untuk menyederhanakan sinyal dengan mengurangi
puncak sinyalnya
Ada beberapa jenis windowing yang dinamakan sesuai dengan nama penemunya yaitu
Bab 2 Teori Penunjang
8
Window Hamming
052-046 cos[2лn(N-1)] 0 le n le N-1
Wham(n) =
0 elsewhere
Window Hanning
1-cos[2лn(N-1)] 2 0 le n le N-1
Whan(n) =
0 elsewhere
Window Bartlett
1-cos[2лn(N-1)] 2 0 le n le (N-1)2
WB(n) = 2-2n(N-1) (N-1)2lenleN-1
0 elsewhere
Window Blackman
042-05cos[2лn(N-1)]+008cos[4лn(N-1)]0lenleN-1
WBl(n) =
0 elsewhere
216 Fourier Transform
Transformasi Fourier Diskrit (DFT) adalah deretan yang terdefinisi pada kawasan frekuensi ndash diskrit
yang merepresentaskan Transformasi Fourier terhadap suatu deretan terhingga (Finite Duration Sequence) DFT
berperan penting untuk implementasi algoritma suatu varitas pengolah sinyal karena efisien untuk komputasi
berbagai aplikasi
Salah satu contoh aplikasi komputasi DFT dalam algoritma yang efisien yaitu Fast Fourier Transform
(FFT) Efisiensi suatu algoritma ditentukan dari sejauh mana dapat mereduksi jumlah perkalian dan
penjumlahan serta reduksi lalu lintas data pada memori komputer sehingga proses lebih cepat
Pada DFT untuk memproses N buah titik diperlukan (N-1)perkalian kompleks dan N(N-1)
penjumlahan kompleks Bila N cukup besar dibutuhkan memori yang besar dan waktu yang cukup lama Untuk
itu digunakan metode lain yang lebih cepat yaitu metode transformasi fourier cepat (FFT) FFT dilakukan
dengan membagi N buah titik pada transformasi fourier diskrit menjadi 2 masing-masing N2 titik trnsformasi
Pemecahan menjadi dua pada proses transformasi fourier cepat disebut sebagai proses rekombinasi Dua buah
N2 titik transformasi mempunyai 2(N2) = N2 perkalian Proses memecah menjadi dua ini diteruskan dengan
membagi setiap (N2) titik transformasi menjadi dua buah (N4) titik transformasi setiap (N4) menjadi dua buah
Bab 2 Teori Penunjang
9
(N8) titik transformasi dan seterusnya hingga diperoleh junlah titik yang minimum Jika besarnya N merupakan
kelipatan pangkat dari 2 (disebut radiks 2) maka jumlah titik minimum setelah setiap kali dibagi 2 adalah dua
Ada dua macam metode FFT metode Decimation in Time (DIT) dan metode Dicimation in Frekuensi
(DIF) Kedua metode ini hamper sama Pada metode FFT-DIT N buah titik transformasi dibagi 2 menjadi fungsi
ganjil dan genap masing-masing mempunyai N2 titik transformasi Sedang pada metode FFT-DIF N buah titk
transformasi dibagi menjadi fungsi N2 titk yang pertama dan fungsi N2 titik yang kedua
Operasi pada metode FFT-DIT disebut juga metode kupu-kupu Untuk N buah titik transformasi h(n)
algoritma radiks 2 memerlukan proses perkalian dan rekombinasi sebanyak N2 log N transformasi fourier
diskrit Pada metode FFT-DIT operasi dekomposisi dilakukan dengan membagi fungsi h(n) menjadi 2 bagian
fungsi ganjil dan fungsi genap Atau dengan pernyataan matematika h1(n) dan h2(n) yang masing-masing adalah
untuk n genap dan n ganjil
Prinsip FFT dengan metode DIT adalah seperti pada gambar 24 berikut ini
Gambar 28 Blok metode FFT-DIT 8 titik
7
Pada gambar di atas merupakan jumlah perkalian kompleks N2 log N juga jumlah penjumlahan
kompleks = N2 log N
217 Linear Prediction Code
Ide dasar dari LPC adalah bahwa pada model ini memberikan sampel suara pada domain waktu yang
bisa didekati sebagai kombinasi linear dari sampel suara yang telah lalu
Teori Linear Prediction Coding (LPC) yang diaplikasikan pada wicara telah dimengerti selama
beberapa tahun Pada bagian ini akan dijelaskan dasar dari bagaimana LPC diaplikasikan pada sistem pengenlan
wicara
Sebelum menjelaskan LPC secara umum sebagai pemrose front-end untuk pengenalan wicara perlu
diketahui alasan mengapa LPC sangat banyak digunakan yaitu
1 LPC menyuguhkan model yang bagus untuk sinyal wicara
2 Cara yang digunakan LPC untuk analisa sinyal wicara sangat beralasan untuk pemisahan track dari
sumber vocal
3 LPC adalah model traktabel secara analitis
Bab 2 Teori Penunjang
10
4 Model LPC bekerja dengan baik pada aplikasi pengenalan
2171 Autocorrelation Analysis
Masing-masing frame sinyal yang telah diwindow kemudian di-autokorelasikan dengan menggunakan
persamaan
N-1-M
r1(m) = sum x1(n) x1(n+m) m = 0 1 p ( 25) (25)
n = 0
dimana nilai autokorelasi tertinggi p adalah orde dari analisi LPC Pada umumnya nilai dari p yang
sering digunakan adalah dari 8 sampai 16 Sisi menguntungkan dari analisis autokorelasi adalah bahwa
autokorelasi ke-0 R1 (0) adalah energi dari frame ke-1 Energi dari frame merupakan parameter
penting untuk system deteksi wicara
2172 LPC Analysis
Langkah selanjutnya adalah analisis LPC dimana mengkonversi masing-masing frame dari
auto korelasi p+1 ke dalam sebuah ldquoLPC Parameter Setrdquo dimana kumpulan itu merupakan koefisien
LPC koefisien refleksi atau PARCOR koefisien log area ratio koefisien Cepstral atau beberapa
transformasi pada kumpulan tersebut
Metode yang formal untuk mengkonversi dari koefisien autokorelasi ke sebuah LPC parameter
set (untuk metode autokorelasi) dikenal sebagai Metode Durbin dan secara formal dapat ditunjukkan
pada algoritma berikut ini
E(0) = r(0) ( 26)
Ki=r(i)-sumαj(i-1) r(|i-j|)E(i-1) 1 le I le p ( 27)
αi(i) = ki (28)
αj(i) = αj
(i-1)-ki α(i-1) ( 29)
t-j
E(i)=(1-ki2)E (i-j) (210)
dimana penyajian akhir dari persamaan mengabaikan i=1 Kumpulan dari persamaan hellipdiselesaikan secara
rekursif untuk i=12hellipp dan penyelesaian akhir diberikan sebagai
am=koefisien PC=αm 1lemlep ( 211)
7 Agus Wahyudi Verifikasi Sinyal Suara Sebagai Kendali Arah TA PENS-ITS 2002
Bab 2 Teori Penunjang
11
km=koefisien PARCOR ( 212)
1 - km
gm=koefisien log area ratio = log ----------- ( 213)
1 + km
2173 LPC Parameter Corversion to Cepstral Coefficients
Sekumpulan parameter LPC yang sangat penting yang dapat diturunkan langsung dari kumpulan LPC
adalah koefisien cepstral LPC c(m) Rekursif yang digunakan adalah
co = ln σ2 ( 214)
m-1
cm = am + sum ck am-k 1 le m le p ( 215)
k = 1
m-1
cm = sum ck am-k m gt p
k = 1
dimana σ2 adalah penguatan dalam model LPC Koefisien cepstral koefisien yang direpresentasikan dengan
fourier transform dengan spectrum besaran log telah ditampilkan menjadi kumpulan fitur untuk pengenalan
wicara yang lebih handal terpercaya daripada koefisien LPC koefisien PARCOR atau koefisien log area ratio
218 Dynamic Time Wraping
Dynamic Time Wraping (DTW) merupakan cara untuk membandingkan pola wicara dalam menentukan
kesamaan jarak antara pola-pola yang berbeda Dimana pengenalan wicara merupakan proses secara otomatis
dalam mengambil dan menentukan informasi linguistic yang disampaikan dengan gelombang wicara
menggunakan komputer atau sirkuit elektronik Informasi linguistic tersebut pada akhirnya akan
direpresentasikan dengan deretan waktu vektor-vektor spektral
Metode nolmalisasi waktu menggunakan dua buah fungsi warping
ix = Фx (k) k = 123hellipT (216)
iy = Фy (k) k = 123hellipT
2181 Dynamic Programming
Dynamic Programming (DP) digunakan untuk memecahkan masalah deteksi pengurutan kemampuan
menggunakan pola pengenalan wicara dan masalah waktu penjajaran dan normalisasi Ada dua tipe masalah
penggunaan Dynamic Programming yaitu
(
)
k m
( )
K m ( )
Bab 2 Teori Penunjang
12
1 Masalah jalan optimal dengan menganggap sekumpulan titik mulai dari 1 sampai dengan N yang
dihubungkan dengan pasangan setiap dari titik (ij) Representasi perpindahan secara langsung dari titik
ke-1 ke titik yang lainnya Rentetan perpindahan tersebut tidak mempunyai bilangan yang ditetapkan
dari transisi satu titik ke titik yang lainnya hal ini disebut rentetan keputusan asinkron
Dengan Terminologi sederhana kita membuat garis keputusan untuk menetukan titk berikutnya setelah
kebijaksanaan pada titik i
Prinsip dari optimalisasi yang merupakan kelas dasar dari algoritma komputasi untuk optimasi masalah
di atas berdasarkan pernyataan Bellman
rdquoKebijakan optimasi yang memiliki sifat apapun ketetapan dan ketentuannya keputusan berikutnya
harus merupakan hasil ketetapan dari keputusan yang pertamardquo
2 Masalah keputusan rentetan sinkronisasi terdapat perbedaan dari satu sinkronisasi yang beraturan dari
proses keputusan
Penggunaan teknik Dynamic Programming pada Dynamic Time Warping untuk pertama kali dilakukan
oleh Slutsker (1968) Vintsyuk (1968) dan Volichko (1971) dari Jepang untuk pengenalan wicara Pada proses
ini pembicara mengucapkan kata yang sama dengan durasi berubah setiap waktu dengan ekspansi yang non
linier Oleh karena itu Dynamic Time Wraping adalah tahap yang penting dalam proses pengenalan kata Proses
DTW mengalami pengembangan pada sumbu waktu untuk mencocokan posisi phonemkata yang sama antara
input wicara dan referensi template
Dynamic Programing secara umum digunakan untuk memecahkan masalah rentetan keputusan yang
dilakukan pada bidang kisi sebagaimana ditampilkan pada gambar 27 Sinyal yang dicocokkan adalah A dan B
Di dalam bidang kisi sinyal A disesuaikan sepanjang sumbu ndashx dan sinyal B disesuaikan sepanjang sumbu ndashy
Setiap antar bagian pada bagian ini ditetapkan sebagai sebuah simpul atau titik dimana titik (ij) adalah
pencocokan frame I untuk sinyal A dengan frame j untuk sinyal B Misalnya diasumsikan dua rentetan waktu
untuk vektor utama yang dibandingkan sebagai berikut
A = a1a2hellipaI dan B = b1b2hellipbJ
Dengan menganggap rentang bidang antara A dan B sebagaimana ditunjukkan pada gambar 27
fungsi pelengkungan waktu yang sesuai menunjukkan waktu antara rentetan A dan B dapat dipresentasikan
sebagai rentetan titk-titik Lattice pada bidang c = (ij) sebagai berikut
Bab 2 Teori Penunjang
13
Gambar 29 Plane jaringan untuk ilustrasi
pemrograman dinamik8
Bilamana jarak spektral antara dua vektor utama a1 dan b1 direpresentasikan oleh d(c) = d(ij) penjumlahan
jarak dari awal sampai akhir dari rentetan sepanjang F dapat direpresentasikan dengan
K
sum d(ck)wk
k=1
D(F) = mdashmdashmdashmdashmdash (217)
K
sum wk
k=1
Semakin kecil nilai ini semakin baik kecocokan antara A dan B Dimana wk adalah fungsi pembobotan
positif terhadap F
Dengan memperkecil persamaan di atas dengan kondisi berikut
1 Kondisi monotonisasi dan kontinuitas
0 le ik-ik-1le1 0 lejk ndash jk -1 le 1 ( 218)
2 Kondisi perbatasan
I1=j1=Iik=Ijk=I (219)
3 Kondisi adjustmen window
|ik ndash jk|ler r=konstan ( 220)
Pendefinisian wk sedemikian rupa sehingga menyebut pada persamaan 219 menjadi konstan yang
tidak tergantung pada F Untuk contoh jika
Wk = (ik ndash ik -1)+(jk ndash jk -1)(i0=j0=0) wk akan menjadi
8 Ibid hal 15
Bab 2 Teori Penunjang
14
K
sum wk = I + J (221) k=1
dan persamaan 219 menjadi
1 K
D(F)= mdashmdash sum d(ck)wk ( 222)
I + J k=1
Gambar 210 DTW antara dua rentetan waktu A dan B
9
Karena fungsi obyektif yang akan diminimasi menjadi penjumlahan maka peminimisasi secara efisien
dapat diselesaikan tanpa harus menguji semua kemungkinan untuk F Penjumlahan pada sebagian rentetan c1
c2 hellip ck (ck=(ij)) adalah
(224)
Penurunan pemrograman dinamik pada persamaan-persamaan diatas penggunaan kondisi untuk F dan
formulasi perumusan wk persamaan 2115 dapat dituliskan kembali sebagai berikut
9 Ibid hal 17
Bab 2 Teori Penunjang
15
g(ij-1)+d(ij)
g(ij) = min g(i-1j-1) + 2d (ij) (225)
g(i-1j) +d(ij)
Oleh karena itu jarak antara dua rentetan waktu A dan B setelah DTW dapat diperoleh sebagai berikut
Kita set dari kondisi awal untuk g(11)=2d(11) dan j=1 dan hitung persamaan 2116 dengan variasi I dalam
sepanjang adjustment window Perhitungan ini diulangi dengan menaikkan j sampai j=1 Jarak keseluruhan
antara dua rentetan waktu A dan B dapat diperoleh dari g(IJ)(I+J)
2182 Batasan Normalisasi Waktu
Supaya proses normalisasi waktu mempunyai arti pada perbedaan batasan dengan berbagai variasi
interval waktu dibutuhkan beberapa batasan terhadap fungsi warping
2183 Batasan Titik Awal Akhir
Bilamana pola wicara yang dibandingkan merupakan tuturan per kata maka harus memenuhi syarat pola
mulai dari titik awal sampai titik akhir dari tanda permulaan dan pengakhiran pola wicara Titik awal dan akhir
mempunyi batasan yang membatasi pola wicara harus dipenuhi
Titik awal Фx(1) = 1 Фy(1) = 1 (226)
Titik akhir Фx(T) = Tx Фy(T) = Ty (227)
2184 Kondisi Monotonisasi
Rentetan pola spectral pada wicara sangat penting dalam menentukan arti linguistic sehingga tidak
akan hilang Untuk mempertahankan pola tersebut harus memenuhi
Фx(k + 1) ge Фx(k) (228)
Фy(k + 1) ge Фy(k)
22 Awal dan Akhir Sinyal Suara
221 Power
Sinyal suara yang diolah haruslah merupakan sinyal suara murni dan tidak bercampur dengan noise
ataupun header tail yang dibawa oleh suara saat perekaman apalagi jika pengenalan sinyal suara dengan jumlah
vocabulary yang besar Oleh karena itu sinyal suara hasil perekaman harus dicari nilai awal dan akhirnya agar
pengolahan sinyal suara tersebut menjadi lebih valid
Dan salah satu cara dalam menentukan nilai awal dan akhir dari sinyal suara adalah dengan
menggunakan power yang mempunyai persamaan sebagai berikut
( )
Bab 2 Teori Penunjang
16
239
p= sumradic xt2 (229)
t=0
Sinyal suara yang dibagi menjadi beberapa frame mempunyai power dari tiap framenya yang kemudian
didapatkan nilai rata-ratanya yang kemudian diperoleh nilai awal dan akhirnya dengan menambahkan 3 kali
standart deviasi Dimana penentuan awal dan akhir dari sinyal suara dapat diperoleh dengan
p ge p + 07 standart deviasi
Power
0
20000
40000
60000
80000
100000
120000
140000
160000
0 10 20 30 40 50 60
Jumlah Frame
Am
pli
tud
o
Gambar 211 Bentuk power dari kata
Nilai beberapa kali hasil percobaan
222 Unvoiced Plosive
Pada suatu sinyal suara yang terekam terdapat pemutusan sinyal atau kondisi kosong yang bukan
merupakan noise tetapi masih didalam lingkup suara Tapi kondisi ini hanya terjadi pada kebanyakan sinyal
suara yang terdapat konsonan tertentu yaitu sinyal suara dari kata yang mempunyai konsonan p t k Kondisi ini
disebut Unvoiced Plosive atau loncatan sinyal suara setelah kondisi kosong seperti ditunjukkan pada gambar
berikut
Gambar 212 Unvoiced Plosive
Bab 2 Teori Penunjang
17
Dan untuk penentuan awal dan akhir daerah kosong tersebut harus diperhitungkan agar didapatkan
nilai awal dan akhir dari sinyal suara yang valid yaitu dengan mencari nilai rata-rata dari daerah kosong dari
beberapa sinyal suara Kemudian dengan dicari nilai thresholdnya yaitu nilai terpanjang dari daerah kosong
sebesar 2 dari seluruh daerah kosong yang telah dihistogram
23 JARINGAN DENGAN TCPIP
Meskipun hubungan computer melalui serial dan parallel telah ada sejak lama multijaringan belum
menjadi masalah serius bagi para peneliti di bidang jaringan sampai awal tahun 1980 Perkembangan teknologi
LAN itu sendiri didasarkan banyak alasan Salah satu yang menjadi alasan utama adalah adanya perusahaan
yang ingin melakukan sharing data file printer dan resource lainnya ke pc lain
231 Mengenal TCPIP
Sebelumnya kita definisikan lebih dahulu apa yang dimaksud protocol itu Bila dua computer ingin
melakukan komunikasi keduanya tentu saja harus menggunkan bahasaturan yang sama Aturan-aturan inilah
yang disebut protocol Misalnya untuk mengirim mail digunakan protocol SMTP berhubungan dengan WWW
menggunakan HTTP dan sebagainya Jadi protocol merupakan aturan dalam melakukan komunikasi
TCPIP ( Transmission Control Protocol Internet Protocol) merupakan protocol yang bersifat open
networking Maksudnya semua penjelasan teknis tentang protocol tersebut diumumkan karena ada juga
mekanisme jaringan yang menyembunyikan detail dari sistemnya Hal inilah yang membuat TCPIP menjadi
terkenal
Adapun keuntungan dengan menggunakan protocol TCPIP adalah kemudahannya karena
memungkinkan hubungan antara berbagai system operasi dan berbagai jenis computer (platform)
TCPIP bukanlah protocol tunggal tetapi merupakan sekumpulan protocol sehingga lebih tepat disebut
sebagai keluarga TCPIP Setiap protocol pada TCPIP memiliki tugas tertentu yang berbeda Semua protocol
tersebut menggunakan protocol primer untuk mengirimkan paket data Protocol primer tersebut adalah TCP dan
IP
Protokol lainnya dapat dikelompokkan berdasarkan tujuannya sebagai berikut
1 Transport
Digunakan untuk mengatur perpindahan data antara dua mesin Antara lain
- TCP (Transmission Control Protocol)
- UDP (User Datagram Protocol)
2 Routing
Digunakan untuk pengalamatan data dan menentukan rute terbaik antara lain
- IP (Internet Protocol)
- ICMP (Internet Control Message Protocol)
- RIP (Routing Information Protocol)
Bab 2 Teori Penunjang
18
3 Network Address
Menangani bagaimana suatu mesin diberikan suatu alamat antara lain
- ARP ( Address Rwesolution Protocol)
- DNS ( Domain Name Sistem)
- RARP (Reverse Address Resolution Protocol)
4 User Service
Merupakan aplikasi yang harus diakses user antara lain
- FTP ( File Transfer Protocol)
- TFTP (Trivial File Transfer Protocol)
- TELNET
5 Gateway Protocol
Untuk membentuk proses komunikasi routing dan status informasi antara lain
- EGP (Exterior Geteway Protocol)
- GGP (Gateway to Gateway Protocol)
- IGP (Interior Gateway Protocol)
232 Koneksi TCPIP
Untuk mengkonfigurasi TCPIP maka dibutuhkan
Alamat IP
Alamat IP ini sebagai pengenal atau alamat mesin Karena setiap mesin yang terhubung jaringan
harus memiliki penganal yang unik sehingga memungkinkan melakukan routing Jaringan dengan TCPIP
menggunakan pengalamatan 32 bit sebagai alamat atau pengenal setiap mesin yang terkoneksi dengan jaringan
Pengenal ini disebut alamat IP Pesan atau data yang dikirim melalui TCPIP menggunakan alamat IP ini untuk
mengenali mesin pengirim dan penerimanya
Biasanya alamat IP dapat dikelompokkan menjadi dua bagian yaitu
1 Nomor Network
2 Nomor Device dalam Network tersebut
Alamat IP tersebut dipisahkan menjadi empat bagian yang masing-masing berukuran 8 bit Empat
bagian tersebut dipisahkan oleh tanda titik dan setiap bagian tersebut memiliki angka 0-255 Contohnya
192168101
Pemberian alamta IP umumnya ditentukan berdasarkan ukuran dari jaringan tersebut Jaringan
dapat diklasifikasikan menjadi tiga kategori yaitu kelas A kelas B kelas C Ketiga kelas tersebut membagi
pengalamatan 32 bit dengan ukuran berbeda untuk nomor Network dan Host
Pengalamatan pada kelas A memungkinkan bagian ini memiliki angka dari 0-127 Sedangkan
pengalamatan B memungkinkan memiliki angka dari 128-191 pengalamatan pada kelas C memungkinkan
memiliki angka dari 192-223
Network Mask
Bab 2 Teori Penunjang
19
Network mask merupakan alamat IP dimana lamat networknya diset ke nilai 255 Jika alamat IP
termasuk kelas A maka network masknya yaitu 255000 Jika alamat IP termasuk kelas B maka network
masknya yaitu 25525500 Jika alamat IP termasuk kelas C maka network masknya yaitu 2552552550
AlamatNetwork
Alamat network ini dapat diperoleh dari alamat IP dimana bit-bitnya dilakukan operasi AND
dengan network mask Dengan demikian untuk network kelas B dengan IP 192168101 maka alamat
networknya adalah 19216800
Alamat Broadcast
Alamat broadcast dibutuhkan bila suatu mesin ingin mengirimkan paket yang sama ke semua
device pada jaringan
Alamat Gateway
Alamat gateway merupakan alamat IP dari mesin yang menghubungkan jaringan dengan jaringan
di luar misalnya internet Pada umumnya alamatgateway memiliki IP yang sama dengan mesin yang kita miliki
tetapi mempunyai nomor device 1 Dengan demikian untuk network kelas B dengan alamt IP 192168101
alamat gatewaynya adalah 19216811
Alamat Nameserver
Jaringan-jaringan besar umumnya memiliki sebuah mesin untuk mentranslasikan alamat IP menjadi
nama yang lebih mudah dikenal manusia Misalkan sebuah mesin dengan IP 192168101 dapat diberi nama lain
seperti puspacsuiacid sebagai alamatnya Proses translasi ini dilakukan dengan system yang dikenal dengan
nama Domain Name System (DNS)
24 BEKERJA DENGAN SOCKET
Komponen socket program yang dapat membantu dalam pembuatan suatu aplikasi yang berkomunikasi
antara suatu system computer dengan system computer yang lain dengan menggunakan protocol TCPIP dan
protocol lain yang terhubung
241 Pengertian Socket Program
Pada sub bab ini akan dijelaskan tentang komoponen socket program yang dapat berkomunikasi antara
system computer dengan system computer yang lain dengan menggunakan protocol TCPIP dan protocol lain
yang terhubung Dengan socket program ini kita dapat membaca dan menulis pada hubungan ke mesin yang lain
tanpa mengalami kesulitan pada software jaringan Socket program dapat mengadakan hubungan berbasis
protocol TCPIP tetapi dapat juga bekerja umunya dengan protokol-protokol yang terhubung seperti Xerox
Network System (XNS) dan yang lain
Bab 2 Teori Penunjang
20
242 Penjabaran Socket
Socket mengijinkan aplikasi jaringan kita berkomunikasi dengan sistem lain di luar jaringan
Masing- masing socket bisadipandang sebagai titik akhir dalam suatu koneksi jaringan Socket tersebut memiliki
spesifikasi sebagai berikut
a) Sistem yang sedang dijalankan
b) Tipe interface port yang digunakan
Penjelasan lengkap dari sebuah koneksi socket terdiri dari address socket pada kedua titik akhir
koneksi Kita akan menguraikan address dari masing- masing titik akhir socket dengan memberi nomor IP
address atau host dan port
Sebelum membuat koneksi socket sebelumnya harus menguraikan dengan lengkap socket-socket
yang membentuk titik akhir Beberapa informasi tersedia dari sistem aplikasi yang dijalankan Sebagai contoh
kita tidaka akan membutuhkan IP Address Local dari socket client sebab informasi ini terdapat pada sistem
operasi
Informasi yang akan kita berikan bergantung pada tipe socket yang sedang bekerja Socket client
harus menggambarkan port yang merepresentasikan layanan yang mereka berikan
243 Memilih Host Name dan IP Address
Kebanyakan aplikasi menggunakan host name untuk merinci sebuah system Host Name mudah
untuk diingat dan dicek Menggunakan host name memungkinkan socket client untuk menemukan situs abstrak
yang diwakili oleh nama host meskipun telah dipindah ke IP Address yang baru Jika nama host tidak diketahui
socket client akan akan menyatakan system server sedang menggunakan IP Addressnya Ketika kita
menyediakan host name socket akan mencari IP Address yang berhubungan dengan host name sebelum socket
tersebut dapat menempatkan pada sistem server
Bab 3 Perencanaan dan Implementasi
21
BAB 3
PERENCANAAN DAN IMPLEMENTASI
31 Pendahuluan
Pada bab ini akan dijelaskan mengenai pengolahan sinyal wicara untuk mendapatkan ciri setiap
individu Juga akan dibahas mengenai pengolahan hasil keluaran sinyal wicara untuk ditransmisikan ke PC lain
(lewat jaringan) Dan selanjutnya akan dibahas pula mengenai plan atau obyek yang dalam hal ini adalah lampu
pijar
Berikut ini adalah blok diagram sistem secara keseluruhan
Gambar 31 Blok Diagram Sistem Secara Keseluruhan
Speaker pada gambar 31 memberikan suaranya sebagai masukan lewat mikrofon Masukan ini
akan diolah dalam PC client mulai dari proses sampling frame windowing FFT LPC Kemudian hasil dari
LPC dicari pemadanan dengan LPC dari sinyal standar yang telah tersimpan sebagai data base di dalam PC
client Hasil dari DTW tersebut akan dikirimkan ke PC server melalui TCPIP untuk diproses menjadi suatu
perintah ke perangkat keras Perintah tersebut merupakan bentuk implementasi dari perintah yang diberikan dari
PC client
Sebaliknya dengan adanya perubahan kondisi pada peralatan yang diinginkan maka terjadi sinyal
balikan yang berupa sinyal DTMF yang dikirimkan oleh perangkat keras ke PC server Oleh PC server sinyal ini
diolah untuk dikenali sebagai suatu kondisi tertentu yang akan dikirimkan ke PC client sebagai laporan tentang
kondisi alat yang diinginkan
32 Sistem Pengolahan Sinyal Wicara
321Perekaman Suara
TCPIP
Pengucap Speaker ADC Pengolahan Wicara dan Monitoring
Peralatan yang terkontrol
LAN Card
LAN Card
Pengenalan Pola Pengiriman Tone DTMF dan Pengenalan DTMF Sebagai Laporan
DTMF Decoding DTMF Generator Sistem Switching
Alat Terkontrol
Bab 3 Perencanaan dan Implementasi
22
Perekaman suara dilakukan menggunakan software berbasis TclTk 830 dan Snack22 Sebelumnya
akan dijelaskan satu per satu program yang dipakai
o TclTk 830
Tcl kepanjangan dari Tool Control Language Tk adalah Graphical Toolkit extension dari Tcl yang
menyediakan bermacam-macam item standar antarmuka GUI untuk memfasilitasi secara cepat pengembangan
aplikasi tingkat tinggi
o Snack22
Snack adalah tool pengolahan suara yang didesain sebagai extensi untuk bahasa script Saat ini Snack bekerja
dengan bahasa script TclTk Phyton dan Ruby Snack memiliki perintah-perintah untuk play record process
dan dan memvisualisasi suara Snack menyediakan obyek suara tingkat tinggi dengan manajemen penyimpanan
yang fleksibel dan streaming support Snack dapat bekerja pada banyak format file suara
Kita dapat membangun aplikasi sepaerti di bawah ini dengan integrasi dari TclTk dan Snack
Gambar 32 Program aplikasi pengenalan wicara
Frekuensi sampling pada program di atas diset pada frekuensi 12 kHz Frekuensi ini dipilih karena biasa
digunakan untuk voice Selain itu juga diset pada channel Mono dan sinyal encoding LIN 16 (resolusi 16 bit
PCM) Pada penekanan tombol ldquorecordrdquo diikuti tombol ldquostoprdquo dan kemudian tombol ldquostandartrdquo maka akan
dimulai proses perekaman yanag akan digunakan untuk membuat file standar untuk kedelapan perintah yang
akan digunakan untuk pembanding sinyal masukan
Adapun proses untuk sistem yang akan dibuat dapat digambarkan dengan diagram alir seperti di bawah
Bab 3 Perencanaan dan Implementasi
23
Mulai
Package Require
Snack 22
Exit
Program On
Running
Recording
Sound Card
Produser Running
Prosedur Recording
DTMF
Keluar
Tidak
YaTidak
Ya
Ya
Ya
Ya
Tidak
Tidak
Tidak
Gambar 33 Flowchart Sistem Graphical User
Interface
322 Sampling
Seperti telah dijelaskan di depan bahwa frekuensi sampling yang digunakan adalah sebesar 12000Hz
dimana dalam 1 detik sinyal terdapat 12000 titik sampling Sebagai contoh seperti gambar di bawah ini suatu
sinyal epanjang 20 ms disampling 12000 Hz menghasilkan titik sampling sebanyak 240 titik
Data Sampling
-20000
-15000
-10000
-5000
0
5000
10000
15000
20000
0 200 400 600
Amplitudo
Jumlah Data
Gambar 34 Sinyal hasil sampling dengan
frekuensi 12000 Hz
Bab 3 Perencanaan dan Implementasi
24
Mulai
Sinyal Masukan
Baca Panjang Sinyal
Bagi Menjadi N Frame
i = 0 i lt N i++
Ambil 240 Data Sampel
Tampilkan Nilai
Sampel
Selesai
Gambar 35 Flowchart Proses Sampling
323 Pre-emphasis
Agar spektrum sinyal merata di semua frekuensi dan mencegah kehilangan informasi akibat pembulatan
pada saat komputasi maka dilakukan prose preemphasis Fungsi transfer preemphasis adalah
H(z) = 1 ndash a z-1 09 le a le 1 (31)
Dimana nilai a berkisar 095 Berdasarkan model filter di atas maka keluaran dari preemphasis adalah
s(n) = s(n) ndash a s(n-1) (32)
324 Frame Blocking
Hasil perekaman merupakan sinyal dalam domain waktu yang bersifat variant time (fungsi yang
bergantung pada waktu) Sinyal yang telah dipreemphasis kemudian dibagi menjadi n buah frame Dengan
jumlah sample per frame sebesar N dan adjacent frame sebesar M sample Dimana M=05N Pada frame
pertama terdiri dari N buah sampel Frame kedua dimulai pada sampel ke M sehingga terjadi overlape sebesar
N - M sampel Begitupula untuk frame yang ketiga dimulai dari sample ke 2M sehingga terjadi overlape dari
farme kedua sebesar N + M-2M sampel juga Hal ini akan terus berlangsung hingga seluruh sinyal terbagi
menjadi beberapa frame
Bab 3 Perencanaan dan Implementasi
25
Gambar 36 Frame blocking sinyal
325 Windowing
Windowing yang digunakan adalah window hamming Setelah proses pengambilan sample maka
langkah selanjutnya adalah proses selanjutnya adalah proses windowing yang berfungsi untuk mengurangi efek
diskontinyuitas pada ujung-ujung frame Persamaannya adalah sebagai berikut
y[i] = x[i](054-046cos(20314159265(i-1)240) (33)
Flowchartnya bisa dilihat seperti di bawah
Mulai
240 Data
Sampel
i= 0 i lt 240 i++
Hamming Window
y[i] = x[i](054-046cos(2phi(i-1)
240))
Tampilkan
nilai
Hamming
Selesai
Gambar 37 Flowchart Proses Windowing
326 Fast Fourier Transform
Transformasi fourier cepat (FFT) adalah suatu metode yang sangat efisien untuk menyelesaikan
transformasi fourier diskrit (DFT) yang banyak dipakai untuk keperluan analisa sinyal Sehingga dengan FFT
N N N M
M N
N N
M
Bab 3 Perencanaan dan Implementasi
26
sinyal yang disampling dalam domain waktu ditransformasikan ke domai frekuensi dengan menggunakan
persamaan sebagai berikut
N-1
H(k) = sum h(n)e-j2лkN (34)
n=0
dengan k= 012N-1
Prosesnya dapat dilihat dari flowchart di bawah
Mulai
240 data
sampel
256 data sampel
i=0 ilt256 i++
tmp_log1=(xr[k]xr[k]+xc[k]xc[k])
tmp_log gt 0
xr[k]=10log10(tmp_log1)
Tampilkan
nilai
hamming
Selesai
xr[k]=10log10(0000001)
Ya
Tidak
Gambar 38 Flowchart Proses Fast Fourier
Transform
327 Autocorrelation analysis
Hasil dari windowing sinyal masukan kemudian dihitung autokerelasinya dengan persamaan
N-1-m
r1(m) = sum x1(n)x1(n+m) m=01p (35)
n=0
dimana niali autokorelasi tertinggi p adalah orde dari analisis LPCPada umumnya nilai dari p yang sering
digunakan adalah dari 8 sampai 16
Proses Autokorelasi dapat dilihat dari flowchart di bawah ini
Bab 3 Perencanaan dan Implementasi
27
Mulai
240 data p lpc
orde
i=0 iltp i++
j=0 jlt240-p-1 j++
RI[j]=sum(xI[i]xI[i+j])
Tampilkan nilai
autocorrelation
Selesai
Gambar 39 Flowchart Proses Autokorelasi
328 LPC Analysis
Hasil koefisien autokorelasi kemudian dikonversikan ke sebuah LPC parameter set (untuk metode LPC
autokorelasi) dikenal sebagai Metode Durbin dan secara formal ditunjukkan dari algoritma sebagai berikut
E(0) = r(0) (36)
ki=r(i)-sumαj(i-1) r(|i-j|)E(i-1) 1 le I le p (37)
αi(i) = ki (38 )
αj(i) = αj
(i-1)-ki α(i-1) ( 39)
t-j
E(i)=(1-ki2)E (i-j) (310)
dimana penyajian akhir dari persamaan 37 mengabaikan i=1 Kumpulan dari persamaan 36 -310 diselesaikan
secara rekursif untuk i=12p
Proses analisis dapat dilihat dari flowchart di bawah
Bab 3 Perencanaan dan Implementasi
28
Mulai
Autocorrelationr
p lpc orde
E (0) = r(0)
k1
= r(i)-sumalpha j (i-1) r( | i-j|E(i-1)
alpha j (i) = k
i
alpha j
(i) = alpha (i-1) -k i alpha
i-j (i-1)
E (i) = 1-k i 2) E(i-1)
Tampilkan nilai
parameter lpca
Selesai
i=0 iltp i++
Gambar 310 Flowchart proses LPC analisis
329 LPC Parameter to Cepstrum Analysis
Sekumpulan parameter LPC yang sangat penting yang dapat diturunkan langsung dari kumpulan
koefisien LPC adalah koefisien cepstral LPC c(m) Rekursif yang digunakan adalah
co = ln σ2 ( 311)
m-1
cm = am + sum ck am-k 1 le m le p (312)
k = 1
m-1
cm = sum ck am-k m gt p ( 313)
k = 1
Proses LPC parameter ke Cepstrum Analysis dapat dilihat dari flowchart di bawah ini
k m ( )
k m ( )
Bab 3 Perencanaan dan Implementasi
29
Mulai
lpc parameter a
p lpc orde
c o = ln del 2
1 lt=mlt=p
i=0 iltp i++
Cm
= am
+sum((km)Ck a
m-kC
m =sum((km)C
ka
m-k)
Tampilkan nilai lpc
cepstrumc
Selesai
Gambar 311 Flowchart Proses LPC parameter ke
Cepstrum
3210 Dynamic Time Warping
Proses yang terjadi pada Dynamic Time Warping adalah pengukuran jarak suara antara sinyal standart
dan sinyal input Yang diukur berupa deretan nilai dari hasil LPC Cepstrum dalam bentuk kolom dan baris (ij)
yang disimpan dalam satu file Pada kolom berisi nilai tiap cepstrum sedangkan baris berupa banyaknya frame
Teknik yang digunakan dinamakan Dynamic Programming Alur kerjanya dapat dilihat dari flowchart di bawah
Bab 3 Perencanaan dan Implementasi
30
Mulai
i=0 iltN i++
j=0 jlt15 j++
Cepstrum
Standart
Std_Ceps [i][j]
Cepstrum
Input
Inp_Ceps [i][j]
DP_dist = DP_match1(r)
DP_dist
Selesai
Gambar 312 Flowchart Proses Dynamic Programming
33 Awal dan Akhir Sinyal suara
331 Power
Untuk mendapatkan suatu sinyal suara tanpa adanya noise maka sinyal harus benar-benar dipotong
tepat pada awal dan akhirnya Oleh karena itu dipakai power sebagai salah satu cara yang efektif dalam
menentukan awal dan akhir suatu sinyal suara
Dimana tiap frame mempunyai power yang merupakan hasil kuadratisasi dari penyampelan tiap frame
yang kemudian hasil keseluruhan diakarkan seperti bisa dilihat pada flowchart di bawah
Bab 3 Perencanaan dan Implementasi
31
Mulai
Power = 0
i=0 ilt240 i++
Power=Power+sqrt(xixi)
Selesai
Gambar 313 Flowchart Proses Power
Jumlah sample per frame ditetapkan sebesar 240 sampel Kemudian dicari power masing-masing antara sinyal
utuh dan sinyal noise kemudian dengan p ge p + 07 standar deviasi maka didapatkan awal dan akhir sinyal
suara
332 Unvoiced Plosive
Adanya daerah kosong menyebabkan sinyal tidak valid dalam pemotongan awal dan akhirnya karena
bisa dianggap noise padahal berada dalam sinyal suara ( merupakan bagian dari sinyal suara) Oleh karena itu
dicari mean dari 25 kata sinyal suara yang kemudian dicari nilai thresholdnya sebagai panjang akhir dari daerah
kosong Dan nilai tersebut diikutsertakan dalam looping dan jika setelah itu terdapat sinyal kembali maka
berarti masih ada sinyal suara dan jika tidak ada berarti tidak ada sinyal suara
34 Proses Pada Client
Preses pada client dapat dijelaskan sebagai berikut
Gambar 314 Blok diagram proses client
Penjelasan dari blok digram tersebut adalah
1 Pertama adalah perekaman suara pada software recording yang hasilnyadisimpan dalam bentuk file
berekstensi ldquowavrdquo File ini selanjutnya akan dijadikan file input pada sistem client
2 File suara yang telah tersimpan diolah dalam program sampling untuk mendapatkan sinyal suara dalam
bentuk frame Setiap frame terdiri dari 120 sampel
Mic Extract AD Voice Dikenali
Bab 3 Perencanaan dan Implementasi
32
3 Tiap frame diwindow dengan window Hamming untuk mengurangi efek diskontinyuitas pada ujung-
ujung frame
4 Sinyal hasil window yang masih dalam domain time diubah ke dalam domain frekuensi dengan Fast
Fourier Transform (FFT)
5 Hasil dari windowing sinyal masukan kemudian dihitung autokerelasinya
6 Hasil koefisien autokorelasi kemudian dikonversikan ke sebuah LPC parameter set (untuk metode LPC
autokorelasi) Sekumpulan parameter LPC yang sangat penting yang dapat diturunkan langsung dari
kumpulan koefisien LPC adalah koefisien cepstral LPC
7 Selanjutnya dilakukan proses DTW (Dynamic Time Warping) pengukuran jarak suara antara sinyal
standart dan sinyal input Hasilnya disimpan dalam sebuah file berekstensi ldquotxtrdquo
8 File berekstensi txt tersebut ke server sebagai sinyal suara input
35 Proses Pada Server
Proses pada server dapat dijelaskan sebagai berikut
Gambar 315 Blok diagram proses server
Penjelasan dari blok diagram tersebut adalah
1 Isi file berekstensi rdquotxtrdquo diterima oleh server dan digunakan sebagai data input untuk memanggil
database tone DTMF yang sesuai sebagai pengoperasian alat yang akan dikontrol
2 Alat yang terkontrol akan menunjukkan hasilnya
Memanggil
Database
Tone
Dikode
kan
dalam
biner
Kirim
ke HW
Kontrol
Alat
Input
server
Bab 4 Pengujian dan Analisa
33
BAB 4
PENGUJIAN DAN ANALISA
41 Pendahuluan
Untuk mengetahui tingkat keberhasilan dari suatu sistem diperlukan pengujian keseluruhan dari
perencanaan hasil sistem yang telah dibuat Dalam bab ini akan dijelaskan mengenai hal tersebut
Pengujian yang akan dilakukan adalah
1 Pengujian dan analisa sistem pengolahan sinyal wicara
2 Pengujian dan analisa sistem client server
3 Pengujian dan analisa awal dan akhir sistem pengolahan wicara
42 Pengujian dan Analisa Sistem Pengolahan Wicara
Tujuan untuk mendapatkan parameter ciri individu dari sampel sinyal yang diolah
421 Perekaman Suara
Pada Tugas Akhir ini digunakan duamacam perangkat lunak yang dibangun sendiri berbasis TclTk 830
dan Snack 22 sebagai perangkat lunak yang diuji dan perangkat lunak Wavesurver sebagai pembanding
4211 Dengan menggunakan TclTk dan Snack
Tampilan awal dari perangkat lunak yang dibangun dengan menggunakan TclTk dan Snack adalah sebagai
berikut
Gambar 41 Tampilan awal perangkat lunak menggunakan TclTk dan Snack
Bab 4 Pengujian dan Analisa
34
Pertama kali tombol record ditekan maka proses pengambilan sinyal wicara yang dimasukkan
dimulai Pada saat tombol Stop ditekan maka program akan merekam kata ldquosatu nyalardquordquosatu matirdquordquodua
nyalardquordquodua matirdquordquotiga nyalardquordquotiga matirdquordquoempat nyalardquordquoempat matirdquo sesuai yang kita masukkan dan
tampilan display akan digambarkan bentuk sinyal yang dihasilkan secara otomatis Hasil perekaman dapat
dilihat pada gambar berikut 42
Gambar 42 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan perangkat lunak
TclTk dan Snack
Gambar 42 menunjukkan bahwa proses pengambilan sinyal suara telah dilakukan Sinyal suara yang
dimasukkna akan terlihat gambarnya pada layar hitam (canvas)
4212 Dengan menggunakan Wave Surver
Sebagai pembanding dari program yang telah dibuat yaitu dari perangkat lunak TclTk dan Snack
digunakan Wavesurver
Tampilan awal dari Wavesurver 157 tampak seperti pada gambar 43
Gambar 43 Tampilan awal perangkat lunak menggunakan Wavesurver
Bab 4 Pengujian dan Analisa
35
Pada saat tombol recording ditekan maka program akan merekam kata ldquosatu nyalardquo dan pada tampilan
display akan digambarkan bentuk sinyal yang dihasilkan secara otomatis Hasil perekaman bisa dilihat pada
gambar 44
Gambar 44 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan
perangkat lunak Wavesurver
Perekaman pada Wavesurver dapat diset sesuai dengan kebutuhan Dimana pada sistem pengolahan sinyal
suara untuk perekaman suara diset sebagai berikut
Gambar 45 Kotak dialog setting perekaman perangkat lunak Wavesurver
Pada data di atas dapat dilihat bahwa suara yang direkam dengan mengguanakan perangkat lunak
Wavesurver mempunyai header dan tail yang berisi keterangan perekaman sebagai berikut
12000 menunjukkan frekuensi sampling yang digunakan
Bab 4 Pengujian dan Analisa
36
Channels menunjukkan bahwa suara direkam dengan menggunakan channel Mono
Sampel Encoding Lin 16 menunjukkan bahwa suara direkam dengan menggunakan
16 bit PCM
422 Sampling
Dengan menggunakan program yang dibangun sendiri di atas proses penyamplingan sinyal input sekaligus
telah terjadi dimana dengan frekuensi sampling sebesar 12000 Hz didapatkan sinyal dari kata ldquosatu nyalardquo
dengan potongan sebagai berikut
3306
3538
3788
4076
4282
4684
4747
4956
5083
5442
5844
5901
6244
6196
6462
6104
Berikut ini adalah cuplikan dari data sampel kata ldquo empat matirdquo mulai dari milidetik ke-13900
Bab 4 Pengujian dan Analisa
37
Data Sampling
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 46 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900
Pada gambar 46 telah dilakukan proses sampling sinyal masukan dengan frekuensi sampling sebesar 12000
Hz maka didapatkan hasil sinyal yang hampir mirip dengan sinyal analognya karena sinyal suara manusia
memiliki jarak frekuensi antara 300 sampai 5000 Hz dimana syarat Nyquist minimal fsampling 2fsinyal
telah terpenuhi
423 Windowing
Jenis window yang digunakan adalah window Hamming
Pada proses window hamming kata yang telah disampel sebanyak 240 sampel akan diwindow sehingga
menghasilkan sinyal yang lebih kecil peaknya Hasilnya adalah sebagai berikut
-26174
-22078
-12518
-1444
9690
19308
23360
20049
12365
2391
-7874
-14539
-17837
-19929
-19007
-16955
Bab 4 Pengujian dan Analisa
38
Sedangkan hasil dalam bentuk gambar dapat dilihat pada gambar berikut
Data Windowing
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 47 Hasil Windowing data sampel kata ldquoempat matirdquo milidetik ke-13900
Seperti yang ditunjukkan gambar 47 proses windowing telah dilakukan Berdasarkan gambar 47
tersebut dapat dikatakan bahwa window Hamming menyebabkan sinyal yang disampel lebih halus Gambar
47 dapat dibandingkan dengan gambar 46 yaitu gambar sinyal sebelum melalui proses windowing dapat
dilihat bahwa sinyal yang telah diwindow mempunyai sinyal yang lebih halus Hal ini membuktikan bahwa
fungsi dari windowing untuk mengurangi efek diskontinyuitas pada ujung-ujung frame adalah benar
424 Fast Fourier Transform Sinyal Masukan
Pada proses ini sinyal yang sebelumnya berada dalam domain waktu akan diubah dalam domain
frekuensi Setiap sinyal yang berasal dari alam merupakan sinyal analog yang bila diolah harus diubah
dalam bentuk sinyal digital Dan pengolahan dalam digital merupakan pengolahan dalam bentuk diskrit
Pada proyek akhir ini sinyal dalam domain waktu akan diubah dalam domain frekuensi dengan 256 titik
Karena hasil yang diperoleh berupa hasil dari fungsi konvolusi maka hanya akan diambil 128 titik saja yang
akan diolah dalam proses selanjutnya Sedangkan 128 sisanya tidak dipergunakan karena berupa
pencerminan saja
Hasil dari Fast Fourier Transform (FFT) dari penggalan kata ldquoempat matirdquo pada milidetik ke-13900 dalam
bentuk teks adalah
103505157
106889458
Bab 4 Pengujian dan Analisa
39
104735321
100408661
89175987
95431992
96601654
8489315
89637459
8630304
75320663
87866905
91001945
89607201
82408546
83440155
4241 Dengan Menggunakan TclTk dan Snack
Fast Fourier Transform Sinyal
Masukan
0
20
40
60
80
100
120
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 48 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat
lunak TclTk dan Snack
Dari gambar 48 di atas sinyal suara yang sebelumnya berada di domain waktu telah diubah ke domain
frekuensi Hasil Fast Fourier Transform sinyal masukan menunjukkan sebaran spektrum frekuensi dari
sinyal suara yang telah dihasilkan oleh pengucap antara 0 sampai 6000 Hz
Bab 4 Pengujian dan Analisa
40
4242 Dengan Menggunakan Wavesurver
Gambar 49 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat
Wavesurver
Dari gambar 49 di atas hasil Fast Fourier Transform sinyal masukan menunjukkan sebaran spektrum
frekuensi dari sinyal suara yang telah dihasilkan oleh pengucap antara 0 sampai 6000 Hz adalah sama
seperti pada gambar dengan gambar 48 yang diambil dengan perangkat lunak TclTk dan Snack
425 Autocorrelation Analysis
Pada proses ini sinyal masukan dalam domain waktu yang telah diwindow hamming dihitung korelasinya
dengan menggunakan orde analisi LPC sebesar 15 Sehingga akan didapatkan hasil rk(autokorelasi) sebagai
berikut
17648453
128874
0669745
0662566
0470262
0164336
-010638
-0229032
-016249
0014062
0138456
0188749
0117826
0014517
-0052704
426 LPC Analysis
Dari hasil autokorelasi tersebut di atas selanjutnya adalah LPC dimana mengkonversi masing-masing
frame dari autokorelasi p+1 ke dalam sebuah LPC Parameter a
Bab 4 Pengujian dan Analisa
41
Metode yang formal untuk mengkonversi dari koefisien autokorelasi ke sebuah LPC parameter (untuk
metode LPC autokorelasi) dikenal sebagai Metode Durbin dan secara formal hasilnya dapat ditunjukkan
sebagai berikut ini
1
-128874
0160681
-0156173
0166653
0255508
0192145
0003037
-0202248
-0265201
-0112133
005938
0232232
0203554
0048429
Dari hasil di atas terlihat bahwa untuk setiap frame nilai pertama menunjuukan energi dari masing-masing
frame dan selanjutnya adalah parameter LPC dalam satu frame yang digunakan sebagai penentu ciri dari
sinyal suara yang dihasilkan oleh individu
427 Fast Fourier Transform LPC Parameter
Pada proses ini nilai dari parameter LPC yang sebelumnya masih berada dalam domain waktu akan diubah
dalam domain frekuensi Pada proyek akhir ini parameter LPC dalam domain waktu akan diubah dalam
domain frekuensi dengan 256 titik Karena hasil yang diperolah berupa hasil dari fungsi konvolusi maka
hanya akan diambil 128 titik saja yang akan diolah dalam proses selanjutnya Sedangkan 128 sisanya tidak
dipergunakan karena berupa pencerminan saja
Hasil dari Fast Fourier Transform (FFT) dari parameter LPC pada penggalan kata ldquoempat matirdquo pada
milidetik ke-1 dalam bentuk teks adalah
103505157
106889458
104735321
100408661
89175987
Bab 4 Pengujian dan Analisa
42
95431992
96601654
8489315
89637459
8630304
75320663
87866905
91001945
89607201
82408546
4271 Dengan menggunakan TclTk dan Snack
Fast Fourier Transform Parameter
LPC
0
20
40
60
80
100
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 410 Fast Fourier Transform LPC dengan
menggunakan perangkat lunak TCLTk
dan Snack
Hasil gambar 410 menunjukkan bahwa parameter LPC yang di-Fourier Transform-kan akan menjadi
selubung spektrum dari spektrum sinyal masukan Sehingga jika selubung dan spektrumnya secara gambar
cocok dapat dikatakan bahwa LPC parameter yang dihitung benar
Bab 4 Pengujian dan Analisa
43
4272 Dengan menggunakan Wavesurver
Gambar 411 Fast Fourier Transform LPC denganmenggunakan perangkat lunak
Wavesurver
Hasil gambar 411 menunjukkan bahwa parameter LPC yang di-Fourier Transform-kan akan menjadi
selubung spektrum dari spektrum sinyal masukan adalah sama dengan yang telah diperoleh dengan
perangkat lunak TclTk seperti pada gambar 410
428 LPC Parameter to LPC Cepstrum
Koefisien LPC cepstrum koefisien yang direpresentasikan dengan Fourier Transform dengan spektrum
besaran log telah ditampilkan menjadi kumpulan fitur untuk pengenalan wicara yang lebih handal
terpercaya daripada koefisien LPC koefisien PARCOR atau koefisien log area ratio
Hasil dari LPC cepstrum pada penggalan kata ldquoempat matirdquo pada milidetik ke-106 dalam bentuk teks adalah
16636311
1387922
0474473
0654796
0429659
0132543
0225374
0126501
0021161
0242437
Bab 4 Pengujian dan Analisa
44
0160623
0065745
0139379
0056064
-0029262
Dari hasil di atas dapat dianalisa bahwa besaran-besaran dari LPC cepstrum benar-benar dapat
digunakan sebagai penentu ciri dari sinyal suara individu karena besaranndashbesaran yang dihasilkan oleh LPC
cepstrum dari yang pertama sampai yang terakhir dalam satu frame sangat bervariasi nilainya
429 Inverse Fast Fourier Transform LPC Cepstrum
Untuk menggambarkan ciri atau fitur wicara dalam domain waktu maka LPC cepstrum di-Invers Fast
Fourier Transform-kan sehingga didapatkan gambar untuk penggalan kata ldquosatu nyalardquo pada milidetik ke-
400 seperti gamabar 412
Fast Fourier Transform LPC
Cepstrum
0
20
40
60
80
100
120
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 412 Invers Fast Fourier Transform LPC cepstrum dengan menggunakan
perangkat lunak TCLTk dan Snack
Dari gambar 412 dapat dianalisa bahwa bentuk dari invers fourier transform LPC cepstrum yang
menyerupai selubung pada domain waktu dari spektrum frekuensi juga digunakan untuk menunjukkan
bahwa perhitungan LPC cepstrumnya telah benar dan dapat digunakan sebagai penentu ciri sinyal suara
individu
Invers Fast Fourier Transform LPC
Cepstrum
Bab 4 Pengujian dan Analisa
45
Gambar 413 Penggabungan spektrum sinyal spektrum LPC dan spektrum LPC
Cepstrum
Gambar 413 spektrum sinyal yang diwakili warna merah merupakan hasil sinyal yang telah di-Fast
Fourier Transform-kan Spektrum sinyal yang berwarna hijau merupakan parameter LPC yang telah di-
Fourier Transform-kan Sinyal ini akan menjadi selubung spektrum dari spektrum sinyal masukan Bila
selubung dan spektrumnya secara gambar cocok maka dapat dikatakan bahwa LPC parameter yang dihitung
adalah benar Dari gambar 413 dapat dilihat antara selubunga dan selubung sinyal masukan sudah cocok
Sinyal yang berwarna biru merupakan sinyal rata-rata dari sinyal selubung spektrum
4210 Dynamic Time Warping
Pengujian terakhir dari proses pengolahan sinyal wicara adalah membandingkan sinyal hasil cepstrum LPC
antara data input dan data standarnya Berdasarkan daerah pembatas kontinyuitas lokal dari persamaan 21
maka digunakan model yang pertama dan menggunakan persamaan 2116 dalam menghitung jarak antara
kata sebagai standar dan sebagai masukan
Selanjutnya menetukan data data sebagai data standar dan data sebagai data masukan Pada sistem ini
digunakan 8 kombinasi kata sebagai kata standar dan kata msukan untuk masing-masing pengujian dengan
kata standar sebanyak sepuluh (10) kali Adapun kata yang digunakan sebagai standar dan kata yang diuji
adalah meliputi satu nyalasatu matidua nyaladua matitiga nyalatiga matiempat nyalaempat
mati
Pada pengujian sistem kali ini masih menggunakan datasuara dari pebgucap yang sama Dari kelima data
standar yang ada dilakukan pembandingan dengan masing-masing 10 (sepuluh) kali pemasukan data Data
yang menghasilkan jarak euclidian terpendek dari masing-masing kata itulah yang akan diambil sebagai
data perintah terbaik
Bab 4 Pengujian dan Analisa
46
Pelekukan Jalur Suara
0
50
100
150
0 50 100 150
Sinyal Input empat mati
Sinyal Standart
empat mati
Gambar 414 Pelekukan Jalur Suara dengan Dynamic Time Warping
Dari gambar 414 dapat dianalisa bahwa dengan menggunakan dynamic time warping dua buah sinyal suara
akan dibandingkan vektor-vektor spektralnya dimana juga terdapat proses pembandingan panjang sinyal
antara dua buah sinyal tersebut sehingga terjadi proses pemadanan panjang sinyal dengan cara
memperpanjang dan menekuk vektor spektralnya Memperpanjang dalam arti memperpanjang sinyal yang
lebih pendek dengan memperhatikan perbandingan vektor spektralnya dan demikian pula menekuk dalam
arti menekuk sinyal yang lebih panjang dengan memperhatikan vektor spektralnya Dengan panjang yang
sama sebagai hasil dynamic time warping maka jarak euclidian antara dua sinyal dapat diperbandingkan
atau dihitung
4211 Min Value dan Sorting
Min Value dan Sorting menjadi satu paket sendiri yang digunakan untuk mencari kemungkinan hasil
terkecil dari pembandingan pola kata masukkan dengan kedelapan kata standart Keluaran dari fungsi
dynamic time warping akan memberikan delapan buah data yaitu hasil pembandingan kata masukan
dengan kata standart satu nyala hasil pembandingan kata masukan dengan kata standart satu mati hasil
pembandingan kata masukan dengan kata standart dua nyala hasil pembandingan kata masukan dengan
kata standart dua mati hasil pembandingan kata masukan dengan kata standart tiga nyala hasil
pembandingan kata masukan dengan kata standart tiga mati hasil pembandingan kata masukan dengan
kata standart empat nyala hasil pembandingan kata masukan dengan kata standart empat mati Dengan
metode sorting buble sort maka akan didapat nilai minimalnya
0748745
0362272
0633390
0327642
0600250
0346530
Bab 4 Pengujian dan Analisa
47
0545907
0207464
Berdasarkan data diatas maka perintah input sama dengan perintah kedelapan (ldquoempat matirdquo) karena
memiliki hasil time warping terkecil yaitu 0207464
4212 Hasil Pengujian Awal dan Akhir Sinyal
Pada proses penentuan awal dan akhir agar lebih presisi menggunakan ldquoPowerrdquo Adapun kelebihan dari
power adalah dapat membedakan antara sinyal suara dengan sinyal noise
Untuk menentukan awal dan akhir dicari nilai power Pada proses power kata yang telah disampel
sebanyak 240 sampel akan menghasilkan sinyal yang halus dan terletak di atas sumbu x Hasil dalam bentuk
teks adalah sebagai berikut ini
7678195313
1165659297
123492625
8917128906
6318766797
4531086719
4338374609
4912630469
5382503125
4548908984
429756875
4739710547
4575902734
4682924609
4786217578
Bab 4 Pengujian dan Analisa
48
Gambar hasil power bisa dilihat pada gambar 415 berikut
Power
0
100000
200000
300000
400000
500000
0 50 100 150
Jumlah Frame
Amplitude
Gambar 415 Sinyal ldquoempat matirdquo hasil program power
Gambar 416 berikut ini adalah hasil pengujian kata ldquoempat matirdquo sebagai masukan dan kata standar ldquoempat
matirdquo dimana kedua kata dibandingkan berdasarkan powernya sebelum proses Dinamic Time Warping
Sinyal warna biru sebagai power sinyal standart dan sinyal yang berwarna merah merupakan power sinyal
input
Perbandingan Dua Kata empat mati
sebelum DTW
0
100000
200000
300000
400000
500000
0 50 100 150
Jumlah Frame
Amplitude
Gambar 416 Perbandingan power dua kata ldquoempat matirdquo sebelum Dynamic Time Warping
Berikut ini adalah hasil pengujian dua buah kata ldquoempat matirdquo dengan menggunakan dynamic time warping
dimana jalur pelekukan suara dapat digambarkan pada gambar 417
Bab 4 Pengujian dan Analisa
49
Pelekukan Jalur Suara
0
50
100
150
0 50 100 150
Sinyal Input empat mati
Sinyal Standart
empat mati
Gambar 417 Pelekukan jalur suara dua kata ldquoempat matirdquo dengan DTW
Gambar 418 adalah hasil pengujian dua buah kata ldquoempat matirdquo sebagai masukan dan dan kata standar
ldquoempat matirdquo dimana kedua kata dibandingkan berdasarkan powernya setelah proses dynamic time
warping
Gambar 418 dapat dibandingkan dengan gambar 416 yaitu sinyal sebelum proses Dynamic Time Warping
Sebelum proses Dynamic Time Warping sinyal tidak mengalami proses penekukan dan penarikan data
berdasarkan waktu antara keduanya sehingga antara sinyal input dan sinyal standart memiliki ukuran
panjang yang sangat jauh berbeda
Pemadanan Dua Kata Setelah DTW
0
100000
200000
300000
400000
500000
0 100 200 300
Jumlah Frame
Amplitude Power
Gambar 418 Perbandingan power dua kata ldquoempat matirdquo setelah Dynamic Time Warping
Dari gambar 418 dapat dinyatakan bahwa setelah melalui proses dynamic time warping terjadi penekukan
dan penarikan data berdasarkan waktu antara keduanya sehingga pada akhirnya kedua sinyal memiliki
ukuran panjang yang sama Sehingga dengan demikian dapat dicari jarak euclidian untuk menentukan
sebuah kata yang sesuai dengan kata yang lainnya
Bab 4 Pengujian dan Analisa
50
4213 Hasil Pengujian Sistem Perangkat Lunak
Pada pengujian sistem perangkat lunak diambil sampel data dari 3 orang dimana terdiri dari 3 orang pria
dan 1 orang wanita Pria pertama merupakan standar sekaligus pengisi suara untuk perintah Sedangkan pria
kedua dan wanita sebagai pembanding untuk mengetahui unjuk kerja sistem
Tabel 41 Hasil pengujian sistem pengolahan sinyal wicara untuk pengucap yang sama (pria
1)
8 7 6 5 4 3 2 1 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05417
03487
05964
03443
07272
04424
03449
01
961
Satu
nyala
Sinyal Standart
02496
04723
03013
05120
03450
03815
01
739
03471
Satu
mati
04389
02035
06139
03244
04343
02
158
04567
04047
Dua
nyala
01866
04517
04157
05267
01
940
02561
02036
04779
Dua
mati
04833
02168
03984
01
090
06409
04278
05019
02690
Tiga
nyala
02683
04628
01
188
03416
04046
03345
02959
04614
Tiga
mati
03807
01
046
05271
01974
05934
03134
04363
02554
Empat
nyala
01
388
03728
02269
04497
02559
03195
02476
04874
Empat
mati
Bab 4 Pengujian dan Analisa
51
16
15
14
13
12
11
10
9 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05776
02988
05100
04019
06101
05338
04219
02
047
Satu
nyala
Sinyal Standart
03382
04381
02427
05124
02642
05990
02
706
03335
Satu
mati
04453
02558
04993
04574
03381
02
344
04529
04121
Dua
nyala
01669
04532
03190
06355
01
004
04807
03466
04622
Dua
mati
05209
02261
03366
01
124
05377
04165
05369
02660
Tiga
nyala
03721
04074
00
891
03002
02637
05958
02719
04333
Tiga
mati
03889
01
755
04365
02341
04826
03150
05193
02472
Empat
nyala
01
092
03974
01802
04848
01455
05343
02717
04536
Empat
mati
Bab 4 Pengujian dan Analisa
52
24
23
22
21
20
19
18
17 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05157
04015
06277
02964
05609
04690
03376
01
369
Satu
nyala
Sinyal Standart
01787
05144
03814
04134
04952
04843
01
636
03404
Satu
mati
03988
03026
07420
03020
03977
01
905
04801
03610
Dua
nyala
01630
05662
06259
05009
01
808
03357
02206
05094
Dua
mati
04667
02681
05731
01
448
05575
03280
05344
03417
Tiga
nyala
01902
05055
03
395
02597
04700
04618
02951
04808
Tiga
mati
03809
01
863
06920
02154
04252
02455
04616
03184
Empat
nyala
00
761
04379
04288
04053
03629
04122
02419
05622
Empat
mati
Bab 4 Pengujian dan Analisa
53
32
31
30
29
28
27
26
25 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
04793
03554
06312
03247
06514
03585
03068
02
935
Satu
nyala
Sinyal Standart
01671
04661
03012
03961
02834
04667
01
079
05475
Satu
mati
04033
02359
05307
02587
03475
01
587
04781
04010
Dua
nyala
02222
04949
03652
04387
00
958
03222
02647
04966
Dua
mati
04499
02207
04170
01
873
05884
02500
05631
03257
Tiga
nyala
01791
04432
01
196
02646
02999
04619
02558
05048
Tiga
mati
03561
01
050
05061
02437
04927
01887
05325
03424
Empat
nyala
00
858
03774
02052
03974
01440
04186
02597
05381
Empat
mati
Bab 4 Pengujian dan Analisa
54
40
39
38
37
36
35
34
33 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
06471
03838
05816
03364
06492
03613
03496
01
111
Satu
nyala
Sinyal Standart
02951
05556
02631
04558
05057
04799
01
683
02958
Satu
mati
05259
02977
05228
03305
04614
00
878
05159
02707
Dua
nyala
03165
05686
03078
05512
01
088
03082
03482
04823
Dua
mati
05397
02037
03714
00
949
06365
02818
05998
02829
Tiga
nyala
02990
04867
00
921
02759
04978
04752
03131
04533
Tiga
mati
05028
01
233
05114
02070
05154
01825
05439
01975
Empat
nyala
01
914
04521
01834
04248
02711
04164
03149
04755
Empat
mati
Bab 4 Pengujian dan Analisa
55
48
47
46
45
44
43
42
41 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
07997
03701
06005
03992
05800
05223
03706
01
198
Satu
nyala
Sinyal Standart
03909
04978
02572
05339
05784
05103
01
161
03113
Satu
mati
06284
02355
05419
04194
03709
02
588
04764
02834
Dua
nyala
03737
04883
03321
06131
03
489
04229
03188
04962
Dua
mati
05885
02259
04026
00
918
06123
03601
05739
0 2867
Tiga
nyala
03583
04464
00
974
03340
05828
05114
02720
04269
Tiga
mati
05762
01
230
7
05459
02231
04899
03397
05114
0 2395
Empat
nyala
02
247
02888
01948
04994
04987
04505
02141
0 4956
Empat
mati
Bab 4 Pengujian dan Analisa
56
56
55
54
53
52
51
50
49 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05627
03923
06226
04018
05254
04895
02933
02
009
Satu
nyala
Sinyal Standart
02473
04947
02892
05661
05301
05040
01
289
03008
Satu
mati
04393
02779
06046
04425
02900
01
743
04571
02669
Dua
nyala
02222
05352
04171
06748
01
202
03736
03177
03699
Dua
mati
04644
02488
03523
00
835
05391
03319
05277
03671
Tiga
nyala
02213
04345
01
009
03758
02869
05933
02761
03900
Tiga
mati
04093
01
443
05080
05083
04959
02819
04840
02709
Empat
nyala
01
239
04029
0 2223
05428
01263
04236
02575
04141
Empat
mati
Bab 4 Pengujian dan Analisa
57
64
63
62
61
60
59
58
57 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
07489
03792
05134
04199
06459
04019
03044
01
850
Satu
nyala
Sinyal Standart
03586
04783
02186
05509
02884
04251
01
198
03243
Satu
mati
05697
02612
04576
04268
03211
01
519
04639
03845
Dua
nyala
03563
05288
02855
06752
01
074
03523
03265
04523
Dua
mati
05768
02262
03884
01
048
06348
02633
05784
02683
Tiga
nyala
03449
04859
01
009
03177
03425
04355
02975
04077
Tiga
mati
05693
01
445
04574
02498
05298
01999
05622
02359
Empat
nyala
02
236
04215
01468
05161
01827
03851
03161
04416
Empat
mati
Bab 4 Pengujian dan Analisa
58
72
71
70
69
68
67
66
65 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05439
02975
05593
03689
05796
03415
03416
01
492
Satu
nyala
Sinyal Standart
02225
04543
04586
04584
02669
04529
01
112
02881
Satu
mati
04025
02639
06303
03009
02582
01
003
05045
02767
Dua
nyala
01734
05437
04847
04897
00
826
02892
02584
04797
Dua
mati
04671
02336
04988
01
206
05595
02572
05647
02991
Tiga
nyala
02095
04805
04
025
02747
02848
04359
02773
04076
Tiga
mati
03971
01
297
05065
02121
04489
01703
05074
02131
Empat
nyala
00
901
04123
04026
04154
01514
03762
02328
04561
Empat
mati
Bab 4 Pengujian dan Analisa
59
80
79
78
77
76
75
74
73 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
07997
03054
06228
04446
05805
04687
03173
03
391
Satu
nyala
Sinyal Standart
05051
04619
05619
05749
02631
04447
01
086
05310
Satu
mati
05949
03685
05899
05607
03163
01
874
05234
03797
Dua
nyala
03109
05053
05258
07102
01
095
03368
03585
04539
Dua
mati
06473
02004
04524
01
350
05525
03084
05608
03682
Tiga
nyala
04759
04205
04
309
03701
03031
04660
02678
05243
Tiga
mati
05572
02
003
05167
02702
04478
02552
05358
03563
Empat
nyala
02
459
04960
04964
05734
01641
03971
02630
05029
Empat
mati
Pengujian pertama ini dilakukan dengan cara memasukkan suara pria pertama (yang digunakan sebagai
pengisi suara standart) Setiap satu perintah dilakukan sebanyak 10 kali pengujian Hasil pengujian
merupakan nilai dari hasil proses Dynamic Time Warping yang merupakan nilai dari pemadanan sinyal
input dengan kedelapan sinyal standart Nilai terkecil (nilai yang tercetak tebal) yang didapatkan merupakan
hasil yang paling mendekati sinyal standart Yang berarti sinyal masukan tersebut dianggap paling sesuai
dengan sinyal standart
Prosentase keberhasilan pengucapspeaker pertama untuk kedelapan perintah sebesar 100 semuanya
menunjukkan kepada sinyal masukkan dan sinyal standart yang sama
Hasil pengujian menunjukkan bahwa ciri sinyal suara yang dihasilkan oleh pengucap speaker pertama dan
sebagai pemberi standart adalah sama
Bab 4 Pengujian dan Analisa
60
Tabel 42 Hasil pengujian sistem pengolahan sinyal wicara untuk pengucap yang lain (pria
2)
8 7 6 5 4 3 2 1 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
06023
05121
07146
04599
04996
04561
07575
04
358
Satu
nyala
Sinyal Standart
04018
05701
06369
06256
03518
05738
07004
08129
Satu
mati
07120
03925
07395
04897
05938
02246
10082
06777
Dua
nyala
04963
05958
05189
07345
03449
04854
08816
08543
Dua
mati
05919
04337
05163
02
130
04797
03463
08871
05289
Tiga
nyala
03709
04519
04380
03601
03491
05239
06
046
07381
Tiga
mati
06087
03
161
06178
03280
05
068
02
439
08853
05354
Empat
nyala
03
409
04321
04
208
05569
03219
04898
06863
08596
Empat
mati
Bab 4 Pengujian dan Analisa
61
16
15
14
13
12
11
10
9 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05475
03932
05521
04
383
05634
05416
04
464
03
434
Satu
nyala
Sinyal Standart
04076
05731
04541
05681
03574
04920
03971
06662
Satu
mati
07427
04886
07924
05962
05824
02
712
07837
05504
Dua
nyala
04475
06666
05765
07616
03414
04203
05431
06334
Dua
mati
05357
03797
05099
04509
04902
04332
07097
05220
Tiga
nyala
04197
05134
04
209
05088
03169
04547
04464
06516
Tiga
mati
05936
03
769
05910
05109
05
311
03435
07646
04977
Empat
nyala
03
576
05767
04591
06367
03010
04129
04944
06850
Empat
mati
Bab 4 Pengujian dan Analisa
62
24
23
22
21
20
19
18
17 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
06927
04
279
08096
04
448
06461
05522
03935
02
444
Satu
nyala
Sinyal Standart
06409
05322
05528
05481
04912
04491
02
011
05508
Satu
mati
06134
04643
08962
06002
04868
02
579
06122
05502
Dua
nyala
04753
06443
05501
07364
02
298
03206
04239
06684
Dua
mati
05709
04928
05456
04961
06142
05726
06454
03831
Tiga
nyala
05798
04882
03
235
04708
04838
04317
03526
05462
Tiga
mati
05021
04423
06842
05583
05222
04132
06363
04235
Empat
nyala
04
457
05427
03546
05773
02946
03573
03618
07019
Empat
mati
Bab 4 Pengujian dan Analisa
63
32
31
30
29
28
27
26
25 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05260
04224
07393
04661
06292
04993
03989
03
549
Satu
nyala
Sinyal Standart
04478
04669
04568
05977
03523
04046
03
438
04819
Satu
mati
06448
04308
08152
06114
04665
02
444
07609
05162
Dua
nyala
04024
05867
05103
07873
01
872
02613
04489
06765
Dua
mati
05363
04
672
05250
04
529
05210
05103
06546
04794
Tiga
nyala
04422
04039
02
482
05102
03499
03985
03969
04371
Tiga
mati
05492
04073
06626
05239
04902
03553
06869
04794
Empat
nyala
03
326
04543
03153
06510
02133
03419
04175
05287
Empat
mati
Hasil pengujian yang kedua ini dilakukan dengan cara memasukkan suara dari pria kedua (pria lain yang
tidak digunakan sebagai suara standart) Setiap satu perintah dilakukan empat (4) kali proses pengujian
Hasil pengujian merupakan nilai dari hasil proses Dynamic Time Warping yang merupakan nilai dari
pemadanan sinyal input dengan kedelapan sinyal standart Nilai terkecil (nilai yang tercetak tebal) yang
didapatkan merupakan hasil yang paling mendekati sinyal standart Yang berarti sinyal masukan tersebut
dianggap paling sesuai dengan sinyal standart
Prosentase keberhasilan pengucapspeaker kedua untuk kedelapan perintah bervariasi sebesar 50
sampai dengan 100 semuanya menunjukkan kepada sinyal masukkan dan sinyal standart yang berbeda
Hasil pengujian menunjukkan bahwa ciri sinyal suara yang dihasilkan oleh pengucap speaker kedua dan
sebagai pemberi standart adalah mendekati sama
Bab 4 Pengujian dan Analisa
64
Tabel 43 Hasil pengujian sistem pengolahan sinyal wicara untuk pengucap yang sama (pria)
No Perintah Lampu DTMF
1 1 nyala B B
2 1 mati B G
3 2 nyala B G
4 2 mati G X
5 3 nyala G X
6 3 mati G X
7 4 nyala B B
8 4 mati B B
9 1 nyala B G
10 1 mati B B
11 2 nyala B G
12 2 mati B B
13 3 nyala B G
14 3 mati B B
15 4 nyala B G
16 4 mati B B
17 1 nyala B G
18 1 mati B B
19 2 nyala G X
20 2 mati G X
21 3 nyala B B
22 3 mati B B
23 4 nyala B B
24 4 mati G X
No Perintah Lampu DTMF
25 1 nyala B G
26 1 mati G X
27 2 nyala G X
28 2 mati B G
29 3 nyala B G
30 3 mati B G
31 4 nyala B G
32 4 mati G X
B Berhasil
G Gagal
X Donrsquot Care (Diabaikan)
Pengujian yang ketiga ini dilakukan oleh pria pertama (pria yang suaranya digunakan sebagai standart)
Masing-masing perintah dilakukan sebanyak empat kali pengujian
Bab 4 Pengujian dan Analisa
65
Pada kolom ketiga (kolom lampu) tanda B (berhasil) menunjukkan bahwa perintah yang diberikan pada
hardware berhasil dilakukan Tanda G (gagal) menunjukkan bahwa perintah yang diberikan pada hardware
gagal dilakukan(hasil tidak sesuai dengan perintah yang diberikan)
Pada kolom keempat (kolom DTMF) menunjukkan laporan dari hardware ke PC server tentang
bagaimana keadaan lampu yang sedang dikontrol apakah dalam keadaan menyala atau mati Pada kolom ini
tanda B (berhasil) menunjukkan bahwa laporan dari hardware ke PC server (yang merupakan proses
otomatisasi) berhasil dilakukan Tanda G (gagal) menunjukkan bahwa laporan ke PC client gagal dilakukan
Sedangkan tanda X (donrsquot care) menunjukkan bahwa perintah diabaikan Hal ini disebabkan perintah pada
hardware (perintah sebelumnya sebelum proses otomatisasi) sudah gagal dilakukan
Prosentase keberhasilan pengucapspeaker pertama untuk kedelapan perintah bervariasi antara 50
sampai 100 semuanya menunjukkan kepada sinyal masukkan dan sinyal standart yang berbeda
Hasil pengujian kedua ini menunjukkan bahwa ciri sinyal suara yang dihasilkan oleh pengucapspeaker
kedua ini yang merupakan suara orang lain (bukan pemberi standart) adalah mendekati sama dengan hasil
yang bervariasi antara 50 sampai 100
43 Pengujian Sistem Client Server
Pada sub bab ini akan diujikan program Client Server yang akan mengirimkan sinyal hasil pengolahan
suara
Tampilan pada client adalah seperti gambar 421 yang merupakan tampilan awal pada saat program
dimulai
Gambar 421 Proses pada client
Bab 4 Pengujian dan Analisa
66
Gambar 422 Proses pada server
1 Sebelumnya program server harus disiapkan lebih dulu
2 Setelah itu client dijalankan
3 Setelah client siap user memasukkan suara yang selanjutnya akan diolah sampai proses DTW
4 Server menerima data yang selanjutnya digunakan untuk melakukan kontrol alat rumah tangga
44 Analisa Pengujian Sistem Secara Keseluruhan
Berdasarkan data-data yang telah didapatkan di atas maka dapat ditarik suatu analisa bahwa
Berdasarkan tabel 44 untuk pengujian pertama pria 1 adalah pria yang suaranya digunakan sebagai standart
Prosentase keberhasilan rata-rata yang didapat untuk semua perintah adalah sebesar 100 Hal ini menunjukkan
bahwa suara yang diujikan adalah suara yang sama dengan standart dan pria 1 tersebut pernah berinteraksi
dengan sistem
Pengujian yang kedua adalah pengujian yang dilakukan oleh pria 2 (pria lain yang suaranya tidak
dipakai sebagai standart) Prosentase keberhasilan rata-rata yang didapat untuk semua perintah 7188 Karena
sistem bersifat dependent speaker dimana sistem hanya digunakan oleh orang tertentu dalam arti yang pernah
berinteraksi langsung dengan sistem Oleh karenanya didapat nilai prosentase keberhasilan yang bervariasi
Bab 4 Pengujian dan Analisa
67
Tabel 44 Tingkat keberhasilan sistem perangkat lunak
NNO
PENGUCAP
PERINTAH
BANYAK
PERCOBAAN
PROSENTASE
KEBERHASILAN
1 Pria 1 1 nyala 8 kali 100
2 1 mati 8 kali 100
3 2 nyala 8 kali 100
4 2 mati 8 kali 100
5 3 nyala 8 kali 100
6 3 mati 8 kali 100
7 4 nyala 8 kali 100
8 4 mati 8 kali 100
RATA-RATA 100
9 Pria 2 1 nyala 4 kali 100
10 1 mati 4 kali 75
11 2 nyala 4 kali 75
12 2 mati 4 kali 50
13 3 nyala 4 kali 50
14 3 mati 4 kali 75
15 4 nyala 4 kali 50
16 4 mati 4 kali 100
RATA-RATA 7188
Jika diurutkan proses pengolahan wicara dari awal sampai diambil keputusan suara yang dimasukkan
tersebut adalah suara yang sesuai atau tidak adalah sebagai berikut
Bab 4 Pengujian dan Analisa
68
Gambar 423 Tampilan awal perangkat lunak menggunakan TclTk dan Snack
Gambar 423 adalah tampilan awal dari perangkat lunak yang dibangun dengan menggunakan TclTk dan
Snack
Gambar 424 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan dengan
menggunakan perangkat lunak Wavesurver
Gambar 424 adalah tampilan awal dari program Wavesurver yang merupakan pembanding dari program
yang dibuat dari perangkat lunak TclTk dan Snack
Bab 4 Pengujian dan Analisa
69
Gambar 425 Tampilan awal perangkat lunak
menggunakan TclTk dan Snack
Gambar 425 adalah tampilan ketika proses pengambilan sinyal suara sedang dilakukan dengan perangkat
lunak TclTk dan Snack
Gambar 426 Tampilan hasil perekaman kata ldquoempat
matirdquo dengan menggunakan perangkat lunak Wavesurver
Gambar 426 adalah tampilan ketika proses pengambilan sinyal suara sedang dilakukan dengan perangkat
lunak Wavesurver
Bab 4 Pengujian dan Analisa
70
Data Sampling
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 427 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900 menggunakan TclTk dan
Snack
Pada gambar 427 dilakukan proses sampling sinyal masukan dengan frekuensi sampling sebesar 12000
Hz maka didapatkan hasil sinyal yang hampir mirip dengan sinyal analognya yang dilakukan dengan
perangkat lunak TclTk dan Snack
Gambar 428 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900 dengan menggunakan
perangkat Wavesurver
Pada gambar 428 dilakukan proses sampling sinyal masukan dengan frekuensi sampling sebesar 12000
Hz yang dilakukan dengan perangkat lunak Wavesurver
Data Windowing
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 429 Hasil Windowing data sampel
kata ldquoempat matirdquo milidetik ke-13900 menggunakan TclTk dan Snack
Bab 4 Pengujian dan Analisa
71
Proses windowing terdapat pada gambar 429 dilakukan untuk membuat sinyal yang disampel lebih
halus Proses windowing ini dilakukan dengan menggunakan perangkat lunak TclTk dan Snack
Proses windowing pada Wavesurver merupakan fasilitas yang tergabung dengan proses lainnya Misal
dengan proses Fast Fourier Transform Jadi disini tidak ditampilkan hanya sebagai proses windowing saja
tetapi digabungkan dengan proses lain
Fast Fourier Transform Sinyal
Masukan
0
20
40
60
80
100
120
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 430 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat
lunak TclTk dan Snack
Gambar 430 di atas adalah proses Fast Fourier sinyal masukan dengan perangkat lunak TclTk dan Snack
Hasil Fast Fourier Transform sinyal masukan menunjukkan sebaran spektrum frekuensi dari sinyal suara
yang telah dihasilkan oleh pengucap
Sebagai pembanding adalah proses Fast Fourier sinyal masukan yang diambil dengan Wavesurver seperti
pada gambar 431 Yang didapatkan hasil yang sama
Gambar 431 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat Wavesurver
Bab 4 Pengujian dan Analisa
72
Fast Fourier Transform Parameter
LPC
0
20
40
60
80
100
0 2000 4000 6000 8000
Frekuensi (Hz)10 x log
10(magnitude)(dB)
Gambar 432 Fast Fourier Transform LPC dengan menggunakan perangkat lunak TCLTk
dan Snack
Hasil gambar 432 menunjukkan proses Fast Fourier Transform LPC yang dilakukan dengan perangkat
lunak TclTk dan Snack
Gambar 433 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat Wavesurver
Proses Fast Fourier Transform yang dilakukan dengan Wavesurver dapat dilihat pada gambar 433
Pelekukan Jalur Suara
0
50
100
150
0 50 100 150
Sinyal Input empat mati
Sinyal Standart
empat mati
Gambar 434 Pelekukan Jalur Suara dengan Dynamic Time Warping
Bab 4 Pengujian dan Analisa
73
Dari gambar 434 dapat dianalisa bahwa dengan menggunakan dynamic time warping terdapat proses
pembandingan panjang sinyal antara dua buah sinyal input dan sinyal standart sehingga terjadi proses
pemadanan panjang sinyal dengan cara memperpanjang dan menekuk vektor spektralnya
74
BAB 5
PENUTUP
51 Kesimpulan
Dari hasil yang didapatkan maka dapat diambil kesimpulan bahwa
Sistem pengucap tak bebas atau speaker dependent system memiliki tingkat akurasi yang tinggi untuk
pengucap masukan dan pengucap standar yang sama Hal ini dibuktikan dengan hasil pengujian pertama
yang dilakukan oleh pria pertama Pria pertama ini adalah pria yang suaranya digunakan sebagai standar
Nilai prosentase keberhasilan rata-rata untuk semua perintah adalah sebesar 100 dari setiap perintah
dilakukan 8 kali percobaan
Sedangkan pengujian yang dilakukan oleh suara lain (bukan standart) prosentatase keberhasilan
rata-rata yang diperoleh untuk semua perintah 7188 dari setiap perintah dilakukan 4 kali percobaan Hal
ini disebabkan karena suara pria kedua tidak pernah berinteraksi dengan sistem
Keberhasilan sistem ditunjukkan oleh ketepatan penyalaan lampu sesuai dengan yang diperintahkan
melalui perintah suara
Kecepatan sistem secara keseluruhan diperlihatkan dalam tabel 51 dibawah
Tabel 51 Kecepatan sistem keseluruhan
No
Perintah
Waktu (detik)
1 2 3 4 Rata-rata
1 Satu Nyala 11 99 12 25 16 89 14 05 13 80
2 Satu Mati 12 51 13 28 14 83 12 25 13 22
3 Dua Nyala 10 70 11 73 11 99 12 25 11 67
4 Dua Mati 10 44 11 21 11 21 11 47 11 08
5 Tiga Nyala 10 96 12 25 13 54 12 51 12 32
6 Tiga Mati 10 70 11 99 11 99 13 28 11 99
7 Empat Nyala 11 73 11 99 13 02 12 24 12 25
8 Empat Mati 10 70 09 93 11 21 10 70 10 64
Rata-rata 12 12
Dari data yang diperoleh didapatkan kecepatan rata-rata untuk tiap perintah yang diberikan sampai
dengan terlaksananya eksekusi dari perintah adalah 12 12 detik
52 Saran
Pada penelitian ini masih sangat banyak hal yang dapat dilakukan untuk perbaikan-perbaikan dimasa
selanjutnya Saran dan usulan yang dapat dipertimbangkan untuk pengembangan sistem lebih lanjut adalah
antara lain
1 Sistem tidak lagi bersifat dependent speaker tetapi bersifat independent speaker dimana banyak
orang yang memberi perintah dan sistem dengan tepat memberikan respon
2 Sistem dapat mengatasi tingkat noise yang tinggi baik yang disebabkan oleh lingkungan atau oleh
hardware (sound card)
75
3 Otomatisasi sistem Artinya perintah tidak perlu lagi diberikan lewat penekanan tombol yang
dilakukan melalui mouse
4 Respon sistem yang real time
5 Sistem yang dapat dengan mudah beradaptasi dengan jenis sound card yang bervariasi
DAFTAR PUSTAKA
Anggraeni Triana Dewi Astutik Debi Puji Pengenalan Wicara Dengan Penutur Tak Bebas
Tugas Akhir PENS ITS 2003
Wahyudi Agus Verifikasi Sinyal Suara Sebagai Kendali Arah TA PENS-ITS 2002
Dewantara Bima Sena Bayu Aplikasi Pengenalan Wicara Untuk Perintah NirkabelRobot Mikro
Mouse Tugas Akhir PENS ITS 2004
Dutono Titon Penataran Kebahasaan Tahap I Fonetik Dan Fonologi ndashPengolahan Sinyal
Wicara Digital 20 Februari 2001
Gabel Robert A Richard A Robert Sinyal dan Sistem LinierErlangga 1996
Rabiner Lawrence Huang Juang Biing Fundamentals of Speech Recognition Prentice Hall
International Inc1993
Proakis John G Malonakis Dimitris G Digital Signal Processing Principles Algorithms and
Applications Prentice Hall Inc New Jersey 1995
Scolander Kare Snack Sound Toolkit
httpwwwtcltkmantcl85tutorialTcl11html
httpwikitcltk4074
httpwwwinveceorgtclwisefrontcoverhtml
httpwwwspeechkthsesnackmansnack22tcl-manhtml
httpwwwspeechkthsesnacktutorialhtml
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13]
Bab 1 Pendahuluan
2
5 Perintah kata yang diberikan dibatasi untuk keperluan tone dekoder saja dengan dua perintah secara
langsung Semua kata diucapkan secara wajar dengan kecepatan normal
6 Keberhasilan penelitian ini dapat dilihat dari keberhasilan ketepatan perintah yang dihasilkan oleh sistem
dengan perintah yang diberikan
7 Jaringan komunikasi masih dilaksanakan untuk local area dari PC ke PC
14 SISTEMATIKA PEMBAHASAN
Sistematika pembahasan penelitian ini sebagai berikut
BAB I PENDAHULUAN
Pada bab ini akan diuraikan tentang latar belakang tujuan batasan masalah dan sistematika
pembahasan masalah yang digunakan
BAB II TEORI DASAR
Pada bab ini akan diuraikan tentang landasan-landasan teori yang digunakan
BAB III PERENCANAAN DAN PELAKSANAAN
Pada bab ini akan diuraikan tentang tahap-tahap perencanaan dan proses pembuatan keseluruhan sistem
yang mendukung untuk membangun sistem pengenalan wicara untuk sistem pengendalian dan monitoring
peralatan rumah tangga jarak jauh
BAB IV PENGUJIAN DAN ANALISIS
Pada bab ini akan dijelaskan tentang hasil pengujian sistem yang telah dibangun baik secara perbagian
ataupun keseluruhan serta analisis terhadap hasil pengujian sistem untuk mengetahui apakah sistem yang
dibangun sesuai dengan yang diharapkan
BAB V KESIMPULAN DAN SARAN
Pada bab ini berisi kesimpulan dari pembahasan pada perencanaan serta analisa pengujian yang
diperolehUntuk lebih baiknya sistem yang dibangun maka disertakan pula saran-saran untuk perbaikan dan
penyempurnaan
Bab 2 Teori Penunjang
3
BAB 2
TEORI PENUNJANG
21 Sistem Pengolahan Sinyal Wicara
211 Sinyal Suara Manusia
Manusia menggunakan suara sebagai sumber informasi untuk mengkomunikasikan keinginan ide dan
perasaannya kepada orang lain Organ tubuh manusia yang digunakan dalam proses produksi wicara adalah
paru-paru tenggorokan(trachea) laring faring rongga hidung(nasal cavity) dan rongga mulut(oral cavity)
Pembangkitan sinyal wicara terletak pada bentuk lintasan vokalnya(vocal tract) Lintasan vokal tersebut terdiri
atas di bawah katup tenggorokan (laryngeal pharynx) antara langit-langit lunak katup tenggorokan (oral
pharynx ) di atas velum dan di ujung depan rongga hidung (nasal pharynx) dan rongga hidung (nasal cavity)1
seperti ditunjukkan gambar 21
Gambar 21 Skema diagram organ penghasil sinyal
Wicara2
Model generator wicara atau model sintesa suara yang dipakai dan menjadi dasar dari pemrosesan
sinyal wicara hingga dewasa ini adalah apa yang dinamakan Analog Terminal seperti pada gambar 22
1 Dewantara Bima Sena Bayu Aplikasi Pengenalan Wicara Untuk Perintah Nirkabel Robot Mikro Mouse TA PENS ITS 2004 hal 5 2 Dutono Titon Penataran Kebahasaan Tahap I Fonetik dan Fonologi Pengolahan Sinyal Wicara Digital 20 Februari 2001
Bab 2 Teori Penunjang
4
Gambar 22 Struktur umum model generator wicara3
Pada model ini sinyal eksitasi(glotal wave) yang berasal dari getaran pita suara diumpankan ke suatu
filter yang merupakan suatu model pendekatan dari lintasan vokal (vocal tract) untuk menghasilkan sinyal
wicara Model analog terminal ini disebut juga pensintesa formant Dasar pendekatan model ini adalah bahwa
lintasan suara adalah suatu bumbung akustik (acoustical cavity) yang mempunyai karakteristik berdasarkan
perpaduan beberapa frekuensi resonansinya Dengan demikian fungsi transfernya dapat didekati dengan
pendekatan kombinasi riam (cascade combination) dari beberapa rangkaian resonansinya Dengan analogi yang
sama sistem ini dapat dibangun dari beberapa rangkaian resonansi yang mempunyai parameter lebar bidang dan
frekuensi resonansi yang selalu berubah setiap saat membentuk suatu sistem berubah waktu (time variant
system)
Struktur sistem pengenal wicara yang ada dapat dibagi menjadi 2 yaitu
1) Mempergunakan pola standart dengan unit kata
Gambar 23 Pola standart dengan unit kata4
2) mempergunakan pola standart dengan unit fonem
yang dilengkapi dengan kamus kosa kata
3 Ibid 4 Ibid
Ekstraksi ciri
Pola standar kata
Pemadanan kata
Algoritma keputusan
Sinyal wicara Output teks
Bab 2 Teori Penunjang
5
Gambar 24 Pola standart dengan unit fonem5
Pada sistem pertama mampu mencakup fenomena koartikulasi tapi tidak fleksibel terhadap perubahan
kosa kata
Sinyal wicara adalah sinyal yang dihasilkan oleh suara manusia dan biasanya mempunyai frekuensi
kerja antara 0 sampai dengan 5000 Hz Bentuk gelombang sinyal wicara mempunyai bentuk yang unik seperti
gambar 23
Gambar 25 a)Sinyal wicara untuk bunyi a pada satu frame pada wanita
b)Sinyal wicara untuk bunyi a pada satu frame pada pria
Berdasarkan gambar 25 terlihat bahwa setiap satu frame terdapat 120 sample yang bersifat quasi
periodik dan mempunyai unsur bunyi terkecil yang disebut sebagai pitch Panjang pitch berkisar 10 ms Pitch
manusia berbeda satu sama lain terutama jenis kelamin laki-laki dan perempuan
212 Sampling
Sinyal wicara merupakan sinyal yang tidak terbatas dalam domain waktu (finite time interval) Suara
manusia akan menghasilkan sinyal analog yang terus kontinyu Untuk keperluan pemrosesan dalam transformasi
fourier maka sinyal wicara harus dibentuk dalam potongan-potongan waktu yang terbatas (infinite time interval)
Karena itu sinyal yang ada dipotong-potong dalam slot-slot interval waktu tertentu
Berdasarkan pada teori sampling Niquist maka syarat dari frekuensi sampling adalah minimal dua kali
frekuensi sinyal
Fsampling 2 x Fsignal ( 21)
Ekstraksi ciri
Pola standar fonem
Pemadanan fonem
Kamus kosa kata
Pemadanan kata
Algoritma keputusan
Sinyal wicara
-20000
-15000
-10000
-5000
0
5000
10000
15000
0 20 40 60 80 100 120 140
pitch -10000
-8000
-6000
-4000
-2000
0
2000
4000
6000
8000
0 20 40 60 80 100 120 140
pitch
Output teks
Bab 2 Teori Penunjang
6
Contoh dari sampling seperti bisa kita lihat pada gambar di bawah
Gambar 26 Contoh proses sampling dengan nilai frekuensi pencuplikan yang berbeda
6
Frekuensi sampling yang digunakan adalah 12000 Hz
Dimana dalam 1 detik sinyal terdapat 12000 titik sampling
213 Preemphasis
Proses preemphasis dimaksudkan agar spektrum sinyal merata di semua frekuensi serta mencegah
kehilangan informasi akibat proses pembulatan pada saat komputasi Fungsi preemphasis adalah
H (z) = 1 ndash az-1 09 le a le 1 (22)
dimana nilai a berkisar 095 Berdasarkan model filter di atas maka keluaran dari preemphasis adalah
s (n) = s (n) - as (n-1) ( 23)
Penjabarannya sebagai berikut
5 Ibid 6 Ibid
Fi = 1000 Hz
Fs = 1250 Hz
Fs = 1000 Hz
Fs = 4000 Hz
Fs = 8000 Hz
Fs 2Fi
Kriteria Nyquis
Fi Frekuensi sinyal informasi Fs Frekuensi pencuplikan
H X Y
T 1 = 12000 = 833 x 10-5 s = 833 μs
10 ms = 833μs x N sample N = 120 sample
Bab 2 Teori Penunjang
7
y = H x
y = (1-az-1) xn
y = xn - 095 xn z-1
y = xn ndash 095 xn - 1
214 Frame Blocking
Sinyal wicara yang telah dipreemphasis s (n) diblok dalam M sampel dimana N 2 x M seperti yang
ditunjukkan pada gambar 27 Jika M le N pergeseran frame akan mengalami overlape hasil perkiraan LPC
spectral akan dikorelasikan dari frame 1 ke frame berikutnya Jika M laquo N perkiraan LPC spectral dari satu frame
ke frame lainnya akan sangat halus (smooth) Dan bila M gt N maka tidak akan ada overlape diantara frame yang
berbatasan dan sinyal suara akan hilang sama sekali dan korelasi diantara perkiraan spectral LPC dari frame
yang berbatasan akan berisi komponen noise
Gambar 27 Pergeseran Frame pada Sinyal Suara
dengan M = 13 N
Sehingga didapatkan nilai dari sinyal yang baru adalah sebagai berikut
x1(n) =s(M 1+n) n =012hellipN ndash 1 l = 012hellipLndash1 (24 )
215 Windowing
Merupakan proses membatasi lebar sinyal yang akan dianalisa yang dapat mengurangi efek
diskontinyuitas pada ujung-ujung frame yang dihasilkan oleh potongan-potongan sinyal Korelasi antara lebar
window dalam domain waktu dan amplitude berguna untuk menyederhanakan sinyal dengan mengurangi
puncak sinyalnya
Ada beberapa jenis windowing yang dinamakan sesuai dengan nama penemunya yaitu
Bab 2 Teori Penunjang
8
Window Hamming
052-046 cos[2лn(N-1)] 0 le n le N-1
Wham(n) =
0 elsewhere
Window Hanning
1-cos[2лn(N-1)] 2 0 le n le N-1
Whan(n) =
0 elsewhere
Window Bartlett
1-cos[2лn(N-1)] 2 0 le n le (N-1)2
WB(n) = 2-2n(N-1) (N-1)2lenleN-1
0 elsewhere
Window Blackman
042-05cos[2лn(N-1)]+008cos[4лn(N-1)]0lenleN-1
WBl(n) =
0 elsewhere
216 Fourier Transform
Transformasi Fourier Diskrit (DFT) adalah deretan yang terdefinisi pada kawasan frekuensi ndash diskrit
yang merepresentaskan Transformasi Fourier terhadap suatu deretan terhingga (Finite Duration Sequence) DFT
berperan penting untuk implementasi algoritma suatu varitas pengolah sinyal karena efisien untuk komputasi
berbagai aplikasi
Salah satu contoh aplikasi komputasi DFT dalam algoritma yang efisien yaitu Fast Fourier Transform
(FFT) Efisiensi suatu algoritma ditentukan dari sejauh mana dapat mereduksi jumlah perkalian dan
penjumlahan serta reduksi lalu lintas data pada memori komputer sehingga proses lebih cepat
Pada DFT untuk memproses N buah titik diperlukan (N-1)perkalian kompleks dan N(N-1)
penjumlahan kompleks Bila N cukup besar dibutuhkan memori yang besar dan waktu yang cukup lama Untuk
itu digunakan metode lain yang lebih cepat yaitu metode transformasi fourier cepat (FFT) FFT dilakukan
dengan membagi N buah titik pada transformasi fourier diskrit menjadi 2 masing-masing N2 titik trnsformasi
Pemecahan menjadi dua pada proses transformasi fourier cepat disebut sebagai proses rekombinasi Dua buah
N2 titik transformasi mempunyai 2(N2) = N2 perkalian Proses memecah menjadi dua ini diteruskan dengan
membagi setiap (N2) titik transformasi menjadi dua buah (N4) titik transformasi setiap (N4) menjadi dua buah
Bab 2 Teori Penunjang
9
(N8) titik transformasi dan seterusnya hingga diperoleh junlah titik yang minimum Jika besarnya N merupakan
kelipatan pangkat dari 2 (disebut radiks 2) maka jumlah titik minimum setelah setiap kali dibagi 2 adalah dua
Ada dua macam metode FFT metode Decimation in Time (DIT) dan metode Dicimation in Frekuensi
(DIF) Kedua metode ini hamper sama Pada metode FFT-DIT N buah titik transformasi dibagi 2 menjadi fungsi
ganjil dan genap masing-masing mempunyai N2 titik transformasi Sedang pada metode FFT-DIF N buah titk
transformasi dibagi menjadi fungsi N2 titk yang pertama dan fungsi N2 titik yang kedua
Operasi pada metode FFT-DIT disebut juga metode kupu-kupu Untuk N buah titik transformasi h(n)
algoritma radiks 2 memerlukan proses perkalian dan rekombinasi sebanyak N2 log N transformasi fourier
diskrit Pada metode FFT-DIT operasi dekomposisi dilakukan dengan membagi fungsi h(n) menjadi 2 bagian
fungsi ganjil dan fungsi genap Atau dengan pernyataan matematika h1(n) dan h2(n) yang masing-masing adalah
untuk n genap dan n ganjil
Prinsip FFT dengan metode DIT adalah seperti pada gambar 24 berikut ini
Gambar 28 Blok metode FFT-DIT 8 titik
7
Pada gambar di atas merupakan jumlah perkalian kompleks N2 log N juga jumlah penjumlahan
kompleks = N2 log N
217 Linear Prediction Code
Ide dasar dari LPC adalah bahwa pada model ini memberikan sampel suara pada domain waktu yang
bisa didekati sebagai kombinasi linear dari sampel suara yang telah lalu
Teori Linear Prediction Coding (LPC) yang diaplikasikan pada wicara telah dimengerti selama
beberapa tahun Pada bagian ini akan dijelaskan dasar dari bagaimana LPC diaplikasikan pada sistem pengenlan
wicara
Sebelum menjelaskan LPC secara umum sebagai pemrose front-end untuk pengenalan wicara perlu
diketahui alasan mengapa LPC sangat banyak digunakan yaitu
1 LPC menyuguhkan model yang bagus untuk sinyal wicara
2 Cara yang digunakan LPC untuk analisa sinyal wicara sangat beralasan untuk pemisahan track dari
sumber vocal
3 LPC adalah model traktabel secara analitis
Bab 2 Teori Penunjang
10
4 Model LPC bekerja dengan baik pada aplikasi pengenalan
2171 Autocorrelation Analysis
Masing-masing frame sinyal yang telah diwindow kemudian di-autokorelasikan dengan menggunakan
persamaan
N-1-M
r1(m) = sum x1(n) x1(n+m) m = 0 1 p ( 25) (25)
n = 0
dimana nilai autokorelasi tertinggi p adalah orde dari analisi LPC Pada umumnya nilai dari p yang
sering digunakan adalah dari 8 sampai 16 Sisi menguntungkan dari analisis autokorelasi adalah bahwa
autokorelasi ke-0 R1 (0) adalah energi dari frame ke-1 Energi dari frame merupakan parameter
penting untuk system deteksi wicara
2172 LPC Analysis
Langkah selanjutnya adalah analisis LPC dimana mengkonversi masing-masing frame dari
auto korelasi p+1 ke dalam sebuah ldquoLPC Parameter Setrdquo dimana kumpulan itu merupakan koefisien
LPC koefisien refleksi atau PARCOR koefisien log area ratio koefisien Cepstral atau beberapa
transformasi pada kumpulan tersebut
Metode yang formal untuk mengkonversi dari koefisien autokorelasi ke sebuah LPC parameter
set (untuk metode autokorelasi) dikenal sebagai Metode Durbin dan secara formal dapat ditunjukkan
pada algoritma berikut ini
E(0) = r(0) ( 26)
Ki=r(i)-sumαj(i-1) r(|i-j|)E(i-1) 1 le I le p ( 27)
αi(i) = ki (28)
αj(i) = αj
(i-1)-ki α(i-1) ( 29)
t-j
E(i)=(1-ki2)E (i-j) (210)
dimana penyajian akhir dari persamaan mengabaikan i=1 Kumpulan dari persamaan hellipdiselesaikan secara
rekursif untuk i=12hellipp dan penyelesaian akhir diberikan sebagai
am=koefisien PC=αm 1lemlep ( 211)
7 Agus Wahyudi Verifikasi Sinyal Suara Sebagai Kendali Arah TA PENS-ITS 2002
Bab 2 Teori Penunjang
11
km=koefisien PARCOR ( 212)
1 - km
gm=koefisien log area ratio = log ----------- ( 213)
1 + km
2173 LPC Parameter Corversion to Cepstral Coefficients
Sekumpulan parameter LPC yang sangat penting yang dapat diturunkan langsung dari kumpulan LPC
adalah koefisien cepstral LPC c(m) Rekursif yang digunakan adalah
co = ln σ2 ( 214)
m-1
cm = am + sum ck am-k 1 le m le p ( 215)
k = 1
m-1
cm = sum ck am-k m gt p
k = 1
dimana σ2 adalah penguatan dalam model LPC Koefisien cepstral koefisien yang direpresentasikan dengan
fourier transform dengan spectrum besaran log telah ditampilkan menjadi kumpulan fitur untuk pengenalan
wicara yang lebih handal terpercaya daripada koefisien LPC koefisien PARCOR atau koefisien log area ratio
218 Dynamic Time Wraping
Dynamic Time Wraping (DTW) merupakan cara untuk membandingkan pola wicara dalam menentukan
kesamaan jarak antara pola-pola yang berbeda Dimana pengenalan wicara merupakan proses secara otomatis
dalam mengambil dan menentukan informasi linguistic yang disampaikan dengan gelombang wicara
menggunakan komputer atau sirkuit elektronik Informasi linguistic tersebut pada akhirnya akan
direpresentasikan dengan deretan waktu vektor-vektor spektral
Metode nolmalisasi waktu menggunakan dua buah fungsi warping
ix = Фx (k) k = 123hellipT (216)
iy = Фy (k) k = 123hellipT
2181 Dynamic Programming
Dynamic Programming (DP) digunakan untuk memecahkan masalah deteksi pengurutan kemampuan
menggunakan pola pengenalan wicara dan masalah waktu penjajaran dan normalisasi Ada dua tipe masalah
penggunaan Dynamic Programming yaitu
(
)
k m
( )
K m ( )
Bab 2 Teori Penunjang
12
1 Masalah jalan optimal dengan menganggap sekumpulan titik mulai dari 1 sampai dengan N yang
dihubungkan dengan pasangan setiap dari titik (ij) Representasi perpindahan secara langsung dari titik
ke-1 ke titik yang lainnya Rentetan perpindahan tersebut tidak mempunyai bilangan yang ditetapkan
dari transisi satu titik ke titik yang lainnya hal ini disebut rentetan keputusan asinkron
Dengan Terminologi sederhana kita membuat garis keputusan untuk menetukan titk berikutnya setelah
kebijaksanaan pada titik i
Prinsip dari optimalisasi yang merupakan kelas dasar dari algoritma komputasi untuk optimasi masalah
di atas berdasarkan pernyataan Bellman
rdquoKebijakan optimasi yang memiliki sifat apapun ketetapan dan ketentuannya keputusan berikutnya
harus merupakan hasil ketetapan dari keputusan yang pertamardquo
2 Masalah keputusan rentetan sinkronisasi terdapat perbedaan dari satu sinkronisasi yang beraturan dari
proses keputusan
Penggunaan teknik Dynamic Programming pada Dynamic Time Warping untuk pertama kali dilakukan
oleh Slutsker (1968) Vintsyuk (1968) dan Volichko (1971) dari Jepang untuk pengenalan wicara Pada proses
ini pembicara mengucapkan kata yang sama dengan durasi berubah setiap waktu dengan ekspansi yang non
linier Oleh karena itu Dynamic Time Wraping adalah tahap yang penting dalam proses pengenalan kata Proses
DTW mengalami pengembangan pada sumbu waktu untuk mencocokan posisi phonemkata yang sama antara
input wicara dan referensi template
Dynamic Programing secara umum digunakan untuk memecahkan masalah rentetan keputusan yang
dilakukan pada bidang kisi sebagaimana ditampilkan pada gambar 27 Sinyal yang dicocokkan adalah A dan B
Di dalam bidang kisi sinyal A disesuaikan sepanjang sumbu ndashx dan sinyal B disesuaikan sepanjang sumbu ndashy
Setiap antar bagian pada bagian ini ditetapkan sebagai sebuah simpul atau titik dimana titik (ij) adalah
pencocokan frame I untuk sinyal A dengan frame j untuk sinyal B Misalnya diasumsikan dua rentetan waktu
untuk vektor utama yang dibandingkan sebagai berikut
A = a1a2hellipaI dan B = b1b2hellipbJ
Dengan menganggap rentang bidang antara A dan B sebagaimana ditunjukkan pada gambar 27
fungsi pelengkungan waktu yang sesuai menunjukkan waktu antara rentetan A dan B dapat dipresentasikan
sebagai rentetan titk-titik Lattice pada bidang c = (ij) sebagai berikut
Bab 2 Teori Penunjang
13
Gambar 29 Plane jaringan untuk ilustrasi
pemrograman dinamik8
Bilamana jarak spektral antara dua vektor utama a1 dan b1 direpresentasikan oleh d(c) = d(ij) penjumlahan
jarak dari awal sampai akhir dari rentetan sepanjang F dapat direpresentasikan dengan
K
sum d(ck)wk
k=1
D(F) = mdashmdashmdashmdashmdash (217)
K
sum wk
k=1
Semakin kecil nilai ini semakin baik kecocokan antara A dan B Dimana wk adalah fungsi pembobotan
positif terhadap F
Dengan memperkecil persamaan di atas dengan kondisi berikut
1 Kondisi monotonisasi dan kontinuitas
0 le ik-ik-1le1 0 lejk ndash jk -1 le 1 ( 218)
2 Kondisi perbatasan
I1=j1=Iik=Ijk=I (219)
3 Kondisi adjustmen window
|ik ndash jk|ler r=konstan ( 220)
Pendefinisian wk sedemikian rupa sehingga menyebut pada persamaan 219 menjadi konstan yang
tidak tergantung pada F Untuk contoh jika
Wk = (ik ndash ik -1)+(jk ndash jk -1)(i0=j0=0) wk akan menjadi
8 Ibid hal 15
Bab 2 Teori Penunjang
14
K
sum wk = I + J (221) k=1
dan persamaan 219 menjadi
1 K
D(F)= mdashmdash sum d(ck)wk ( 222)
I + J k=1
Gambar 210 DTW antara dua rentetan waktu A dan B
9
Karena fungsi obyektif yang akan diminimasi menjadi penjumlahan maka peminimisasi secara efisien
dapat diselesaikan tanpa harus menguji semua kemungkinan untuk F Penjumlahan pada sebagian rentetan c1
c2 hellip ck (ck=(ij)) adalah
(224)
Penurunan pemrograman dinamik pada persamaan-persamaan diatas penggunaan kondisi untuk F dan
formulasi perumusan wk persamaan 2115 dapat dituliskan kembali sebagai berikut
9 Ibid hal 17
Bab 2 Teori Penunjang
15
g(ij-1)+d(ij)
g(ij) = min g(i-1j-1) + 2d (ij) (225)
g(i-1j) +d(ij)
Oleh karena itu jarak antara dua rentetan waktu A dan B setelah DTW dapat diperoleh sebagai berikut
Kita set dari kondisi awal untuk g(11)=2d(11) dan j=1 dan hitung persamaan 2116 dengan variasi I dalam
sepanjang adjustment window Perhitungan ini diulangi dengan menaikkan j sampai j=1 Jarak keseluruhan
antara dua rentetan waktu A dan B dapat diperoleh dari g(IJ)(I+J)
2182 Batasan Normalisasi Waktu
Supaya proses normalisasi waktu mempunyai arti pada perbedaan batasan dengan berbagai variasi
interval waktu dibutuhkan beberapa batasan terhadap fungsi warping
2183 Batasan Titik Awal Akhir
Bilamana pola wicara yang dibandingkan merupakan tuturan per kata maka harus memenuhi syarat pola
mulai dari titik awal sampai titik akhir dari tanda permulaan dan pengakhiran pola wicara Titik awal dan akhir
mempunyi batasan yang membatasi pola wicara harus dipenuhi
Titik awal Фx(1) = 1 Фy(1) = 1 (226)
Titik akhir Фx(T) = Tx Фy(T) = Ty (227)
2184 Kondisi Monotonisasi
Rentetan pola spectral pada wicara sangat penting dalam menentukan arti linguistic sehingga tidak
akan hilang Untuk mempertahankan pola tersebut harus memenuhi
Фx(k + 1) ge Фx(k) (228)
Фy(k + 1) ge Фy(k)
22 Awal dan Akhir Sinyal Suara
221 Power
Sinyal suara yang diolah haruslah merupakan sinyal suara murni dan tidak bercampur dengan noise
ataupun header tail yang dibawa oleh suara saat perekaman apalagi jika pengenalan sinyal suara dengan jumlah
vocabulary yang besar Oleh karena itu sinyal suara hasil perekaman harus dicari nilai awal dan akhirnya agar
pengolahan sinyal suara tersebut menjadi lebih valid
Dan salah satu cara dalam menentukan nilai awal dan akhir dari sinyal suara adalah dengan
menggunakan power yang mempunyai persamaan sebagai berikut
( )
Bab 2 Teori Penunjang
16
239
p= sumradic xt2 (229)
t=0
Sinyal suara yang dibagi menjadi beberapa frame mempunyai power dari tiap framenya yang kemudian
didapatkan nilai rata-ratanya yang kemudian diperoleh nilai awal dan akhirnya dengan menambahkan 3 kali
standart deviasi Dimana penentuan awal dan akhir dari sinyal suara dapat diperoleh dengan
p ge p + 07 standart deviasi
Power
0
20000
40000
60000
80000
100000
120000
140000
160000
0 10 20 30 40 50 60
Jumlah Frame
Am
pli
tud
o
Gambar 211 Bentuk power dari kata
Nilai beberapa kali hasil percobaan
222 Unvoiced Plosive
Pada suatu sinyal suara yang terekam terdapat pemutusan sinyal atau kondisi kosong yang bukan
merupakan noise tetapi masih didalam lingkup suara Tapi kondisi ini hanya terjadi pada kebanyakan sinyal
suara yang terdapat konsonan tertentu yaitu sinyal suara dari kata yang mempunyai konsonan p t k Kondisi ini
disebut Unvoiced Plosive atau loncatan sinyal suara setelah kondisi kosong seperti ditunjukkan pada gambar
berikut
Gambar 212 Unvoiced Plosive
Bab 2 Teori Penunjang
17
Dan untuk penentuan awal dan akhir daerah kosong tersebut harus diperhitungkan agar didapatkan
nilai awal dan akhir dari sinyal suara yang valid yaitu dengan mencari nilai rata-rata dari daerah kosong dari
beberapa sinyal suara Kemudian dengan dicari nilai thresholdnya yaitu nilai terpanjang dari daerah kosong
sebesar 2 dari seluruh daerah kosong yang telah dihistogram
23 JARINGAN DENGAN TCPIP
Meskipun hubungan computer melalui serial dan parallel telah ada sejak lama multijaringan belum
menjadi masalah serius bagi para peneliti di bidang jaringan sampai awal tahun 1980 Perkembangan teknologi
LAN itu sendiri didasarkan banyak alasan Salah satu yang menjadi alasan utama adalah adanya perusahaan
yang ingin melakukan sharing data file printer dan resource lainnya ke pc lain
231 Mengenal TCPIP
Sebelumnya kita definisikan lebih dahulu apa yang dimaksud protocol itu Bila dua computer ingin
melakukan komunikasi keduanya tentu saja harus menggunkan bahasaturan yang sama Aturan-aturan inilah
yang disebut protocol Misalnya untuk mengirim mail digunakan protocol SMTP berhubungan dengan WWW
menggunakan HTTP dan sebagainya Jadi protocol merupakan aturan dalam melakukan komunikasi
TCPIP ( Transmission Control Protocol Internet Protocol) merupakan protocol yang bersifat open
networking Maksudnya semua penjelasan teknis tentang protocol tersebut diumumkan karena ada juga
mekanisme jaringan yang menyembunyikan detail dari sistemnya Hal inilah yang membuat TCPIP menjadi
terkenal
Adapun keuntungan dengan menggunakan protocol TCPIP adalah kemudahannya karena
memungkinkan hubungan antara berbagai system operasi dan berbagai jenis computer (platform)
TCPIP bukanlah protocol tunggal tetapi merupakan sekumpulan protocol sehingga lebih tepat disebut
sebagai keluarga TCPIP Setiap protocol pada TCPIP memiliki tugas tertentu yang berbeda Semua protocol
tersebut menggunakan protocol primer untuk mengirimkan paket data Protocol primer tersebut adalah TCP dan
IP
Protokol lainnya dapat dikelompokkan berdasarkan tujuannya sebagai berikut
1 Transport
Digunakan untuk mengatur perpindahan data antara dua mesin Antara lain
- TCP (Transmission Control Protocol)
- UDP (User Datagram Protocol)
2 Routing
Digunakan untuk pengalamatan data dan menentukan rute terbaik antara lain
- IP (Internet Protocol)
- ICMP (Internet Control Message Protocol)
- RIP (Routing Information Protocol)
Bab 2 Teori Penunjang
18
3 Network Address
Menangani bagaimana suatu mesin diberikan suatu alamat antara lain
- ARP ( Address Rwesolution Protocol)
- DNS ( Domain Name Sistem)
- RARP (Reverse Address Resolution Protocol)
4 User Service
Merupakan aplikasi yang harus diakses user antara lain
- FTP ( File Transfer Protocol)
- TFTP (Trivial File Transfer Protocol)
- TELNET
5 Gateway Protocol
Untuk membentuk proses komunikasi routing dan status informasi antara lain
- EGP (Exterior Geteway Protocol)
- GGP (Gateway to Gateway Protocol)
- IGP (Interior Gateway Protocol)
232 Koneksi TCPIP
Untuk mengkonfigurasi TCPIP maka dibutuhkan
Alamat IP
Alamat IP ini sebagai pengenal atau alamat mesin Karena setiap mesin yang terhubung jaringan
harus memiliki penganal yang unik sehingga memungkinkan melakukan routing Jaringan dengan TCPIP
menggunakan pengalamatan 32 bit sebagai alamat atau pengenal setiap mesin yang terkoneksi dengan jaringan
Pengenal ini disebut alamat IP Pesan atau data yang dikirim melalui TCPIP menggunakan alamat IP ini untuk
mengenali mesin pengirim dan penerimanya
Biasanya alamat IP dapat dikelompokkan menjadi dua bagian yaitu
1 Nomor Network
2 Nomor Device dalam Network tersebut
Alamat IP tersebut dipisahkan menjadi empat bagian yang masing-masing berukuran 8 bit Empat
bagian tersebut dipisahkan oleh tanda titik dan setiap bagian tersebut memiliki angka 0-255 Contohnya
192168101
Pemberian alamta IP umumnya ditentukan berdasarkan ukuran dari jaringan tersebut Jaringan
dapat diklasifikasikan menjadi tiga kategori yaitu kelas A kelas B kelas C Ketiga kelas tersebut membagi
pengalamatan 32 bit dengan ukuran berbeda untuk nomor Network dan Host
Pengalamatan pada kelas A memungkinkan bagian ini memiliki angka dari 0-127 Sedangkan
pengalamatan B memungkinkan memiliki angka dari 128-191 pengalamatan pada kelas C memungkinkan
memiliki angka dari 192-223
Network Mask
Bab 2 Teori Penunjang
19
Network mask merupakan alamat IP dimana lamat networknya diset ke nilai 255 Jika alamat IP
termasuk kelas A maka network masknya yaitu 255000 Jika alamat IP termasuk kelas B maka network
masknya yaitu 25525500 Jika alamat IP termasuk kelas C maka network masknya yaitu 2552552550
AlamatNetwork
Alamat network ini dapat diperoleh dari alamat IP dimana bit-bitnya dilakukan operasi AND
dengan network mask Dengan demikian untuk network kelas B dengan IP 192168101 maka alamat
networknya adalah 19216800
Alamat Broadcast
Alamat broadcast dibutuhkan bila suatu mesin ingin mengirimkan paket yang sama ke semua
device pada jaringan
Alamat Gateway
Alamat gateway merupakan alamat IP dari mesin yang menghubungkan jaringan dengan jaringan
di luar misalnya internet Pada umumnya alamatgateway memiliki IP yang sama dengan mesin yang kita miliki
tetapi mempunyai nomor device 1 Dengan demikian untuk network kelas B dengan alamt IP 192168101
alamat gatewaynya adalah 19216811
Alamat Nameserver
Jaringan-jaringan besar umumnya memiliki sebuah mesin untuk mentranslasikan alamat IP menjadi
nama yang lebih mudah dikenal manusia Misalkan sebuah mesin dengan IP 192168101 dapat diberi nama lain
seperti puspacsuiacid sebagai alamatnya Proses translasi ini dilakukan dengan system yang dikenal dengan
nama Domain Name System (DNS)
24 BEKERJA DENGAN SOCKET
Komponen socket program yang dapat membantu dalam pembuatan suatu aplikasi yang berkomunikasi
antara suatu system computer dengan system computer yang lain dengan menggunakan protocol TCPIP dan
protocol lain yang terhubung
241 Pengertian Socket Program
Pada sub bab ini akan dijelaskan tentang komoponen socket program yang dapat berkomunikasi antara
system computer dengan system computer yang lain dengan menggunakan protocol TCPIP dan protocol lain
yang terhubung Dengan socket program ini kita dapat membaca dan menulis pada hubungan ke mesin yang lain
tanpa mengalami kesulitan pada software jaringan Socket program dapat mengadakan hubungan berbasis
protocol TCPIP tetapi dapat juga bekerja umunya dengan protokol-protokol yang terhubung seperti Xerox
Network System (XNS) dan yang lain
Bab 2 Teori Penunjang
20
242 Penjabaran Socket
Socket mengijinkan aplikasi jaringan kita berkomunikasi dengan sistem lain di luar jaringan
Masing- masing socket bisadipandang sebagai titik akhir dalam suatu koneksi jaringan Socket tersebut memiliki
spesifikasi sebagai berikut
a) Sistem yang sedang dijalankan
b) Tipe interface port yang digunakan
Penjelasan lengkap dari sebuah koneksi socket terdiri dari address socket pada kedua titik akhir
koneksi Kita akan menguraikan address dari masing- masing titik akhir socket dengan memberi nomor IP
address atau host dan port
Sebelum membuat koneksi socket sebelumnya harus menguraikan dengan lengkap socket-socket
yang membentuk titik akhir Beberapa informasi tersedia dari sistem aplikasi yang dijalankan Sebagai contoh
kita tidaka akan membutuhkan IP Address Local dari socket client sebab informasi ini terdapat pada sistem
operasi
Informasi yang akan kita berikan bergantung pada tipe socket yang sedang bekerja Socket client
harus menggambarkan port yang merepresentasikan layanan yang mereka berikan
243 Memilih Host Name dan IP Address
Kebanyakan aplikasi menggunakan host name untuk merinci sebuah system Host Name mudah
untuk diingat dan dicek Menggunakan host name memungkinkan socket client untuk menemukan situs abstrak
yang diwakili oleh nama host meskipun telah dipindah ke IP Address yang baru Jika nama host tidak diketahui
socket client akan akan menyatakan system server sedang menggunakan IP Addressnya Ketika kita
menyediakan host name socket akan mencari IP Address yang berhubungan dengan host name sebelum socket
tersebut dapat menempatkan pada sistem server
Bab 3 Perencanaan dan Implementasi
21
BAB 3
PERENCANAAN DAN IMPLEMENTASI
31 Pendahuluan
Pada bab ini akan dijelaskan mengenai pengolahan sinyal wicara untuk mendapatkan ciri setiap
individu Juga akan dibahas mengenai pengolahan hasil keluaran sinyal wicara untuk ditransmisikan ke PC lain
(lewat jaringan) Dan selanjutnya akan dibahas pula mengenai plan atau obyek yang dalam hal ini adalah lampu
pijar
Berikut ini adalah blok diagram sistem secara keseluruhan
Gambar 31 Blok Diagram Sistem Secara Keseluruhan
Speaker pada gambar 31 memberikan suaranya sebagai masukan lewat mikrofon Masukan ini
akan diolah dalam PC client mulai dari proses sampling frame windowing FFT LPC Kemudian hasil dari
LPC dicari pemadanan dengan LPC dari sinyal standar yang telah tersimpan sebagai data base di dalam PC
client Hasil dari DTW tersebut akan dikirimkan ke PC server melalui TCPIP untuk diproses menjadi suatu
perintah ke perangkat keras Perintah tersebut merupakan bentuk implementasi dari perintah yang diberikan dari
PC client
Sebaliknya dengan adanya perubahan kondisi pada peralatan yang diinginkan maka terjadi sinyal
balikan yang berupa sinyal DTMF yang dikirimkan oleh perangkat keras ke PC server Oleh PC server sinyal ini
diolah untuk dikenali sebagai suatu kondisi tertentu yang akan dikirimkan ke PC client sebagai laporan tentang
kondisi alat yang diinginkan
32 Sistem Pengolahan Sinyal Wicara
321Perekaman Suara
TCPIP
Pengucap Speaker ADC Pengolahan Wicara dan Monitoring
Peralatan yang terkontrol
LAN Card
LAN Card
Pengenalan Pola Pengiriman Tone DTMF dan Pengenalan DTMF Sebagai Laporan
DTMF Decoding DTMF Generator Sistem Switching
Alat Terkontrol
Bab 3 Perencanaan dan Implementasi
22
Perekaman suara dilakukan menggunakan software berbasis TclTk 830 dan Snack22 Sebelumnya
akan dijelaskan satu per satu program yang dipakai
o TclTk 830
Tcl kepanjangan dari Tool Control Language Tk adalah Graphical Toolkit extension dari Tcl yang
menyediakan bermacam-macam item standar antarmuka GUI untuk memfasilitasi secara cepat pengembangan
aplikasi tingkat tinggi
o Snack22
Snack adalah tool pengolahan suara yang didesain sebagai extensi untuk bahasa script Saat ini Snack bekerja
dengan bahasa script TclTk Phyton dan Ruby Snack memiliki perintah-perintah untuk play record process
dan dan memvisualisasi suara Snack menyediakan obyek suara tingkat tinggi dengan manajemen penyimpanan
yang fleksibel dan streaming support Snack dapat bekerja pada banyak format file suara
Kita dapat membangun aplikasi sepaerti di bawah ini dengan integrasi dari TclTk dan Snack
Gambar 32 Program aplikasi pengenalan wicara
Frekuensi sampling pada program di atas diset pada frekuensi 12 kHz Frekuensi ini dipilih karena biasa
digunakan untuk voice Selain itu juga diset pada channel Mono dan sinyal encoding LIN 16 (resolusi 16 bit
PCM) Pada penekanan tombol ldquorecordrdquo diikuti tombol ldquostoprdquo dan kemudian tombol ldquostandartrdquo maka akan
dimulai proses perekaman yanag akan digunakan untuk membuat file standar untuk kedelapan perintah yang
akan digunakan untuk pembanding sinyal masukan
Adapun proses untuk sistem yang akan dibuat dapat digambarkan dengan diagram alir seperti di bawah
Bab 3 Perencanaan dan Implementasi
23
Mulai
Package Require
Snack 22
Exit
Program On
Running
Recording
Sound Card
Produser Running
Prosedur Recording
DTMF
Keluar
Tidak
YaTidak
Ya
Ya
Ya
Ya
Tidak
Tidak
Tidak
Gambar 33 Flowchart Sistem Graphical User
Interface
322 Sampling
Seperti telah dijelaskan di depan bahwa frekuensi sampling yang digunakan adalah sebesar 12000Hz
dimana dalam 1 detik sinyal terdapat 12000 titik sampling Sebagai contoh seperti gambar di bawah ini suatu
sinyal epanjang 20 ms disampling 12000 Hz menghasilkan titik sampling sebanyak 240 titik
Data Sampling
-20000
-15000
-10000
-5000
0
5000
10000
15000
20000
0 200 400 600
Amplitudo
Jumlah Data
Gambar 34 Sinyal hasil sampling dengan
frekuensi 12000 Hz
Bab 3 Perencanaan dan Implementasi
24
Mulai
Sinyal Masukan
Baca Panjang Sinyal
Bagi Menjadi N Frame
i = 0 i lt N i++
Ambil 240 Data Sampel
Tampilkan Nilai
Sampel
Selesai
Gambar 35 Flowchart Proses Sampling
323 Pre-emphasis
Agar spektrum sinyal merata di semua frekuensi dan mencegah kehilangan informasi akibat pembulatan
pada saat komputasi maka dilakukan prose preemphasis Fungsi transfer preemphasis adalah
H(z) = 1 ndash a z-1 09 le a le 1 (31)
Dimana nilai a berkisar 095 Berdasarkan model filter di atas maka keluaran dari preemphasis adalah
s(n) = s(n) ndash a s(n-1) (32)
324 Frame Blocking
Hasil perekaman merupakan sinyal dalam domain waktu yang bersifat variant time (fungsi yang
bergantung pada waktu) Sinyal yang telah dipreemphasis kemudian dibagi menjadi n buah frame Dengan
jumlah sample per frame sebesar N dan adjacent frame sebesar M sample Dimana M=05N Pada frame
pertama terdiri dari N buah sampel Frame kedua dimulai pada sampel ke M sehingga terjadi overlape sebesar
N - M sampel Begitupula untuk frame yang ketiga dimulai dari sample ke 2M sehingga terjadi overlape dari
farme kedua sebesar N + M-2M sampel juga Hal ini akan terus berlangsung hingga seluruh sinyal terbagi
menjadi beberapa frame
Bab 3 Perencanaan dan Implementasi
25
Gambar 36 Frame blocking sinyal
325 Windowing
Windowing yang digunakan adalah window hamming Setelah proses pengambilan sample maka
langkah selanjutnya adalah proses selanjutnya adalah proses windowing yang berfungsi untuk mengurangi efek
diskontinyuitas pada ujung-ujung frame Persamaannya adalah sebagai berikut
y[i] = x[i](054-046cos(20314159265(i-1)240) (33)
Flowchartnya bisa dilihat seperti di bawah
Mulai
240 Data
Sampel
i= 0 i lt 240 i++
Hamming Window
y[i] = x[i](054-046cos(2phi(i-1)
240))
Tampilkan
nilai
Hamming
Selesai
Gambar 37 Flowchart Proses Windowing
326 Fast Fourier Transform
Transformasi fourier cepat (FFT) adalah suatu metode yang sangat efisien untuk menyelesaikan
transformasi fourier diskrit (DFT) yang banyak dipakai untuk keperluan analisa sinyal Sehingga dengan FFT
N N N M
M N
N N
M
Bab 3 Perencanaan dan Implementasi
26
sinyal yang disampling dalam domain waktu ditransformasikan ke domai frekuensi dengan menggunakan
persamaan sebagai berikut
N-1
H(k) = sum h(n)e-j2лkN (34)
n=0
dengan k= 012N-1
Prosesnya dapat dilihat dari flowchart di bawah
Mulai
240 data
sampel
256 data sampel
i=0 ilt256 i++
tmp_log1=(xr[k]xr[k]+xc[k]xc[k])
tmp_log gt 0
xr[k]=10log10(tmp_log1)
Tampilkan
nilai
hamming
Selesai
xr[k]=10log10(0000001)
Ya
Tidak
Gambar 38 Flowchart Proses Fast Fourier
Transform
327 Autocorrelation analysis
Hasil dari windowing sinyal masukan kemudian dihitung autokerelasinya dengan persamaan
N-1-m
r1(m) = sum x1(n)x1(n+m) m=01p (35)
n=0
dimana niali autokorelasi tertinggi p adalah orde dari analisis LPCPada umumnya nilai dari p yang sering
digunakan adalah dari 8 sampai 16
Proses Autokorelasi dapat dilihat dari flowchart di bawah ini
Bab 3 Perencanaan dan Implementasi
27
Mulai
240 data p lpc
orde
i=0 iltp i++
j=0 jlt240-p-1 j++
RI[j]=sum(xI[i]xI[i+j])
Tampilkan nilai
autocorrelation
Selesai
Gambar 39 Flowchart Proses Autokorelasi
328 LPC Analysis
Hasil koefisien autokorelasi kemudian dikonversikan ke sebuah LPC parameter set (untuk metode LPC
autokorelasi) dikenal sebagai Metode Durbin dan secara formal ditunjukkan dari algoritma sebagai berikut
E(0) = r(0) (36)
ki=r(i)-sumαj(i-1) r(|i-j|)E(i-1) 1 le I le p (37)
αi(i) = ki (38 )
αj(i) = αj
(i-1)-ki α(i-1) ( 39)
t-j
E(i)=(1-ki2)E (i-j) (310)
dimana penyajian akhir dari persamaan 37 mengabaikan i=1 Kumpulan dari persamaan 36 -310 diselesaikan
secara rekursif untuk i=12p
Proses analisis dapat dilihat dari flowchart di bawah
Bab 3 Perencanaan dan Implementasi
28
Mulai
Autocorrelationr
p lpc orde
E (0) = r(0)
k1
= r(i)-sumalpha j (i-1) r( | i-j|E(i-1)
alpha j (i) = k
i
alpha j
(i) = alpha (i-1) -k i alpha
i-j (i-1)
E (i) = 1-k i 2) E(i-1)
Tampilkan nilai
parameter lpca
Selesai
i=0 iltp i++
Gambar 310 Flowchart proses LPC analisis
329 LPC Parameter to Cepstrum Analysis
Sekumpulan parameter LPC yang sangat penting yang dapat diturunkan langsung dari kumpulan
koefisien LPC adalah koefisien cepstral LPC c(m) Rekursif yang digunakan adalah
co = ln σ2 ( 311)
m-1
cm = am + sum ck am-k 1 le m le p (312)
k = 1
m-1
cm = sum ck am-k m gt p ( 313)
k = 1
Proses LPC parameter ke Cepstrum Analysis dapat dilihat dari flowchart di bawah ini
k m ( )
k m ( )
Bab 3 Perencanaan dan Implementasi
29
Mulai
lpc parameter a
p lpc orde
c o = ln del 2
1 lt=mlt=p
i=0 iltp i++
Cm
= am
+sum((km)Ck a
m-kC
m =sum((km)C
ka
m-k)
Tampilkan nilai lpc
cepstrumc
Selesai
Gambar 311 Flowchart Proses LPC parameter ke
Cepstrum
3210 Dynamic Time Warping
Proses yang terjadi pada Dynamic Time Warping adalah pengukuran jarak suara antara sinyal standart
dan sinyal input Yang diukur berupa deretan nilai dari hasil LPC Cepstrum dalam bentuk kolom dan baris (ij)
yang disimpan dalam satu file Pada kolom berisi nilai tiap cepstrum sedangkan baris berupa banyaknya frame
Teknik yang digunakan dinamakan Dynamic Programming Alur kerjanya dapat dilihat dari flowchart di bawah
Bab 3 Perencanaan dan Implementasi
30
Mulai
i=0 iltN i++
j=0 jlt15 j++
Cepstrum
Standart
Std_Ceps [i][j]
Cepstrum
Input
Inp_Ceps [i][j]
DP_dist = DP_match1(r)
DP_dist
Selesai
Gambar 312 Flowchart Proses Dynamic Programming
33 Awal dan Akhir Sinyal suara
331 Power
Untuk mendapatkan suatu sinyal suara tanpa adanya noise maka sinyal harus benar-benar dipotong
tepat pada awal dan akhirnya Oleh karena itu dipakai power sebagai salah satu cara yang efektif dalam
menentukan awal dan akhir suatu sinyal suara
Dimana tiap frame mempunyai power yang merupakan hasil kuadratisasi dari penyampelan tiap frame
yang kemudian hasil keseluruhan diakarkan seperti bisa dilihat pada flowchart di bawah
Bab 3 Perencanaan dan Implementasi
31
Mulai
Power = 0
i=0 ilt240 i++
Power=Power+sqrt(xixi)
Selesai
Gambar 313 Flowchart Proses Power
Jumlah sample per frame ditetapkan sebesar 240 sampel Kemudian dicari power masing-masing antara sinyal
utuh dan sinyal noise kemudian dengan p ge p + 07 standar deviasi maka didapatkan awal dan akhir sinyal
suara
332 Unvoiced Plosive
Adanya daerah kosong menyebabkan sinyal tidak valid dalam pemotongan awal dan akhirnya karena
bisa dianggap noise padahal berada dalam sinyal suara ( merupakan bagian dari sinyal suara) Oleh karena itu
dicari mean dari 25 kata sinyal suara yang kemudian dicari nilai thresholdnya sebagai panjang akhir dari daerah
kosong Dan nilai tersebut diikutsertakan dalam looping dan jika setelah itu terdapat sinyal kembali maka
berarti masih ada sinyal suara dan jika tidak ada berarti tidak ada sinyal suara
34 Proses Pada Client
Preses pada client dapat dijelaskan sebagai berikut
Gambar 314 Blok diagram proses client
Penjelasan dari blok digram tersebut adalah
1 Pertama adalah perekaman suara pada software recording yang hasilnyadisimpan dalam bentuk file
berekstensi ldquowavrdquo File ini selanjutnya akan dijadikan file input pada sistem client
2 File suara yang telah tersimpan diolah dalam program sampling untuk mendapatkan sinyal suara dalam
bentuk frame Setiap frame terdiri dari 120 sampel
Mic Extract AD Voice Dikenali
Bab 3 Perencanaan dan Implementasi
32
3 Tiap frame diwindow dengan window Hamming untuk mengurangi efek diskontinyuitas pada ujung-
ujung frame
4 Sinyal hasil window yang masih dalam domain time diubah ke dalam domain frekuensi dengan Fast
Fourier Transform (FFT)
5 Hasil dari windowing sinyal masukan kemudian dihitung autokerelasinya
6 Hasil koefisien autokorelasi kemudian dikonversikan ke sebuah LPC parameter set (untuk metode LPC
autokorelasi) Sekumpulan parameter LPC yang sangat penting yang dapat diturunkan langsung dari
kumpulan koefisien LPC adalah koefisien cepstral LPC
7 Selanjutnya dilakukan proses DTW (Dynamic Time Warping) pengukuran jarak suara antara sinyal
standart dan sinyal input Hasilnya disimpan dalam sebuah file berekstensi ldquotxtrdquo
8 File berekstensi txt tersebut ke server sebagai sinyal suara input
35 Proses Pada Server
Proses pada server dapat dijelaskan sebagai berikut
Gambar 315 Blok diagram proses server
Penjelasan dari blok diagram tersebut adalah
1 Isi file berekstensi rdquotxtrdquo diterima oleh server dan digunakan sebagai data input untuk memanggil
database tone DTMF yang sesuai sebagai pengoperasian alat yang akan dikontrol
2 Alat yang terkontrol akan menunjukkan hasilnya
Memanggil
Database
Tone
Dikode
kan
dalam
biner
Kirim
ke HW
Kontrol
Alat
Input
server
Bab 4 Pengujian dan Analisa
33
BAB 4
PENGUJIAN DAN ANALISA
41 Pendahuluan
Untuk mengetahui tingkat keberhasilan dari suatu sistem diperlukan pengujian keseluruhan dari
perencanaan hasil sistem yang telah dibuat Dalam bab ini akan dijelaskan mengenai hal tersebut
Pengujian yang akan dilakukan adalah
1 Pengujian dan analisa sistem pengolahan sinyal wicara
2 Pengujian dan analisa sistem client server
3 Pengujian dan analisa awal dan akhir sistem pengolahan wicara
42 Pengujian dan Analisa Sistem Pengolahan Wicara
Tujuan untuk mendapatkan parameter ciri individu dari sampel sinyal yang diolah
421 Perekaman Suara
Pada Tugas Akhir ini digunakan duamacam perangkat lunak yang dibangun sendiri berbasis TclTk 830
dan Snack 22 sebagai perangkat lunak yang diuji dan perangkat lunak Wavesurver sebagai pembanding
4211 Dengan menggunakan TclTk dan Snack
Tampilan awal dari perangkat lunak yang dibangun dengan menggunakan TclTk dan Snack adalah sebagai
berikut
Gambar 41 Tampilan awal perangkat lunak menggunakan TclTk dan Snack
Bab 4 Pengujian dan Analisa
34
Pertama kali tombol record ditekan maka proses pengambilan sinyal wicara yang dimasukkan
dimulai Pada saat tombol Stop ditekan maka program akan merekam kata ldquosatu nyalardquordquosatu matirdquordquodua
nyalardquordquodua matirdquordquotiga nyalardquordquotiga matirdquordquoempat nyalardquordquoempat matirdquo sesuai yang kita masukkan dan
tampilan display akan digambarkan bentuk sinyal yang dihasilkan secara otomatis Hasil perekaman dapat
dilihat pada gambar berikut 42
Gambar 42 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan perangkat lunak
TclTk dan Snack
Gambar 42 menunjukkan bahwa proses pengambilan sinyal suara telah dilakukan Sinyal suara yang
dimasukkna akan terlihat gambarnya pada layar hitam (canvas)
4212 Dengan menggunakan Wave Surver
Sebagai pembanding dari program yang telah dibuat yaitu dari perangkat lunak TclTk dan Snack
digunakan Wavesurver
Tampilan awal dari Wavesurver 157 tampak seperti pada gambar 43
Gambar 43 Tampilan awal perangkat lunak menggunakan Wavesurver
Bab 4 Pengujian dan Analisa
35
Pada saat tombol recording ditekan maka program akan merekam kata ldquosatu nyalardquo dan pada tampilan
display akan digambarkan bentuk sinyal yang dihasilkan secara otomatis Hasil perekaman bisa dilihat pada
gambar 44
Gambar 44 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan
perangkat lunak Wavesurver
Perekaman pada Wavesurver dapat diset sesuai dengan kebutuhan Dimana pada sistem pengolahan sinyal
suara untuk perekaman suara diset sebagai berikut
Gambar 45 Kotak dialog setting perekaman perangkat lunak Wavesurver
Pada data di atas dapat dilihat bahwa suara yang direkam dengan mengguanakan perangkat lunak
Wavesurver mempunyai header dan tail yang berisi keterangan perekaman sebagai berikut
12000 menunjukkan frekuensi sampling yang digunakan
Bab 4 Pengujian dan Analisa
36
Channels menunjukkan bahwa suara direkam dengan menggunakan channel Mono
Sampel Encoding Lin 16 menunjukkan bahwa suara direkam dengan menggunakan
16 bit PCM
422 Sampling
Dengan menggunakan program yang dibangun sendiri di atas proses penyamplingan sinyal input sekaligus
telah terjadi dimana dengan frekuensi sampling sebesar 12000 Hz didapatkan sinyal dari kata ldquosatu nyalardquo
dengan potongan sebagai berikut
3306
3538
3788
4076
4282
4684
4747
4956
5083
5442
5844
5901
6244
6196
6462
6104
Berikut ini adalah cuplikan dari data sampel kata ldquo empat matirdquo mulai dari milidetik ke-13900
Bab 4 Pengujian dan Analisa
37
Data Sampling
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 46 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900
Pada gambar 46 telah dilakukan proses sampling sinyal masukan dengan frekuensi sampling sebesar 12000
Hz maka didapatkan hasil sinyal yang hampir mirip dengan sinyal analognya karena sinyal suara manusia
memiliki jarak frekuensi antara 300 sampai 5000 Hz dimana syarat Nyquist minimal fsampling 2fsinyal
telah terpenuhi
423 Windowing
Jenis window yang digunakan adalah window Hamming
Pada proses window hamming kata yang telah disampel sebanyak 240 sampel akan diwindow sehingga
menghasilkan sinyal yang lebih kecil peaknya Hasilnya adalah sebagai berikut
-26174
-22078
-12518
-1444
9690
19308
23360
20049
12365
2391
-7874
-14539
-17837
-19929
-19007
-16955
Bab 4 Pengujian dan Analisa
38
Sedangkan hasil dalam bentuk gambar dapat dilihat pada gambar berikut
Data Windowing
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 47 Hasil Windowing data sampel kata ldquoempat matirdquo milidetik ke-13900
Seperti yang ditunjukkan gambar 47 proses windowing telah dilakukan Berdasarkan gambar 47
tersebut dapat dikatakan bahwa window Hamming menyebabkan sinyal yang disampel lebih halus Gambar
47 dapat dibandingkan dengan gambar 46 yaitu gambar sinyal sebelum melalui proses windowing dapat
dilihat bahwa sinyal yang telah diwindow mempunyai sinyal yang lebih halus Hal ini membuktikan bahwa
fungsi dari windowing untuk mengurangi efek diskontinyuitas pada ujung-ujung frame adalah benar
424 Fast Fourier Transform Sinyal Masukan
Pada proses ini sinyal yang sebelumnya berada dalam domain waktu akan diubah dalam domain
frekuensi Setiap sinyal yang berasal dari alam merupakan sinyal analog yang bila diolah harus diubah
dalam bentuk sinyal digital Dan pengolahan dalam digital merupakan pengolahan dalam bentuk diskrit
Pada proyek akhir ini sinyal dalam domain waktu akan diubah dalam domain frekuensi dengan 256 titik
Karena hasil yang diperoleh berupa hasil dari fungsi konvolusi maka hanya akan diambil 128 titik saja yang
akan diolah dalam proses selanjutnya Sedangkan 128 sisanya tidak dipergunakan karena berupa
pencerminan saja
Hasil dari Fast Fourier Transform (FFT) dari penggalan kata ldquoempat matirdquo pada milidetik ke-13900 dalam
bentuk teks adalah
103505157
106889458
Bab 4 Pengujian dan Analisa
39
104735321
100408661
89175987
95431992
96601654
8489315
89637459
8630304
75320663
87866905
91001945
89607201
82408546
83440155
4241 Dengan Menggunakan TclTk dan Snack
Fast Fourier Transform Sinyal
Masukan
0
20
40
60
80
100
120
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 48 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat
lunak TclTk dan Snack
Dari gambar 48 di atas sinyal suara yang sebelumnya berada di domain waktu telah diubah ke domain
frekuensi Hasil Fast Fourier Transform sinyal masukan menunjukkan sebaran spektrum frekuensi dari
sinyal suara yang telah dihasilkan oleh pengucap antara 0 sampai 6000 Hz
Bab 4 Pengujian dan Analisa
40
4242 Dengan Menggunakan Wavesurver
Gambar 49 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat
Wavesurver
Dari gambar 49 di atas hasil Fast Fourier Transform sinyal masukan menunjukkan sebaran spektrum
frekuensi dari sinyal suara yang telah dihasilkan oleh pengucap antara 0 sampai 6000 Hz adalah sama
seperti pada gambar dengan gambar 48 yang diambil dengan perangkat lunak TclTk dan Snack
425 Autocorrelation Analysis
Pada proses ini sinyal masukan dalam domain waktu yang telah diwindow hamming dihitung korelasinya
dengan menggunakan orde analisi LPC sebesar 15 Sehingga akan didapatkan hasil rk(autokorelasi) sebagai
berikut
17648453
128874
0669745
0662566
0470262
0164336
-010638
-0229032
-016249
0014062
0138456
0188749
0117826
0014517
-0052704
426 LPC Analysis
Dari hasil autokorelasi tersebut di atas selanjutnya adalah LPC dimana mengkonversi masing-masing
frame dari autokorelasi p+1 ke dalam sebuah LPC Parameter a
Bab 4 Pengujian dan Analisa
41
Metode yang formal untuk mengkonversi dari koefisien autokorelasi ke sebuah LPC parameter (untuk
metode LPC autokorelasi) dikenal sebagai Metode Durbin dan secara formal hasilnya dapat ditunjukkan
sebagai berikut ini
1
-128874
0160681
-0156173
0166653
0255508
0192145
0003037
-0202248
-0265201
-0112133
005938
0232232
0203554
0048429
Dari hasil di atas terlihat bahwa untuk setiap frame nilai pertama menunjuukan energi dari masing-masing
frame dan selanjutnya adalah parameter LPC dalam satu frame yang digunakan sebagai penentu ciri dari
sinyal suara yang dihasilkan oleh individu
427 Fast Fourier Transform LPC Parameter
Pada proses ini nilai dari parameter LPC yang sebelumnya masih berada dalam domain waktu akan diubah
dalam domain frekuensi Pada proyek akhir ini parameter LPC dalam domain waktu akan diubah dalam
domain frekuensi dengan 256 titik Karena hasil yang diperolah berupa hasil dari fungsi konvolusi maka
hanya akan diambil 128 titik saja yang akan diolah dalam proses selanjutnya Sedangkan 128 sisanya tidak
dipergunakan karena berupa pencerminan saja
Hasil dari Fast Fourier Transform (FFT) dari parameter LPC pada penggalan kata ldquoempat matirdquo pada
milidetik ke-1 dalam bentuk teks adalah
103505157
106889458
104735321
100408661
89175987
Bab 4 Pengujian dan Analisa
42
95431992
96601654
8489315
89637459
8630304
75320663
87866905
91001945
89607201
82408546
4271 Dengan menggunakan TclTk dan Snack
Fast Fourier Transform Parameter
LPC
0
20
40
60
80
100
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 410 Fast Fourier Transform LPC dengan
menggunakan perangkat lunak TCLTk
dan Snack
Hasil gambar 410 menunjukkan bahwa parameter LPC yang di-Fourier Transform-kan akan menjadi
selubung spektrum dari spektrum sinyal masukan Sehingga jika selubung dan spektrumnya secara gambar
cocok dapat dikatakan bahwa LPC parameter yang dihitung benar
Bab 4 Pengujian dan Analisa
43
4272 Dengan menggunakan Wavesurver
Gambar 411 Fast Fourier Transform LPC denganmenggunakan perangkat lunak
Wavesurver
Hasil gambar 411 menunjukkan bahwa parameter LPC yang di-Fourier Transform-kan akan menjadi
selubung spektrum dari spektrum sinyal masukan adalah sama dengan yang telah diperoleh dengan
perangkat lunak TclTk seperti pada gambar 410
428 LPC Parameter to LPC Cepstrum
Koefisien LPC cepstrum koefisien yang direpresentasikan dengan Fourier Transform dengan spektrum
besaran log telah ditampilkan menjadi kumpulan fitur untuk pengenalan wicara yang lebih handal
terpercaya daripada koefisien LPC koefisien PARCOR atau koefisien log area ratio
Hasil dari LPC cepstrum pada penggalan kata ldquoempat matirdquo pada milidetik ke-106 dalam bentuk teks adalah
16636311
1387922
0474473
0654796
0429659
0132543
0225374
0126501
0021161
0242437
Bab 4 Pengujian dan Analisa
44
0160623
0065745
0139379
0056064
-0029262
Dari hasil di atas dapat dianalisa bahwa besaran-besaran dari LPC cepstrum benar-benar dapat
digunakan sebagai penentu ciri dari sinyal suara individu karena besaranndashbesaran yang dihasilkan oleh LPC
cepstrum dari yang pertama sampai yang terakhir dalam satu frame sangat bervariasi nilainya
429 Inverse Fast Fourier Transform LPC Cepstrum
Untuk menggambarkan ciri atau fitur wicara dalam domain waktu maka LPC cepstrum di-Invers Fast
Fourier Transform-kan sehingga didapatkan gambar untuk penggalan kata ldquosatu nyalardquo pada milidetik ke-
400 seperti gamabar 412
Fast Fourier Transform LPC
Cepstrum
0
20
40
60
80
100
120
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 412 Invers Fast Fourier Transform LPC cepstrum dengan menggunakan
perangkat lunak TCLTk dan Snack
Dari gambar 412 dapat dianalisa bahwa bentuk dari invers fourier transform LPC cepstrum yang
menyerupai selubung pada domain waktu dari spektrum frekuensi juga digunakan untuk menunjukkan
bahwa perhitungan LPC cepstrumnya telah benar dan dapat digunakan sebagai penentu ciri sinyal suara
individu
Invers Fast Fourier Transform LPC
Cepstrum
Bab 4 Pengujian dan Analisa
45
Gambar 413 Penggabungan spektrum sinyal spektrum LPC dan spektrum LPC
Cepstrum
Gambar 413 spektrum sinyal yang diwakili warna merah merupakan hasil sinyal yang telah di-Fast
Fourier Transform-kan Spektrum sinyal yang berwarna hijau merupakan parameter LPC yang telah di-
Fourier Transform-kan Sinyal ini akan menjadi selubung spektrum dari spektrum sinyal masukan Bila
selubung dan spektrumnya secara gambar cocok maka dapat dikatakan bahwa LPC parameter yang dihitung
adalah benar Dari gambar 413 dapat dilihat antara selubunga dan selubung sinyal masukan sudah cocok
Sinyal yang berwarna biru merupakan sinyal rata-rata dari sinyal selubung spektrum
4210 Dynamic Time Warping
Pengujian terakhir dari proses pengolahan sinyal wicara adalah membandingkan sinyal hasil cepstrum LPC
antara data input dan data standarnya Berdasarkan daerah pembatas kontinyuitas lokal dari persamaan 21
maka digunakan model yang pertama dan menggunakan persamaan 2116 dalam menghitung jarak antara
kata sebagai standar dan sebagai masukan
Selanjutnya menetukan data data sebagai data standar dan data sebagai data masukan Pada sistem ini
digunakan 8 kombinasi kata sebagai kata standar dan kata msukan untuk masing-masing pengujian dengan
kata standar sebanyak sepuluh (10) kali Adapun kata yang digunakan sebagai standar dan kata yang diuji
adalah meliputi satu nyalasatu matidua nyaladua matitiga nyalatiga matiempat nyalaempat
mati
Pada pengujian sistem kali ini masih menggunakan datasuara dari pebgucap yang sama Dari kelima data
standar yang ada dilakukan pembandingan dengan masing-masing 10 (sepuluh) kali pemasukan data Data
yang menghasilkan jarak euclidian terpendek dari masing-masing kata itulah yang akan diambil sebagai
data perintah terbaik
Bab 4 Pengujian dan Analisa
46
Pelekukan Jalur Suara
0
50
100
150
0 50 100 150
Sinyal Input empat mati
Sinyal Standart
empat mati
Gambar 414 Pelekukan Jalur Suara dengan Dynamic Time Warping
Dari gambar 414 dapat dianalisa bahwa dengan menggunakan dynamic time warping dua buah sinyal suara
akan dibandingkan vektor-vektor spektralnya dimana juga terdapat proses pembandingan panjang sinyal
antara dua buah sinyal tersebut sehingga terjadi proses pemadanan panjang sinyal dengan cara
memperpanjang dan menekuk vektor spektralnya Memperpanjang dalam arti memperpanjang sinyal yang
lebih pendek dengan memperhatikan perbandingan vektor spektralnya dan demikian pula menekuk dalam
arti menekuk sinyal yang lebih panjang dengan memperhatikan vektor spektralnya Dengan panjang yang
sama sebagai hasil dynamic time warping maka jarak euclidian antara dua sinyal dapat diperbandingkan
atau dihitung
4211 Min Value dan Sorting
Min Value dan Sorting menjadi satu paket sendiri yang digunakan untuk mencari kemungkinan hasil
terkecil dari pembandingan pola kata masukkan dengan kedelapan kata standart Keluaran dari fungsi
dynamic time warping akan memberikan delapan buah data yaitu hasil pembandingan kata masukan
dengan kata standart satu nyala hasil pembandingan kata masukan dengan kata standart satu mati hasil
pembandingan kata masukan dengan kata standart dua nyala hasil pembandingan kata masukan dengan
kata standart dua mati hasil pembandingan kata masukan dengan kata standart tiga nyala hasil
pembandingan kata masukan dengan kata standart tiga mati hasil pembandingan kata masukan dengan
kata standart empat nyala hasil pembandingan kata masukan dengan kata standart empat mati Dengan
metode sorting buble sort maka akan didapat nilai minimalnya
0748745
0362272
0633390
0327642
0600250
0346530
Bab 4 Pengujian dan Analisa
47
0545907
0207464
Berdasarkan data diatas maka perintah input sama dengan perintah kedelapan (ldquoempat matirdquo) karena
memiliki hasil time warping terkecil yaitu 0207464
4212 Hasil Pengujian Awal dan Akhir Sinyal
Pada proses penentuan awal dan akhir agar lebih presisi menggunakan ldquoPowerrdquo Adapun kelebihan dari
power adalah dapat membedakan antara sinyal suara dengan sinyal noise
Untuk menentukan awal dan akhir dicari nilai power Pada proses power kata yang telah disampel
sebanyak 240 sampel akan menghasilkan sinyal yang halus dan terletak di atas sumbu x Hasil dalam bentuk
teks adalah sebagai berikut ini
7678195313
1165659297
123492625
8917128906
6318766797
4531086719
4338374609
4912630469
5382503125
4548908984
429756875
4739710547
4575902734
4682924609
4786217578
Bab 4 Pengujian dan Analisa
48
Gambar hasil power bisa dilihat pada gambar 415 berikut
Power
0
100000
200000
300000
400000
500000
0 50 100 150
Jumlah Frame
Amplitude
Gambar 415 Sinyal ldquoempat matirdquo hasil program power
Gambar 416 berikut ini adalah hasil pengujian kata ldquoempat matirdquo sebagai masukan dan kata standar ldquoempat
matirdquo dimana kedua kata dibandingkan berdasarkan powernya sebelum proses Dinamic Time Warping
Sinyal warna biru sebagai power sinyal standart dan sinyal yang berwarna merah merupakan power sinyal
input
Perbandingan Dua Kata empat mati
sebelum DTW
0
100000
200000
300000
400000
500000
0 50 100 150
Jumlah Frame
Amplitude
Gambar 416 Perbandingan power dua kata ldquoempat matirdquo sebelum Dynamic Time Warping
Berikut ini adalah hasil pengujian dua buah kata ldquoempat matirdquo dengan menggunakan dynamic time warping
dimana jalur pelekukan suara dapat digambarkan pada gambar 417
Bab 4 Pengujian dan Analisa
49
Pelekukan Jalur Suara
0
50
100
150
0 50 100 150
Sinyal Input empat mati
Sinyal Standart
empat mati
Gambar 417 Pelekukan jalur suara dua kata ldquoempat matirdquo dengan DTW
Gambar 418 adalah hasil pengujian dua buah kata ldquoempat matirdquo sebagai masukan dan dan kata standar
ldquoempat matirdquo dimana kedua kata dibandingkan berdasarkan powernya setelah proses dynamic time
warping
Gambar 418 dapat dibandingkan dengan gambar 416 yaitu sinyal sebelum proses Dynamic Time Warping
Sebelum proses Dynamic Time Warping sinyal tidak mengalami proses penekukan dan penarikan data
berdasarkan waktu antara keduanya sehingga antara sinyal input dan sinyal standart memiliki ukuran
panjang yang sangat jauh berbeda
Pemadanan Dua Kata Setelah DTW
0
100000
200000
300000
400000
500000
0 100 200 300
Jumlah Frame
Amplitude Power
Gambar 418 Perbandingan power dua kata ldquoempat matirdquo setelah Dynamic Time Warping
Dari gambar 418 dapat dinyatakan bahwa setelah melalui proses dynamic time warping terjadi penekukan
dan penarikan data berdasarkan waktu antara keduanya sehingga pada akhirnya kedua sinyal memiliki
ukuran panjang yang sama Sehingga dengan demikian dapat dicari jarak euclidian untuk menentukan
sebuah kata yang sesuai dengan kata yang lainnya
Bab 4 Pengujian dan Analisa
50
4213 Hasil Pengujian Sistem Perangkat Lunak
Pada pengujian sistem perangkat lunak diambil sampel data dari 3 orang dimana terdiri dari 3 orang pria
dan 1 orang wanita Pria pertama merupakan standar sekaligus pengisi suara untuk perintah Sedangkan pria
kedua dan wanita sebagai pembanding untuk mengetahui unjuk kerja sistem
Tabel 41 Hasil pengujian sistem pengolahan sinyal wicara untuk pengucap yang sama (pria
1)
8 7 6 5 4 3 2 1 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05417
03487
05964
03443
07272
04424
03449
01
961
Satu
nyala
Sinyal Standart
02496
04723
03013
05120
03450
03815
01
739
03471
Satu
mati
04389
02035
06139
03244
04343
02
158
04567
04047
Dua
nyala
01866
04517
04157
05267
01
940
02561
02036
04779
Dua
mati
04833
02168
03984
01
090
06409
04278
05019
02690
Tiga
nyala
02683
04628
01
188
03416
04046
03345
02959
04614
Tiga
mati
03807
01
046
05271
01974
05934
03134
04363
02554
Empat
nyala
01
388
03728
02269
04497
02559
03195
02476
04874
Empat
mati
Bab 4 Pengujian dan Analisa
51
16
15
14
13
12
11
10
9 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05776
02988
05100
04019
06101
05338
04219
02
047
Satu
nyala
Sinyal Standart
03382
04381
02427
05124
02642
05990
02
706
03335
Satu
mati
04453
02558
04993
04574
03381
02
344
04529
04121
Dua
nyala
01669
04532
03190
06355
01
004
04807
03466
04622
Dua
mati
05209
02261
03366
01
124
05377
04165
05369
02660
Tiga
nyala
03721
04074
00
891
03002
02637
05958
02719
04333
Tiga
mati
03889
01
755
04365
02341
04826
03150
05193
02472
Empat
nyala
01
092
03974
01802
04848
01455
05343
02717
04536
Empat
mati
Bab 4 Pengujian dan Analisa
52
24
23
22
21
20
19
18
17 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05157
04015
06277
02964
05609
04690
03376
01
369
Satu
nyala
Sinyal Standart
01787
05144
03814
04134
04952
04843
01
636
03404
Satu
mati
03988
03026
07420
03020
03977
01
905
04801
03610
Dua
nyala
01630
05662
06259
05009
01
808
03357
02206
05094
Dua
mati
04667
02681
05731
01
448
05575
03280
05344
03417
Tiga
nyala
01902
05055
03
395
02597
04700
04618
02951
04808
Tiga
mati
03809
01
863
06920
02154
04252
02455
04616
03184
Empat
nyala
00
761
04379
04288
04053
03629
04122
02419
05622
Empat
mati
Bab 4 Pengujian dan Analisa
53
32
31
30
29
28
27
26
25 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
04793
03554
06312
03247
06514
03585
03068
02
935
Satu
nyala
Sinyal Standart
01671
04661
03012
03961
02834
04667
01
079
05475
Satu
mati
04033
02359
05307
02587
03475
01
587
04781
04010
Dua
nyala
02222
04949
03652
04387
00
958
03222
02647
04966
Dua
mati
04499
02207
04170
01
873
05884
02500
05631
03257
Tiga
nyala
01791
04432
01
196
02646
02999
04619
02558
05048
Tiga
mati
03561
01
050
05061
02437
04927
01887
05325
03424
Empat
nyala
00
858
03774
02052
03974
01440
04186
02597
05381
Empat
mati
Bab 4 Pengujian dan Analisa
54
40
39
38
37
36
35
34
33 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
06471
03838
05816
03364
06492
03613
03496
01
111
Satu
nyala
Sinyal Standart
02951
05556
02631
04558
05057
04799
01
683
02958
Satu
mati
05259
02977
05228
03305
04614
00
878
05159
02707
Dua
nyala
03165
05686
03078
05512
01
088
03082
03482
04823
Dua
mati
05397
02037
03714
00
949
06365
02818
05998
02829
Tiga
nyala
02990
04867
00
921
02759
04978
04752
03131
04533
Tiga
mati
05028
01
233
05114
02070
05154
01825
05439
01975
Empat
nyala
01
914
04521
01834
04248
02711
04164
03149
04755
Empat
mati
Bab 4 Pengujian dan Analisa
55
48
47
46
45
44
43
42
41 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
07997
03701
06005
03992
05800
05223
03706
01
198
Satu
nyala
Sinyal Standart
03909
04978
02572
05339
05784
05103
01
161
03113
Satu
mati
06284
02355
05419
04194
03709
02
588
04764
02834
Dua
nyala
03737
04883
03321
06131
03
489
04229
03188
04962
Dua
mati
05885
02259
04026
00
918
06123
03601
05739
0 2867
Tiga
nyala
03583
04464
00
974
03340
05828
05114
02720
04269
Tiga
mati
05762
01
230
7
05459
02231
04899
03397
05114
0 2395
Empat
nyala
02
247
02888
01948
04994
04987
04505
02141
0 4956
Empat
mati
Bab 4 Pengujian dan Analisa
56
56
55
54
53
52
51
50
49 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05627
03923
06226
04018
05254
04895
02933
02
009
Satu
nyala
Sinyal Standart
02473
04947
02892
05661
05301
05040
01
289
03008
Satu
mati
04393
02779
06046
04425
02900
01
743
04571
02669
Dua
nyala
02222
05352
04171
06748
01
202
03736
03177
03699
Dua
mati
04644
02488
03523
00
835
05391
03319
05277
03671
Tiga
nyala
02213
04345
01
009
03758
02869
05933
02761
03900
Tiga
mati
04093
01
443
05080
05083
04959
02819
04840
02709
Empat
nyala
01
239
04029
0 2223
05428
01263
04236
02575
04141
Empat
mati
Bab 4 Pengujian dan Analisa
57
64
63
62
61
60
59
58
57 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
07489
03792
05134
04199
06459
04019
03044
01
850
Satu
nyala
Sinyal Standart
03586
04783
02186
05509
02884
04251
01
198
03243
Satu
mati
05697
02612
04576
04268
03211
01
519
04639
03845
Dua
nyala
03563
05288
02855
06752
01
074
03523
03265
04523
Dua
mati
05768
02262
03884
01
048
06348
02633
05784
02683
Tiga
nyala
03449
04859
01
009
03177
03425
04355
02975
04077
Tiga
mati
05693
01
445
04574
02498
05298
01999
05622
02359
Empat
nyala
02
236
04215
01468
05161
01827
03851
03161
04416
Empat
mati
Bab 4 Pengujian dan Analisa
58
72
71
70
69
68
67
66
65 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05439
02975
05593
03689
05796
03415
03416
01
492
Satu
nyala
Sinyal Standart
02225
04543
04586
04584
02669
04529
01
112
02881
Satu
mati
04025
02639
06303
03009
02582
01
003
05045
02767
Dua
nyala
01734
05437
04847
04897
00
826
02892
02584
04797
Dua
mati
04671
02336
04988
01
206
05595
02572
05647
02991
Tiga
nyala
02095
04805
04
025
02747
02848
04359
02773
04076
Tiga
mati
03971
01
297
05065
02121
04489
01703
05074
02131
Empat
nyala
00
901
04123
04026
04154
01514
03762
02328
04561
Empat
mati
Bab 4 Pengujian dan Analisa
59
80
79
78
77
76
75
74
73 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
07997
03054
06228
04446
05805
04687
03173
03
391
Satu
nyala
Sinyal Standart
05051
04619
05619
05749
02631
04447
01
086
05310
Satu
mati
05949
03685
05899
05607
03163
01
874
05234
03797
Dua
nyala
03109
05053
05258
07102
01
095
03368
03585
04539
Dua
mati
06473
02004
04524
01
350
05525
03084
05608
03682
Tiga
nyala
04759
04205
04
309
03701
03031
04660
02678
05243
Tiga
mati
05572
02
003
05167
02702
04478
02552
05358
03563
Empat
nyala
02
459
04960
04964
05734
01641
03971
02630
05029
Empat
mati
Pengujian pertama ini dilakukan dengan cara memasukkan suara pria pertama (yang digunakan sebagai
pengisi suara standart) Setiap satu perintah dilakukan sebanyak 10 kali pengujian Hasil pengujian
merupakan nilai dari hasil proses Dynamic Time Warping yang merupakan nilai dari pemadanan sinyal
input dengan kedelapan sinyal standart Nilai terkecil (nilai yang tercetak tebal) yang didapatkan merupakan
hasil yang paling mendekati sinyal standart Yang berarti sinyal masukan tersebut dianggap paling sesuai
dengan sinyal standart
Prosentase keberhasilan pengucapspeaker pertama untuk kedelapan perintah sebesar 100 semuanya
menunjukkan kepada sinyal masukkan dan sinyal standart yang sama
Hasil pengujian menunjukkan bahwa ciri sinyal suara yang dihasilkan oleh pengucap speaker pertama dan
sebagai pemberi standart adalah sama
Bab 4 Pengujian dan Analisa
60
Tabel 42 Hasil pengujian sistem pengolahan sinyal wicara untuk pengucap yang lain (pria
2)
8 7 6 5 4 3 2 1 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
06023
05121
07146
04599
04996
04561
07575
04
358
Satu
nyala
Sinyal Standart
04018
05701
06369
06256
03518
05738
07004
08129
Satu
mati
07120
03925
07395
04897
05938
02246
10082
06777
Dua
nyala
04963
05958
05189
07345
03449
04854
08816
08543
Dua
mati
05919
04337
05163
02
130
04797
03463
08871
05289
Tiga
nyala
03709
04519
04380
03601
03491
05239
06
046
07381
Tiga
mati
06087
03
161
06178
03280
05
068
02
439
08853
05354
Empat
nyala
03
409
04321
04
208
05569
03219
04898
06863
08596
Empat
mati
Bab 4 Pengujian dan Analisa
61
16
15
14
13
12
11
10
9 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05475
03932
05521
04
383
05634
05416
04
464
03
434
Satu
nyala
Sinyal Standart
04076
05731
04541
05681
03574
04920
03971
06662
Satu
mati
07427
04886
07924
05962
05824
02
712
07837
05504
Dua
nyala
04475
06666
05765
07616
03414
04203
05431
06334
Dua
mati
05357
03797
05099
04509
04902
04332
07097
05220
Tiga
nyala
04197
05134
04
209
05088
03169
04547
04464
06516
Tiga
mati
05936
03
769
05910
05109
05
311
03435
07646
04977
Empat
nyala
03
576
05767
04591
06367
03010
04129
04944
06850
Empat
mati
Bab 4 Pengujian dan Analisa
62
24
23
22
21
20
19
18
17 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
06927
04
279
08096
04
448
06461
05522
03935
02
444
Satu
nyala
Sinyal Standart
06409
05322
05528
05481
04912
04491
02
011
05508
Satu
mati
06134
04643
08962
06002
04868
02
579
06122
05502
Dua
nyala
04753
06443
05501
07364
02
298
03206
04239
06684
Dua
mati
05709
04928
05456
04961
06142
05726
06454
03831
Tiga
nyala
05798
04882
03
235
04708
04838
04317
03526
05462
Tiga
mati
05021
04423
06842
05583
05222
04132
06363
04235
Empat
nyala
04
457
05427
03546
05773
02946
03573
03618
07019
Empat
mati
Bab 4 Pengujian dan Analisa
63
32
31
30
29
28
27
26
25 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05260
04224
07393
04661
06292
04993
03989
03
549
Satu
nyala
Sinyal Standart
04478
04669
04568
05977
03523
04046
03
438
04819
Satu
mati
06448
04308
08152
06114
04665
02
444
07609
05162
Dua
nyala
04024
05867
05103
07873
01
872
02613
04489
06765
Dua
mati
05363
04
672
05250
04
529
05210
05103
06546
04794
Tiga
nyala
04422
04039
02
482
05102
03499
03985
03969
04371
Tiga
mati
05492
04073
06626
05239
04902
03553
06869
04794
Empat
nyala
03
326
04543
03153
06510
02133
03419
04175
05287
Empat
mati
Hasil pengujian yang kedua ini dilakukan dengan cara memasukkan suara dari pria kedua (pria lain yang
tidak digunakan sebagai suara standart) Setiap satu perintah dilakukan empat (4) kali proses pengujian
Hasil pengujian merupakan nilai dari hasil proses Dynamic Time Warping yang merupakan nilai dari
pemadanan sinyal input dengan kedelapan sinyal standart Nilai terkecil (nilai yang tercetak tebal) yang
didapatkan merupakan hasil yang paling mendekati sinyal standart Yang berarti sinyal masukan tersebut
dianggap paling sesuai dengan sinyal standart
Prosentase keberhasilan pengucapspeaker kedua untuk kedelapan perintah bervariasi sebesar 50
sampai dengan 100 semuanya menunjukkan kepada sinyal masukkan dan sinyal standart yang berbeda
Hasil pengujian menunjukkan bahwa ciri sinyal suara yang dihasilkan oleh pengucap speaker kedua dan
sebagai pemberi standart adalah mendekati sama
Bab 4 Pengujian dan Analisa
64
Tabel 43 Hasil pengujian sistem pengolahan sinyal wicara untuk pengucap yang sama (pria)
No Perintah Lampu DTMF
1 1 nyala B B
2 1 mati B G
3 2 nyala B G
4 2 mati G X
5 3 nyala G X
6 3 mati G X
7 4 nyala B B
8 4 mati B B
9 1 nyala B G
10 1 mati B B
11 2 nyala B G
12 2 mati B B
13 3 nyala B G
14 3 mati B B
15 4 nyala B G
16 4 mati B B
17 1 nyala B G
18 1 mati B B
19 2 nyala G X
20 2 mati G X
21 3 nyala B B
22 3 mati B B
23 4 nyala B B
24 4 mati G X
No Perintah Lampu DTMF
25 1 nyala B G
26 1 mati G X
27 2 nyala G X
28 2 mati B G
29 3 nyala B G
30 3 mati B G
31 4 nyala B G
32 4 mati G X
B Berhasil
G Gagal
X Donrsquot Care (Diabaikan)
Pengujian yang ketiga ini dilakukan oleh pria pertama (pria yang suaranya digunakan sebagai standart)
Masing-masing perintah dilakukan sebanyak empat kali pengujian
Bab 4 Pengujian dan Analisa
65
Pada kolom ketiga (kolom lampu) tanda B (berhasil) menunjukkan bahwa perintah yang diberikan pada
hardware berhasil dilakukan Tanda G (gagal) menunjukkan bahwa perintah yang diberikan pada hardware
gagal dilakukan(hasil tidak sesuai dengan perintah yang diberikan)
Pada kolom keempat (kolom DTMF) menunjukkan laporan dari hardware ke PC server tentang
bagaimana keadaan lampu yang sedang dikontrol apakah dalam keadaan menyala atau mati Pada kolom ini
tanda B (berhasil) menunjukkan bahwa laporan dari hardware ke PC server (yang merupakan proses
otomatisasi) berhasil dilakukan Tanda G (gagal) menunjukkan bahwa laporan ke PC client gagal dilakukan
Sedangkan tanda X (donrsquot care) menunjukkan bahwa perintah diabaikan Hal ini disebabkan perintah pada
hardware (perintah sebelumnya sebelum proses otomatisasi) sudah gagal dilakukan
Prosentase keberhasilan pengucapspeaker pertama untuk kedelapan perintah bervariasi antara 50
sampai 100 semuanya menunjukkan kepada sinyal masukkan dan sinyal standart yang berbeda
Hasil pengujian kedua ini menunjukkan bahwa ciri sinyal suara yang dihasilkan oleh pengucapspeaker
kedua ini yang merupakan suara orang lain (bukan pemberi standart) adalah mendekati sama dengan hasil
yang bervariasi antara 50 sampai 100
43 Pengujian Sistem Client Server
Pada sub bab ini akan diujikan program Client Server yang akan mengirimkan sinyal hasil pengolahan
suara
Tampilan pada client adalah seperti gambar 421 yang merupakan tampilan awal pada saat program
dimulai
Gambar 421 Proses pada client
Bab 4 Pengujian dan Analisa
66
Gambar 422 Proses pada server
1 Sebelumnya program server harus disiapkan lebih dulu
2 Setelah itu client dijalankan
3 Setelah client siap user memasukkan suara yang selanjutnya akan diolah sampai proses DTW
4 Server menerima data yang selanjutnya digunakan untuk melakukan kontrol alat rumah tangga
44 Analisa Pengujian Sistem Secara Keseluruhan
Berdasarkan data-data yang telah didapatkan di atas maka dapat ditarik suatu analisa bahwa
Berdasarkan tabel 44 untuk pengujian pertama pria 1 adalah pria yang suaranya digunakan sebagai standart
Prosentase keberhasilan rata-rata yang didapat untuk semua perintah adalah sebesar 100 Hal ini menunjukkan
bahwa suara yang diujikan adalah suara yang sama dengan standart dan pria 1 tersebut pernah berinteraksi
dengan sistem
Pengujian yang kedua adalah pengujian yang dilakukan oleh pria 2 (pria lain yang suaranya tidak
dipakai sebagai standart) Prosentase keberhasilan rata-rata yang didapat untuk semua perintah 7188 Karena
sistem bersifat dependent speaker dimana sistem hanya digunakan oleh orang tertentu dalam arti yang pernah
berinteraksi langsung dengan sistem Oleh karenanya didapat nilai prosentase keberhasilan yang bervariasi
Bab 4 Pengujian dan Analisa
67
Tabel 44 Tingkat keberhasilan sistem perangkat lunak
NNO
PENGUCAP
PERINTAH
BANYAK
PERCOBAAN
PROSENTASE
KEBERHASILAN
1 Pria 1 1 nyala 8 kali 100
2 1 mati 8 kali 100
3 2 nyala 8 kali 100
4 2 mati 8 kali 100
5 3 nyala 8 kali 100
6 3 mati 8 kali 100
7 4 nyala 8 kali 100
8 4 mati 8 kali 100
RATA-RATA 100
9 Pria 2 1 nyala 4 kali 100
10 1 mati 4 kali 75
11 2 nyala 4 kali 75
12 2 mati 4 kali 50
13 3 nyala 4 kali 50
14 3 mati 4 kali 75
15 4 nyala 4 kali 50
16 4 mati 4 kali 100
RATA-RATA 7188
Jika diurutkan proses pengolahan wicara dari awal sampai diambil keputusan suara yang dimasukkan
tersebut adalah suara yang sesuai atau tidak adalah sebagai berikut
Bab 4 Pengujian dan Analisa
68
Gambar 423 Tampilan awal perangkat lunak menggunakan TclTk dan Snack
Gambar 423 adalah tampilan awal dari perangkat lunak yang dibangun dengan menggunakan TclTk dan
Snack
Gambar 424 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan dengan
menggunakan perangkat lunak Wavesurver
Gambar 424 adalah tampilan awal dari program Wavesurver yang merupakan pembanding dari program
yang dibuat dari perangkat lunak TclTk dan Snack
Bab 4 Pengujian dan Analisa
69
Gambar 425 Tampilan awal perangkat lunak
menggunakan TclTk dan Snack
Gambar 425 adalah tampilan ketika proses pengambilan sinyal suara sedang dilakukan dengan perangkat
lunak TclTk dan Snack
Gambar 426 Tampilan hasil perekaman kata ldquoempat
matirdquo dengan menggunakan perangkat lunak Wavesurver
Gambar 426 adalah tampilan ketika proses pengambilan sinyal suara sedang dilakukan dengan perangkat
lunak Wavesurver
Bab 4 Pengujian dan Analisa
70
Data Sampling
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 427 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900 menggunakan TclTk dan
Snack
Pada gambar 427 dilakukan proses sampling sinyal masukan dengan frekuensi sampling sebesar 12000
Hz maka didapatkan hasil sinyal yang hampir mirip dengan sinyal analognya yang dilakukan dengan
perangkat lunak TclTk dan Snack
Gambar 428 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900 dengan menggunakan
perangkat Wavesurver
Pada gambar 428 dilakukan proses sampling sinyal masukan dengan frekuensi sampling sebesar 12000
Hz yang dilakukan dengan perangkat lunak Wavesurver
Data Windowing
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 429 Hasil Windowing data sampel
kata ldquoempat matirdquo milidetik ke-13900 menggunakan TclTk dan Snack
Bab 4 Pengujian dan Analisa
71
Proses windowing terdapat pada gambar 429 dilakukan untuk membuat sinyal yang disampel lebih
halus Proses windowing ini dilakukan dengan menggunakan perangkat lunak TclTk dan Snack
Proses windowing pada Wavesurver merupakan fasilitas yang tergabung dengan proses lainnya Misal
dengan proses Fast Fourier Transform Jadi disini tidak ditampilkan hanya sebagai proses windowing saja
tetapi digabungkan dengan proses lain
Fast Fourier Transform Sinyal
Masukan
0
20
40
60
80
100
120
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 430 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat
lunak TclTk dan Snack
Gambar 430 di atas adalah proses Fast Fourier sinyal masukan dengan perangkat lunak TclTk dan Snack
Hasil Fast Fourier Transform sinyal masukan menunjukkan sebaran spektrum frekuensi dari sinyal suara
yang telah dihasilkan oleh pengucap
Sebagai pembanding adalah proses Fast Fourier sinyal masukan yang diambil dengan Wavesurver seperti
pada gambar 431 Yang didapatkan hasil yang sama
Gambar 431 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat Wavesurver
Bab 4 Pengujian dan Analisa
72
Fast Fourier Transform Parameter
LPC
0
20
40
60
80
100
0 2000 4000 6000 8000
Frekuensi (Hz)10 x log
10(magnitude)(dB)
Gambar 432 Fast Fourier Transform LPC dengan menggunakan perangkat lunak TCLTk
dan Snack
Hasil gambar 432 menunjukkan proses Fast Fourier Transform LPC yang dilakukan dengan perangkat
lunak TclTk dan Snack
Gambar 433 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat Wavesurver
Proses Fast Fourier Transform yang dilakukan dengan Wavesurver dapat dilihat pada gambar 433
Pelekukan Jalur Suara
0
50
100
150
0 50 100 150
Sinyal Input empat mati
Sinyal Standart
empat mati
Gambar 434 Pelekukan Jalur Suara dengan Dynamic Time Warping
Bab 4 Pengujian dan Analisa
73
Dari gambar 434 dapat dianalisa bahwa dengan menggunakan dynamic time warping terdapat proses
pembandingan panjang sinyal antara dua buah sinyal input dan sinyal standart sehingga terjadi proses
pemadanan panjang sinyal dengan cara memperpanjang dan menekuk vektor spektralnya
74
BAB 5
PENUTUP
51 Kesimpulan
Dari hasil yang didapatkan maka dapat diambil kesimpulan bahwa
Sistem pengucap tak bebas atau speaker dependent system memiliki tingkat akurasi yang tinggi untuk
pengucap masukan dan pengucap standar yang sama Hal ini dibuktikan dengan hasil pengujian pertama
yang dilakukan oleh pria pertama Pria pertama ini adalah pria yang suaranya digunakan sebagai standar
Nilai prosentase keberhasilan rata-rata untuk semua perintah adalah sebesar 100 dari setiap perintah
dilakukan 8 kali percobaan
Sedangkan pengujian yang dilakukan oleh suara lain (bukan standart) prosentatase keberhasilan
rata-rata yang diperoleh untuk semua perintah 7188 dari setiap perintah dilakukan 4 kali percobaan Hal
ini disebabkan karena suara pria kedua tidak pernah berinteraksi dengan sistem
Keberhasilan sistem ditunjukkan oleh ketepatan penyalaan lampu sesuai dengan yang diperintahkan
melalui perintah suara
Kecepatan sistem secara keseluruhan diperlihatkan dalam tabel 51 dibawah
Tabel 51 Kecepatan sistem keseluruhan
No
Perintah
Waktu (detik)
1 2 3 4 Rata-rata
1 Satu Nyala 11 99 12 25 16 89 14 05 13 80
2 Satu Mati 12 51 13 28 14 83 12 25 13 22
3 Dua Nyala 10 70 11 73 11 99 12 25 11 67
4 Dua Mati 10 44 11 21 11 21 11 47 11 08
5 Tiga Nyala 10 96 12 25 13 54 12 51 12 32
6 Tiga Mati 10 70 11 99 11 99 13 28 11 99
7 Empat Nyala 11 73 11 99 13 02 12 24 12 25
8 Empat Mati 10 70 09 93 11 21 10 70 10 64
Rata-rata 12 12
Dari data yang diperoleh didapatkan kecepatan rata-rata untuk tiap perintah yang diberikan sampai
dengan terlaksananya eksekusi dari perintah adalah 12 12 detik
52 Saran
Pada penelitian ini masih sangat banyak hal yang dapat dilakukan untuk perbaikan-perbaikan dimasa
selanjutnya Saran dan usulan yang dapat dipertimbangkan untuk pengembangan sistem lebih lanjut adalah
antara lain
1 Sistem tidak lagi bersifat dependent speaker tetapi bersifat independent speaker dimana banyak
orang yang memberi perintah dan sistem dengan tepat memberikan respon
2 Sistem dapat mengatasi tingkat noise yang tinggi baik yang disebabkan oleh lingkungan atau oleh
hardware (sound card)
75
3 Otomatisasi sistem Artinya perintah tidak perlu lagi diberikan lewat penekanan tombol yang
dilakukan melalui mouse
4 Respon sistem yang real time
5 Sistem yang dapat dengan mudah beradaptasi dengan jenis sound card yang bervariasi
DAFTAR PUSTAKA
Anggraeni Triana Dewi Astutik Debi Puji Pengenalan Wicara Dengan Penutur Tak Bebas
Tugas Akhir PENS ITS 2003
Wahyudi Agus Verifikasi Sinyal Suara Sebagai Kendali Arah TA PENS-ITS 2002
Dewantara Bima Sena Bayu Aplikasi Pengenalan Wicara Untuk Perintah NirkabelRobot Mikro
Mouse Tugas Akhir PENS ITS 2004
Dutono Titon Penataran Kebahasaan Tahap I Fonetik Dan Fonologi ndashPengolahan Sinyal
Wicara Digital 20 Februari 2001
Gabel Robert A Richard A Robert Sinyal dan Sistem LinierErlangga 1996
Rabiner Lawrence Huang Juang Biing Fundamentals of Speech Recognition Prentice Hall
International Inc1993
Proakis John G Malonakis Dimitris G Digital Signal Processing Principles Algorithms and
Applications Prentice Hall Inc New Jersey 1995
Scolander Kare Snack Sound Toolkit
httpwwwtcltkmantcl85tutorialTcl11html
httpwikitcltk4074
httpwwwinveceorgtclwisefrontcoverhtml
httpwwwspeechkthsesnackmansnack22tcl-manhtml
httpwwwspeechkthsesnacktutorialhtml
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13]
Bab 2 Teori Penunjang
3
BAB 2
TEORI PENUNJANG
21 Sistem Pengolahan Sinyal Wicara
211 Sinyal Suara Manusia
Manusia menggunakan suara sebagai sumber informasi untuk mengkomunikasikan keinginan ide dan
perasaannya kepada orang lain Organ tubuh manusia yang digunakan dalam proses produksi wicara adalah
paru-paru tenggorokan(trachea) laring faring rongga hidung(nasal cavity) dan rongga mulut(oral cavity)
Pembangkitan sinyal wicara terletak pada bentuk lintasan vokalnya(vocal tract) Lintasan vokal tersebut terdiri
atas di bawah katup tenggorokan (laryngeal pharynx) antara langit-langit lunak katup tenggorokan (oral
pharynx ) di atas velum dan di ujung depan rongga hidung (nasal pharynx) dan rongga hidung (nasal cavity)1
seperti ditunjukkan gambar 21
Gambar 21 Skema diagram organ penghasil sinyal
Wicara2
Model generator wicara atau model sintesa suara yang dipakai dan menjadi dasar dari pemrosesan
sinyal wicara hingga dewasa ini adalah apa yang dinamakan Analog Terminal seperti pada gambar 22
1 Dewantara Bima Sena Bayu Aplikasi Pengenalan Wicara Untuk Perintah Nirkabel Robot Mikro Mouse TA PENS ITS 2004 hal 5 2 Dutono Titon Penataran Kebahasaan Tahap I Fonetik dan Fonologi Pengolahan Sinyal Wicara Digital 20 Februari 2001
Bab 2 Teori Penunjang
4
Gambar 22 Struktur umum model generator wicara3
Pada model ini sinyal eksitasi(glotal wave) yang berasal dari getaran pita suara diumpankan ke suatu
filter yang merupakan suatu model pendekatan dari lintasan vokal (vocal tract) untuk menghasilkan sinyal
wicara Model analog terminal ini disebut juga pensintesa formant Dasar pendekatan model ini adalah bahwa
lintasan suara adalah suatu bumbung akustik (acoustical cavity) yang mempunyai karakteristik berdasarkan
perpaduan beberapa frekuensi resonansinya Dengan demikian fungsi transfernya dapat didekati dengan
pendekatan kombinasi riam (cascade combination) dari beberapa rangkaian resonansinya Dengan analogi yang
sama sistem ini dapat dibangun dari beberapa rangkaian resonansi yang mempunyai parameter lebar bidang dan
frekuensi resonansi yang selalu berubah setiap saat membentuk suatu sistem berubah waktu (time variant
system)
Struktur sistem pengenal wicara yang ada dapat dibagi menjadi 2 yaitu
1) Mempergunakan pola standart dengan unit kata
Gambar 23 Pola standart dengan unit kata4
2) mempergunakan pola standart dengan unit fonem
yang dilengkapi dengan kamus kosa kata
3 Ibid 4 Ibid
Ekstraksi ciri
Pola standar kata
Pemadanan kata
Algoritma keputusan
Sinyal wicara Output teks
Bab 2 Teori Penunjang
5
Gambar 24 Pola standart dengan unit fonem5
Pada sistem pertama mampu mencakup fenomena koartikulasi tapi tidak fleksibel terhadap perubahan
kosa kata
Sinyal wicara adalah sinyal yang dihasilkan oleh suara manusia dan biasanya mempunyai frekuensi
kerja antara 0 sampai dengan 5000 Hz Bentuk gelombang sinyal wicara mempunyai bentuk yang unik seperti
gambar 23
Gambar 25 a)Sinyal wicara untuk bunyi a pada satu frame pada wanita
b)Sinyal wicara untuk bunyi a pada satu frame pada pria
Berdasarkan gambar 25 terlihat bahwa setiap satu frame terdapat 120 sample yang bersifat quasi
periodik dan mempunyai unsur bunyi terkecil yang disebut sebagai pitch Panjang pitch berkisar 10 ms Pitch
manusia berbeda satu sama lain terutama jenis kelamin laki-laki dan perempuan
212 Sampling
Sinyal wicara merupakan sinyal yang tidak terbatas dalam domain waktu (finite time interval) Suara
manusia akan menghasilkan sinyal analog yang terus kontinyu Untuk keperluan pemrosesan dalam transformasi
fourier maka sinyal wicara harus dibentuk dalam potongan-potongan waktu yang terbatas (infinite time interval)
Karena itu sinyal yang ada dipotong-potong dalam slot-slot interval waktu tertentu
Berdasarkan pada teori sampling Niquist maka syarat dari frekuensi sampling adalah minimal dua kali
frekuensi sinyal
Fsampling 2 x Fsignal ( 21)
Ekstraksi ciri
Pola standar fonem
Pemadanan fonem
Kamus kosa kata
Pemadanan kata
Algoritma keputusan
Sinyal wicara
-20000
-15000
-10000
-5000
0
5000
10000
15000
0 20 40 60 80 100 120 140
pitch -10000
-8000
-6000
-4000
-2000
0
2000
4000
6000
8000
0 20 40 60 80 100 120 140
pitch
Output teks
Bab 2 Teori Penunjang
6
Contoh dari sampling seperti bisa kita lihat pada gambar di bawah
Gambar 26 Contoh proses sampling dengan nilai frekuensi pencuplikan yang berbeda
6
Frekuensi sampling yang digunakan adalah 12000 Hz
Dimana dalam 1 detik sinyal terdapat 12000 titik sampling
213 Preemphasis
Proses preemphasis dimaksudkan agar spektrum sinyal merata di semua frekuensi serta mencegah
kehilangan informasi akibat proses pembulatan pada saat komputasi Fungsi preemphasis adalah
H (z) = 1 ndash az-1 09 le a le 1 (22)
dimana nilai a berkisar 095 Berdasarkan model filter di atas maka keluaran dari preemphasis adalah
s (n) = s (n) - as (n-1) ( 23)
Penjabarannya sebagai berikut
5 Ibid 6 Ibid
Fi = 1000 Hz
Fs = 1250 Hz
Fs = 1000 Hz
Fs = 4000 Hz
Fs = 8000 Hz
Fs 2Fi
Kriteria Nyquis
Fi Frekuensi sinyal informasi Fs Frekuensi pencuplikan
H X Y
T 1 = 12000 = 833 x 10-5 s = 833 μs
10 ms = 833μs x N sample N = 120 sample
Bab 2 Teori Penunjang
7
y = H x
y = (1-az-1) xn
y = xn - 095 xn z-1
y = xn ndash 095 xn - 1
214 Frame Blocking
Sinyal wicara yang telah dipreemphasis s (n) diblok dalam M sampel dimana N 2 x M seperti yang
ditunjukkan pada gambar 27 Jika M le N pergeseran frame akan mengalami overlape hasil perkiraan LPC
spectral akan dikorelasikan dari frame 1 ke frame berikutnya Jika M laquo N perkiraan LPC spectral dari satu frame
ke frame lainnya akan sangat halus (smooth) Dan bila M gt N maka tidak akan ada overlape diantara frame yang
berbatasan dan sinyal suara akan hilang sama sekali dan korelasi diantara perkiraan spectral LPC dari frame
yang berbatasan akan berisi komponen noise
Gambar 27 Pergeseran Frame pada Sinyal Suara
dengan M = 13 N
Sehingga didapatkan nilai dari sinyal yang baru adalah sebagai berikut
x1(n) =s(M 1+n) n =012hellipN ndash 1 l = 012hellipLndash1 (24 )
215 Windowing
Merupakan proses membatasi lebar sinyal yang akan dianalisa yang dapat mengurangi efek
diskontinyuitas pada ujung-ujung frame yang dihasilkan oleh potongan-potongan sinyal Korelasi antara lebar
window dalam domain waktu dan amplitude berguna untuk menyederhanakan sinyal dengan mengurangi
puncak sinyalnya
Ada beberapa jenis windowing yang dinamakan sesuai dengan nama penemunya yaitu
Bab 2 Teori Penunjang
8
Window Hamming
052-046 cos[2лn(N-1)] 0 le n le N-1
Wham(n) =
0 elsewhere
Window Hanning
1-cos[2лn(N-1)] 2 0 le n le N-1
Whan(n) =
0 elsewhere
Window Bartlett
1-cos[2лn(N-1)] 2 0 le n le (N-1)2
WB(n) = 2-2n(N-1) (N-1)2lenleN-1
0 elsewhere
Window Blackman
042-05cos[2лn(N-1)]+008cos[4лn(N-1)]0lenleN-1
WBl(n) =
0 elsewhere
216 Fourier Transform
Transformasi Fourier Diskrit (DFT) adalah deretan yang terdefinisi pada kawasan frekuensi ndash diskrit
yang merepresentaskan Transformasi Fourier terhadap suatu deretan terhingga (Finite Duration Sequence) DFT
berperan penting untuk implementasi algoritma suatu varitas pengolah sinyal karena efisien untuk komputasi
berbagai aplikasi
Salah satu contoh aplikasi komputasi DFT dalam algoritma yang efisien yaitu Fast Fourier Transform
(FFT) Efisiensi suatu algoritma ditentukan dari sejauh mana dapat mereduksi jumlah perkalian dan
penjumlahan serta reduksi lalu lintas data pada memori komputer sehingga proses lebih cepat
Pada DFT untuk memproses N buah titik diperlukan (N-1)perkalian kompleks dan N(N-1)
penjumlahan kompleks Bila N cukup besar dibutuhkan memori yang besar dan waktu yang cukup lama Untuk
itu digunakan metode lain yang lebih cepat yaitu metode transformasi fourier cepat (FFT) FFT dilakukan
dengan membagi N buah titik pada transformasi fourier diskrit menjadi 2 masing-masing N2 titik trnsformasi
Pemecahan menjadi dua pada proses transformasi fourier cepat disebut sebagai proses rekombinasi Dua buah
N2 titik transformasi mempunyai 2(N2) = N2 perkalian Proses memecah menjadi dua ini diteruskan dengan
membagi setiap (N2) titik transformasi menjadi dua buah (N4) titik transformasi setiap (N4) menjadi dua buah
Bab 2 Teori Penunjang
9
(N8) titik transformasi dan seterusnya hingga diperoleh junlah titik yang minimum Jika besarnya N merupakan
kelipatan pangkat dari 2 (disebut radiks 2) maka jumlah titik minimum setelah setiap kali dibagi 2 adalah dua
Ada dua macam metode FFT metode Decimation in Time (DIT) dan metode Dicimation in Frekuensi
(DIF) Kedua metode ini hamper sama Pada metode FFT-DIT N buah titik transformasi dibagi 2 menjadi fungsi
ganjil dan genap masing-masing mempunyai N2 titik transformasi Sedang pada metode FFT-DIF N buah titk
transformasi dibagi menjadi fungsi N2 titk yang pertama dan fungsi N2 titik yang kedua
Operasi pada metode FFT-DIT disebut juga metode kupu-kupu Untuk N buah titik transformasi h(n)
algoritma radiks 2 memerlukan proses perkalian dan rekombinasi sebanyak N2 log N transformasi fourier
diskrit Pada metode FFT-DIT operasi dekomposisi dilakukan dengan membagi fungsi h(n) menjadi 2 bagian
fungsi ganjil dan fungsi genap Atau dengan pernyataan matematika h1(n) dan h2(n) yang masing-masing adalah
untuk n genap dan n ganjil
Prinsip FFT dengan metode DIT adalah seperti pada gambar 24 berikut ini
Gambar 28 Blok metode FFT-DIT 8 titik
7
Pada gambar di atas merupakan jumlah perkalian kompleks N2 log N juga jumlah penjumlahan
kompleks = N2 log N
217 Linear Prediction Code
Ide dasar dari LPC adalah bahwa pada model ini memberikan sampel suara pada domain waktu yang
bisa didekati sebagai kombinasi linear dari sampel suara yang telah lalu
Teori Linear Prediction Coding (LPC) yang diaplikasikan pada wicara telah dimengerti selama
beberapa tahun Pada bagian ini akan dijelaskan dasar dari bagaimana LPC diaplikasikan pada sistem pengenlan
wicara
Sebelum menjelaskan LPC secara umum sebagai pemrose front-end untuk pengenalan wicara perlu
diketahui alasan mengapa LPC sangat banyak digunakan yaitu
1 LPC menyuguhkan model yang bagus untuk sinyal wicara
2 Cara yang digunakan LPC untuk analisa sinyal wicara sangat beralasan untuk pemisahan track dari
sumber vocal
3 LPC adalah model traktabel secara analitis
Bab 2 Teori Penunjang
10
4 Model LPC bekerja dengan baik pada aplikasi pengenalan
2171 Autocorrelation Analysis
Masing-masing frame sinyal yang telah diwindow kemudian di-autokorelasikan dengan menggunakan
persamaan
N-1-M
r1(m) = sum x1(n) x1(n+m) m = 0 1 p ( 25) (25)
n = 0
dimana nilai autokorelasi tertinggi p adalah orde dari analisi LPC Pada umumnya nilai dari p yang
sering digunakan adalah dari 8 sampai 16 Sisi menguntungkan dari analisis autokorelasi adalah bahwa
autokorelasi ke-0 R1 (0) adalah energi dari frame ke-1 Energi dari frame merupakan parameter
penting untuk system deteksi wicara
2172 LPC Analysis
Langkah selanjutnya adalah analisis LPC dimana mengkonversi masing-masing frame dari
auto korelasi p+1 ke dalam sebuah ldquoLPC Parameter Setrdquo dimana kumpulan itu merupakan koefisien
LPC koefisien refleksi atau PARCOR koefisien log area ratio koefisien Cepstral atau beberapa
transformasi pada kumpulan tersebut
Metode yang formal untuk mengkonversi dari koefisien autokorelasi ke sebuah LPC parameter
set (untuk metode autokorelasi) dikenal sebagai Metode Durbin dan secara formal dapat ditunjukkan
pada algoritma berikut ini
E(0) = r(0) ( 26)
Ki=r(i)-sumαj(i-1) r(|i-j|)E(i-1) 1 le I le p ( 27)
αi(i) = ki (28)
αj(i) = αj
(i-1)-ki α(i-1) ( 29)
t-j
E(i)=(1-ki2)E (i-j) (210)
dimana penyajian akhir dari persamaan mengabaikan i=1 Kumpulan dari persamaan hellipdiselesaikan secara
rekursif untuk i=12hellipp dan penyelesaian akhir diberikan sebagai
am=koefisien PC=αm 1lemlep ( 211)
7 Agus Wahyudi Verifikasi Sinyal Suara Sebagai Kendali Arah TA PENS-ITS 2002
Bab 2 Teori Penunjang
11
km=koefisien PARCOR ( 212)
1 - km
gm=koefisien log area ratio = log ----------- ( 213)
1 + km
2173 LPC Parameter Corversion to Cepstral Coefficients
Sekumpulan parameter LPC yang sangat penting yang dapat diturunkan langsung dari kumpulan LPC
adalah koefisien cepstral LPC c(m) Rekursif yang digunakan adalah
co = ln σ2 ( 214)
m-1
cm = am + sum ck am-k 1 le m le p ( 215)
k = 1
m-1
cm = sum ck am-k m gt p
k = 1
dimana σ2 adalah penguatan dalam model LPC Koefisien cepstral koefisien yang direpresentasikan dengan
fourier transform dengan spectrum besaran log telah ditampilkan menjadi kumpulan fitur untuk pengenalan
wicara yang lebih handal terpercaya daripada koefisien LPC koefisien PARCOR atau koefisien log area ratio
218 Dynamic Time Wraping
Dynamic Time Wraping (DTW) merupakan cara untuk membandingkan pola wicara dalam menentukan
kesamaan jarak antara pola-pola yang berbeda Dimana pengenalan wicara merupakan proses secara otomatis
dalam mengambil dan menentukan informasi linguistic yang disampaikan dengan gelombang wicara
menggunakan komputer atau sirkuit elektronik Informasi linguistic tersebut pada akhirnya akan
direpresentasikan dengan deretan waktu vektor-vektor spektral
Metode nolmalisasi waktu menggunakan dua buah fungsi warping
ix = Фx (k) k = 123hellipT (216)
iy = Фy (k) k = 123hellipT
2181 Dynamic Programming
Dynamic Programming (DP) digunakan untuk memecahkan masalah deteksi pengurutan kemampuan
menggunakan pola pengenalan wicara dan masalah waktu penjajaran dan normalisasi Ada dua tipe masalah
penggunaan Dynamic Programming yaitu
(
)
k m
( )
K m ( )
Bab 2 Teori Penunjang
12
1 Masalah jalan optimal dengan menganggap sekumpulan titik mulai dari 1 sampai dengan N yang
dihubungkan dengan pasangan setiap dari titik (ij) Representasi perpindahan secara langsung dari titik
ke-1 ke titik yang lainnya Rentetan perpindahan tersebut tidak mempunyai bilangan yang ditetapkan
dari transisi satu titik ke titik yang lainnya hal ini disebut rentetan keputusan asinkron
Dengan Terminologi sederhana kita membuat garis keputusan untuk menetukan titk berikutnya setelah
kebijaksanaan pada titik i
Prinsip dari optimalisasi yang merupakan kelas dasar dari algoritma komputasi untuk optimasi masalah
di atas berdasarkan pernyataan Bellman
rdquoKebijakan optimasi yang memiliki sifat apapun ketetapan dan ketentuannya keputusan berikutnya
harus merupakan hasil ketetapan dari keputusan yang pertamardquo
2 Masalah keputusan rentetan sinkronisasi terdapat perbedaan dari satu sinkronisasi yang beraturan dari
proses keputusan
Penggunaan teknik Dynamic Programming pada Dynamic Time Warping untuk pertama kali dilakukan
oleh Slutsker (1968) Vintsyuk (1968) dan Volichko (1971) dari Jepang untuk pengenalan wicara Pada proses
ini pembicara mengucapkan kata yang sama dengan durasi berubah setiap waktu dengan ekspansi yang non
linier Oleh karena itu Dynamic Time Wraping adalah tahap yang penting dalam proses pengenalan kata Proses
DTW mengalami pengembangan pada sumbu waktu untuk mencocokan posisi phonemkata yang sama antara
input wicara dan referensi template
Dynamic Programing secara umum digunakan untuk memecahkan masalah rentetan keputusan yang
dilakukan pada bidang kisi sebagaimana ditampilkan pada gambar 27 Sinyal yang dicocokkan adalah A dan B
Di dalam bidang kisi sinyal A disesuaikan sepanjang sumbu ndashx dan sinyal B disesuaikan sepanjang sumbu ndashy
Setiap antar bagian pada bagian ini ditetapkan sebagai sebuah simpul atau titik dimana titik (ij) adalah
pencocokan frame I untuk sinyal A dengan frame j untuk sinyal B Misalnya diasumsikan dua rentetan waktu
untuk vektor utama yang dibandingkan sebagai berikut
A = a1a2hellipaI dan B = b1b2hellipbJ
Dengan menganggap rentang bidang antara A dan B sebagaimana ditunjukkan pada gambar 27
fungsi pelengkungan waktu yang sesuai menunjukkan waktu antara rentetan A dan B dapat dipresentasikan
sebagai rentetan titk-titik Lattice pada bidang c = (ij) sebagai berikut
Bab 2 Teori Penunjang
13
Gambar 29 Plane jaringan untuk ilustrasi
pemrograman dinamik8
Bilamana jarak spektral antara dua vektor utama a1 dan b1 direpresentasikan oleh d(c) = d(ij) penjumlahan
jarak dari awal sampai akhir dari rentetan sepanjang F dapat direpresentasikan dengan
K
sum d(ck)wk
k=1
D(F) = mdashmdashmdashmdashmdash (217)
K
sum wk
k=1
Semakin kecil nilai ini semakin baik kecocokan antara A dan B Dimana wk adalah fungsi pembobotan
positif terhadap F
Dengan memperkecil persamaan di atas dengan kondisi berikut
1 Kondisi monotonisasi dan kontinuitas
0 le ik-ik-1le1 0 lejk ndash jk -1 le 1 ( 218)
2 Kondisi perbatasan
I1=j1=Iik=Ijk=I (219)
3 Kondisi adjustmen window
|ik ndash jk|ler r=konstan ( 220)
Pendefinisian wk sedemikian rupa sehingga menyebut pada persamaan 219 menjadi konstan yang
tidak tergantung pada F Untuk contoh jika
Wk = (ik ndash ik -1)+(jk ndash jk -1)(i0=j0=0) wk akan menjadi
8 Ibid hal 15
Bab 2 Teori Penunjang
14
K
sum wk = I + J (221) k=1
dan persamaan 219 menjadi
1 K
D(F)= mdashmdash sum d(ck)wk ( 222)
I + J k=1
Gambar 210 DTW antara dua rentetan waktu A dan B
9
Karena fungsi obyektif yang akan diminimasi menjadi penjumlahan maka peminimisasi secara efisien
dapat diselesaikan tanpa harus menguji semua kemungkinan untuk F Penjumlahan pada sebagian rentetan c1
c2 hellip ck (ck=(ij)) adalah
(224)
Penurunan pemrograman dinamik pada persamaan-persamaan diatas penggunaan kondisi untuk F dan
formulasi perumusan wk persamaan 2115 dapat dituliskan kembali sebagai berikut
9 Ibid hal 17
Bab 2 Teori Penunjang
15
g(ij-1)+d(ij)
g(ij) = min g(i-1j-1) + 2d (ij) (225)
g(i-1j) +d(ij)
Oleh karena itu jarak antara dua rentetan waktu A dan B setelah DTW dapat diperoleh sebagai berikut
Kita set dari kondisi awal untuk g(11)=2d(11) dan j=1 dan hitung persamaan 2116 dengan variasi I dalam
sepanjang adjustment window Perhitungan ini diulangi dengan menaikkan j sampai j=1 Jarak keseluruhan
antara dua rentetan waktu A dan B dapat diperoleh dari g(IJ)(I+J)
2182 Batasan Normalisasi Waktu
Supaya proses normalisasi waktu mempunyai arti pada perbedaan batasan dengan berbagai variasi
interval waktu dibutuhkan beberapa batasan terhadap fungsi warping
2183 Batasan Titik Awal Akhir
Bilamana pola wicara yang dibandingkan merupakan tuturan per kata maka harus memenuhi syarat pola
mulai dari titik awal sampai titik akhir dari tanda permulaan dan pengakhiran pola wicara Titik awal dan akhir
mempunyi batasan yang membatasi pola wicara harus dipenuhi
Titik awal Фx(1) = 1 Фy(1) = 1 (226)
Titik akhir Фx(T) = Tx Фy(T) = Ty (227)
2184 Kondisi Monotonisasi
Rentetan pola spectral pada wicara sangat penting dalam menentukan arti linguistic sehingga tidak
akan hilang Untuk mempertahankan pola tersebut harus memenuhi
Фx(k + 1) ge Фx(k) (228)
Фy(k + 1) ge Фy(k)
22 Awal dan Akhir Sinyal Suara
221 Power
Sinyal suara yang diolah haruslah merupakan sinyal suara murni dan tidak bercampur dengan noise
ataupun header tail yang dibawa oleh suara saat perekaman apalagi jika pengenalan sinyal suara dengan jumlah
vocabulary yang besar Oleh karena itu sinyal suara hasil perekaman harus dicari nilai awal dan akhirnya agar
pengolahan sinyal suara tersebut menjadi lebih valid
Dan salah satu cara dalam menentukan nilai awal dan akhir dari sinyal suara adalah dengan
menggunakan power yang mempunyai persamaan sebagai berikut
( )
Bab 2 Teori Penunjang
16
239
p= sumradic xt2 (229)
t=0
Sinyal suara yang dibagi menjadi beberapa frame mempunyai power dari tiap framenya yang kemudian
didapatkan nilai rata-ratanya yang kemudian diperoleh nilai awal dan akhirnya dengan menambahkan 3 kali
standart deviasi Dimana penentuan awal dan akhir dari sinyal suara dapat diperoleh dengan
p ge p + 07 standart deviasi
Power
0
20000
40000
60000
80000
100000
120000
140000
160000
0 10 20 30 40 50 60
Jumlah Frame
Am
pli
tud
o
Gambar 211 Bentuk power dari kata
Nilai beberapa kali hasil percobaan
222 Unvoiced Plosive
Pada suatu sinyal suara yang terekam terdapat pemutusan sinyal atau kondisi kosong yang bukan
merupakan noise tetapi masih didalam lingkup suara Tapi kondisi ini hanya terjadi pada kebanyakan sinyal
suara yang terdapat konsonan tertentu yaitu sinyal suara dari kata yang mempunyai konsonan p t k Kondisi ini
disebut Unvoiced Plosive atau loncatan sinyal suara setelah kondisi kosong seperti ditunjukkan pada gambar
berikut
Gambar 212 Unvoiced Plosive
Bab 2 Teori Penunjang
17
Dan untuk penentuan awal dan akhir daerah kosong tersebut harus diperhitungkan agar didapatkan
nilai awal dan akhir dari sinyal suara yang valid yaitu dengan mencari nilai rata-rata dari daerah kosong dari
beberapa sinyal suara Kemudian dengan dicari nilai thresholdnya yaitu nilai terpanjang dari daerah kosong
sebesar 2 dari seluruh daerah kosong yang telah dihistogram
23 JARINGAN DENGAN TCPIP
Meskipun hubungan computer melalui serial dan parallel telah ada sejak lama multijaringan belum
menjadi masalah serius bagi para peneliti di bidang jaringan sampai awal tahun 1980 Perkembangan teknologi
LAN itu sendiri didasarkan banyak alasan Salah satu yang menjadi alasan utama adalah adanya perusahaan
yang ingin melakukan sharing data file printer dan resource lainnya ke pc lain
231 Mengenal TCPIP
Sebelumnya kita definisikan lebih dahulu apa yang dimaksud protocol itu Bila dua computer ingin
melakukan komunikasi keduanya tentu saja harus menggunkan bahasaturan yang sama Aturan-aturan inilah
yang disebut protocol Misalnya untuk mengirim mail digunakan protocol SMTP berhubungan dengan WWW
menggunakan HTTP dan sebagainya Jadi protocol merupakan aturan dalam melakukan komunikasi
TCPIP ( Transmission Control Protocol Internet Protocol) merupakan protocol yang bersifat open
networking Maksudnya semua penjelasan teknis tentang protocol tersebut diumumkan karena ada juga
mekanisme jaringan yang menyembunyikan detail dari sistemnya Hal inilah yang membuat TCPIP menjadi
terkenal
Adapun keuntungan dengan menggunakan protocol TCPIP adalah kemudahannya karena
memungkinkan hubungan antara berbagai system operasi dan berbagai jenis computer (platform)
TCPIP bukanlah protocol tunggal tetapi merupakan sekumpulan protocol sehingga lebih tepat disebut
sebagai keluarga TCPIP Setiap protocol pada TCPIP memiliki tugas tertentu yang berbeda Semua protocol
tersebut menggunakan protocol primer untuk mengirimkan paket data Protocol primer tersebut adalah TCP dan
IP
Protokol lainnya dapat dikelompokkan berdasarkan tujuannya sebagai berikut
1 Transport
Digunakan untuk mengatur perpindahan data antara dua mesin Antara lain
- TCP (Transmission Control Protocol)
- UDP (User Datagram Protocol)
2 Routing
Digunakan untuk pengalamatan data dan menentukan rute terbaik antara lain
- IP (Internet Protocol)
- ICMP (Internet Control Message Protocol)
- RIP (Routing Information Protocol)
Bab 2 Teori Penunjang
18
3 Network Address
Menangani bagaimana suatu mesin diberikan suatu alamat antara lain
- ARP ( Address Rwesolution Protocol)
- DNS ( Domain Name Sistem)
- RARP (Reverse Address Resolution Protocol)
4 User Service
Merupakan aplikasi yang harus diakses user antara lain
- FTP ( File Transfer Protocol)
- TFTP (Trivial File Transfer Protocol)
- TELNET
5 Gateway Protocol
Untuk membentuk proses komunikasi routing dan status informasi antara lain
- EGP (Exterior Geteway Protocol)
- GGP (Gateway to Gateway Protocol)
- IGP (Interior Gateway Protocol)
232 Koneksi TCPIP
Untuk mengkonfigurasi TCPIP maka dibutuhkan
Alamat IP
Alamat IP ini sebagai pengenal atau alamat mesin Karena setiap mesin yang terhubung jaringan
harus memiliki penganal yang unik sehingga memungkinkan melakukan routing Jaringan dengan TCPIP
menggunakan pengalamatan 32 bit sebagai alamat atau pengenal setiap mesin yang terkoneksi dengan jaringan
Pengenal ini disebut alamat IP Pesan atau data yang dikirim melalui TCPIP menggunakan alamat IP ini untuk
mengenali mesin pengirim dan penerimanya
Biasanya alamat IP dapat dikelompokkan menjadi dua bagian yaitu
1 Nomor Network
2 Nomor Device dalam Network tersebut
Alamat IP tersebut dipisahkan menjadi empat bagian yang masing-masing berukuran 8 bit Empat
bagian tersebut dipisahkan oleh tanda titik dan setiap bagian tersebut memiliki angka 0-255 Contohnya
192168101
Pemberian alamta IP umumnya ditentukan berdasarkan ukuran dari jaringan tersebut Jaringan
dapat diklasifikasikan menjadi tiga kategori yaitu kelas A kelas B kelas C Ketiga kelas tersebut membagi
pengalamatan 32 bit dengan ukuran berbeda untuk nomor Network dan Host
Pengalamatan pada kelas A memungkinkan bagian ini memiliki angka dari 0-127 Sedangkan
pengalamatan B memungkinkan memiliki angka dari 128-191 pengalamatan pada kelas C memungkinkan
memiliki angka dari 192-223
Network Mask
Bab 2 Teori Penunjang
19
Network mask merupakan alamat IP dimana lamat networknya diset ke nilai 255 Jika alamat IP
termasuk kelas A maka network masknya yaitu 255000 Jika alamat IP termasuk kelas B maka network
masknya yaitu 25525500 Jika alamat IP termasuk kelas C maka network masknya yaitu 2552552550
AlamatNetwork
Alamat network ini dapat diperoleh dari alamat IP dimana bit-bitnya dilakukan operasi AND
dengan network mask Dengan demikian untuk network kelas B dengan IP 192168101 maka alamat
networknya adalah 19216800
Alamat Broadcast
Alamat broadcast dibutuhkan bila suatu mesin ingin mengirimkan paket yang sama ke semua
device pada jaringan
Alamat Gateway
Alamat gateway merupakan alamat IP dari mesin yang menghubungkan jaringan dengan jaringan
di luar misalnya internet Pada umumnya alamatgateway memiliki IP yang sama dengan mesin yang kita miliki
tetapi mempunyai nomor device 1 Dengan demikian untuk network kelas B dengan alamt IP 192168101
alamat gatewaynya adalah 19216811
Alamat Nameserver
Jaringan-jaringan besar umumnya memiliki sebuah mesin untuk mentranslasikan alamat IP menjadi
nama yang lebih mudah dikenal manusia Misalkan sebuah mesin dengan IP 192168101 dapat diberi nama lain
seperti puspacsuiacid sebagai alamatnya Proses translasi ini dilakukan dengan system yang dikenal dengan
nama Domain Name System (DNS)
24 BEKERJA DENGAN SOCKET
Komponen socket program yang dapat membantu dalam pembuatan suatu aplikasi yang berkomunikasi
antara suatu system computer dengan system computer yang lain dengan menggunakan protocol TCPIP dan
protocol lain yang terhubung
241 Pengertian Socket Program
Pada sub bab ini akan dijelaskan tentang komoponen socket program yang dapat berkomunikasi antara
system computer dengan system computer yang lain dengan menggunakan protocol TCPIP dan protocol lain
yang terhubung Dengan socket program ini kita dapat membaca dan menulis pada hubungan ke mesin yang lain
tanpa mengalami kesulitan pada software jaringan Socket program dapat mengadakan hubungan berbasis
protocol TCPIP tetapi dapat juga bekerja umunya dengan protokol-protokol yang terhubung seperti Xerox
Network System (XNS) dan yang lain
Bab 2 Teori Penunjang
20
242 Penjabaran Socket
Socket mengijinkan aplikasi jaringan kita berkomunikasi dengan sistem lain di luar jaringan
Masing- masing socket bisadipandang sebagai titik akhir dalam suatu koneksi jaringan Socket tersebut memiliki
spesifikasi sebagai berikut
a) Sistem yang sedang dijalankan
b) Tipe interface port yang digunakan
Penjelasan lengkap dari sebuah koneksi socket terdiri dari address socket pada kedua titik akhir
koneksi Kita akan menguraikan address dari masing- masing titik akhir socket dengan memberi nomor IP
address atau host dan port
Sebelum membuat koneksi socket sebelumnya harus menguraikan dengan lengkap socket-socket
yang membentuk titik akhir Beberapa informasi tersedia dari sistem aplikasi yang dijalankan Sebagai contoh
kita tidaka akan membutuhkan IP Address Local dari socket client sebab informasi ini terdapat pada sistem
operasi
Informasi yang akan kita berikan bergantung pada tipe socket yang sedang bekerja Socket client
harus menggambarkan port yang merepresentasikan layanan yang mereka berikan
243 Memilih Host Name dan IP Address
Kebanyakan aplikasi menggunakan host name untuk merinci sebuah system Host Name mudah
untuk diingat dan dicek Menggunakan host name memungkinkan socket client untuk menemukan situs abstrak
yang diwakili oleh nama host meskipun telah dipindah ke IP Address yang baru Jika nama host tidak diketahui
socket client akan akan menyatakan system server sedang menggunakan IP Addressnya Ketika kita
menyediakan host name socket akan mencari IP Address yang berhubungan dengan host name sebelum socket
tersebut dapat menempatkan pada sistem server
Bab 3 Perencanaan dan Implementasi
21
BAB 3
PERENCANAAN DAN IMPLEMENTASI
31 Pendahuluan
Pada bab ini akan dijelaskan mengenai pengolahan sinyal wicara untuk mendapatkan ciri setiap
individu Juga akan dibahas mengenai pengolahan hasil keluaran sinyal wicara untuk ditransmisikan ke PC lain
(lewat jaringan) Dan selanjutnya akan dibahas pula mengenai plan atau obyek yang dalam hal ini adalah lampu
pijar
Berikut ini adalah blok diagram sistem secara keseluruhan
Gambar 31 Blok Diagram Sistem Secara Keseluruhan
Speaker pada gambar 31 memberikan suaranya sebagai masukan lewat mikrofon Masukan ini
akan diolah dalam PC client mulai dari proses sampling frame windowing FFT LPC Kemudian hasil dari
LPC dicari pemadanan dengan LPC dari sinyal standar yang telah tersimpan sebagai data base di dalam PC
client Hasil dari DTW tersebut akan dikirimkan ke PC server melalui TCPIP untuk diproses menjadi suatu
perintah ke perangkat keras Perintah tersebut merupakan bentuk implementasi dari perintah yang diberikan dari
PC client
Sebaliknya dengan adanya perubahan kondisi pada peralatan yang diinginkan maka terjadi sinyal
balikan yang berupa sinyal DTMF yang dikirimkan oleh perangkat keras ke PC server Oleh PC server sinyal ini
diolah untuk dikenali sebagai suatu kondisi tertentu yang akan dikirimkan ke PC client sebagai laporan tentang
kondisi alat yang diinginkan
32 Sistem Pengolahan Sinyal Wicara
321Perekaman Suara
TCPIP
Pengucap Speaker ADC Pengolahan Wicara dan Monitoring
Peralatan yang terkontrol
LAN Card
LAN Card
Pengenalan Pola Pengiriman Tone DTMF dan Pengenalan DTMF Sebagai Laporan
DTMF Decoding DTMF Generator Sistem Switching
Alat Terkontrol
Bab 3 Perencanaan dan Implementasi
22
Perekaman suara dilakukan menggunakan software berbasis TclTk 830 dan Snack22 Sebelumnya
akan dijelaskan satu per satu program yang dipakai
o TclTk 830
Tcl kepanjangan dari Tool Control Language Tk adalah Graphical Toolkit extension dari Tcl yang
menyediakan bermacam-macam item standar antarmuka GUI untuk memfasilitasi secara cepat pengembangan
aplikasi tingkat tinggi
o Snack22
Snack adalah tool pengolahan suara yang didesain sebagai extensi untuk bahasa script Saat ini Snack bekerja
dengan bahasa script TclTk Phyton dan Ruby Snack memiliki perintah-perintah untuk play record process
dan dan memvisualisasi suara Snack menyediakan obyek suara tingkat tinggi dengan manajemen penyimpanan
yang fleksibel dan streaming support Snack dapat bekerja pada banyak format file suara
Kita dapat membangun aplikasi sepaerti di bawah ini dengan integrasi dari TclTk dan Snack
Gambar 32 Program aplikasi pengenalan wicara
Frekuensi sampling pada program di atas diset pada frekuensi 12 kHz Frekuensi ini dipilih karena biasa
digunakan untuk voice Selain itu juga diset pada channel Mono dan sinyal encoding LIN 16 (resolusi 16 bit
PCM) Pada penekanan tombol ldquorecordrdquo diikuti tombol ldquostoprdquo dan kemudian tombol ldquostandartrdquo maka akan
dimulai proses perekaman yanag akan digunakan untuk membuat file standar untuk kedelapan perintah yang
akan digunakan untuk pembanding sinyal masukan
Adapun proses untuk sistem yang akan dibuat dapat digambarkan dengan diagram alir seperti di bawah
Bab 3 Perencanaan dan Implementasi
23
Mulai
Package Require
Snack 22
Exit
Program On
Running
Recording
Sound Card
Produser Running
Prosedur Recording
DTMF
Keluar
Tidak
YaTidak
Ya
Ya
Ya
Ya
Tidak
Tidak
Tidak
Gambar 33 Flowchart Sistem Graphical User
Interface
322 Sampling
Seperti telah dijelaskan di depan bahwa frekuensi sampling yang digunakan adalah sebesar 12000Hz
dimana dalam 1 detik sinyal terdapat 12000 titik sampling Sebagai contoh seperti gambar di bawah ini suatu
sinyal epanjang 20 ms disampling 12000 Hz menghasilkan titik sampling sebanyak 240 titik
Data Sampling
-20000
-15000
-10000
-5000
0
5000
10000
15000
20000
0 200 400 600
Amplitudo
Jumlah Data
Gambar 34 Sinyal hasil sampling dengan
frekuensi 12000 Hz
Bab 3 Perencanaan dan Implementasi
24
Mulai
Sinyal Masukan
Baca Panjang Sinyal
Bagi Menjadi N Frame
i = 0 i lt N i++
Ambil 240 Data Sampel
Tampilkan Nilai
Sampel
Selesai
Gambar 35 Flowchart Proses Sampling
323 Pre-emphasis
Agar spektrum sinyal merata di semua frekuensi dan mencegah kehilangan informasi akibat pembulatan
pada saat komputasi maka dilakukan prose preemphasis Fungsi transfer preemphasis adalah
H(z) = 1 ndash a z-1 09 le a le 1 (31)
Dimana nilai a berkisar 095 Berdasarkan model filter di atas maka keluaran dari preemphasis adalah
s(n) = s(n) ndash a s(n-1) (32)
324 Frame Blocking
Hasil perekaman merupakan sinyal dalam domain waktu yang bersifat variant time (fungsi yang
bergantung pada waktu) Sinyal yang telah dipreemphasis kemudian dibagi menjadi n buah frame Dengan
jumlah sample per frame sebesar N dan adjacent frame sebesar M sample Dimana M=05N Pada frame
pertama terdiri dari N buah sampel Frame kedua dimulai pada sampel ke M sehingga terjadi overlape sebesar
N - M sampel Begitupula untuk frame yang ketiga dimulai dari sample ke 2M sehingga terjadi overlape dari
farme kedua sebesar N + M-2M sampel juga Hal ini akan terus berlangsung hingga seluruh sinyal terbagi
menjadi beberapa frame
Bab 3 Perencanaan dan Implementasi
25
Gambar 36 Frame blocking sinyal
325 Windowing
Windowing yang digunakan adalah window hamming Setelah proses pengambilan sample maka
langkah selanjutnya adalah proses selanjutnya adalah proses windowing yang berfungsi untuk mengurangi efek
diskontinyuitas pada ujung-ujung frame Persamaannya adalah sebagai berikut
y[i] = x[i](054-046cos(20314159265(i-1)240) (33)
Flowchartnya bisa dilihat seperti di bawah
Mulai
240 Data
Sampel
i= 0 i lt 240 i++
Hamming Window
y[i] = x[i](054-046cos(2phi(i-1)
240))
Tampilkan
nilai
Hamming
Selesai
Gambar 37 Flowchart Proses Windowing
326 Fast Fourier Transform
Transformasi fourier cepat (FFT) adalah suatu metode yang sangat efisien untuk menyelesaikan
transformasi fourier diskrit (DFT) yang banyak dipakai untuk keperluan analisa sinyal Sehingga dengan FFT
N N N M
M N
N N
M
Bab 3 Perencanaan dan Implementasi
26
sinyal yang disampling dalam domain waktu ditransformasikan ke domai frekuensi dengan menggunakan
persamaan sebagai berikut
N-1
H(k) = sum h(n)e-j2лkN (34)
n=0
dengan k= 012N-1
Prosesnya dapat dilihat dari flowchart di bawah
Mulai
240 data
sampel
256 data sampel
i=0 ilt256 i++
tmp_log1=(xr[k]xr[k]+xc[k]xc[k])
tmp_log gt 0
xr[k]=10log10(tmp_log1)
Tampilkan
nilai
hamming
Selesai
xr[k]=10log10(0000001)
Ya
Tidak
Gambar 38 Flowchart Proses Fast Fourier
Transform
327 Autocorrelation analysis
Hasil dari windowing sinyal masukan kemudian dihitung autokerelasinya dengan persamaan
N-1-m
r1(m) = sum x1(n)x1(n+m) m=01p (35)
n=0
dimana niali autokorelasi tertinggi p adalah orde dari analisis LPCPada umumnya nilai dari p yang sering
digunakan adalah dari 8 sampai 16
Proses Autokorelasi dapat dilihat dari flowchart di bawah ini
Bab 3 Perencanaan dan Implementasi
27
Mulai
240 data p lpc
orde
i=0 iltp i++
j=0 jlt240-p-1 j++
RI[j]=sum(xI[i]xI[i+j])
Tampilkan nilai
autocorrelation
Selesai
Gambar 39 Flowchart Proses Autokorelasi
328 LPC Analysis
Hasil koefisien autokorelasi kemudian dikonversikan ke sebuah LPC parameter set (untuk metode LPC
autokorelasi) dikenal sebagai Metode Durbin dan secara formal ditunjukkan dari algoritma sebagai berikut
E(0) = r(0) (36)
ki=r(i)-sumαj(i-1) r(|i-j|)E(i-1) 1 le I le p (37)
αi(i) = ki (38 )
αj(i) = αj
(i-1)-ki α(i-1) ( 39)
t-j
E(i)=(1-ki2)E (i-j) (310)
dimana penyajian akhir dari persamaan 37 mengabaikan i=1 Kumpulan dari persamaan 36 -310 diselesaikan
secara rekursif untuk i=12p
Proses analisis dapat dilihat dari flowchart di bawah
Bab 3 Perencanaan dan Implementasi
28
Mulai
Autocorrelationr
p lpc orde
E (0) = r(0)
k1
= r(i)-sumalpha j (i-1) r( | i-j|E(i-1)
alpha j (i) = k
i
alpha j
(i) = alpha (i-1) -k i alpha
i-j (i-1)
E (i) = 1-k i 2) E(i-1)
Tampilkan nilai
parameter lpca
Selesai
i=0 iltp i++
Gambar 310 Flowchart proses LPC analisis
329 LPC Parameter to Cepstrum Analysis
Sekumpulan parameter LPC yang sangat penting yang dapat diturunkan langsung dari kumpulan
koefisien LPC adalah koefisien cepstral LPC c(m) Rekursif yang digunakan adalah
co = ln σ2 ( 311)
m-1
cm = am + sum ck am-k 1 le m le p (312)
k = 1
m-1
cm = sum ck am-k m gt p ( 313)
k = 1
Proses LPC parameter ke Cepstrum Analysis dapat dilihat dari flowchart di bawah ini
k m ( )
k m ( )
Bab 3 Perencanaan dan Implementasi
29
Mulai
lpc parameter a
p lpc orde
c o = ln del 2
1 lt=mlt=p
i=0 iltp i++
Cm
= am
+sum((km)Ck a
m-kC
m =sum((km)C
ka
m-k)
Tampilkan nilai lpc
cepstrumc
Selesai
Gambar 311 Flowchart Proses LPC parameter ke
Cepstrum
3210 Dynamic Time Warping
Proses yang terjadi pada Dynamic Time Warping adalah pengukuran jarak suara antara sinyal standart
dan sinyal input Yang diukur berupa deretan nilai dari hasil LPC Cepstrum dalam bentuk kolom dan baris (ij)
yang disimpan dalam satu file Pada kolom berisi nilai tiap cepstrum sedangkan baris berupa banyaknya frame
Teknik yang digunakan dinamakan Dynamic Programming Alur kerjanya dapat dilihat dari flowchart di bawah
Bab 3 Perencanaan dan Implementasi
30
Mulai
i=0 iltN i++
j=0 jlt15 j++
Cepstrum
Standart
Std_Ceps [i][j]
Cepstrum
Input
Inp_Ceps [i][j]
DP_dist = DP_match1(r)
DP_dist
Selesai
Gambar 312 Flowchart Proses Dynamic Programming
33 Awal dan Akhir Sinyal suara
331 Power
Untuk mendapatkan suatu sinyal suara tanpa adanya noise maka sinyal harus benar-benar dipotong
tepat pada awal dan akhirnya Oleh karena itu dipakai power sebagai salah satu cara yang efektif dalam
menentukan awal dan akhir suatu sinyal suara
Dimana tiap frame mempunyai power yang merupakan hasil kuadratisasi dari penyampelan tiap frame
yang kemudian hasil keseluruhan diakarkan seperti bisa dilihat pada flowchart di bawah
Bab 3 Perencanaan dan Implementasi
31
Mulai
Power = 0
i=0 ilt240 i++
Power=Power+sqrt(xixi)
Selesai
Gambar 313 Flowchart Proses Power
Jumlah sample per frame ditetapkan sebesar 240 sampel Kemudian dicari power masing-masing antara sinyal
utuh dan sinyal noise kemudian dengan p ge p + 07 standar deviasi maka didapatkan awal dan akhir sinyal
suara
332 Unvoiced Plosive
Adanya daerah kosong menyebabkan sinyal tidak valid dalam pemotongan awal dan akhirnya karena
bisa dianggap noise padahal berada dalam sinyal suara ( merupakan bagian dari sinyal suara) Oleh karena itu
dicari mean dari 25 kata sinyal suara yang kemudian dicari nilai thresholdnya sebagai panjang akhir dari daerah
kosong Dan nilai tersebut diikutsertakan dalam looping dan jika setelah itu terdapat sinyal kembali maka
berarti masih ada sinyal suara dan jika tidak ada berarti tidak ada sinyal suara
34 Proses Pada Client
Preses pada client dapat dijelaskan sebagai berikut
Gambar 314 Blok diagram proses client
Penjelasan dari blok digram tersebut adalah
1 Pertama adalah perekaman suara pada software recording yang hasilnyadisimpan dalam bentuk file
berekstensi ldquowavrdquo File ini selanjutnya akan dijadikan file input pada sistem client
2 File suara yang telah tersimpan diolah dalam program sampling untuk mendapatkan sinyal suara dalam
bentuk frame Setiap frame terdiri dari 120 sampel
Mic Extract AD Voice Dikenali
Bab 3 Perencanaan dan Implementasi
32
3 Tiap frame diwindow dengan window Hamming untuk mengurangi efek diskontinyuitas pada ujung-
ujung frame
4 Sinyal hasil window yang masih dalam domain time diubah ke dalam domain frekuensi dengan Fast
Fourier Transform (FFT)
5 Hasil dari windowing sinyal masukan kemudian dihitung autokerelasinya
6 Hasil koefisien autokorelasi kemudian dikonversikan ke sebuah LPC parameter set (untuk metode LPC
autokorelasi) Sekumpulan parameter LPC yang sangat penting yang dapat diturunkan langsung dari
kumpulan koefisien LPC adalah koefisien cepstral LPC
7 Selanjutnya dilakukan proses DTW (Dynamic Time Warping) pengukuran jarak suara antara sinyal
standart dan sinyal input Hasilnya disimpan dalam sebuah file berekstensi ldquotxtrdquo
8 File berekstensi txt tersebut ke server sebagai sinyal suara input
35 Proses Pada Server
Proses pada server dapat dijelaskan sebagai berikut
Gambar 315 Blok diagram proses server
Penjelasan dari blok diagram tersebut adalah
1 Isi file berekstensi rdquotxtrdquo diterima oleh server dan digunakan sebagai data input untuk memanggil
database tone DTMF yang sesuai sebagai pengoperasian alat yang akan dikontrol
2 Alat yang terkontrol akan menunjukkan hasilnya
Memanggil
Database
Tone
Dikode
kan
dalam
biner
Kirim
ke HW
Kontrol
Alat
Input
server
Bab 4 Pengujian dan Analisa
33
BAB 4
PENGUJIAN DAN ANALISA
41 Pendahuluan
Untuk mengetahui tingkat keberhasilan dari suatu sistem diperlukan pengujian keseluruhan dari
perencanaan hasil sistem yang telah dibuat Dalam bab ini akan dijelaskan mengenai hal tersebut
Pengujian yang akan dilakukan adalah
1 Pengujian dan analisa sistem pengolahan sinyal wicara
2 Pengujian dan analisa sistem client server
3 Pengujian dan analisa awal dan akhir sistem pengolahan wicara
42 Pengujian dan Analisa Sistem Pengolahan Wicara
Tujuan untuk mendapatkan parameter ciri individu dari sampel sinyal yang diolah
421 Perekaman Suara
Pada Tugas Akhir ini digunakan duamacam perangkat lunak yang dibangun sendiri berbasis TclTk 830
dan Snack 22 sebagai perangkat lunak yang diuji dan perangkat lunak Wavesurver sebagai pembanding
4211 Dengan menggunakan TclTk dan Snack
Tampilan awal dari perangkat lunak yang dibangun dengan menggunakan TclTk dan Snack adalah sebagai
berikut
Gambar 41 Tampilan awal perangkat lunak menggunakan TclTk dan Snack
Bab 4 Pengujian dan Analisa
34
Pertama kali tombol record ditekan maka proses pengambilan sinyal wicara yang dimasukkan
dimulai Pada saat tombol Stop ditekan maka program akan merekam kata ldquosatu nyalardquordquosatu matirdquordquodua
nyalardquordquodua matirdquordquotiga nyalardquordquotiga matirdquordquoempat nyalardquordquoempat matirdquo sesuai yang kita masukkan dan
tampilan display akan digambarkan bentuk sinyal yang dihasilkan secara otomatis Hasil perekaman dapat
dilihat pada gambar berikut 42
Gambar 42 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan perangkat lunak
TclTk dan Snack
Gambar 42 menunjukkan bahwa proses pengambilan sinyal suara telah dilakukan Sinyal suara yang
dimasukkna akan terlihat gambarnya pada layar hitam (canvas)
4212 Dengan menggunakan Wave Surver
Sebagai pembanding dari program yang telah dibuat yaitu dari perangkat lunak TclTk dan Snack
digunakan Wavesurver
Tampilan awal dari Wavesurver 157 tampak seperti pada gambar 43
Gambar 43 Tampilan awal perangkat lunak menggunakan Wavesurver
Bab 4 Pengujian dan Analisa
35
Pada saat tombol recording ditekan maka program akan merekam kata ldquosatu nyalardquo dan pada tampilan
display akan digambarkan bentuk sinyal yang dihasilkan secara otomatis Hasil perekaman bisa dilihat pada
gambar 44
Gambar 44 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan
perangkat lunak Wavesurver
Perekaman pada Wavesurver dapat diset sesuai dengan kebutuhan Dimana pada sistem pengolahan sinyal
suara untuk perekaman suara diset sebagai berikut
Gambar 45 Kotak dialog setting perekaman perangkat lunak Wavesurver
Pada data di atas dapat dilihat bahwa suara yang direkam dengan mengguanakan perangkat lunak
Wavesurver mempunyai header dan tail yang berisi keterangan perekaman sebagai berikut
12000 menunjukkan frekuensi sampling yang digunakan
Bab 4 Pengujian dan Analisa
36
Channels menunjukkan bahwa suara direkam dengan menggunakan channel Mono
Sampel Encoding Lin 16 menunjukkan bahwa suara direkam dengan menggunakan
16 bit PCM
422 Sampling
Dengan menggunakan program yang dibangun sendiri di atas proses penyamplingan sinyal input sekaligus
telah terjadi dimana dengan frekuensi sampling sebesar 12000 Hz didapatkan sinyal dari kata ldquosatu nyalardquo
dengan potongan sebagai berikut
3306
3538
3788
4076
4282
4684
4747
4956
5083
5442
5844
5901
6244
6196
6462
6104
Berikut ini adalah cuplikan dari data sampel kata ldquo empat matirdquo mulai dari milidetik ke-13900
Bab 4 Pengujian dan Analisa
37
Data Sampling
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 46 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900
Pada gambar 46 telah dilakukan proses sampling sinyal masukan dengan frekuensi sampling sebesar 12000
Hz maka didapatkan hasil sinyal yang hampir mirip dengan sinyal analognya karena sinyal suara manusia
memiliki jarak frekuensi antara 300 sampai 5000 Hz dimana syarat Nyquist minimal fsampling 2fsinyal
telah terpenuhi
423 Windowing
Jenis window yang digunakan adalah window Hamming
Pada proses window hamming kata yang telah disampel sebanyak 240 sampel akan diwindow sehingga
menghasilkan sinyal yang lebih kecil peaknya Hasilnya adalah sebagai berikut
-26174
-22078
-12518
-1444
9690
19308
23360
20049
12365
2391
-7874
-14539
-17837
-19929
-19007
-16955
Bab 4 Pengujian dan Analisa
38
Sedangkan hasil dalam bentuk gambar dapat dilihat pada gambar berikut
Data Windowing
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 47 Hasil Windowing data sampel kata ldquoempat matirdquo milidetik ke-13900
Seperti yang ditunjukkan gambar 47 proses windowing telah dilakukan Berdasarkan gambar 47
tersebut dapat dikatakan bahwa window Hamming menyebabkan sinyal yang disampel lebih halus Gambar
47 dapat dibandingkan dengan gambar 46 yaitu gambar sinyal sebelum melalui proses windowing dapat
dilihat bahwa sinyal yang telah diwindow mempunyai sinyal yang lebih halus Hal ini membuktikan bahwa
fungsi dari windowing untuk mengurangi efek diskontinyuitas pada ujung-ujung frame adalah benar
424 Fast Fourier Transform Sinyal Masukan
Pada proses ini sinyal yang sebelumnya berada dalam domain waktu akan diubah dalam domain
frekuensi Setiap sinyal yang berasal dari alam merupakan sinyal analog yang bila diolah harus diubah
dalam bentuk sinyal digital Dan pengolahan dalam digital merupakan pengolahan dalam bentuk diskrit
Pada proyek akhir ini sinyal dalam domain waktu akan diubah dalam domain frekuensi dengan 256 titik
Karena hasil yang diperoleh berupa hasil dari fungsi konvolusi maka hanya akan diambil 128 titik saja yang
akan diolah dalam proses selanjutnya Sedangkan 128 sisanya tidak dipergunakan karena berupa
pencerminan saja
Hasil dari Fast Fourier Transform (FFT) dari penggalan kata ldquoempat matirdquo pada milidetik ke-13900 dalam
bentuk teks adalah
103505157
106889458
Bab 4 Pengujian dan Analisa
39
104735321
100408661
89175987
95431992
96601654
8489315
89637459
8630304
75320663
87866905
91001945
89607201
82408546
83440155
4241 Dengan Menggunakan TclTk dan Snack
Fast Fourier Transform Sinyal
Masukan
0
20
40
60
80
100
120
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 48 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat
lunak TclTk dan Snack
Dari gambar 48 di atas sinyal suara yang sebelumnya berada di domain waktu telah diubah ke domain
frekuensi Hasil Fast Fourier Transform sinyal masukan menunjukkan sebaran spektrum frekuensi dari
sinyal suara yang telah dihasilkan oleh pengucap antara 0 sampai 6000 Hz
Bab 4 Pengujian dan Analisa
40
4242 Dengan Menggunakan Wavesurver
Gambar 49 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat
Wavesurver
Dari gambar 49 di atas hasil Fast Fourier Transform sinyal masukan menunjukkan sebaran spektrum
frekuensi dari sinyal suara yang telah dihasilkan oleh pengucap antara 0 sampai 6000 Hz adalah sama
seperti pada gambar dengan gambar 48 yang diambil dengan perangkat lunak TclTk dan Snack
425 Autocorrelation Analysis
Pada proses ini sinyal masukan dalam domain waktu yang telah diwindow hamming dihitung korelasinya
dengan menggunakan orde analisi LPC sebesar 15 Sehingga akan didapatkan hasil rk(autokorelasi) sebagai
berikut
17648453
128874
0669745
0662566
0470262
0164336
-010638
-0229032
-016249
0014062
0138456
0188749
0117826
0014517
-0052704
426 LPC Analysis
Dari hasil autokorelasi tersebut di atas selanjutnya adalah LPC dimana mengkonversi masing-masing
frame dari autokorelasi p+1 ke dalam sebuah LPC Parameter a
Bab 4 Pengujian dan Analisa
41
Metode yang formal untuk mengkonversi dari koefisien autokorelasi ke sebuah LPC parameter (untuk
metode LPC autokorelasi) dikenal sebagai Metode Durbin dan secara formal hasilnya dapat ditunjukkan
sebagai berikut ini
1
-128874
0160681
-0156173
0166653
0255508
0192145
0003037
-0202248
-0265201
-0112133
005938
0232232
0203554
0048429
Dari hasil di atas terlihat bahwa untuk setiap frame nilai pertama menunjuukan energi dari masing-masing
frame dan selanjutnya adalah parameter LPC dalam satu frame yang digunakan sebagai penentu ciri dari
sinyal suara yang dihasilkan oleh individu
427 Fast Fourier Transform LPC Parameter
Pada proses ini nilai dari parameter LPC yang sebelumnya masih berada dalam domain waktu akan diubah
dalam domain frekuensi Pada proyek akhir ini parameter LPC dalam domain waktu akan diubah dalam
domain frekuensi dengan 256 titik Karena hasil yang diperolah berupa hasil dari fungsi konvolusi maka
hanya akan diambil 128 titik saja yang akan diolah dalam proses selanjutnya Sedangkan 128 sisanya tidak
dipergunakan karena berupa pencerminan saja
Hasil dari Fast Fourier Transform (FFT) dari parameter LPC pada penggalan kata ldquoempat matirdquo pada
milidetik ke-1 dalam bentuk teks adalah
103505157
106889458
104735321
100408661
89175987
Bab 4 Pengujian dan Analisa
42
95431992
96601654
8489315
89637459
8630304
75320663
87866905
91001945
89607201
82408546
4271 Dengan menggunakan TclTk dan Snack
Fast Fourier Transform Parameter
LPC
0
20
40
60
80
100
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 410 Fast Fourier Transform LPC dengan
menggunakan perangkat lunak TCLTk
dan Snack
Hasil gambar 410 menunjukkan bahwa parameter LPC yang di-Fourier Transform-kan akan menjadi
selubung spektrum dari spektrum sinyal masukan Sehingga jika selubung dan spektrumnya secara gambar
cocok dapat dikatakan bahwa LPC parameter yang dihitung benar
Bab 4 Pengujian dan Analisa
43
4272 Dengan menggunakan Wavesurver
Gambar 411 Fast Fourier Transform LPC denganmenggunakan perangkat lunak
Wavesurver
Hasil gambar 411 menunjukkan bahwa parameter LPC yang di-Fourier Transform-kan akan menjadi
selubung spektrum dari spektrum sinyal masukan adalah sama dengan yang telah diperoleh dengan
perangkat lunak TclTk seperti pada gambar 410
428 LPC Parameter to LPC Cepstrum
Koefisien LPC cepstrum koefisien yang direpresentasikan dengan Fourier Transform dengan spektrum
besaran log telah ditampilkan menjadi kumpulan fitur untuk pengenalan wicara yang lebih handal
terpercaya daripada koefisien LPC koefisien PARCOR atau koefisien log area ratio
Hasil dari LPC cepstrum pada penggalan kata ldquoempat matirdquo pada milidetik ke-106 dalam bentuk teks adalah
16636311
1387922
0474473
0654796
0429659
0132543
0225374
0126501
0021161
0242437
Bab 4 Pengujian dan Analisa
44
0160623
0065745
0139379
0056064
-0029262
Dari hasil di atas dapat dianalisa bahwa besaran-besaran dari LPC cepstrum benar-benar dapat
digunakan sebagai penentu ciri dari sinyal suara individu karena besaranndashbesaran yang dihasilkan oleh LPC
cepstrum dari yang pertama sampai yang terakhir dalam satu frame sangat bervariasi nilainya
429 Inverse Fast Fourier Transform LPC Cepstrum
Untuk menggambarkan ciri atau fitur wicara dalam domain waktu maka LPC cepstrum di-Invers Fast
Fourier Transform-kan sehingga didapatkan gambar untuk penggalan kata ldquosatu nyalardquo pada milidetik ke-
400 seperti gamabar 412
Fast Fourier Transform LPC
Cepstrum
0
20
40
60
80
100
120
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 412 Invers Fast Fourier Transform LPC cepstrum dengan menggunakan
perangkat lunak TCLTk dan Snack
Dari gambar 412 dapat dianalisa bahwa bentuk dari invers fourier transform LPC cepstrum yang
menyerupai selubung pada domain waktu dari spektrum frekuensi juga digunakan untuk menunjukkan
bahwa perhitungan LPC cepstrumnya telah benar dan dapat digunakan sebagai penentu ciri sinyal suara
individu
Invers Fast Fourier Transform LPC
Cepstrum
Bab 4 Pengujian dan Analisa
45
Gambar 413 Penggabungan spektrum sinyal spektrum LPC dan spektrum LPC
Cepstrum
Gambar 413 spektrum sinyal yang diwakili warna merah merupakan hasil sinyal yang telah di-Fast
Fourier Transform-kan Spektrum sinyal yang berwarna hijau merupakan parameter LPC yang telah di-
Fourier Transform-kan Sinyal ini akan menjadi selubung spektrum dari spektrum sinyal masukan Bila
selubung dan spektrumnya secara gambar cocok maka dapat dikatakan bahwa LPC parameter yang dihitung
adalah benar Dari gambar 413 dapat dilihat antara selubunga dan selubung sinyal masukan sudah cocok
Sinyal yang berwarna biru merupakan sinyal rata-rata dari sinyal selubung spektrum
4210 Dynamic Time Warping
Pengujian terakhir dari proses pengolahan sinyal wicara adalah membandingkan sinyal hasil cepstrum LPC
antara data input dan data standarnya Berdasarkan daerah pembatas kontinyuitas lokal dari persamaan 21
maka digunakan model yang pertama dan menggunakan persamaan 2116 dalam menghitung jarak antara
kata sebagai standar dan sebagai masukan
Selanjutnya menetukan data data sebagai data standar dan data sebagai data masukan Pada sistem ini
digunakan 8 kombinasi kata sebagai kata standar dan kata msukan untuk masing-masing pengujian dengan
kata standar sebanyak sepuluh (10) kali Adapun kata yang digunakan sebagai standar dan kata yang diuji
adalah meliputi satu nyalasatu matidua nyaladua matitiga nyalatiga matiempat nyalaempat
mati
Pada pengujian sistem kali ini masih menggunakan datasuara dari pebgucap yang sama Dari kelima data
standar yang ada dilakukan pembandingan dengan masing-masing 10 (sepuluh) kali pemasukan data Data
yang menghasilkan jarak euclidian terpendek dari masing-masing kata itulah yang akan diambil sebagai
data perintah terbaik
Bab 4 Pengujian dan Analisa
46
Pelekukan Jalur Suara
0
50
100
150
0 50 100 150
Sinyal Input empat mati
Sinyal Standart
empat mati
Gambar 414 Pelekukan Jalur Suara dengan Dynamic Time Warping
Dari gambar 414 dapat dianalisa bahwa dengan menggunakan dynamic time warping dua buah sinyal suara
akan dibandingkan vektor-vektor spektralnya dimana juga terdapat proses pembandingan panjang sinyal
antara dua buah sinyal tersebut sehingga terjadi proses pemadanan panjang sinyal dengan cara
memperpanjang dan menekuk vektor spektralnya Memperpanjang dalam arti memperpanjang sinyal yang
lebih pendek dengan memperhatikan perbandingan vektor spektralnya dan demikian pula menekuk dalam
arti menekuk sinyal yang lebih panjang dengan memperhatikan vektor spektralnya Dengan panjang yang
sama sebagai hasil dynamic time warping maka jarak euclidian antara dua sinyal dapat diperbandingkan
atau dihitung
4211 Min Value dan Sorting
Min Value dan Sorting menjadi satu paket sendiri yang digunakan untuk mencari kemungkinan hasil
terkecil dari pembandingan pola kata masukkan dengan kedelapan kata standart Keluaran dari fungsi
dynamic time warping akan memberikan delapan buah data yaitu hasil pembandingan kata masukan
dengan kata standart satu nyala hasil pembandingan kata masukan dengan kata standart satu mati hasil
pembandingan kata masukan dengan kata standart dua nyala hasil pembandingan kata masukan dengan
kata standart dua mati hasil pembandingan kata masukan dengan kata standart tiga nyala hasil
pembandingan kata masukan dengan kata standart tiga mati hasil pembandingan kata masukan dengan
kata standart empat nyala hasil pembandingan kata masukan dengan kata standart empat mati Dengan
metode sorting buble sort maka akan didapat nilai minimalnya
0748745
0362272
0633390
0327642
0600250
0346530
Bab 4 Pengujian dan Analisa
47
0545907
0207464
Berdasarkan data diatas maka perintah input sama dengan perintah kedelapan (ldquoempat matirdquo) karena
memiliki hasil time warping terkecil yaitu 0207464
4212 Hasil Pengujian Awal dan Akhir Sinyal
Pada proses penentuan awal dan akhir agar lebih presisi menggunakan ldquoPowerrdquo Adapun kelebihan dari
power adalah dapat membedakan antara sinyal suara dengan sinyal noise
Untuk menentukan awal dan akhir dicari nilai power Pada proses power kata yang telah disampel
sebanyak 240 sampel akan menghasilkan sinyal yang halus dan terletak di atas sumbu x Hasil dalam bentuk
teks adalah sebagai berikut ini
7678195313
1165659297
123492625
8917128906
6318766797
4531086719
4338374609
4912630469
5382503125
4548908984
429756875
4739710547
4575902734
4682924609
4786217578
Bab 4 Pengujian dan Analisa
48
Gambar hasil power bisa dilihat pada gambar 415 berikut
Power
0
100000
200000
300000
400000
500000
0 50 100 150
Jumlah Frame
Amplitude
Gambar 415 Sinyal ldquoempat matirdquo hasil program power
Gambar 416 berikut ini adalah hasil pengujian kata ldquoempat matirdquo sebagai masukan dan kata standar ldquoempat
matirdquo dimana kedua kata dibandingkan berdasarkan powernya sebelum proses Dinamic Time Warping
Sinyal warna biru sebagai power sinyal standart dan sinyal yang berwarna merah merupakan power sinyal
input
Perbandingan Dua Kata empat mati
sebelum DTW
0
100000
200000
300000
400000
500000
0 50 100 150
Jumlah Frame
Amplitude
Gambar 416 Perbandingan power dua kata ldquoempat matirdquo sebelum Dynamic Time Warping
Berikut ini adalah hasil pengujian dua buah kata ldquoempat matirdquo dengan menggunakan dynamic time warping
dimana jalur pelekukan suara dapat digambarkan pada gambar 417
Bab 4 Pengujian dan Analisa
49
Pelekukan Jalur Suara
0
50
100
150
0 50 100 150
Sinyal Input empat mati
Sinyal Standart
empat mati
Gambar 417 Pelekukan jalur suara dua kata ldquoempat matirdquo dengan DTW
Gambar 418 adalah hasil pengujian dua buah kata ldquoempat matirdquo sebagai masukan dan dan kata standar
ldquoempat matirdquo dimana kedua kata dibandingkan berdasarkan powernya setelah proses dynamic time
warping
Gambar 418 dapat dibandingkan dengan gambar 416 yaitu sinyal sebelum proses Dynamic Time Warping
Sebelum proses Dynamic Time Warping sinyal tidak mengalami proses penekukan dan penarikan data
berdasarkan waktu antara keduanya sehingga antara sinyal input dan sinyal standart memiliki ukuran
panjang yang sangat jauh berbeda
Pemadanan Dua Kata Setelah DTW
0
100000
200000
300000
400000
500000
0 100 200 300
Jumlah Frame
Amplitude Power
Gambar 418 Perbandingan power dua kata ldquoempat matirdquo setelah Dynamic Time Warping
Dari gambar 418 dapat dinyatakan bahwa setelah melalui proses dynamic time warping terjadi penekukan
dan penarikan data berdasarkan waktu antara keduanya sehingga pada akhirnya kedua sinyal memiliki
ukuran panjang yang sama Sehingga dengan demikian dapat dicari jarak euclidian untuk menentukan
sebuah kata yang sesuai dengan kata yang lainnya
Bab 4 Pengujian dan Analisa
50
4213 Hasil Pengujian Sistem Perangkat Lunak
Pada pengujian sistem perangkat lunak diambil sampel data dari 3 orang dimana terdiri dari 3 orang pria
dan 1 orang wanita Pria pertama merupakan standar sekaligus pengisi suara untuk perintah Sedangkan pria
kedua dan wanita sebagai pembanding untuk mengetahui unjuk kerja sistem
Tabel 41 Hasil pengujian sistem pengolahan sinyal wicara untuk pengucap yang sama (pria
1)
8 7 6 5 4 3 2 1 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05417
03487
05964
03443
07272
04424
03449
01
961
Satu
nyala
Sinyal Standart
02496
04723
03013
05120
03450
03815
01
739
03471
Satu
mati
04389
02035
06139
03244
04343
02
158
04567
04047
Dua
nyala
01866
04517
04157
05267
01
940
02561
02036
04779
Dua
mati
04833
02168
03984
01
090
06409
04278
05019
02690
Tiga
nyala
02683
04628
01
188
03416
04046
03345
02959
04614
Tiga
mati
03807
01
046
05271
01974
05934
03134
04363
02554
Empat
nyala
01
388
03728
02269
04497
02559
03195
02476
04874
Empat
mati
Bab 4 Pengujian dan Analisa
51
16
15
14
13
12
11
10
9 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05776
02988
05100
04019
06101
05338
04219
02
047
Satu
nyala
Sinyal Standart
03382
04381
02427
05124
02642
05990
02
706
03335
Satu
mati
04453
02558
04993
04574
03381
02
344
04529
04121
Dua
nyala
01669
04532
03190
06355
01
004
04807
03466
04622
Dua
mati
05209
02261
03366
01
124
05377
04165
05369
02660
Tiga
nyala
03721
04074
00
891
03002
02637
05958
02719
04333
Tiga
mati
03889
01
755
04365
02341
04826
03150
05193
02472
Empat
nyala
01
092
03974
01802
04848
01455
05343
02717
04536
Empat
mati
Bab 4 Pengujian dan Analisa
52
24
23
22
21
20
19
18
17 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05157
04015
06277
02964
05609
04690
03376
01
369
Satu
nyala
Sinyal Standart
01787
05144
03814
04134
04952
04843
01
636
03404
Satu
mati
03988
03026
07420
03020
03977
01
905
04801
03610
Dua
nyala
01630
05662
06259
05009
01
808
03357
02206
05094
Dua
mati
04667
02681
05731
01
448
05575
03280
05344
03417
Tiga
nyala
01902
05055
03
395
02597
04700
04618
02951
04808
Tiga
mati
03809
01
863
06920
02154
04252
02455
04616
03184
Empat
nyala
00
761
04379
04288
04053
03629
04122
02419
05622
Empat
mati
Bab 4 Pengujian dan Analisa
53
32
31
30
29
28
27
26
25 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
04793
03554
06312
03247
06514
03585
03068
02
935
Satu
nyala
Sinyal Standart
01671
04661
03012
03961
02834
04667
01
079
05475
Satu
mati
04033
02359
05307
02587
03475
01
587
04781
04010
Dua
nyala
02222
04949
03652
04387
00
958
03222
02647
04966
Dua
mati
04499
02207
04170
01
873
05884
02500
05631
03257
Tiga
nyala
01791
04432
01
196
02646
02999
04619
02558
05048
Tiga
mati
03561
01
050
05061
02437
04927
01887
05325
03424
Empat
nyala
00
858
03774
02052
03974
01440
04186
02597
05381
Empat
mati
Bab 4 Pengujian dan Analisa
54
40
39
38
37
36
35
34
33 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
06471
03838
05816
03364
06492
03613
03496
01
111
Satu
nyala
Sinyal Standart
02951
05556
02631
04558
05057
04799
01
683
02958
Satu
mati
05259
02977
05228
03305
04614
00
878
05159
02707
Dua
nyala
03165
05686
03078
05512
01
088
03082
03482
04823
Dua
mati
05397
02037
03714
00
949
06365
02818
05998
02829
Tiga
nyala
02990
04867
00
921
02759
04978
04752
03131
04533
Tiga
mati
05028
01
233
05114
02070
05154
01825
05439
01975
Empat
nyala
01
914
04521
01834
04248
02711
04164
03149
04755
Empat
mati
Bab 4 Pengujian dan Analisa
55
48
47
46
45
44
43
42
41 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
07997
03701
06005
03992
05800
05223
03706
01
198
Satu
nyala
Sinyal Standart
03909
04978
02572
05339
05784
05103
01
161
03113
Satu
mati
06284
02355
05419
04194
03709
02
588
04764
02834
Dua
nyala
03737
04883
03321
06131
03
489
04229
03188
04962
Dua
mati
05885
02259
04026
00
918
06123
03601
05739
0 2867
Tiga
nyala
03583
04464
00
974
03340
05828
05114
02720
04269
Tiga
mati
05762
01
230
7
05459
02231
04899
03397
05114
0 2395
Empat
nyala
02
247
02888
01948
04994
04987
04505
02141
0 4956
Empat
mati
Bab 4 Pengujian dan Analisa
56
56
55
54
53
52
51
50
49 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05627
03923
06226
04018
05254
04895
02933
02
009
Satu
nyala
Sinyal Standart
02473
04947
02892
05661
05301
05040
01
289
03008
Satu
mati
04393
02779
06046
04425
02900
01
743
04571
02669
Dua
nyala
02222
05352
04171
06748
01
202
03736
03177
03699
Dua
mati
04644
02488
03523
00
835
05391
03319
05277
03671
Tiga
nyala
02213
04345
01
009
03758
02869
05933
02761
03900
Tiga
mati
04093
01
443
05080
05083
04959
02819
04840
02709
Empat
nyala
01
239
04029
0 2223
05428
01263
04236
02575
04141
Empat
mati
Bab 4 Pengujian dan Analisa
57
64
63
62
61
60
59
58
57 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
07489
03792
05134
04199
06459
04019
03044
01
850
Satu
nyala
Sinyal Standart
03586
04783
02186
05509
02884
04251
01
198
03243
Satu
mati
05697
02612
04576
04268
03211
01
519
04639
03845
Dua
nyala
03563
05288
02855
06752
01
074
03523
03265
04523
Dua
mati
05768
02262
03884
01
048
06348
02633
05784
02683
Tiga
nyala
03449
04859
01
009
03177
03425
04355
02975
04077
Tiga
mati
05693
01
445
04574
02498
05298
01999
05622
02359
Empat
nyala
02
236
04215
01468
05161
01827
03851
03161
04416
Empat
mati
Bab 4 Pengujian dan Analisa
58
72
71
70
69
68
67
66
65 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05439
02975
05593
03689
05796
03415
03416
01
492
Satu
nyala
Sinyal Standart
02225
04543
04586
04584
02669
04529
01
112
02881
Satu
mati
04025
02639
06303
03009
02582
01
003
05045
02767
Dua
nyala
01734
05437
04847
04897
00
826
02892
02584
04797
Dua
mati
04671
02336
04988
01
206
05595
02572
05647
02991
Tiga
nyala
02095
04805
04
025
02747
02848
04359
02773
04076
Tiga
mati
03971
01
297
05065
02121
04489
01703
05074
02131
Empat
nyala
00
901
04123
04026
04154
01514
03762
02328
04561
Empat
mati
Bab 4 Pengujian dan Analisa
59
80
79
78
77
76
75
74
73 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
07997
03054
06228
04446
05805
04687
03173
03
391
Satu
nyala
Sinyal Standart
05051
04619
05619
05749
02631
04447
01
086
05310
Satu
mati
05949
03685
05899
05607
03163
01
874
05234
03797
Dua
nyala
03109
05053
05258
07102
01
095
03368
03585
04539
Dua
mati
06473
02004
04524
01
350
05525
03084
05608
03682
Tiga
nyala
04759
04205
04
309
03701
03031
04660
02678
05243
Tiga
mati
05572
02
003
05167
02702
04478
02552
05358
03563
Empat
nyala
02
459
04960
04964
05734
01641
03971
02630
05029
Empat
mati
Pengujian pertama ini dilakukan dengan cara memasukkan suara pria pertama (yang digunakan sebagai
pengisi suara standart) Setiap satu perintah dilakukan sebanyak 10 kali pengujian Hasil pengujian
merupakan nilai dari hasil proses Dynamic Time Warping yang merupakan nilai dari pemadanan sinyal
input dengan kedelapan sinyal standart Nilai terkecil (nilai yang tercetak tebal) yang didapatkan merupakan
hasil yang paling mendekati sinyal standart Yang berarti sinyal masukan tersebut dianggap paling sesuai
dengan sinyal standart
Prosentase keberhasilan pengucapspeaker pertama untuk kedelapan perintah sebesar 100 semuanya
menunjukkan kepada sinyal masukkan dan sinyal standart yang sama
Hasil pengujian menunjukkan bahwa ciri sinyal suara yang dihasilkan oleh pengucap speaker pertama dan
sebagai pemberi standart adalah sama
Bab 4 Pengujian dan Analisa
60
Tabel 42 Hasil pengujian sistem pengolahan sinyal wicara untuk pengucap yang lain (pria
2)
8 7 6 5 4 3 2 1 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
06023
05121
07146
04599
04996
04561
07575
04
358
Satu
nyala
Sinyal Standart
04018
05701
06369
06256
03518
05738
07004
08129
Satu
mati
07120
03925
07395
04897
05938
02246
10082
06777
Dua
nyala
04963
05958
05189
07345
03449
04854
08816
08543
Dua
mati
05919
04337
05163
02
130
04797
03463
08871
05289
Tiga
nyala
03709
04519
04380
03601
03491
05239
06
046
07381
Tiga
mati
06087
03
161
06178
03280
05
068
02
439
08853
05354
Empat
nyala
03
409
04321
04
208
05569
03219
04898
06863
08596
Empat
mati
Bab 4 Pengujian dan Analisa
61
16
15
14
13
12
11
10
9 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05475
03932
05521
04
383
05634
05416
04
464
03
434
Satu
nyala
Sinyal Standart
04076
05731
04541
05681
03574
04920
03971
06662
Satu
mati
07427
04886
07924
05962
05824
02
712
07837
05504
Dua
nyala
04475
06666
05765
07616
03414
04203
05431
06334
Dua
mati
05357
03797
05099
04509
04902
04332
07097
05220
Tiga
nyala
04197
05134
04
209
05088
03169
04547
04464
06516
Tiga
mati
05936
03
769
05910
05109
05
311
03435
07646
04977
Empat
nyala
03
576
05767
04591
06367
03010
04129
04944
06850
Empat
mati
Bab 4 Pengujian dan Analisa
62
24
23
22
21
20
19
18
17 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
06927
04
279
08096
04
448
06461
05522
03935
02
444
Satu
nyala
Sinyal Standart
06409
05322
05528
05481
04912
04491
02
011
05508
Satu
mati
06134
04643
08962
06002
04868
02
579
06122
05502
Dua
nyala
04753
06443
05501
07364
02
298
03206
04239
06684
Dua
mati
05709
04928
05456
04961
06142
05726
06454
03831
Tiga
nyala
05798
04882
03
235
04708
04838
04317
03526
05462
Tiga
mati
05021
04423
06842
05583
05222
04132
06363
04235
Empat
nyala
04
457
05427
03546
05773
02946
03573
03618
07019
Empat
mati
Bab 4 Pengujian dan Analisa
63
32
31
30
29
28
27
26
25 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05260
04224
07393
04661
06292
04993
03989
03
549
Satu
nyala
Sinyal Standart
04478
04669
04568
05977
03523
04046
03
438
04819
Satu
mati
06448
04308
08152
06114
04665
02
444
07609
05162
Dua
nyala
04024
05867
05103
07873
01
872
02613
04489
06765
Dua
mati
05363
04
672
05250
04
529
05210
05103
06546
04794
Tiga
nyala
04422
04039
02
482
05102
03499
03985
03969
04371
Tiga
mati
05492
04073
06626
05239
04902
03553
06869
04794
Empat
nyala
03
326
04543
03153
06510
02133
03419
04175
05287
Empat
mati
Hasil pengujian yang kedua ini dilakukan dengan cara memasukkan suara dari pria kedua (pria lain yang
tidak digunakan sebagai suara standart) Setiap satu perintah dilakukan empat (4) kali proses pengujian
Hasil pengujian merupakan nilai dari hasil proses Dynamic Time Warping yang merupakan nilai dari
pemadanan sinyal input dengan kedelapan sinyal standart Nilai terkecil (nilai yang tercetak tebal) yang
didapatkan merupakan hasil yang paling mendekati sinyal standart Yang berarti sinyal masukan tersebut
dianggap paling sesuai dengan sinyal standart
Prosentase keberhasilan pengucapspeaker kedua untuk kedelapan perintah bervariasi sebesar 50
sampai dengan 100 semuanya menunjukkan kepada sinyal masukkan dan sinyal standart yang berbeda
Hasil pengujian menunjukkan bahwa ciri sinyal suara yang dihasilkan oleh pengucap speaker kedua dan
sebagai pemberi standart adalah mendekati sama
Bab 4 Pengujian dan Analisa
64
Tabel 43 Hasil pengujian sistem pengolahan sinyal wicara untuk pengucap yang sama (pria)
No Perintah Lampu DTMF
1 1 nyala B B
2 1 mati B G
3 2 nyala B G
4 2 mati G X
5 3 nyala G X
6 3 mati G X
7 4 nyala B B
8 4 mati B B
9 1 nyala B G
10 1 mati B B
11 2 nyala B G
12 2 mati B B
13 3 nyala B G
14 3 mati B B
15 4 nyala B G
16 4 mati B B
17 1 nyala B G
18 1 mati B B
19 2 nyala G X
20 2 mati G X
21 3 nyala B B
22 3 mati B B
23 4 nyala B B
24 4 mati G X
No Perintah Lampu DTMF
25 1 nyala B G
26 1 mati G X
27 2 nyala G X
28 2 mati B G
29 3 nyala B G
30 3 mati B G
31 4 nyala B G
32 4 mati G X
B Berhasil
G Gagal
X Donrsquot Care (Diabaikan)
Pengujian yang ketiga ini dilakukan oleh pria pertama (pria yang suaranya digunakan sebagai standart)
Masing-masing perintah dilakukan sebanyak empat kali pengujian
Bab 4 Pengujian dan Analisa
65
Pada kolom ketiga (kolom lampu) tanda B (berhasil) menunjukkan bahwa perintah yang diberikan pada
hardware berhasil dilakukan Tanda G (gagal) menunjukkan bahwa perintah yang diberikan pada hardware
gagal dilakukan(hasil tidak sesuai dengan perintah yang diberikan)
Pada kolom keempat (kolom DTMF) menunjukkan laporan dari hardware ke PC server tentang
bagaimana keadaan lampu yang sedang dikontrol apakah dalam keadaan menyala atau mati Pada kolom ini
tanda B (berhasil) menunjukkan bahwa laporan dari hardware ke PC server (yang merupakan proses
otomatisasi) berhasil dilakukan Tanda G (gagal) menunjukkan bahwa laporan ke PC client gagal dilakukan
Sedangkan tanda X (donrsquot care) menunjukkan bahwa perintah diabaikan Hal ini disebabkan perintah pada
hardware (perintah sebelumnya sebelum proses otomatisasi) sudah gagal dilakukan
Prosentase keberhasilan pengucapspeaker pertama untuk kedelapan perintah bervariasi antara 50
sampai 100 semuanya menunjukkan kepada sinyal masukkan dan sinyal standart yang berbeda
Hasil pengujian kedua ini menunjukkan bahwa ciri sinyal suara yang dihasilkan oleh pengucapspeaker
kedua ini yang merupakan suara orang lain (bukan pemberi standart) adalah mendekati sama dengan hasil
yang bervariasi antara 50 sampai 100
43 Pengujian Sistem Client Server
Pada sub bab ini akan diujikan program Client Server yang akan mengirimkan sinyal hasil pengolahan
suara
Tampilan pada client adalah seperti gambar 421 yang merupakan tampilan awal pada saat program
dimulai
Gambar 421 Proses pada client
Bab 4 Pengujian dan Analisa
66
Gambar 422 Proses pada server
1 Sebelumnya program server harus disiapkan lebih dulu
2 Setelah itu client dijalankan
3 Setelah client siap user memasukkan suara yang selanjutnya akan diolah sampai proses DTW
4 Server menerima data yang selanjutnya digunakan untuk melakukan kontrol alat rumah tangga
44 Analisa Pengujian Sistem Secara Keseluruhan
Berdasarkan data-data yang telah didapatkan di atas maka dapat ditarik suatu analisa bahwa
Berdasarkan tabel 44 untuk pengujian pertama pria 1 adalah pria yang suaranya digunakan sebagai standart
Prosentase keberhasilan rata-rata yang didapat untuk semua perintah adalah sebesar 100 Hal ini menunjukkan
bahwa suara yang diujikan adalah suara yang sama dengan standart dan pria 1 tersebut pernah berinteraksi
dengan sistem
Pengujian yang kedua adalah pengujian yang dilakukan oleh pria 2 (pria lain yang suaranya tidak
dipakai sebagai standart) Prosentase keberhasilan rata-rata yang didapat untuk semua perintah 7188 Karena
sistem bersifat dependent speaker dimana sistem hanya digunakan oleh orang tertentu dalam arti yang pernah
berinteraksi langsung dengan sistem Oleh karenanya didapat nilai prosentase keberhasilan yang bervariasi
Bab 4 Pengujian dan Analisa
67
Tabel 44 Tingkat keberhasilan sistem perangkat lunak
NNO
PENGUCAP
PERINTAH
BANYAK
PERCOBAAN
PROSENTASE
KEBERHASILAN
1 Pria 1 1 nyala 8 kali 100
2 1 mati 8 kali 100
3 2 nyala 8 kali 100
4 2 mati 8 kali 100
5 3 nyala 8 kali 100
6 3 mati 8 kali 100
7 4 nyala 8 kali 100
8 4 mati 8 kali 100
RATA-RATA 100
9 Pria 2 1 nyala 4 kali 100
10 1 mati 4 kali 75
11 2 nyala 4 kali 75
12 2 mati 4 kali 50
13 3 nyala 4 kali 50
14 3 mati 4 kali 75
15 4 nyala 4 kali 50
16 4 mati 4 kali 100
RATA-RATA 7188
Jika diurutkan proses pengolahan wicara dari awal sampai diambil keputusan suara yang dimasukkan
tersebut adalah suara yang sesuai atau tidak adalah sebagai berikut
Bab 4 Pengujian dan Analisa
68
Gambar 423 Tampilan awal perangkat lunak menggunakan TclTk dan Snack
Gambar 423 adalah tampilan awal dari perangkat lunak yang dibangun dengan menggunakan TclTk dan
Snack
Gambar 424 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan dengan
menggunakan perangkat lunak Wavesurver
Gambar 424 adalah tampilan awal dari program Wavesurver yang merupakan pembanding dari program
yang dibuat dari perangkat lunak TclTk dan Snack
Bab 4 Pengujian dan Analisa
69
Gambar 425 Tampilan awal perangkat lunak
menggunakan TclTk dan Snack
Gambar 425 adalah tampilan ketika proses pengambilan sinyal suara sedang dilakukan dengan perangkat
lunak TclTk dan Snack
Gambar 426 Tampilan hasil perekaman kata ldquoempat
matirdquo dengan menggunakan perangkat lunak Wavesurver
Gambar 426 adalah tampilan ketika proses pengambilan sinyal suara sedang dilakukan dengan perangkat
lunak Wavesurver
Bab 4 Pengujian dan Analisa
70
Data Sampling
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 427 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900 menggunakan TclTk dan
Snack
Pada gambar 427 dilakukan proses sampling sinyal masukan dengan frekuensi sampling sebesar 12000
Hz maka didapatkan hasil sinyal yang hampir mirip dengan sinyal analognya yang dilakukan dengan
perangkat lunak TclTk dan Snack
Gambar 428 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900 dengan menggunakan
perangkat Wavesurver
Pada gambar 428 dilakukan proses sampling sinyal masukan dengan frekuensi sampling sebesar 12000
Hz yang dilakukan dengan perangkat lunak Wavesurver
Data Windowing
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 429 Hasil Windowing data sampel
kata ldquoempat matirdquo milidetik ke-13900 menggunakan TclTk dan Snack
Bab 4 Pengujian dan Analisa
71
Proses windowing terdapat pada gambar 429 dilakukan untuk membuat sinyal yang disampel lebih
halus Proses windowing ini dilakukan dengan menggunakan perangkat lunak TclTk dan Snack
Proses windowing pada Wavesurver merupakan fasilitas yang tergabung dengan proses lainnya Misal
dengan proses Fast Fourier Transform Jadi disini tidak ditampilkan hanya sebagai proses windowing saja
tetapi digabungkan dengan proses lain
Fast Fourier Transform Sinyal
Masukan
0
20
40
60
80
100
120
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 430 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat
lunak TclTk dan Snack
Gambar 430 di atas adalah proses Fast Fourier sinyal masukan dengan perangkat lunak TclTk dan Snack
Hasil Fast Fourier Transform sinyal masukan menunjukkan sebaran spektrum frekuensi dari sinyal suara
yang telah dihasilkan oleh pengucap
Sebagai pembanding adalah proses Fast Fourier sinyal masukan yang diambil dengan Wavesurver seperti
pada gambar 431 Yang didapatkan hasil yang sama
Gambar 431 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat Wavesurver
Bab 4 Pengujian dan Analisa
72
Fast Fourier Transform Parameter
LPC
0
20
40
60
80
100
0 2000 4000 6000 8000
Frekuensi (Hz)10 x log
10(magnitude)(dB)
Gambar 432 Fast Fourier Transform LPC dengan menggunakan perangkat lunak TCLTk
dan Snack
Hasil gambar 432 menunjukkan proses Fast Fourier Transform LPC yang dilakukan dengan perangkat
lunak TclTk dan Snack
Gambar 433 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat Wavesurver
Proses Fast Fourier Transform yang dilakukan dengan Wavesurver dapat dilihat pada gambar 433
Pelekukan Jalur Suara
0
50
100
150
0 50 100 150
Sinyal Input empat mati
Sinyal Standart
empat mati
Gambar 434 Pelekukan Jalur Suara dengan Dynamic Time Warping
Bab 4 Pengujian dan Analisa
73
Dari gambar 434 dapat dianalisa bahwa dengan menggunakan dynamic time warping terdapat proses
pembandingan panjang sinyal antara dua buah sinyal input dan sinyal standart sehingga terjadi proses
pemadanan panjang sinyal dengan cara memperpanjang dan menekuk vektor spektralnya
74
BAB 5
PENUTUP
51 Kesimpulan
Dari hasil yang didapatkan maka dapat diambil kesimpulan bahwa
Sistem pengucap tak bebas atau speaker dependent system memiliki tingkat akurasi yang tinggi untuk
pengucap masukan dan pengucap standar yang sama Hal ini dibuktikan dengan hasil pengujian pertama
yang dilakukan oleh pria pertama Pria pertama ini adalah pria yang suaranya digunakan sebagai standar
Nilai prosentase keberhasilan rata-rata untuk semua perintah adalah sebesar 100 dari setiap perintah
dilakukan 8 kali percobaan
Sedangkan pengujian yang dilakukan oleh suara lain (bukan standart) prosentatase keberhasilan
rata-rata yang diperoleh untuk semua perintah 7188 dari setiap perintah dilakukan 4 kali percobaan Hal
ini disebabkan karena suara pria kedua tidak pernah berinteraksi dengan sistem
Keberhasilan sistem ditunjukkan oleh ketepatan penyalaan lampu sesuai dengan yang diperintahkan
melalui perintah suara
Kecepatan sistem secara keseluruhan diperlihatkan dalam tabel 51 dibawah
Tabel 51 Kecepatan sistem keseluruhan
No
Perintah
Waktu (detik)
1 2 3 4 Rata-rata
1 Satu Nyala 11 99 12 25 16 89 14 05 13 80
2 Satu Mati 12 51 13 28 14 83 12 25 13 22
3 Dua Nyala 10 70 11 73 11 99 12 25 11 67
4 Dua Mati 10 44 11 21 11 21 11 47 11 08
5 Tiga Nyala 10 96 12 25 13 54 12 51 12 32
6 Tiga Mati 10 70 11 99 11 99 13 28 11 99
7 Empat Nyala 11 73 11 99 13 02 12 24 12 25
8 Empat Mati 10 70 09 93 11 21 10 70 10 64
Rata-rata 12 12
Dari data yang diperoleh didapatkan kecepatan rata-rata untuk tiap perintah yang diberikan sampai
dengan terlaksananya eksekusi dari perintah adalah 12 12 detik
52 Saran
Pada penelitian ini masih sangat banyak hal yang dapat dilakukan untuk perbaikan-perbaikan dimasa
selanjutnya Saran dan usulan yang dapat dipertimbangkan untuk pengembangan sistem lebih lanjut adalah
antara lain
1 Sistem tidak lagi bersifat dependent speaker tetapi bersifat independent speaker dimana banyak
orang yang memberi perintah dan sistem dengan tepat memberikan respon
2 Sistem dapat mengatasi tingkat noise yang tinggi baik yang disebabkan oleh lingkungan atau oleh
hardware (sound card)
75
3 Otomatisasi sistem Artinya perintah tidak perlu lagi diberikan lewat penekanan tombol yang
dilakukan melalui mouse
4 Respon sistem yang real time
5 Sistem yang dapat dengan mudah beradaptasi dengan jenis sound card yang bervariasi
DAFTAR PUSTAKA
Anggraeni Triana Dewi Astutik Debi Puji Pengenalan Wicara Dengan Penutur Tak Bebas
Tugas Akhir PENS ITS 2003
Wahyudi Agus Verifikasi Sinyal Suara Sebagai Kendali Arah TA PENS-ITS 2002
Dewantara Bima Sena Bayu Aplikasi Pengenalan Wicara Untuk Perintah NirkabelRobot Mikro
Mouse Tugas Akhir PENS ITS 2004
Dutono Titon Penataran Kebahasaan Tahap I Fonetik Dan Fonologi ndashPengolahan Sinyal
Wicara Digital 20 Februari 2001
Gabel Robert A Richard A Robert Sinyal dan Sistem LinierErlangga 1996
Rabiner Lawrence Huang Juang Biing Fundamentals of Speech Recognition Prentice Hall
International Inc1993
Proakis John G Malonakis Dimitris G Digital Signal Processing Principles Algorithms and
Applications Prentice Hall Inc New Jersey 1995
Scolander Kare Snack Sound Toolkit
httpwwwtcltkmantcl85tutorialTcl11html
httpwikitcltk4074
httpwwwinveceorgtclwisefrontcoverhtml
httpwwwspeechkthsesnackmansnack22tcl-manhtml
httpwwwspeechkthsesnacktutorialhtml
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13]
Bab 2 Teori Penunjang
4
Gambar 22 Struktur umum model generator wicara3
Pada model ini sinyal eksitasi(glotal wave) yang berasal dari getaran pita suara diumpankan ke suatu
filter yang merupakan suatu model pendekatan dari lintasan vokal (vocal tract) untuk menghasilkan sinyal
wicara Model analog terminal ini disebut juga pensintesa formant Dasar pendekatan model ini adalah bahwa
lintasan suara adalah suatu bumbung akustik (acoustical cavity) yang mempunyai karakteristik berdasarkan
perpaduan beberapa frekuensi resonansinya Dengan demikian fungsi transfernya dapat didekati dengan
pendekatan kombinasi riam (cascade combination) dari beberapa rangkaian resonansinya Dengan analogi yang
sama sistem ini dapat dibangun dari beberapa rangkaian resonansi yang mempunyai parameter lebar bidang dan
frekuensi resonansi yang selalu berubah setiap saat membentuk suatu sistem berubah waktu (time variant
system)
Struktur sistem pengenal wicara yang ada dapat dibagi menjadi 2 yaitu
1) Mempergunakan pola standart dengan unit kata
Gambar 23 Pola standart dengan unit kata4
2) mempergunakan pola standart dengan unit fonem
yang dilengkapi dengan kamus kosa kata
3 Ibid 4 Ibid
Ekstraksi ciri
Pola standar kata
Pemadanan kata
Algoritma keputusan
Sinyal wicara Output teks
Bab 2 Teori Penunjang
5
Gambar 24 Pola standart dengan unit fonem5
Pada sistem pertama mampu mencakup fenomena koartikulasi tapi tidak fleksibel terhadap perubahan
kosa kata
Sinyal wicara adalah sinyal yang dihasilkan oleh suara manusia dan biasanya mempunyai frekuensi
kerja antara 0 sampai dengan 5000 Hz Bentuk gelombang sinyal wicara mempunyai bentuk yang unik seperti
gambar 23
Gambar 25 a)Sinyal wicara untuk bunyi a pada satu frame pada wanita
b)Sinyal wicara untuk bunyi a pada satu frame pada pria
Berdasarkan gambar 25 terlihat bahwa setiap satu frame terdapat 120 sample yang bersifat quasi
periodik dan mempunyai unsur bunyi terkecil yang disebut sebagai pitch Panjang pitch berkisar 10 ms Pitch
manusia berbeda satu sama lain terutama jenis kelamin laki-laki dan perempuan
212 Sampling
Sinyal wicara merupakan sinyal yang tidak terbatas dalam domain waktu (finite time interval) Suara
manusia akan menghasilkan sinyal analog yang terus kontinyu Untuk keperluan pemrosesan dalam transformasi
fourier maka sinyal wicara harus dibentuk dalam potongan-potongan waktu yang terbatas (infinite time interval)
Karena itu sinyal yang ada dipotong-potong dalam slot-slot interval waktu tertentu
Berdasarkan pada teori sampling Niquist maka syarat dari frekuensi sampling adalah minimal dua kali
frekuensi sinyal
Fsampling 2 x Fsignal ( 21)
Ekstraksi ciri
Pola standar fonem
Pemadanan fonem
Kamus kosa kata
Pemadanan kata
Algoritma keputusan
Sinyal wicara
-20000
-15000
-10000
-5000
0
5000
10000
15000
0 20 40 60 80 100 120 140
pitch -10000
-8000
-6000
-4000
-2000
0
2000
4000
6000
8000
0 20 40 60 80 100 120 140
pitch
Output teks
Bab 2 Teori Penunjang
6
Contoh dari sampling seperti bisa kita lihat pada gambar di bawah
Gambar 26 Contoh proses sampling dengan nilai frekuensi pencuplikan yang berbeda
6
Frekuensi sampling yang digunakan adalah 12000 Hz
Dimana dalam 1 detik sinyal terdapat 12000 titik sampling
213 Preemphasis
Proses preemphasis dimaksudkan agar spektrum sinyal merata di semua frekuensi serta mencegah
kehilangan informasi akibat proses pembulatan pada saat komputasi Fungsi preemphasis adalah
H (z) = 1 ndash az-1 09 le a le 1 (22)
dimana nilai a berkisar 095 Berdasarkan model filter di atas maka keluaran dari preemphasis adalah
s (n) = s (n) - as (n-1) ( 23)
Penjabarannya sebagai berikut
5 Ibid 6 Ibid
Fi = 1000 Hz
Fs = 1250 Hz
Fs = 1000 Hz
Fs = 4000 Hz
Fs = 8000 Hz
Fs 2Fi
Kriteria Nyquis
Fi Frekuensi sinyal informasi Fs Frekuensi pencuplikan
H X Y
T 1 = 12000 = 833 x 10-5 s = 833 μs
10 ms = 833μs x N sample N = 120 sample
Bab 2 Teori Penunjang
7
y = H x
y = (1-az-1) xn
y = xn - 095 xn z-1
y = xn ndash 095 xn - 1
214 Frame Blocking
Sinyal wicara yang telah dipreemphasis s (n) diblok dalam M sampel dimana N 2 x M seperti yang
ditunjukkan pada gambar 27 Jika M le N pergeseran frame akan mengalami overlape hasil perkiraan LPC
spectral akan dikorelasikan dari frame 1 ke frame berikutnya Jika M laquo N perkiraan LPC spectral dari satu frame
ke frame lainnya akan sangat halus (smooth) Dan bila M gt N maka tidak akan ada overlape diantara frame yang
berbatasan dan sinyal suara akan hilang sama sekali dan korelasi diantara perkiraan spectral LPC dari frame
yang berbatasan akan berisi komponen noise
Gambar 27 Pergeseran Frame pada Sinyal Suara
dengan M = 13 N
Sehingga didapatkan nilai dari sinyal yang baru adalah sebagai berikut
x1(n) =s(M 1+n) n =012hellipN ndash 1 l = 012hellipLndash1 (24 )
215 Windowing
Merupakan proses membatasi lebar sinyal yang akan dianalisa yang dapat mengurangi efek
diskontinyuitas pada ujung-ujung frame yang dihasilkan oleh potongan-potongan sinyal Korelasi antara lebar
window dalam domain waktu dan amplitude berguna untuk menyederhanakan sinyal dengan mengurangi
puncak sinyalnya
Ada beberapa jenis windowing yang dinamakan sesuai dengan nama penemunya yaitu
Bab 2 Teori Penunjang
8
Window Hamming
052-046 cos[2лn(N-1)] 0 le n le N-1
Wham(n) =
0 elsewhere
Window Hanning
1-cos[2лn(N-1)] 2 0 le n le N-1
Whan(n) =
0 elsewhere
Window Bartlett
1-cos[2лn(N-1)] 2 0 le n le (N-1)2
WB(n) = 2-2n(N-1) (N-1)2lenleN-1
0 elsewhere
Window Blackman
042-05cos[2лn(N-1)]+008cos[4лn(N-1)]0lenleN-1
WBl(n) =
0 elsewhere
216 Fourier Transform
Transformasi Fourier Diskrit (DFT) adalah deretan yang terdefinisi pada kawasan frekuensi ndash diskrit
yang merepresentaskan Transformasi Fourier terhadap suatu deretan terhingga (Finite Duration Sequence) DFT
berperan penting untuk implementasi algoritma suatu varitas pengolah sinyal karena efisien untuk komputasi
berbagai aplikasi
Salah satu contoh aplikasi komputasi DFT dalam algoritma yang efisien yaitu Fast Fourier Transform
(FFT) Efisiensi suatu algoritma ditentukan dari sejauh mana dapat mereduksi jumlah perkalian dan
penjumlahan serta reduksi lalu lintas data pada memori komputer sehingga proses lebih cepat
Pada DFT untuk memproses N buah titik diperlukan (N-1)perkalian kompleks dan N(N-1)
penjumlahan kompleks Bila N cukup besar dibutuhkan memori yang besar dan waktu yang cukup lama Untuk
itu digunakan metode lain yang lebih cepat yaitu metode transformasi fourier cepat (FFT) FFT dilakukan
dengan membagi N buah titik pada transformasi fourier diskrit menjadi 2 masing-masing N2 titik trnsformasi
Pemecahan menjadi dua pada proses transformasi fourier cepat disebut sebagai proses rekombinasi Dua buah
N2 titik transformasi mempunyai 2(N2) = N2 perkalian Proses memecah menjadi dua ini diteruskan dengan
membagi setiap (N2) titik transformasi menjadi dua buah (N4) titik transformasi setiap (N4) menjadi dua buah
Bab 2 Teori Penunjang
9
(N8) titik transformasi dan seterusnya hingga diperoleh junlah titik yang minimum Jika besarnya N merupakan
kelipatan pangkat dari 2 (disebut radiks 2) maka jumlah titik minimum setelah setiap kali dibagi 2 adalah dua
Ada dua macam metode FFT metode Decimation in Time (DIT) dan metode Dicimation in Frekuensi
(DIF) Kedua metode ini hamper sama Pada metode FFT-DIT N buah titik transformasi dibagi 2 menjadi fungsi
ganjil dan genap masing-masing mempunyai N2 titik transformasi Sedang pada metode FFT-DIF N buah titk
transformasi dibagi menjadi fungsi N2 titk yang pertama dan fungsi N2 titik yang kedua
Operasi pada metode FFT-DIT disebut juga metode kupu-kupu Untuk N buah titik transformasi h(n)
algoritma radiks 2 memerlukan proses perkalian dan rekombinasi sebanyak N2 log N transformasi fourier
diskrit Pada metode FFT-DIT operasi dekomposisi dilakukan dengan membagi fungsi h(n) menjadi 2 bagian
fungsi ganjil dan fungsi genap Atau dengan pernyataan matematika h1(n) dan h2(n) yang masing-masing adalah
untuk n genap dan n ganjil
Prinsip FFT dengan metode DIT adalah seperti pada gambar 24 berikut ini
Gambar 28 Blok metode FFT-DIT 8 titik
7
Pada gambar di atas merupakan jumlah perkalian kompleks N2 log N juga jumlah penjumlahan
kompleks = N2 log N
217 Linear Prediction Code
Ide dasar dari LPC adalah bahwa pada model ini memberikan sampel suara pada domain waktu yang
bisa didekati sebagai kombinasi linear dari sampel suara yang telah lalu
Teori Linear Prediction Coding (LPC) yang diaplikasikan pada wicara telah dimengerti selama
beberapa tahun Pada bagian ini akan dijelaskan dasar dari bagaimana LPC diaplikasikan pada sistem pengenlan
wicara
Sebelum menjelaskan LPC secara umum sebagai pemrose front-end untuk pengenalan wicara perlu
diketahui alasan mengapa LPC sangat banyak digunakan yaitu
1 LPC menyuguhkan model yang bagus untuk sinyal wicara
2 Cara yang digunakan LPC untuk analisa sinyal wicara sangat beralasan untuk pemisahan track dari
sumber vocal
3 LPC adalah model traktabel secara analitis
Bab 2 Teori Penunjang
10
4 Model LPC bekerja dengan baik pada aplikasi pengenalan
2171 Autocorrelation Analysis
Masing-masing frame sinyal yang telah diwindow kemudian di-autokorelasikan dengan menggunakan
persamaan
N-1-M
r1(m) = sum x1(n) x1(n+m) m = 0 1 p ( 25) (25)
n = 0
dimana nilai autokorelasi tertinggi p adalah orde dari analisi LPC Pada umumnya nilai dari p yang
sering digunakan adalah dari 8 sampai 16 Sisi menguntungkan dari analisis autokorelasi adalah bahwa
autokorelasi ke-0 R1 (0) adalah energi dari frame ke-1 Energi dari frame merupakan parameter
penting untuk system deteksi wicara
2172 LPC Analysis
Langkah selanjutnya adalah analisis LPC dimana mengkonversi masing-masing frame dari
auto korelasi p+1 ke dalam sebuah ldquoLPC Parameter Setrdquo dimana kumpulan itu merupakan koefisien
LPC koefisien refleksi atau PARCOR koefisien log area ratio koefisien Cepstral atau beberapa
transformasi pada kumpulan tersebut
Metode yang formal untuk mengkonversi dari koefisien autokorelasi ke sebuah LPC parameter
set (untuk metode autokorelasi) dikenal sebagai Metode Durbin dan secara formal dapat ditunjukkan
pada algoritma berikut ini
E(0) = r(0) ( 26)
Ki=r(i)-sumαj(i-1) r(|i-j|)E(i-1) 1 le I le p ( 27)
αi(i) = ki (28)
αj(i) = αj
(i-1)-ki α(i-1) ( 29)
t-j
E(i)=(1-ki2)E (i-j) (210)
dimana penyajian akhir dari persamaan mengabaikan i=1 Kumpulan dari persamaan hellipdiselesaikan secara
rekursif untuk i=12hellipp dan penyelesaian akhir diberikan sebagai
am=koefisien PC=αm 1lemlep ( 211)
7 Agus Wahyudi Verifikasi Sinyal Suara Sebagai Kendali Arah TA PENS-ITS 2002
Bab 2 Teori Penunjang
11
km=koefisien PARCOR ( 212)
1 - km
gm=koefisien log area ratio = log ----------- ( 213)
1 + km
2173 LPC Parameter Corversion to Cepstral Coefficients
Sekumpulan parameter LPC yang sangat penting yang dapat diturunkan langsung dari kumpulan LPC
adalah koefisien cepstral LPC c(m) Rekursif yang digunakan adalah
co = ln σ2 ( 214)
m-1
cm = am + sum ck am-k 1 le m le p ( 215)
k = 1
m-1
cm = sum ck am-k m gt p
k = 1
dimana σ2 adalah penguatan dalam model LPC Koefisien cepstral koefisien yang direpresentasikan dengan
fourier transform dengan spectrum besaran log telah ditampilkan menjadi kumpulan fitur untuk pengenalan
wicara yang lebih handal terpercaya daripada koefisien LPC koefisien PARCOR atau koefisien log area ratio
218 Dynamic Time Wraping
Dynamic Time Wraping (DTW) merupakan cara untuk membandingkan pola wicara dalam menentukan
kesamaan jarak antara pola-pola yang berbeda Dimana pengenalan wicara merupakan proses secara otomatis
dalam mengambil dan menentukan informasi linguistic yang disampaikan dengan gelombang wicara
menggunakan komputer atau sirkuit elektronik Informasi linguistic tersebut pada akhirnya akan
direpresentasikan dengan deretan waktu vektor-vektor spektral
Metode nolmalisasi waktu menggunakan dua buah fungsi warping
ix = Фx (k) k = 123hellipT (216)
iy = Фy (k) k = 123hellipT
2181 Dynamic Programming
Dynamic Programming (DP) digunakan untuk memecahkan masalah deteksi pengurutan kemampuan
menggunakan pola pengenalan wicara dan masalah waktu penjajaran dan normalisasi Ada dua tipe masalah
penggunaan Dynamic Programming yaitu
(
)
k m
( )
K m ( )
Bab 2 Teori Penunjang
12
1 Masalah jalan optimal dengan menganggap sekumpulan titik mulai dari 1 sampai dengan N yang
dihubungkan dengan pasangan setiap dari titik (ij) Representasi perpindahan secara langsung dari titik
ke-1 ke titik yang lainnya Rentetan perpindahan tersebut tidak mempunyai bilangan yang ditetapkan
dari transisi satu titik ke titik yang lainnya hal ini disebut rentetan keputusan asinkron
Dengan Terminologi sederhana kita membuat garis keputusan untuk menetukan titk berikutnya setelah
kebijaksanaan pada titik i
Prinsip dari optimalisasi yang merupakan kelas dasar dari algoritma komputasi untuk optimasi masalah
di atas berdasarkan pernyataan Bellman
rdquoKebijakan optimasi yang memiliki sifat apapun ketetapan dan ketentuannya keputusan berikutnya
harus merupakan hasil ketetapan dari keputusan yang pertamardquo
2 Masalah keputusan rentetan sinkronisasi terdapat perbedaan dari satu sinkronisasi yang beraturan dari
proses keputusan
Penggunaan teknik Dynamic Programming pada Dynamic Time Warping untuk pertama kali dilakukan
oleh Slutsker (1968) Vintsyuk (1968) dan Volichko (1971) dari Jepang untuk pengenalan wicara Pada proses
ini pembicara mengucapkan kata yang sama dengan durasi berubah setiap waktu dengan ekspansi yang non
linier Oleh karena itu Dynamic Time Wraping adalah tahap yang penting dalam proses pengenalan kata Proses
DTW mengalami pengembangan pada sumbu waktu untuk mencocokan posisi phonemkata yang sama antara
input wicara dan referensi template
Dynamic Programing secara umum digunakan untuk memecahkan masalah rentetan keputusan yang
dilakukan pada bidang kisi sebagaimana ditampilkan pada gambar 27 Sinyal yang dicocokkan adalah A dan B
Di dalam bidang kisi sinyal A disesuaikan sepanjang sumbu ndashx dan sinyal B disesuaikan sepanjang sumbu ndashy
Setiap antar bagian pada bagian ini ditetapkan sebagai sebuah simpul atau titik dimana titik (ij) adalah
pencocokan frame I untuk sinyal A dengan frame j untuk sinyal B Misalnya diasumsikan dua rentetan waktu
untuk vektor utama yang dibandingkan sebagai berikut
A = a1a2hellipaI dan B = b1b2hellipbJ
Dengan menganggap rentang bidang antara A dan B sebagaimana ditunjukkan pada gambar 27
fungsi pelengkungan waktu yang sesuai menunjukkan waktu antara rentetan A dan B dapat dipresentasikan
sebagai rentetan titk-titik Lattice pada bidang c = (ij) sebagai berikut
Bab 2 Teori Penunjang
13
Gambar 29 Plane jaringan untuk ilustrasi
pemrograman dinamik8
Bilamana jarak spektral antara dua vektor utama a1 dan b1 direpresentasikan oleh d(c) = d(ij) penjumlahan
jarak dari awal sampai akhir dari rentetan sepanjang F dapat direpresentasikan dengan
K
sum d(ck)wk
k=1
D(F) = mdashmdashmdashmdashmdash (217)
K
sum wk
k=1
Semakin kecil nilai ini semakin baik kecocokan antara A dan B Dimana wk adalah fungsi pembobotan
positif terhadap F
Dengan memperkecil persamaan di atas dengan kondisi berikut
1 Kondisi monotonisasi dan kontinuitas
0 le ik-ik-1le1 0 lejk ndash jk -1 le 1 ( 218)
2 Kondisi perbatasan
I1=j1=Iik=Ijk=I (219)
3 Kondisi adjustmen window
|ik ndash jk|ler r=konstan ( 220)
Pendefinisian wk sedemikian rupa sehingga menyebut pada persamaan 219 menjadi konstan yang
tidak tergantung pada F Untuk contoh jika
Wk = (ik ndash ik -1)+(jk ndash jk -1)(i0=j0=0) wk akan menjadi
8 Ibid hal 15
Bab 2 Teori Penunjang
14
K
sum wk = I + J (221) k=1
dan persamaan 219 menjadi
1 K
D(F)= mdashmdash sum d(ck)wk ( 222)
I + J k=1
Gambar 210 DTW antara dua rentetan waktu A dan B
9
Karena fungsi obyektif yang akan diminimasi menjadi penjumlahan maka peminimisasi secara efisien
dapat diselesaikan tanpa harus menguji semua kemungkinan untuk F Penjumlahan pada sebagian rentetan c1
c2 hellip ck (ck=(ij)) adalah
(224)
Penurunan pemrograman dinamik pada persamaan-persamaan diatas penggunaan kondisi untuk F dan
formulasi perumusan wk persamaan 2115 dapat dituliskan kembali sebagai berikut
9 Ibid hal 17
Bab 2 Teori Penunjang
15
g(ij-1)+d(ij)
g(ij) = min g(i-1j-1) + 2d (ij) (225)
g(i-1j) +d(ij)
Oleh karena itu jarak antara dua rentetan waktu A dan B setelah DTW dapat diperoleh sebagai berikut
Kita set dari kondisi awal untuk g(11)=2d(11) dan j=1 dan hitung persamaan 2116 dengan variasi I dalam
sepanjang adjustment window Perhitungan ini diulangi dengan menaikkan j sampai j=1 Jarak keseluruhan
antara dua rentetan waktu A dan B dapat diperoleh dari g(IJ)(I+J)
2182 Batasan Normalisasi Waktu
Supaya proses normalisasi waktu mempunyai arti pada perbedaan batasan dengan berbagai variasi
interval waktu dibutuhkan beberapa batasan terhadap fungsi warping
2183 Batasan Titik Awal Akhir
Bilamana pola wicara yang dibandingkan merupakan tuturan per kata maka harus memenuhi syarat pola
mulai dari titik awal sampai titik akhir dari tanda permulaan dan pengakhiran pola wicara Titik awal dan akhir
mempunyi batasan yang membatasi pola wicara harus dipenuhi
Titik awal Фx(1) = 1 Фy(1) = 1 (226)
Titik akhir Фx(T) = Tx Фy(T) = Ty (227)
2184 Kondisi Monotonisasi
Rentetan pola spectral pada wicara sangat penting dalam menentukan arti linguistic sehingga tidak
akan hilang Untuk mempertahankan pola tersebut harus memenuhi
Фx(k + 1) ge Фx(k) (228)
Фy(k + 1) ge Фy(k)
22 Awal dan Akhir Sinyal Suara
221 Power
Sinyal suara yang diolah haruslah merupakan sinyal suara murni dan tidak bercampur dengan noise
ataupun header tail yang dibawa oleh suara saat perekaman apalagi jika pengenalan sinyal suara dengan jumlah
vocabulary yang besar Oleh karena itu sinyal suara hasil perekaman harus dicari nilai awal dan akhirnya agar
pengolahan sinyal suara tersebut menjadi lebih valid
Dan salah satu cara dalam menentukan nilai awal dan akhir dari sinyal suara adalah dengan
menggunakan power yang mempunyai persamaan sebagai berikut
( )
Bab 2 Teori Penunjang
16
239
p= sumradic xt2 (229)
t=0
Sinyal suara yang dibagi menjadi beberapa frame mempunyai power dari tiap framenya yang kemudian
didapatkan nilai rata-ratanya yang kemudian diperoleh nilai awal dan akhirnya dengan menambahkan 3 kali
standart deviasi Dimana penentuan awal dan akhir dari sinyal suara dapat diperoleh dengan
p ge p + 07 standart deviasi
Power
0
20000
40000
60000
80000
100000
120000
140000
160000
0 10 20 30 40 50 60
Jumlah Frame
Am
pli
tud
o
Gambar 211 Bentuk power dari kata
Nilai beberapa kali hasil percobaan
222 Unvoiced Plosive
Pada suatu sinyal suara yang terekam terdapat pemutusan sinyal atau kondisi kosong yang bukan
merupakan noise tetapi masih didalam lingkup suara Tapi kondisi ini hanya terjadi pada kebanyakan sinyal
suara yang terdapat konsonan tertentu yaitu sinyal suara dari kata yang mempunyai konsonan p t k Kondisi ini
disebut Unvoiced Plosive atau loncatan sinyal suara setelah kondisi kosong seperti ditunjukkan pada gambar
berikut
Gambar 212 Unvoiced Plosive
Bab 2 Teori Penunjang
17
Dan untuk penentuan awal dan akhir daerah kosong tersebut harus diperhitungkan agar didapatkan
nilai awal dan akhir dari sinyal suara yang valid yaitu dengan mencari nilai rata-rata dari daerah kosong dari
beberapa sinyal suara Kemudian dengan dicari nilai thresholdnya yaitu nilai terpanjang dari daerah kosong
sebesar 2 dari seluruh daerah kosong yang telah dihistogram
23 JARINGAN DENGAN TCPIP
Meskipun hubungan computer melalui serial dan parallel telah ada sejak lama multijaringan belum
menjadi masalah serius bagi para peneliti di bidang jaringan sampai awal tahun 1980 Perkembangan teknologi
LAN itu sendiri didasarkan banyak alasan Salah satu yang menjadi alasan utama adalah adanya perusahaan
yang ingin melakukan sharing data file printer dan resource lainnya ke pc lain
231 Mengenal TCPIP
Sebelumnya kita definisikan lebih dahulu apa yang dimaksud protocol itu Bila dua computer ingin
melakukan komunikasi keduanya tentu saja harus menggunkan bahasaturan yang sama Aturan-aturan inilah
yang disebut protocol Misalnya untuk mengirim mail digunakan protocol SMTP berhubungan dengan WWW
menggunakan HTTP dan sebagainya Jadi protocol merupakan aturan dalam melakukan komunikasi
TCPIP ( Transmission Control Protocol Internet Protocol) merupakan protocol yang bersifat open
networking Maksudnya semua penjelasan teknis tentang protocol tersebut diumumkan karena ada juga
mekanisme jaringan yang menyembunyikan detail dari sistemnya Hal inilah yang membuat TCPIP menjadi
terkenal
Adapun keuntungan dengan menggunakan protocol TCPIP adalah kemudahannya karena
memungkinkan hubungan antara berbagai system operasi dan berbagai jenis computer (platform)
TCPIP bukanlah protocol tunggal tetapi merupakan sekumpulan protocol sehingga lebih tepat disebut
sebagai keluarga TCPIP Setiap protocol pada TCPIP memiliki tugas tertentu yang berbeda Semua protocol
tersebut menggunakan protocol primer untuk mengirimkan paket data Protocol primer tersebut adalah TCP dan
IP
Protokol lainnya dapat dikelompokkan berdasarkan tujuannya sebagai berikut
1 Transport
Digunakan untuk mengatur perpindahan data antara dua mesin Antara lain
- TCP (Transmission Control Protocol)
- UDP (User Datagram Protocol)
2 Routing
Digunakan untuk pengalamatan data dan menentukan rute terbaik antara lain
- IP (Internet Protocol)
- ICMP (Internet Control Message Protocol)
- RIP (Routing Information Protocol)
Bab 2 Teori Penunjang
18
3 Network Address
Menangani bagaimana suatu mesin diberikan suatu alamat antara lain
- ARP ( Address Rwesolution Protocol)
- DNS ( Domain Name Sistem)
- RARP (Reverse Address Resolution Protocol)
4 User Service
Merupakan aplikasi yang harus diakses user antara lain
- FTP ( File Transfer Protocol)
- TFTP (Trivial File Transfer Protocol)
- TELNET
5 Gateway Protocol
Untuk membentuk proses komunikasi routing dan status informasi antara lain
- EGP (Exterior Geteway Protocol)
- GGP (Gateway to Gateway Protocol)
- IGP (Interior Gateway Protocol)
232 Koneksi TCPIP
Untuk mengkonfigurasi TCPIP maka dibutuhkan
Alamat IP
Alamat IP ini sebagai pengenal atau alamat mesin Karena setiap mesin yang terhubung jaringan
harus memiliki penganal yang unik sehingga memungkinkan melakukan routing Jaringan dengan TCPIP
menggunakan pengalamatan 32 bit sebagai alamat atau pengenal setiap mesin yang terkoneksi dengan jaringan
Pengenal ini disebut alamat IP Pesan atau data yang dikirim melalui TCPIP menggunakan alamat IP ini untuk
mengenali mesin pengirim dan penerimanya
Biasanya alamat IP dapat dikelompokkan menjadi dua bagian yaitu
1 Nomor Network
2 Nomor Device dalam Network tersebut
Alamat IP tersebut dipisahkan menjadi empat bagian yang masing-masing berukuran 8 bit Empat
bagian tersebut dipisahkan oleh tanda titik dan setiap bagian tersebut memiliki angka 0-255 Contohnya
192168101
Pemberian alamta IP umumnya ditentukan berdasarkan ukuran dari jaringan tersebut Jaringan
dapat diklasifikasikan menjadi tiga kategori yaitu kelas A kelas B kelas C Ketiga kelas tersebut membagi
pengalamatan 32 bit dengan ukuran berbeda untuk nomor Network dan Host
Pengalamatan pada kelas A memungkinkan bagian ini memiliki angka dari 0-127 Sedangkan
pengalamatan B memungkinkan memiliki angka dari 128-191 pengalamatan pada kelas C memungkinkan
memiliki angka dari 192-223
Network Mask
Bab 2 Teori Penunjang
19
Network mask merupakan alamat IP dimana lamat networknya diset ke nilai 255 Jika alamat IP
termasuk kelas A maka network masknya yaitu 255000 Jika alamat IP termasuk kelas B maka network
masknya yaitu 25525500 Jika alamat IP termasuk kelas C maka network masknya yaitu 2552552550
AlamatNetwork
Alamat network ini dapat diperoleh dari alamat IP dimana bit-bitnya dilakukan operasi AND
dengan network mask Dengan demikian untuk network kelas B dengan IP 192168101 maka alamat
networknya adalah 19216800
Alamat Broadcast
Alamat broadcast dibutuhkan bila suatu mesin ingin mengirimkan paket yang sama ke semua
device pada jaringan
Alamat Gateway
Alamat gateway merupakan alamat IP dari mesin yang menghubungkan jaringan dengan jaringan
di luar misalnya internet Pada umumnya alamatgateway memiliki IP yang sama dengan mesin yang kita miliki
tetapi mempunyai nomor device 1 Dengan demikian untuk network kelas B dengan alamt IP 192168101
alamat gatewaynya adalah 19216811
Alamat Nameserver
Jaringan-jaringan besar umumnya memiliki sebuah mesin untuk mentranslasikan alamat IP menjadi
nama yang lebih mudah dikenal manusia Misalkan sebuah mesin dengan IP 192168101 dapat diberi nama lain
seperti puspacsuiacid sebagai alamatnya Proses translasi ini dilakukan dengan system yang dikenal dengan
nama Domain Name System (DNS)
24 BEKERJA DENGAN SOCKET
Komponen socket program yang dapat membantu dalam pembuatan suatu aplikasi yang berkomunikasi
antara suatu system computer dengan system computer yang lain dengan menggunakan protocol TCPIP dan
protocol lain yang terhubung
241 Pengertian Socket Program
Pada sub bab ini akan dijelaskan tentang komoponen socket program yang dapat berkomunikasi antara
system computer dengan system computer yang lain dengan menggunakan protocol TCPIP dan protocol lain
yang terhubung Dengan socket program ini kita dapat membaca dan menulis pada hubungan ke mesin yang lain
tanpa mengalami kesulitan pada software jaringan Socket program dapat mengadakan hubungan berbasis
protocol TCPIP tetapi dapat juga bekerja umunya dengan protokol-protokol yang terhubung seperti Xerox
Network System (XNS) dan yang lain
Bab 2 Teori Penunjang
20
242 Penjabaran Socket
Socket mengijinkan aplikasi jaringan kita berkomunikasi dengan sistem lain di luar jaringan
Masing- masing socket bisadipandang sebagai titik akhir dalam suatu koneksi jaringan Socket tersebut memiliki
spesifikasi sebagai berikut
a) Sistem yang sedang dijalankan
b) Tipe interface port yang digunakan
Penjelasan lengkap dari sebuah koneksi socket terdiri dari address socket pada kedua titik akhir
koneksi Kita akan menguraikan address dari masing- masing titik akhir socket dengan memberi nomor IP
address atau host dan port
Sebelum membuat koneksi socket sebelumnya harus menguraikan dengan lengkap socket-socket
yang membentuk titik akhir Beberapa informasi tersedia dari sistem aplikasi yang dijalankan Sebagai contoh
kita tidaka akan membutuhkan IP Address Local dari socket client sebab informasi ini terdapat pada sistem
operasi
Informasi yang akan kita berikan bergantung pada tipe socket yang sedang bekerja Socket client
harus menggambarkan port yang merepresentasikan layanan yang mereka berikan
243 Memilih Host Name dan IP Address
Kebanyakan aplikasi menggunakan host name untuk merinci sebuah system Host Name mudah
untuk diingat dan dicek Menggunakan host name memungkinkan socket client untuk menemukan situs abstrak
yang diwakili oleh nama host meskipun telah dipindah ke IP Address yang baru Jika nama host tidak diketahui
socket client akan akan menyatakan system server sedang menggunakan IP Addressnya Ketika kita
menyediakan host name socket akan mencari IP Address yang berhubungan dengan host name sebelum socket
tersebut dapat menempatkan pada sistem server
Bab 3 Perencanaan dan Implementasi
21
BAB 3
PERENCANAAN DAN IMPLEMENTASI
31 Pendahuluan
Pada bab ini akan dijelaskan mengenai pengolahan sinyal wicara untuk mendapatkan ciri setiap
individu Juga akan dibahas mengenai pengolahan hasil keluaran sinyal wicara untuk ditransmisikan ke PC lain
(lewat jaringan) Dan selanjutnya akan dibahas pula mengenai plan atau obyek yang dalam hal ini adalah lampu
pijar
Berikut ini adalah blok diagram sistem secara keseluruhan
Gambar 31 Blok Diagram Sistem Secara Keseluruhan
Speaker pada gambar 31 memberikan suaranya sebagai masukan lewat mikrofon Masukan ini
akan diolah dalam PC client mulai dari proses sampling frame windowing FFT LPC Kemudian hasil dari
LPC dicari pemadanan dengan LPC dari sinyal standar yang telah tersimpan sebagai data base di dalam PC
client Hasil dari DTW tersebut akan dikirimkan ke PC server melalui TCPIP untuk diproses menjadi suatu
perintah ke perangkat keras Perintah tersebut merupakan bentuk implementasi dari perintah yang diberikan dari
PC client
Sebaliknya dengan adanya perubahan kondisi pada peralatan yang diinginkan maka terjadi sinyal
balikan yang berupa sinyal DTMF yang dikirimkan oleh perangkat keras ke PC server Oleh PC server sinyal ini
diolah untuk dikenali sebagai suatu kondisi tertentu yang akan dikirimkan ke PC client sebagai laporan tentang
kondisi alat yang diinginkan
32 Sistem Pengolahan Sinyal Wicara
321Perekaman Suara
TCPIP
Pengucap Speaker ADC Pengolahan Wicara dan Monitoring
Peralatan yang terkontrol
LAN Card
LAN Card
Pengenalan Pola Pengiriman Tone DTMF dan Pengenalan DTMF Sebagai Laporan
DTMF Decoding DTMF Generator Sistem Switching
Alat Terkontrol
Bab 3 Perencanaan dan Implementasi
22
Perekaman suara dilakukan menggunakan software berbasis TclTk 830 dan Snack22 Sebelumnya
akan dijelaskan satu per satu program yang dipakai
o TclTk 830
Tcl kepanjangan dari Tool Control Language Tk adalah Graphical Toolkit extension dari Tcl yang
menyediakan bermacam-macam item standar antarmuka GUI untuk memfasilitasi secara cepat pengembangan
aplikasi tingkat tinggi
o Snack22
Snack adalah tool pengolahan suara yang didesain sebagai extensi untuk bahasa script Saat ini Snack bekerja
dengan bahasa script TclTk Phyton dan Ruby Snack memiliki perintah-perintah untuk play record process
dan dan memvisualisasi suara Snack menyediakan obyek suara tingkat tinggi dengan manajemen penyimpanan
yang fleksibel dan streaming support Snack dapat bekerja pada banyak format file suara
Kita dapat membangun aplikasi sepaerti di bawah ini dengan integrasi dari TclTk dan Snack
Gambar 32 Program aplikasi pengenalan wicara
Frekuensi sampling pada program di atas diset pada frekuensi 12 kHz Frekuensi ini dipilih karena biasa
digunakan untuk voice Selain itu juga diset pada channel Mono dan sinyal encoding LIN 16 (resolusi 16 bit
PCM) Pada penekanan tombol ldquorecordrdquo diikuti tombol ldquostoprdquo dan kemudian tombol ldquostandartrdquo maka akan
dimulai proses perekaman yanag akan digunakan untuk membuat file standar untuk kedelapan perintah yang
akan digunakan untuk pembanding sinyal masukan
Adapun proses untuk sistem yang akan dibuat dapat digambarkan dengan diagram alir seperti di bawah
Bab 3 Perencanaan dan Implementasi
23
Mulai
Package Require
Snack 22
Exit
Program On
Running
Recording
Sound Card
Produser Running
Prosedur Recording
DTMF
Keluar
Tidak
YaTidak
Ya
Ya
Ya
Ya
Tidak
Tidak
Tidak
Gambar 33 Flowchart Sistem Graphical User
Interface
322 Sampling
Seperti telah dijelaskan di depan bahwa frekuensi sampling yang digunakan adalah sebesar 12000Hz
dimana dalam 1 detik sinyal terdapat 12000 titik sampling Sebagai contoh seperti gambar di bawah ini suatu
sinyal epanjang 20 ms disampling 12000 Hz menghasilkan titik sampling sebanyak 240 titik
Data Sampling
-20000
-15000
-10000
-5000
0
5000
10000
15000
20000
0 200 400 600
Amplitudo
Jumlah Data
Gambar 34 Sinyal hasil sampling dengan
frekuensi 12000 Hz
Bab 3 Perencanaan dan Implementasi
24
Mulai
Sinyal Masukan
Baca Panjang Sinyal
Bagi Menjadi N Frame
i = 0 i lt N i++
Ambil 240 Data Sampel
Tampilkan Nilai
Sampel
Selesai
Gambar 35 Flowchart Proses Sampling
323 Pre-emphasis
Agar spektrum sinyal merata di semua frekuensi dan mencegah kehilangan informasi akibat pembulatan
pada saat komputasi maka dilakukan prose preemphasis Fungsi transfer preemphasis adalah
H(z) = 1 ndash a z-1 09 le a le 1 (31)
Dimana nilai a berkisar 095 Berdasarkan model filter di atas maka keluaran dari preemphasis adalah
s(n) = s(n) ndash a s(n-1) (32)
324 Frame Blocking
Hasil perekaman merupakan sinyal dalam domain waktu yang bersifat variant time (fungsi yang
bergantung pada waktu) Sinyal yang telah dipreemphasis kemudian dibagi menjadi n buah frame Dengan
jumlah sample per frame sebesar N dan adjacent frame sebesar M sample Dimana M=05N Pada frame
pertama terdiri dari N buah sampel Frame kedua dimulai pada sampel ke M sehingga terjadi overlape sebesar
N - M sampel Begitupula untuk frame yang ketiga dimulai dari sample ke 2M sehingga terjadi overlape dari
farme kedua sebesar N + M-2M sampel juga Hal ini akan terus berlangsung hingga seluruh sinyal terbagi
menjadi beberapa frame
Bab 3 Perencanaan dan Implementasi
25
Gambar 36 Frame blocking sinyal
325 Windowing
Windowing yang digunakan adalah window hamming Setelah proses pengambilan sample maka
langkah selanjutnya adalah proses selanjutnya adalah proses windowing yang berfungsi untuk mengurangi efek
diskontinyuitas pada ujung-ujung frame Persamaannya adalah sebagai berikut
y[i] = x[i](054-046cos(20314159265(i-1)240) (33)
Flowchartnya bisa dilihat seperti di bawah
Mulai
240 Data
Sampel
i= 0 i lt 240 i++
Hamming Window
y[i] = x[i](054-046cos(2phi(i-1)
240))
Tampilkan
nilai
Hamming
Selesai
Gambar 37 Flowchart Proses Windowing
326 Fast Fourier Transform
Transformasi fourier cepat (FFT) adalah suatu metode yang sangat efisien untuk menyelesaikan
transformasi fourier diskrit (DFT) yang banyak dipakai untuk keperluan analisa sinyal Sehingga dengan FFT
N N N M
M N
N N
M
Bab 3 Perencanaan dan Implementasi
26
sinyal yang disampling dalam domain waktu ditransformasikan ke domai frekuensi dengan menggunakan
persamaan sebagai berikut
N-1
H(k) = sum h(n)e-j2лkN (34)
n=0
dengan k= 012N-1
Prosesnya dapat dilihat dari flowchart di bawah
Mulai
240 data
sampel
256 data sampel
i=0 ilt256 i++
tmp_log1=(xr[k]xr[k]+xc[k]xc[k])
tmp_log gt 0
xr[k]=10log10(tmp_log1)
Tampilkan
nilai
hamming
Selesai
xr[k]=10log10(0000001)
Ya
Tidak
Gambar 38 Flowchart Proses Fast Fourier
Transform
327 Autocorrelation analysis
Hasil dari windowing sinyal masukan kemudian dihitung autokerelasinya dengan persamaan
N-1-m
r1(m) = sum x1(n)x1(n+m) m=01p (35)
n=0
dimana niali autokorelasi tertinggi p adalah orde dari analisis LPCPada umumnya nilai dari p yang sering
digunakan adalah dari 8 sampai 16
Proses Autokorelasi dapat dilihat dari flowchart di bawah ini
Bab 3 Perencanaan dan Implementasi
27
Mulai
240 data p lpc
orde
i=0 iltp i++
j=0 jlt240-p-1 j++
RI[j]=sum(xI[i]xI[i+j])
Tampilkan nilai
autocorrelation
Selesai
Gambar 39 Flowchart Proses Autokorelasi
328 LPC Analysis
Hasil koefisien autokorelasi kemudian dikonversikan ke sebuah LPC parameter set (untuk metode LPC
autokorelasi) dikenal sebagai Metode Durbin dan secara formal ditunjukkan dari algoritma sebagai berikut
E(0) = r(0) (36)
ki=r(i)-sumαj(i-1) r(|i-j|)E(i-1) 1 le I le p (37)
αi(i) = ki (38 )
αj(i) = αj
(i-1)-ki α(i-1) ( 39)
t-j
E(i)=(1-ki2)E (i-j) (310)
dimana penyajian akhir dari persamaan 37 mengabaikan i=1 Kumpulan dari persamaan 36 -310 diselesaikan
secara rekursif untuk i=12p
Proses analisis dapat dilihat dari flowchart di bawah
Bab 3 Perencanaan dan Implementasi
28
Mulai
Autocorrelationr
p lpc orde
E (0) = r(0)
k1
= r(i)-sumalpha j (i-1) r( | i-j|E(i-1)
alpha j (i) = k
i
alpha j
(i) = alpha (i-1) -k i alpha
i-j (i-1)
E (i) = 1-k i 2) E(i-1)
Tampilkan nilai
parameter lpca
Selesai
i=0 iltp i++
Gambar 310 Flowchart proses LPC analisis
329 LPC Parameter to Cepstrum Analysis
Sekumpulan parameter LPC yang sangat penting yang dapat diturunkan langsung dari kumpulan
koefisien LPC adalah koefisien cepstral LPC c(m) Rekursif yang digunakan adalah
co = ln σ2 ( 311)
m-1
cm = am + sum ck am-k 1 le m le p (312)
k = 1
m-1
cm = sum ck am-k m gt p ( 313)
k = 1
Proses LPC parameter ke Cepstrum Analysis dapat dilihat dari flowchart di bawah ini
k m ( )
k m ( )
Bab 3 Perencanaan dan Implementasi
29
Mulai
lpc parameter a
p lpc orde
c o = ln del 2
1 lt=mlt=p
i=0 iltp i++
Cm
= am
+sum((km)Ck a
m-kC
m =sum((km)C
ka
m-k)
Tampilkan nilai lpc
cepstrumc
Selesai
Gambar 311 Flowchart Proses LPC parameter ke
Cepstrum
3210 Dynamic Time Warping
Proses yang terjadi pada Dynamic Time Warping adalah pengukuran jarak suara antara sinyal standart
dan sinyal input Yang diukur berupa deretan nilai dari hasil LPC Cepstrum dalam bentuk kolom dan baris (ij)
yang disimpan dalam satu file Pada kolom berisi nilai tiap cepstrum sedangkan baris berupa banyaknya frame
Teknik yang digunakan dinamakan Dynamic Programming Alur kerjanya dapat dilihat dari flowchart di bawah
Bab 3 Perencanaan dan Implementasi
30
Mulai
i=0 iltN i++
j=0 jlt15 j++
Cepstrum
Standart
Std_Ceps [i][j]
Cepstrum
Input
Inp_Ceps [i][j]
DP_dist = DP_match1(r)
DP_dist
Selesai
Gambar 312 Flowchart Proses Dynamic Programming
33 Awal dan Akhir Sinyal suara
331 Power
Untuk mendapatkan suatu sinyal suara tanpa adanya noise maka sinyal harus benar-benar dipotong
tepat pada awal dan akhirnya Oleh karena itu dipakai power sebagai salah satu cara yang efektif dalam
menentukan awal dan akhir suatu sinyal suara
Dimana tiap frame mempunyai power yang merupakan hasil kuadratisasi dari penyampelan tiap frame
yang kemudian hasil keseluruhan diakarkan seperti bisa dilihat pada flowchart di bawah
Bab 3 Perencanaan dan Implementasi
31
Mulai
Power = 0
i=0 ilt240 i++
Power=Power+sqrt(xixi)
Selesai
Gambar 313 Flowchart Proses Power
Jumlah sample per frame ditetapkan sebesar 240 sampel Kemudian dicari power masing-masing antara sinyal
utuh dan sinyal noise kemudian dengan p ge p + 07 standar deviasi maka didapatkan awal dan akhir sinyal
suara
332 Unvoiced Plosive
Adanya daerah kosong menyebabkan sinyal tidak valid dalam pemotongan awal dan akhirnya karena
bisa dianggap noise padahal berada dalam sinyal suara ( merupakan bagian dari sinyal suara) Oleh karena itu
dicari mean dari 25 kata sinyal suara yang kemudian dicari nilai thresholdnya sebagai panjang akhir dari daerah
kosong Dan nilai tersebut diikutsertakan dalam looping dan jika setelah itu terdapat sinyal kembali maka
berarti masih ada sinyal suara dan jika tidak ada berarti tidak ada sinyal suara
34 Proses Pada Client
Preses pada client dapat dijelaskan sebagai berikut
Gambar 314 Blok diagram proses client
Penjelasan dari blok digram tersebut adalah
1 Pertama adalah perekaman suara pada software recording yang hasilnyadisimpan dalam bentuk file
berekstensi ldquowavrdquo File ini selanjutnya akan dijadikan file input pada sistem client
2 File suara yang telah tersimpan diolah dalam program sampling untuk mendapatkan sinyal suara dalam
bentuk frame Setiap frame terdiri dari 120 sampel
Mic Extract AD Voice Dikenali
Bab 3 Perencanaan dan Implementasi
32
3 Tiap frame diwindow dengan window Hamming untuk mengurangi efek diskontinyuitas pada ujung-
ujung frame
4 Sinyal hasil window yang masih dalam domain time diubah ke dalam domain frekuensi dengan Fast
Fourier Transform (FFT)
5 Hasil dari windowing sinyal masukan kemudian dihitung autokerelasinya
6 Hasil koefisien autokorelasi kemudian dikonversikan ke sebuah LPC parameter set (untuk metode LPC
autokorelasi) Sekumpulan parameter LPC yang sangat penting yang dapat diturunkan langsung dari
kumpulan koefisien LPC adalah koefisien cepstral LPC
7 Selanjutnya dilakukan proses DTW (Dynamic Time Warping) pengukuran jarak suara antara sinyal
standart dan sinyal input Hasilnya disimpan dalam sebuah file berekstensi ldquotxtrdquo
8 File berekstensi txt tersebut ke server sebagai sinyal suara input
35 Proses Pada Server
Proses pada server dapat dijelaskan sebagai berikut
Gambar 315 Blok diagram proses server
Penjelasan dari blok diagram tersebut adalah
1 Isi file berekstensi rdquotxtrdquo diterima oleh server dan digunakan sebagai data input untuk memanggil
database tone DTMF yang sesuai sebagai pengoperasian alat yang akan dikontrol
2 Alat yang terkontrol akan menunjukkan hasilnya
Memanggil
Database
Tone
Dikode
kan
dalam
biner
Kirim
ke HW
Kontrol
Alat
Input
server
Bab 4 Pengujian dan Analisa
33
BAB 4
PENGUJIAN DAN ANALISA
41 Pendahuluan
Untuk mengetahui tingkat keberhasilan dari suatu sistem diperlukan pengujian keseluruhan dari
perencanaan hasil sistem yang telah dibuat Dalam bab ini akan dijelaskan mengenai hal tersebut
Pengujian yang akan dilakukan adalah
1 Pengujian dan analisa sistem pengolahan sinyal wicara
2 Pengujian dan analisa sistem client server
3 Pengujian dan analisa awal dan akhir sistem pengolahan wicara
42 Pengujian dan Analisa Sistem Pengolahan Wicara
Tujuan untuk mendapatkan parameter ciri individu dari sampel sinyal yang diolah
421 Perekaman Suara
Pada Tugas Akhir ini digunakan duamacam perangkat lunak yang dibangun sendiri berbasis TclTk 830
dan Snack 22 sebagai perangkat lunak yang diuji dan perangkat lunak Wavesurver sebagai pembanding
4211 Dengan menggunakan TclTk dan Snack
Tampilan awal dari perangkat lunak yang dibangun dengan menggunakan TclTk dan Snack adalah sebagai
berikut
Gambar 41 Tampilan awal perangkat lunak menggunakan TclTk dan Snack
Bab 4 Pengujian dan Analisa
34
Pertama kali tombol record ditekan maka proses pengambilan sinyal wicara yang dimasukkan
dimulai Pada saat tombol Stop ditekan maka program akan merekam kata ldquosatu nyalardquordquosatu matirdquordquodua
nyalardquordquodua matirdquordquotiga nyalardquordquotiga matirdquordquoempat nyalardquordquoempat matirdquo sesuai yang kita masukkan dan
tampilan display akan digambarkan bentuk sinyal yang dihasilkan secara otomatis Hasil perekaman dapat
dilihat pada gambar berikut 42
Gambar 42 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan perangkat lunak
TclTk dan Snack
Gambar 42 menunjukkan bahwa proses pengambilan sinyal suara telah dilakukan Sinyal suara yang
dimasukkna akan terlihat gambarnya pada layar hitam (canvas)
4212 Dengan menggunakan Wave Surver
Sebagai pembanding dari program yang telah dibuat yaitu dari perangkat lunak TclTk dan Snack
digunakan Wavesurver
Tampilan awal dari Wavesurver 157 tampak seperti pada gambar 43
Gambar 43 Tampilan awal perangkat lunak menggunakan Wavesurver
Bab 4 Pengujian dan Analisa
35
Pada saat tombol recording ditekan maka program akan merekam kata ldquosatu nyalardquo dan pada tampilan
display akan digambarkan bentuk sinyal yang dihasilkan secara otomatis Hasil perekaman bisa dilihat pada
gambar 44
Gambar 44 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan
perangkat lunak Wavesurver
Perekaman pada Wavesurver dapat diset sesuai dengan kebutuhan Dimana pada sistem pengolahan sinyal
suara untuk perekaman suara diset sebagai berikut
Gambar 45 Kotak dialog setting perekaman perangkat lunak Wavesurver
Pada data di atas dapat dilihat bahwa suara yang direkam dengan mengguanakan perangkat lunak
Wavesurver mempunyai header dan tail yang berisi keterangan perekaman sebagai berikut
12000 menunjukkan frekuensi sampling yang digunakan
Bab 4 Pengujian dan Analisa
36
Channels menunjukkan bahwa suara direkam dengan menggunakan channel Mono
Sampel Encoding Lin 16 menunjukkan bahwa suara direkam dengan menggunakan
16 bit PCM
422 Sampling
Dengan menggunakan program yang dibangun sendiri di atas proses penyamplingan sinyal input sekaligus
telah terjadi dimana dengan frekuensi sampling sebesar 12000 Hz didapatkan sinyal dari kata ldquosatu nyalardquo
dengan potongan sebagai berikut
3306
3538
3788
4076
4282
4684
4747
4956
5083
5442
5844
5901
6244
6196
6462
6104
Berikut ini adalah cuplikan dari data sampel kata ldquo empat matirdquo mulai dari milidetik ke-13900
Bab 4 Pengujian dan Analisa
37
Data Sampling
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 46 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900
Pada gambar 46 telah dilakukan proses sampling sinyal masukan dengan frekuensi sampling sebesar 12000
Hz maka didapatkan hasil sinyal yang hampir mirip dengan sinyal analognya karena sinyal suara manusia
memiliki jarak frekuensi antara 300 sampai 5000 Hz dimana syarat Nyquist minimal fsampling 2fsinyal
telah terpenuhi
423 Windowing
Jenis window yang digunakan adalah window Hamming
Pada proses window hamming kata yang telah disampel sebanyak 240 sampel akan diwindow sehingga
menghasilkan sinyal yang lebih kecil peaknya Hasilnya adalah sebagai berikut
-26174
-22078
-12518
-1444
9690
19308
23360
20049
12365
2391
-7874
-14539
-17837
-19929
-19007
-16955
Bab 4 Pengujian dan Analisa
38
Sedangkan hasil dalam bentuk gambar dapat dilihat pada gambar berikut
Data Windowing
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 47 Hasil Windowing data sampel kata ldquoempat matirdquo milidetik ke-13900
Seperti yang ditunjukkan gambar 47 proses windowing telah dilakukan Berdasarkan gambar 47
tersebut dapat dikatakan bahwa window Hamming menyebabkan sinyal yang disampel lebih halus Gambar
47 dapat dibandingkan dengan gambar 46 yaitu gambar sinyal sebelum melalui proses windowing dapat
dilihat bahwa sinyal yang telah diwindow mempunyai sinyal yang lebih halus Hal ini membuktikan bahwa
fungsi dari windowing untuk mengurangi efek diskontinyuitas pada ujung-ujung frame adalah benar
424 Fast Fourier Transform Sinyal Masukan
Pada proses ini sinyal yang sebelumnya berada dalam domain waktu akan diubah dalam domain
frekuensi Setiap sinyal yang berasal dari alam merupakan sinyal analog yang bila diolah harus diubah
dalam bentuk sinyal digital Dan pengolahan dalam digital merupakan pengolahan dalam bentuk diskrit
Pada proyek akhir ini sinyal dalam domain waktu akan diubah dalam domain frekuensi dengan 256 titik
Karena hasil yang diperoleh berupa hasil dari fungsi konvolusi maka hanya akan diambil 128 titik saja yang
akan diolah dalam proses selanjutnya Sedangkan 128 sisanya tidak dipergunakan karena berupa
pencerminan saja
Hasil dari Fast Fourier Transform (FFT) dari penggalan kata ldquoempat matirdquo pada milidetik ke-13900 dalam
bentuk teks adalah
103505157
106889458
Bab 4 Pengujian dan Analisa
39
104735321
100408661
89175987
95431992
96601654
8489315
89637459
8630304
75320663
87866905
91001945
89607201
82408546
83440155
4241 Dengan Menggunakan TclTk dan Snack
Fast Fourier Transform Sinyal
Masukan
0
20
40
60
80
100
120
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 48 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat
lunak TclTk dan Snack
Dari gambar 48 di atas sinyal suara yang sebelumnya berada di domain waktu telah diubah ke domain
frekuensi Hasil Fast Fourier Transform sinyal masukan menunjukkan sebaran spektrum frekuensi dari
sinyal suara yang telah dihasilkan oleh pengucap antara 0 sampai 6000 Hz
Bab 4 Pengujian dan Analisa
40
4242 Dengan Menggunakan Wavesurver
Gambar 49 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat
Wavesurver
Dari gambar 49 di atas hasil Fast Fourier Transform sinyal masukan menunjukkan sebaran spektrum
frekuensi dari sinyal suara yang telah dihasilkan oleh pengucap antara 0 sampai 6000 Hz adalah sama
seperti pada gambar dengan gambar 48 yang diambil dengan perangkat lunak TclTk dan Snack
425 Autocorrelation Analysis
Pada proses ini sinyal masukan dalam domain waktu yang telah diwindow hamming dihitung korelasinya
dengan menggunakan orde analisi LPC sebesar 15 Sehingga akan didapatkan hasil rk(autokorelasi) sebagai
berikut
17648453
128874
0669745
0662566
0470262
0164336
-010638
-0229032
-016249
0014062
0138456
0188749
0117826
0014517
-0052704
426 LPC Analysis
Dari hasil autokorelasi tersebut di atas selanjutnya adalah LPC dimana mengkonversi masing-masing
frame dari autokorelasi p+1 ke dalam sebuah LPC Parameter a
Bab 4 Pengujian dan Analisa
41
Metode yang formal untuk mengkonversi dari koefisien autokorelasi ke sebuah LPC parameter (untuk
metode LPC autokorelasi) dikenal sebagai Metode Durbin dan secara formal hasilnya dapat ditunjukkan
sebagai berikut ini
1
-128874
0160681
-0156173
0166653
0255508
0192145
0003037
-0202248
-0265201
-0112133
005938
0232232
0203554
0048429
Dari hasil di atas terlihat bahwa untuk setiap frame nilai pertama menunjuukan energi dari masing-masing
frame dan selanjutnya adalah parameter LPC dalam satu frame yang digunakan sebagai penentu ciri dari
sinyal suara yang dihasilkan oleh individu
427 Fast Fourier Transform LPC Parameter
Pada proses ini nilai dari parameter LPC yang sebelumnya masih berada dalam domain waktu akan diubah
dalam domain frekuensi Pada proyek akhir ini parameter LPC dalam domain waktu akan diubah dalam
domain frekuensi dengan 256 titik Karena hasil yang diperolah berupa hasil dari fungsi konvolusi maka
hanya akan diambil 128 titik saja yang akan diolah dalam proses selanjutnya Sedangkan 128 sisanya tidak
dipergunakan karena berupa pencerminan saja
Hasil dari Fast Fourier Transform (FFT) dari parameter LPC pada penggalan kata ldquoempat matirdquo pada
milidetik ke-1 dalam bentuk teks adalah
103505157
106889458
104735321
100408661
89175987
Bab 4 Pengujian dan Analisa
42
95431992
96601654
8489315
89637459
8630304
75320663
87866905
91001945
89607201
82408546
4271 Dengan menggunakan TclTk dan Snack
Fast Fourier Transform Parameter
LPC
0
20
40
60
80
100
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 410 Fast Fourier Transform LPC dengan
menggunakan perangkat lunak TCLTk
dan Snack
Hasil gambar 410 menunjukkan bahwa parameter LPC yang di-Fourier Transform-kan akan menjadi
selubung spektrum dari spektrum sinyal masukan Sehingga jika selubung dan spektrumnya secara gambar
cocok dapat dikatakan bahwa LPC parameter yang dihitung benar
Bab 4 Pengujian dan Analisa
43
4272 Dengan menggunakan Wavesurver
Gambar 411 Fast Fourier Transform LPC denganmenggunakan perangkat lunak
Wavesurver
Hasil gambar 411 menunjukkan bahwa parameter LPC yang di-Fourier Transform-kan akan menjadi
selubung spektrum dari spektrum sinyal masukan adalah sama dengan yang telah diperoleh dengan
perangkat lunak TclTk seperti pada gambar 410
428 LPC Parameter to LPC Cepstrum
Koefisien LPC cepstrum koefisien yang direpresentasikan dengan Fourier Transform dengan spektrum
besaran log telah ditampilkan menjadi kumpulan fitur untuk pengenalan wicara yang lebih handal
terpercaya daripada koefisien LPC koefisien PARCOR atau koefisien log area ratio
Hasil dari LPC cepstrum pada penggalan kata ldquoempat matirdquo pada milidetik ke-106 dalam bentuk teks adalah
16636311
1387922
0474473
0654796
0429659
0132543
0225374
0126501
0021161
0242437
Bab 4 Pengujian dan Analisa
44
0160623
0065745
0139379
0056064
-0029262
Dari hasil di atas dapat dianalisa bahwa besaran-besaran dari LPC cepstrum benar-benar dapat
digunakan sebagai penentu ciri dari sinyal suara individu karena besaranndashbesaran yang dihasilkan oleh LPC
cepstrum dari yang pertama sampai yang terakhir dalam satu frame sangat bervariasi nilainya
429 Inverse Fast Fourier Transform LPC Cepstrum
Untuk menggambarkan ciri atau fitur wicara dalam domain waktu maka LPC cepstrum di-Invers Fast
Fourier Transform-kan sehingga didapatkan gambar untuk penggalan kata ldquosatu nyalardquo pada milidetik ke-
400 seperti gamabar 412
Fast Fourier Transform LPC
Cepstrum
0
20
40
60
80
100
120
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 412 Invers Fast Fourier Transform LPC cepstrum dengan menggunakan
perangkat lunak TCLTk dan Snack
Dari gambar 412 dapat dianalisa bahwa bentuk dari invers fourier transform LPC cepstrum yang
menyerupai selubung pada domain waktu dari spektrum frekuensi juga digunakan untuk menunjukkan
bahwa perhitungan LPC cepstrumnya telah benar dan dapat digunakan sebagai penentu ciri sinyal suara
individu
Invers Fast Fourier Transform LPC
Cepstrum
Bab 4 Pengujian dan Analisa
45
Gambar 413 Penggabungan spektrum sinyal spektrum LPC dan spektrum LPC
Cepstrum
Gambar 413 spektrum sinyal yang diwakili warna merah merupakan hasil sinyal yang telah di-Fast
Fourier Transform-kan Spektrum sinyal yang berwarna hijau merupakan parameter LPC yang telah di-
Fourier Transform-kan Sinyal ini akan menjadi selubung spektrum dari spektrum sinyal masukan Bila
selubung dan spektrumnya secara gambar cocok maka dapat dikatakan bahwa LPC parameter yang dihitung
adalah benar Dari gambar 413 dapat dilihat antara selubunga dan selubung sinyal masukan sudah cocok
Sinyal yang berwarna biru merupakan sinyal rata-rata dari sinyal selubung spektrum
4210 Dynamic Time Warping
Pengujian terakhir dari proses pengolahan sinyal wicara adalah membandingkan sinyal hasil cepstrum LPC
antara data input dan data standarnya Berdasarkan daerah pembatas kontinyuitas lokal dari persamaan 21
maka digunakan model yang pertama dan menggunakan persamaan 2116 dalam menghitung jarak antara
kata sebagai standar dan sebagai masukan
Selanjutnya menetukan data data sebagai data standar dan data sebagai data masukan Pada sistem ini
digunakan 8 kombinasi kata sebagai kata standar dan kata msukan untuk masing-masing pengujian dengan
kata standar sebanyak sepuluh (10) kali Adapun kata yang digunakan sebagai standar dan kata yang diuji
adalah meliputi satu nyalasatu matidua nyaladua matitiga nyalatiga matiempat nyalaempat
mati
Pada pengujian sistem kali ini masih menggunakan datasuara dari pebgucap yang sama Dari kelima data
standar yang ada dilakukan pembandingan dengan masing-masing 10 (sepuluh) kali pemasukan data Data
yang menghasilkan jarak euclidian terpendek dari masing-masing kata itulah yang akan diambil sebagai
data perintah terbaik
Bab 4 Pengujian dan Analisa
46
Pelekukan Jalur Suara
0
50
100
150
0 50 100 150
Sinyal Input empat mati
Sinyal Standart
empat mati
Gambar 414 Pelekukan Jalur Suara dengan Dynamic Time Warping
Dari gambar 414 dapat dianalisa bahwa dengan menggunakan dynamic time warping dua buah sinyal suara
akan dibandingkan vektor-vektor spektralnya dimana juga terdapat proses pembandingan panjang sinyal
antara dua buah sinyal tersebut sehingga terjadi proses pemadanan panjang sinyal dengan cara
memperpanjang dan menekuk vektor spektralnya Memperpanjang dalam arti memperpanjang sinyal yang
lebih pendek dengan memperhatikan perbandingan vektor spektralnya dan demikian pula menekuk dalam
arti menekuk sinyal yang lebih panjang dengan memperhatikan vektor spektralnya Dengan panjang yang
sama sebagai hasil dynamic time warping maka jarak euclidian antara dua sinyal dapat diperbandingkan
atau dihitung
4211 Min Value dan Sorting
Min Value dan Sorting menjadi satu paket sendiri yang digunakan untuk mencari kemungkinan hasil
terkecil dari pembandingan pola kata masukkan dengan kedelapan kata standart Keluaran dari fungsi
dynamic time warping akan memberikan delapan buah data yaitu hasil pembandingan kata masukan
dengan kata standart satu nyala hasil pembandingan kata masukan dengan kata standart satu mati hasil
pembandingan kata masukan dengan kata standart dua nyala hasil pembandingan kata masukan dengan
kata standart dua mati hasil pembandingan kata masukan dengan kata standart tiga nyala hasil
pembandingan kata masukan dengan kata standart tiga mati hasil pembandingan kata masukan dengan
kata standart empat nyala hasil pembandingan kata masukan dengan kata standart empat mati Dengan
metode sorting buble sort maka akan didapat nilai minimalnya
0748745
0362272
0633390
0327642
0600250
0346530
Bab 4 Pengujian dan Analisa
47
0545907
0207464
Berdasarkan data diatas maka perintah input sama dengan perintah kedelapan (ldquoempat matirdquo) karena
memiliki hasil time warping terkecil yaitu 0207464
4212 Hasil Pengujian Awal dan Akhir Sinyal
Pada proses penentuan awal dan akhir agar lebih presisi menggunakan ldquoPowerrdquo Adapun kelebihan dari
power adalah dapat membedakan antara sinyal suara dengan sinyal noise
Untuk menentukan awal dan akhir dicari nilai power Pada proses power kata yang telah disampel
sebanyak 240 sampel akan menghasilkan sinyal yang halus dan terletak di atas sumbu x Hasil dalam bentuk
teks adalah sebagai berikut ini
7678195313
1165659297
123492625
8917128906
6318766797
4531086719
4338374609
4912630469
5382503125
4548908984
429756875
4739710547
4575902734
4682924609
4786217578
Bab 4 Pengujian dan Analisa
48
Gambar hasil power bisa dilihat pada gambar 415 berikut
Power
0
100000
200000
300000
400000
500000
0 50 100 150
Jumlah Frame
Amplitude
Gambar 415 Sinyal ldquoempat matirdquo hasil program power
Gambar 416 berikut ini adalah hasil pengujian kata ldquoempat matirdquo sebagai masukan dan kata standar ldquoempat
matirdquo dimana kedua kata dibandingkan berdasarkan powernya sebelum proses Dinamic Time Warping
Sinyal warna biru sebagai power sinyal standart dan sinyal yang berwarna merah merupakan power sinyal
input
Perbandingan Dua Kata empat mati
sebelum DTW
0
100000
200000
300000
400000
500000
0 50 100 150
Jumlah Frame
Amplitude
Gambar 416 Perbandingan power dua kata ldquoempat matirdquo sebelum Dynamic Time Warping
Berikut ini adalah hasil pengujian dua buah kata ldquoempat matirdquo dengan menggunakan dynamic time warping
dimana jalur pelekukan suara dapat digambarkan pada gambar 417
Bab 4 Pengujian dan Analisa
49
Pelekukan Jalur Suara
0
50
100
150
0 50 100 150
Sinyal Input empat mati
Sinyal Standart
empat mati
Gambar 417 Pelekukan jalur suara dua kata ldquoempat matirdquo dengan DTW
Gambar 418 adalah hasil pengujian dua buah kata ldquoempat matirdquo sebagai masukan dan dan kata standar
ldquoempat matirdquo dimana kedua kata dibandingkan berdasarkan powernya setelah proses dynamic time
warping
Gambar 418 dapat dibandingkan dengan gambar 416 yaitu sinyal sebelum proses Dynamic Time Warping
Sebelum proses Dynamic Time Warping sinyal tidak mengalami proses penekukan dan penarikan data
berdasarkan waktu antara keduanya sehingga antara sinyal input dan sinyal standart memiliki ukuran
panjang yang sangat jauh berbeda
Pemadanan Dua Kata Setelah DTW
0
100000
200000
300000
400000
500000
0 100 200 300
Jumlah Frame
Amplitude Power
Gambar 418 Perbandingan power dua kata ldquoempat matirdquo setelah Dynamic Time Warping
Dari gambar 418 dapat dinyatakan bahwa setelah melalui proses dynamic time warping terjadi penekukan
dan penarikan data berdasarkan waktu antara keduanya sehingga pada akhirnya kedua sinyal memiliki
ukuran panjang yang sama Sehingga dengan demikian dapat dicari jarak euclidian untuk menentukan
sebuah kata yang sesuai dengan kata yang lainnya
Bab 4 Pengujian dan Analisa
50
4213 Hasil Pengujian Sistem Perangkat Lunak
Pada pengujian sistem perangkat lunak diambil sampel data dari 3 orang dimana terdiri dari 3 orang pria
dan 1 orang wanita Pria pertama merupakan standar sekaligus pengisi suara untuk perintah Sedangkan pria
kedua dan wanita sebagai pembanding untuk mengetahui unjuk kerja sistem
Tabel 41 Hasil pengujian sistem pengolahan sinyal wicara untuk pengucap yang sama (pria
1)
8 7 6 5 4 3 2 1 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05417
03487
05964
03443
07272
04424
03449
01
961
Satu
nyala
Sinyal Standart
02496
04723
03013
05120
03450
03815
01
739
03471
Satu
mati
04389
02035
06139
03244
04343
02
158
04567
04047
Dua
nyala
01866
04517
04157
05267
01
940
02561
02036
04779
Dua
mati
04833
02168
03984
01
090
06409
04278
05019
02690
Tiga
nyala
02683
04628
01
188
03416
04046
03345
02959
04614
Tiga
mati
03807
01
046
05271
01974
05934
03134
04363
02554
Empat
nyala
01
388
03728
02269
04497
02559
03195
02476
04874
Empat
mati
Bab 4 Pengujian dan Analisa
51
16
15
14
13
12
11
10
9 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05776
02988
05100
04019
06101
05338
04219
02
047
Satu
nyala
Sinyal Standart
03382
04381
02427
05124
02642
05990
02
706
03335
Satu
mati
04453
02558
04993
04574
03381
02
344
04529
04121
Dua
nyala
01669
04532
03190
06355
01
004
04807
03466
04622
Dua
mati
05209
02261
03366
01
124
05377
04165
05369
02660
Tiga
nyala
03721
04074
00
891
03002
02637
05958
02719
04333
Tiga
mati
03889
01
755
04365
02341
04826
03150
05193
02472
Empat
nyala
01
092
03974
01802
04848
01455
05343
02717
04536
Empat
mati
Bab 4 Pengujian dan Analisa
52
24
23
22
21
20
19
18
17 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05157
04015
06277
02964
05609
04690
03376
01
369
Satu
nyala
Sinyal Standart
01787
05144
03814
04134
04952
04843
01
636
03404
Satu
mati
03988
03026
07420
03020
03977
01
905
04801
03610
Dua
nyala
01630
05662
06259
05009
01
808
03357
02206
05094
Dua
mati
04667
02681
05731
01
448
05575
03280
05344
03417
Tiga
nyala
01902
05055
03
395
02597
04700
04618
02951
04808
Tiga
mati
03809
01
863
06920
02154
04252
02455
04616
03184
Empat
nyala
00
761
04379
04288
04053
03629
04122
02419
05622
Empat
mati
Bab 4 Pengujian dan Analisa
53
32
31
30
29
28
27
26
25 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
04793
03554
06312
03247
06514
03585
03068
02
935
Satu
nyala
Sinyal Standart
01671
04661
03012
03961
02834
04667
01
079
05475
Satu
mati
04033
02359
05307
02587
03475
01
587
04781
04010
Dua
nyala
02222
04949
03652
04387
00
958
03222
02647
04966
Dua
mati
04499
02207
04170
01
873
05884
02500
05631
03257
Tiga
nyala
01791
04432
01
196
02646
02999
04619
02558
05048
Tiga
mati
03561
01
050
05061
02437
04927
01887
05325
03424
Empat
nyala
00
858
03774
02052
03974
01440
04186
02597
05381
Empat
mati
Bab 4 Pengujian dan Analisa
54
40
39
38
37
36
35
34
33 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
06471
03838
05816
03364
06492
03613
03496
01
111
Satu
nyala
Sinyal Standart
02951
05556
02631
04558
05057
04799
01
683
02958
Satu
mati
05259
02977
05228
03305
04614
00
878
05159
02707
Dua
nyala
03165
05686
03078
05512
01
088
03082
03482
04823
Dua
mati
05397
02037
03714
00
949
06365
02818
05998
02829
Tiga
nyala
02990
04867
00
921
02759
04978
04752
03131
04533
Tiga
mati
05028
01
233
05114
02070
05154
01825
05439
01975
Empat
nyala
01
914
04521
01834
04248
02711
04164
03149
04755
Empat
mati
Bab 4 Pengujian dan Analisa
55
48
47
46
45
44
43
42
41 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
07997
03701
06005
03992
05800
05223
03706
01
198
Satu
nyala
Sinyal Standart
03909
04978
02572
05339
05784
05103
01
161
03113
Satu
mati
06284
02355
05419
04194
03709
02
588
04764
02834
Dua
nyala
03737
04883
03321
06131
03
489
04229
03188
04962
Dua
mati
05885
02259
04026
00
918
06123
03601
05739
0 2867
Tiga
nyala
03583
04464
00
974
03340
05828
05114
02720
04269
Tiga
mati
05762
01
230
7
05459
02231
04899
03397
05114
0 2395
Empat
nyala
02
247
02888
01948
04994
04987
04505
02141
0 4956
Empat
mati
Bab 4 Pengujian dan Analisa
56
56
55
54
53
52
51
50
49 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05627
03923
06226
04018
05254
04895
02933
02
009
Satu
nyala
Sinyal Standart
02473
04947
02892
05661
05301
05040
01
289
03008
Satu
mati
04393
02779
06046
04425
02900
01
743
04571
02669
Dua
nyala
02222
05352
04171
06748
01
202
03736
03177
03699
Dua
mati
04644
02488
03523
00
835
05391
03319
05277
03671
Tiga
nyala
02213
04345
01
009
03758
02869
05933
02761
03900
Tiga
mati
04093
01
443
05080
05083
04959
02819
04840
02709
Empat
nyala
01
239
04029
0 2223
05428
01263
04236
02575
04141
Empat
mati
Bab 4 Pengujian dan Analisa
57
64
63
62
61
60
59
58
57 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
07489
03792
05134
04199
06459
04019
03044
01
850
Satu
nyala
Sinyal Standart
03586
04783
02186
05509
02884
04251
01
198
03243
Satu
mati
05697
02612
04576
04268
03211
01
519
04639
03845
Dua
nyala
03563
05288
02855
06752
01
074
03523
03265
04523
Dua
mati
05768
02262
03884
01
048
06348
02633
05784
02683
Tiga
nyala
03449
04859
01
009
03177
03425
04355
02975
04077
Tiga
mati
05693
01
445
04574
02498
05298
01999
05622
02359
Empat
nyala
02
236
04215
01468
05161
01827
03851
03161
04416
Empat
mati
Bab 4 Pengujian dan Analisa
58
72
71
70
69
68
67
66
65 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05439
02975
05593
03689
05796
03415
03416
01
492
Satu
nyala
Sinyal Standart
02225
04543
04586
04584
02669
04529
01
112
02881
Satu
mati
04025
02639
06303
03009
02582
01
003
05045
02767
Dua
nyala
01734
05437
04847
04897
00
826
02892
02584
04797
Dua
mati
04671
02336
04988
01
206
05595
02572
05647
02991
Tiga
nyala
02095
04805
04
025
02747
02848
04359
02773
04076
Tiga
mati
03971
01
297
05065
02121
04489
01703
05074
02131
Empat
nyala
00
901
04123
04026
04154
01514
03762
02328
04561
Empat
mati
Bab 4 Pengujian dan Analisa
59
80
79
78
77
76
75
74
73 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
07997
03054
06228
04446
05805
04687
03173
03
391
Satu
nyala
Sinyal Standart
05051
04619
05619
05749
02631
04447
01
086
05310
Satu
mati
05949
03685
05899
05607
03163
01
874
05234
03797
Dua
nyala
03109
05053
05258
07102
01
095
03368
03585
04539
Dua
mati
06473
02004
04524
01
350
05525
03084
05608
03682
Tiga
nyala
04759
04205
04
309
03701
03031
04660
02678
05243
Tiga
mati
05572
02
003
05167
02702
04478
02552
05358
03563
Empat
nyala
02
459
04960
04964
05734
01641
03971
02630
05029
Empat
mati
Pengujian pertama ini dilakukan dengan cara memasukkan suara pria pertama (yang digunakan sebagai
pengisi suara standart) Setiap satu perintah dilakukan sebanyak 10 kali pengujian Hasil pengujian
merupakan nilai dari hasil proses Dynamic Time Warping yang merupakan nilai dari pemadanan sinyal
input dengan kedelapan sinyal standart Nilai terkecil (nilai yang tercetak tebal) yang didapatkan merupakan
hasil yang paling mendekati sinyal standart Yang berarti sinyal masukan tersebut dianggap paling sesuai
dengan sinyal standart
Prosentase keberhasilan pengucapspeaker pertama untuk kedelapan perintah sebesar 100 semuanya
menunjukkan kepada sinyal masukkan dan sinyal standart yang sama
Hasil pengujian menunjukkan bahwa ciri sinyal suara yang dihasilkan oleh pengucap speaker pertama dan
sebagai pemberi standart adalah sama
Bab 4 Pengujian dan Analisa
60
Tabel 42 Hasil pengujian sistem pengolahan sinyal wicara untuk pengucap yang lain (pria
2)
8 7 6 5 4 3 2 1 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
06023
05121
07146
04599
04996
04561
07575
04
358
Satu
nyala
Sinyal Standart
04018
05701
06369
06256
03518
05738
07004
08129
Satu
mati
07120
03925
07395
04897
05938
02246
10082
06777
Dua
nyala
04963
05958
05189
07345
03449
04854
08816
08543
Dua
mati
05919
04337
05163
02
130
04797
03463
08871
05289
Tiga
nyala
03709
04519
04380
03601
03491
05239
06
046
07381
Tiga
mati
06087
03
161
06178
03280
05
068
02
439
08853
05354
Empat
nyala
03
409
04321
04
208
05569
03219
04898
06863
08596
Empat
mati
Bab 4 Pengujian dan Analisa
61
16
15
14
13
12
11
10
9 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05475
03932
05521
04
383
05634
05416
04
464
03
434
Satu
nyala
Sinyal Standart
04076
05731
04541
05681
03574
04920
03971
06662
Satu
mati
07427
04886
07924
05962
05824
02
712
07837
05504
Dua
nyala
04475
06666
05765
07616
03414
04203
05431
06334
Dua
mati
05357
03797
05099
04509
04902
04332
07097
05220
Tiga
nyala
04197
05134
04
209
05088
03169
04547
04464
06516
Tiga
mati
05936
03
769
05910
05109
05
311
03435
07646
04977
Empat
nyala
03
576
05767
04591
06367
03010
04129
04944
06850
Empat
mati
Bab 4 Pengujian dan Analisa
62
24
23
22
21
20
19
18
17 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
06927
04
279
08096
04
448
06461
05522
03935
02
444
Satu
nyala
Sinyal Standart
06409
05322
05528
05481
04912
04491
02
011
05508
Satu
mati
06134
04643
08962
06002
04868
02
579
06122
05502
Dua
nyala
04753
06443
05501
07364
02
298
03206
04239
06684
Dua
mati
05709
04928
05456
04961
06142
05726
06454
03831
Tiga
nyala
05798
04882
03
235
04708
04838
04317
03526
05462
Tiga
mati
05021
04423
06842
05583
05222
04132
06363
04235
Empat
nyala
04
457
05427
03546
05773
02946
03573
03618
07019
Empat
mati
Bab 4 Pengujian dan Analisa
63
32
31
30
29
28
27
26
25 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05260
04224
07393
04661
06292
04993
03989
03
549
Satu
nyala
Sinyal Standart
04478
04669
04568
05977
03523
04046
03
438
04819
Satu
mati
06448
04308
08152
06114
04665
02
444
07609
05162
Dua
nyala
04024
05867
05103
07873
01
872
02613
04489
06765
Dua
mati
05363
04
672
05250
04
529
05210
05103
06546
04794
Tiga
nyala
04422
04039
02
482
05102
03499
03985
03969
04371
Tiga
mati
05492
04073
06626
05239
04902
03553
06869
04794
Empat
nyala
03
326
04543
03153
06510
02133
03419
04175
05287
Empat
mati
Hasil pengujian yang kedua ini dilakukan dengan cara memasukkan suara dari pria kedua (pria lain yang
tidak digunakan sebagai suara standart) Setiap satu perintah dilakukan empat (4) kali proses pengujian
Hasil pengujian merupakan nilai dari hasil proses Dynamic Time Warping yang merupakan nilai dari
pemadanan sinyal input dengan kedelapan sinyal standart Nilai terkecil (nilai yang tercetak tebal) yang
didapatkan merupakan hasil yang paling mendekati sinyal standart Yang berarti sinyal masukan tersebut
dianggap paling sesuai dengan sinyal standart
Prosentase keberhasilan pengucapspeaker kedua untuk kedelapan perintah bervariasi sebesar 50
sampai dengan 100 semuanya menunjukkan kepada sinyal masukkan dan sinyal standart yang berbeda
Hasil pengujian menunjukkan bahwa ciri sinyal suara yang dihasilkan oleh pengucap speaker kedua dan
sebagai pemberi standart adalah mendekati sama
Bab 4 Pengujian dan Analisa
64
Tabel 43 Hasil pengujian sistem pengolahan sinyal wicara untuk pengucap yang sama (pria)
No Perintah Lampu DTMF
1 1 nyala B B
2 1 mati B G
3 2 nyala B G
4 2 mati G X
5 3 nyala G X
6 3 mati G X
7 4 nyala B B
8 4 mati B B
9 1 nyala B G
10 1 mati B B
11 2 nyala B G
12 2 mati B B
13 3 nyala B G
14 3 mati B B
15 4 nyala B G
16 4 mati B B
17 1 nyala B G
18 1 mati B B
19 2 nyala G X
20 2 mati G X
21 3 nyala B B
22 3 mati B B
23 4 nyala B B
24 4 mati G X
No Perintah Lampu DTMF
25 1 nyala B G
26 1 mati G X
27 2 nyala G X
28 2 mati B G
29 3 nyala B G
30 3 mati B G
31 4 nyala B G
32 4 mati G X
B Berhasil
G Gagal
X Donrsquot Care (Diabaikan)
Pengujian yang ketiga ini dilakukan oleh pria pertama (pria yang suaranya digunakan sebagai standart)
Masing-masing perintah dilakukan sebanyak empat kali pengujian
Bab 4 Pengujian dan Analisa
65
Pada kolom ketiga (kolom lampu) tanda B (berhasil) menunjukkan bahwa perintah yang diberikan pada
hardware berhasil dilakukan Tanda G (gagal) menunjukkan bahwa perintah yang diberikan pada hardware
gagal dilakukan(hasil tidak sesuai dengan perintah yang diberikan)
Pada kolom keempat (kolom DTMF) menunjukkan laporan dari hardware ke PC server tentang
bagaimana keadaan lampu yang sedang dikontrol apakah dalam keadaan menyala atau mati Pada kolom ini
tanda B (berhasil) menunjukkan bahwa laporan dari hardware ke PC server (yang merupakan proses
otomatisasi) berhasil dilakukan Tanda G (gagal) menunjukkan bahwa laporan ke PC client gagal dilakukan
Sedangkan tanda X (donrsquot care) menunjukkan bahwa perintah diabaikan Hal ini disebabkan perintah pada
hardware (perintah sebelumnya sebelum proses otomatisasi) sudah gagal dilakukan
Prosentase keberhasilan pengucapspeaker pertama untuk kedelapan perintah bervariasi antara 50
sampai 100 semuanya menunjukkan kepada sinyal masukkan dan sinyal standart yang berbeda
Hasil pengujian kedua ini menunjukkan bahwa ciri sinyal suara yang dihasilkan oleh pengucapspeaker
kedua ini yang merupakan suara orang lain (bukan pemberi standart) adalah mendekati sama dengan hasil
yang bervariasi antara 50 sampai 100
43 Pengujian Sistem Client Server
Pada sub bab ini akan diujikan program Client Server yang akan mengirimkan sinyal hasil pengolahan
suara
Tampilan pada client adalah seperti gambar 421 yang merupakan tampilan awal pada saat program
dimulai
Gambar 421 Proses pada client
Bab 4 Pengujian dan Analisa
66
Gambar 422 Proses pada server
1 Sebelumnya program server harus disiapkan lebih dulu
2 Setelah itu client dijalankan
3 Setelah client siap user memasukkan suara yang selanjutnya akan diolah sampai proses DTW
4 Server menerima data yang selanjutnya digunakan untuk melakukan kontrol alat rumah tangga
44 Analisa Pengujian Sistem Secara Keseluruhan
Berdasarkan data-data yang telah didapatkan di atas maka dapat ditarik suatu analisa bahwa
Berdasarkan tabel 44 untuk pengujian pertama pria 1 adalah pria yang suaranya digunakan sebagai standart
Prosentase keberhasilan rata-rata yang didapat untuk semua perintah adalah sebesar 100 Hal ini menunjukkan
bahwa suara yang diujikan adalah suara yang sama dengan standart dan pria 1 tersebut pernah berinteraksi
dengan sistem
Pengujian yang kedua adalah pengujian yang dilakukan oleh pria 2 (pria lain yang suaranya tidak
dipakai sebagai standart) Prosentase keberhasilan rata-rata yang didapat untuk semua perintah 7188 Karena
sistem bersifat dependent speaker dimana sistem hanya digunakan oleh orang tertentu dalam arti yang pernah
berinteraksi langsung dengan sistem Oleh karenanya didapat nilai prosentase keberhasilan yang bervariasi
Bab 4 Pengujian dan Analisa
67
Tabel 44 Tingkat keberhasilan sistem perangkat lunak
NNO
PENGUCAP
PERINTAH
BANYAK
PERCOBAAN
PROSENTASE
KEBERHASILAN
1 Pria 1 1 nyala 8 kali 100
2 1 mati 8 kali 100
3 2 nyala 8 kali 100
4 2 mati 8 kali 100
5 3 nyala 8 kali 100
6 3 mati 8 kali 100
7 4 nyala 8 kali 100
8 4 mati 8 kali 100
RATA-RATA 100
9 Pria 2 1 nyala 4 kali 100
10 1 mati 4 kali 75
11 2 nyala 4 kali 75
12 2 mati 4 kali 50
13 3 nyala 4 kali 50
14 3 mati 4 kali 75
15 4 nyala 4 kali 50
16 4 mati 4 kali 100
RATA-RATA 7188
Jika diurutkan proses pengolahan wicara dari awal sampai diambil keputusan suara yang dimasukkan
tersebut adalah suara yang sesuai atau tidak adalah sebagai berikut
Bab 4 Pengujian dan Analisa
68
Gambar 423 Tampilan awal perangkat lunak menggunakan TclTk dan Snack
Gambar 423 adalah tampilan awal dari perangkat lunak yang dibangun dengan menggunakan TclTk dan
Snack
Gambar 424 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan dengan
menggunakan perangkat lunak Wavesurver
Gambar 424 adalah tampilan awal dari program Wavesurver yang merupakan pembanding dari program
yang dibuat dari perangkat lunak TclTk dan Snack
Bab 4 Pengujian dan Analisa
69
Gambar 425 Tampilan awal perangkat lunak
menggunakan TclTk dan Snack
Gambar 425 adalah tampilan ketika proses pengambilan sinyal suara sedang dilakukan dengan perangkat
lunak TclTk dan Snack
Gambar 426 Tampilan hasil perekaman kata ldquoempat
matirdquo dengan menggunakan perangkat lunak Wavesurver
Gambar 426 adalah tampilan ketika proses pengambilan sinyal suara sedang dilakukan dengan perangkat
lunak Wavesurver
Bab 4 Pengujian dan Analisa
70
Data Sampling
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 427 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900 menggunakan TclTk dan
Snack
Pada gambar 427 dilakukan proses sampling sinyal masukan dengan frekuensi sampling sebesar 12000
Hz maka didapatkan hasil sinyal yang hampir mirip dengan sinyal analognya yang dilakukan dengan
perangkat lunak TclTk dan Snack
Gambar 428 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900 dengan menggunakan
perangkat Wavesurver
Pada gambar 428 dilakukan proses sampling sinyal masukan dengan frekuensi sampling sebesar 12000
Hz yang dilakukan dengan perangkat lunak Wavesurver
Data Windowing
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 429 Hasil Windowing data sampel
kata ldquoempat matirdquo milidetik ke-13900 menggunakan TclTk dan Snack
Bab 4 Pengujian dan Analisa
71
Proses windowing terdapat pada gambar 429 dilakukan untuk membuat sinyal yang disampel lebih
halus Proses windowing ini dilakukan dengan menggunakan perangkat lunak TclTk dan Snack
Proses windowing pada Wavesurver merupakan fasilitas yang tergabung dengan proses lainnya Misal
dengan proses Fast Fourier Transform Jadi disini tidak ditampilkan hanya sebagai proses windowing saja
tetapi digabungkan dengan proses lain
Fast Fourier Transform Sinyal
Masukan
0
20
40
60
80
100
120
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 430 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat
lunak TclTk dan Snack
Gambar 430 di atas adalah proses Fast Fourier sinyal masukan dengan perangkat lunak TclTk dan Snack
Hasil Fast Fourier Transform sinyal masukan menunjukkan sebaran spektrum frekuensi dari sinyal suara
yang telah dihasilkan oleh pengucap
Sebagai pembanding adalah proses Fast Fourier sinyal masukan yang diambil dengan Wavesurver seperti
pada gambar 431 Yang didapatkan hasil yang sama
Gambar 431 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat Wavesurver
Bab 4 Pengujian dan Analisa
72
Fast Fourier Transform Parameter
LPC
0
20
40
60
80
100
0 2000 4000 6000 8000
Frekuensi (Hz)10 x log
10(magnitude)(dB)
Gambar 432 Fast Fourier Transform LPC dengan menggunakan perangkat lunak TCLTk
dan Snack
Hasil gambar 432 menunjukkan proses Fast Fourier Transform LPC yang dilakukan dengan perangkat
lunak TclTk dan Snack
Gambar 433 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat Wavesurver
Proses Fast Fourier Transform yang dilakukan dengan Wavesurver dapat dilihat pada gambar 433
Pelekukan Jalur Suara
0
50
100
150
0 50 100 150
Sinyal Input empat mati
Sinyal Standart
empat mati
Gambar 434 Pelekukan Jalur Suara dengan Dynamic Time Warping
Bab 4 Pengujian dan Analisa
73
Dari gambar 434 dapat dianalisa bahwa dengan menggunakan dynamic time warping terdapat proses
pembandingan panjang sinyal antara dua buah sinyal input dan sinyal standart sehingga terjadi proses
pemadanan panjang sinyal dengan cara memperpanjang dan menekuk vektor spektralnya
74
BAB 5
PENUTUP
51 Kesimpulan
Dari hasil yang didapatkan maka dapat diambil kesimpulan bahwa
Sistem pengucap tak bebas atau speaker dependent system memiliki tingkat akurasi yang tinggi untuk
pengucap masukan dan pengucap standar yang sama Hal ini dibuktikan dengan hasil pengujian pertama
yang dilakukan oleh pria pertama Pria pertama ini adalah pria yang suaranya digunakan sebagai standar
Nilai prosentase keberhasilan rata-rata untuk semua perintah adalah sebesar 100 dari setiap perintah
dilakukan 8 kali percobaan
Sedangkan pengujian yang dilakukan oleh suara lain (bukan standart) prosentatase keberhasilan
rata-rata yang diperoleh untuk semua perintah 7188 dari setiap perintah dilakukan 4 kali percobaan Hal
ini disebabkan karena suara pria kedua tidak pernah berinteraksi dengan sistem
Keberhasilan sistem ditunjukkan oleh ketepatan penyalaan lampu sesuai dengan yang diperintahkan
melalui perintah suara
Kecepatan sistem secara keseluruhan diperlihatkan dalam tabel 51 dibawah
Tabel 51 Kecepatan sistem keseluruhan
No
Perintah
Waktu (detik)
1 2 3 4 Rata-rata
1 Satu Nyala 11 99 12 25 16 89 14 05 13 80
2 Satu Mati 12 51 13 28 14 83 12 25 13 22
3 Dua Nyala 10 70 11 73 11 99 12 25 11 67
4 Dua Mati 10 44 11 21 11 21 11 47 11 08
5 Tiga Nyala 10 96 12 25 13 54 12 51 12 32
6 Tiga Mati 10 70 11 99 11 99 13 28 11 99
7 Empat Nyala 11 73 11 99 13 02 12 24 12 25
8 Empat Mati 10 70 09 93 11 21 10 70 10 64
Rata-rata 12 12
Dari data yang diperoleh didapatkan kecepatan rata-rata untuk tiap perintah yang diberikan sampai
dengan terlaksananya eksekusi dari perintah adalah 12 12 detik
52 Saran
Pada penelitian ini masih sangat banyak hal yang dapat dilakukan untuk perbaikan-perbaikan dimasa
selanjutnya Saran dan usulan yang dapat dipertimbangkan untuk pengembangan sistem lebih lanjut adalah
antara lain
1 Sistem tidak lagi bersifat dependent speaker tetapi bersifat independent speaker dimana banyak
orang yang memberi perintah dan sistem dengan tepat memberikan respon
2 Sistem dapat mengatasi tingkat noise yang tinggi baik yang disebabkan oleh lingkungan atau oleh
hardware (sound card)
75
3 Otomatisasi sistem Artinya perintah tidak perlu lagi diberikan lewat penekanan tombol yang
dilakukan melalui mouse
4 Respon sistem yang real time
5 Sistem yang dapat dengan mudah beradaptasi dengan jenis sound card yang bervariasi
DAFTAR PUSTAKA
Anggraeni Triana Dewi Astutik Debi Puji Pengenalan Wicara Dengan Penutur Tak Bebas
Tugas Akhir PENS ITS 2003
Wahyudi Agus Verifikasi Sinyal Suara Sebagai Kendali Arah TA PENS-ITS 2002
Dewantara Bima Sena Bayu Aplikasi Pengenalan Wicara Untuk Perintah NirkabelRobot Mikro
Mouse Tugas Akhir PENS ITS 2004
Dutono Titon Penataran Kebahasaan Tahap I Fonetik Dan Fonologi ndashPengolahan Sinyal
Wicara Digital 20 Februari 2001
Gabel Robert A Richard A Robert Sinyal dan Sistem LinierErlangga 1996
Rabiner Lawrence Huang Juang Biing Fundamentals of Speech Recognition Prentice Hall
International Inc1993
Proakis John G Malonakis Dimitris G Digital Signal Processing Principles Algorithms and
Applications Prentice Hall Inc New Jersey 1995
Scolander Kare Snack Sound Toolkit
httpwwwtcltkmantcl85tutorialTcl11html
httpwikitcltk4074
httpwwwinveceorgtclwisefrontcoverhtml
httpwwwspeechkthsesnackmansnack22tcl-manhtml
httpwwwspeechkthsesnacktutorialhtml
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13]
Bab 2 Teori Penunjang
5
Gambar 24 Pola standart dengan unit fonem5
Pada sistem pertama mampu mencakup fenomena koartikulasi tapi tidak fleksibel terhadap perubahan
kosa kata
Sinyal wicara adalah sinyal yang dihasilkan oleh suara manusia dan biasanya mempunyai frekuensi
kerja antara 0 sampai dengan 5000 Hz Bentuk gelombang sinyal wicara mempunyai bentuk yang unik seperti
gambar 23
Gambar 25 a)Sinyal wicara untuk bunyi a pada satu frame pada wanita
b)Sinyal wicara untuk bunyi a pada satu frame pada pria
Berdasarkan gambar 25 terlihat bahwa setiap satu frame terdapat 120 sample yang bersifat quasi
periodik dan mempunyai unsur bunyi terkecil yang disebut sebagai pitch Panjang pitch berkisar 10 ms Pitch
manusia berbeda satu sama lain terutama jenis kelamin laki-laki dan perempuan
212 Sampling
Sinyal wicara merupakan sinyal yang tidak terbatas dalam domain waktu (finite time interval) Suara
manusia akan menghasilkan sinyal analog yang terus kontinyu Untuk keperluan pemrosesan dalam transformasi
fourier maka sinyal wicara harus dibentuk dalam potongan-potongan waktu yang terbatas (infinite time interval)
Karena itu sinyal yang ada dipotong-potong dalam slot-slot interval waktu tertentu
Berdasarkan pada teori sampling Niquist maka syarat dari frekuensi sampling adalah minimal dua kali
frekuensi sinyal
Fsampling 2 x Fsignal ( 21)
Ekstraksi ciri
Pola standar fonem
Pemadanan fonem
Kamus kosa kata
Pemadanan kata
Algoritma keputusan
Sinyal wicara
-20000
-15000
-10000
-5000
0
5000
10000
15000
0 20 40 60 80 100 120 140
pitch -10000
-8000
-6000
-4000
-2000
0
2000
4000
6000
8000
0 20 40 60 80 100 120 140
pitch
Output teks
Bab 2 Teori Penunjang
6
Contoh dari sampling seperti bisa kita lihat pada gambar di bawah
Gambar 26 Contoh proses sampling dengan nilai frekuensi pencuplikan yang berbeda
6
Frekuensi sampling yang digunakan adalah 12000 Hz
Dimana dalam 1 detik sinyal terdapat 12000 titik sampling
213 Preemphasis
Proses preemphasis dimaksudkan agar spektrum sinyal merata di semua frekuensi serta mencegah
kehilangan informasi akibat proses pembulatan pada saat komputasi Fungsi preemphasis adalah
H (z) = 1 ndash az-1 09 le a le 1 (22)
dimana nilai a berkisar 095 Berdasarkan model filter di atas maka keluaran dari preemphasis adalah
s (n) = s (n) - as (n-1) ( 23)
Penjabarannya sebagai berikut
5 Ibid 6 Ibid
Fi = 1000 Hz
Fs = 1250 Hz
Fs = 1000 Hz
Fs = 4000 Hz
Fs = 8000 Hz
Fs 2Fi
Kriteria Nyquis
Fi Frekuensi sinyal informasi Fs Frekuensi pencuplikan
H X Y
T 1 = 12000 = 833 x 10-5 s = 833 μs
10 ms = 833μs x N sample N = 120 sample
Bab 2 Teori Penunjang
7
y = H x
y = (1-az-1) xn
y = xn - 095 xn z-1
y = xn ndash 095 xn - 1
214 Frame Blocking
Sinyal wicara yang telah dipreemphasis s (n) diblok dalam M sampel dimana N 2 x M seperti yang
ditunjukkan pada gambar 27 Jika M le N pergeseran frame akan mengalami overlape hasil perkiraan LPC
spectral akan dikorelasikan dari frame 1 ke frame berikutnya Jika M laquo N perkiraan LPC spectral dari satu frame
ke frame lainnya akan sangat halus (smooth) Dan bila M gt N maka tidak akan ada overlape diantara frame yang
berbatasan dan sinyal suara akan hilang sama sekali dan korelasi diantara perkiraan spectral LPC dari frame
yang berbatasan akan berisi komponen noise
Gambar 27 Pergeseran Frame pada Sinyal Suara
dengan M = 13 N
Sehingga didapatkan nilai dari sinyal yang baru adalah sebagai berikut
x1(n) =s(M 1+n) n =012hellipN ndash 1 l = 012hellipLndash1 (24 )
215 Windowing
Merupakan proses membatasi lebar sinyal yang akan dianalisa yang dapat mengurangi efek
diskontinyuitas pada ujung-ujung frame yang dihasilkan oleh potongan-potongan sinyal Korelasi antara lebar
window dalam domain waktu dan amplitude berguna untuk menyederhanakan sinyal dengan mengurangi
puncak sinyalnya
Ada beberapa jenis windowing yang dinamakan sesuai dengan nama penemunya yaitu
Bab 2 Teori Penunjang
8
Window Hamming
052-046 cos[2лn(N-1)] 0 le n le N-1
Wham(n) =
0 elsewhere
Window Hanning
1-cos[2лn(N-1)] 2 0 le n le N-1
Whan(n) =
0 elsewhere
Window Bartlett
1-cos[2лn(N-1)] 2 0 le n le (N-1)2
WB(n) = 2-2n(N-1) (N-1)2lenleN-1
0 elsewhere
Window Blackman
042-05cos[2лn(N-1)]+008cos[4лn(N-1)]0lenleN-1
WBl(n) =
0 elsewhere
216 Fourier Transform
Transformasi Fourier Diskrit (DFT) adalah deretan yang terdefinisi pada kawasan frekuensi ndash diskrit
yang merepresentaskan Transformasi Fourier terhadap suatu deretan terhingga (Finite Duration Sequence) DFT
berperan penting untuk implementasi algoritma suatu varitas pengolah sinyal karena efisien untuk komputasi
berbagai aplikasi
Salah satu contoh aplikasi komputasi DFT dalam algoritma yang efisien yaitu Fast Fourier Transform
(FFT) Efisiensi suatu algoritma ditentukan dari sejauh mana dapat mereduksi jumlah perkalian dan
penjumlahan serta reduksi lalu lintas data pada memori komputer sehingga proses lebih cepat
Pada DFT untuk memproses N buah titik diperlukan (N-1)perkalian kompleks dan N(N-1)
penjumlahan kompleks Bila N cukup besar dibutuhkan memori yang besar dan waktu yang cukup lama Untuk
itu digunakan metode lain yang lebih cepat yaitu metode transformasi fourier cepat (FFT) FFT dilakukan
dengan membagi N buah titik pada transformasi fourier diskrit menjadi 2 masing-masing N2 titik trnsformasi
Pemecahan menjadi dua pada proses transformasi fourier cepat disebut sebagai proses rekombinasi Dua buah
N2 titik transformasi mempunyai 2(N2) = N2 perkalian Proses memecah menjadi dua ini diteruskan dengan
membagi setiap (N2) titik transformasi menjadi dua buah (N4) titik transformasi setiap (N4) menjadi dua buah
Bab 2 Teori Penunjang
9
(N8) titik transformasi dan seterusnya hingga diperoleh junlah titik yang minimum Jika besarnya N merupakan
kelipatan pangkat dari 2 (disebut radiks 2) maka jumlah titik minimum setelah setiap kali dibagi 2 adalah dua
Ada dua macam metode FFT metode Decimation in Time (DIT) dan metode Dicimation in Frekuensi
(DIF) Kedua metode ini hamper sama Pada metode FFT-DIT N buah titik transformasi dibagi 2 menjadi fungsi
ganjil dan genap masing-masing mempunyai N2 titik transformasi Sedang pada metode FFT-DIF N buah titk
transformasi dibagi menjadi fungsi N2 titk yang pertama dan fungsi N2 titik yang kedua
Operasi pada metode FFT-DIT disebut juga metode kupu-kupu Untuk N buah titik transformasi h(n)
algoritma radiks 2 memerlukan proses perkalian dan rekombinasi sebanyak N2 log N transformasi fourier
diskrit Pada metode FFT-DIT operasi dekomposisi dilakukan dengan membagi fungsi h(n) menjadi 2 bagian
fungsi ganjil dan fungsi genap Atau dengan pernyataan matematika h1(n) dan h2(n) yang masing-masing adalah
untuk n genap dan n ganjil
Prinsip FFT dengan metode DIT adalah seperti pada gambar 24 berikut ini
Gambar 28 Blok metode FFT-DIT 8 titik
7
Pada gambar di atas merupakan jumlah perkalian kompleks N2 log N juga jumlah penjumlahan
kompleks = N2 log N
217 Linear Prediction Code
Ide dasar dari LPC adalah bahwa pada model ini memberikan sampel suara pada domain waktu yang
bisa didekati sebagai kombinasi linear dari sampel suara yang telah lalu
Teori Linear Prediction Coding (LPC) yang diaplikasikan pada wicara telah dimengerti selama
beberapa tahun Pada bagian ini akan dijelaskan dasar dari bagaimana LPC diaplikasikan pada sistem pengenlan
wicara
Sebelum menjelaskan LPC secara umum sebagai pemrose front-end untuk pengenalan wicara perlu
diketahui alasan mengapa LPC sangat banyak digunakan yaitu
1 LPC menyuguhkan model yang bagus untuk sinyal wicara
2 Cara yang digunakan LPC untuk analisa sinyal wicara sangat beralasan untuk pemisahan track dari
sumber vocal
3 LPC adalah model traktabel secara analitis
Bab 2 Teori Penunjang
10
4 Model LPC bekerja dengan baik pada aplikasi pengenalan
2171 Autocorrelation Analysis
Masing-masing frame sinyal yang telah diwindow kemudian di-autokorelasikan dengan menggunakan
persamaan
N-1-M
r1(m) = sum x1(n) x1(n+m) m = 0 1 p ( 25) (25)
n = 0
dimana nilai autokorelasi tertinggi p adalah orde dari analisi LPC Pada umumnya nilai dari p yang
sering digunakan adalah dari 8 sampai 16 Sisi menguntungkan dari analisis autokorelasi adalah bahwa
autokorelasi ke-0 R1 (0) adalah energi dari frame ke-1 Energi dari frame merupakan parameter
penting untuk system deteksi wicara
2172 LPC Analysis
Langkah selanjutnya adalah analisis LPC dimana mengkonversi masing-masing frame dari
auto korelasi p+1 ke dalam sebuah ldquoLPC Parameter Setrdquo dimana kumpulan itu merupakan koefisien
LPC koefisien refleksi atau PARCOR koefisien log area ratio koefisien Cepstral atau beberapa
transformasi pada kumpulan tersebut
Metode yang formal untuk mengkonversi dari koefisien autokorelasi ke sebuah LPC parameter
set (untuk metode autokorelasi) dikenal sebagai Metode Durbin dan secara formal dapat ditunjukkan
pada algoritma berikut ini
E(0) = r(0) ( 26)
Ki=r(i)-sumαj(i-1) r(|i-j|)E(i-1) 1 le I le p ( 27)
αi(i) = ki (28)
αj(i) = αj
(i-1)-ki α(i-1) ( 29)
t-j
E(i)=(1-ki2)E (i-j) (210)
dimana penyajian akhir dari persamaan mengabaikan i=1 Kumpulan dari persamaan hellipdiselesaikan secara
rekursif untuk i=12hellipp dan penyelesaian akhir diberikan sebagai
am=koefisien PC=αm 1lemlep ( 211)
7 Agus Wahyudi Verifikasi Sinyal Suara Sebagai Kendali Arah TA PENS-ITS 2002
Bab 2 Teori Penunjang
11
km=koefisien PARCOR ( 212)
1 - km
gm=koefisien log area ratio = log ----------- ( 213)
1 + km
2173 LPC Parameter Corversion to Cepstral Coefficients
Sekumpulan parameter LPC yang sangat penting yang dapat diturunkan langsung dari kumpulan LPC
adalah koefisien cepstral LPC c(m) Rekursif yang digunakan adalah
co = ln σ2 ( 214)
m-1
cm = am + sum ck am-k 1 le m le p ( 215)
k = 1
m-1
cm = sum ck am-k m gt p
k = 1
dimana σ2 adalah penguatan dalam model LPC Koefisien cepstral koefisien yang direpresentasikan dengan
fourier transform dengan spectrum besaran log telah ditampilkan menjadi kumpulan fitur untuk pengenalan
wicara yang lebih handal terpercaya daripada koefisien LPC koefisien PARCOR atau koefisien log area ratio
218 Dynamic Time Wraping
Dynamic Time Wraping (DTW) merupakan cara untuk membandingkan pola wicara dalam menentukan
kesamaan jarak antara pola-pola yang berbeda Dimana pengenalan wicara merupakan proses secara otomatis
dalam mengambil dan menentukan informasi linguistic yang disampaikan dengan gelombang wicara
menggunakan komputer atau sirkuit elektronik Informasi linguistic tersebut pada akhirnya akan
direpresentasikan dengan deretan waktu vektor-vektor spektral
Metode nolmalisasi waktu menggunakan dua buah fungsi warping
ix = Фx (k) k = 123hellipT (216)
iy = Фy (k) k = 123hellipT
2181 Dynamic Programming
Dynamic Programming (DP) digunakan untuk memecahkan masalah deteksi pengurutan kemampuan
menggunakan pola pengenalan wicara dan masalah waktu penjajaran dan normalisasi Ada dua tipe masalah
penggunaan Dynamic Programming yaitu
(
)
k m
( )
K m ( )
Bab 2 Teori Penunjang
12
1 Masalah jalan optimal dengan menganggap sekumpulan titik mulai dari 1 sampai dengan N yang
dihubungkan dengan pasangan setiap dari titik (ij) Representasi perpindahan secara langsung dari titik
ke-1 ke titik yang lainnya Rentetan perpindahan tersebut tidak mempunyai bilangan yang ditetapkan
dari transisi satu titik ke titik yang lainnya hal ini disebut rentetan keputusan asinkron
Dengan Terminologi sederhana kita membuat garis keputusan untuk menetukan titk berikutnya setelah
kebijaksanaan pada titik i
Prinsip dari optimalisasi yang merupakan kelas dasar dari algoritma komputasi untuk optimasi masalah
di atas berdasarkan pernyataan Bellman
rdquoKebijakan optimasi yang memiliki sifat apapun ketetapan dan ketentuannya keputusan berikutnya
harus merupakan hasil ketetapan dari keputusan yang pertamardquo
2 Masalah keputusan rentetan sinkronisasi terdapat perbedaan dari satu sinkronisasi yang beraturan dari
proses keputusan
Penggunaan teknik Dynamic Programming pada Dynamic Time Warping untuk pertama kali dilakukan
oleh Slutsker (1968) Vintsyuk (1968) dan Volichko (1971) dari Jepang untuk pengenalan wicara Pada proses
ini pembicara mengucapkan kata yang sama dengan durasi berubah setiap waktu dengan ekspansi yang non
linier Oleh karena itu Dynamic Time Wraping adalah tahap yang penting dalam proses pengenalan kata Proses
DTW mengalami pengembangan pada sumbu waktu untuk mencocokan posisi phonemkata yang sama antara
input wicara dan referensi template
Dynamic Programing secara umum digunakan untuk memecahkan masalah rentetan keputusan yang
dilakukan pada bidang kisi sebagaimana ditampilkan pada gambar 27 Sinyal yang dicocokkan adalah A dan B
Di dalam bidang kisi sinyal A disesuaikan sepanjang sumbu ndashx dan sinyal B disesuaikan sepanjang sumbu ndashy
Setiap antar bagian pada bagian ini ditetapkan sebagai sebuah simpul atau titik dimana titik (ij) adalah
pencocokan frame I untuk sinyal A dengan frame j untuk sinyal B Misalnya diasumsikan dua rentetan waktu
untuk vektor utama yang dibandingkan sebagai berikut
A = a1a2hellipaI dan B = b1b2hellipbJ
Dengan menganggap rentang bidang antara A dan B sebagaimana ditunjukkan pada gambar 27
fungsi pelengkungan waktu yang sesuai menunjukkan waktu antara rentetan A dan B dapat dipresentasikan
sebagai rentetan titk-titik Lattice pada bidang c = (ij) sebagai berikut
Bab 2 Teori Penunjang
13
Gambar 29 Plane jaringan untuk ilustrasi
pemrograman dinamik8
Bilamana jarak spektral antara dua vektor utama a1 dan b1 direpresentasikan oleh d(c) = d(ij) penjumlahan
jarak dari awal sampai akhir dari rentetan sepanjang F dapat direpresentasikan dengan
K
sum d(ck)wk
k=1
D(F) = mdashmdashmdashmdashmdash (217)
K
sum wk
k=1
Semakin kecil nilai ini semakin baik kecocokan antara A dan B Dimana wk adalah fungsi pembobotan
positif terhadap F
Dengan memperkecil persamaan di atas dengan kondisi berikut
1 Kondisi monotonisasi dan kontinuitas
0 le ik-ik-1le1 0 lejk ndash jk -1 le 1 ( 218)
2 Kondisi perbatasan
I1=j1=Iik=Ijk=I (219)
3 Kondisi adjustmen window
|ik ndash jk|ler r=konstan ( 220)
Pendefinisian wk sedemikian rupa sehingga menyebut pada persamaan 219 menjadi konstan yang
tidak tergantung pada F Untuk contoh jika
Wk = (ik ndash ik -1)+(jk ndash jk -1)(i0=j0=0) wk akan menjadi
8 Ibid hal 15
Bab 2 Teori Penunjang
14
K
sum wk = I + J (221) k=1
dan persamaan 219 menjadi
1 K
D(F)= mdashmdash sum d(ck)wk ( 222)
I + J k=1
Gambar 210 DTW antara dua rentetan waktu A dan B
9
Karena fungsi obyektif yang akan diminimasi menjadi penjumlahan maka peminimisasi secara efisien
dapat diselesaikan tanpa harus menguji semua kemungkinan untuk F Penjumlahan pada sebagian rentetan c1
c2 hellip ck (ck=(ij)) adalah
(224)
Penurunan pemrograman dinamik pada persamaan-persamaan diatas penggunaan kondisi untuk F dan
formulasi perumusan wk persamaan 2115 dapat dituliskan kembali sebagai berikut
9 Ibid hal 17
Bab 2 Teori Penunjang
15
g(ij-1)+d(ij)
g(ij) = min g(i-1j-1) + 2d (ij) (225)
g(i-1j) +d(ij)
Oleh karena itu jarak antara dua rentetan waktu A dan B setelah DTW dapat diperoleh sebagai berikut
Kita set dari kondisi awal untuk g(11)=2d(11) dan j=1 dan hitung persamaan 2116 dengan variasi I dalam
sepanjang adjustment window Perhitungan ini diulangi dengan menaikkan j sampai j=1 Jarak keseluruhan
antara dua rentetan waktu A dan B dapat diperoleh dari g(IJ)(I+J)
2182 Batasan Normalisasi Waktu
Supaya proses normalisasi waktu mempunyai arti pada perbedaan batasan dengan berbagai variasi
interval waktu dibutuhkan beberapa batasan terhadap fungsi warping
2183 Batasan Titik Awal Akhir
Bilamana pola wicara yang dibandingkan merupakan tuturan per kata maka harus memenuhi syarat pola
mulai dari titik awal sampai titik akhir dari tanda permulaan dan pengakhiran pola wicara Titik awal dan akhir
mempunyi batasan yang membatasi pola wicara harus dipenuhi
Titik awal Фx(1) = 1 Фy(1) = 1 (226)
Titik akhir Фx(T) = Tx Фy(T) = Ty (227)
2184 Kondisi Monotonisasi
Rentetan pola spectral pada wicara sangat penting dalam menentukan arti linguistic sehingga tidak
akan hilang Untuk mempertahankan pola tersebut harus memenuhi
Фx(k + 1) ge Фx(k) (228)
Фy(k + 1) ge Фy(k)
22 Awal dan Akhir Sinyal Suara
221 Power
Sinyal suara yang diolah haruslah merupakan sinyal suara murni dan tidak bercampur dengan noise
ataupun header tail yang dibawa oleh suara saat perekaman apalagi jika pengenalan sinyal suara dengan jumlah
vocabulary yang besar Oleh karena itu sinyal suara hasil perekaman harus dicari nilai awal dan akhirnya agar
pengolahan sinyal suara tersebut menjadi lebih valid
Dan salah satu cara dalam menentukan nilai awal dan akhir dari sinyal suara adalah dengan
menggunakan power yang mempunyai persamaan sebagai berikut
( )
Bab 2 Teori Penunjang
16
239
p= sumradic xt2 (229)
t=0
Sinyal suara yang dibagi menjadi beberapa frame mempunyai power dari tiap framenya yang kemudian
didapatkan nilai rata-ratanya yang kemudian diperoleh nilai awal dan akhirnya dengan menambahkan 3 kali
standart deviasi Dimana penentuan awal dan akhir dari sinyal suara dapat diperoleh dengan
p ge p + 07 standart deviasi
Power
0
20000
40000
60000
80000
100000
120000
140000
160000
0 10 20 30 40 50 60
Jumlah Frame
Am
pli
tud
o
Gambar 211 Bentuk power dari kata
Nilai beberapa kali hasil percobaan
222 Unvoiced Plosive
Pada suatu sinyal suara yang terekam terdapat pemutusan sinyal atau kondisi kosong yang bukan
merupakan noise tetapi masih didalam lingkup suara Tapi kondisi ini hanya terjadi pada kebanyakan sinyal
suara yang terdapat konsonan tertentu yaitu sinyal suara dari kata yang mempunyai konsonan p t k Kondisi ini
disebut Unvoiced Plosive atau loncatan sinyal suara setelah kondisi kosong seperti ditunjukkan pada gambar
berikut
Gambar 212 Unvoiced Plosive
Bab 2 Teori Penunjang
17
Dan untuk penentuan awal dan akhir daerah kosong tersebut harus diperhitungkan agar didapatkan
nilai awal dan akhir dari sinyal suara yang valid yaitu dengan mencari nilai rata-rata dari daerah kosong dari
beberapa sinyal suara Kemudian dengan dicari nilai thresholdnya yaitu nilai terpanjang dari daerah kosong
sebesar 2 dari seluruh daerah kosong yang telah dihistogram
23 JARINGAN DENGAN TCPIP
Meskipun hubungan computer melalui serial dan parallel telah ada sejak lama multijaringan belum
menjadi masalah serius bagi para peneliti di bidang jaringan sampai awal tahun 1980 Perkembangan teknologi
LAN itu sendiri didasarkan banyak alasan Salah satu yang menjadi alasan utama adalah adanya perusahaan
yang ingin melakukan sharing data file printer dan resource lainnya ke pc lain
231 Mengenal TCPIP
Sebelumnya kita definisikan lebih dahulu apa yang dimaksud protocol itu Bila dua computer ingin
melakukan komunikasi keduanya tentu saja harus menggunkan bahasaturan yang sama Aturan-aturan inilah
yang disebut protocol Misalnya untuk mengirim mail digunakan protocol SMTP berhubungan dengan WWW
menggunakan HTTP dan sebagainya Jadi protocol merupakan aturan dalam melakukan komunikasi
TCPIP ( Transmission Control Protocol Internet Protocol) merupakan protocol yang bersifat open
networking Maksudnya semua penjelasan teknis tentang protocol tersebut diumumkan karena ada juga
mekanisme jaringan yang menyembunyikan detail dari sistemnya Hal inilah yang membuat TCPIP menjadi
terkenal
Adapun keuntungan dengan menggunakan protocol TCPIP adalah kemudahannya karena
memungkinkan hubungan antara berbagai system operasi dan berbagai jenis computer (platform)
TCPIP bukanlah protocol tunggal tetapi merupakan sekumpulan protocol sehingga lebih tepat disebut
sebagai keluarga TCPIP Setiap protocol pada TCPIP memiliki tugas tertentu yang berbeda Semua protocol
tersebut menggunakan protocol primer untuk mengirimkan paket data Protocol primer tersebut adalah TCP dan
IP
Protokol lainnya dapat dikelompokkan berdasarkan tujuannya sebagai berikut
1 Transport
Digunakan untuk mengatur perpindahan data antara dua mesin Antara lain
- TCP (Transmission Control Protocol)
- UDP (User Datagram Protocol)
2 Routing
Digunakan untuk pengalamatan data dan menentukan rute terbaik antara lain
- IP (Internet Protocol)
- ICMP (Internet Control Message Protocol)
- RIP (Routing Information Protocol)
Bab 2 Teori Penunjang
18
3 Network Address
Menangani bagaimana suatu mesin diberikan suatu alamat antara lain
- ARP ( Address Rwesolution Protocol)
- DNS ( Domain Name Sistem)
- RARP (Reverse Address Resolution Protocol)
4 User Service
Merupakan aplikasi yang harus diakses user antara lain
- FTP ( File Transfer Protocol)
- TFTP (Trivial File Transfer Protocol)
- TELNET
5 Gateway Protocol
Untuk membentuk proses komunikasi routing dan status informasi antara lain
- EGP (Exterior Geteway Protocol)
- GGP (Gateway to Gateway Protocol)
- IGP (Interior Gateway Protocol)
232 Koneksi TCPIP
Untuk mengkonfigurasi TCPIP maka dibutuhkan
Alamat IP
Alamat IP ini sebagai pengenal atau alamat mesin Karena setiap mesin yang terhubung jaringan
harus memiliki penganal yang unik sehingga memungkinkan melakukan routing Jaringan dengan TCPIP
menggunakan pengalamatan 32 bit sebagai alamat atau pengenal setiap mesin yang terkoneksi dengan jaringan
Pengenal ini disebut alamat IP Pesan atau data yang dikirim melalui TCPIP menggunakan alamat IP ini untuk
mengenali mesin pengirim dan penerimanya
Biasanya alamat IP dapat dikelompokkan menjadi dua bagian yaitu
1 Nomor Network
2 Nomor Device dalam Network tersebut
Alamat IP tersebut dipisahkan menjadi empat bagian yang masing-masing berukuran 8 bit Empat
bagian tersebut dipisahkan oleh tanda titik dan setiap bagian tersebut memiliki angka 0-255 Contohnya
192168101
Pemberian alamta IP umumnya ditentukan berdasarkan ukuran dari jaringan tersebut Jaringan
dapat diklasifikasikan menjadi tiga kategori yaitu kelas A kelas B kelas C Ketiga kelas tersebut membagi
pengalamatan 32 bit dengan ukuran berbeda untuk nomor Network dan Host
Pengalamatan pada kelas A memungkinkan bagian ini memiliki angka dari 0-127 Sedangkan
pengalamatan B memungkinkan memiliki angka dari 128-191 pengalamatan pada kelas C memungkinkan
memiliki angka dari 192-223
Network Mask
Bab 2 Teori Penunjang
19
Network mask merupakan alamat IP dimana lamat networknya diset ke nilai 255 Jika alamat IP
termasuk kelas A maka network masknya yaitu 255000 Jika alamat IP termasuk kelas B maka network
masknya yaitu 25525500 Jika alamat IP termasuk kelas C maka network masknya yaitu 2552552550
AlamatNetwork
Alamat network ini dapat diperoleh dari alamat IP dimana bit-bitnya dilakukan operasi AND
dengan network mask Dengan demikian untuk network kelas B dengan IP 192168101 maka alamat
networknya adalah 19216800
Alamat Broadcast
Alamat broadcast dibutuhkan bila suatu mesin ingin mengirimkan paket yang sama ke semua
device pada jaringan
Alamat Gateway
Alamat gateway merupakan alamat IP dari mesin yang menghubungkan jaringan dengan jaringan
di luar misalnya internet Pada umumnya alamatgateway memiliki IP yang sama dengan mesin yang kita miliki
tetapi mempunyai nomor device 1 Dengan demikian untuk network kelas B dengan alamt IP 192168101
alamat gatewaynya adalah 19216811
Alamat Nameserver
Jaringan-jaringan besar umumnya memiliki sebuah mesin untuk mentranslasikan alamat IP menjadi
nama yang lebih mudah dikenal manusia Misalkan sebuah mesin dengan IP 192168101 dapat diberi nama lain
seperti puspacsuiacid sebagai alamatnya Proses translasi ini dilakukan dengan system yang dikenal dengan
nama Domain Name System (DNS)
24 BEKERJA DENGAN SOCKET
Komponen socket program yang dapat membantu dalam pembuatan suatu aplikasi yang berkomunikasi
antara suatu system computer dengan system computer yang lain dengan menggunakan protocol TCPIP dan
protocol lain yang terhubung
241 Pengertian Socket Program
Pada sub bab ini akan dijelaskan tentang komoponen socket program yang dapat berkomunikasi antara
system computer dengan system computer yang lain dengan menggunakan protocol TCPIP dan protocol lain
yang terhubung Dengan socket program ini kita dapat membaca dan menulis pada hubungan ke mesin yang lain
tanpa mengalami kesulitan pada software jaringan Socket program dapat mengadakan hubungan berbasis
protocol TCPIP tetapi dapat juga bekerja umunya dengan protokol-protokol yang terhubung seperti Xerox
Network System (XNS) dan yang lain
Bab 2 Teori Penunjang
20
242 Penjabaran Socket
Socket mengijinkan aplikasi jaringan kita berkomunikasi dengan sistem lain di luar jaringan
Masing- masing socket bisadipandang sebagai titik akhir dalam suatu koneksi jaringan Socket tersebut memiliki
spesifikasi sebagai berikut
a) Sistem yang sedang dijalankan
b) Tipe interface port yang digunakan
Penjelasan lengkap dari sebuah koneksi socket terdiri dari address socket pada kedua titik akhir
koneksi Kita akan menguraikan address dari masing- masing titik akhir socket dengan memberi nomor IP
address atau host dan port
Sebelum membuat koneksi socket sebelumnya harus menguraikan dengan lengkap socket-socket
yang membentuk titik akhir Beberapa informasi tersedia dari sistem aplikasi yang dijalankan Sebagai contoh
kita tidaka akan membutuhkan IP Address Local dari socket client sebab informasi ini terdapat pada sistem
operasi
Informasi yang akan kita berikan bergantung pada tipe socket yang sedang bekerja Socket client
harus menggambarkan port yang merepresentasikan layanan yang mereka berikan
243 Memilih Host Name dan IP Address
Kebanyakan aplikasi menggunakan host name untuk merinci sebuah system Host Name mudah
untuk diingat dan dicek Menggunakan host name memungkinkan socket client untuk menemukan situs abstrak
yang diwakili oleh nama host meskipun telah dipindah ke IP Address yang baru Jika nama host tidak diketahui
socket client akan akan menyatakan system server sedang menggunakan IP Addressnya Ketika kita
menyediakan host name socket akan mencari IP Address yang berhubungan dengan host name sebelum socket
tersebut dapat menempatkan pada sistem server
Bab 3 Perencanaan dan Implementasi
21
BAB 3
PERENCANAAN DAN IMPLEMENTASI
31 Pendahuluan
Pada bab ini akan dijelaskan mengenai pengolahan sinyal wicara untuk mendapatkan ciri setiap
individu Juga akan dibahas mengenai pengolahan hasil keluaran sinyal wicara untuk ditransmisikan ke PC lain
(lewat jaringan) Dan selanjutnya akan dibahas pula mengenai plan atau obyek yang dalam hal ini adalah lampu
pijar
Berikut ini adalah blok diagram sistem secara keseluruhan
Gambar 31 Blok Diagram Sistem Secara Keseluruhan
Speaker pada gambar 31 memberikan suaranya sebagai masukan lewat mikrofon Masukan ini
akan diolah dalam PC client mulai dari proses sampling frame windowing FFT LPC Kemudian hasil dari
LPC dicari pemadanan dengan LPC dari sinyal standar yang telah tersimpan sebagai data base di dalam PC
client Hasil dari DTW tersebut akan dikirimkan ke PC server melalui TCPIP untuk diproses menjadi suatu
perintah ke perangkat keras Perintah tersebut merupakan bentuk implementasi dari perintah yang diberikan dari
PC client
Sebaliknya dengan adanya perubahan kondisi pada peralatan yang diinginkan maka terjadi sinyal
balikan yang berupa sinyal DTMF yang dikirimkan oleh perangkat keras ke PC server Oleh PC server sinyal ini
diolah untuk dikenali sebagai suatu kondisi tertentu yang akan dikirimkan ke PC client sebagai laporan tentang
kondisi alat yang diinginkan
32 Sistem Pengolahan Sinyal Wicara
321Perekaman Suara
TCPIP
Pengucap Speaker ADC Pengolahan Wicara dan Monitoring
Peralatan yang terkontrol
LAN Card
LAN Card
Pengenalan Pola Pengiriman Tone DTMF dan Pengenalan DTMF Sebagai Laporan
DTMF Decoding DTMF Generator Sistem Switching
Alat Terkontrol
Bab 3 Perencanaan dan Implementasi
22
Perekaman suara dilakukan menggunakan software berbasis TclTk 830 dan Snack22 Sebelumnya
akan dijelaskan satu per satu program yang dipakai
o TclTk 830
Tcl kepanjangan dari Tool Control Language Tk adalah Graphical Toolkit extension dari Tcl yang
menyediakan bermacam-macam item standar antarmuka GUI untuk memfasilitasi secara cepat pengembangan
aplikasi tingkat tinggi
o Snack22
Snack adalah tool pengolahan suara yang didesain sebagai extensi untuk bahasa script Saat ini Snack bekerja
dengan bahasa script TclTk Phyton dan Ruby Snack memiliki perintah-perintah untuk play record process
dan dan memvisualisasi suara Snack menyediakan obyek suara tingkat tinggi dengan manajemen penyimpanan
yang fleksibel dan streaming support Snack dapat bekerja pada banyak format file suara
Kita dapat membangun aplikasi sepaerti di bawah ini dengan integrasi dari TclTk dan Snack
Gambar 32 Program aplikasi pengenalan wicara
Frekuensi sampling pada program di atas diset pada frekuensi 12 kHz Frekuensi ini dipilih karena biasa
digunakan untuk voice Selain itu juga diset pada channel Mono dan sinyal encoding LIN 16 (resolusi 16 bit
PCM) Pada penekanan tombol ldquorecordrdquo diikuti tombol ldquostoprdquo dan kemudian tombol ldquostandartrdquo maka akan
dimulai proses perekaman yanag akan digunakan untuk membuat file standar untuk kedelapan perintah yang
akan digunakan untuk pembanding sinyal masukan
Adapun proses untuk sistem yang akan dibuat dapat digambarkan dengan diagram alir seperti di bawah
Bab 3 Perencanaan dan Implementasi
23
Mulai
Package Require
Snack 22
Exit
Program On
Running
Recording
Sound Card
Produser Running
Prosedur Recording
DTMF
Keluar
Tidak
YaTidak
Ya
Ya
Ya
Ya
Tidak
Tidak
Tidak
Gambar 33 Flowchart Sistem Graphical User
Interface
322 Sampling
Seperti telah dijelaskan di depan bahwa frekuensi sampling yang digunakan adalah sebesar 12000Hz
dimana dalam 1 detik sinyal terdapat 12000 titik sampling Sebagai contoh seperti gambar di bawah ini suatu
sinyal epanjang 20 ms disampling 12000 Hz menghasilkan titik sampling sebanyak 240 titik
Data Sampling
-20000
-15000
-10000
-5000
0
5000
10000
15000
20000
0 200 400 600
Amplitudo
Jumlah Data
Gambar 34 Sinyal hasil sampling dengan
frekuensi 12000 Hz
Bab 3 Perencanaan dan Implementasi
24
Mulai
Sinyal Masukan
Baca Panjang Sinyal
Bagi Menjadi N Frame
i = 0 i lt N i++
Ambil 240 Data Sampel
Tampilkan Nilai
Sampel
Selesai
Gambar 35 Flowchart Proses Sampling
323 Pre-emphasis
Agar spektrum sinyal merata di semua frekuensi dan mencegah kehilangan informasi akibat pembulatan
pada saat komputasi maka dilakukan prose preemphasis Fungsi transfer preemphasis adalah
H(z) = 1 ndash a z-1 09 le a le 1 (31)
Dimana nilai a berkisar 095 Berdasarkan model filter di atas maka keluaran dari preemphasis adalah
s(n) = s(n) ndash a s(n-1) (32)
324 Frame Blocking
Hasil perekaman merupakan sinyal dalam domain waktu yang bersifat variant time (fungsi yang
bergantung pada waktu) Sinyal yang telah dipreemphasis kemudian dibagi menjadi n buah frame Dengan
jumlah sample per frame sebesar N dan adjacent frame sebesar M sample Dimana M=05N Pada frame
pertama terdiri dari N buah sampel Frame kedua dimulai pada sampel ke M sehingga terjadi overlape sebesar
N - M sampel Begitupula untuk frame yang ketiga dimulai dari sample ke 2M sehingga terjadi overlape dari
farme kedua sebesar N + M-2M sampel juga Hal ini akan terus berlangsung hingga seluruh sinyal terbagi
menjadi beberapa frame
Bab 3 Perencanaan dan Implementasi
25
Gambar 36 Frame blocking sinyal
325 Windowing
Windowing yang digunakan adalah window hamming Setelah proses pengambilan sample maka
langkah selanjutnya adalah proses selanjutnya adalah proses windowing yang berfungsi untuk mengurangi efek
diskontinyuitas pada ujung-ujung frame Persamaannya adalah sebagai berikut
y[i] = x[i](054-046cos(20314159265(i-1)240) (33)
Flowchartnya bisa dilihat seperti di bawah
Mulai
240 Data
Sampel
i= 0 i lt 240 i++
Hamming Window
y[i] = x[i](054-046cos(2phi(i-1)
240))
Tampilkan
nilai
Hamming
Selesai
Gambar 37 Flowchart Proses Windowing
326 Fast Fourier Transform
Transformasi fourier cepat (FFT) adalah suatu metode yang sangat efisien untuk menyelesaikan
transformasi fourier diskrit (DFT) yang banyak dipakai untuk keperluan analisa sinyal Sehingga dengan FFT
N N N M
M N
N N
M
Bab 3 Perencanaan dan Implementasi
26
sinyal yang disampling dalam domain waktu ditransformasikan ke domai frekuensi dengan menggunakan
persamaan sebagai berikut
N-1
H(k) = sum h(n)e-j2лkN (34)
n=0
dengan k= 012N-1
Prosesnya dapat dilihat dari flowchart di bawah
Mulai
240 data
sampel
256 data sampel
i=0 ilt256 i++
tmp_log1=(xr[k]xr[k]+xc[k]xc[k])
tmp_log gt 0
xr[k]=10log10(tmp_log1)
Tampilkan
nilai
hamming
Selesai
xr[k]=10log10(0000001)
Ya
Tidak
Gambar 38 Flowchart Proses Fast Fourier
Transform
327 Autocorrelation analysis
Hasil dari windowing sinyal masukan kemudian dihitung autokerelasinya dengan persamaan
N-1-m
r1(m) = sum x1(n)x1(n+m) m=01p (35)
n=0
dimana niali autokorelasi tertinggi p adalah orde dari analisis LPCPada umumnya nilai dari p yang sering
digunakan adalah dari 8 sampai 16
Proses Autokorelasi dapat dilihat dari flowchart di bawah ini
Bab 3 Perencanaan dan Implementasi
27
Mulai
240 data p lpc
orde
i=0 iltp i++
j=0 jlt240-p-1 j++
RI[j]=sum(xI[i]xI[i+j])
Tampilkan nilai
autocorrelation
Selesai
Gambar 39 Flowchart Proses Autokorelasi
328 LPC Analysis
Hasil koefisien autokorelasi kemudian dikonversikan ke sebuah LPC parameter set (untuk metode LPC
autokorelasi) dikenal sebagai Metode Durbin dan secara formal ditunjukkan dari algoritma sebagai berikut
E(0) = r(0) (36)
ki=r(i)-sumαj(i-1) r(|i-j|)E(i-1) 1 le I le p (37)
αi(i) = ki (38 )
αj(i) = αj
(i-1)-ki α(i-1) ( 39)
t-j
E(i)=(1-ki2)E (i-j) (310)
dimana penyajian akhir dari persamaan 37 mengabaikan i=1 Kumpulan dari persamaan 36 -310 diselesaikan
secara rekursif untuk i=12p
Proses analisis dapat dilihat dari flowchart di bawah
Bab 3 Perencanaan dan Implementasi
28
Mulai
Autocorrelationr
p lpc orde
E (0) = r(0)
k1
= r(i)-sumalpha j (i-1) r( | i-j|E(i-1)
alpha j (i) = k
i
alpha j
(i) = alpha (i-1) -k i alpha
i-j (i-1)
E (i) = 1-k i 2) E(i-1)
Tampilkan nilai
parameter lpca
Selesai
i=0 iltp i++
Gambar 310 Flowchart proses LPC analisis
329 LPC Parameter to Cepstrum Analysis
Sekumpulan parameter LPC yang sangat penting yang dapat diturunkan langsung dari kumpulan
koefisien LPC adalah koefisien cepstral LPC c(m) Rekursif yang digunakan adalah
co = ln σ2 ( 311)
m-1
cm = am + sum ck am-k 1 le m le p (312)
k = 1
m-1
cm = sum ck am-k m gt p ( 313)
k = 1
Proses LPC parameter ke Cepstrum Analysis dapat dilihat dari flowchart di bawah ini
k m ( )
k m ( )
Bab 3 Perencanaan dan Implementasi
29
Mulai
lpc parameter a
p lpc orde
c o = ln del 2
1 lt=mlt=p
i=0 iltp i++
Cm
= am
+sum((km)Ck a
m-kC
m =sum((km)C
ka
m-k)
Tampilkan nilai lpc
cepstrumc
Selesai
Gambar 311 Flowchart Proses LPC parameter ke
Cepstrum
3210 Dynamic Time Warping
Proses yang terjadi pada Dynamic Time Warping adalah pengukuran jarak suara antara sinyal standart
dan sinyal input Yang diukur berupa deretan nilai dari hasil LPC Cepstrum dalam bentuk kolom dan baris (ij)
yang disimpan dalam satu file Pada kolom berisi nilai tiap cepstrum sedangkan baris berupa banyaknya frame
Teknik yang digunakan dinamakan Dynamic Programming Alur kerjanya dapat dilihat dari flowchart di bawah
Bab 3 Perencanaan dan Implementasi
30
Mulai
i=0 iltN i++
j=0 jlt15 j++
Cepstrum
Standart
Std_Ceps [i][j]
Cepstrum
Input
Inp_Ceps [i][j]
DP_dist = DP_match1(r)
DP_dist
Selesai
Gambar 312 Flowchart Proses Dynamic Programming
33 Awal dan Akhir Sinyal suara
331 Power
Untuk mendapatkan suatu sinyal suara tanpa adanya noise maka sinyal harus benar-benar dipotong
tepat pada awal dan akhirnya Oleh karena itu dipakai power sebagai salah satu cara yang efektif dalam
menentukan awal dan akhir suatu sinyal suara
Dimana tiap frame mempunyai power yang merupakan hasil kuadratisasi dari penyampelan tiap frame
yang kemudian hasil keseluruhan diakarkan seperti bisa dilihat pada flowchart di bawah
Bab 3 Perencanaan dan Implementasi
31
Mulai
Power = 0
i=0 ilt240 i++
Power=Power+sqrt(xixi)
Selesai
Gambar 313 Flowchart Proses Power
Jumlah sample per frame ditetapkan sebesar 240 sampel Kemudian dicari power masing-masing antara sinyal
utuh dan sinyal noise kemudian dengan p ge p + 07 standar deviasi maka didapatkan awal dan akhir sinyal
suara
332 Unvoiced Plosive
Adanya daerah kosong menyebabkan sinyal tidak valid dalam pemotongan awal dan akhirnya karena
bisa dianggap noise padahal berada dalam sinyal suara ( merupakan bagian dari sinyal suara) Oleh karena itu
dicari mean dari 25 kata sinyal suara yang kemudian dicari nilai thresholdnya sebagai panjang akhir dari daerah
kosong Dan nilai tersebut diikutsertakan dalam looping dan jika setelah itu terdapat sinyal kembali maka
berarti masih ada sinyal suara dan jika tidak ada berarti tidak ada sinyal suara
34 Proses Pada Client
Preses pada client dapat dijelaskan sebagai berikut
Gambar 314 Blok diagram proses client
Penjelasan dari blok digram tersebut adalah
1 Pertama adalah perekaman suara pada software recording yang hasilnyadisimpan dalam bentuk file
berekstensi ldquowavrdquo File ini selanjutnya akan dijadikan file input pada sistem client
2 File suara yang telah tersimpan diolah dalam program sampling untuk mendapatkan sinyal suara dalam
bentuk frame Setiap frame terdiri dari 120 sampel
Mic Extract AD Voice Dikenali
Bab 3 Perencanaan dan Implementasi
32
3 Tiap frame diwindow dengan window Hamming untuk mengurangi efek diskontinyuitas pada ujung-
ujung frame
4 Sinyal hasil window yang masih dalam domain time diubah ke dalam domain frekuensi dengan Fast
Fourier Transform (FFT)
5 Hasil dari windowing sinyal masukan kemudian dihitung autokerelasinya
6 Hasil koefisien autokorelasi kemudian dikonversikan ke sebuah LPC parameter set (untuk metode LPC
autokorelasi) Sekumpulan parameter LPC yang sangat penting yang dapat diturunkan langsung dari
kumpulan koefisien LPC adalah koefisien cepstral LPC
7 Selanjutnya dilakukan proses DTW (Dynamic Time Warping) pengukuran jarak suara antara sinyal
standart dan sinyal input Hasilnya disimpan dalam sebuah file berekstensi ldquotxtrdquo
8 File berekstensi txt tersebut ke server sebagai sinyal suara input
35 Proses Pada Server
Proses pada server dapat dijelaskan sebagai berikut
Gambar 315 Blok diagram proses server
Penjelasan dari blok diagram tersebut adalah
1 Isi file berekstensi rdquotxtrdquo diterima oleh server dan digunakan sebagai data input untuk memanggil
database tone DTMF yang sesuai sebagai pengoperasian alat yang akan dikontrol
2 Alat yang terkontrol akan menunjukkan hasilnya
Memanggil
Database
Tone
Dikode
kan
dalam
biner
Kirim
ke HW
Kontrol
Alat
Input
server
Bab 4 Pengujian dan Analisa
33
BAB 4
PENGUJIAN DAN ANALISA
41 Pendahuluan
Untuk mengetahui tingkat keberhasilan dari suatu sistem diperlukan pengujian keseluruhan dari
perencanaan hasil sistem yang telah dibuat Dalam bab ini akan dijelaskan mengenai hal tersebut
Pengujian yang akan dilakukan adalah
1 Pengujian dan analisa sistem pengolahan sinyal wicara
2 Pengujian dan analisa sistem client server
3 Pengujian dan analisa awal dan akhir sistem pengolahan wicara
42 Pengujian dan Analisa Sistem Pengolahan Wicara
Tujuan untuk mendapatkan parameter ciri individu dari sampel sinyal yang diolah
421 Perekaman Suara
Pada Tugas Akhir ini digunakan duamacam perangkat lunak yang dibangun sendiri berbasis TclTk 830
dan Snack 22 sebagai perangkat lunak yang diuji dan perangkat lunak Wavesurver sebagai pembanding
4211 Dengan menggunakan TclTk dan Snack
Tampilan awal dari perangkat lunak yang dibangun dengan menggunakan TclTk dan Snack adalah sebagai
berikut
Gambar 41 Tampilan awal perangkat lunak menggunakan TclTk dan Snack
Bab 4 Pengujian dan Analisa
34
Pertama kali tombol record ditekan maka proses pengambilan sinyal wicara yang dimasukkan
dimulai Pada saat tombol Stop ditekan maka program akan merekam kata ldquosatu nyalardquordquosatu matirdquordquodua
nyalardquordquodua matirdquordquotiga nyalardquordquotiga matirdquordquoempat nyalardquordquoempat matirdquo sesuai yang kita masukkan dan
tampilan display akan digambarkan bentuk sinyal yang dihasilkan secara otomatis Hasil perekaman dapat
dilihat pada gambar berikut 42
Gambar 42 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan perangkat lunak
TclTk dan Snack
Gambar 42 menunjukkan bahwa proses pengambilan sinyal suara telah dilakukan Sinyal suara yang
dimasukkna akan terlihat gambarnya pada layar hitam (canvas)
4212 Dengan menggunakan Wave Surver
Sebagai pembanding dari program yang telah dibuat yaitu dari perangkat lunak TclTk dan Snack
digunakan Wavesurver
Tampilan awal dari Wavesurver 157 tampak seperti pada gambar 43
Gambar 43 Tampilan awal perangkat lunak menggunakan Wavesurver
Bab 4 Pengujian dan Analisa
35
Pada saat tombol recording ditekan maka program akan merekam kata ldquosatu nyalardquo dan pada tampilan
display akan digambarkan bentuk sinyal yang dihasilkan secara otomatis Hasil perekaman bisa dilihat pada
gambar 44
Gambar 44 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan
perangkat lunak Wavesurver
Perekaman pada Wavesurver dapat diset sesuai dengan kebutuhan Dimana pada sistem pengolahan sinyal
suara untuk perekaman suara diset sebagai berikut
Gambar 45 Kotak dialog setting perekaman perangkat lunak Wavesurver
Pada data di atas dapat dilihat bahwa suara yang direkam dengan mengguanakan perangkat lunak
Wavesurver mempunyai header dan tail yang berisi keterangan perekaman sebagai berikut
12000 menunjukkan frekuensi sampling yang digunakan
Bab 4 Pengujian dan Analisa
36
Channels menunjukkan bahwa suara direkam dengan menggunakan channel Mono
Sampel Encoding Lin 16 menunjukkan bahwa suara direkam dengan menggunakan
16 bit PCM
422 Sampling
Dengan menggunakan program yang dibangun sendiri di atas proses penyamplingan sinyal input sekaligus
telah terjadi dimana dengan frekuensi sampling sebesar 12000 Hz didapatkan sinyal dari kata ldquosatu nyalardquo
dengan potongan sebagai berikut
3306
3538
3788
4076
4282
4684
4747
4956
5083
5442
5844
5901
6244
6196
6462
6104
Berikut ini adalah cuplikan dari data sampel kata ldquo empat matirdquo mulai dari milidetik ke-13900
Bab 4 Pengujian dan Analisa
37
Data Sampling
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 46 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900
Pada gambar 46 telah dilakukan proses sampling sinyal masukan dengan frekuensi sampling sebesar 12000
Hz maka didapatkan hasil sinyal yang hampir mirip dengan sinyal analognya karena sinyal suara manusia
memiliki jarak frekuensi antara 300 sampai 5000 Hz dimana syarat Nyquist minimal fsampling 2fsinyal
telah terpenuhi
423 Windowing
Jenis window yang digunakan adalah window Hamming
Pada proses window hamming kata yang telah disampel sebanyak 240 sampel akan diwindow sehingga
menghasilkan sinyal yang lebih kecil peaknya Hasilnya adalah sebagai berikut
-26174
-22078
-12518
-1444
9690
19308
23360
20049
12365
2391
-7874
-14539
-17837
-19929
-19007
-16955
Bab 4 Pengujian dan Analisa
38
Sedangkan hasil dalam bentuk gambar dapat dilihat pada gambar berikut
Data Windowing
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 47 Hasil Windowing data sampel kata ldquoempat matirdquo milidetik ke-13900
Seperti yang ditunjukkan gambar 47 proses windowing telah dilakukan Berdasarkan gambar 47
tersebut dapat dikatakan bahwa window Hamming menyebabkan sinyal yang disampel lebih halus Gambar
47 dapat dibandingkan dengan gambar 46 yaitu gambar sinyal sebelum melalui proses windowing dapat
dilihat bahwa sinyal yang telah diwindow mempunyai sinyal yang lebih halus Hal ini membuktikan bahwa
fungsi dari windowing untuk mengurangi efek diskontinyuitas pada ujung-ujung frame adalah benar
424 Fast Fourier Transform Sinyal Masukan
Pada proses ini sinyal yang sebelumnya berada dalam domain waktu akan diubah dalam domain
frekuensi Setiap sinyal yang berasal dari alam merupakan sinyal analog yang bila diolah harus diubah
dalam bentuk sinyal digital Dan pengolahan dalam digital merupakan pengolahan dalam bentuk diskrit
Pada proyek akhir ini sinyal dalam domain waktu akan diubah dalam domain frekuensi dengan 256 titik
Karena hasil yang diperoleh berupa hasil dari fungsi konvolusi maka hanya akan diambil 128 titik saja yang
akan diolah dalam proses selanjutnya Sedangkan 128 sisanya tidak dipergunakan karena berupa
pencerminan saja
Hasil dari Fast Fourier Transform (FFT) dari penggalan kata ldquoempat matirdquo pada milidetik ke-13900 dalam
bentuk teks adalah
103505157
106889458
Bab 4 Pengujian dan Analisa
39
104735321
100408661
89175987
95431992
96601654
8489315
89637459
8630304
75320663
87866905
91001945
89607201
82408546
83440155
4241 Dengan Menggunakan TclTk dan Snack
Fast Fourier Transform Sinyal
Masukan
0
20
40
60
80
100
120
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 48 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat
lunak TclTk dan Snack
Dari gambar 48 di atas sinyal suara yang sebelumnya berada di domain waktu telah diubah ke domain
frekuensi Hasil Fast Fourier Transform sinyal masukan menunjukkan sebaran spektrum frekuensi dari
sinyal suara yang telah dihasilkan oleh pengucap antara 0 sampai 6000 Hz
Bab 4 Pengujian dan Analisa
40
4242 Dengan Menggunakan Wavesurver
Gambar 49 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat
Wavesurver
Dari gambar 49 di atas hasil Fast Fourier Transform sinyal masukan menunjukkan sebaran spektrum
frekuensi dari sinyal suara yang telah dihasilkan oleh pengucap antara 0 sampai 6000 Hz adalah sama
seperti pada gambar dengan gambar 48 yang diambil dengan perangkat lunak TclTk dan Snack
425 Autocorrelation Analysis
Pada proses ini sinyal masukan dalam domain waktu yang telah diwindow hamming dihitung korelasinya
dengan menggunakan orde analisi LPC sebesar 15 Sehingga akan didapatkan hasil rk(autokorelasi) sebagai
berikut
17648453
128874
0669745
0662566
0470262
0164336
-010638
-0229032
-016249
0014062
0138456
0188749
0117826
0014517
-0052704
426 LPC Analysis
Dari hasil autokorelasi tersebut di atas selanjutnya adalah LPC dimana mengkonversi masing-masing
frame dari autokorelasi p+1 ke dalam sebuah LPC Parameter a
Bab 4 Pengujian dan Analisa
41
Metode yang formal untuk mengkonversi dari koefisien autokorelasi ke sebuah LPC parameter (untuk
metode LPC autokorelasi) dikenal sebagai Metode Durbin dan secara formal hasilnya dapat ditunjukkan
sebagai berikut ini
1
-128874
0160681
-0156173
0166653
0255508
0192145
0003037
-0202248
-0265201
-0112133
005938
0232232
0203554
0048429
Dari hasil di atas terlihat bahwa untuk setiap frame nilai pertama menunjuukan energi dari masing-masing
frame dan selanjutnya adalah parameter LPC dalam satu frame yang digunakan sebagai penentu ciri dari
sinyal suara yang dihasilkan oleh individu
427 Fast Fourier Transform LPC Parameter
Pada proses ini nilai dari parameter LPC yang sebelumnya masih berada dalam domain waktu akan diubah
dalam domain frekuensi Pada proyek akhir ini parameter LPC dalam domain waktu akan diubah dalam
domain frekuensi dengan 256 titik Karena hasil yang diperolah berupa hasil dari fungsi konvolusi maka
hanya akan diambil 128 titik saja yang akan diolah dalam proses selanjutnya Sedangkan 128 sisanya tidak
dipergunakan karena berupa pencerminan saja
Hasil dari Fast Fourier Transform (FFT) dari parameter LPC pada penggalan kata ldquoempat matirdquo pada
milidetik ke-1 dalam bentuk teks adalah
103505157
106889458
104735321
100408661
89175987
Bab 4 Pengujian dan Analisa
42
95431992
96601654
8489315
89637459
8630304
75320663
87866905
91001945
89607201
82408546
4271 Dengan menggunakan TclTk dan Snack
Fast Fourier Transform Parameter
LPC
0
20
40
60
80
100
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 410 Fast Fourier Transform LPC dengan
menggunakan perangkat lunak TCLTk
dan Snack
Hasil gambar 410 menunjukkan bahwa parameter LPC yang di-Fourier Transform-kan akan menjadi
selubung spektrum dari spektrum sinyal masukan Sehingga jika selubung dan spektrumnya secara gambar
cocok dapat dikatakan bahwa LPC parameter yang dihitung benar
Bab 4 Pengujian dan Analisa
43
4272 Dengan menggunakan Wavesurver
Gambar 411 Fast Fourier Transform LPC denganmenggunakan perangkat lunak
Wavesurver
Hasil gambar 411 menunjukkan bahwa parameter LPC yang di-Fourier Transform-kan akan menjadi
selubung spektrum dari spektrum sinyal masukan adalah sama dengan yang telah diperoleh dengan
perangkat lunak TclTk seperti pada gambar 410
428 LPC Parameter to LPC Cepstrum
Koefisien LPC cepstrum koefisien yang direpresentasikan dengan Fourier Transform dengan spektrum
besaran log telah ditampilkan menjadi kumpulan fitur untuk pengenalan wicara yang lebih handal
terpercaya daripada koefisien LPC koefisien PARCOR atau koefisien log area ratio
Hasil dari LPC cepstrum pada penggalan kata ldquoempat matirdquo pada milidetik ke-106 dalam bentuk teks adalah
16636311
1387922
0474473
0654796
0429659
0132543
0225374
0126501
0021161
0242437
Bab 4 Pengujian dan Analisa
44
0160623
0065745
0139379
0056064
-0029262
Dari hasil di atas dapat dianalisa bahwa besaran-besaran dari LPC cepstrum benar-benar dapat
digunakan sebagai penentu ciri dari sinyal suara individu karena besaranndashbesaran yang dihasilkan oleh LPC
cepstrum dari yang pertama sampai yang terakhir dalam satu frame sangat bervariasi nilainya
429 Inverse Fast Fourier Transform LPC Cepstrum
Untuk menggambarkan ciri atau fitur wicara dalam domain waktu maka LPC cepstrum di-Invers Fast
Fourier Transform-kan sehingga didapatkan gambar untuk penggalan kata ldquosatu nyalardquo pada milidetik ke-
400 seperti gamabar 412
Fast Fourier Transform LPC
Cepstrum
0
20
40
60
80
100
120
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 412 Invers Fast Fourier Transform LPC cepstrum dengan menggunakan
perangkat lunak TCLTk dan Snack
Dari gambar 412 dapat dianalisa bahwa bentuk dari invers fourier transform LPC cepstrum yang
menyerupai selubung pada domain waktu dari spektrum frekuensi juga digunakan untuk menunjukkan
bahwa perhitungan LPC cepstrumnya telah benar dan dapat digunakan sebagai penentu ciri sinyal suara
individu
Invers Fast Fourier Transform LPC
Cepstrum
Bab 4 Pengujian dan Analisa
45
Gambar 413 Penggabungan spektrum sinyal spektrum LPC dan spektrum LPC
Cepstrum
Gambar 413 spektrum sinyal yang diwakili warna merah merupakan hasil sinyal yang telah di-Fast
Fourier Transform-kan Spektrum sinyal yang berwarna hijau merupakan parameter LPC yang telah di-
Fourier Transform-kan Sinyal ini akan menjadi selubung spektrum dari spektrum sinyal masukan Bila
selubung dan spektrumnya secara gambar cocok maka dapat dikatakan bahwa LPC parameter yang dihitung
adalah benar Dari gambar 413 dapat dilihat antara selubunga dan selubung sinyal masukan sudah cocok
Sinyal yang berwarna biru merupakan sinyal rata-rata dari sinyal selubung spektrum
4210 Dynamic Time Warping
Pengujian terakhir dari proses pengolahan sinyal wicara adalah membandingkan sinyal hasil cepstrum LPC
antara data input dan data standarnya Berdasarkan daerah pembatas kontinyuitas lokal dari persamaan 21
maka digunakan model yang pertama dan menggunakan persamaan 2116 dalam menghitung jarak antara
kata sebagai standar dan sebagai masukan
Selanjutnya menetukan data data sebagai data standar dan data sebagai data masukan Pada sistem ini
digunakan 8 kombinasi kata sebagai kata standar dan kata msukan untuk masing-masing pengujian dengan
kata standar sebanyak sepuluh (10) kali Adapun kata yang digunakan sebagai standar dan kata yang diuji
adalah meliputi satu nyalasatu matidua nyaladua matitiga nyalatiga matiempat nyalaempat
mati
Pada pengujian sistem kali ini masih menggunakan datasuara dari pebgucap yang sama Dari kelima data
standar yang ada dilakukan pembandingan dengan masing-masing 10 (sepuluh) kali pemasukan data Data
yang menghasilkan jarak euclidian terpendek dari masing-masing kata itulah yang akan diambil sebagai
data perintah terbaik
Bab 4 Pengujian dan Analisa
46
Pelekukan Jalur Suara
0
50
100
150
0 50 100 150
Sinyal Input empat mati
Sinyal Standart
empat mati
Gambar 414 Pelekukan Jalur Suara dengan Dynamic Time Warping
Dari gambar 414 dapat dianalisa bahwa dengan menggunakan dynamic time warping dua buah sinyal suara
akan dibandingkan vektor-vektor spektralnya dimana juga terdapat proses pembandingan panjang sinyal
antara dua buah sinyal tersebut sehingga terjadi proses pemadanan panjang sinyal dengan cara
memperpanjang dan menekuk vektor spektralnya Memperpanjang dalam arti memperpanjang sinyal yang
lebih pendek dengan memperhatikan perbandingan vektor spektralnya dan demikian pula menekuk dalam
arti menekuk sinyal yang lebih panjang dengan memperhatikan vektor spektralnya Dengan panjang yang
sama sebagai hasil dynamic time warping maka jarak euclidian antara dua sinyal dapat diperbandingkan
atau dihitung
4211 Min Value dan Sorting
Min Value dan Sorting menjadi satu paket sendiri yang digunakan untuk mencari kemungkinan hasil
terkecil dari pembandingan pola kata masukkan dengan kedelapan kata standart Keluaran dari fungsi
dynamic time warping akan memberikan delapan buah data yaitu hasil pembandingan kata masukan
dengan kata standart satu nyala hasil pembandingan kata masukan dengan kata standart satu mati hasil
pembandingan kata masukan dengan kata standart dua nyala hasil pembandingan kata masukan dengan
kata standart dua mati hasil pembandingan kata masukan dengan kata standart tiga nyala hasil
pembandingan kata masukan dengan kata standart tiga mati hasil pembandingan kata masukan dengan
kata standart empat nyala hasil pembandingan kata masukan dengan kata standart empat mati Dengan
metode sorting buble sort maka akan didapat nilai minimalnya
0748745
0362272
0633390
0327642
0600250
0346530
Bab 4 Pengujian dan Analisa
47
0545907
0207464
Berdasarkan data diatas maka perintah input sama dengan perintah kedelapan (ldquoempat matirdquo) karena
memiliki hasil time warping terkecil yaitu 0207464
4212 Hasil Pengujian Awal dan Akhir Sinyal
Pada proses penentuan awal dan akhir agar lebih presisi menggunakan ldquoPowerrdquo Adapun kelebihan dari
power adalah dapat membedakan antara sinyal suara dengan sinyal noise
Untuk menentukan awal dan akhir dicari nilai power Pada proses power kata yang telah disampel
sebanyak 240 sampel akan menghasilkan sinyal yang halus dan terletak di atas sumbu x Hasil dalam bentuk
teks adalah sebagai berikut ini
7678195313
1165659297
123492625
8917128906
6318766797
4531086719
4338374609
4912630469
5382503125
4548908984
429756875
4739710547
4575902734
4682924609
4786217578
Bab 4 Pengujian dan Analisa
48
Gambar hasil power bisa dilihat pada gambar 415 berikut
Power
0
100000
200000
300000
400000
500000
0 50 100 150
Jumlah Frame
Amplitude
Gambar 415 Sinyal ldquoempat matirdquo hasil program power
Gambar 416 berikut ini adalah hasil pengujian kata ldquoempat matirdquo sebagai masukan dan kata standar ldquoempat
matirdquo dimana kedua kata dibandingkan berdasarkan powernya sebelum proses Dinamic Time Warping
Sinyal warna biru sebagai power sinyal standart dan sinyal yang berwarna merah merupakan power sinyal
input
Perbandingan Dua Kata empat mati
sebelum DTW
0
100000
200000
300000
400000
500000
0 50 100 150
Jumlah Frame
Amplitude
Gambar 416 Perbandingan power dua kata ldquoempat matirdquo sebelum Dynamic Time Warping
Berikut ini adalah hasil pengujian dua buah kata ldquoempat matirdquo dengan menggunakan dynamic time warping
dimana jalur pelekukan suara dapat digambarkan pada gambar 417
Bab 4 Pengujian dan Analisa
49
Pelekukan Jalur Suara
0
50
100
150
0 50 100 150
Sinyal Input empat mati
Sinyal Standart
empat mati
Gambar 417 Pelekukan jalur suara dua kata ldquoempat matirdquo dengan DTW
Gambar 418 adalah hasil pengujian dua buah kata ldquoempat matirdquo sebagai masukan dan dan kata standar
ldquoempat matirdquo dimana kedua kata dibandingkan berdasarkan powernya setelah proses dynamic time
warping
Gambar 418 dapat dibandingkan dengan gambar 416 yaitu sinyal sebelum proses Dynamic Time Warping
Sebelum proses Dynamic Time Warping sinyal tidak mengalami proses penekukan dan penarikan data
berdasarkan waktu antara keduanya sehingga antara sinyal input dan sinyal standart memiliki ukuran
panjang yang sangat jauh berbeda
Pemadanan Dua Kata Setelah DTW
0
100000
200000
300000
400000
500000
0 100 200 300
Jumlah Frame
Amplitude Power
Gambar 418 Perbandingan power dua kata ldquoempat matirdquo setelah Dynamic Time Warping
Dari gambar 418 dapat dinyatakan bahwa setelah melalui proses dynamic time warping terjadi penekukan
dan penarikan data berdasarkan waktu antara keduanya sehingga pada akhirnya kedua sinyal memiliki
ukuran panjang yang sama Sehingga dengan demikian dapat dicari jarak euclidian untuk menentukan
sebuah kata yang sesuai dengan kata yang lainnya
Bab 4 Pengujian dan Analisa
50
4213 Hasil Pengujian Sistem Perangkat Lunak
Pada pengujian sistem perangkat lunak diambil sampel data dari 3 orang dimana terdiri dari 3 orang pria
dan 1 orang wanita Pria pertama merupakan standar sekaligus pengisi suara untuk perintah Sedangkan pria
kedua dan wanita sebagai pembanding untuk mengetahui unjuk kerja sistem
Tabel 41 Hasil pengujian sistem pengolahan sinyal wicara untuk pengucap yang sama (pria
1)
8 7 6 5 4 3 2 1 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05417
03487
05964
03443
07272
04424
03449
01
961
Satu
nyala
Sinyal Standart
02496
04723
03013
05120
03450
03815
01
739
03471
Satu
mati
04389
02035
06139
03244
04343
02
158
04567
04047
Dua
nyala
01866
04517
04157
05267
01
940
02561
02036
04779
Dua
mati
04833
02168
03984
01
090
06409
04278
05019
02690
Tiga
nyala
02683
04628
01
188
03416
04046
03345
02959
04614
Tiga
mati
03807
01
046
05271
01974
05934
03134
04363
02554
Empat
nyala
01
388
03728
02269
04497
02559
03195
02476
04874
Empat
mati
Bab 4 Pengujian dan Analisa
51
16
15
14
13
12
11
10
9 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05776
02988
05100
04019
06101
05338
04219
02
047
Satu
nyala
Sinyal Standart
03382
04381
02427
05124
02642
05990
02
706
03335
Satu
mati
04453
02558
04993
04574
03381
02
344
04529
04121
Dua
nyala
01669
04532
03190
06355
01
004
04807
03466
04622
Dua
mati
05209
02261
03366
01
124
05377
04165
05369
02660
Tiga
nyala
03721
04074
00
891
03002
02637
05958
02719
04333
Tiga
mati
03889
01
755
04365
02341
04826
03150
05193
02472
Empat
nyala
01
092
03974
01802
04848
01455
05343
02717
04536
Empat
mati
Bab 4 Pengujian dan Analisa
52
24
23
22
21
20
19
18
17 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05157
04015
06277
02964
05609
04690
03376
01
369
Satu
nyala
Sinyal Standart
01787
05144
03814
04134
04952
04843
01
636
03404
Satu
mati
03988
03026
07420
03020
03977
01
905
04801
03610
Dua
nyala
01630
05662
06259
05009
01
808
03357
02206
05094
Dua
mati
04667
02681
05731
01
448
05575
03280
05344
03417
Tiga
nyala
01902
05055
03
395
02597
04700
04618
02951
04808
Tiga
mati
03809
01
863
06920
02154
04252
02455
04616
03184
Empat
nyala
00
761
04379
04288
04053
03629
04122
02419
05622
Empat
mati
Bab 4 Pengujian dan Analisa
53
32
31
30
29
28
27
26
25 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
04793
03554
06312
03247
06514
03585
03068
02
935
Satu
nyala
Sinyal Standart
01671
04661
03012
03961
02834
04667
01
079
05475
Satu
mati
04033
02359
05307
02587
03475
01
587
04781
04010
Dua
nyala
02222
04949
03652
04387
00
958
03222
02647
04966
Dua
mati
04499
02207
04170
01
873
05884
02500
05631
03257
Tiga
nyala
01791
04432
01
196
02646
02999
04619
02558
05048
Tiga
mati
03561
01
050
05061
02437
04927
01887
05325
03424
Empat
nyala
00
858
03774
02052
03974
01440
04186
02597
05381
Empat
mati
Bab 4 Pengujian dan Analisa
54
40
39
38
37
36
35
34
33 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
06471
03838
05816
03364
06492
03613
03496
01
111
Satu
nyala
Sinyal Standart
02951
05556
02631
04558
05057
04799
01
683
02958
Satu
mati
05259
02977
05228
03305
04614
00
878
05159
02707
Dua
nyala
03165
05686
03078
05512
01
088
03082
03482
04823
Dua
mati
05397
02037
03714
00
949
06365
02818
05998
02829
Tiga
nyala
02990
04867
00
921
02759
04978
04752
03131
04533
Tiga
mati
05028
01
233
05114
02070
05154
01825
05439
01975
Empat
nyala
01
914
04521
01834
04248
02711
04164
03149
04755
Empat
mati
Bab 4 Pengujian dan Analisa
55
48
47
46
45
44
43
42
41 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
07997
03701
06005
03992
05800
05223
03706
01
198
Satu
nyala
Sinyal Standart
03909
04978
02572
05339
05784
05103
01
161
03113
Satu
mati
06284
02355
05419
04194
03709
02
588
04764
02834
Dua
nyala
03737
04883
03321
06131
03
489
04229
03188
04962
Dua
mati
05885
02259
04026
00
918
06123
03601
05739
0 2867
Tiga
nyala
03583
04464
00
974
03340
05828
05114
02720
04269
Tiga
mati
05762
01
230
7
05459
02231
04899
03397
05114
0 2395
Empat
nyala
02
247
02888
01948
04994
04987
04505
02141
0 4956
Empat
mati
Bab 4 Pengujian dan Analisa
56
56
55
54
53
52
51
50
49 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05627
03923
06226
04018
05254
04895
02933
02
009
Satu
nyala
Sinyal Standart
02473
04947
02892
05661
05301
05040
01
289
03008
Satu
mati
04393
02779
06046
04425
02900
01
743
04571
02669
Dua
nyala
02222
05352
04171
06748
01
202
03736
03177
03699
Dua
mati
04644
02488
03523
00
835
05391
03319
05277
03671
Tiga
nyala
02213
04345
01
009
03758
02869
05933
02761
03900
Tiga
mati
04093
01
443
05080
05083
04959
02819
04840
02709
Empat
nyala
01
239
04029
0 2223
05428
01263
04236
02575
04141
Empat
mati
Bab 4 Pengujian dan Analisa
57
64
63
62
61
60
59
58
57 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
07489
03792
05134
04199
06459
04019
03044
01
850
Satu
nyala
Sinyal Standart
03586
04783
02186
05509
02884
04251
01
198
03243
Satu
mati
05697
02612
04576
04268
03211
01
519
04639
03845
Dua
nyala
03563
05288
02855
06752
01
074
03523
03265
04523
Dua
mati
05768
02262
03884
01
048
06348
02633
05784
02683
Tiga
nyala
03449
04859
01
009
03177
03425
04355
02975
04077
Tiga
mati
05693
01
445
04574
02498
05298
01999
05622
02359
Empat
nyala
02
236
04215
01468
05161
01827
03851
03161
04416
Empat
mati
Bab 4 Pengujian dan Analisa
58
72
71
70
69
68
67
66
65 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05439
02975
05593
03689
05796
03415
03416
01
492
Satu
nyala
Sinyal Standart
02225
04543
04586
04584
02669
04529
01
112
02881
Satu
mati
04025
02639
06303
03009
02582
01
003
05045
02767
Dua
nyala
01734
05437
04847
04897
00
826
02892
02584
04797
Dua
mati
04671
02336
04988
01
206
05595
02572
05647
02991
Tiga
nyala
02095
04805
04
025
02747
02848
04359
02773
04076
Tiga
mati
03971
01
297
05065
02121
04489
01703
05074
02131
Empat
nyala
00
901
04123
04026
04154
01514
03762
02328
04561
Empat
mati
Bab 4 Pengujian dan Analisa
59
80
79
78
77
76
75
74
73 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
07997
03054
06228
04446
05805
04687
03173
03
391
Satu
nyala
Sinyal Standart
05051
04619
05619
05749
02631
04447
01
086
05310
Satu
mati
05949
03685
05899
05607
03163
01
874
05234
03797
Dua
nyala
03109
05053
05258
07102
01
095
03368
03585
04539
Dua
mati
06473
02004
04524
01
350
05525
03084
05608
03682
Tiga
nyala
04759
04205
04
309
03701
03031
04660
02678
05243
Tiga
mati
05572
02
003
05167
02702
04478
02552
05358
03563
Empat
nyala
02
459
04960
04964
05734
01641
03971
02630
05029
Empat
mati
Pengujian pertama ini dilakukan dengan cara memasukkan suara pria pertama (yang digunakan sebagai
pengisi suara standart) Setiap satu perintah dilakukan sebanyak 10 kali pengujian Hasil pengujian
merupakan nilai dari hasil proses Dynamic Time Warping yang merupakan nilai dari pemadanan sinyal
input dengan kedelapan sinyal standart Nilai terkecil (nilai yang tercetak tebal) yang didapatkan merupakan
hasil yang paling mendekati sinyal standart Yang berarti sinyal masukan tersebut dianggap paling sesuai
dengan sinyal standart
Prosentase keberhasilan pengucapspeaker pertama untuk kedelapan perintah sebesar 100 semuanya
menunjukkan kepada sinyal masukkan dan sinyal standart yang sama
Hasil pengujian menunjukkan bahwa ciri sinyal suara yang dihasilkan oleh pengucap speaker pertama dan
sebagai pemberi standart adalah sama
Bab 4 Pengujian dan Analisa
60
Tabel 42 Hasil pengujian sistem pengolahan sinyal wicara untuk pengucap yang lain (pria
2)
8 7 6 5 4 3 2 1 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
06023
05121
07146
04599
04996
04561
07575
04
358
Satu
nyala
Sinyal Standart
04018
05701
06369
06256
03518
05738
07004
08129
Satu
mati
07120
03925
07395
04897
05938
02246
10082
06777
Dua
nyala
04963
05958
05189
07345
03449
04854
08816
08543
Dua
mati
05919
04337
05163
02
130
04797
03463
08871
05289
Tiga
nyala
03709
04519
04380
03601
03491
05239
06
046
07381
Tiga
mati
06087
03
161
06178
03280
05
068
02
439
08853
05354
Empat
nyala
03
409
04321
04
208
05569
03219
04898
06863
08596
Empat
mati
Bab 4 Pengujian dan Analisa
61
16
15
14
13
12
11
10
9 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05475
03932
05521
04
383
05634
05416
04
464
03
434
Satu
nyala
Sinyal Standart
04076
05731
04541
05681
03574
04920
03971
06662
Satu
mati
07427
04886
07924
05962
05824
02
712
07837
05504
Dua
nyala
04475
06666
05765
07616
03414
04203
05431
06334
Dua
mati
05357
03797
05099
04509
04902
04332
07097
05220
Tiga
nyala
04197
05134
04
209
05088
03169
04547
04464
06516
Tiga
mati
05936
03
769
05910
05109
05
311
03435
07646
04977
Empat
nyala
03
576
05767
04591
06367
03010
04129
04944
06850
Empat
mati
Bab 4 Pengujian dan Analisa
62
24
23
22
21
20
19
18
17 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
06927
04
279
08096
04
448
06461
05522
03935
02
444
Satu
nyala
Sinyal Standart
06409
05322
05528
05481
04912
04491
02
011
05508
Satu
mati
06134
04643
08962
06002
04868
02
579
06122
05502
Dua
nyala
04753
06443
05501
07364
02
298
03206
04239
06684
Dua
mati
05709
04928
05456
04961
06142
05726
06454
03831
Tiga
nyala
05798
04882
03
235
04708
04838
04317
03526
05462
Tiga
mati
05021
04423
06842
05583
05222
04132
06363
04235
Empat
nyala
04
457
05427
03546
05773
02946
03573
03618
07019
Empat
mati
Bab 4 Pengujian dan Analisa
63
32
31
30
29
28
27
26
25 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05260
04224
07393
04661
06292
04993
03989
03
549
Satu
nyala
Sinyal Standart
04478
04669
04568
05977
03523
04046
03
438
04819
Satu
mati
06448
04308
08152
06114
04665
02
444
07609
05162
Dua
nyala
04024
05867
05103
07873
01
872
02613
04489
06765
Dua
mati
05363
04
672
05250
04
529
05210
05103
06546
04794
Tiga
nyala
04422
04039
02
482
05102
03499
03985
03969
04371
Tiga
mati
05492
04073
06626
05239
04902
03553
06869
04794
Empat
nyala
03
326
04543
03153
06510
02133
03419
04175
05287
Empat
mati
Hasil pengujian yang kedua ini dilakukan dengan cara memasukkan suara dari pria kedua (pria lain yang
tidak digunakan sebagai suara standart) Setiap satu perintah dilakukan empat (4) kali proses pengujian
Hasil pengujian merupakan nilai dari hasil proses Dynamic Time Warping yang merupakan nilai dari
pemadanan sinyal input dengan kedelapan sinyal standart Nilai terkecil (nilai yang tercetak tebal) yang
didapatkan merupakan hasil yang paling mendekati sinyal standart Yang berarti sinyal masukan tersebut
dianggap paling sesuai dengan sinyal standart
Prosentase keberhasilan pengucapspeaker kedua untuk kedelapan perintah bervariasi sebesar 50
sampai dengan 100 semuanya menunjukkan kepada sinyal masukkan dan sinyal standart yang berbeda
Hasil pengujian menunjukkan bahwa ciri sinyal suara yang dihasilkan oleh pengucap speaker kedua dan
sebagai pemberi standart adalah mendekati sama
Bab 4 Pengujian dan Analisa
64
Tabel 43 Hasil pengujian sistem pengolahan sinyal wicara untuk pengucap yang sama (pria)
No Perintah Lampu DTMF
1 1 nyala B B
2 1 mati B G
3 2 nyala B G
4 2 mati G X
5 3 nyala G X
6 3 mati G X
7 4 nyala B B
8 4 mati B B
9 1 nyala B G
10 1 mati B B
11 2 nyala B G
12 2 mati B B
13 3 nyala B G
14 3 mati B B
15 4 nyala B G
16 4 mati B B
17 1 nyala B G
18 1 mati B B
19 2 nyala G X
20 2 mati G X
21 3 nyala B B
22 3 mati B B
23 4 nyala B B
24 4 mati G X
No Perintah Lampu DTMF
25 1 nyala B G
26 1 mati G X
27 2 nyala G X
28 2 mati B G
29 3 nyala B G
30 3 mati B G
31 4 nyala B G
32 4 mati G X
B Berhasil
G Gagal
X Donrsquot Care (Diabaikan)
Pengujian yang ketiga ini dilakukan oleh pria pertama (pria yang suaranya digunakan sebagai standart)
Masing-masing perintah dilakukan sebanyak empat kali pengujian
Bab 4 Pengujian dan Analisa
65
Pada kolom ketiga (kolom lampu) tanda B (berhasil) menunjukkan bahwa perintah yang diberikan pada
hardware berhasil dilakukan Tanda G (gagal) menunjukkan bahwa perintah yang diberikan pada hardware
gagal dilakukan(hasil tidak sesuai dengan perintah yang diberikan)
Pada kolom keempat (kolom DTMF) menunjukkan laporan dari hardware ke PC server tentang
bagaimana keadaan lampu yang sedang dikontrol apakah dalam keadaan menyala atau mati Pada kolom ini
tanda B (berhasil) menunjukkan bahwa laporan dari hardware ke PC server (yang merupakan proses
otomatisasi) berhasil dilakukan Tanda G (gagal) menunjukkan bahwa laporan ke PC client gagal dilakukan
Sedangkan tanda X (donrsquot care) menunjukkan bahwa perintah diabaikan Hal ini disebabkan perintah pada
hardware (perintah sebelumnya sebelum proses otomatisasi) sudah gagal dilakukan
Prosentase keberhasilan pengucapspeaker pertama untuk kedelapan perintah bervariasi antara 50
sampai 100 semuanya menunjukkan kepada sinyal masukkan dan sinyal standart yang berbeda
Hasil pengujian kedua ini menunjukkan bahwa ciri sinyal suara yang dihasilkan oleh pengucapspeaker
kedua ini yang merupakan suara orang lain (bukan pemberi standart) adalah mendekati sama dengan hasil
yang bervariasi antara 50 sampai 100
43 Pengujian Sistem Client Server
Pada sub bab ini akan diujikan program Client Server yang akan mengirimkan sinyal hasil pengolahan
suara
Tampilan pada client adalah seperti gambar 421 yang merupakan tampilan awal pada saat program
dimulai
Gambar 421 Proses pada client
Bab 4 Pengujian dan Analisa
66
Gambar 422 Proses pada server
1 Sebelumnya program server harus disiapkan lebih dulu
2 Setelah itu client dijalankan
3 Setelah client siap user memasukkan suara yang selanjutnya akan diolah sampai proses DTW
4 Server menerima data yang selanjutnya digunakan untuk melakukan kontrol alat rumah tangga
44 Analisa Pengujian Sistem Secara Keseluruhan
Berdasarkan data-data yang telah didapatkan di atas maka dapat ditarik suatu analisa bahwa
Berdasarkan tabel 44 untuk pengujian pertama pria 1 adalah pria yang suaranya digunakan sebagai standart
Prosentase keberhasilan rata-rata yang didapat untuk semua perintah adalah sebesar 100 Hal ini menunjukkan
bahwa suara yang diujikan adalah suara yang sama dengan standart dan pria 1 tersebut pernah berinteraksi
dengan sistem
Pengujian yang kedua adalah pengujian yang dilakukan oleh pria 2 (pria lain yang suaranya tidak
dipakai sebagai standart) Prosentase keberhasilan rata-rata yang didapat untuk semua perintah 7188 Karena
sistem bersifat dependent speaker dimana sistem hanya digunakan oleh orang tertentu dalam arti yang pernah
berinteraksi langsung dengan sistem Oleh karenanya didapat nilai prosentase keberhasilan yang bervariasi
Bab 4 Pengujian dan Analisa
67
Tabel 44 Tingkat keberhasilan sistem perangkat lunak
NNO
PENGUCAP
PERINTAH
BANYAK
PERCOBAAN
PROSENTASE
KEBERHASILAN
1 Pria 1 1 nyala 8 kali 100
2 1 mati 8 kali 100
3 2 nyala 8 kali 100
4 2 mati 8 kali 100
5 3 nyala 8 kali 100
6 3 mati 8 kali 100
7 4 nyala 8 kali 100
8 4 mati 8 kali 100
RATA-RATA 100
9 Pria 2 1 nyala 4 kali 100
10 1 mati 4 kali 75
11 2 nyala 4 kali 75
12 2 mati 4 kali 50
13 3 nyala 4 kali 50
14 3 mati 4 kali 75
15 4 nyala 4 kali 50
16 4 mati 4 kali 100
RATA-RATA 7188
Jika diurutkan proses pengolahan wicara dari awal sampai diambil keputusan suara yang dimasukkan
tersebut adalah suara yang sesuai atau tidak adalah sebagai berikut
Bab 4 Pengujian dan Analisa
68
Gambar 423 Tampilan awal perangkat lunak menggunakan TclTk dan Snack
Gambar 423 adalah tampilan awal dari perangkat lunak yang dibangun dengan menggunakan TclTk dan
Snack
Gambar 424 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan dengan
menggunakan perangkat lunak Wavesurver
Gambar 424 adalah tampilan awal dari program Wavesurver yang merupakan pembanding dari program
yang dibuat dari perangkat lunak TclTk dan Snack
Bab 4 Pengujian dan Analisa
69
Gambar 425 Tampilan awal perangkat lunak
menggunakan TclTk dan Snack
Gambar 425 adalah tampilan ketika proses pengambilan sinyal suara sedang dilakukan dengan perangkat
lunak TclTk dan Snack
Gambar 426 Tampilan hasil perekaman kata ldquoempat
matirdquo dengan menggunakan perangkat lunak Wavesurver
Gambar 426 adalah tampilan ketika proses pengambilan sinyal suara sedang dilakukan dengan perangkat
lunak Wavesurver
Bab 4 Pengujian dan Analisa
70
Data Sampling
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 427 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900 menggunakan TclTk dan
Snack
Pada gambar 427 dilakukan proses sampling sinyal masukan dengan frekuensi sampling sebesar 12000
Hz maka didapatkan hasil sinyal yang hampir mirip dengan sinyal analognya yang dilakukan dengan
perangkat lunak TclTk dan Snack
Gambar 428 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900 dengan menggunakan
perangkat Wavesurver
Pada gambar 428 dilakukan proses sampling sinyal masukan dengan frekuensi sampling sebesar 12000
Hz yang dilakukan dengan perangkat lunak Wavesurver
Data Windowing
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 429 Hasil Windowing data sampel
kata ldquoempat matirdquo milidetik ke-13900 menggunakan TclTk dan Snack
Bab 4 Pengujian dan Analisa
71
Proses windowing terdapat pada gambar 429 dilakukan untuk membuat sinyal yang disampel lebih
halus Proses windowing ini dilakukan dengan menggunakan perangkat lunak TclTk dan Snack
Proses windowing pada Wavesurver merupakan fasilitas yang tergabung dengan proses lainnya Misal
dengan proses Fast Fourier Transform Jadi disini tidak ditampilkan hanya sebagai proses windowing saja
tetapi digabungkan dengan proses lain
Fast Fourier Transform Sinyal
Masukan
0
20
40
60
80
100
120
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 430 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat
lunak TclTk dan Snack
Gambar 430 di atas adalah proses Fast Fourier sinyal masukan dengan perangkat lunak TclTk dan Snack
Hasil Fast Fourier Transform sinyal masukan menunjukkan sebaran spektrum frekuensi dari sinyal suara
yang telah dihasilkan oleh pengucap
Sebagai pembanding adalah proses Fast Fourier sinyal masukan yang diambil dengan Wavesurver seperti
pada gambar 431 Yang didapatkan hasil yang sama
Gambar 431 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat Wavesurver
Bab 4 Pengujian dan Analisa
72
Fast Fourier Transform Parameter
LPC
0
20
40
60
80
100
0 2000 4000 6000 8000
Frekuensi (Hz)10 x log
10(magnitude)(dB)
Gambar 432 Fast Fourier Transform LPC dengan menggunakan perangkat lunak TCLTk
dan Snack
Hasil gambar 432 menunjukkan proses Fast Fourier Transform LPC yang dilakukan dengan perangkat
lunak TclTk dan Snack
Gambar 433 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat Wavesurver
Proses Fast Fourier Transform yang dilakukan dengan Wavesurver dapat dilihat pada gambar 433
Pelekukan Jalur Suara
0
50
100
150
0 50 100 150
Sinyal Input empat mati
Sinyal Standart
empat mati
Gambar 434 Pelekukan Jalur Suara dengan Dynamic Time Warping
Bab 4 Pengujian dan Analisa
73
Dari gambar 434 dapat dianalisa bahwa dengan menggunakan dynamic time warping terdapat proses
pembandingan panjang sinyal antara dua buah sinyal input dan sinyal standart sehingga terjadi proses
pemadanan panjang sinyal dengan cara memperpanjang dan menekuk vektor spektralnya
74
BAB 5
PENUTUP
51 Kesimpulan
Dari hasil yang didapatkan maka dapat diambil kesimpulan bahwa
Sistem pengucap tak bebas atau speaker dependent system memiliki tingkat akurasi yang tinggi untuk
pengucap masukan dan pengucap standar yang sama Hal ini dibuktikan dengan hasil pengujian pertama
yang dilakukan oleh pria pertama Pria pertama ini adalah pria yang suaranya digunakan sebagai standar
Nilai prosentase keberhasilan rata-rata untuk semua perintah adalah sebesar 100 dari setiap perintah
dilakukan 8 kali percobaan
Sedangkan pengujian yang dilakukan oleh suara lain (bukan standart) prosentatase keberhasilan
rata-rata yang diperoleh untuk semua perintah 7188 dari setiap perintah dilakukan 4 kali percobaan Hal
ini disebabkan karena suara pria kedua tidak pernah berinteraksi dengan sistem
Keberhasilan sistem ditunjukkan oleh ketepatan penyalaan lampu sesuai dengan yang diperintahkan
melalui perintah suara
Kecepatan sistem secara keseluruhan diperlihatkan dalam tabel 51 dibawah
Tabel 51 Kecepatan sistem keseluruhan
No
Perintah
Waktu (detik)
1 2 3 4 Rata-rata
1 Satu Nyala 11 99 12 25 16 89 14 05 13 80
2 Satu Mati 12 51 13 28 14 83 12 25 13 22
3 Dua Nyala 10 70 11 73 11 99 12 25 11 67
4 Dua Mati 10 44 11 21 11 21 11 47 11 08
5 Tiga Nyala 10 96 12 25 13 54 12 51 12 32
6 Tiga Mati 10 70 11 99 11 99 13 28 11 99
7 Empat Nyala 11 73 11 99 13 02 12 24 12 25
8 Empat Mati 10 70 09 93 11 21 10 70 10 64
Rata-rata 12 12
Dari data yang diperoleh didapatkan kecepatan rata-rata untuk tiap perintah yang diberikan sampai
dengan terlaksananya eksekusi dari perintah adalah 12 12 detik
52 Saran
Pada penelitian ini masih sangat banyak hal yang dapat dilakukan untuk perbaikan-perbaikan dimasa
selanjutnya Saran dan usulan yang dapat dipertimbangkan untuk pengembangan sistem lebih lanjut adalah
antara lain
1 Sistem tidak lagi bersifat dependent speaker tetapi bersifat independent speaker dimana banyak
orang yang memberi perintah dan sistem dengan tepat memberikan respon
2 Sistem dapat mengatasi tingkat noise yang tinggi baik yang disebabkan oleh lingkungan atau oleh
hardware (sound card)
75
3 Otomatisasi sistem Artinya perintah tidak perlu lagi diberikan lewat penekanan tombol yang
dilakukan melalui mouse
4 Respon sistem yang real time
5 Sistem yang dapat dengan mudah beradaptasi dengan jenis sound card yang bervariasi
DAFTAR PUSTAKA
Anggraeni Triana Dewi Astutik Debi Puji Pengenalan Wicara Dengan Penutur Tak Bebas
Tugas Akhir PENS ITS 2003
Wahyudi Agus Verifikasi Sinyal Suara Sebagai Kendali Arah TA PENS-ITS 2002
Dewantara Bima Sena Bayu Aplikasi Pengenalan Wicara Untuk Perintah NirkabelRobot Mikro
Mouse Tugas Akhir PENS ITS 2004
Dutono Titon Penataran Kebahasaan Tahap I Fonetik Dan Fonologi ndashPengolahan Sinyal
Wicara Digital 20 Februari 2001
Gabel Robert A Richard A Robert Sinyal dan Sistem LinierErlangga 1996
Rabiner Lawrence Huang Juang Biing Fundamentals of Speech Recognition Prentice Hall
International Inc1993
Proakis John G Malonakis Dimitris G Digital Signal Processing Principles Algorithms and
Applications Prentice Hall Inc New Jersey 1995
Scolander Kare Snack Sound Toolkit
httpwwwtcltkmantcl85tutorialTcl11html
httpwikitcltk4074
httpwwwinveceorgtclwisefrontcoverhtml
httpwwwspeechkthsesnackmansnack22tcl-manhtml
httpwwwspeechkthsesnacktutorialhtml
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13]
Bab 2 Teori Penunjang
6
Contoh dari sampling seperti bisa kita lihat pada gambar di bawah
Gambar 26 Contoh proses sampling dengan nilai frekuensi pencuplikan yang berbeda
6
Frekuensi sampling yang digunakan adalah 12000 Hz
Dimana dalam 1 detik sinyal terdapat 12000 titik sampling
213 Preemphasis
Proses preemphasis dimaksudkan agar spektrum sinyal merata di semua frekuensi serta mencegah
kehilangan informasi akibat proses pembulatan pada saat komputasi Fungsi preemphasis adalah
H (z) = 1 ndash az-1 09 le a le 1 (22)
dimana nilai a berkisar 095 Berdasarkan model filter di atas maka keluaran dari preemphasis adalah
s (n) = s (n) - as (n-1) ( 23)
Penjabarannya sebagai berikut
5 Ibid 6 Ibid
Fi = 1000 Hz
Fs = 1250 Hz
Fs = 1000 Hz
Fs = 4000 Hz
Fs = 8000 Hz
Fs 2Fi
Kriteria Nyquis
Fi Frekuensi sinyal informasi Fs Frekuensi pencuplikan
H X Y
T 1 = 12000 = 833 x 10-5 s = 833 μs
10 ms = 833μs x N sample N = 120 sample
Bab 2 Teori Penunjang
7
y = H x
y = (1-az-1) xn
y = xn - 095 xn z-1
y = xn ndash 095 xn - 1
214 Frame Blocking
Sinyal wicara yang telah dipreemphasis s (n) diblok dalam M sampel dimana N 2 x M seperti yang
ditunjukkan pada gambar 27 Jika M le N pergeseran frame akan mengalami overlape hasil perkiraan LPC
spectral akan dikorelasikan dari frame 1 ke frame berikutnya Jika M laquo N perkiraan LPC spectral dari satu frame
ke frame lainnya akan sangat halus (smooth) Dan bila M gt N maka tidak akan ada overlape diantara frame yang
berbatasan dan sinyal suara akan hilang sama sekali dan korelasi diantara perkiraan spectral LPC dari frame
yang berbatasan akan berisi komponen noise
Gambar 27 Pergeseran Frame pada Sinyal Suara
dengan M = 13 N
Sehingga didapatkan nilai dari sinyal yang baru adalah sebagai berikut
x1(n) =s(M 1+n) n =012hellipN ndash 1 l = 012hellipLndash1 (24 )
215 Windowing
Merupakan proses membatasi lebar sinyal yang akan dianalisa yang dapat mengurangi efek
diskontinyuitas pada ujung-ujung frame yang dihasilkan oleh potongan-potongan sinyal Korelasi antara lebar
window dalam domain waktu dan amplitude berguna untuk menyederhanakan sinyal dengan mengurangi
puncak sinyalnya
Ada beberapa jenis windowing yang dinamakan sesuai dengan nama penemunya yaitu
Bab 2 Teori Penunjang
8
Window Hamming
052-046 cos[2лn(N-1)] 0 le n le N-1
Wham(n) =
0 elsewhere
Window Hanning
1-cos[2лn(N-1)] 2 0 le n le N-1
Whan(n) =
0 elsewhere
Window Bartlett
1-cos[2лn(N-1)] 2 0 le n le (N-1)2
WB(n) = 2-2n(N-1) (N-1)2lenleN-1
0 elsewhere
Window Blackman
042-05cos[2лn(N-1)]+008cos[4лn(N-1)]0lenleN-1
WBl(n) =
0 elsewhere
216 Fourier Transform
Transformasi Fourier Diskrit (DFT) adalah deretan yang terdefinisi pada kawasan frekuensi ndash diskrit
yang merepresentaskan Transformasi Fourier terhadap suatu deretan terhingga (Finite Duration Sequence) DFT
berperan penting untuk implementasi algoritma suatu varitas pengolah sinyal karena efisien untuk komputasi
berbagai aplikasi
Salah satu contoh aplikasi komputasi DFT dalam algoritma yang efisien yaitu Fast Fourier Transform
(FFT) Efisiensi suatu algoritma ditentukan dari sejauh mana dapat mereduksi jumlah perkalian dan
penjumlahan serta reduksi lalu lintas data pada memori komputer sehingga proses lebih cepat
Pada DFT untuk memproses N buah titik diperlukan (N-1)perkalian kompleks dan N(N-1)
penjumlahan kompleks Bila N cukup besar dibutuhkan memori yang besar dan waktu yang cukup lama Untuk
itu digunakan metode lain yang lebih cepat yaitu metode transformasi fourier cepat (FFT) FFT dilakukan
dengan membagi N buah titik pada transformasi fourier diskrit menjadi 2 masing-masing N2 titik trnsformasi
Pemecahan menjadi dua pada proses transformasi fourier cepat disebut sebagai proses rekombinasi Dua buah
N2 titik transformasi mempunyai 2(N2) = N2 perkalian Proses memecah menjadi dua ini diteruskan dengan
membagi setiap (N2) titik transformasi menjadi dua buah (N4) titik transformasi setiap (N4) menjadi dua buah
Bab 2 Teori Penunjang
9
(N8) titik transformasi dan seterusnya hingga diperoleh junlah titik yang minimum Jika besarnya N merupakan
kelipatan pangkat dari 2 (disebut radiks 2) maka jumlah titik minimum setelah setiap kali dibagi 2 adalah dua
Ada dua macam metode FFT metode Decimation in Time (DIT) dan metode Dicimation in Frekuensi
(DIF) Kedua metode ini hamper sama Pada metode FFT-DIT N buah titik transformasi dibagi 2 menjadi fungsi
ganjil dan genap masing-masing mempunyai N2 titik transformasi Sedang pada metode FFT-DIF N buah titk
transformasi dibagi menjadi fungsi N2 titk yang pertama dan fungsi N2 titik yang kedua
Operasi pada metode FFT-DIT disebut juga metode kupu-kupu Untuk N buah titik transformasi h(n)
algoritma radiks 2 memerlukan proses perkalian dan rekombinasi sebanyak N2 log N transformasi fourier
diskrit Pada metode FFT-DIT operasi dekomposisi dilakukan dengan membagi fungsi h(n) menjadi 2 bagian
fungsi ganjil dan fungsi genap Atau dengan pernyataan matematika h1(n) dan h2(n) yang masing-masing adalah
untuk n genap dan n ganjil
Prinsip FFT dengan metode DIT adalah seperti pada gambar 24 berikut ini
Gambar 28 Blok metode FFT-DIT 8 titik
7
Pada gambar di atas merupakan jumlah perkalian kompleks N2 log N juga jumlah penjumlahan
kompleks = N2 log N
217 Linear Prediction Code
Ide dasar dari LPC adalah bahwa pada model ini memberikan sampel suara pada domain waktu yang
bisa didekati sebagai kombinasi linear dari sampel suara yang telah lalu
Teori Linear Prediction Coding (LPC) yang diaplikasikan pada wicara telah dimengerti selama
beberapa tahun Pada bagian ini akan dijelaskan dasar dari bagaimana LPC diaplikasikan pada sistem pengenlan
wicara
Sebelum menjelaskan LPC secara umum sebagai pemrose front-end untuk pengenalan wicara perlu
diketahui alasan mengapa LPC sangat banyak digunakan yaitu
1 LPC menyuguhkan model yang bagus untuk sinyal wicara
2 Cara yang digunakan LPC untuk analisa sinyal wicara sangat beralasan untuk pemisahan track dari
sumber vocal
3 LPC adalah model traktabel secara analitis
Bab 2 Teori Penunjang
10
4 Model LPC bekerja dengan baik pada aplikasi pengenalan
2171 Autocorrelation Analysis
Masing-masing frame sinyal yang telah diwindow kemudian di-autokorelasikan dengan menggunakan
persamaan
N-1-M
r1(m) = sum x1(n) x1(n+m) m = 0 1 p ( 25) (25)
n = 0
dimana nilai autokorelasi tertinggi p adalah orde dari analisi LPC Pada umumnya nilai dari p yang
sering digunakan adalah dari 8 sampai 16 Sisi menguntungkan dari analisis autokorelasi adalah bahwa
autokorelasi ke-0 R1 (0) adalah energi dari frame ke-1 Energi dari frame merupakan parameter
penting untuk system deteksi wicara
2172 LPC Analysis
Langkah selanjutnya adalah analisis LPC dimana mengkonversi masing-masing frame dari
auto korelasi p+1 ke dalam sebuah ldquoLPC Parameter Setrdquo dimana kumpulan itu merupakan koefisien
LPC koefisien refleksi atau PARCOR koefisien log area ratio koefisien Cepstral atau beberapa
transformasi pada kumpulan tersebut
Metode yang formal untuk mengkonversi dari koefisien autokorelasi ke sebuah LPC parameter
set (untuk metode autokorelasi) dikenal sebagai Metode Durbin dan secara formal dapat ditunjukkan
pada algoritma berikut ini
E(0) = r(0) ( 26)
Ki=r(i)-sumαj(i-1) r(|i-j|)E(i-1) 1 le I le p ( 27)
αi(i) = ki (28)
αj(i) = αj
(i-1)-ki α(i-1) ( 29)
t-j
E(i)=(1-ki2)E (i-j) (210)
dimana penyajian akhir dari persamaan mengabaikan i=1 Kumpulan dari persamaan hellipdiselesaikan secara
rekursif untuk i=12hellipp dan penyelesaian akhir diberikan sebagai
am=koefisien PC=αm 1lemlep ( 211)
7 Agus Wahyudi Verifikasi Sinyal Suara Sebagai Kendali Arah TA PENS-ITS 2002
Bab 2 Teori Penunjang
11
km=koefisien PARCOR ( 212)
1 - km
gm=koefisien log area ratio = log ----------- ( 213)
1 + km
2173 LPC Parameter Corversion to Cepstral Coefficients
Sekumpulan parameter LPC yang sangat penting yang dapat diturunkan langsung dari kumpulan LPC
adalah koefisien cepstral LPC c(m) Rekursif yang digunakan adalah
co = ln σ2 ( 214)
m-1
cm = am + sum ck am-k 1 le m le p ( 215)
k = 1
m-1
cm = sum ck am-k m gt p
k = 1
dimana σ2 adalah penguatan dalam model LPC Koefisien cepstral koefisien yang direpresentasikan dengan
fourier transform dengan spectrum besaran log telah ditampilkan menjadi kumpulan fitur untuk pengenalan
wicara yang lebih handal terpercaya daripada koefisien LPC koefisien PARCOR atau koefisien log area ratio
218 Dynamic Time Wraping
Dynamic Time Wraping (DTW) merupakan cara untuk membandingkan pola wicara dalam menentukan
kesamaan jarak antara pola-pola yang berbeda Dimana pengenalan wicara merupakan proses secara otomatis
dalam mengambil dan menentukan informasi linguistic yang disampaikan dengan gelombang wicara
menggunakan komputer atau sirkuit elektronik Informasi linguistic tersebut pada akhirnya akan
direpresentasikan dengan deretan waktu vektor-vektor spektral
Metode nolmalisasi waktu menggunakan dua buah fungsi warping
ix = Фx (k) k = 123hellipT (216)
iy = Фy (k) k = 123hellipT
2181 Dynamic Programming
Dynamic Programming (DP) digunakan untuk memecahkan masalah deteksi pengurutan kemampuan
menggunakan pola pengenalan wicara dan masalah waktu penjajaran dan normalisasi Ada dua tipe masalah
penggunaan Dynamic Programming yaitu
(
)
k m
( )
K m ( )
Bab 2 Teori Penunjang
12
1 Masalah jalan optimal dengan menganggap sekumpulan titik mulai dari 1 sampai dengan N yang
dihubungkan dengan pasangan setiap dari titik (ij) Representasi perpindahan secara langsung dari titik
ke-1 ke titik yang lainnya Rentetan perpindahan tersebut tidak mempunyai bilangan yang ditetapkan
dari transisi satu titik ke titik yang lainnya hal ini disebut rentetan keputusan asinkron
Dengan Terminologi sederhana kita membuat garis keputusan untuk menetukan titk berikutnya setelah
kebijaksanaan pada titik i
Prinsip dari optimalisasi yang merupakan kelas dasar dari algoritma komputasi untuk optimasi masalah
di atas berdasarkan pernyataan Bellman
rdquoKebijakan optimasi yang memiliki sifat apapun ketetapan dan ketentuannya keputusan berikutnya
harus merupakan hasil ketetapan dari keputusan yang pertamardquo
2 Masalah keputusan rentetan sinkronisasi terdapat perbedaan dari satu sinkronisasi yang beraturan dari
proses keputusan
Penggunaan teknik Dynamic Programming pada Dynamic Time Warping untuk pertama kali dilakukan
oleh Slutsker (1968) Vintsyuk (1968) dan Volichko (1971) dari Jepang untuk pengenalan wicara Pada proses
ini pembicara mengucapkan kata yang sama dengan durasi berubah setiap waktu dengan ekspansi yang non
linier Oleh karena itu Dynamic Time Wraping adalah tahap yang penting dalam proses pengenalan kata Proses
DTW mengalami pengembangan pada sumbu waktu untuk mencocokan posisi phonemkata yang sama antara
input wicara dan referensi template
Dynamic Programing secara umum digunakan untuk memecahkan masalah rentetan keputusan yang
dilakukan pada bidang kisi sebagaimana ditampilkan pada gambar 27 Sinyal yang dicocokkan adalah A dan B
Di dalam bidang kisi sinyal A disesuaikan sepanjang sumbu ndashx dan sinyal B disesuaikan sepanjang sumbu ndashy
Setiap antar bagian pada bagian ini ditetapkan sebagai sebuah simpul atau titik dimana titik (ij) adalah
pencocokan frame I untuk sinyal A dengan frame j untuk sinyal B Misalnya diasumsikan dua rentetan waktu
untuk vektor utama yang dibandingkan sebagai berikut
A = a1a2hellipaI dan B = b1b2hellipbJ
Dengan menganggap rentang bidang antara A dan B sebagaimana ditunjukkan pada gambar 27
fungsi pelengkungan waktu yang sesuai menunjukkan waktu antara rentetan A dan B dapat dipresentasikan
sebagai rentetan titk-titik Lattice pada bidang c = (ij) sebagai berikut
Bab 2 Teori Penunjang
13
Gambar 29 Plane jaringan untuk ilustrasi
pemrograman dinamik8
Bilamana jarak spektral antara dua vektor utama a1 dan b1 direpresentasikan oleh d(c) = d(ij) penjumlahan
jarak dari awal sampai akhir dari rentetan sepanjang F dapat direpresentasikan dengan
K
sum d(ck)wk
k=1
D(F) = mdashmdashmdashmdashmdash (217)
K
sum wk
k=1
Semakin kecil nilai ini semakin baik kecocokan antara A dan B Dimana wk adalah fungsi pembobotan
positif terhadap F
Dengan memperkecil persamaan di atas dengan kondisi berikut
1 Kondisi monotonisasi dan kontinuitas
0 le ik-ik-1le1 0 lejk ndash jk -1 le 1 ( 218)
2 Kondisi perbatasan
I1=j1=Iik=Ijk=I (219)
3 Kondisi adjustmen window
|ik ndash jk|ler r=konstan ( 220)
Pendefinisian wk sedemikian rupa sehingga menyebut pada persamaan 219 menjadi konstan yang
tidak tergantung pada F Untuk contoh jika
Wk = (ik ndash ik -1)+(jk ndash jk -1)(i0=j0=0) wk akan menjadi
8 Ibid hal 15
Bab 2 Teori Penunjang
14
K
sum wk = I + J (221) k=1
dan persamaan 219 menjadi
1 K
D(F)= mdashmdash sum d(ck)wk ( 222)
I + J k=1
Gambar 210 DTW antara dua rentetan waktu A dan B
9
Karena fungsi obyektif yang akan diminimasi menjadi penjumlahan maka peminimisasi secara efisien
dapat diselesaikan tanpa harus menguji semua kemungkinan untuk F Penjumlahan pada sebagian rentetan c1
c2 hellip ck (ck=(ij)) adalah
(224)
Penurunan pemrograman dinamik pada persamaan-persamaan diatas penggunaan kondisi untuk F dan
formulasi perumusan wk persamaan 2115 dapat dituliskan kembali sebagai berikut
9 Ibid hal 17
Bab 2 Teori Penunjang
15
g(ij-1)+d(ij)
g(ij) = min g(i-1j-1) + 2d (ij) (225)
g(i-1j) +d(ij)
Oleh karena itu jarak antara dua rentetan waktu A dan B setelah DTW dapat diperoleh sebagai berikut
Kita set dari kondisi awal untuk g(11)=2d(11) dan j=1 dan hitung persamaan 2116 dengan variasi I dalam
sepanjang adjustment window Perhitungan ini diulangi dengan menaikkan j sampai j=1 Jarak keseluruhan
antara dua rentetan waktu A dan B dapat diperoleh dari g(IJ)(I+J)
2182 Batasan Normalisasi Waktu
Supaya proses normalisasi waktu mempunyai arti pada perbedaan batasan dengan berbagai variasi
interval waktu dibutuhkan beberapa batasan terhadap fungsi warping
2183 Batasan Titik Awal Akhir
Bilamana pola wicara yang dibandingkan merupakan tuturan per kata maka harus memenuhi syarat pola
mulai dari titik awal sampai titik akhir dari tanda permulaan dan pengakhiran pola wicara Titik awal dan akhir
mempunyi batasan yang membatasi pola wicara harus dipenuhi
Titik awal Фx(1) = 1 Фy(1) = 1 (226)
Titik akhir Фx(T) = Tx Фy(T) = Ty (227)
2184 Kondisi Monotonisasi
Rentetan pola spectral pada wicara sangat penting dalam menentukan arti linguistic sehingga tidak
akan hilang Untuk mempertahankan pola tersebut harus memenuhi
Фx(k + 1) ge Фx(k) (228)
Фy(k + 1) ge Фy(k)
22 Awal dan Akhir Sinyal Suara
221 Power
Sinyal suara yang diolah haruslah merupakan sinyal suara murni dan tidak bercampur dengan noise
ataupun header tail yang dibawa oleh suara saat perekaman apalagi jika pengenalan sinyal suara dengan jumlah
vocabulary yang besar Oleh karena itu sinyal suara hasil perekaman harus dicari nilai awal dan akhirnya agar
pengolahan sinyal suara tersebut menjadi lebih valid
Dan salah satu cara dalam menentukan nilai awal dan akhir dari sinyal suara adalah dengan
menggunakan power yang mempunyai persamaan sebagai berikut
( )
Bab 2 Teori Penunjang
16
239
p= sumradic xt2 (229)
t=0
Sinyal suara yang dibagi menjadi beberapa frame mempunyai power dari tiap framenya yang kemudian
didapatkan nilai rata-ratanya yang kemudian diperoleh nilai awal dan akhirnya dengan menambahkan 3 kali
standart deviasi Dimana penentuan awal dan akhir dari sinyal suara dapat diperoleh dengan
p ge p + 07 standart deviasi
Power
0
20000
40000
60000
80000
100000
120000
140000
160000
0 10 20 30 40 50 60
Jumlah Frame
Am
pli
tud
o
Gambar 211 Bentuk power dari kata
Nilai beberapa kali hasil percobaan
222 Unvoiced Plosive
Pada suatu sinyal suara yang terekam terdapat pemutusan sinyal atau kondisi kosong yang bukan
merupakan noise tetapi masih didalam lingkup suara Tapi kondisi ini hanya terjadi pada kebanyakan sinyal
suara yang terdapat konsonan tertentu yaitu sinyal suara dari kata yang mempunyai konsonan p t k Kondisi ini
disebut Unvoiced Plosive atau loncatan sinyal suara setelah kondisi kosong seperti ditunjukkan pada gambar
berikut
Gambar 212 Unvoiced Plosive
Bab 2 Teori Penunjang
17
Dan untuk penentuan awal dan akhir daerah kosong tersebut harus diperhitungkan agar didapatkan
nilai awal dan akhir dari sinyal suara yang valid yaitu dengan mencari nilai rata-rata dari daerah kosong dari
beberapa sinyal suara Kemudian dengan dicari nilai thresholdnya yaitu nilai terpanjang dari daerah kosong
sebesar 2 dari seluruh daerah kosong yang telah dihistogram
23 JARINGAN DENGAN TCPIP
Meskipun hubungan computer melalui serial dan parallel telah ada sejak lama multijaringan belum
menjadi masalah serius bagi para peneliti di bidang jaringan sampai awal tahun 1980 Perkembangan teknologi
LAN itu sendiri didasarkan banyak alasan Salah satu yang menjadi alasan utama adalah adanya perusahaan
yang ingin melakukan sharing data file printer dan resource lainnya ke pc lain
231 Mengenal TCPIP
Sebelumnya kita definisikan lebih dahulu apa yang dimaksud protocol itu Bila dua computer ingin
melakukan komunikasi keduanya tentu saja harus menggunkan bahasaturan yang sama Aturan-aturan inilah
yang disebut protocol Misalnya untuk mengirim mail digunakan protocol SMTP berhubungan dengan WWW
menggunakan HTTP dan sebagainya Jadi protocol merupakan aturan dalam melakukan komunikasi
TCPIP ( Transmission Control Protocol Internet Protocol) merupakan protocol yang bersifat open
networking Maksudnya semua penjelasan teknis tentang protocol tersebut diumumkan karena ada juga
mekanisme jaringan yang menyembunyikan detail dari sistemnya Hal inilah yang membuat TCPIP menjadi
terkenal
Adapun keuntungan dengan menggunakan protocol TCPIP adalah kemudahannya karena
memungkinkan hubungan antara berbagai system operasi dan berbagai jenis computer (platform)
TCPIP bukanlah protocol tunggal tetapi merupakan sekumpulan protocol sehingga lebih tepat disebut
sebagai keluarga TCPIP Setiap protocol pada TCPIP memiliki tugas tertentu yang berbeda Semua protocol
tersebut menggunakan protocol primer untuk mengirimkan paket data Protocol primer tersebut adalah TCP dan
IP
Protokol lainnya dapat dikelompokkan berdasarkan tujuannya sebagai berikut
1 Transport
Digunakan untuk mengatur perpindahan data antara dua mesin Antara lain
- TCP (Transmission Control Protocol)
- UDP (User Datagram Protocol)
2 Routing
Digunakan untuk pengalamatan data dan menentukan rute terbaik antara lain
- IP (Internet Protocol)
- ICMP (Internet Control Message Protocol)
- RIP (Routing Information Protocol)
Bab 2 Teori Penunjang
18
3 Network Address
Menangani bagaimana suatu mesin diberikan suatu alamat antara lain
- ARP ( Address Rwesolution Protocol)
- DNS ( Domain Name Sistem)
- RARP (Reverse Address Resolution Protocol)
4 User Service
Merupakan aplikasi yang harus diakses user antara lain
- FTP ( File Transfer Protocol)
- TFTP (Trivial File Transfer Protocol)
- TELNET
5 Gateway Protocol
Untuk membentuk proses komunikasi routing dan status informasi antara lain
- EGP (Exterior Geteway Protocol)
- GGP (Gateway to Gateway Protocol)
- IGP (Interior Gateway Protocol)
232 Koneksi TCPIP
Untuk mengkonfigurasi TCPIP maka dibutuhkan
Alamat IP
Alamat IP ini sebagai pengenal atau alamat mesin Karena setiap mesin yang terhubung jaringan
harus memiliki penganal yang unik sehingga memungkinkan melakukan routing Jaringan dengan TCPIP
menggunakan pengalamatan 32 bit sebagai alamat atau pengenal setiap mesin yang terkoneksi dengan jaringan
Pengenal ini disebut alamat IP Pesan atau data yang dikirim melalui TCPIP menggunakan alamat IP ini untuk
mengenali mesin pengirim dan penerimanya
Biasanya alamat IP dapat dikelompokkan menjadi dua bagian yaitu
1 Nomor Network
2 Nomor Device dalam Network tersebut
Alamat IP tersebut dipisahkan menjadi empat bagian yang masing-masing berukuran 8 bit Empat
bagian tersebut dipisahkan oleh tanda titik dan setiap bagian tersebut memiliki angka 0-255 Contohnya
192168101
Pemberian alamta IP umumnya ditentukan berdasarkan ukuran dari jaringan tersebut Jaringan
dapat diklasifikasikan menjadi tiga kategori yaitu kelas A kelas B kelas C Ketiga kelas tersebut membagi
pengalamatan 32 bit dengan ukuran berbeda untuk nomor Network dan Host
Pengalamatan pada kelas A memungkinkan bagian ini memiliki angka dari 0-127 Sedangkan
pengalamatan B memungkinkan memiliki angka dari 128-191 pengalamatan pada kelas C memungkinkan
memiliki angka dari 192-223
Network Mask
Bab 2 Teori Penunjang
19
Network mask merupakan alamat IP dimana lamat networknya diset ke nilai 255 Jika alamat IP
termasuk kelas A maka network masknya yaitu 255000 Jika alamat IP termasuk kelas B maka network
masknya yaitu 25525500 Jika alamat IP termasuk kelas C maka network masknya yaitu 2552552550
AlamatNetwork
Alamat network ini dapat diperoleh dari alamat IP dimana bit-bitnya dilakukan operasi AND
dengan network mask Dengan demikian untuk network kelas B dengan IP 192168101 maka alamat
networknya adalah 19216800
Alamat Broadcast
Alamat broadcast dibutuhkan bila suatu mesin ingin mengirimkan paket yang sama ke semua
device pada jaringan
Alamat Gateway
Alamat gateway merupakan alamat IP dari mesin yang menghubungkan jaringan dengan jaringan
di luar misalnya internet Pada umumnya alamatgateway memiliki IP yang sama dengan mesin yang kita miliki
tetapi mempunyai nomor device 1 Dengan demikian untuk network kelas B dengan alamt IP 192168101
alamat gatewaynya adalah 19216811
Alamat Nameserver
Jaringan-jaringan besar umumnya memiliki sebuah mesin untuk mentranslasikan alamat IP menjadi
nama yang lebih mudah dikenal manusia Misalkan sebuah mesin dengan IP 192168101 dapat diberi nama lain
seperti puspacsuiacid sebagai alamatnya Proses translasi ini dilakukan dengan system yang dikenal dengan
nama Domain Name System (DNS)
24 BEKERJA DENGAN SOCKET
Komponen socket program yang dapat membantu dalam pembuatan suatu aplikasi yang berkomunikasi
antara suatu system computer dengan system computer yang lain dengan menggunakan protocol TCPIP dan
protocol lain yang terhubung
241 Pengertian Socket Program
Pada sub bab ini akan dijelaskan tentang komoponen socket program yang dapat berkomunikasi antara
system computer dengan system computer yang lain dengan menggunakan protocol TCPIP dan protocol lain
yang terhubung Dengan socket program ini kita dapat membaca dan menulis pada hubungan ke mesin yang lain
tanpa mengalami kesulitan pada software jaringan Socket program dapat mengadakan hubungan berbasis
protocol TCPIP tetapi dapat juga bekerja umunya dengan protokol-protokol yang terhubung seperti Xerox
Network System (XNS) dan yang lain
Bab 2 Teori Penunjang
20
242 Penjabaran Socket
Socket mengijinkan aplikasi jaringan kita berkomunikasi dengan sistem lain di luar jaringan
Masing- masing socket bisadipandang sebagai titik akhir dalam suatu koneksi jaringan Socket tersebut memiliki
spesifikasi sebagai berikut
a) Sistem yang sedang dijalankan
b) Tipe interface port yang digunakan
Penjelasan lengkap dari sebuah koneksi socket terdiri dari address socket pada kedua titik akhir
koneksi Kita akan menguraikan address dari masing- masing titik akhir socket dengan memberi nomor IP
address atau host dan port
Sebelum membuat koneksi socket sebelumnya harus menguraikan dengan lengkap socket-socket
yang membentuk titik akhir Beberapa informasi tersedia dari sistem aplikasi yang dijalankan Sebagai contoh
kita tidaka akan membutuhkan IP Address Local dari socket client sebab informasi ini terdapat pada sistem
operasi
Informasi yang akan kita berikan bergantung pada tipe socket yang sedang bekerja Socket client
harus menggambarkan port yang merepresentasikan layanan yang mereka berikan
243 Memilih Host Name dan IP Address
Kebanyakan aplikasi menggunakan host name untuk merinci sebuah system Host Name mudah
untuk diingat dan dicek Menggunakan host name memungkinkan socket client untuk menemukan situs abstrak
yang diwakili oleh nama host meskipun telah dipindah ke IP Address yang baru Jika nama host tidak diketahui
socket client akan akan menyatakan system server sedang menggunakan IP Addressnya Ketika kita
menyediakan host name socket akan mencari IP Address yang berhubungan dengan host name sebelum socket
tersebut dapat menempatkan pada sistem server
Bab 3 Perencanaan dan Implementasi
21
BAB 3
PERENCANAAN DAN IMPLEMENTASI
31 Pendahuluan
Pada bab ini akan dijelaskan mengenai pengolahan sinyal wicara untuk mendapatkan ciri setiap
individu Juga akan dibahas mengenai pengolahan hasil keluaran sinyal wicara untuk ditransmisikan ke PC lain
(lewat jaringan) Dan selanjutnya akan dibahas pula mengenai plan atau obyek yang dalam hal ini adalah lampu
pijar
Berikut ini adalah blok diagram sistem secara keseluruhan
Gambar 31 Blok Diagram Sistem Secara Keseluruhan
Speaker pada gambar 31 memberikan suaranya sebagai masukan lewat mikrofon Masukan ini
akan diolah dalam PC client mulai dari proses sampling frame windowing FFT LPC Kemudian hasil dari
LPC dicari pemadanan dengan LPC dari sinyal standar yang telah tersimpan sebagai data base di dalam PC
client Hasil dari DTW tersebut akan dikirimkan ke PC server melalui TCPIP untuk diproses menjadi suatu
perintah ke perangkat keras Perintah tersebut merupakan bentuk implementasi dari perintah yang diberikan dari
PC client
Sebaliknya dengan adanya perubahan kondisi pada peralatan yang diinginkan maka terjadi sinyal
balikan yang berupa sinyal DTMF yang dikirimkan oleh perangkat keras ke PC server Oleh PC server sinyal ini
diolah untuk dikenali sebagai suatu kondisi tertentu yang akan dikirimkan ke PC client sebagai laporan tentang
kondisi alat yang diinginkan
32 Sistem Pengolahan Sinyal Wicara
321Perekaman Suara
TCPIP
Pengucap Speaker ADC Pengolahan Wicara dan Monitoring
Peralatan yang terkontrol
LAN Card
LAN Card
Pengenalan Pola Pengiriman Tone DTMF dan Pengenalan DTMF Sebagai Laporan
DTMF Decoding DTMF Generator Sistem Switching
Alat Terkontrol
Bab 3 Perencanaan dan Implementasi
22
Perekaman suara dilakukan menggunakan software berbasis TclTk 830 dan Snack22 Sebelumnya
akan dijelaskan satu per satu program yang dipakai
o TclTk 830
Tcl kepanjangan dari Tool Control Language Tk adalah Graphical Toolkit extension dari Tcl yang
menyediakan bermacam-macam item standar antarmuka GUI untuk memfasilitasi secara cepat pengembangan
aplikasi tingkat tinggi
o Snack22
Snack adalah tool pengolahan suara yang didesain sebagai extensi untuk bahasa script Saat ini Snack bekerja
dengan bahasa script TclTk Phyton dan Ruby Snack memiliki perintah-perintah untuk play record process
dan dan memvisualisasi suara Snack menyediakan obyek suara tingkat tinggi dengan manajemen penyimpanan
yang fleksibel dan streaming support Snack dapat bekerja pada banyak format file suara
Kita dapat membangun aplikasi sepaerti di bawah ini dengan integrasi dari TclTk dan Snack
Gambar 32 Program aplikasi pengenalan wicara
Frekuensi sampling pada program di atas diset pada frekuensi 12 kHz Frekuensi ini dipilih karena biasa
digunakan untuk voice Selain itu juga diset pada channel Mono dan sinyal encoding LIN 16 (resolusi 16 bit
PCM) Pada penekanan tombol ldquorecordrdquo diikuti tombol ldquostoprdquo dan kemudian tombol ldquostandartrdquo maka akan
dimulai proses perekaman yanag akan digunakan untuk membuat file standar untuk kedelapan perintah yang
akan digunakan untuk pembanding sinyal masukan
Adapun proses untuk sistem yang akan dibuat dapat digambarkan dengan diagram alir seperti di bawah
Bab 3 Perencanaan dan Implementasi
23
Mulai
Package Require
Snack 22
Exit
Program On
Running
Recording
Sound Card
Produser Running
Prosedur Recording
DTMF
Keluar
Tidak
YaTidak
Ya
Ya
Ya
Ya
Tidak
Tidak
Tidak
Gambar 33 Flowchart Sistem Graphical User
Interface
322 Sampling
Seperti telah dijelaskan di depan bahwa frekuensi sampling yang digunakan adalah sebesar 12000Hz
dimana dalam 1 detik sinyal terdapat 12000 titik sampling Sebagai contoh seperti gambar di bawah ini suatu
sinyal epanjang 20 ms disampling 12000 Hz menghasilkan titik sampling sebanyak 240 titik
Data Sampling
-20000
-15000
-10000
-5000
0
5000
10000
15000
20000
0 200 400 600
Amplitudo
Jumlah Data
Gambar 34 Sinyal hasil sampling dengan
frekuensi 12000 Hz
Bab 3 Perencanaan dan Implementasi
24
Mulai
Sinyal Masukan
Baca Panjang Sinyal
Bagi Menjadi N Frame
i = 0 i lt N i++
Ambil 240 Data Sampel
Tampilkan Nilai
Sampel
Selesai
Gambar 35 Flowchart Proses Sampling
323 Pre-emphasis
Agar spektrum sinyal merata di semua frekuensi dan mencegah kehilangan informasi akibat pembulatan
pada saat komputasi maka dilakukan prose preemphasis Fungsi transfer preemphasis adalah
H(z) = 1 ndash a z-1 09 le a le 1 (31)
Dimana nilai a berkisar 095 Berdasarkan model filter di atas maka keluaran dari preemphasis adalah
s(n) = s(n) ndash a s(n-1) (32)
324 Frame Blocking
Hasil perekaman merupakan sinyal dalam domain waktu yang bersifat variant time (fungsi yang
bergantung pada waktu) Sinyal yang telah dipreemphasis kemudian dibagi menjadi n buah frame Dengan
jumlah sample per frame sebesar N dan adjacent frame sebesar M sample Dimana M=05N Pada frame
pertama terdiri dari N buah sampel Frame kedua dimulai pada sampel ke M sehingga terjadi overlape sebesar
N - M sampel Begitupula untuk frame yang ketiga dimulai dari sample ke 2M sehingga terjadi overlape dari
farme kedua sebesar N + M-2M sampel juga Hal ini akan terus berlangsung hingga seluruh sinyal terbagi
menjadi beberapa frame
Bab 3 Perencanaan dan Implementasi
25
Gambar 36 Frame blocking sinyal
325 Windowing
Windowing yang digunakan adalah window hamming Setelah proses pengambilan sample maka
langkah selanjutnya adalah proses selanjutnya adalah proses windowing yang berfungsi untuk mengurangi efek
diskontinyuitas pada ujung-ujung frame Persamaannya adalah sebagai berikut
y[i] = x[i](054-046cos(20314159265(i-1)240) (33)
Flowchartnya bisa dilihat seperti di bawah
Mulai
240 Data
Sampel
i= 0 i lt 240 i++
Hamming Window
y[i] = x[i](054-046cos(2phi(i-1)
240))
Tampilkan
nilai
Hamming
Selesai
Gambar 37 Flowchart Proses Windowing
326 Fast Fourier Transform
Transformasi fourier cepat (FFT) adalah suatu metode yang sangat efisien untuk menyelesaikan
transformasi fourier diskrit (DFT) yang banyak dipakai untuk keperluan analisa sinyal Sehingga dengan FFT
N N N M
M N
N N
M
Bab 3 Perencanaan dan Implementasi
26
sinyal yang disampling dalam domain waktu ditransformasikan ke domai frekuensi dengan menggunakan
persamaan sebagai berikut
N-1
H(k) = sum h(n)e-j2лkN (34)
n=0
dengan k= 012N-1
Prosesnya dapat dilihat dari flowchart di bawah
Mulai
240 data
sampel
256 data sampel
i=0 ilt256 i++
tmp_log1=(xr[k]xr[k]+xc[k]xc[k])
tmp_log gt 0
xr[k]=10log10(tmp_log1)
Tampilkan
nilai
hamming
Selesai
xr[k]=10log10(0000001)
Ya
Tidak
Gambar 38 Flowchart Proses Fast Fourier
Transform
327 Autocorrelation analysis
Hasil dari windowing sinyal masukan kemudian dihitung autokerelasinya dengan persamaan
N-1-m
r1(m) = sum x1(n)x1(n+m) m=01p (35)
n=0
dimana niali autokorelasi tertinggi p adalah orde dari analisis LPCPada umumnya nilai dari p yang sering
digunakan adalah dari 8 sampai 16
Proses Autokorelasi dapat dilihat dari flowchart di bawah ini
Bab 3 Perencanaan dan Implementasi
27
Mulai
240 data p lpc
orde
i=0 iltp i++
j=0 jlt240-p-1 j++
RI[j]=sum(xI[i]xI[i+j])
Tampilkan nilai
autocorrelation
Selesai
Gambar 39 Flowchart Proses Autokorelasi
328 LPC Analysis
Hasil koefisien autokorelasi kemudian dikonversikan ke sebuah LPC parameter set (untuk metode LPC
autokorelasi) dikenal sebagai Metode Durbin dan secara formal ditunjukkan dari algoritma sebagai berikut
E(0) = r(0) (36)
ki=r(i)-sumαj(i-1) r(|i-j|)E(i-1) 1 le I le p (37)
αi(i) = ki (38 )
αj(i) = αj
(i-1)-ki α(i-1) ( 39)
t-j
E(i)=(1-ki2)E (i-j) (310)
dimana penyajian akhir dari persamaan 37 mengabaikan i=1 Kumpulan dari persamaan 36 -310 diselesaikan
secara rekursif untuk i=12p
Proses analisis dapat dilihat dari flowchart di bawah
Bab 3 Perencanaan dan Implementasi
28
Mulai
Autocorrelationr
p lpc orde
E (0) = r(0)
k1
= r(i)-sumalpha j (i-1) r( | i-j|E(i-1)
alpha j (i) = k
i
alpha j
(i) = alpha (i-1) -k i alpha
i-j (i-1)
E (i) = 1-k i 2) E(i-1)
Tampilkan nilai
parameter lpca
Selesai
i=0 iltp i++
Gambar 310 Flowchart proses LPC analisis
329 LPC Parameter to Cepstrum Analysis
Sekumpulan parameter LPC yang sangat penting yang dapat diturunkan langsung dari kumpulan
koefisien LPC adalah koefisien cepstral LPC c(m) Rekursif yang digunakan adalah
co = ln σ2 ( 311)
m-1
cm = am + sum ck am-k 1 le m le p (312)
k = 1
m-1
cm = sum ck am-k m gt p ( 313)
k = 1
Proses LPC parameter ke Cepstrum Analysis dapat dilihat dari flowchart di bawah ini
k m ( )
k m ( )
Bab 3 Perencanaan dan Implementasi
29
Mulai
lpc parameter a
p lpc orde
c o = ln del 2
1 lt=mlt=p
i=0 iltp i++
Cm
= am
+sum((km)Ck a
m-kC
m =sum((km)C
ka
m-k)
Tampilkan nilai lpc
cepstrumc
Selesai
Gambar 311 Flowchart Proses LPC parameter ke
Cepstrum
3210 Dynamic Time Warping
Proses yang terjadi pada Dynamic Time Warping adalah pengukuran jarak suara antara sinyal standart
dan sinyal input Yang diukur berupa deretan nilai dari hasil LPC Cepstrum dalam bentuk kolom dan baris (ij)
yang disimpan dalam satu file Pada kolom berisi nilai tiap cepstrum sedangkan baris berupa banyaknya frame
Teknik yang digunakan dinamakan Dynamic Programming Alur kerjanya dapat dilihat dari flowchart di bawah
Bab 3 Perencanaan dan Implementasi
30
Mulai
i=0 iltN i++
j=0 jlt15 j++
Cepstrum
Standart
Std_Ceps [i][j]
Cepstrum
Input
Inp_Ceps [i][j]
DP_dist = DP_match1(r)
DP_dist
Selesai
Gambar 312 Flowchart Proses Dynamic Programming
33 Awal dan Akhir Sinyal suara
331 Power
Untuk mendapatkan suatu sinyal suara tanpa adanya noise maka sinyal harus benar-benar dipotong
tepat pada awal dan akhirnya Oleh karena itu dipakai power sebagai salah satu cara yang efektif dalam
menentukan awal dan akhir suatu sinyal suara
Dimana tiap frame mempunyai power yang merupakan hasil kuadratisasi dari penyampelan tiap frame
yang kemudian hasil keseluruhan diakarkan seperti bisa dilihat pada flowchart di bawah
Bab 3 Perencanaan dan Implementasi
31
Mulai
Power = 0
i=0 ilt240 i++
Power=Power+sqrt(xixi)
Selesai
Gambar 313 Flowchart Proses Power
Jumlah sample per frame ditetapkan sebesar 240 sampel Kemudian dicari power masing-masing antara sinyal
utuh dan sinyal noise kemudian dengan p ge p + 07 standar deviasi maka didapatkan awal dan akhir sinyal
suara
332 Unvoiced Plosive
Adanya daerah kosong menyebabkan sinyal tidak valid dalam pemotongan awal dan akhirnya karena
bisa dianggap noise padahal berada dalam sinyal suara ( merupakan bagian dari sinyal suara) Oleh karena itu
dicari mean dari 25 kata sinyal suara yang kemudian dicari nilai thresholdnya sebagai panjang akhir dari daerah
kosong Dan nilai tersebut diikutsertakan dalam looping dan jika setelah itu terdapat sinyal kembali maka
berarti masih ada sinyal suara dan jika tidak ada berarti tidak ada sinyal suara
34 Proses Pada Client
Preses pada client dapat dijelaskan sebagai berikut
Gambar 314 Blok diagram proses client
Penjelasan dari blok digram tersebut adalah
1 Pertama adalah perekaman suara pada software recording yang hasilnyadisimpan dalam bentuk file
berekstensi ldquowavrdquo File ini selanjutnya akan dijadikan file input pada sistem client
2 File suara yang telah tersimpan diolah dalam program sampling untuk mendapatkan sinyal suara dalam
bentuk frame Setiap frame terdiri dari 120 sampel
Mic Extract AD Voice Dikenali
Bab 3 Perencanaan dan Implementasi
32
3 Tiap frame diwindow dengan window Hamming untuk mengurangi efek diskontinyuitas pada ujung-
ujung frame
4 Sinyal hasil window yang masih dalam domain time diubah ke dalam domain frekuensi dengan Fast
Fourier Transform (FFT)
5 Hasil dari windowing sinyal masukan kemudian dihitung autokerelasinya
6 Hasil koefisien autokorelasi kemudian dikonversikan ke sebuah LPC parameter set (untuk metode LPC
autokorelasi) Sekumpulan parameter LPC yang sangat penting yang dapat diturunkan langsung dari
kumpulan koefisien LPC adalah koefisien cepstral LPC
7 Selanjutnya dilakukan proses DTW (Dynamic Time Warping) pengukuran jarak suara antara sinyal
standart dan sinyal input Hasilnya disimpan dalam sebuah file berekstensi ldquotxtrdquo
8 File berekstensi txt tersebut ke server sebagai sinyal suara input
35 Proses Pada Server
Proses pada server dapat dijelaskan sebagai berikut
Gambar 315 Blok diagram proses server
Penjelasan dari blok diagram tersebut adalah
1 Isi file berekstensi rdquotxtrdquo diterima oleh server dan digunakan sebagai data input untuk memanggil
database tone DTMF yang sesuai sebagai pengoperasian alat yang akan dikontrol
2 Alat yang terkontrol akan menunjukkan hasilnya
Memanggil
Database
Tone
Dikode
kan
dalam
biner
Kirim
ke HW
Kontrol
Alat
Input
server
Bab 4 Pengujian dan Analisa
33
BAB 4
PENGUJIAN DAN ANALISA
41 Pendahuluan
Untuk mengetahui tingkat keberhasilan dari suatu sistem diperlukan pengujian keseluruhan dari
perencanaan hasil sistem yang telah dibuat Dalam bab ini akan dijelaskan mengenai hal tersebut
Pengujian yang akan dilakukan adalah
1 Pengujian dan analisa sistem pengolahan sinyal wicara
2 Pengujian dan analisa sistem client server
3 Pengujian dan analisa awal dan akhir sistem pengolahan wicara
42 Pengujian dan Analisa Sistem Pengolahan Wicara
Tujuan untuk mendapatkan parameter ciri individu dari sampel sinyal yang diolah
421 Perekaman Suara
Pada Tugas Akhir ini digunakan duamacam perangkat lunak yang dibangun sendiri berbasis TclTk 830
dan Snack 22 sebagai perangkat lunak yang diuji dan perangkat lunak Wavesurver sebagai pembanding
4211 Dengan menggunakan TclTk dan Snack
Tampilan awal dari perangkat lunak yang dibangun dengan menggunakan TclTk dan Snack adalah sebagai
berikut
Gambar 41 Tampilan awal perangkat lunak menggunakan TclTk dan Snack
Bab 4 Pengujian dan Analisa
34
Pertama kali tombol record ditekan maka proses pengambilan sinyal wicara yang dimasukkan
dimulai Pada saat tombol Stop ditekan maka program akan merekam kata ldquosatu nyalardquordquosatu matirdquordquodua
nyalardquordquodua matirdquordquotiga nyalardquordquotiga matirdquordquoempat nyalardquordquoempat matirdquo sesuai yang kita masukkan dan
tampilan display akan digambarkan bentuk sinyal yang dihasilkan secara otomatis Hasil perekaman dapat
dilihat pada gambar berikut 42
Gambar 42 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan perangkat lunak
TclTk dan Snack
Gambar 42 menunjukkan bahwa proses pengambilan sinyal suara telah dilakukan Sinyal suara yang
dimasukkna akan terlihat gambarnya pada layar hitam (canvas)
4212 Dengan menggunakan Wave Surver
Sebagai pembanding dari program yang telah dibuat yaitu dari perangkat lunak TclTk dan Snack
digunakan Wavesurver
Tampilan awal dari Wavesurver 157 tampak seperti pada gambar 43
Gambar 43 Tampilan awal perangkat lunak menggunakan Wavesurver
Bab 4 Pengujian dan Analisa
35
Pada saat tombol recording ditekan maka program akan merekam kata ldquosatu nyalardquo dan pada tampilan
display akan digambarkan bentuk sinyal yang dihasilkan secara otomatis Hasil perekaman bisa dilihat pada
gambar 44
Gambar 44 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan
perangkat lunak Wavesurver
Perekaman pada Wavesurver dapat diset sesuai dengan kebutuhan Dimana pada sistem pengolahan sinyal
suara untuk perekaman suara diset sebagai berikut
Gambar 45 Kotak dialog setting perekaman perangkat lunak Wavesurver
Pada data di atas dapat dilihat bahwa suara yang direkam dengan mengguanakan perangkat lunak
Wavesurver mempunyai header dan tail yang berisi keterangan perekaman sebagai berikut
12000 menunjukkan frekuensi sampling yang digunakan
Bab 4 Pengujian dan Analisa
36
Channels menunjukkan bahwa suara direkam dengan menggunakan channel Mono
Sampel Encoding Lin 16 menunjukkan bahwa suara direkam dengan menggunakan
16 bit PCM
422 Sampling
Dengan menggunakan program yang dibangun sendiri di atas proses penyamplingan sinyal input sekaligus
telah terjadi dimana dengan frekuensi sampling sebesar 12000 Hz didapatkan sinyal dari kata ldquosatu nyalardquo
dengan potongan sebagai berikut
3306
3538
3788
4076
4282
4684
4747
4956
5083
5442
5844
5901
6244
6196
6462
6104
Berikut ini adalah cuplikan dari data sampel kata ldquo empat matirdquo mulai dari milidetik ke-13900
Bab 4 Pengujian dan Analisa
37
Data Sampling
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 46 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900
Pada gambar 46 telah dilakukan proses sampling sinyal masukan dengan frekuensi sampling sebesar 12000
Hz maka didapatkan hasil sinyal yang hampir mirip dengan sinyal analognya karena sinyal suara manusia
memiliki jarak frekuensi antara 300 sampai 5000 Hz dimana syarat Nyquist minimal fsampling 2fsinyal
telah terpenuhi
423 Windowing
Jenis window yang digunakan adalah window Hamming
Pada proses window hamming kata yang telah disampel sebanyak 240 sampel akan diwindow sehingga
menghasilkan sinyal yang lebih kecil peaknya Hasilnya adalah sebagai berikut
-26174
-22078
-12518
-1444
9690
19308
23360
20049
12365
2391
-7874
-14539
-17837
-19929
-19007
-16955
Bab 4 Pengujian dan Analisa
38
Sedangkan hasil dalam bentuk gambar dapat dilihat pada gambar berikut
Data Windowing
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 47 Hasil Windowing data sampel kata ldquoempat matirdquo milidetik ke-13900
Seperti yang ditunjukkan gambar 47 proses windowing telah dilakukan Berdasarkan gambar 47
tersebut dapat dikatakan bahwa window Hamming menyebabkan sinyal yang disampel lebih halus Gambar
47 dapat dibandingkan dengan gambar 46 yaitu gambar sinyal sebelum melalui proses windowing dapat
dilihat bahwa sinyal yang telah diwindow mempunyai sinyal yang lebih halus Hal ini membuktikan bahwa
fungsi dari windowing untuk mengurangi efek diskontinyuitas pada ujung-ujung frame adalah benar
424 Fast Fourier Transform Sinyal Masukan
Pada proses ini sinyal yang sebelumnya berada dalam domain waktu akan diubah dalam domain
frekuensi Setiap sinyal yang berasal dari alam merupakan sinyal analog yang bila diolah harus diubah
dalam bentuk sinyal digital Dan pengolahan dalam digital merupakan pengolahan dalam bentuk diskrit
Pada proyek akhir ini sinyal dalam domain waktu akan diubah dalam domain frekuensi dengan 256 titik
Karena hasil yang diperoleh berupa hasil dari fungsi konvolusi maka hanya akan diambil 128 titik saja yang
akan diolah dalam proses selanjutnya Sedangkan 128 sisanya tidak dipergunakan karena berupa
pencerminan saja
Hasil dari Fast Fourier Transform (FFT) dari penggalan kata ldquoempat matirdquo pada milidetik ke-13900 dalam
bentuk teks adalah
103505157
106889458
Bab 4 Pengujian dan Analisa
39
104735321
100408661
89175987
95431992
96601654
8489315
89637459
8630304
75320663
87866905
91001945
89607201
82408546
83440155
4241 Dengan Menggunakan TclTk dan Snack
Fast Fourier Transform Sinyal
Masukan
0
20
40
60
80
100
120
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 48 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat
lunak TclTk dan Snack
Dari gambar 48 di atas sinyal suara yang sebelumnya berada di domain waktu telah diubah ke domain
frekuensi Hasil Fast Fourier Transform sinyal masukan menunjukkan sebaran spektrum frekuensi dari
sinyal suara yang telah dihasilkan oleh pengucap antara 0 sampai 6000 Hz
Bab 4 Pengujian dan Analisa
40
4242 Dengan Menggunakan Wavesurver
Gambar 49 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat
Wavesurver
Dari gambar 49 di atas hasil Fast Fourier Transform sinyal masukan menunjukkan sebaran spektrum
frekuensi dari sinyal suara yang telah dihasilkan oleh pengucap antara 0 sampai 6000 Hz adalah sama
seperti pada gambar dengan gambar 48 yang diambil dengan perangkat lunak TclTk dan Snack
425 Autocorrelation Analysis
Pada proses ini sinyal masukan dalam domain waktu yang telah diwindow hamming dihitung korelasinya
dengan menggunakan orde analisi LPC sebesar 15 Sehingga akan didapatkan hasil rk(autokorelasi) sebagai
berikut
17648453
128874
0669745
0662566
0470262
0164336
-010638
-0229032
-016249
0014062
0138456
0188749
0117826
0014517
-0052704
426 LPC Analysis
Dari hasil autokorelasi tersebut di atas selanjutnya adalah LPC dimana mengkonversi masing-masing
frame dari autokorelasi p+1 ke dalam sebuah LPC Parameter a
Bab 4 Pengujian dan Analisa
41
Metode yang formal untuk mengkonversi dari koefisien autokorelasi ke sebuah LPC parameter (untuk
metode LPC autokorelasi) dikenal sebagai Metode Durbin dan secara formal hasilnya dapat ditunjukkan
sebagai berikut ini
1
-128874
0160681
-0156173
0166653
0255508
0192145
0003037
-0202248
-0265201
-0112133
005938
0232232
0203554
0048429
Dari hasil di atas terlihat bahwa untuk setiap frame nilai pertama menunjuukan energi dari masing-masing
frame dan selanjutnya adalah parameter LPC dalam satu frame yang digunakan sebagai penentu ciri dari
sinyal suara yang dihasilkan oleh individu
427 Fast Fourier Transform LPC Parameter
Pada proses ini nilai dari parameter LPC yang sebelumnya masih berada dalam domain waktu akan diubah
dalam domain frekuensi Pada proyek akhir ini parameter LPC dalam domain waktu akan diubah dalam
domain frekuensi dengan 256 titik Karena hasil yang diperolah berupa hasil dari fungsi konvolusi maka
hanya akan diambil 128 titik saja yang akan diolah dalam proses selanjutnya Sedangkan 128 sisanya tidak
dipergunakan karena berupa pencerminan saja
Hasil dari Fast Fourier Transform (FFT) dari parameter LPC pada penggalan kata ldquoempat matirdquo pada
milidetik ke-1 dalam bentuk teks adalah
103505157
106889458
104735321
100408661
89175987
Bab 4 Pengujian dan Analisa
42
95431992
96601654
8489315
89637459
8630304
75320663
87866905
91001945
89607201
82408546
4271 Dengan menggunakan TclTk dan Snack
Fast Fourier Transform Parameter
LPC
0
20
40
60
80
100
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 410 Fast Fourier Transform LPC dengan
menggunakan perangkat lunak TCLTk
dan Snack
Hasil gambar 410 menunjukkan bahwa parameter LPC yang di-Fourier Transform-kan akan menjadi
selubung spektrum dari spektrum sinyal masukan Sehingga jika selubung dan spektrumnya secara gambar
cocok dapat dikatakan bahwa LPC parameter yang dihitung benar
Bab 4 Pengujian dan Analisa
43
4272 Dengan menggunakan Wavesurver
Gambar 411 Fast Fourier Transform LPC denganmenggunakan perangkat lunak
Wavesurver
Hasil gambar 411 menunjukkan bahwa parameter LPC yang di-Fourier Transform-kan akan menjadi
selubung spektrum dari spektrum sinyal masukan adalah sama dengan yang telah diperoleh dengan
perangkat lunak TclTk seperti pada gambar 410
428 LPC Parameter to LPC Cepstrum
Koefisien LPC cepstrum koefisien yang direpresentasikan dengan Fourier Transform dengan spektrum
besaran log telah ditampilkan menjadi kumpulan fitur untuk pengenalan wicara yang lebih handal
terpercaya daripada koefisien LPC koefisien PARCOR atau koefisien log area ratio
Hasil dari LPC cepstrum pada penggalan kata ldquoempat matirdquo pada milidetik ke-106 dalam bentuk teks adalah
16636311
1387922
0474473
0654796
0429659
0132543
0225374
0126501
0021161
0242437
Bab 4 Pengujian dan Analisa
44
0160623
0065745
0139379
0056064
-0029262
Dari hasil di atas dapat dianalisa bahwa besaran-besaran dari LPC cepstrum benar-benar dapat
digunakan sebagai penentu ciri dari sinyal suara individu karena besaranndashbesaran yang dihasilkan oleh LPC
cepstrum dari yang pertama sampai yang terakhir dalam satu frame sangat bervariasi nilainya
429 Inverse Fast Fourier Transform LPC Cepstrum
Untuk menggambarkan ciri atau fitur wicara dalam domain waktu maka LPC cepstrum di-Invers Fast
Fourier Transform-kan sehingga didapatkan gambar untuk penggalan kata ldquosatu nyalardquo pada milidetik ke-
400 seperti gamabar 412
Fast Fourier Transform LPC
Cepstrum
0
20
40
60
80
100
120
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 412 Invers Fast Fourier Transform LPC cepstrum dengan menggunakan
perangkat lunak TCLTk dan Snack
Dari gambar 412 dapat dianalisa bahwa bentuk dari invers fourier transform LPC cepstrum yang
menyerupai selubung pada domain waktu dari spektrum frekuensi juga digunakan untuk menunjukkan
bahwa perhitungan LPC cepstrumnya telah benar dan dapat digunakan sebagai penentu ciri sinyal suara
individu
Invers Fast Fourier Transform LPC
Cepstrum
Bab 4 Pengujian dan Analisa
45
Gambar 413 Penggabungan spektrum sinyal spektrum LPC dan spektrum LPC
Cepstrum
Gambar 413 spektrum sinyal yang diwakili warna merah merupakan hasil sinyal yang telah di-Fast
Fourier Transform-kan Spektrum sinyal yang berwarna hijau merupakan parameter LPC yang telah di-
Fourier Transform-kan Sinyal ini akan menjadi selubung spektrum dari spektrum sinyal masukan Bila
selubung dan spektrumnya secara gambar cocok maka dapat dikatakan bahwa LPC parameter yang dihitung
adalah benar Dari gambar 413 dapat dilihat antara selubunga dan selubung sinyal masukan sudah cocok
Sinyal yang berwarna biru merupakan sinyal rata-rata dari sinyal selubung spektrum
4210 Dynamic Time Warping
Pengujian terakhir dari proses pengolahan sinyal wicara adalah membandingkan sinyal hasil cepstrum LPC
antara data input dan data standarnya Berdasarkan daerah pembatas kontinyuitas lokal dari persamaan 21
maka digunakan model yang pertama dan menggunakan persamaan 2116 dalam menghitung jarak antara
kata sebagai standar dan sebagai masukan
Selanjutnya menetukan data data sebagai data standar dan data sebagai data masukan Pada sistem ini
digunakan 8 kombinasi kata sebagai kata standar dan kata msukan untuk masing-masing pengujian dengan
kata standar sebanyak sepuluh (10) kali Adapun kata yang digunakan sebagai standar dan kata yang diuji
adalah meliputi satu nyalasatu matidua nyaladua matitiga nyalatiga matiempat nyalaempat
mati
Pada pengujian sistem kali ini masih menggunakan datasuara dari pebgucap yang sama Dari kelima data
standar yang ada dilakukan pembandingan dengan masing-masing 10 (sepuluh) kali pemasukan data Data
yang menghasilkan jarak euclidian terpendek dari masing-masing kata itulah yang akan diambil sebagai
data perintah terbaik
Bab 4 Pengujian dan Analisa
46
Pelekukan Jalur Suara
0
50
100
150
0 50 100 150
Sinyal Input empat mati
Sinyal Standart
empat mati
Gambar 414 Pelekukan Jalur Suara dengan Dynamic Time Warping
Dari gambar 414 dapat dianalisa bahwa dengan menggunakan dynamic time warping dua buah sinyal suara
akan dibandingkan vektor-vektor spektralnya dimana juga terdapat proses pembandingan panjang sinyal
antara dua buah sinyal tersebut sehingga terjadi proses pemadanan panjang sinyal dengan cara
memperpanjang dan menekuk vektor spektralnya Memperpanjang dalam arti memperpanjang sinyal yang
lebih pendek dengan memperhatikan perbandingan vektor spektralnya dan demikian pula menekuk dalam
arti menekuk sinyal yang lebih panjang dengan memperhatikan vektor spektralnya Dengan panjang yang
sama sebagai hasil dynamic time warping maka jarak euclidian antara dua sinyal dapat diperbandingkan
atau dihitung
4211 Min Value dan Sorting
Min Value dan Sorting menjadi satu paket sendiri yang digunakan untuk mencari kemungkinan hasil
terkecil dari pembandingan pola kata masukkan dengan kedelapan kata standart Keluaran dari fungsi
dynamic time warping akan memberikan delapan buah data yaitu hasil pembandingan kata masukan
dengan kata standart satu nyala hasil pembandingan kata masukan dengan kata standart satu mati hasil
pembandingan kata masukan dengan kata standart dua nyala hasil pembandingan kata masukan dengan
kata standart dua mati hasil pembandingan kata masukan dengan kata standart tiga nyala hasil
pembandingan kata masukan dengan kata standart tiga mati hasil pembandingan kata masukan dengan
kata standart empat nyala hasil pembandingan kata masukan dengan kata standart empat mati Dengan
metode sorting buble sort maka akan didapat nilai minimalnya
0748745
0362272
0633390
0327642
0600250
0346530
Bab 4 Pengujian dan Analisa
47
0545907
0207464
Berdasarkan data diatas maka perintah input sama dengan perintah kedelapan (ldquoempat matirdquo) karena
memiliki hasil time warping terkecil yaitu 0207464
4212 Hasil Pengujian Awal dan Akhir Sinyal
Pada proses penentuan awal dan akhir agar lebih presisi menggunakan ldquoPowerrdquo Adapun kelebihan dari
power adalah dapat membedakan antara sinyal suara dengan sinyal noise
Untuk menentukan awal dan akhir dicari nilai power Pada proses power kata yang telah disampel
sebanyak 240 sampel akan menghasilkan sinyal yang halus dan terletak di atas sumbu x Hasil dalam bentuk
teks adalah sebagai berikut ini
7678195313
1165659297
123492625
8917128906
6318766797
4531086719
4338374609
4912630469
5382503125
4548908984
429756875
4739710547
4575902734
4682924609
4786217578
Bab 4 Pengujian dan Analisa
48
Gambar hasil power bisa dilihat pada gambar 415 berikut
Power
0
100000
200000
300000
400000
500000
0 50 100 150
Jumlah Frame
Amplitude
Gambar 415 Sinyal ldquoempat matirdquo hasil program power
Gambar 416 berikut ini adalah hasil pengujian kata ldquoempat matirdquo sebagai masukan dan kata standar ldquoempat
matirdquo dimana kedua kata dibandingkan berdasarkan powernya sebelum proses Dinamic Time Warping
Sinyal warna biru sebagai power sinyal standart dan sinyal yang berwarna merah merupakan power sinyal
input
Perbandingan Dua Kata empat mati
sebelum DTW
0
100000
200000
300000
400000
500000
0 50 100 150
Jumlah Frame
Amplitude
Gambar 416 Perbandingan power dua kata ldquoempat matirdquo sebelum Dynamic Time Warping
Berikut ini adalah hasil pengujian dua buah kata ldquoempat matirdquo dengan menggunakan dynamic time warping
dimana jalur pelekukan suara dapat digambarkan pada gambar 417
Bab 4 Pengujian dan Analisa
49
Pelekukan Jalur Suara
0
50
100
150
0 50 100 150
Sinyal Input empat mati
Sinyal Standart
empat mati
Gambar 417 Pelekukan jalur suara dua kata ldquoempat matirdquo dengan DTW
Gambar 418 adalah hasil pengujian dua buah kata ldquoempat matirdquo sebagai masukan dan dan kata standar
ldquoempat matirdquo dimana kedua kata dibandingkan berdasarkan powernya setelah proses dynamic time
warping
Gambar 418 dapat dibandingkan dengan gambar 416 yaitu sinyal sebelum proses Dynamic Time Warping
Sebelum proses Dynamic Time Warping sinyal tidak mengalami proses penekukan dan penarikan data
berdasarkan waktu antara keduanya sehingga antara sinyal input dan sinyal standart memiliki ukuran
panjang yang sangat jauh berbeda
Pemadanan Dua Kata Setelah DTW
0
100000
200000
300000
400000
500000
0 100 200 300
Jumlah Frame
Amplitude Power
Gambar 418 Perbandingan power dua kata ldquoempat matirdquo setelah Dynamic Time Warping
Dari gambar 418 dapat dinyatakan bahwa setelah melalui proses dynamic time warping terjadi penekukan
dan penarikan data berdasarkan waktu antara keduanya sehingga pada akhirnya kedua sinyal memiliki
ukuran panjang yang sama Sehingga dengan demikian dapat dicari jarak euclidian untuk menentukan
sebuah kata yang sesuai dengan kata yang lainnya
Bab 4 Pengujian dan Analisa
50
4213 Hasil Pengujian Sistem Perangkat Lunak
Pada pengujian sistem perangkat lunak diambil sampel data dari 3 orang dimana terdiri dari 3 orang pria
dan 1 orang wanita Pria pertama merupakan standar sekaligus pengisi suara untuk perintah Sedangkan pria
kedua dan wanita sebagai pembanding untuk mengetahui unjuk kerja sistem
Tabel 41 Hasil pengujian sistem pengolahan sinyal wicara untuk pengucap yang sama (pria
1)
8 7 6 5 4 3 2 1 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05417
03487
05964
03443
07272
04424
03449
01
961
Satu
nyala
Sinyal Standart
02496
04723
03013
05120
03450
03815
01
739
03471
Satu
mati
04389
02035
06139
03244
04343
02
158
04567
04047
Dua
nyala
01866
04517
04157
05267
01
940
02561
02036
04779
Dua
mati
04833
02168
03984
01
090
06409
04278
05019
02690
Tiga
nyala
02683
04628
01
188
03416
04046
03345
02959
04614
Tiga
mati
03807
01
046
05271
01974
05934
03134
04363
02554
Empat
nyala
01
388
03728
02269
04497
02559
03195
02476
04874
Empat
mati
Bab 4 Pengujian dan Analisa
51
16
15
14
13
12
11
10
9 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05776
02988
05100
04019
06101
05338
04219
02
047
Satu
nyala
Sinyal Standart
03382
04381
02427
05124
02642
05990
02
706
03335
Satu
mati
04453
02558
04993
04574
03381
02
344
04529
04121
Dua
nyala
01669
04532
03190
06355
01
004
04807
03466
04622
Dua
mati
05209
02261
03366
01
124
05377
04165
05369
02660
Tiga
nyala
03721
04074
00
891
03002
02637
05958
02719
04333
Tiga
mati
03889
01
755
04365
02341
04826
03150
05193
02472
Empat
nyala
01
092
03974
01802
04848
01455
05343
02717
04536
Empat
mati
Bab 4 Pengujian dan Analisa
52
24
23
22
21
20
19
18
17 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05157
04015
06277
02964
05609
04690
03376
01
369
Satu
nyala
Sinyal Standart
01787
05144
03814
04134
04952
04843
01
636
03404
Satu
mati
03988
03026
07420
03020
03977
01
905
04801
03610
Dua
nyala
01630
05662
06259
05009
01
808
03357
02206
05094
Dua
mati
04667
02681
05731
01
448
05575
03280
05344
03417
Tiga
nyala
01902
05055
03
395
02597
04700
04618
02951
04808
Tiga
mati
03809
01
863
06920
02154
04252
02455
04616
03184
Empat
nyala
00
761
04379
04288
04053
03629
04122
02419
05622
Empat
mati
Bab 4 Pengujian dan Analisa
53
32
31
30
29
28
27
26
25 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
04793
03554
06312
03247
06514
03585
03068
02
935
Satu
nyala
Sinyal Standart
01671
04661
03012
03961
02834
04667
01
079
05475
Satu
mati
04033
02359
05307
02587
03475
01
587
04781
04010
Dua
nyala
02222
04949
03652
04387
00
958
03222
02647
04966
Dua
mati
04499
02207
04170
01
873
05884
02500
05631
03257
Tiga
nyala
01791
04432
01
196
02646
02999
04619
02558
05048
Tiga
mati
03561
01
050
05061
02437
04927
01887
05325
03424
Empat
nyala
00
858
03774
02052
03974
01440
04186
02597
05381
Empat
mati
Bab 4 Pengujian dan Analisa
54
40
39
38
37
36
35
34
33 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
06471
03838
05816
03364
06492
03613
03496
01
111
Satu
nyala
Sinyal Standart
02951
05556
02631
04558
05057
04799
01
683
02958
Satu
mati
05259
02977
05228
03305
04614
00
878
05159
02707
Dua
nyala
03165
05686
03078
05512
01
088
03082
03482
04823
Dua
mati
05397
02037
03714
00
949
06365
02818
05998
02829
Tiga
nyala
02990
04867
00
921
02759
04978
04752
03131
04533
Tiga
mati
05028
01
233
05114
02070
05154
01825
05439
01975
Empat
nyala
01
914
04521
01834
04248
02711
04164
03149
04755
Empat
mati
Bab 4 Pengujian dan Analisa
55
48
47
46
45
44
43
42
41 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
07997
03701
06005
03992
05800
05223
03706
01
198
Satu
nyala
Sinyal Standart
03909
04978
02572
05339
05784
05103
01
161
03113
Satu
mati
06284
02355
05419
04194
03709
02
588
04764
02834
Dua
nyala
03737
04883
03321
06131
03
489
04229
03188
04962
Dua
mati
05885
02259
04026
00
918
06123
03601
05739
0 2867
Tiga
nyala
03583
04464
00
974
03340
05828
05114
02720
04269
Tiga
mati
05762
01
230
7
05459
02231
04899
03397
05114
0 2395
Empat
nyala
02
247
02888
01948
04994
04987
04505
02141
0 4956
Empat
mati
Bab 4 Pengujian dan Analisa
56
56
55
54
53
52
51
50
49 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05627
03923
06226
04018
05254
04895
02933
02
009
Satu
nyala
Sinyal Standart
02473
04947
02892
05661
05301
05040
01
289
03008
Satu
mati
04393
02779
06046
04425
02900
01
743
04571
02669
Dua
nyala
02222
05352
04171
06748
01
202
03736
03177
03699
Dua
mati
04644
02488
03523
00
835
05391
03319
05277
03671
Tiga
nyala
02213
04345
01
009
03758
02869
05933
02761
03900
Tiga
mati
04093
01
443
05080
05083
04959
02819
04840
02709
Empat
nyala
01
239
04029
0 2223
05428
01263
04236
02575
04141
Empat
mati
Bab 4 Pengujian dan Analisa
57
64
63
62
61
60
59
58
57 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
07489
03792
05134
04199
06459
04019
03044
01
850
Satu
nyala
Sinyal Standart
03586
04783
02186
05509
02884
04251
01
198
03243
Satu
mati
05697
02612
04576
04268
03211
01
519
04639
03845
Dua
nyala
03563
05288
02855
06752
01
074
03523
03265
04523
Dua
mati
05768
02262
03884
01
048
06348
02633
05784
02683
Tiga
nyala
03449
04859
01
009
03177
03425
04355
02975
04077
Tiga
mati
05693
01
445
04574
02498
05298
01999
05622
02359
Empat
nyala
02
236
04215
01468
05161
01827
03851
03161
04416
Empat
mati
Bab 4 Pengujian dan Analisa
58
72
71
70
69
68
67
66
65 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05439
02975
05593
03689
05796
03415
03416
01
492
Satu
nyala
Sinyal Standart
02225
04543
04586
04584
02669
04529
01
112
02881
Satu
mati
04025
02639
06303
03009
02582
01
003
05045
02767
Dua
nyala
01734
05437
04847
04897
00
826
02892
02584
04797
Dua
mati
04671
02336
04988
01
206
05595
02572
05647
02991
Tiga
nyala
02095
04805
04
025
02747
02848
04359
02773
04076
Tiga
mati
03971
01
297
05065
02121
04489
01703
05074
02131
Empat
nyala
00
901
04123
04026
04154
01514
03762
02328
04561
Empat
mati
Bab 4 Pengujian dan Analisa
59
80
79
78
77
76
75
74
73 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
07997
03054
06228
04446
05805
04687
03173
03
391
Satu
nyala
Sinyal Standart
05051
04619
05619
05749
02631
04447
01
086
05310
Satu
mati
05949
03685
05899
05607
03163
01
874
05234
03797
Dua
nyala
03109
05053
05258
07102
01
095
03368
03585
04539
Dua
mati
06473
02004
04524
01
350
05525
03084
05608
03682
Tiga
nyala
04759
04205
04
309
03701
03031
04660
02678
05243
Tiga
mati
05572
02
003
05167
02702
04478
02552
05358
03563
Empat
nyala
02
459
04960
04964
05734
01641
03971
02630
05029
Empat
mati
Pengujian pertama ini dilakukan dengan cara memasukkan suara pria pertama (yang digunakan sebagai
pengisi suara standart) Setiap satu perintah dilakukan sebanyak 10 kali pengujian Hasil pengujian
merupakan nilai dari hasil proses Dynamic Time Warping yang merupakan nilai dari pemadanan sinyal
input dengan kedelapan sinyal standart Nilai terkecil (nilai yang tercetak tebal) yang didapatkan merupakan
hasil yang paling mendekati sinyal standart Yang berarti sinyal masukan tersebut dianggap paling sesuai
dengan sinyal standart
Prosentase keberhasilan pengucapspeaker pertama untuk kedelapan perintah sebesar 100 semuanya
menunjukkan kepada sinyal masukkan dan sinyal standart yang sama
Hasil pengujian menunjukkan bahwa ciri sinyal suara yang dihasilkan oleh pengucap speaker pertama dan
sebagai pemberi standart adalah sama
Bab 4 Pengujian dan Analisa
60
Tabel 42 Hasil pengujian sistem pengolahan sinyal wicara untuk pengucap yang lain (pria
2)
8 7 6 5 4 3 2 1 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
06023
05121
07146
04599
04996
04561
07575
04
358
Satu
nyala
Sinyal Standart
04018
05701
06369
06256
03518
05738
07004
08129
Satu
mati
07120
03925
07395
04897
05938
02246
10082
06777
Dua
nyala
04963
05958
05189
07345
03449
04854
08816
08543
Dua
mati
05919
04337
05163
02
130
04797
03463
08871
05289
Tiga
nyala
03709
04519
04380
03601
03491
05239
06
046
07381
Tiga
mati
06087
03
161
06178
03280
05
068
02
439
08853
05354
Empat
nyala
03
409
04321
04
208
05569
03219
04898
06863
08596
Empat
mati
Bab 4 Pengujian dan Analisa
61
16
15
14
13
12
11
10
9 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05475
03932
05521
04
383
05634
05416
04
464
03
434
Satu
nyala
Sinyal Standart
04076
05731
04541
05681
03574
04920
03971
06662
Satu
mati
07427
04886
07924
05962
05824
02
712
07837
05504
Dua
nyala
04475
06666
05765
07616
03414
04203
05431
06334
Dua
mati
05357
03797
05099
04509
04902
04332
07097
05220
Tiga
nyala
04197
05134
04
209
05088
03169
04547
04464
06516
Tiga
mati
05936
03
769
05910
05109
05
311
03435
07646
04977
Empat
nyala
03
576
05767
04591
06367
03010
04129
04944
06850
Empat
mati
Bab 4 Pengujian dan Analisa
62
24
23
22
21
20
19
18
17 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
06927
04
279
08096
04
448
06461
05522
03935
02
444
Satu
nyala
Sinyal Standart
06409
05322
05528
05481
04912
04491
02
011
05508
Satu
mati
06134
04643
08962
06002
04868
02
579
06122
05502
Dua
nyala
04753
06443
05501
07364
02
298
03206
04239
06684
Dua
mati
05709
04928
05456
04961
06142
05726
06454
03831
Tiga
nyala
05798
04882
03
235
04708
04838
04317
03526
05462
Tiga
mati
05021
04423
06842
05583
05222
04132
06363
04235
Empat
nyala
04
457
05427
03546
05773
02946
03573
03618
07019
Empat
mati
Bab 4 Pengujian dan Analisa
63
32
31
30
29
28
27
26
25 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05260
04224
07393
04661
06292
04993
03989
03
549
Satu
nyala
Sinyal Standart
04478
04669
04568
05977
03523
04046
03
438
04819
Satu
mati
06448
04308
08152
06114
04665
02
444
07609
05162
Dua
nyala
04024
05867
05103
07873
01
872
02613
04489
06765
Dua
mati
05363
04
672
05250
04
529
05210
05103
06546
04794
Tiga
nyala
04422
04039
02
482
05102
03499
03985
03969
04371
Tiga
mati
05492
04073
06626
05239
04902
03553
06869
04794
Empat
nyala
03
326
04543
03153
06510
02133
03419
04175
05287
Empat
mati
Hasil pengujian yang kedua ini dilakukan dengan cara memasukkan suara dari pria kedua (pria lain yang
tidak digunakan sebagai suara standart) Setiap satu perintah dilakukan empat (4) kali proses pengujian
Hasil pengujian merupakan nilai dari hasil proses Dynamic Time Warping yang merupakan nilai dari
pemadanan sinyal input dengan kedelapan sinyal standart Nilai terkecil (nilai yang tercetak tebal) yang
didapatkan merupakan hasil yang paling mendekati sinyal standart Yang berarti sinyal masukan tersebut
dianggap paling sesuai dengan sinyal standart
Prosentase keberhasilan pengucapspeaker kedua untuk kedelapan perintah bervariasi sebesar 50
sampai dengan 100 semuanya menunjukkan kepada sinyal masukkan dan sinyal standart yang berbeda
Hasil pengujian menunjukkan bahwa ciri sinyal suara yang dihasilkan oleh pengucap speaker kedua dan
sebagai pemberi standart adalah mendekati sama
Bab 4 Pengujian dan Analisa
64
Tabel 43 Hasil pengujian sistem pengolahan sinyal wicara untuk pengucap yang sama (pria)
No Perintah Lampu DTMF
1 1 nyala B B
2 1 mati B G
3 2 nyala B G
4 2 mati G X
5 3 nyala G X
6 3 mati G X
7 4 nyala B B
8 4 mati B B
9 1 nyala B G
10 1 mati B B
11 2 nyala B G
12 2 mati B B
13 3 nyala B G
14 3 mati B B
15 4 nyala B G
16 4 mati B B
17 1 nyala B G
18 1 mati B B
19 2 nyala G X
20 2 mati G X
21 3 nyala B B
22 3 mati B B
23 4 nyala B B
24 4 mati G X
No Perintah Lampu DTMF
25 1 nyala B G
26 1 mati G X
27 2 nyala G X
28 2 mati B G
29 3 nyala B G
30 3 mati B G
31 4 nyala B G
32 4 mati G X
B Berhasil
G Gagal
X Donrsquot Care (Diabaikan)
Pengujian yang ketiga ini dilakukan oleh pria pertama (pria yang suaranya digunakan sebagai standart)
Masing-masing perintah dilakukan sebanyak empat kali pengujian
Bab 4 Pengujian dan Analisa
65
Pada kolom ketiga (kolom lampu) tanda B (berhasil) menunjukkan bahwa perintah yang diberikan pada
hardware berhasil dilakukan Tanda G (gagal) menunjukkan bahwa perintah yang diberikan pada hardware
gagal dilakukan(hasil tidak sesuai dengan perintah yang diberikan)
Pada kolom keempat (kolom DTMF) menunjukkan laporan dari hardware ke PC server tentang
bagaimana keadaan lampu yang sedang dikontrol apakah dalam keadaan menyala atau mati Pada kolom ini
tanda B (berhasil) menunjukkan bahwa laporan dari hardware ke PC server (yang merupakan proses
otomatisasi) berhasil dilakukan Tanda G (gagal) menunjukkan bahwa laporan ke PC client gagal dilakukan
Sedangkan tanda X (donrsquot care) menunjukkan bahwa perintah diabaikan Hal ini disebabkan perintah pada
hardware (perintah sebelumnya sebelum proses otomatisasi) sudah gagal dilakukan
Prosentase keberhasilan pengucapspeaker pertama untuk kedelapan perintah bervariasi antara 50
sampai 100 semuanya menunjukkan kepada sinyal masukkan dan sinyal standart yang berbeda
Hasil pengujian kedua ini menunjukkan bahwa ciri sinyal suara yang dihasilkan oleh pengucapspeaker
kedua ini yang merupakan suara orang lain (bukan pemberi standart) adalah mendekati sama dengan hasil
yang bervariasi antara 50 sampai 100
43 Pengujian Sistem Client Server
Pada sub bab ini akan diujikan program Client Server yang akan mengirimkan sinyal hasil pengolahan
suara
Tampilan pada client adalah seperti gambar 421 yang merupakan tampilan awal pada saat program
dimulai
Gambar 421 Proses pada client
Bab 4 Pengujian dan Analisa
66
Gambar 422 Proses pada server
1 Sebelumnya program server harus disiapkan lebih dulu
2 Setelah itu client dijalankan
3 Setelah client siap user memasukkan suara yang selanjutnya akan diolah sampai proses DTW
4 Server menerima data yang selanjutnya digunakan untuk melakukan kontrol alat rumah tangga
44 Analisa Pengujian Sistem Secara Keseluruhan
Berdasarkan data-data yang telah didapatkan di atas maka dapat ditarik suatu analisa bahwa
Berdasarkan tabel 44 untuk pengujian pertama pria 1 adalah pria yang suaranya digunakan sebagai standart
Prosentase keberhasilan rata-rata yang didapat untuk semua perintah adalah sebesar 100 Hal ini menunjukkan
bahwa suara yang diujikan adalah suara yang sama dengan standart dan pria 1 tersebut pernah berinteraksi
dengan sistem
Pengujian yang kedua adalah pengujian yang dilakukan oleh pria 2 (pria lain yang suaranya tidak
dipakai sebagai standart) Prosentase keberhasilan rata-rata yang didapat untuk semua perintah 7188 Karena
sistem bersifat dependent speaker dimana sistem hanya digunakan oleh orang tertentu dalam arti yang pernah
berinteraksi langsung dengan sistem Oleh karenanya didapat nilai prosentase keberhasilan yang bervariasi
Bab 4 Pengujian dan Analisa
67
Tabel 44 Tingkat keberhasilan sistem perangkat lunak
NNO
PENGUCAP
PERINTAH
BANYAK
PERCOBAAN
PROSENTASE
KEBERHASILAN
1 Pria 1 1 nyala 8 kali 100
2 1 mati 8 kali 100
3 2 nyala 8 kali 100
4 2 mati 8 kali 100
5 3 nyala 8 kali 100
6 3 mati 8 kali 100
7 4 nyala 8 kali 100
8 4 mati 8 kali 100
RATA-RATA 100
9 Pria 2 1 nyala 4 kali 100
10 1 mati 4 kali 75
11 2 nyala 4 kali 75
12 2 mati 4 kali 50
13 3 nyala 4 kali 50
14 3 mati 4 kali 75
15 4 nyala 4 kali 50
16 4 mati 4 kali 100
RATA-RATA 7188
Jika diurutkan proses pengolahan wicara dari awal sampai diambil keputusan suara yang dimasukkan
tersebut adalah suara yang sesuai atau tidak adalah sebagai berikut
Bab 4 Pengujian dan Analisa
68
Gambar 423 Tampilan awal perangkat lunak menggunakan TclTk dan Snack
Gambar 423 adalah tampilan awal dari perangkat lunak yang dibangun dengan menggunakan TclTk dan
Snack
Gambar 424 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan dengan
menggunakan perangkat lunak Wavesurver
Gambar 424 adalah tampilan awal dari program Wavesurver yang merupakan pembanding dari program
yang dibuat dari perangkat lunak TclTk dan Snack
Bab 4 Pengujian dan Analisa
69
Gambar 425 Tampilan awal perangkat lunak
menggunakan TclTk dan Snack
Gambar 425 adalah tampilan ketika proses pengambilan sinyal suara sedang dilakukan dengan perangkat
lunak TclTk dan Snack
Gambar 426 Tampilan hasil perekaman kata ldquoempat
matirdquo dengan menggunakan perangkat lunak Wavesurver
Gambar 426 adalah tampilan ketika proses pengambilan sinyal suara sedang dilakukan dengan perangkat
lunak Wavesurver
Bab 4 Pengujian dan Analisa
70
Data Sampling
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 427 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900 menggunakan TclTk dan
Snack
Pada gambar 427 dilakukan proses sampling sinyal masukan dengan frekuensi sampling sebesar 12000
Hz maka didapatkan hasil sinyal yang hampir mirip dengan sinyal analognya yang dilakukan dengan
perangkat lunak TclTk dan Snack
Gambar 428 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900 dengan menggunakan
perangkat Wavesurver
Pada gambar 428 dilakukan proses sampling sinyal masukan dengan frekuensi sampling sebesar 12000
Hz yang dilakukan dengan perangkat lunak Wavesurver
Data Windowing
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 429 Hasil Windowing data sampel
kata ldquoempat matirdquo milidetik ke-13900 menggunakan TclTk dan Snack
Bab 4 Pengujian dan Analisa
71
Proses windowing terdapat pada gambar 429 dilakukan untuk membuat sinyal yang disampel lebih
halus Proses windowing ini dilakukan dengan menggunakan perangkat lunak TclTk dan Snack
Proses windowing pada Wavesurver merupakan fasilitas yang tergabung dengan proses lainnya Misal
dengan proses Fast Fourier Transform Jadi disini tidak ditampilkan hanya sebagai proses windowing saja
tetapi digabungkan dengan proses lain
Fast Fourier Transform Sinyal
Masukan
0
20
40
60
80
100
120
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 430 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat
lunak TclTk dan Snack
Gambar 430 di atas adalah proses Fast Fourier sinyal masukan dengan perangkat lunak TclTk dan Snack
Hasil Fast Fourier Transform sinyal masukan menunjukkan sebaran spektrum frekuensi dari sinyal suara
yang telah dihasilkan oleh pengucap
Sebagai pembanding adalah proses Fast Fourier sinyal masukan yang diambil dengan Wavesurver seperti
pada gambar 431 Yang didapatkan hasil yang sama
Gambar 431 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat Wavesurver
Bab 4 Pengujian dan Analisa
72
Fast Fourier Transform Parameter
LPC
0
20
40
60
80
100
0 2000 4000 6000 8000
Frekuensi (Hz)10 x log
10(magnitude)(dB)
Gambar 432 Fast Fourier Transform LPC dengan menggunakan perangkat lunak TCLTk
dan Snack
Hasil gambar 432 menunjukkan proses Fast Fourier Transform LPC yang dilakukan dengan perangkat
lunak TclTk dan Snack
Gambar 433 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat Wavesurver
Proses Fast Fourier Transform yang dilakukan dengan Wavesurver dapat dilihat pada gambar 433
Pelekukan Jalur Suara
0
50
100
150
0 50 100 150
Sinyal Input empat mati
Sinyal Standart
empat mati
Gambar 434 Pelekukan Jalur Suara dengan Dynamic Time Warping
Bab 4 Pengujian dan Analisa
73
Dari gambar 434 dapat dianalisa bahwa dengan menggunakan dynamic time warping terdapat proses
pembandingan panjang sinyal antara dua buah sinyal input dan sinyal standart sehingga terjadi proses
pemadanan panjang sinyal dengan cara memperpanjang dan menekuk vektor spektralnya
74
BAB 5
PENUTUP
51 Kesimpulan
Dari hasil yang didapatkan maka dapat diambil kesimpulan bahwa
Sistem pengucap tak bebas atau speaker dependent system memiliki tingkat akurasi yang tinggi untuk
pengucap masukan dan pengucap standar yang sama Hal ini dibuktikan dengan hasil pengujian pertama
yang dilakukan oleh pria pertama Pria pertama ini adalah pria yang suaranya digunakan sebagai standar
Nilai prosentase keberhasilan rata-rata untuk semua perintah adalah sebesar 100 dari setiap perintah
dilakukan 8 kali percobaan
Sedangkan pengujian yang dilakukan oleh suara lain (bukan standart) prosentatase keberhasilan
rata-rata yang diperoleh untuk semua perintah 7188 dari setiap perintah dilakukan 4 kali percobaan Hal
ini disebabkan karena suara pria kedua tidak pernah berinteraksi dengan sistem
Keberhasilan sistem ditunjukkan oleh ketepatan penyalaan lampu sesuai dengan yang diperintahkan
melalui perintah suara
Kecepatan sistem secara keseluruhan diperlihatkan dalam tabel 51 dibawah
Tabel 51 Kecepatan sistem keseluruhan
No
Perintah
Waktu (detik)
1 2 3 4 Rata-rata
1 Satu Nyala 11 99 12 25 16 89 14 05 13 80
2 Satu Mati 12 51 13 28 14 83 12 25 13 22
3 Dua Nyala 10 70 11 73 11 99 12 25 11 67
4 Dua Mati 10 44 11 21 11 21 11 47 11 08
5 Tiga Nyala 10 96 12 25 13 54 12 51 12 32
6 Tiga Mati 10 70 11 99 11 99 13 28 11 99
7 Empat Nyala 11 73 11 99 13 02 12 24 12 25
8 Empat Mati 10 70 09 93 11 21 10 70 10 64
Rata-rata 12 12
Dari data yang diperoleh didapatkan kecepatan rata-rata untuk tiap perintah yang diberikan sampai
dengan terlaksananya eksekusi dari perintah adalah 12 12 detik
52 Saran
Pada penelitian ini masih sangat banyak hal yang dapat dilakukan untuk perbaikan-perbaikan dimasa
selanjutnya Saran dan usulan yang dapat dipertimbangkan untuk pengembangan sistem lebih lanjut adalah
antara lain
1 Sistem tidak lagi bersifat dependent speaker tetapi bersifat independent speaker dimana banyak
orang yang memberi perintah dan sistem dengan tepat memberikan respon
2 Sistem dapat mengatasi tingkat noise yang tinggi baik yang disebabkan oleh lingkungan atau oleh
hardware (sound card)
75
3 Otomatisasi sistem Artinya perintah tidak perlu lagi diberikan lewat penekanan tombol yang
dilakukan melalui mouse
4 Respon sistem yang real time
5 Sistem yang dapat dengan mudah beradaptasi dengan jenis sound card yang bervariasi
DAFTAR PUSTAKA
Anggraeni Triana Dewi Astutik Debi Puji Pengenalan Wicara Dengan Penutur Tak Bebas
Tugas Akhir PENS ITS 2003
Wahyudi Agus Verifikasi Sinyal Suara Sebagai Kendali Arah TA PENS-ITS 2002
Dewantara Bima Sena Bayu Aplikasi Pengenalan Wicara Untuk Perintah NirkabelRobot Mikro
Mouse Tugas Akhir PENS ITS 2004
Dutono Titon Penataran Kebahasaan Tahap I Fonetik Dan Fonologi ndashPengolahan Sinyal
Wicara Digital 20 Februari 2001
Gabel Robert A Richard A Robert Sinyal dan Sistem LinierErlangga 1996
Rabiner Lawrence Huang Juang Biing Fundamentals of Speech Recognition Prentice Hall
International Inc1993
Proakis John G Malonakis Dimitris G Digital Signal Processing Principles Algorithms and
Applications Prentice Hall Inc New Jersey 1995
Scolander Kare Snack Sound Toolkit
httpwwwtcltkmantcl85tutorialTcl11html
httpwikitcltk4074
httpwwwinveceorgtclwisefrontcoverhtml
httpwwwspeechkthsesnackmansnack22tcl-manhtml
httpwwwspeechkthsesnacktutorialhtml
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13]
Bab 2 Teori Penunjang
7
y = H x
y = (1-az-1) xn
y = xn - 095 xn z-1
y = xn ndash 095 xn - 1
214 Frame Blocking
Sinyal wicara yang telah dipreemphasis s (n) diblok dalam M sampel dimana N 2 x M seperti yang
ditunjukkan pada gambar 27 Jika M le N pergeseran frame akan mengalami overlape hasil perkiraan LPC
spectral akan dikorelasikan dari frame 1 ke frame berikutnya Jika M laquo N perkiraan LPC spectral dari satu frame
ke frame lainnya akan sangat halus (smooth) Dan bila M gt N maka tidak akan ada overlape diantara frame yang
berbatasan dan sinyal suara akan hilang sama sekali dan korelasi diantara perkiraan spectral LPC dari frame
yang berbatasan akan berisi komponen noise
Gambar 27 Pergeseran Frame pada Sinyal Suara
dengan M = 13 N
Sehingga didapatkan nilai dari sinyal yang baru adalah sebagai berikut
x1(n) =s(M 1+n) n =012hellipN ndash 1 l = 012hellipLndash1 (24 )
215 Windowing
Merupakan proses membatasi lebar sinyal yang akan dianalisa yang dapat mengurangi efek
diskontinyuitas pada ujung-ujung frame yang dihasilkan oleh potongan-potongan sinyal Korelasi antara lebar
window dalam domain waktu dan amplitude berguna untuk menyederhanakan sinyal dengan mengurangi
puncak sinyalnya
Ada beberapa jenis windowing yang dinamakan sesuai dengan nama penemunya yaitu
Bab 2 Teori Penunjang
8
Window Hamming
052-046 cos[2лn(N-1)] 0 le n le N-1
Wham(n) =
0 elsewhere
Window Hanning
1-cos[2лn(N-1)] 2 0 le n le N-1
Whan(n) =
0 elsewhere
Window Bartlett
1-cos[2лn(N-1)] 2 0 le n le (N-1)2
WB(n) = 2-2n(N-1) (N-1)2lenleN-1
0 elsewhere
Window Blackman
042-05cos[2лn(N-1)]+008cos[4лn(N-1)]0lenleN-1
WBl(n) =
0 elsewhere
216 Fourier Transform
Transformasi Fourier Diskrit (DFT) adalah deretan yang terdefinisi pada kawasan frekuensi ndash diskrit
yang merepresentaskan Transformasi Fourier terhadap suatu deretan terhingga (Finite Duration Sequence) DFT
berperan penting untuk implementasi algoritma suatu varitas pengolah sinyal karena efisien untuk komputasi
berbagai aplikasi
Salah satu contoh aplikasi komputasi DFT dalam algoritma yang efisien yaitu Fast Fourier Transform
(FFT) Efisiensi suatu algoritma ditentukan dari sejauh mana dapat mereduksi jumlah perkalian dan
penjumlahan serta reduksi lalu lintas data pada memori komputer sehingga proses lebih cepat
Pada DFT untuk memproses N buah titik diperlukan (N-1)perkalian kompleks dan N(N-1)
penjumlahan kompleks Bila N cukup besar dibutuhkan memori yang besar dan waktu yang cukup lama Untuk
itu digunakan metode lain yang lebih cepat yaitu metode transformasi fourier cepat (FFT) FFT dilakukan
dengan membagi N buah titik pada transformasi fourier diskrit menjadi 2 masing-masing N2 titik trnsformasi
Pemecahan menjadi dua pada proses transformasi fourier cepat disebut sebagai proses rekombinasi Dua buah
N2 titik transformasi mempunyai 2(N2) = N2 perkalian Proses memecah menjadi dua ini diteruskan dengan
membagi setiap (N2) titik transformasi menjadi dua buah (N4) titik transformasi setiap (N4) menjadi dua buah
Bab 2 Teori Penunjang
9
(N8) titik transformasi dan seterusnya hingga diperoleh junlah titik yang minimum Jika besarnya N merupakan
kelipatan pangkat dari 2 (disebut radiks 2) maka jumlah titik minimum setelah setiap kali dibagi 2 adalah dua
Ada dua macam metode FFT metode Decimation in Time (DIT) dan metode Dicimation in Frekuensi
(DIF) Kedua metode ini hamper sama Pada metode FFT-DIT N buah titik transformasi dibagi 2 menjadi fungsi
ganjil dan genap masing-masing mempunyai N2 titik transformasi Sedang pada metode FFT-DIF N buah titk
transformasi dibagi menjadi fungsi N2 titk yang pertama dan fungsi N2 titik yang kedua
Operasi pada metode FFT-DIT disebut juga metode kupu-kupu Untuk N buah titik transformasi h(n)
algoritma radiks 2 memerlukan proses perkalian dan rekombinasi sebanyak N2 log N transformasi fourier
diskrit Pada metode FFT-DIT operasi dekomposisi dilakukan dengan membagi fungsi h(n) menjadi 2 bagian
fungsi ganjil dan fungsi genap Atau dengan pernyataan matematika h1(n) dan h2(n) yang masing-masing adalah
untuk n genap dan n ganjil
Prinsip FFT dengan metode DIT adalah seperti pada gambar 24 berikut ini
Gambar 28 Blok metode FFT-DIT 8 titik
7
Pada gambar di atas merupakan jumlah perkalian kompleks N2 log N juga jumlah penjumlahan
kompleks = N2 log N
217 Linear Prediction Code
Ide dasar dari LPC adalah bahwa pada model ini memberikan sampel suara pada domain waktu yang
bisa didekati sebagai kombinasi linear dari sampel suara yang telah lalu
Teori Linear Prediction Coding (LPC) yang diaplikasikan pada wicara telah dimengerti selama
beberapa tahun Pada bagian ini akan dijelaskan dasar dari bagaimana LPC diaplikasikan pada sistem pengenlan
wicara
Sebelum menjelaskan LPC secara umum sebagai pemrose front-end untuk pengenalan wicara perlu
diketahui alasan mengapa LPC sangat banyak digunakan yaitu
1 LPC menyuguhkan model yang bagus untuk sinyal wicara
2 Cara yang digunakan LPC untuk analisa sinyal wicara sangat beralasan untuk pemisahan track dari
sumber vocal
3 LPC adalah model traktabel secara analitis
Bab 2 Teori Penunjang
10
4 Model LPC bekerja dengan baik pada aplikasi pengenalan
2171 Autocorrelation Analysis
Masing-masing frame sinyal yang telah diwindow kemudian di-autokorelasikan dengan menggunakan
persamaan
N-1-M
r1(m) = sum x1(n) x1(n+m) m = 0 1 p ( 25) (25)
n = 0
dimana nilai autokorelasi tertinggi p adalah orde dari analisi LPC Pada umumnya nilai dari p yang
sering digunakan adalah dari 8 sampai 16 Sisi menguntungkan dari analisis autokorelasi adalah bahwa
autokorelasi ke-0 R1 (0) adalah energi dari frame ke-1 Energi dari frame merupakan parameter
penting untuk system deteksi wicara
2172 LPC Analysis
Langkah selanjutnya adalah analisis LPC dimana mengkonversi masing-masing frame dari
auto korelasi p+1 ke dalam sebuah ldquoLPC Parameter Setrdquo dimana kumpulan itu merupakan koefisien
LPC koefisien refleksi atau PARCOR koefisien log area ratio koefisien Cepstral atau beberapa
transformasi pada kumpulan tersebut
Metode yang formal untuk mengkonversi dari koefisien autokorelasi ke sebuah LPC parameter
set (untuk metode autokorelasi) dikenal sebagai Metode Durbin dan secara formal dapat ditunjukkan
pada algoritma berikut ini
E(0) = r(0) ( 26)
Ki=r(i)-sumαj(i-1) r(|i-j|)E(i-1) 1 le I le p ( 27)
αi(i) = ki (28)
αj(i) = αj
(i-1)-ki α(i-1) ( 29)
t-j
E(i)=(1-ki2)E (i-j) (210)
dimana penyajian akhir dari persamaan mengabaikan i=1 Kumpulan dari persamaan hellipdiselesaikan secara
rekursif untuk i=12hellipp dan penyelesaian akhir diberikan sebagai
am=koefisien PC=αm 1lemlep ( 211)
7 Agus Wahyudi Verifikasi Sinyal Suara Sebagai Kendali Arah TA PENS-ITS 2002
Bab 2 Teori Penunjang
11
km=koefisien PARCOR ( 212)
1 - km
gm=koefisien log area ratio = log ----------- ( 213)
1 + km
2173 LPC Parameter Corversion to Cepstral Coefficients
Sekumpulan parameter LPC yang sangat penting yang dapat diturunkan langsung dari kumpulan LPC
adalah koefisien cepstral LPC c(m) Rekursif yang digunakan adalah
co = ln σ2 ( 214)
m-1
cm = am + sum ck am-k 1 le m le p ( 215)
k = 1
m-1
cm = sum ck am-k m gt p
k = 1
dimana σ2 adalah penguatan dalam model LPC Koefisien cepstral koefisien yang direpresentasikan dengan
fourier transform dengan spectrum besaran log telah ditampilkan menjadi kumpulan fitur untuk pengenalan
wicara yang lebih handal terpercaya daripada koefisien LPC koefisien PARCOR atau koefisien log area ratio
218 Dynamic Time Wraping
Dynamic Time Wraping (DTW) merupakan cara untuk membandingkan pola wicara dalam menentukan
kesamaan jarak antara pola-pola yang berbeda Dimana pengenalan wicara merupakan proses secara otomatis
dalam mengambil dan menentukan informasi linguistic yang disampaikan dengan gelombang wicara
menggunakan komputer atau sirkuit elektronik Informasi linguistic tersebut pada akhirnya akan
direpresentasikan dengan deretan waktu vektor-vektor spektral
Metode nolmalisasi waktu menggunakan dua buah fungsi warping
ix = Фx (k) k = 123hellipT (216)
iy = Фy (k) k = 123hellipT
2181 Dynamic Programming
Dynamic Programming (DP) digunakan untuk memecahkan masalah deteksi pengurutan kemampuan
menggunakan pola pengenalan wicara dan masalah waktu penjajaran dan normalisasi Ada dua tipe masalah
penggunaan Dynamic Programming yaitu
(
)
k m
( )
K m ( )
Bab 2 Teori Penunjang
12
1 Masalah jalan optimal dengan menganggap sekumpulan titik mulai dari 1 sampai dengan N yang
dihubungkan dengan pasangan setiap dari titik (ij) Representasi perpindahan secara langsung dari titik
ke-1 ke titik yang lainnya Rentetan perpindahan tersebut tidak mempunyai bilangan yang ditetapkan
dari transisi satu titik ke titik yang lainnya hal ini disebut rentetan keputusan asinkron
Dengan Terminologi sederhana kita membuat garis keputusan untuk menetukan titk berikutnya setelah
kebijaksanaan pada titik i
Prinsip dari optimalisasi yang merupakan kelas dasar dari algoritma komputasi untuk optimasi masalah
di atas berdasarkan pernyataan Bellman
rdquoKebijakan optimasi yang memiliki sifat apapun ketetapan dan ketentuannya keputusan berikutnya
harus merupakan hasil ketetapan dari keputusan yang pertamardquo
2 Masalah keputusan rentetan sinkronisasi terdapat perbedaan dari satu sinkronisasi yang beraturan dari
proses keputusan
Penggunaan teknik Dynamic Programming pada Dynamic Time Warping untuk pertama kali dilakukan
oleh Slutsker (1968) Vintsyuk (1968) dan Volichko (1971) dari Jepang untuk pengenalan wicara Pada proses
ini pembicara mengucapkan kata yang sama dengan durasi berubah setiap waktu dengan ekspansi yang non
linier Oleh karena itu Dynamic Time Wraping adalah tahap yang penting dalam proses pengenalan kata Proses
DTW mengalami pengembangan pada sumbu waktu untuk mencocokan posisi phonemkata yang sama antara
input wicara dan referensi template
Dynamic Programing secara umum digunakan untuk memecahkan masalah rentetan keputusan yang
dilakukan pada bidang kisi sebagaimana ditampilkan pada gambar 27 Sinyal yang dicocokkan adalah A dan B
Di dalam bidang kisi sinyal A disesuaikan sepanjang sumbu ndashx dan sinyal B disesuaikan sepanjang sumbu ndashy
Setiap antar bagian pada bagian ini ditetapkan sebagai sebuah simpul atau titik dimana titik (ij) adalah
pencocokan frame I untuk sinyal A dengan frame j untuk sinyal B Misalnya diasumsikan dua rentetan waktu
untuk vektor utama yang dibandingkan sebagai berikut
A = a1a2hellipaI dan B = b1b2hellipbJ
Dengan menganggap rentang bidang antara A dan B sebagaimana ditunjukkan pada gambar 27
fungsi pelengkungan waktu yang sesuai menunjukkan waktu antara rentetan A dan B dapat dipresentasikan
sebagai rentetan titk-titik Lattice pada bidang c = (ij) sebagai berikut
Bab 2 Teori Penunjang
13
Gambar 29 Plane jaringan untuk ilustrasi
pemrograman dinamik8
Bilamana jarak spektral antara dua vektor utama a1 dan b1 direpresentasikan oleh d(c) = d(ij) penjumlahan
jarak dari awal sampai akhir dari rentetan sepanjang F dapat direpresentasikan dengan
K
sum d(ck)wk
k=1
D(F) = mdashmdashmdashmdashmdash (217)
K
sum wk
k=1
Semakin kecil nilai ini semakin baik kecocokan antara A dan B Dimana wk adalah fungsi pembobotan
positif terhadap F
Dengan memperkecil persamaan di atas dengan kondisi berikut
1 Kondisi monotonisasi dan kontinuitas
0 le ik-ik-1le1 0 lejk ndash jk -1 le 1 ( 218)
2 Kondisi perbatasan
I1=j1=Iik=Ijk=I (219)
3 Kondisi adjustmen window
|ik ndash jk|ler r=konstan ( 220)
Pendefinisian wk sedemikian rupa sehingga menyebut pada persamaan 219 menjadi konstan yang
tidak tergantung pada F Untuk contoh jika
Wk = (ik ndash ik -1)+(jk ndash jk -1)(i0=j0=0) wk akan menjadi
8 Ibid hal 15
Bab 2 Teori Penunjang
14
K
sum wk = I + J (221) k=1
dan persamaan 219 menjadi
1 K
D(F)= mdashmdash sum d(ck)wk ( 222)
I + J k=1
Gambar 210 DTW antara dua rentetan waktu A dan B
9
Karena fungsi obyektif yang akan diminimasi menjadi penjumlahan maka peminimisasi secara efisien
dapat diselesaikan tanpa harus menguji semua kemungkinan untuk F Penjumlahan pada sebagian rentetan c1
c2 hellip ck (ck=(ij)) adalah
(224)
Penurunan pemrograman dinamik pada persamaan-persamaan diatas penggunaan kondisi untuk F dan
formulasi perumusan wk persamaan 2115 dapat dituliskan kembali sebagai berikut
9 Ibid hal 17
Bab 2 Teori Penunjang
15
g(ij-1)+d(ij)
g(ij) = min g(i-1j-1) + 2d (ij) (225)
g(i-1j) +d(ij)
Oleh karena itu jarak antara dua rentetan waktu A dan B setelah DTW dapat diperoleh sebagai berikut
Kita set dari kondisi awal untuk g(11)=2d(11) dan j=1 dan hitung persamaan 2116 dengan variasi I dalam
sepanjang adjustment window Perhitungan ini diulangi dengan menaikkan j sampai j=1 Jarak keseluruhan
antara dua rentetan waktu A dan B dapat diperoleh dari g(IJ)(I+J)
2182 Batasan Normalisasi Waktu
Supaya proses normalisasi waktu mempunyai arti pada perbedaan batasan dengan berbagai variasi
interval waktu dibutuhkan beberapa batasan terhadap fungsi warping
2183 Batasan Titik Awal Akhir
Bilamana pola wicara yang dibandingkan merupakan tuturan per kata maka harus memenuhi syarat pola
mulai dari titik awal sampai titik akhir dari tanda permulaan dan pengakhiran pola wicara Titik awal dan akhir
mempunyi batasan yang membatasi pola wicara harus dipenuhi
Titik awal Фx(1) = 1 Фy(1) = 1 (226)
Titik akhir Фx(T) = Tx Фy(T) = Ty (227)
2184 Kondisi Monotonisasi
Rentetan pola spectral pada wicara sangat penting dalam menentukan arti linguistic sehingga tidak
akan hilang Untuk mempertahankan pola tersebut harus memenuhi
Фx(k + 1) ge Фx(k) (228)
Фy(k + 1) ge Фy(k)
22 Awal dan Akhir Sinyal Suara
221 Power
Sinyal suara yang diolah haruslah merupakan sinyal suara murni dan tidak bercampur dengan noise
ataupun header tail yang dibawa oleh suara saat perekaman apalagi jika pengenalan sinyal suara dengan jumlah
vocabulary yang besar Oleh karena itu sinyal suara hasil perekaman harus dicari nilai awal dan akhirnya agar
pengolahan sinyal suara tersebut menjadi lebih valid
Dan salah satu cara dalam menentukan nilai awal dan akhir dari sinyal suara adalah dengan
menggunakan power yang mempunyai persamaan sebagai berikut
( )
Bab 2 Teori Penunjang
16
239
p= sumradic xt2 (229)
t=0
Sinyal suara yang dibagi menjadi beberapa frame mempunyai power dari tiap framenya yang kemudian
didapatkan nilai rata-ratanya yang kemudian diperoleh nilai awal dan akhirnya dengan menambahkan 3 kali
standart deviasi Dimana penentuan awal dan akhir dari sinyal suara dapat diperoleh dengan
p ge p + 07 standart deviasi
Power
0
20000
40000
60000
80000
100000
120000
140000
160000
0 10 20 30 40 50 60
Jumlah Frame
Am
pli
tud
o
Gambar 211 Bentuk power dari kata
Nilai beberapa kali hasil percobaan
222 Unvoiced Plosive
Pada suatu sinyal suara yang terekam terdapat pemutusan sinyal atau kondisi kosong yang bukan
merupakan noise tetapi masih didalam lingkup suara Tapi kondisi ini hanya terjadi pada kebanyakan sinyal
suara yang terdapat konsonan tertentu yaitu sinyal suara dari kata yang mempunyai konsonan p t k Kondisi ini
disebut Unvoiced Plosive atau loncatan sinyal suara setelah kondisi kosong seperti ditunjukkan pada gambar
berikut
Gambar 212 Unvoiced Plosive
Bab 2 Teori Penunjang
17
Dan untuk penentuan awal dan akhir daerah kosong tersebut harus diperhitungkan agar didapatkan
nilai awal dan akhir dari sinyal suara yang valid yaitu dengan mencari nilai rata-rata dari daerah kosong dari
beberapa sinyal suara Kemudian dengan dicari nilai thresholdnya yaitu nilai terpanjang dari daerah kosong
sebesar 2 dari seluruh daerah kosong yang telah dihistogram
23 JARINGAN DENGAN TCPIP
Meskipun hubungan computer melalui serial dan parallel telah ada sejak lama multijaringan belum
menjadi masalah serius bagi para peneliti di bidang jaringan sampai awal tahun 1980 Perkembangan teknologi
LAN itu sendiri didasarkan banyak alasan Salah satu yang menjadi alasan utama adalah adanya perusahaan
yang ingin melakukan sharing data file printer dan resource lainnya ke pc lain
231 Mengenal TCPIP
Sebelumnya kita definisikan lebih dahulu apa yang dimaksud protocol itu Bila dua computer ingin
melakukan komunikasi keduanya tentu saja harus menggunkan bahasaturan yang sama Aturan-aturan inilah
yang disebut protocol Misalnya untuk mengirim mail digunakan protocol SMTP berhubungan dengan WWW
menggunakan HTTP dan sebagainya Jadi protocol merupakan aturan dalam melakukan komunikasi
TCPIP ( Transmission Control Protocol Internet Protocol) merupakan protocol yang bersifat open
networking Maksudnya semua penjelasan teknis tentang protocol tersebut diumumkan karena ada juga
mekanisme jaringan yang menyembunyikan detail dari sistemnya Hal inilah yang membuat TCPIP menjadi
terkenal
Adapun keuntungan dengan menggunakan protocol TCPIP adalah kemudahannya karena
memungkinkan hubungan antara berbagai system operasi dan berbagai jenis computer (platform)
TCPIP bukanlah protocol tunggal tetapi merupakan sekumpulan protocol sehingga lebih tepat disebut
sebagai keluarga TCPIP Setiap protocol pada TCPIP memiliki tugas tertentu yang berbeda Semua protocol
tersebut menggunakan protocol primer untuk mengirimkan paket data Protocol primer tersebut adalah TCP dan
IP
Protokol lainnya dapat dikelompokkan berdasarkan tujuannya sebagai berikut
1 Transport
Digunakan untuk mengatur perpindahan data antara dua mesin Antara lain
- TCP (Transmission Control Protocol)
- UDP (User Datagram Protocol)
2 Routing
Digunakan untuk pengalamatan data dan menentukan rute terbaik antara lain
- IP (Internet Protocol)
- ICMP (Internet Control Message Protocol)
- RIP (Routing Information Protocol)
Bab 2 Teori Penunjang
18
3 Network Address
Menangani bagaimana suatu mesin diberikan suatu alamat antara lain
- ARP ( Address Rwesolution Protocol)
- DNS ( Domain Name Sistem)
- RARP (Reverse Address Resolution Protocol)
4 User Service
Merupakan aplikasi yang harus diakses user antara lain
- FTP ( File Transfer Protocol)
- TFTP (Trivial File Transfer Protocol)
- TELNET
5 Gateway Protocol
Untuk membentuk proses komunikasi routing dan status informasi antara lain
- EGP (Exterior Geteway Protocol)
- GGP (Gateway to Gateway Protocol)
- IGP (Interior Gateway Protocol)
232 Koneksi TCPIP
Untuk mengkonfigurasi TCPIP maka dibutuhkan
Alamat IP
Alamat IP ini sebagai pengenal atau alamat mesin Karena setiap mesin yang terhubung jaringan
harus memiliki penganal yang unik sehingga memungkinkan melakukan routing Jaringan dengan TCPIP
menggunakan pengalamatan 32 bit sebagai alamat atau pengenal setiap mesin yang terkoneksi dengan jaringan
Pengenal ini disebut alamat IP Pesan atau data yang dikirim melalui TCPIP menggunakan alamat IP ini untuk
mengenali mesin pengirim dan penerimanya
Biasanya alamat IP dapat dikelompokkan menjadi dua bagian yaitu
1 Nomor Network
2 Nomor Device dalam Network tersebut
Alamat IP tersebut dipisahkan menjadi empat bagian yang masing-masing berukuran 8 bit Empat
bagian tersebut dipisahkan oleh tanda titik dan setiap bagian tersebut memiliki angka 0-255 Contohnya
192168101
Pemberian alamta IP umumnya ditentukan berdasarkan ukuran dari jaringan tersebut Jaringan
dapat diklasifikasikan menjadi tiga kategori yaitu kelas A kelas B kelas C Ketiga kelas tersebut membagi
pengalamatan 32 bit dengan ukuran berbeda untuk nomor Network dan Host
Pengalamatan pada kelas A memungkinkan bagian ini memiliki angka dari 0-127 Sedangkan
pengalamatan B memungkinkan memiliki angka dari 128-191 pengalamatan pada kelas C memungkinkan
memiliki angka dari 192-223
Network Mask
Bab 2 Teori Penunjang
19
Network mask merupakan alamat IP dimana lamat networknya diset ke nilai 255 Jika alamat IP
termasuk kelas A maka network masknya yaitu 255000 Jika alamat IP termasuk kelas B maka network
masknya yaitu 25525500 Jika alamat IP termasuk kelas C maka network masknya yaitu 2552552550
AlamatNetwork
Alamat network ini dapat diperoleh dari alamat IP dimana bit-bitnya dilakukan operasi AND
dengan network mask Dengan demikian untuk network kelas B dengan IP 192168101 maka alamat
networknya adalah 19216800
Alamat Broadcast
Alamat broadcast dibutuhkan bila suatu mesin ingin mengirimkan paket yang sama ke semua
device pada jaringan
Alamat Gateway
Alamat gateway merupakan alamat IP dari mesin yang menghubungkan jaringan dengan jaringan
di luar misalnya internet Pada umumnya alamatgateway memiliki IP yang sama dengan mesin yang kita miliki
tetapi mempunyai nomor device 1 Dengan demikian untuk network kelas B dengan alamt IP 192168101
alamat gatewaynya adalah 19216811
Alamat Nameserver
Jaringan-jaringan besar umumnya memiliki sebuah mesin untuk mentranslasikan alamat IP menjadi
nama yang lebih mudah dikenal manusia Misalkan sebuah mesin dengan IP 192168101 dapat diberi nama lain
seperti puspacsuiacid sebagai alamatnya Proses translasi ini dilakukan dengan system yang dikenal dengan
nama Domain Name System (DNS)
24 BEKERJA DENGAN SOCKET
Komponen socket program yang dapat membantu dalam pembuatan suatu aplikasi yang berkomunikasi
antara suatu system computer dengan system computer yang lain dengan menggunakan protocol TCPIP dan
protocol lain yang terhubung
241 Pengertian Socket Program
Pada sub bab ini akan dijelaskan tentang komoponen socket program yang dapat berkomunikasi antara
system computer dengan system computer yang lain dengan menggunakan protocol TCPIP dan protocol lain
yang terhubung Dengan socket program ini kita dapat membaca dan menulis pada hubungan ke mesin yang lain
tanpa mengalami kesulitan pada software jaringan Socket program dapat mengadakan hubungan berbasis
protocol TCPIP tetapi dapat juga bekerja umunya dengan protokol-protokol yang terhubung seperti Xerox
Network System (XNS) dan yang lain
Bab 2 Teori Penunjang
20
242 Penjabaran Socket
Socket mengijinkan aplikasi jaringan kita berkomunikasi dengan sistem lain di luar jaringan
Masing- masing socket bisadipandang sebagai titik akhir dalam suatu koneksi jaringan Socket tersebut memiliki
spesifikasi sebagai berikut
a) Sistem yang sedang dijalankan
b) Tipe interface port yang digunakan
Penjelasan lengkap dari sebuah koneksi socket terdiri dari address socket pada kedua titik akhir
koneksi Kita akan menguraikan address dari masing- masing titik akhir socket dengan memberi nomor IP
address atau host dan port
Sebelum membuat koneksi socket sebelumnya harus menguraikan dengan lengkap socket-socket
yang membentuk titik akhir Beberapa informasi tersedia dari sistem aplikasi yang dijalankan Sebagai contoh
kita tidaka akan membutuhkan IP Address Local dari socket client sebab informasi ini terdapat pada sistem
operasi
Informasi yang akan kita berikan bergantung pada tipe socket yang sedang bekerja Socket client
harus menggambarkan port yang merepresentasikan layanan yang mereka berikan
243 Memilih Host Name dan IP Address
Kebanyakan aplikasi menggunakan host name untuk merinci sebuah system Host Name mudah
untuk diingat dan dicek Menggunakan host name memungkinkan socket client untuk menemukan situs abstrak
yang diwakili oleh nama host meskipun telah dipindah ke IP Address yang baru Jika nama host tidak diketahui
socket client akan akan menyatakan system server sedang menggunakan IP Addressnya Ketika kita
menyediakan host name socket akan mencari IP Address yang berhubungan dengan host name sebelum socket
tersebut dapat menempatkan pada sistem server
Bab 3 Perencanaan dan Implementasi
21
BAB 3
PERENCANAAN DAN IMPLEMENTASI
31 Pendahuluan
Pada bab ini akan dijelaskan mengenai pengolahan sinyal wicara untuk mendapatkan ciri setiap
individu Juga akan dibahas mengenai pengolahan hasil keluaran sinyal wicara untuk ditransmisikan ke PC lain
(lewat jaringan) Dan selanjutnya akan dibahas pula mengenai plan atau obyek yang dalam hal ini adalah lampu
pijar
Berikut ini adalah blok diagram sistem secara keseluruhan
Gambar 31 Blok Diagram Sistem Secara Keseluruhan
Speaker pada gambar 31 memberikan suaranya sebagai masukan lewat mikrofon Masukan ini
akan diolah dalam PC client mulai dari proses sampling frame windowing FFT LPC Kemudian hasil dari
LPC dicari pemadanan dengan LPC dari sinyal standar yang telah tersimpan sebagai data base di dalam PC
client Hasil dari DTW tersebut akan dikirimkan ke PC server melalui TCPIP untuk diproses menjadi suatu
perintah ke perangkat keras Perintah tersebut merupakan bentuk implementasi dari perintah yang diberikan dari
PC client
Sebaliknya dengan adanya perubahan kondisi pada peralatan yang diinginkan maka terjadi sinyal
balikan yang berupa sinyal DTMF yang dikirimkan oleh perangkat keras ke PC server Oleh PC server sinyal ini
diolah untuk dikenali sebagai suatu kondisi tertentu yang akan dikirimkan ke PC client sebagai laporan tentang
kondisi alat yang diinginkan
32 Sistem Pengolahan Sinyal Wicara
321Perekaman Suara
TCPIP
Pengucap Speaker ADC Pengolahan Wicara dan Monitoring
Peralatan yang terkontrol
LAN Card
LAN Card
Pengenalan Pola Pengiriman Tone DTMF dan Pengenalan DTMF Sebagai Laporan
DTMF Decoding DTMF Generator Sistem Switching
Alat Terkontrol
Bab 3 Perencanaan dan Implementasi
22
Perekaman suara dilakukan menggunakan software berbasis TclTk 830 dan Snack22 Sebelumnya
akan dijelaskan satu per satu program yang dipakai
o TclTk 830
Tcl kepanjangan dari Tool Control Language Tk adalah Graphical Toolkit extension dari Tcl yang
menyediakan bermacam-macam item standar antarmuka GUI untuk memfasilitasi secara cepat pengembangan
aplikasi tingkat tinggi
o Snack22
Snack adalah tool pengolahan suara yang didesain sebagai extensi untuk bahasa script Saat ini Snack bekerja
dengan bahasa script TclTk Phyton dan Ruby Snack memiliki perintah-perintah untuk play record process
dan dan memvisualisasi suara Snack menyediakan obyek suara tingkat tinggi dengan manajemen penyimpanan
yang fleksibel dan streaming support Snack dapat bekerja pada banyak format file suara
Kita dapat membangun aplikasi sepaerti di bawah ini dengan integrasi dari TclTk dan Snack
Gambar 32 Program aplikasi pengenalan wicara
Frekuensi sampling pada program di atas diset pada frekuensi 12 kHz Frekuensi ini dipilih karena biasa
digunakan untuk voice Selain itu juga diset pada channel Mono dan sinyal encoding LIN 16 (resolusi 16 bit
PCM) Pada penekanan tombol ldquorecordrdquo diikuti tombol ldquostoprdquo dan kemudian tombol ldquostandartrdquo maka akan
dimulai proses perekaman yanag akan digunakan untuk membuat file standar untuk kedelapan perintah yang
akan digunakan untuk pembanding sinyal masukan
Adapun proses untuk sistem yang akan dibuat dapat digambarkan dengan diagram alir seperti di bawah
Bab 3 Perencanaan dan Implementasi
23
Mulai
Package Require
Snack 22
Exit
Program On
Running
Recording
Sound Card
Produser Running
Prosedur Recording
DTMF
Keluar
Tidak
YaTidak
Ya
Ya
Ya
Ya
Tidak
Tidak
Tidak
Gambar 33 Flowchart Sistem Graphical User
Interface
322 Sampling
Seperti telah dijelaskan di depan bahwa frekuensi sampling yang digunakan adalah sebesar 12000Hz
dimana dalam 1 detik sinyal terdapat 12000 titik sampling Sebagai contoh seperti gambar di bawah ini suatu
sinyal epanjang 20 ms disampling 12000 Hz menghasilkan titik sampling sebanyak 240 titik
Data Sampling
-20000
-15000
-10000
-5000
0
5000
10000
15000
20000
0 200 400 600
Amplitudo
Jumlah Data
Gambar 34 Sinyal hasil sampling dengan
frekuensi 12000 Hz
Bab 3 Perencanaan dan Implementasi
24
Mulai
Sinyal Masukan
Baca Panjang Sinyal
Bagi Menjadi N Frame
i = 0 i lt N i++
Ambil 240 Data Sampel
Tampilkan Nilai
Sampel
Selesai
Gambar 35 Flowchart Proses Sampling
323 Pre-emphasis
Agar spektrum sinyal merata di semua frekuensi dan mencegah kehilangan informasi akibat pembulatan
pada saat komputasi maka dilakukan prose preemphasis Fungsi transfer preemphasis adalah
H(z) = 1 ndash a z-1 09 le a le 1 (31)
Dimana nilai a berkisar 095 Berdasarkan model filter di atas maka keluaran dari preemphasis adalah
s(n) = s(n) ndash a s(n-1) (32)
324 Frame Blocking
Hasil perekaman merupakan sinyal dalam domain waktu yang bersifat variant time (fungsi yang
bergantung pada waktu) Sinyal yang telah dipreemphasis kemudian dibagi menjadi n buah frame Dengan
jumlah sample per frame sebesar N dan adjacent frame sebesar M sample Dimana M=05N Pada frame
pertama terdiri dari N buah sampel Frame kedua dimulai pada sampel ke M sehingga terjadi overlape sebesar
N - M sampel Begitupula untuk frame yang ketiga dimulai dari sample ke 2M sehingga terjadi overlape dari
farme kedua sebesar N + M-2M sampel juga Hal ini akan terus berlangsung hingga seluruh sinyal terbagi
menjadi beberapa frame
Bab 3 Perencanaan dan Implementasi
25
Gambar 36 Frame blocking sinyal
325 Windowing
Windowing yang digunakan adalah window hamming Setelah proses pengambilan sample maka
langkah selanjutnya adalah proses selanjutnya adalah proses windowing yang berfungsi untuk mengurangi efek
diskontinyuitas pada ujung-ujung frame Persamaannya adalah sebagai berikut
y[i] = x[i](054-046cos(20314159265(i-1)240) (33)
Flowchartnya bisa dilihat seperti di bawah
Mulai
240 Data
Sampel
i= 0 i lt 240 i++
Hamming Window
y[i] = x[i](054-046cos(2phi(i-1)
240))
Tampilkan
nilai
Hamming
Selesai
Gambar 37 Flowchart Proses Windowing
326 Fast Fourier Transform
Transformasi fourier cepat (FFT) adalah suatu metode yang sangat efisien untuk menyelesaikan
transformasi fourier diskrit (DFT) yang banyak dipakai untuk keperluan analisa sinyal Sehingga dengan FFT
N N N M
M N
N N
M
Bab 3 Perencanaan dan Implementasi
26
sinyal yang disampling dalam domain waktu ditransformasikan ke domai frekuensi dengan menggunakan
persamaan sebagai berikut
N-1
H(k) = sum h(n)e-j2лkN (34)
n=0
dengan k= 012N-1
Prosesnya dapat dilihat dari flowchart di bawah
Mulai
240 data
sampel
256 data sampel
i=0 ilt256 i++
tmp_log1=(xr[k]xr[k]+xc[k]xc[k])
tmp_log gt 0
xr[k]=10log10(tmp_log1)
Tampilkan
nilai
hamming
Selesai
xr[k]=10log10(0000001)
Ya
Tidak
Gambar 38 Flowchart Proses Fast Fourier
Transform
327 Autocorrelation analysis
Hasil dari windowing sinyal masukan kemudian dihitung autokerelasinya dengan persamaan
N-1-m
r1(m) = sum x1(n)x1(n+m) m=01p (35)
n=0
dimana niali autokorelasi tertinggi p adalah orde dari analisis LPCPada umumnya nilai dari p yang sering
digunakan adalah dari 8 sampai 16
Proses Autokorelasi dapat dilihat dari flowchart di bawah ini
Bab 3 Perencanaan dan Implementasi
27
Mulai
240 data p lpc
orde
i=0 iltp i++
j=0 jlt240-p-1 j++
RI[j]=sum(xI[i]xI[i+j])
Tampilkan nilai
autocorrelation
Selesai
Gambar 39 Flowchart Proses Autokorelasi
328 LPC Analysis
Hasil koefisien autokorelasi kemudian dikonversikan ke sebuah LPC parameter set (untuk metode LPC
autokorelasi) dikenal sebagai Metode Durbin dan secara formal ditunjukkan dari algoritma sebagai berikut
E(0) = r(0) (36)
ki=r(i)-sumαj(i-1) r(|i-j|)E(i-1) 1 le I le p (37)
αi(i) = ki (38 )
αj(i) = αj
(i-1)-ki α(i-1) ( 39)
t-j
E(i)=(1-ki2)E (i-j) (310)
dimana penyajian akhir dari persamaan 37 mengabaikan i=1 Kumpulan dari persamaan 36 -310 diselesaikan
secara rekursif untuk i=12p
Proses analisis dapat dilihat dari flowchart di bawah
Bab 3 Perencanaan dan Implementasi
28
Mulai
Autocorrelationr
p lpc orde
E (0) = r(0)
k1
= r(i)-sumalpha j (i-1) r( | i-j|E(i-1)
alpha j (i) = k
i
alpha j
(i) = alpha (i-1) -k i alpha
i-j (i-1)
E (i) = 1-k i 2) E(i-1)
Tampilkan nilai
parameter lpca
Selesai
i=0 iltp i++
Gambar 310 Flowchart proses LPC analisis
329 LPC Parameter to Cepstrum Analysis
Sekumpulan parameter LPC yang sangat penting yang dapat diturunkan langsung dari kumpulan
koefisien LPC adalah koefisien cepstral LPC c(m) Rekursif yang digunakan adalah
co = ln σ2 ( 311)
m-1
cm = am + sum ck am-k 1 le m le p (312)
k = 1
m-1
cm = sum ck am-k m gt p ( 313)
k = 1
Proses LPC parameter ke Cepstrum Analysis dapat dilihat dari flowchart di bawah ini
k m ( )
k m ( )
Bab 3 Perencanaan dan Implementasi
29
Mulai
lpc parameter a
p lpc orde
c o = ln del 2
1 lt=mlt=p
i=0 iltp i++
Cm
= am
+sum((km)Ck a
m-kC
m =sum((km)C
ka
m-k)
Tampilkan nilai lpc
cepstrumc
Selesai
Gambar 311 Flowchart Proses LPC parameter ke
Cepstrum
3210 Dynamic Time Warping
Proses yang terjadi pada Dynamic Time Warping adalah pengukuran jarak suara antara sinyal standart
dan sinyal input Yang diukur berupa deretan nilai dari hasil LPC Cepstrum dalam bentuk kolom dan baris (ij)
yang disimpan dalam satu file Pada kolom berisi nilai tiap cepstrum sedangkan baris berupa banyaknya frame
Teknik yang digunakan dinamakan Dynamic Programming Alur kerjanya dapat dilihat dari flowchart di bawah
Bab 3 Perencanaan dan Implementasi
30
Mulai
i=0 iltN i++
j=0 jlt15 j++
Cepstrum
Standart
Std_Ceps [i][j]
Cepstrum
Input
Inp_Ceps [i][j]
DP_dist = DP_match1(r)
DP_dist
Selesai
Gambar 312 Flowchart Proses Dynamic Programming
33 Awal dan Akhir Sinyal suara
331 Power
Untuk mendapatkan suatu sinyal suara tanpa adanya noise maka sinyal harus benar-benar dipotong
tepat pada awal dan akhirnya Oleh karena itu dipakai power sebagai salah satu cara yang efektif dalam
menentukan awal dan akhir suatu sinyal suara
Dimana tiap frame mempunyai power yang merupakan hasil kuadratisasi dari penyampelan tiap frame
yang kemudian hasil keseluruhan diakarkan seperti bisa dilihat pada flowchart di bawah
Bab 3 Perencanaan dan Implementasi
31
Mulai
Power = 0
i=0 ilt240 i++
Power=Power+sqrt(xixi)
Selesai
Gambar 313 Flowchart Proses Power
Jumlah sample per frame ditetapkan sebesar 240 sampel Kemudian dicari power masing-masing antara sinyal
utuh dan sinyal noise kemudian dengan p ge p + 07 standar deviasi maka didapatkan awal dan akhir sinyal
suara
332 Unvoiced Plosive
Adanya daerah kosong menyebabkan sinyal tidak valid dalam pemotongan awal dan akhirnya karena
bisa dianggap noise padahal berada dalam sinyal suara ( merupakan bagian dari sinyal suara) Oleh karena itu
dicari mean dari 25 kata sinyal suara yang kemudian dicari nilai thresholdnya sebagai panjang akhir dari daerah
kosong Dan nilai tersebut diikutsertakan dalam looping dan jika setelah itu terdapat sinyal kembali maka
berarti masih ada sinyal suara dan jika tidak ada berarti tidak ada sinyal suara
34 Proses Pada Client
Preses pada client dapat dijelaskan sebagai berikut
Gambar 314 Blok diagram proses client
Penjelasan dari blok digram tersebut adalah
1 Pertama adalah perekaman suara pada software recording yang hasilnyadisimpan dalam bentuk file
berekstensi ldquowavrdquo File ini selanjutnya akan dijadikan file input pada sistem client
2 File suara yang telah tersimpan diolah dalam program sampling untuk mendapatkan sinyal suara dalam
bentuk frame Setiap frame terdiri dari 120 sampel
Mic Extract AD Voice Dikenali
Bab 3 Perencanaan dan Implementasi
32
3 Tiap frame diwindow dengan window Hamming untuk mengurangi efek diskontinyuitas pada ujung-
ujung frame
4 Sinyal hasil window yang masih dalam domain time diubah ke dalam domain frekuensi dengan Fast
Fourier Transform (FFT)
5 Hasil dari windowing sinyal masukan kemudian dihitung autokerelasinya
6 Hasil koefisien autokorelasi kemudian dikonversikan ke sebuah LPC parameter set (untuk metode LPC
autokorelasi) Sekumpulan parameter LPC yang sangat penting yang dapat diturunkan langsung dari
kumpulan koefisien LPC adalah koefisien cepstral LPC
7 Selanjutnya dilakukan proses DTW (Dynamic Time Warping) pengukuran jarak suara antara sinyal
standart dan sinyal input Hasilnya disimpan dalam sebuah file berekstensi ldquotxtrdquo
8 File berekstensi txt tersebut ke server sebagai sinyal suara input
35 Proses Pada Server
Proses pada server dapat dijelaskan sebagai berikut
Gambar 315 Blok diagram proses server
Penjelasan dari blok diagram tersebut adalah
1 Isi file berekstensi rdquotxtrdquo diterima oleh server dan digunakan sebagai data input untuk memanggil
database tone DTMF yang sesuai sebagai pengoperasian alat yang akan dikontrol
2 Alat yang terkontrol akan menunjukkan hasilnya
Memanggil
Database
Tone
Dikode
kan
dalam
biner
Kirim
ke HW
Kontrol
Alat
Input
server
Bab 4 Pengujian dan Analisa
33
BAB 4
PENGUJIAN DAN ANALISA
41 Pendahuluan
Untuk mengetahui tingkat keberhasilan dari suatu sistem diperlukan pengujian keseluruhan dari
perencanaan hasil sistem yang telah dibuat Dalam bab ini akan dijelaskan mengenai hal tersebut
Pengujian yang akan dilakukan adalah
1 Pengujian dan analisa sistem pengolahan sinyal wicara
2 Pengujian dan analisa sistem client server
3 Pengujian dan analisa awal dan akhir sistem pengolahan wicara
42 Pengujian dan Analisa Sistem Pengolahan Wicara
Tujuan untuk mendapatkan parameter ciri individu dari sampel sinyal yang diolah
421 Perekaman Suara
Pada Tugas Akhir ini digunakan duamacam perangkat lunak yang dibangun sendiri berbasis TclTk 830
dan Snack 22 sebagai perangkat lunak yang diuji dan perangkat lunak Wavesurver sebagai pembanding
4211 Dengan menggunakan TclTk dan Snack
Tampilan awal dari perangkat lunak yang dibangun dengan menggunakan TclTk dan Snack adalah sebagai
berikut
Gambar 41 Tampilan awal perangkat lunak menggunakan TclTk dan Snack
Bab 4 Pengujian dan Analisa
34
Pertama kali tombol record ditekan maka proses pengambilan sinyal wicara yang dimasukkan
dimulai Pada saat tombol Stop ditekan maka program akan merekam kata ldquosatu nyalardquordquosatu matirdquordquodua
nyalardquordquodua matirdquordquotiga nyalardquordquotiga matirdquordquoempat nyalardquordquoempat matirdquo sesuai yang kita masukkan dan
tampilan display akan digambarkan bentuk sinyal yang dihasilkan secara otomatis Hasil perekaman dapat
dilihat pada gambar berikut 42
Gambar 42 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan perangkat lunak
TclTk dan Snack
Gambar 42 menunjukkan bahwa proses pengambilan sinyal suara telah dilakukan Sinyal suara yang
dimasukkna akan terlihat gambarnya pada layar hitam (canvas)
4212 Dengan menggunakan Wave Surver
Sebagai pembanding dari program yang telah dibuat yaitu dari perangkat lunak TclTk dan Snack
digunakan Wavesurver
Tampilan awal dari Wavesurver 157 tampak seperti pada gambar 43
Gambar 43 Tampilan awal perangkat lunak menggunakan Wavesurver
Bab 4 Pengujian dan Analisa
35
Pada saat tombol recording ditekan maka program akan merekam kata ldquosatu nyalardquo dan pada tampilan
display akan digambarkan bentuk sinyal yang dihasilkan secara otomatis Hasil perekaman bisa dilihat pada
gambar 44
Gambar 44 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan
perangkat lunak Wavesurver
Perekaman pada Wavesurver dapat diset sesuai dengan kebutuhan Dimana pada sistem pengolahan sinyal
suara untuk perekaman suara diset sebagai berikut
Gambar 45 Kotak dialog setting perekaman perangkat lunak Wavesurver
Pada data di atas dapat dilihat bahwa suara yang direkam dengan mengguanakan perangkat lunak
Wavesurver mempunyai header dan tail yang berisi keterangan perekaman sebagai berikut
12000 menunjukkan frekuensi sampling yang digunakan
Bab 4 Pengujian dan Analisa
36
Channels menunjukkan bahwa suara direkam dengan menggunakan channel Mono
Sampel Encoding Lin 16 menunjukkan bahwa suara direkam dengan menggunakan
16 bit PCM
422 Sampling
Dengan menggunakan program yang dibangun sendiri di atas proses penyamplingan sinyal input sekaligus
telah terjadi dimana dengan frekuensi sampling sebesar 12000 Hz didapatkan sinyal dari kata ldquosatu nyalardquo
dengan potongan sebagai berikut
3306
3538
3788
4076
4282
4684
4747
4956
5083
5442
5844
5901
6244
6196
6462
6104
Berikut ini adalah cuplikan dari data sampel kata ldquo empat matirdquo mulai dari milidetik ke-13900
Bab 4 Pengujian dan Analisa
37
Data Sampling
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 46 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900
Pada gambar 46 telah dilakukan proses sampling sinyal masukan dengan frekuensi sampling sebesar 12000
Hz maka didapatkan hasil sinyal yang hampir mirip dengan sinyal analognya karena sinyal suara manusia
memiliki jarak frekuensi antara 300 sampai 5000 Hz dimana syarat Nyquist minimal fsampling 2fsinyal
telah terpenuhi
423 Windowing
Jenis window yang digunakan adalah window Hamming
Pada proses window hamming kata yang telah disampel sebanyak 240 sampel akan diwindow sehingga
menghasilkan sinyal yang lebih kecil peaknya Hasilnya adalah sebagai berikut
-26174
-22078
-12518
-1444
9690
19308
23360
20049
12365
2391
-7874
-14539
-17837
-19929
-19007
-16955
Bab 4 Pengujian dan Analisa
38
Sedangkan hasil dalam bentuk gambar dapat dilihat pada gambar berikut
Data Windowing
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 47 Hasil Windowing data sampel kata ldquoempat matirdquo milidetik ke-13900
Seperti yang ditunjukkan gambar 47 proses windowing telah dilakukan Berdasarkan gambar 47
tersebut dapat dikatakan bahwa window Hamming menyebabkan sinyal yang disampel lebih halus Gambar
47 dapat dibandingkan dengan gambar 46 yaitu gambar sinyal sebelum melalui proses windowing dapat
dilihat bahwa sinyal yang telah diwindow mempunyai sinyal yang lebih halus Hal ini membuktikan bahwa
fungsi dari windowing untuk mengurangi efek diskontinyuitas pada ujung-ujung frame adalah benar
424 Fast Fourier Transform Sinyal Masukan
Pada proses ini sinyal yang sebelumnya berada dalam domain waktu akan diubah dalam domain
frekuensi Setiap sinyal yang berasal dari alam merupakan sinyal analog yang bila diolah harus diubah
dalam bentuk sinyal digital Dan pengolahan dalam digital merupakan pengolahan dalam bentuk diskrit
Pada proyek akhir ini sinyal dalam domain waktu akan diubah dalam domain frekuensi dengan 256 titik
Karena hasil yang diperoleh berupa hasil dari fungsi konvolusi maka hanya akan diambil 128 titik saja yang
akan diolah dalam proses selanjutnya Sedangkan 128 sisanya tidak dipergunakan karena berupa
pencerminan saja
Hasil dari Fast Fourier Transform (FFT) dari penggalan kata ldquoempat matirdquo pada milidetik ke-13900 dalam
bentuk teks adalah
103505157
106889458
Bab 4 Pengujian dan Analisa
39
104735321
100408661
89175987
95431992
96601654
8489315
89637459
8630304
75320663
87866905
91001945
89607201
82408546
83440155
4241 Dengan Menggunakan TclTk dan Snack
Fast Fourier Transform Sinyal
Masukan
0
20
40
60
80
100
120
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 48 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat
lunak TclTk dan Snack
Dari gambar 48 di atas sinyal suara yang sebelumnya berada di domain waktu telah diubah ke domain
frekuensi Hasil Fast Fourier Transform sinyal masukan menunjukkan sebaran spektrum frekuensi dari
sinyal suara yang telah dihasilkan oleh pengucap antara 0 sampai 6000 Hz
Bab 4 Pengujian dan Analisa
40
4242 Dengan Menggunakan Wavesurver
Gambar 49 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat
Wavesurver
Dari gambar 49 di atas hasil Fast Fourier Transform sinyal masukan menunjukkan sebaran spektrum
frekuensi dari sinyal suara yang telah dihasilkan oleh pengucap antara 0 sampai 6000 Hz adalah sama
seperti pada gambar dengan gambar 48 yang diambil dengan perangkat lunak TclTk dan Snack
425 Autocorrelation Analysis
Pada proses ini sinyal masukan dalam domain waktu yang telah diwindow hamming dihitung korelasinya
dengan menggunakan orde analisi LPC sebesar 15 Sehingga akan didapatkan hasil rk(autokorelasi) sebagai
berikut
17648453
128874
0669745
0662566
0470262
0164336
-010638
-0229032
-016249
0014062
0138456
0188749
0117826
0014517
-0052704
426 LPC Analysis
Dari hasil autokorelasi tersebut di atas selanjutnya adalah LPC dimana mengkonversi masing-masing
frame dari autokorelasi p+1 ke dalam sebuah LPC Parameter a
Bab 4 Pengujian dan Analisa
41
Metode yang formal untuk mengkonversi dari koefisien autokorelasi ke sebuah LPC parameter (untuk
metode LPC autokorelasi) dikenal sebagai Metode Durbin dan secara formal hasilnya dapat ditunjukkan
sebagai berikut ini
1
-128874
0160681
-0156173
0166653
0255508
0192145
0003037
-0202248
-0265201
-0112133
005938
0232232
0203554
0048429
Dari hasil di atas terlihat bahwa untuk setiap frame nilai pertama menunjuukan energi dari masing-masing
frame dan selanjutnya adalah parameter LPC dalam satu frame yang digunakan sebagai penentu ciri dari
sinyal suara yang dihasilkan oleh individu
427 Fast Fourier Transform LPC Parameter
Pada proses ini nilai dari parameter LPC yang sebelumnya masih berada dalam domain waktu akan diubah
dalam domain frekuensi Pada proyek akhir ini parameter LPC dalam domain waktu akan diubah dalam
domain frekuensi dengan 256 titik Karena hasil yang diperolah berupa hasil dari fungsi konvolusi maka
hanya akan diambil 128 titik saja yang akan diolah dalam proses selanjutnya Sedangkan 128 sisanya tidak
dipergunakan karena berupa pencerminan saja
Hasil dari Fast Fourier Transform (FFT) dari parameter LPC pada penggalan kata ldquoempat matirdquo pada
milidetik ke-1 dalam bentuk teks adalah
103505157
106889458
104735321
100408661
89175987
Bab 4 Pengujian dan Analisa
42
95431992
96601654
8489315
89637459
8630304
75320663
87866905
91001945
89607201
82408546
4271 Dengan menggunakan TclTk dan Snack
Fast Fourier Transform Parameter
LPC
0
20
40
60
80
100
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 410 Fast Fourier Transform LPC dengan
menggunakan perangkat lunak TCLTk
dan Snack
Hasil gambar 410 menunjukkan bahwa parameter LPC yang di-Fourier Transform-kan akan menjadi
selubung spektrum dari spektrum sinyal masukan Sehingga jika selubung dan spektrumnya secara gambar
cocok dapat dikatakan bahwa LPC parameter yang dihitung benar
Bab 4 Pengujian dan Analisa
43
4272 Dengan menggunakan Wavesurver
Gambar 411 Fast Fourier Transform LPC denganmenggunakan perangkat lunak
Wavesurver
Hasil gambar 411 menunjukkan bahwa parameter LPC yang di-Fourier Transform-kan akan menjadi
selubung spektrum dari spektrum sinyal masukan adalah sama dengan yang telah diperoleh dengan
perangkat lunak TclTk seperti pada gambar 410
428 LPC Parameter to LPC Cepstrum
Koefisien LPC cepstrum koefisien yang direpresentasikan dengan Fourier Transform dengan spektrum
besaran log telah ditampilkan menjadi kumpulan fitur untuk pengenalan wicara yang lebih handal
terpercaya daripada koefisien LPC koefisien PARCOR atau koefisien log area ratio
Hasil dari LPC cepstrum pada penggalan kata ldquoempat matirdquo pada milidetik ke-106 dalam bentuk teks adalah
16636311
1387922
0474473
0654796
0429659
0132543
0225374
0126501
0021161
0242437
Bab 4 Pengujian dan Analisa
44
0160623
0065745
0139379
0056064
-0029262
Dari hasil di atas dapat dianalisa bahwa besaran-besaran dari LPC cepstrum benar-benar dapat
digunakan sebagai penentu ciri dari sinyal suara individu karena besaranndashbesaran yang dihasilkan oleh LPC
cepstrum dari yang pertama sampai yang terakhir dalam satu frame sangat bervariasi nilainya
429 Inverse Fast Fourier Transform LPC Cepstrum
Untuk menggambarkan ciri atau fitur wicara dalam domain waktu maka LPC cepstrum di-Invers Fast
Fourier Transform-kan sehingga didapatkan gambar untuk penggalan kata ldquosatu nyalardquo pada milidetik ke-
400 seperti gamabar 412
Fast Fourier Transform LPC
Cepstrum
0
20
40
60
80
100
120
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 412 Invers Fast Fourier Transform LPC cepstrum dengan menggunakan
perangkat lunak TCLTk dan Snack
Dari gambar 412 dapat dianalisa bahwa bentuk dari invers fourier transform LPC cepstrum yang
menyerupai selubung pada domain waktu dari spektrum frekuensi juga digunakan untuk menunjukkan
bahwa perhitungan LPC cepstrumnya telah benar dan dapat digunakan sebagai penentu ciri sinyal suara
individu
Invers Fast Fourier Transform LPC
Cepstrum
Bab 4 Pengujian dan Analisa
45
Gambar 413 Penggabungan spektrum sinyal spektrum LPC dan spektrum LPC
Cepstrum
Gambar 413 spektrum sinyal yang diwakili warna merah merupakan hasil sinyal yang telah di-Fast
Fourier Transform-kan Spektrum sinyal yang berwarna hijau merupakan parameter LPC yang telah di-
Fourier Transform-kan Sinyal ini akan menjadi selubung spektrum dari spektrum sinyal masukan Bila
selubung dan spektrumnya secara gambar cocok maka dapat dikatakan bahwa LPC parameter yang dihitung
adalah benar Dari gambar 413 dapat dilihat antara selubunga dan selubung sinyal masukan sudah cocok
Sinyal yang berwarna biru merupakan sinyal rata-rata dari sinyal selubung spektrum
4210 Dynamic Time Warping
Pengujian terakhir dari proses pengolahan sinyal wicara adalah membandingkan sinyal hasil cepstrum LPC
antara data input dan data standarnya Berdasarkan daerah pembatas kontinyuitas lokal dari persamaan 21
maka digunakan model yang pertama dan menggunakan persamaan 2116 dalam menghitung jarak antara
kata sebagai standar dan sebagai masukan
Selanjutnya menetukan data data sebagai data standar dan data sebagai data masukan Pada sistem ini
digunakan 8 kombinasi kata sebagai kata standar dan kata msukan untuk masing-masing pengujian dengan
kata standar sebanyak sepuluh (10) kali Adapun kata yang digunakan sebagai standar dan kata yang diuji
adalah meliputi satu nyalasatu matidua nyaladua matitiga nyalatiga matiempat nyalaempat
mati
Pada pengujian sistem kali ini masih menggunakan datasuara dari pebgucap yang sama Dari kelima data
standar yang ada dilakukan pembandingan dengan masing-masing 10 (sepuluh) kali pemasukan data Data
yang menghasilkan jarak euclidian terpendek dari masing-masing kata itulah yang akan diambil sebagai
data perintah terbaik
Bab 4 Pengujian dan Analisa
46
Pelekukan Jalur Suara
0
50
100
150
0 50 100 150
Sinyal Input empat mati
Sinyal Standart
empat mati
Gambar 414 Pelekukan Jalur Suara dengan Dynamic Time Warping
Dari gambar 414 dapat dianalisa bahwa dengan menggunakan dynamic time warping dua buah sinyal suara
akan dibandingkan vektor-vektor spektralnya dimana juga terdapat proses pembandingan panjang sinyal
antara dua buah sinyal tersebut sehingga terjadi proses pemadanan panjang sinyal dengan cara
memperpanjang dan menekuk vektor spektralnya Memperpanjang dalam arti memperpanjang sinyal yang
lebih pendek dengan memperhatikan perbandingan vektor spektralnya dan demikian pula menekuk dalam
arti menekuk sinyal yang lebih panjang dengan memperhatikan vektor spektralnya Dengan panjang yang
sama sebagai hasil dynamic time warping maka jarak euclidian antara dua sinyal dapat diperbandingkan
atau dihitung
4211 Min Value dan Sorting
Min Value dan Sorting menjadi satu paket sendiri yang digunakan untuk mencari kemungkinan hasil
terkecil dari pembandingan pola kata masukkan dengan kedelapan kata standart Keluaran dari fungsi
dynamic time warping akan memberikan delapan buah data yaitu hasil pembandingan kata masukan
dengan kata standart satu nyala hasil pembandingan kata masukan dengan kata standart satu mati hasil
pembandingan kata masukan dengan kata standart dua nyala hasil pembandingan kata masukan dengan
kata standart dua mati hasil pembandingan kata masukan dengan kata standart tiga nyala hasil
pembandingan kata masukan dengan kata standart tiga mati hasil pembandingan kata masukan dengan
kata standart empat nyala hasil pembandingan kata masukan dengan kata standart empat mati Dengan
metode sorting buble sort maka akan didapat nilai minimalnya
0748745
0362272
0633390
0327642
0600250
0346530
Bab 4 Pengujian dan Analisa
47
0545907
0207464
Berdasarkan data diatas maka perintah input sama dengan perintah kedelapan (ldquoempat matirdquo) karena
memiliki hasil time warping terkecil yaitu 0207464
4212 Hasil Pengujian Awal dan Akhir Sinyal
Pada proses penentuan awal dan akhir agar lebih presisi menggunakan ldquoPowerrdquo Adapun kelebihan dari
power adalah dapat membedakan antara sinyal suara dengan sinyal noise
Untuk menentukan awal dan akhir dicari nilai power Pada proses power kata yang telah disampel
sebanyak 240 sampel akan menghasilkan sinyal yang halus dan terletak di atas sumbu x Hasil dalam bentuk
teks adalah sebagai berikut ini
7678195313
1165659297
123492625
8917128906
6318766797
4531086719
4338374609
4912630469
5382503125
4548908984
429756875
4739710547
4575902734
4682924609
4786217578
Bab 4 Pengujian dan Analisa
48
Gambar hasil power bisa dilihat pada gambar 415 berikut
Power
0
100000
200000
300000
400000
500000
0 50 100 150
Jumlah Frame
Amplitude
Gambar 415 Sinyal ldquoempat matirdquo hasil program power
Gambar 416 berikut ini adalah hasil pengujian kata ldquoempat matirdquo sebagai masukan dan kata standar ldquoempat
matirdquo dimana kedua kata dibandingkan berdasarkan powernya sebelum proses Dinamic Time Warping
Sinyal warna biru sebagai power sinyal standart dan sinyal yang berwarna merah merupakan power sinyal
input
Perbandingan Dua Kata empat mati
sebelum DTW
0
100000
200000
300000
400000
500000
0 50 100 150
Jumlah Frame
Amplitude
Gambar 416 Perbandingan power dua kata ldquoempat matirdquo sebelum Dynamic Time Warping
Berikut ini adalah hasil pengujian dua buah kata ldquoempat matirdquo dengan menggunakan dynamic time warping
dimana jalur pelekukan suara dapat digambarkan pada gambar 417
Bab 4 Pengujian dan Analisa
49
Pelekukan Jalur Suara
0
50
100
150
0 50 100 150
Sinyal Input empat mati
Sinyal Standart
empat mati
Gambar 417 Pelekukan jalur suara dua kata ldquoempat matirdquo dengan DTW
Gambar 418 adalah hasil pengujian dua buah kata ldquoempat matirdquo sebagai masukan dan dan kata standar
ldquoempat matirdquo dimana kedua kata dibandingkan berdasarkan powernya setelah proses dynamic time
warping
Gambar 418 dapat dibandingkan dengan gambar 416 yaitu sinyal sebelum proses Dynamic Time Warping
Sebelum proses Dynamic Time Warping sinyal tidak mengalami proses penekukan dan penarikan data
berdasarkan waktu antara keduanya sehingga antara sinyal input dan sinyal standart memiliki ukuran
panjang yang sangat jauh berbeda
Pemadanan Dua Kata Setelah DTW
0
100000
200000
300000
400000
500000
0 100 200 300
Jumlah Frame
Amplitude Power
Gambar 418 Perbandingan power dua kata ldquoempat matirdquo setelah Dynamic Time Warping
Dari gambar 418 dapat dinyatakan bahwa setelah melalui proses dynamic time warping terjadi penekukan
dan penarikan data berdasarkan waktu antara keduanya sehingga pada akhirnya kedua sinyal memiliki
ukuran panjang yang sama Sehingga dengan demikian dapat dicari jarak euclidian untuk menentukan
sebuah kata yang sesuai dengan kata yang lainnya
Bab 4 Pengujian dan Analisa
50
4213 Hasil Pengujian Sistem Perangkat Lunak
Pada pengujian sistem perangkat lunak diambil sampel data dari 3 orang dimana terdiri dari 3 orang pria
dan 1 orang wanita Pria pertama merupakan standar sekaligus pengisi suara untuk perintah Sedangkan pria
kedua dan wanita sebagai pembanding untuk mengetahui unjuk kerja sistem
Tabel 41 Hasil pengujian sistem pengolahan sinyal wicara untuk pengucap yang sama (pria
1)
8 7 6 5 4 3 2 1 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05417
03487
05964
03443
07272
04424
03449
01
961
Satu
nyala
Sinyal Standart
02496
04723
03013
05120
03450
03815
01
739
03471
Satu
mati
04389
02035
06139
03244
04343
02
158
04567
04047
Dua
nyala
01866
04517
04157
05267
01
940
02561
02036
04779
Dua
mati
04833
02168
03984
01
090
06409
04278
05019
02690
Tiga
nyala
02683
04628
01
188
03416
04046
03345
02959
04614
Tiga
mati
03807
01
046
05271
01974
05934
03134
04363
02554
Empat
nyala
01
388
03728
02269
04497
02559
03195
02476
04874
Empat
mati
Bab 4 Pengujian dan Analisa
51
16
15
14
13
12
11
10
9 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05776
02988
05100
04019
06101
05338
04219
02
047
Satu
nyala
Sinyal Standart
03382
04381
02427
05124
02642
05990
02
706
03335
Satu
mati
04453
02558
04993
04574
03381
02
344
04529
04121
Dua
nyala
01669
04532
03190
06355
01
004
04807
03466
04622
Dua
mati
05209
02261
03366
01
124
05377
04165
05369
02660
Tiga
nyala
03721
04074
00
891
03002
02637
05958
02719
04333
Tiga
mati
03889
01
755
04365
02341
04826
03150
05193
02472
Empat
nyala
01
092
03974
01802
04848
01455
05343
02717
04536
Empat
mati
Bab 4 Pengujian dan Analisa
52
24
23
22
21
20
19
18
17 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05157
04015
06277
02964
05609
04690
03376
01
369
Satu
nyala
Sinyal Standart
01787
05144
03814
04134
04952
04843
01
636
03404
Satu
mati
03988
03026
07420
03020
03977
01
905
04801
03610
Dua
nyala
01630
05662
06259
05009
01
808
03357
02206
05094
Dua
mati
04667
02681
05731
01
448
05575
03280
05344
03417
Tiga
nyala
01902
05055
03
395
02597
04700
04618
02951
04808
Tiga
mati
03809
01
863
06920
02154
04252
02455
04616
03184
Empat
nyala
00
761
04379
04288
04053
03629
04122
02419
05622
Empat
mati
Bab 4 Pengujian dan Analisa
53
32
31
30
29
28
27
26
25 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
04793
03554
06312
03247
06514
03585
03068
02
935
Satu
nyala
Sinyal Standart
01671
04661
03012
03961
02834
04667
01
079
05475
Satu
mati
04033
02359
05307
02587
03475
01
587
04781
04010
Dua
nyala
02222
04949
03652
04387
00
958
03222
02647
04966
Dua
mati
04499
02207
04170
01
873
05884
02500
05631
03257
Tiga
nyala
01791
04432
01
196
02646
02999
04619
02558
05048
Tiga
mati
03561
01
050
05061
02437
04927
01887
05325
03424
Empat
nyala
00
858
03774
02052
03974
01440
04186
02597
05381
Empat
mati
Bab 4 Pengujian dan Analisa
54
40
39
38
37
36
35
34
33 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
06471
03838
05816
03364
06492
03613
03496
01
111
Satu
nyala
Sinyal Standart
02951
05556
02631
04558
05057
04799
01
683
02958
Satu
mati
05259
02977
05228
03305
04614
00
878
05159
02707
Dua
nyala
03165
05686
03078
05512
01
088
03082
03482
04823
Dua
mati
05397
02037
03714
00
949
06365
02818
05998
02829
Tiga
nyala
02990
04867
00
921
02759
04978
04752
03131
04533
Tiga
mati
05028
01
233
05114
02070
05154
01825
05439
01975
Empat
nyala
01
914
04521
01834
04248
02711
04164
03149
04755
Empat
mati
Bab 4 Pengujian dan Analisa
55
48
47
46
45
44
43
42
41 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
07997
03701
06005
03992
05800
05223
03706
01
198
Satu
nyala
Sinyal Standart
03909
04978
02572
05339
05784
05103
01
161
03113
Satu
mati
06284
02355
05419
04194
03709
02
588
04764
02834
Dua
nyala
03737
04883
03321
06131
03
489
04229
03188
04962
Dua
mati
05885
02259
04026
00
918
06123
03601
05739
0 2867
Tiga
nyala
03583
04464
00
974
03340
05828
05114
02720
04269
Tiga
mati
05762
01
230
7
05459
02231
04899
03397
05114
0 2395
Empat
nyala
02
247
02888
01948
04994
04987
04505
02141
0 4956
Empat
mati
Bab 4 Pengujian dan Analisa
56
56
55
54
53
52
51
50
49 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05627
03923
06226
04018
05254
04895
02933
02
009
Satu
nyala
Sinyal Standart
02473
04947
02892
05661
05301
05040
01
289
03008
Satu
mati
04393
02779
06046
04425
02900
01
743
04571
02669
Dua
nyala
02222
05352
04171
06748
01
202
03736
03177
03699
Dua
mati
04644
02488
03523
00
835
05391
03319
05277
03671
Tiga
nyala
02213
04345
01
009
03758
02869
05933
02761
03900
Tiga
mati
04093
01
443
05080
05083
04959
02819
04840
02709
Empat
nyala
01
239
04029
0 2223
05428
01263
04236
02575
04141
Empat
mati
Bab 4 Pengujian dan Analisa
57
64
63
62
61
60
59
58
57 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
07489
03792
05134
04199
06459
04019
03044
01
850
Satu
nyala
Sinyal Standart
03586
04783
02186
05509
02884
04251
01
198
03243
Satu
mati
05697
02612
04576
04268
03211
01
519
04639
03845
Dua
nyala
03563
05288
02855
06752
01
074
03523
03265
04523
Dua
mati
05768
02262
03884
01
048
06348
02633
05784
02683
Tiga
nyala
03449
04859
01
009
03177
03425
04355
02975
04077
Tiga
mati
05693
01
445
04574
02498
05298
01999
05622
02359
Empat
nyala
02
236
04215
01468
05161
01827
03851
03161
04416
Empat
mati
Bab 4 Pengujian dan Analisa
58
72
71
70
69
68
67
66
65 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05439
02975
05593
03689
05796
03415
03416
01
492
Satu
nyala
Sinyal Standart
02225
04543
04586
04584
02669
04529
01
112
02881
Satu
mati
04025
02639
06303
03009
02582
01
003
05045
02767
Dua
nyala
01734
05437
04847
04897
00
826
02892
02584
04797
Dua
mati
04671
02336
04988
01
206
05595
02572
05647
02991
Tiga
nyala
02095
04805
04
025
02747
02848
04359
02773
04076
Tiga
mati
03971
01
297
05065
02121
04489
01703
05074
02131
Empat
nyala
00
901
04123
04026
04154
01514
03762
02328
04561
Empat
mati
Bab 4 Pengujian dan Analisa
59
80
79
78
77
76
75
74
73 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
07997
03054
06228
04446
05805
04687
03173
03
391
Satu
nyala
Sinyal Standart
05051
04619
05619
05749
02631
04447
01
086
05310
Satu
mati
05949
03685
05899
05607
03163
01
874
05234
03797
Dua
nyala
03109
05053
05258
07102
01
095
03368
03585
04539
Dua
mati
06473
02004
04524
01
350
05525
03084
05608
03682
Tiga
nyala
04759
04205
04
309
03701
03031
04660
02678
05243
Tiga
mati
05572
02
003
05167
02702
04478
02552
05358
03563
Empat
nyala
02
459
04960
04964
05734
01641
03971
02630
05029
Empat
mati
Pengujian pertama ini dilakukan dengan cara memasukkan suara pria pertama (yang digunakan sebagai
pengisi suara standart) Setiap satu perintah dilakukan sebanyak 10 kali pengujian Hasil pengujian
merupakan nilai dari hasil proses Dynamic Time Warping yang merupakan nilai dari pemadanan sinyal
input dengan kedelapan sinyal standart Nilai terkecil (nilai yang tercetak tebal) yang didapatkan merupakan
hasil yang paling mendekati sinyal standart Yang berarti sinyal masukan tersebut dianggap paling sesuai
dengan sinyal standart
Prosentase keberhasilan pengucapspeaker pertama untuk kedelapan perintah sebesar 100 semuanya
menunjukkan kepada sinyal masukkan dan sinyal standart yang sama
Hasil pengujian menunjukkan bahwa ciri sinyal suara yang dihasilkan oleh pengucap speaker pertama dan
sebagai pemberi standart adalah sama
Bab 4 Pengujian dan Analisa
60
Tabel 42 Hasil pengujian sistem pengolahan sinyal wicara untuk pengucap yang lain (pria
2)
8 7 6 5 4 3 2 1 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
06023
05121
07146
04599
04996
04561
07575
04
358
Satu
nyala
Sinyal Standart
04018
05701
06369
06256
03518
05738
07004
08129
Satu
mati
07120
03925
07395
04897
05938
02246
10082
06777
Dua
nyala
04963
05958
05189
07345
03449
04854
08816
08543
Dua
mati
05919
04337
05163
02
130
04797
03463
08871
05289
Tiga
nyala
03709
04519
04380
03601
03491
05239
06
046
07381
Tiga
mati
06087
03
161
06178
03280
05
068
02
439
08853
05354
Empat
nyala
03
409
04321
04
208
05569
03219
04898
06863
08596
Empat
mati
Bab 4 Pengujian dan Analisa
61
16
15
14
13
12
11
10
9 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05475
03932
05521
04
383
05634
05416
04
464
03
434
Satu
nyala
Sinyal Standart
04076
05731
04541
05681
03574
04920
03971
06662
Satu
mati
07427
04886
07924
05962
05824
02
712
07837
05504
Dua
nyala
04475
06666
05765
07616
03414
04203
05431
06334
Dua
mati
05357
03797
05099
04509
04902
04332
07097
05220
Tiga
nyala
04197
05134
04
209
05088
03169
04547
04464
06516
Tiga
mati
05936
03
769
05910
05109
05
311
03435
07646
04977
Empat
nyala
03
576
05767
04591
06367
03010
04129
04944
06850
Empat
mati
Bab 4 Pengujian dan Analisa
62
24
23
22
21
20
19
18
17 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
06927
04
279
08096
04
448
06461
05522
03935
02
444
Satu
nyala
Sinyal Standart
06409
05322
05528
05481
04912
04491
02
011
05508
Satu
mati
06134
04643
08962
06002
04868
02
579
06122
05502
Dua
nyala
04753
06443
05501
07364
02
298
03206
04239
06684
Dua
mati
05709
04928
05456
04961
06142
05726
06454
03831
Tiga
nyala
05798
04882
03
235
04708
04838
04317
03526
05462
Tiga
mati
05021
04423
06842
05583
05222
04132
06363
04235
Empat
nyala
04
457
05427
03546
05773
02946
03573
03618
07019
Empat
mati
Bab 4 Pengujian dan Analisa
63
32
31
30
29
28
27
26
25 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05260
04224
07393
04661
06292
04993
03989
03
549
Satu
nyala
Sinyal Standart
04478
04669
04568
05977
03523
04046
03
438
04819
Satu
mati
06448
04308
08152
06114
04665
02
444
07609
05162
Dua
nyala
04024
05867
05103
07873
01
872
02613
04489
06765
Dua
mati
05363
04
672
05250
04
529
05210
05103
06546
04794
Tiga
nyala
04422
04039
02
482
05102
03499
03985
03969
04371
Tiga
mati
05492
04073
06626
05239
04902
03553
06869
04794
Empat
nyala
03
326
04543
03153
06510
02133
03419
04175
05287
Empat
mati
Hasil pengujian yang kedua ini dilakukan dengan cara memasukkan suara dari pria kedua (pria lain yang
tidak digunakan sebagai suara standart) Setiap satu perintah dilakukan empat (4) kali proses pengujian
Hasil pengujian merupakan nilai dari hasil proses Dynamic Time Warping yang merupakan nilai dari
pemadanan sinyal input dengan kedelapan sinyal standart Nilai terkecil (nilai yang tercetak tebal) yang
didapatkan merupakan hasil yang paling mendekati sinyal standart Yang berarti sinyal masukan tersebut
dianggap paling sesuai dengan sinyal standart
Prosentase keberhasilan pengucapspeaker kedua untuk kedelapan perintah bervariasi sebesar 50
sampai dengan 100 semuanya menunjukkan kepada sinyal masukkan dan sinyal standart yang berbeda
Hasil pengujian menunjukkan bahwa ciri sinyal suara yang dihasilkan oleh pengucap speaker kedua dan
sebagai pemberi standart adalah mendekati sama
Bab 4 Pengujian dan Analisa
64
Tabel 43 Hasil pengujian sistem pengolahan sinyal wicara untuk pengucap yang sama (pria)
No Perintah Lampu DTMF
1 1 nyala B B
2 1 mati B G
3 2 nyala B G
4 2 mati G X
5 3 nyala G X
6 3 mati G X
7 4 nyala B B
8 4 mati B B
9 1 nyala B G
10 1 mati B B
11 2 nyala B G
12 2 mati B B
13 3 nyala B G
14 3 mati B B
15 4 nyala B G
16 4 mati B B
17 1 nyala B G
18 1 mati B B
19 2 nyala G X
20 2 mati G X
21 3 nyala B B
22 3 mati B B
23 4 nyala B B
24 4 mati G X
No Perintah Lampu DTMF
25 1 nyala B G
26 1 mati G X
27 2 nyala G X
28 2 mati B G
29 3 nyala B G
30 3 mati B G
31 4 nyala B G
32 4 mati G X
B Berhasil
G Gagal
X Donrsquot Care (Diabaikan)
Pengujian yang ketiga ini dilakukan oleh pria pertama (pria yang suaranya digunakan sebagai standart)
Masing-masing perintah dilakukan sebanyak empat kali pengujian
Bab 4 Pengujian dan Analisa
65
Pada kolom ketiga (kolom lampu) tanda B (berhasil) menunjukkan bahwa perintah yang diberikan pada
hardware berhasil dilakukan Tanda G (gagal) menunjukkan bahwa perintah yang diberikan pada hardware
gagal dilakukan(hasil tidak sesuai dengan perintah yang diberikan)
Pada kolom keempat (kolom DTMF) menunjukkan laporan dari hardware ke PC server tentang
bagaimana keadaan lampu yang sedang dikontrol apakah dalam keadaan menyala atau mati Pada kolom ini
tanda B (berhasil) menunjukkan bahwa laporan dari hardware ke PC server (yang merupakan proses
otomatisasi) berhasil dilakukan Tanda G (gagal) menunjukkan bahwa laporan ke PC client gagal dilakukan
Sedangkan tanda X (donrsquot care) menunjukkan bahwa perintah diabaikan Hal ini disebabkan perintah pada
hardware (perintah sebelumnya sebelum proses otomatisasi) sudah gagal dilakukan
Prosentase keberhasilan pengucapspeaker pertama untuk kedelapan perintah bervariasi antara 50
sampai 100 semuanya menunjukkan kepada sinyal masukkan dan sinyal standart yang berbeda
Hasil pengujian kedua ini menunjukkan bahwa ciri sinyal suara yang dihasilkan oleh pengucapspeaker
kedua ini yang merupakan suara orang lain (bukan pemberi standart) adalah mendekati sama dengan hasil
yang bervariasi antara 50 sampai 100
43 Pengujian Sistem Client Server
Pada sub bab ini akan diujikan program Client Server yang akan mengirimkan sinyal hasil pengolahan
suara
Tampilan pada client adalah seperti gambar 421 yang merupakan tampilan awal pada saat program
dimulai
Gambar 421 Proses pada client
Bab 4 Pengujian dan Analisa
66
Gambar 422 Proses pada server
1 Sebelumnya program server harus disiapkan lebih dulu
2 Setelah itu client dijalankan
3 Setelah client siap user memasukkan suara yang selanjutnya akan diolah sampai proses DTW
4 Server menerima data yang selanjutnya digunakan untuk melakukan kontrol alat rumah tangga
44 Analisa Pengujian Sistem Secara Keseluruhan
Berdasarkan data-data yang telah didapatkan di atas maka dapat ditarik suatu analisa bahwa
Berdasarkan tabel 44 untuk pengujian pertama pria 1 adalah pria yang suaranya digunakan sebagai standart
Prosentase keberhasilan rata-rata yang didapat untuk semua perintah adalah sebesar 100 Hal ini menunjukkan
bahwa suara yang diujikan adalah suara yang sama dengan standart dan pria 1 tersebut pernah berinteraksi
dengan sistem
Pengujian yang kedua adalah pengujian yang dilakukan oleh pria 2 (pria lain yang suaranya tidak
dipakai sebagai standart) Prosentase keberhasilan rata-rata yang didapat untuk semua perintah 7188 Karena
sistem bersifat dependent speaker dimana sistem hanya digunakan oleh orang tertentu dalam arti yang pernah
berinteraksi langsung dengan sistem Oleh karenanya didapat nilai prosentase keberhasilan yang bervariasi
Bab 4 Pengujian dan Analisa
67
Tabel 44 Tingkat keberhasilan sistem perangkat lunak
NNO
PENGUCAP
PERINTAH
BANYAK
PERCOBAAN
PROSENTASE
KEBERHASILAN
1 Pria 1 1 nyala 8 kali 100
2 1 mati 8 kali 100
3 2 nyala 8 kali 100
4 2 mati 8 kali 100
5 3 nyala 8 kali 100
6 3 mati 8 kali 100
7 4 nyala 8 kali 100
8 4 mati 8 kali 100
RATA-RATA 100
9 Pria 2 1 nyala 4 kali 100
10 1 mati 4 kali 75
11 2 nyala 4 kali 75
12 2 mati 4 kali 50
13 3 nyala 4 kali 50
14 3 mati 4 kali 75
15 4 nyala 4 kali 50
16 4 mati 4 kali 100
RATA-RATA 7188
Jika diurutkan proses pengolahan wicara dari awal sampai diambil keputusan suara yang dimasukkan
tersebut adalah suara yang sesuai atau tidak adalah sebagai berikut
Bab 4 Pengujian dan Analisa
68
Gambar 423 Tampilan awal perangkat lunak menggunakan TclTk dan Snack
Gambar 423 adalah tampilan awal dari perangkat lunak yang dibangun dengan menggunakan TclTk dan
Snack
Gambar 424 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan dengan
menggunakan perangkat lunak Wavesurver
Gambar 424 adalah tampilan awal dari program Wavesurver yang merupakan pembanding dari program
yang dibuat dari perangkat lunak TclTk dan Snack
Bab 4 Pengujian dan Analisa
69
Gambar 425 Tampilan awal perangkat lunak
menggunakan TclTk dan Snack
Gambar 425 adalah tampilan ketika proses pengambilan sinyal suara sedang dilakukan dengan perangkat
lunak TclTk dan Snack
Gambar 426 Tampilan hasil perekaman kata ldquoempat
matirdquo dengan menggunakan perangkat lunak Wavesurver
Gambar 426 adalah tampilan ketika proses pengambilan sinyal suara sedang dilakukan dengan perangkat
lunak Wavesurver
Bab 4 Pengujian dan Analisa
70
Data Sampling
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 427 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900 menggunakan TclTk dan
Snack
Pada gambar 427 dilakukan proses sampling sinyal masukan dengan frekuensi sampling sebesar 12000
Hz maka didapatkan hasil sinyal yang hampir mirip dengan sinyal analognya yang dilakukan dengan
perangkat lunak TclTk dan Snack
Gambar 428 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900 dengan menggunakan
perangkat Wavesurver
Pada gambar 428 dilakukan proses sampling sinyal masukan dengan frekuensi sampling sebesar 12000
Hz yang dilakukan dengan perangkat lunak Wavesurver
Data Windowing
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 429 Hasil Windowing data sampel
kata ldquoempat matirdquo milidetik ke-13900 menggunakan TclTk dan Snack
Bab 4 Pengujian dan Analisa
71
Proses windowing terdapat pada gambar 429 dilakukan untuk membuat sinyal yang disampel lebih
halus Proses windowing ini dilakukan dengan menggunakan perangkat lunak TclTk dan Snack
Proses windowing pada Wavesurver merupakan fasilitas yang tergabung dengan proses lainnya Misal
dengan proses Fast Fourier Transform Jadi disini tidak ditampilkan hanya sebagai proses windowing saja
tetapi digabungkan dengan proses lain
Fast Fourier Transform Sinyal
Masukan
0
20
40
60
80
100
120
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 430 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat
lunak TclTk dan Snack
Gambar 430 di atas adalah proses Fast Fourier sinyal masukan dengan perangkat lunak TclTk dan Snack
Hasil Fast Fourier Transform sinyal masukan menunjukkan sebaran spektrum frekuensi dari sinyal suara
yang telah dihasilkan oleh pengucap
Sebagai pembanding adalah proses Fast Fourier sinyal masukan yang diambil dengan Wavesurver seperti
pada gambar 431 Yang didapatkan hasil yang sama
Gambar 431 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat Wavesurver
Bab 4 Pengujian dan Analisa
72
Fast Fourier Transform Parameter
LPC
0
20
40
60
80
100
0 2000 4000 6000 8000
Frekuensi (Hz)10 x log
10(magnitude)(dB)
Gambar 432 Fast Fourier Transform LPC dengan menggunakan perangkat lunak TCLTk
dan Snack
Hasil gambar 432 menunjukkan proses Fast Fourier Transform LPC yang dilakukan dengan perangkat
lunak TclTk dan Snack
Gambar 433 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat Wavesurver
Proses Fast Fourier Transform yang dilakukan dengan Wavesurver dapat dilihat pada gambar 433
Pelekukan Jalur Suara
0
50
100
150
0 50 100 150
Sinyal Input empat mati
Sinyal Standart
empat mati
Gambar 434 Pelekukan Jalur Suara dengan Dynamic Time Warping
Bab 4 Pengujian dan Analisa
73
Dari gambar 434 dapat dianalisa bahwa dengan menggunakan dynamic time warping terdapat proses
pembandingan panjang sinyal antara dua buah sinyal input dan sinyal standart sehingga terjadi proses
pemadanan panjang sinyal dengan cara memperpanjang dan menekuk vektor spektralnya
74
BAB 5
PENUTUP
51 Kesimpulan
Dari hasil yang didapatkan maka dapat diambil kesimpulan bahwa
Sistem pengucap tak bebas atau speaker dependent system memiliki tingkat akurasi yang tinggi untuk
pengucap masukan dan pengucap standar yang sama Hal ini dibuktikan dengan hasil pengujian pertama
yang dilakukan oleh pria pertama Pria pertama ini adalah pria yang suaranya digunakan sebagai standar
Nilai prosentase keberhasilan rata-rata untuk semua perintah adalah sebesar 100 dari setiap perintah
dilakukan 8 kali percobaan
Sedangkan pengujian yang dilakukan oleh suara lain (bukan standart) prosentatase keberhasilan
rata-rata yang diperoleh untuk semua perintah 7188 dari setiap perintah dilakukan 4 kali percobaan Hal
ini disebabkan karena suara pria kedua tidak pernah berinteraksi dengan sistem
Keberhasilan sistem ditunjukkan oleh ketepatan penyalaan lampu sesuai dengan yang diperintahkan
melalui perintah suara
Kecepatan sistem secara keseluruhan diperlihatkan dalam tabel 51 dibawah
Tabel 51 Kecepatan sistem keseluruhan
No
Perintah
Waktu (detik)
1 2 3 4 Rata-rata
1 Satu Nyala 11 99 12 25 16 89 14 05 13 80
2 Satu Mati 12 51 13 28 14 83 12 25 13 22
3 Dua Nyala 10 70 11 73 11 99 12 25 11 67
4 Dua Mati 10 44 11 21 11 21 11 47 11 08
5 Tiga Nyala 10 96 12 25 13 54 12 51 12 32
6 Tiga Mati 10 70 11 99 11 99 13 28 11 99
7 Empat Nyala 11 73 11 99 13 02 12 24 12 25
8 Empat Mati 10 70 09 93 11 21 10 70 10 64
Rata-rata 12 12
Dari data yang diperoleh didapatkan kecepatan rata-rata untuk tiap perintah yang diberikan sampai
dengan terlaksananya eksekusi dari perintah adalah 12 12 detik
52 Saran
Pada penelitian ini masih sangat banyak hal yang dapat dilakukan untuk perbaikan-perbaikan dimasa
selanjutnya Saran dan usulan yang dapat dipertimbangkan untuk pengembangan sistem lebih lanjut adalah
antara lain
1 Sistem tidak lagi bersifat dependent speaker tetapi bersifat independent speaker dimana banyak
orang yang memberi perintah dan sistem dengan tepat memberikan respon
2 Sistem dapat mengatasi tingkat noise yang tinggi baik yang disebabkan oleh lingkungan atau oleh
hardware (sound card)
75
3 Otomatisasi sistem Artinya perintah tidak perlu lagi diberikan lewat penekanan tombol yang
dilakukan melalui mouse
4 Respon sistem yang real time
5 Sistem yang dapat dengan mudah beradaptasi dengan jenis sound card yang bervariasi
DAFTAR PUSTAKA
Anggraeni Triana Dewi Astutik Debi Puji Pengenalan Wicara Dengan Penutur Tak Bebas
Tugas Akhir PENS ITS 2003
Wahyudi Agus Verifikasi Sinyal Suara Sebagai Kendali Arah TA PENS-ITS 2002
Dewantara Bima Sena Bayu Aplikasi Pengenalan Wicara Untuk Perintah NirkabelRobot Mikro
Mouse Tugas Akhir PENS ITS 2004
Dutono Titon Penataran Kebahasaan Tahap I Fonetik Dan Fonologi ndashPengolahan Sinyal
Wicara Digital 20 Februari 2001
Gabel Robert A Richard A Robert Sinyal dan Sistem LinierErlangga 1996
Rabiner Lawrence Huang Juang Biing Fundamentals of Speech Recognition Prentice Hall
International Inc1993
Proakis John G Malonakis Dimitris G Digital Signal Processing Principles Algorithms and
Applications Prentice Hall Inc New Jersey 1995
Scolander Kare Snack Sound Toolkit
httpwwwtcltkmantcl85tutorialTcl11html
httpwikitcltk4074
httpwwwinveceorgtclwisefrontcoverhtml
httpwwwspeechkthsesnackmansnack22tcl-manhtml
httpwwwspeechkthsesnacktutorialhtml
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13]
Bab 2 Teori Penunjang
8
Window Hamming
052-046 cos[2лn(N-1)] 0 le n le N-1
Wham(n) =
0 elsewhere
Window Hanning
1-cos[2лn(N-1)] 2 0 le n le N-1
Whan(n) =
0 elsewhere
Window Bartlett
1-cos[2лn(N-1)] 2 0 le n le (N-1)2
WB(n) = 2-2n(N-1) (N-1)2lenleN-1
0 elsewhere
Window Blackman
042-05cos[2лn(N-1)]+008cos[4лn(N-1)]0lenleN-1
WBl(n) =
0 elsewhere
216 Fourier Transform
Transformasi Fourier Diskrit (DFT) adalah deretan yang terdefinisi pada kawasan frekuensi ndash diskrit
yang merepresentaskan Transformasi Fourier terhadap suatu deretan terhingga (Finite Duration Sequence) DFT
berperan penting untuk implementasi algoritma suatu varitas pengolah sinyal karena efisien untuk komputasi
berbagai aplikasi
Salah satu contoh aplikasi komputasi DFT dalam algoritma yang efisien yaitu Fast Fourier Transform
(FFT) Efisiensi suatu algoritma ditentukan dari sejauh mana dapat mereduksi jumlah perkalian dan
penjumlahan serta reduksi lalu lintas data pada memori komputer sehingga proses lebih cepat
Pada DFT untuk memproses N buah titik diperlukan (N-1)perkalian kompleks dan N(N-1)
penjumlahan kompleks Bila N cukup besar dibutuhkan memori yang besar dan waktu yang cukup lama Untuk
itu digunakan metode lain yang lebih cepat yaitu metode transformasi fourier cepat (FFT) FFT dilakukan
dengan membagi N buah titik pada transformasi fourier diskrit menjadi 2 masing-masing N2 titik trnsformasi
Pemecahan menjadi dua pada proses transformasi fourier cepat disebut sebagai proses rekombinasi Dua buah
N2 titik transformasi mempunyai 2(N2) = N2 perkalian Proses memecah menjadi dua ini diteruskan dengan
membagi setiap (N2) titik transformasi menjadi dua buah (N4) titik transformasi setiap (N4) menjadi dua buah
Bab 2 Teori Penunjang
9
(N8) titik transformasi dan seterusnya hingga diperoleh junlah titik yang minimum Jika besarnya N merupakan
kelipatan pangkat dari 2 (disebut radiks 2) maka jumlah titik minimum setelah setiap kali dibagi 2 adalah dua
Ada dua macam metode FFT metode Decimation in Time (DIT) dan metode Dicimation in Frekuensi
(DIF) Kedua metode ini hamper sama Pada metode FFT-DIT N buah titik transformasi dibagi 2 menjadi fungsi
ganjil dan genap masing-masing mempunyai N2 titik transformasi Sedang pada metode FFT-DIF N buah titk
transformasi dibagi menjadi fungsi N2 titk yang pertama dan fungsi N2 titik yang kedua
Operasi pada metode FFT-DIT disebut juga metode kupu-kupu Untuk N buah titik transformasi h(n)
algoritma radiks 2 memerlukan proses perkalian dan rekombinasi sebanyak N2 log N transformasi fourier
diskrit Pada metode FFT-DIT operasi dekomposisi dilakukan dengan membagi fungsi h(n) menjadi 2 bagian
fungsi ganjil dan fungsi genap Atau dengan pernyataan matematika h1(n) dan h2(n) yang masing-masing adalah
untuk n genap dan n ganjil
Prinsip FFT dengan metode DIT adalah seperti pada gambar 24 berikut ini
Gambar 28 Blok metode FFT-DIT 8 titik
7
Pada gambar di atas merupakan jumlah perkalian kompleks N2 log N juga jumlah penjumlahan
kompleks = N2 log N
217 Linear Prediction Code
Ide dasar dari LPC adalah bahwa pada model ini memberikan sampel suara pada domain waktu yang
bisa didekati sebagai kombinasi linear dari sampel suara yang telah lalu
Teori Linear Prediction Coding (LPC) yang diaplikasikan pada wicara telah dimengerti selama
beberapa tahun Pada bagian ini akan dijelaskan dasar dari bagaimana LPC diaplikasikan pada sistem pengenlan
wicara
Sebelum menjelaskan LPC secara umum sebagai pemrose front-end untuk pengenalan wicara perlu
diketahui alasan mengapa LPC sangat banyak digunakan yaitu
1 LPC menyuguhkan model yang bagus untuk sinyal wicara
2 Cara yang digunakan LPC untuk analisa sinyal wicara sangat beralasan untuk pemisahan track dari
sumber vocal
3 LPC adalah model traktabel secara analitis
Bab 2 Teori Penunjang
10
4 Model LPC bekerja dengan baik pada aplikasi pengenalan
2171 Autocorrelation Analysis
Masing-masing frame sinyal yang telah diwindow kemudian di-autokorelasikan dengan menggunakan
persamaan
N-1-M
r1(m) = sum x1(n) x1(n+m) m = 0 1 p ( 25) (25)
n = 0
dimana nilai autokorelasi tertinggi p adalah orde dari analisi LPC Pada umumnya nilai dari p yang
sering digunakan adalah dari 8 sampai 16 Sisi menguntungkan dari analisis autokorelasi adalah bahwa
autokorelasi ke-0 R1 (0) adalah energi dari frame ke-1 Energi dari frame merupakan parameter
penting untuk system deteksi wicara
2172 LPC Analysis
Langkah selanjutnya adalah analisis LPC dimana mengkonversi masing-masing frame dari
auto korelasi p+1 ke dalam sebuah ldquoLPC Parameter Setrdquo dimana kumpulan itu merupakan koefisien
LPC koefisien refleksi atau PARCOR koefisien log area ratio koefisien Cepstral atau beberapa
transformasi pada kumpulan tersebut
Metode yang formal untuk mengkonversi dari koefisien autokorelasi ke sebuah LPC parameter
set (untuk metode autokorelasi) dikenal sebagai Metode Durbin dan secara formal dapat ditunjukkan
pada algoritma berikut ini
E(0) = r(0) ( 26)
Ki=r(i)-sumαj(i-1) r(|i-j|)E(i-1) 1 le I le p ( 27)
αi(i) = ki (28)
αj(i) = αj
(i-1)-ki α(i-1) ( 29)
t-j
E(i)=(1-ki2)E (i-j) (210)
dimana penyajian akhir dari persamaan mengabaikan i=1 Kumpulan dari persamaan hellipdiselesaikan secara
rekursif untuk i=12hellipp dan penyelesaian akhir diberikan sebagai
am=koefisien PC=αm 1lemlep ( 211)
7 Agus Wahyudi Verifikasi Sinyal Suara Sebagai Kendali Arah TA PENS-ITS 2002
Bab 2 Teori Penunjang
11
km=koefisien PARCOR ( 212)
1 - km
gm=koefisien log area ratio = log ----------- ( 213)
1 + km
2173 LPC Parameter Corversion to Cepstral Coefficients
Sekumpulan parameter LPC yang sangat penting yang dapat diturunkan langsung dari kumpulan LPC
adalah koefisien cepstral LPC c(m) Rekursif yang digunakan adalah
co = ln σ2 ( 214)
m-1
cm = am + sum ck am-k 1 le m le p ( 215)
k = 1
m-1
cm = sum ck am-k m gt p
k = 1
dimana σ2 adalah penguatan dalam model LPC Koefisien cepstral koefisien yang direpresentasikan dengan
fourier transform dengan spectrum besaran log telah ditampilkan menjadi kumpulan fitur untuk pengenalan
wicara yang lebih handal terpercaya daripada koefisien LPC koefisien PARCOR atau koefisien log area ratio
218 Dynamic Time Wraping
Dynamic Time Wraping (DTW) merupakan cara untuk membandingkan pola wicara dalam menentukan
kesamaan jarak antara pola-pola yang berbeda Dimana pengenalan wicara merupakan proses secara otomatis
dalam mengambil dan menentukan informasi linguistic yang disampaikan dengan gelombang wicara
menggunakan komputer atau sirkuit elektronik Informasi linguistic tersebut pada akhirnya akan
direpresentasikan dengan deretan waktu vektor-vektor spektral
Metode nolmalisasi waktu menggunakan dua buah fungsi warping
ix = Фx (k) k = 123hellipT (216)
iy = Фy (k) k = 123hellipT
2181 Dynamic Programming
Dynamic Programming (DP) digunakan untuk memecahkan masalah deteksi pengurutan kemampuan
menggunakan pola pengenalan wicara dan masalah waktu penjajaran dan normalisasi Ada dua tipe masalah
penggunaan Dynamic Programming yaitu
(
)
k m
( )
K m ( )
Bab 2 Teori Penunjang
12
1 Masalah jalan optimal dengan menganggap sekumpulan titik mulai dari 1 sampai dengan N yang
dihubungkan dengan pasangan setiap dari titik (ij) Representasi perpindahan secara langsung dari titik
ke-1 ke titik yang lainnya Rentetan perpindahan tersebut tidak mempunyai bilangan yang ditetapkan
dari transisi satu titik ke titik yang lainnya hal ini disebut rentetan keputusan asinkron
Dengan Terminologi sederhana kita membuat garis keputusan untuk menetukan titk berikutnya setelah
kebijaksanaan pada titik i
Prinsip dari optimalisasi yang merupakan kelas dasar dari algoritma komputasi untuk optimasi masalah
di atas berdasarkan pernyataan Bellman
rdquoKebijakan optimasi yang memiliki sifat apapun ketetapan dan ketentuannya keputusan berikutnya
harus merupakan hasil ketetapan dari keputusan yang pertamardquo
2 Masalah keputusan rentetan sinkronisasi terdapat perbedaan dari satu sinkronisasi yang beraturan dari
proses keputusan
Penggunaan teknik Dynamic Programming pada Dynamic Time Warping untuk pertama kali dilakukan
oleh Slutsker (1968) Vintsyuk (1968) dan Volichko (1971) dari Jepang untuk pengenalan wicara Pada proses
ini pembicara mengucapkan kata yang sama dengan durasi berubah setiap waktu dengan ekspansi yang non
linier Oleh karena itu Dynamic Time Wraping adalah tahap yang penting dalam proses pengenalan kata Proses
DTW mengalami pengembangan pada sumbu waktu untuk mencocokan posisi phonemkata yang sama antara
input wicara dan referensi template
Dynamic Programing secara umum digunakan untuk memecahkan masalah rentetan keputusan yang
dilakukan pada bidang kisi sebagaimana ditampilkan pada gambar 27 Sinyal yang dicocokkan adalah A dan B
Di dalam bidang kisi sinyal A disesuaikan sepanjang sumbu ndashx dan sinyal B disesuaikan sepanjang sumbu ndashy
Setiap antar bagian pada bagian ini ditetapkan sebagai sebuah simpul atau titik dimana titik (ij) adalah
pencocokan frame I untuk sinyal A dengan frame j untuk sinyal B Misalnya diasumsikan dua rentetan waktu
untuk vektor utama yang dibandingkan sebagai berikut
A = a1a2hellipaI dan B = b1b2hellipbJ
Dengan menganggap rentang bidang antara A dan B sebagaimana ditunjukkan pada gambar 27
fungsi pelengkungan waktu yang sesuai menunjukkan waktu antara rentetan A dan B dapat dipresentasikan
sebagai rentetan titk-titik Lattice pada bidang c = (ij) sebagai berikut
Bab 2 Teori Penunjang
13
Gambar 29 Plane jaringan untuk ilustrasi
pemrograman dinamik8
Bilamana jarak spektral antara dua vektor utama a1 dan b1 direpresentasikan oleh d(c) = d(ij) penjumlahan
jarak dari awal sampai akhir dari rentetan sepanjang F dapat direpresentasikan dengan
K
sum d(ck)wk
k=1
D(F) = mdashmdashmdashmdashmdash (217)
K
sum wk
k=1
Semakin kecil nilai ini semakin baik kecocokan antara A dan B Dimana wk adalah fungsi pembobotan
positif terhadap F
Dengan memperkecil persamaan di atas dengan kondisi berikut
1 Kondisi monotonisasi dan kontinuitas
0 le ik-ik-1le1 0 lejk ndash jk -1 le 1 ( 218)
2 Kondisi perbatasan
I1=j1=Iik=Ijk=I (219)
3 Kondisi adjustmen window
|ik ndash jk|ler r=konstan ( 220)
Pendefinisian wk sedemikian rupa sehingga menyebut pada persamaan 219 menjadi konstan yang
tidak tergantung pada F Untuk contoh jika
Wk = (ik ndash ik -1)+(jk ndash jk -1)(i0=j0=0) wk akan menjadi
8 Ibid hal 15
Bab 2 Teori Penunjang
14
K
sum wk = I + J (221) k=1
dan persamaan 219 menjadi
1 K
D(F)= mdashmdash sum d(ck)wk ( 222)
I + J k=1
Gambar 210 DTW antara dua rentetan waktu A dan B
9
Karena fungsi obyektif yang akan diminimasi menjadi penjumlahan maka peminimisasi secara efisien
dapat diselesaikan tanpa harus menguji semua kemungkinan untuk F Penjumlahan pada sebagian rentetan c1
c2 hellip ck (ck=(ij)) adalah
(224)
Penurunan pemrograman dinamik pada persamaan-persamaan diatas penggunaan kondisi untuk F dan
formulasi perumusan wk persamaan 2115 dapat dituliskan kembali sebagai berikut
9 Ibid hal 17
Bab 2 Teori Penunjang
15
g(ij-1)+d(ij)
g(ij) = min g(i-1j-1) + 2d (ij) (225)
g(i-1j) +d(ij)
Oleh karena itu jarak antara dua rentetan waktu A dan B setelah DTW dapat diperoleh sebagai berikut
Kita set dari kondisi awal untuk g(11)=2d(11) dan j=1 dan hitung persamaan 2116 dengan variasi I dalam
sepanjang adjustment window Perhitungan ini diulangi dengan menaikkan j sampai j=1 Jarak keseluruhan
antara dua rentetan waktu A dan B dapat diperoleh dari g(IJ)(I+J)
2182 Batasan Normalisasi Waktu
Supaya proses normalisasi waktu mempunyai arti pada perbedaan batasan dengan berbagai variasi
interval waktu dibutuhkan beberapa batasan terhadap fungsi warping
2183 Batasan Titik Awal Akhir
Bilamana pola wicara yang dibandingkan merupakan tuturan per kata maka harus memenuhi syarat pola
mulai dari titik awal sampai titik akhir dari tanda permulaan dan pengakhiran pola wicara Titik awal dan akhir
mempunyi batasan yang membatasi pola wicara harus dipenuhi
Titik awal Фx(1) = 1 Фy(1) = 1 (226)
Titik akhir Фx(T) = Tx Фy(T) = Ty (227)
2184 Kondisi Monotonisasi
Rentetan pola spectral pada wicara sangat penting dalam menentukan arti linguistic sehingga tidak
akan hilang Untuk mempertahankan pola tersebut harus memenuhi
Фx(k + 1) ge Фx(k) (228)
Фy(k + 1) ge Фy(k)
22 Awal dan Akhir Sinyal Suara
221 Power
Sinyal suara yang diolah haruslah merupakan sinyal suara murni dan tidak bercampur dengan noise
ataupun header tail yang dibawa oleh suara saat perekaman apalagi jika pengenalan sinyal suara dengan jumlah
vocabulary yang besar Oleh karena itu sinyal suara hasil perekaman harus dicari nilai awal dan akhirnya agar
pengolahan sinyal suara tersebut menjadi lebih valid
Dan salah satu cara dalam menentukan nilai awal dan akhir dari sinyal suara adalah dengan
menggunakan power yang mempunyai persamaan sebagai berikut
( )
Bab 2 Teori Penunjang
16
239
p= sumradic xt2 (229)
t=0
Sinyal suara yang dibagi menjadi beberapa frame mempunyai power dari tiap framenya yang kemudian
didapatkan nilai rata-ratanya yang kemudian diperoleh nilai awal dan akhirnya dengan menambahkan 3 kali
standart deviasi Dimana penentuan awal dan akhir dari sinyal suara dapat diperoleh dengan
p ge p + 07 standart deviasi
Power
0
20000
40000
60000
80000
100000
120000
140000
160000
0 10 20 30 40 50 60
Jumlah Frame
Am
pli
tud
o
Gambar 211 Bentuk power dari kata
Nilai beberapa kali hasil percobaan
222 Unvoiced Plosive
Pada suatu sinyal suara yang terekam terdapat pemutusan sinyal atau kondisi kosong yang bukan
merupakan noise tetapi masih didalam lingkup suara Tapi kondisi ini hanya terjadi pada kebanyakan sinyal
suara yang terdapat konsonan tertentu yaitu sinyal suara dari kata yang mempunyai konsonan p t k Kondisi ini
disebut Unvoiced Plosive atau loncatan sinyal suara setelah kondisi kosong seperti ditunjukkan pada gambar
berikut
Gambar 212 Unvoiced Plosive
Bab 2 Teori Penunjang
17
Dan untuk penentuan awal dan akhir daerah kosong tersebut harus diperhitungkan agar didapatkan
nilai awal dan akhir dari sinyal suara yang valid yaitu dengan mencari nilai rata-rata dari daerah kosong dari
beberapa sinyal suara Kemudian dengan dicari nilai thresholdnya yaitu nilai terpanjang dari daerah kosong
sebesar 2 dari seluruh daerah kosong yang telah dihistogram
23 JARINGAN DENGAN TCPIP
Meskipun hubungan computer melalui serial dan parallel telah ada sejak lama multijaringan belum
menjadi masalah serius bagi para peneliti di bidang jaringan sampai awal tahun 1980 Perkembangan teknologi
LAN itu sendiri didasarkan banyak alasan Salah satu yang menjadi alasan utama adalah adanya perusahaan
yang ingin melakukan sharing data file printer dan resource lainnya ke pc lain
231 Mengenal TCPIP
Sebelumnya kita definisikan lebih dahulu apa yang dimaksud protocol itu Bila dua computer ingin
melakukan komunikasi keduanya tentu saja harus menggunkan bahasaturan yang sama Aturan-aturan inilah
yang disebut protocol Misalnya untuk mengirim mail digunakan protocol SMTP berhubungan dengan WWW
menggunakan HTTP dan sebagainya Jadi protocol merupakan aturan dalam melakukan komunikasi
TCPIP ( Transmission Control Protocol Internet Protocol) merupakan protocol yang bersifat open
networking Maksudnya semua penjelasan teknis tentang protocol tersebut diumumkan karena ada juga
mekanisme jaringan yang menyembunyikan detail dari sistemnya Hal inilah yang membuat TCPIP menjadi
terkenal
Adapun keuntungan dengan menggunakan protocol TCPIP adalah kemudahannya karena
memungkinkan hubungan antara berbagai system operasi dan berbagai jenis computer (platform)
TCPIP bukanlah protocol tunggal tetapi merupakan sekumpulan protocol sehingga lebih tepat disebut
sebagai keluarga TCPIP Setiap protocol pada TCPIP memiliki tugas tertentu yang berbeda Semua protocol
tersebut menggunakan protocol primer untuk mengirimkan paket data Protocol primer tersebut adalah TCP dan
IP
Protokol lainnya dapat dikelompokkan berdasarkan tujuannya sebagai berikut
1 Transport
Digunakan untuk mengatur perpindahan data antara dua mesin Antara lain
- TCP (Transmission Control Protocol)
- UDP (User Datagram Protocol)
2 Routing
Digunakan untuk pengalamatan data dan menentukan rute terbaik antara lain
- IP (Internet Protocol)
- ICMP (Internet Control Message Protocol)
- RIP (Routing Information Protocol)
Bab 2 Teori Penunjang
18
3 Network Address
Menangani bagaimana suatu mesin diberikan suatu alamat antara lain
- ARP ( Address Rwesolution Protocol)
- DNS ( Domain Name Sistem)
- RARP (Reverse Address Resolution Protocol)
4 User Service
Merupakan aplikasi yang harus diakses user antara lain
- FTP ( File Transfer Protocol)
- TFTP (Trivial File Transfer Protocol)
- TELNET
5 Gateway Protocol
Untuk membentuk proses komunikasi routing dan status informasi antara lain
- EGP (Exterior Geteway Protocol)
- GGP (Gateway to Gateway Protocol)
- IGP (Interior Gateway Protocol)
232 Koneksi TCPIP
Untuk mengkonfigurasi TCPIP maka dibutuhkan
Alamat IP
Alamat IP ini sebagai pengenal atau alamat mesin Karena setiap mesin yang terhubung jaringan
harus memiliki penganal yang unik sehingga memungkinkan melakukan routing Jaringan dengan TCPIP
menggunakan pengalamatan 32 bit sebagai alamat atau pengenal setiap mesin yang terkoneksi dengan jaringan
Pengenal ini disebut alamat IP Pesan atau data yang dikirim melalui TCPIP menggunakan alamat IP ini untuk
mengenali mesin pengirim dan penerimanya
Biasanya alamat IP dapat dikelompokkan menjadi dua bagian yaitu
1 Nomor Network
2 Nomor Device dalam Network tersebut
Alamat IP tersebut dipisahkan menjadi empat bagian yang masing-masing berukuran 8 bit Empat
bagian tersebut dipisahkan oleh tanda titik dan setiap bagian tersebut memiliki angka 0-255 Contohnya
192168101
Pemberian alamta IP umumnya ditentukan berdasarkan ukuran dari jaringan tersebut Jaringan
dapat diklasifikasikan menjadi tiga kategori yaitu kelas A kelas B kelas C Ketiga kelas tersebut membagi
pengalamatan 32 bit dengan ukuran berbeda untuk nomor Network dan Host
Pengalamatan pada kelas A memungkinkan bagian ini memiliki angka dari 0-127 Sedangkan
pengalamatan B memungkinkan memiliki angka dari 128-191 pengalamatan pada kelas C memungkinkan
memiliki angka dari 192-223
Network Mask
Bab 2 Teori Penunjang
19
Network mask merupakan alamat IP dimana lamat networknya diset ke nilai 255 Jika alamat IP
termasuk kelas A maka network masknya yaitu 255000 Jika alamat IP termasuk kelas B maka network
masknya yaitu 25525500 Jika alamat IP termasuk kelas C maka network masknya yaitu 2552552550
AlamatNetwork
Alamat network ini dapat diperoleh dari alamat IP dimana bit-bitnya dilakukan operasi AND
dengan network mask Dengan demikian untuk network kelas B dengan IP 192168101 maka alamat
networknya adalah 19216800
Alamat Broadcast
Alamat broadcast dibutuhkan bila suatu mesin ingin mengirimkan paket yang sama ke semua
device pada jaringan
Alamat Gateway
Alamat gateway merupakan alamat IP dari mesin yang menghubungkan jaringan dengan jaringan
di luar misalnya internet Pada umumnya alamatgateway memiliki IP yang sama dengan mesin yang kita miliki
tetapi mempunyai nomor device 1 Dengan demikian untuk network kelas B dengan alamt IP 192168101
alamat gatewaynya adalah 19216811
Alamat Nameserver
Jaringan-jaringan besar umumnya memiliki sebuah mesin untuk mentranslasikan alamat IP menjadi
nama yang lebih mudah dikenal manusia Misalkan sebuah mesin dengan IP 192168101 dapat diberi nama lain
seperti puspacsuiacid sebagai alamatnya Proses translasi ini dilakukan dengan system yang dikenal dengan
nama Domain Name System (DNS)
24 BEKERJA DENGAN SOCKET
Komponen socket program yang dapat membantu dalam pembuatan suatu aplikasi yang berkomunikasi
antara suatu system computer dengan system computer yang lain dengan menggunakan protocol TCPIP dan
protocol lain yang terhubung
241 Pengertian Socket Program
Pada sub bab ini akan dijelaskan tentang komoponen socket program yang dapat berkomunikasi antara
system computer dengan system computer yang lain dengan menggunakan protocol TCPIP dan protocol lain
yang terhubung Dengan socket program ini kita dapat membaca dan menulis pada hubungan ke mesin yang lain
tanpa mengalami kesulitan pada software jaringan Socket program dapat mengadakan hubungan berbasis
protocol TCPIP tetapi dapat juga bekerja umunya dengan protokol-protokol yang terhubung seperti Xerox
Network System (XNS) dan yang lain
Bab 2 Teori Penunjang
20
242 Penjabaran Socket
Socket mengijinkan aplikasi jaringan kita berkomunikasi dengan sistem lain di luar jaringan
Masing- masing socket bisadipandang sebagai titik akhir dalam suatu koneksi jaringan Socket tersebut memiliki
spesifikasi sebagai berikut
a) Sistem yang sedang dijalankan
b) Tipe interface port yang digunakan
Penjelasan lengkap dari sebuah koneksi socket terdiri dari address socket pada kedua titik akhir
koneksi Kita akan menguraikan address dari masing- masing titik akhir socket dengan memberi nomor IP
address atau host dan port
Sebelum membuat koneksi socket sebelumnya harus menguraikan dengan lengkap socket-socket
yang membentuk titik akhir Beberapa informasi tersedia dari sistem aplikasi yang dijalankan Sebagai contoh
kita tidaka akan membutuhkan IP Address Local dari socket client sebab informasi ini terdapat pada sistem
operasi
Informasi yang akan kita berikan bergantung pada tipe socket yang sedang bekerja Socket client
harus menggambarkan port yang merepresentasikan layanan yang mereka berikan
243 Memilih Host Name dan IP Address
Kebanyakan aplikasi menggunakan host name untuk merinci sebuah system Host Name mudah
untuk diingat dan dicek Menggunakan host name memungkinkan socket client untuk menemukan situs abstrak
yang diwakili oleh nama host meskipun telah dipindah ke IP Address yang baru Jika nama host tidak diketahui
socket client akan akan menyatakan system server sedang menggunakan IP Addressnya Ketika kita
menyediakan host name socket akan mencari IP Address yang berhubungan dengan host name sebelum socket
tersebut dapat menempatkan pada sistem server
Bab 3 Perencanaan dan Implementasi
21
BAB 3
PERENCANAAN DAN IMPLEMENTASI
31 Pendahuluan
Pada bab ini akan dijelaskan mengenai pengolahan sinyal wicara untuk mendapatkan ciri setiap
individu Juga akan dibahas mengenai pengolahan hasil keluaran sinyal wicara untuk ditransmisikan ke PC lain
(lewat jaringan) Dan selanjutnya akan dibahas pula mengenai plan atau obyek yang dalam hal ini adalah lampu
pijar
Berikut ini adalah blok diagram sistem secara keseluruhan
Gambar 31 Blok Diagram Sistem Secara Keseluruhan
Speaker pada gambar 31 memberikan suaranya sebagai masukan lewat mikrofon Masukan ini
akan diolah dalam PC client mulai dari proses sampling frame windowing FFT LPC Kemudian hasil dari
LPC dicari pemadanan dengan LPC dari sinyal standar yang telah tersimpan sebagai data base di dalam PC
client Hasil dari DTW tersebut akan dikirimkan ke PC server melalui TCPIP untuk diproses menjadi suatu
perintah ke perangkat keras Perintah tersebut merupakan bentuk implementasi dari perintah yang diberikan dari
PC client
Sebaliknya dengan adanya perubahan kondisi pada peralatan yang diinginkan maka terjadi sinyal
balikan yang berupa sinyal DTMF yang dikirimkan oleh perangkat keras ke PC server Oleh PC server sinyal ini
diolah untuk dikenali sebagai suatu kondisi tertentu yang akan dikirimkan ke PC client sebagai laporan tentang
kondisi alat yang diinginkan
32 Sistem Pengolahan Sinyal Wicara
321Perekaman Suara
TCPIP
Pengucap Speaker ADC Pengolahan Wicara dan Monitoring
Peralatan yang terkontrol
LAN Card
LAN Card
Pengenalan Pola Pengiriman Tone DTMF dan Pengenalan DTMF Sebagai Laporan
DTMF Decoding DTMF Generator Sistem Switching
Alat Terkontrol
Bab 3 Perencanaan dan Implementasi
22
Perekaman suara dilakukan menggunakan software berbasis TclTk 830 dan Snack22 Sebelumnya
akan dijelaskan satu per satu program yang dipakai
o TclTk 830
Tcl kepanjangan dari Tool Control Language Tk adalah Graphical Toolkit extension dari Tcl yang
menyediakan bermacam-macam item standar antarmuka GUI untuk memfasilitasi secara cepat pengembangan
aplikasi tingkat tinggi
o Snack22
Snack adalah tool pengolahan suara yang didesain sebagai extensi untuk bahasa script Saat ini Snack bekerja
dengan bahasa script TclTk Phyton dan Ruby Snack memiliki perintah-perintah untuk play record process
dan dan memvisualisasi suara Snack menyediakan obyek suara tingkat tinggi dengan manajemen penyimpanan
yang fleksibel dan streaming support Snack dapat bekerja pada banyak format file suara
Kita dapat membangun aplikasi sepaerti di bawah ini dengan integrasi dari TclTk dan Snack
Gambar 32 Program aplikasi pengenalan wicara
Frekuensi sampling pada program di atas diset pada frekuensi 12 kHz Frekuensi ini dipilih karena biasa
digunakan untuk voice Selain itu juga diset pada channel Mono dan sinyal encoding LIN 16 (resolusi 16 bit
PCM) Pada penekanan tombol ldquorecordrdquo diikuti tombol ldquostoprdquo dan kemudian tombol ldquostandartrdquo maka akan
dimulai proses perekaman yanag akan digunakan untuk membuat file standar untuk kedelapan perintah yang
akan digunakan untuk pembanding sinyal masukan
Adapun proses untuk sistem yang akan dibuat dapat digambarkan dengan diagram alir seperti di bawah
Bab 3 Perencanaan dan Implementasi
23
Mulai
Package Require
Snack 22
Exit
Program On
Running
Recording
Sound Card
Produser Running
Prosedur Recording
DTMF
Keluar
Tidak
YaTidak
Ya
Ya
Ya
Ya
Tidak
Tidak
Tidak
Gambar 33 Flowchart Sistem Graphical User
Interface
322 Sampling
Seperti telah dijelaskan di depan bahwa frekuensi sampling yang digunakan adalah sebesar 12000Hz
dimana dalam 1 detik sinyal terdapat 12000 titik sampling Sebagai contoh seperti gambar di bawah ini suatu
sinyal epanjang 20 ms disampling 12000 Hz menghasilkan titik sampling sebanyak 240 titik
Data Sampling
-20000
-15000
-10000
-5000
0
5000
10000
15000
20000
0 200 400 600
Amplitudo
Jumlah Data
Gambar 34 Sinyal hasil sampling dengan
frekuensi 12000 Hz
Bab 3 Perencanaan dan Implementasi
24
Mulai
Sinyal Masukan
Baca Panjang Sinyal
Bagi Menjadi N Frame
i = 0 i lt N i++
Ambil 240 Data Sampel
Tampilkan Nilai
Sampel
Selesai
Gambar 35 Flowchart Proses Sampling
323 Pre-emphasis
Agar spektrum sinyal merata di semua frekuensi dan mencegah kehilangan informasi akibat pembulatan
pada saat komputasi maka dilakukan prose preemphasis Fungsi transfer preemphasis adalah
H(z) = 1 ndash a z-1 09 le a le 1 (31)
Dimana nilai a berkisar 095 Berdasarkan model filter di atas maka keluaran dari preemphasis adalah
s(n) = s(n) ndash a s(n-1) (32)
324 Frame Blocking
Hasil perekaman merupakan sinyal dalam domain waktu yang bersifat variant time (fungsi yang
bergantung pada waktu) Sinyal yang telah dipreemphasis kemudian dibagi menjadi n buah frame Dengan
jumlah sample per frame sebesar N dan adjacent frame sebesar M sample Dimana M=05N Pada frame
pertama terdiri dari N buah sampel Frame kedua dimulai pada sampel ke M sehingga terjadi overlape sebesar
N - M sampel Begitupula untuk frame yang ketiga dimulai dari sample ke 2M sehingga terjadi overlape dari
farme kedua sebesar N + M-2M sampel juga Hal ini akan terus berlangsung hingga seluruh sinyal terbagi
menjadi beberapa frame
Bab 3 Perencanaan dan Implementasi
25
Gambar 36 Frame blocking sinyal
325 Windowing
Windowing yang digunakan adalah window hamming Setelah proses pengambilan sample maka
langkah selanjutnya adalah proses selanjutnya adalah proses windowing yang berfungsi untuk mengurangi efek
diskontinyuitas pada ujung-ujung frame Persamaannya adalah sebagai berikut
y[i] = x[i](054-046cos(20314159265(i-1)240) (33)
Flowchartnya bisa dilihat seperti di bawah
Mulai
240 Data
Sampel
i= 0 i lt 240 i++
Hamming Window
y[i] = x[i](054-046cos(2phi(i-1)
240))
Tampilkan
nilai
Hamming
Selesai
Gambar 37 Flowchart Proses Windowing
326 Fast Fourier Transform
Transformasi fourier cepat (FFT) adalah suatu metode yang sangat efisien untuk menyelesaikan
transformasi fourier diskrit (DFT) yang banyak dipakai untuk keperluan analisa sinyal Sehingga dengan FFT
N N N M
M N
N N
M
Bab 3 Perencanaan dan Implementasi
26
sinyal yang disampling dalam domain waktu ditransformasikan ke domai frekuensi dengan menggunakan
persamaan sebagai berikut
N-1
H(k) = sum h(n)e-j2лkN (34)
n=0
dengan k= 012N-1
Prosesnya dapat dilihat dari flowchart di bawah
Mulai
240 data
sampel
256 data sampel
i=0 ilt256 i++
tmp_log1=(xr[k]xr[k]+xc[k]xc[k])
tmp_log gt 0
xr[k]=10log10(tmp_log1)
Tampilkan
nilai
hamming
Selesai
xr[k]=10log10(0000001)
Ya
Tidak
Gambar 38 Flowchart Proses Fast Fourier
Transform
327 Autocorrelation analysis
Hasil dari windowing sinyal masukan kemudian dihitung autokerelasinya dengan persamaan
N-1-m
r1(m) = sum x1(n)x1(n+m) m=01p (35)
n=0
dimana niali autokorelasi tertinggi p adalah orde dari analisis LPCPada umumnya nilai dari p yang sering
digunakan adalah dari 8 sampai 16
Proses Autokorelasi dapat dilihat dari flowchart di bawah ini
Bab 3 Perencanaan dan Implementasi
27
Mulai
240 data p lpc
orde
i=0 iltp i++
j=0 jlt240-p-1 j++
RI[j]=sum(xI[i]xI[i+j])
Tampilkan nilai
autocorrelation
Selesai
Gambar 39 Flowchart Proses Autokorelasi
328 LPC Analysis
Hasil koefisien autokorelasi kemudian dikonversikan ke sebuah LPC parameter set (untuk metode LPC
autokorelasi) dikenal sebagai Metode Durbin dan secara formal ditunjukkan dari algoritma sebagai berikut
E(0) = r(0) (36)
ki=r(i)-sumαj(i-1) r(|i-j|)E(i-1) 1 le I le p (37)
αi(i) = ki (38 )
αj(i) = αj
(i-1)-ki α(i-1) ( 39)
t-j
E(i)=(1-ki2)E (i-j) (310)
dimana penyajian akhir dari persamaan 37 mengabaikan i=1 Kumpulan dari persamaan 36 -310 diselesaikan
secara rekursif untuk i=12p
Proses analisis dapat dilihat dari flowchart di bawah
Bab 3 Perencanaan dan Implementasi
28
Mulai
Autocorrelationr
p lpc orde
E (0) = r(0)
k1
= r(i)-sumalpha j (i-1) r( | i-j|E(i-1)
alpha j (i) = k
i
alpha j
(i) = alpha (i-1) -k i alpha
i-j (i-1)
E (i) = 1-k i 2) E(i-1)
Tampilkan nilai
parameter lpca
Selesai
i=0 iltp i++
Gambar 310 Flowchart proses LPC analisis
329 LPC Parameter to Cepstrum Analysis
Sekumpulan parameter LPC yang sangat penting yang dapat diturunkan langsung dari kumpulan
koefisien LPC adalah koefisien cepstral LPC c(m) Rekursif yang digunakan adalah
co = ln σ2 ( 311)
m-1
cm = am + sum ck am-k 1 le m le p (312)
k = 1
m-1
cm = sum ck am-k m gt p ( 313)
k = 1
Proses LPC parameter ke Cepstrum Analysis dapat dilihat dari flowchart di bawah ini
k m ( )
k m ( )
Bab 3 Perencanaan dan Implementasi
29
Mulai
lpc parameter a
p lpc orde
c o = ln del 2
1 lt=mlt=p
i=0 iltp i++
Cm
= am
+sum((km)Ck a
m-kC
m =sum((km)C
ka
m-k)
Tampilkan nilai lpc
cepstrumc
Selesai
Gambar 311 Flowchart Proses LPC parameter ke
Cepstrum
3210 Dynamic Time Warping
Proses yang terjadi pada Dynamic Time Warping adalah pengukuran jarak suara antara sinyal standart
dan sinyal input Yang diukur berupa deretan nilai dari hasil LPC Cepstrum dalam bentuk kolom dan baris (ij)
yang disimpan dalam satu file Pada kolom berisi nilai tiap cepstrum sedangkan baris berupa banyaknya frame
Teknik yang digunakan dinamakan Dynamic Programming Alur kerjanya dapat dilihat dari flowchart di bawah
Bab 3 Perencanaan dan Implementasi
30
Mulai
i=0 iltN i++
j=0 jlt15 j++
Cepstrum
Standart
Std_Ceps [i][j]
Cepstrum
Input
Inp_Ceps [i][j]
DP_dist = DP_match1(r)
DP_dist
Selesai
Gambar 312 Flowchart Proses Dynamic Programming
33 Awal dan Akhir Sinyal suara
331 Power
Untuk mendapatkan suatu sinyal suara tanpa adanya noise maka sinyal harus benar-benar dipotong
tepat pada awal dan akhirnya Oleh karena itu dipakai power sebagai salah satu cara yang efektif dalam
menentukan awal dan akhir suatu sinyal suara
Dimana tiap frame mempunyai power yang merupakan hasil kuadratisasi dari penyampelan tiap frame
yang kemudian hasil keseluruhan diakarkan seperti bisa dilihat pada flowchart di bawah
Bab 3 Perencanaan dan Implementasi
31
Mulai
Power = 0
i=0 ilt240 i++
Power=Power+sqrt(xixi)
Selesai
Gambar 313 Flowchart Proses Power
Jumlah sample per frame ditetapkan sebesar 240 sampel Kemudian dicari power masing-masing antara sinyal
utuh dan sinyal noise kemudian dengan p ge p + 07 standar deviasi maka didapatkan awal dan akhir sinyal
suara
332 Unvoiced Plosive
Adanya daerah kosong menyebabkan sinyal tidak valid dalam pemotongan awal dan akhirnya karena
bisa dianggap noise padahal berada dalam sinyal suara ( merupakan bagian dari sinyal suara) Oleh karena itu
dicari mean dari 25 kata sinyal suara yang kemudian dicari nilai thresholdnya sebagai panjang akhir dari daerah
kosong Dan nilai tersebut diikutsertakan dalam looping dan jika setelah itu terdapat sinyal kembali maka
berarti masih ada sinyal suara dan jika tidak ada berarti tidak ada sinyal suara
34 Proses Pada Client
Preses pada client dapat dijelaskan sebagai berikut
Gambar 314 Blok diagram proses client
Penjelasan dari blok digram tersebut adalah
1 Pertama adalah perekaman suara pada software recording yang hasilnyadisimpan dalam bentuk file
berekstensi ldquowavrdquo File ini selanjutnya akan dijadikan file input pada sistem client
2 File suara yang telah tersimpan diolah dalam program sampling untuk mendapatkan sinyal suara dalam
bentuk frame Setiap frame terdiri dari 120 sampel
Mic Extract AD Voice Dikenali
Bab 3 Perencanaan dan Implementasi
32
3 Tiap frame diwindow dengan window Hamming untuk mengurangi efek diskontinyuitas pada ujung-
ujung frame
4 Sinyal hasil window yang masih dalam domain time diubah ke dalam domain frekuensi dengan Fast
Fourier Transform (FFT)
5 Hasil dari windowing sinyal masukan kemudian dihitung autokerelasinya
6 Hasil koefisien autokorelasi kemudian dikonversikan ke sebuah LPC parameter set (untuk metode LPC
autokorelasi) Sekumpulan parameter LPC yang sangat penting yang dapat diturunkan langsung dari
kumpulan koefisien LPC adalah koefisien cepstral LPC
7 Selanjutnya dilakukan proses DTW (Dynamic Time Warping) pengukuran jarak suara antara sinyal
standart dan sinyal input Hasilnya disimpan dalam sebuah file berekstensi ldquotxtrdquo
8 File berekstensi txt tersebut ke server sebagai sinyal suara input
35 Proses Pada Server
Proses pada server dapat dijelaskan sebagai berikut
Gambar 315 Blok diagram proses server
Penjelasan dari blok diagram tersebut adalah
1 Isi file berekstensi rdquotxtrdquo diterima oleh server dan digunakan sebagai data input untuk memanggil
database tone DTMF yang sesuai sebagai pengoperasian alat yang akan dikontrol
2 Alat yang terkontrol akan menunjukkan hasilnya
Memanggil
Database
Tone
Dikode
kan
dalam
biner
Kirim
ke HW
Kontrol
Alat
Input
server
Bab 4 Pengujian dan Analisa
33
BAB 4
PENGUJIAN DAN ANALISA
41 Pendahuluan
Untuk mengetahui tingkat keberhasilan dari suatu sistem diperlukan pengujian keseluruhan dari
perencanaan hasil sistem yang telah dibuat Dalam bab ini akan dijelaskan mengenai hal tersebut
Pengujian yang akan dilakukan adalah
1 Pengujian dan analisa sistem pengolahan sinyal wicara
2 Pengujian dan analisa sistem client server
3 Pengujian dan analisa awal dan akhir sistem pengolahan wicara
42 Pengujian dan Analisa Sistem Pengolahan Wicara
Tujuan untuk mendapatkan parameter ciri individu dari sampel sinyal yang diolah
421 Perekaman Suara
Pada Tugas Akhir ini digunakan duamacam perangkat lunak yang dibangun sendiri berbasis TclTk 830
dan Snack 22 sebagai perangkat lunak yang diuji dan perangkat lunak Wavesurver sebagai pembanding
4211 Dengan menggunakan TclTk dan Snack
Tampilan awal dari perangkat lunak yang dibangun dengan menggunakan TclTk dan Snack adalah sebagai
berikut
Gambar 41 Tampilan awal perangkat lunak menggunakan TclTk dan Snack
Bab 4 Pengujian dan Analisa
34
Pertama kali tombol record ditekan maka proses pengambilan sinyal wicara yang dimasukkan
dimulai Pada saat tombol Stop ditekan maka program akan merekam kata ldquosatu nyalardquordquosatu matirdquordquodua
nyalardquordquodua matirdquordquotiga nyalardquordquotiga matirdquordquoempat nyalardquordquoempat matirdquo sesuai yang kita masukkan dan
tampilan display akan digambarkan bentuk sinyal yang dihasilkan secara otomatis Hasil perekaman dapat
dilihat pada gambar berikut 42
Gambar 42 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan perangkat lunak
TclTk dan Snack
Gambar 42 menunjukkan bahwa proses pengambilan sinyal suara telah dilakukan Sinyal suara yang
dimasukkna akan terlihat gambarnya pada layar hitam (canvas)
4212 Dengan menggunakan Wave Surver
Sebagai pembanding dari program yang telah dibuat yaitu dari perangkat lunak TclTk dan Snack
digunakan Wavesurver
Tampilan awal dari Wavesurver 157 tampak seperti pada gambar 43
Gambar 43 Tampilan awal perangkat lunak menggunakan Wavesurver
Bab 4 Pengujian dan Analisa
35
Pada saat tombol recording ditekan maka program akan merekam kata ldquosatu nyalardquo dan pada tampilan
display akan digambarkan bentuk sinyal yang dihasilkan secara otomatis Hasil perekaman bisa dilihat pada
gambar 44
Gambar 44 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan
perangkat lunak Wavesurver
Perekaman pada Wavesurver dapat diset sesuai dengan kebutuhan Dimana pada sistem pengolahan sinyal
suara untuk perekaman suara diset sebagai berikut
Gambar 45 Kotak dialog setting perekaman perangkat lunak Wavesurver
Pada data di atas dapat dilihat bahwa suara yang direkam dengan mengguanakan perangkat lunak
Wavesurver mempunyai header dan tail yang berisi keterangan perekaman sebagai berikut
12000 menunjukkan frekuensi sampling yang digunakan
Bab 4 Pengujian dan Analisa
36
Channels menunjukkan bahwa suara direkam dengan menggunakan channel Mono
Sampel Encoding Lin 16 menunjukkan bahwa suara direkam dengan menggunakan
16 bit PCM
422 Sampling
Dengan menggunakan program yang dibangun sendiri di atas proses penyamplingan sinyal input sekaligus
telah terjadi dimana dengan frekuensi sampling sebesar 12000 Hz didapatkan sinyal dari kata ldquosatu nyalardquo
dengan potongan sebagai berikut
3306
3538
3788
4076
4282
4684
4747
4956
5083
5442
5844
5901
6244
6196
6462
6104
Berikut ini adalah cuplikan dari data sampel kata ldquo empat matirdquo mulai dari milidetik ke-13900
Bab 4 Pengujian dan Analisa
37
Data Sampling
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 46 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900
Pada gambar 46 telah dilakukan proses sampling sinyal masukan dengan frekuensi sampling sebesar 12000
Hz maka didapatkan hasil sinyal yang hampir mirip dengan sinyal analognya karena sinyal suara manusia
memiliki jarak frekuensi antara 300 sampai 5000 Hz dimana syarat Nyquist minimal fsampling 2fsinyal
telah terpenuhi
423 Windowing
Jenis window yang digunakan adalah window Hamming
Pada proses window hamming kata yang telah disampel sebanyak 240 sampel akan diwindow sehingga
menghasilkan sinyal yang lebih kecil peaknya Hasilnya adalah sebagai berikut
-26174
-22078
-12518
-1444
9690
19308
23360
20049
12365
2391
-7874
-14539
-17837
-19929
-19007
-16955
Bab 4 Pengujian dan Analisa
38
Sedangkan hasil dalam bentuk gambar dapat dilihat pada gambar berikut
Data Windowing
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 47 Hasil Windowing data sampel kata ldquoempat matirdquo milidetik ke-13900
Seperti yang ditunjukkan gambar 47 proses windowing telah dilakukan Berdasarkan gambar 47
tersebut dapat dikatakan bahwa window Hamming menyebabkan sinyal yang disampel lebih halus Gambar
47 dapat dibandingkan dengan gambar 46 yaitu gambar sinyal sebelum melalui proses windowing dapat
dilihat bahwa sinyal yang telah diwindow mempunyai sinyal yang lebih halus Hal ini membuktikan bahwa
fungsi dari windowing untuk mengurangi efek diskontinyuitas pada ujung-ujung frame adalah benar
424 Fast Fourier Transform Sinyal Masukan
Pada proses ini sinyal yang sebelumnya berada dalam domain waktu akan diubah dalam domain
frekuensi Setiap sinyal yang berasal dari alam merupakan sinyal analog yang bila diolah harus diubah
dalam bentuk sinyal digital Dan pengolahan dalam digital merupakan pengolahan dalam bentuk diskrit
Pada proyek akhir ini sinyal dalam domain waktu akan diubah dalam domain frekuensi dengan 256 titik
Karena hasil yang diperoleh berupa hasil dari fungsi konvolusi maka hanya akan diambil 128 titik saja yang
akan diolah dalam proses selanjutnya Sedangkan 128 sisanya tidak dipergunakan karena berupa
pencerminan saja
Hasil dari Fast Fourier Transform (FFT) dari penggalan kata ldquoempat matirdquo pada milidetik ke-13900 dalam
bentuk teks adalah
103505157
106889458
Bab 4 Pengujian dan Analisa
39
104735321
100408661
89175987
95431992
96601654
8489315
89637459
8630304
75320663
87866905
91001945
89607201
82408546
83440155
4241 Dengan Menggunakan TclTk dan Snack
Fast Fourier Transform Sinyal
Masukan
0
20
40
60
80
100
120
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 48 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat
lunak TclTk dan Snack
Dari gambar 48 di atas sinyal suara yang sebelumnya berada di domain waktu telah diubah ke domain
frekuensi Hasil Fast Fourier Transform sinyal masukan menunjukkan sebaran spektrum frekuensi dari
sinyal suara yang telah dihasilkan oleh pengucap antara 0 sampai 6000 Hz
Bab 4 Pengujian dan Analisa
40
4242 Dengan Menggunakan Wavesurver
Gambar 49 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat
Wavesurver
Dari gambar 49 di atas hasil Fast Fourier Transform sinyal masukan menunjukkan sebaran spektrum
frekuensi dari sinyal suara yang telah dihasilkan oleh pengucap antara 0 sampai 6000 Hz adalah sama
seperti pada gambar dengan gambar 48 yang diambil dengan perangkat lunak TclTk dan Snack
425 Autocorrelation Analysis
Pada proses ini sinyal masukan dalam domain waktu yang telah diwindow hamming dihitung korelasinya
dengan menggunakan orde analisi LPC sebesar 15 Sehingga akan didapatkan hasil rk(autokorelasi) sebagai
berikut
17648453
128874
0669745
0662566
0470262
0164336
-010638
-0229032
-016249
0014062
0138456
0188749
0117826
0014517
-0052704
426 LPC Analysis
Dari hasil autokorelasi tersebut di atas selanjutnya adalah LPC dimana mengkonversi masing-masing
frame dari autokorelasi p+1 ke dalam sebuah LPC Parameter a
Bab 4 Pengujian dan Analisa
41
Metode yang formal untuk mengkonversi dari koefisien autokorelasi ke sebuah LPC parameter (untuk
metode LPC autokorelasi) dikenal sebagai Metode Durbin dan secara formal hasilnya dapat ditunjukkan
sebagai berikut ini
1
-128874
0160681
-0156173
0166653
0255508
0192145
0003037
-0202248
-0265201
-0112133
005938
0232232
0203554
0048429
Dari hasil di atas terlihat bahwa untuk setiap frame nilai pertama menunjuukan energi dari masing-masing
frame dan selanjutnya adalah parameter LPC dalam satu frame yang digunakan sebagai penentu ciri dari
sinyal suara yang dihasilkan oleh individu
427 Fast Fourier Transform LPC Parameter
Pada proses ini nilai dari parameter LPC yang sebelumnya masih berada dalam domain waktu akan diubah
dalam domain frekuensi Pada proyek akhir ini parameter LPC dalam domain waktu akan diubah dalam
domain frekuensi dengan 256 titik Karena hasil yang diperolah berupa hasil dari fungsi konvolusi maka
hanya akan diambil 128 titik saja yang akan diolah dalam proses selanjutnya Sedangkan 128 sisanya tidak
dipergunakan karena berupa pencerminan saja
Hasil dari Fast Fourier Transform (FFT) dari parameter LPC pada penggalan kata ldquoempat matirdquo pada
milidetik ke-1 dalam bentuk teks adalah
103505157
106889458
104735321
100408661
89175987
Bab 4 Pengujian dan Analisa
42
95431992
96601654
8489315
89637459
8630304
75320663
87866905
91001945
89607201
82408546
4271 Dengan menggunakan TclTk dan Snack
Fast Fourier Transform Parameter
LPC
0
20
40
60
80
100
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 410 Fast Fourier Transform LPC dengan
menggunakan perangkat lunak TCLTk
dan Snack
Hasil gambar 410 menunjukkan bahwa parameter LPC yang di-Fourier Transform-kan akan menjadi
selubung spektrum dari spektrum sinyal masukan Sehingga jika selubung dan spektrumnya secara gambar
cocok dapat dikatakan bahwa LPC parameter yang dihitung benar
Bab 4 Pengujian dan Analisa
43
4272 Dengan menggunakan Wavesurver
Gambar 411 Fast Fourier Transform LPC denganmenggunakan perangkat lunak
Wavesurver
Hasil gambar 411 menunjukkan bahwa parameter LPC yang di-Fourier Transform-kan akan menjadi
selubung spektrum dari spektrum sinyal masukan adalah sama dengan yang telah diperoleh dengan
perangkat lunak TclTk seperti pada gambar 410
428 LPC Parameter to LPC Cepstrum
Koefisien LPC cepstrum koefisien yang direpresentasikan dengan Fourier Transform dengan spektrum
besaran log telah ditampilkan menjadi kumpulan fitur untuk pengenalan wicara yang lebih handal
terpercaya daripada koefisien LPC koefisien PARCOR atau koefisien log area ratio
Hasil dari LPC cepstrum pada penggalan kata ldquoempat matirdquo pada milidetik ke-106 dalam bentuk teks adalah
16636311
1387922
0474473
0654796
0429659
0132543
0225374
0126501
0021161
0242437
Bab 4 Pengujian dan Analisa
44
0160623
0065745
0139379
0056064
-0029262
Dari hasil di atas dapat dianalisa bahwa besaran-besaran dari LPC cepstrum benar-benar dapat
digunakan sebagai penentu ciri dari sinyal suara individu karena besaranndashbesaran yang dihasilkan oleh LPC
cepstrum dari yang pertama sampai yang terakhir dalam satu frame sangat bervariasi nilainya
429 Inverse Fast Fourier Transform LPC Cepstrum
Untuk menggambarkan ciri atau fitur wicara dalam domain waktu maka LPC cepstrum di-Invers Fast
Fourier Transform-kan sehingga didapatkan gambar untuk penggalan kata ldquosatu nyalardquo pada milidetik ke-
400 seperti gamabar 412
Fast Fourier Transform LPC
Cepstrum
0
20
40
60
80
100
120
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 412 Invers Fast Fourier Transform LPC cepstrum dengan menggunakan
perangkat lunak TCLTk dan Snack
Dari gambar 412 dapat dianalisa bahwa bentuk dari invers fourier transform LPC cepstrum yang
menyerupai selubung pada domain waktu dari spektrum frekuensi juga digunakan untuk menunjukkan
bahwa perhitungan LPC cepstrumnya telah benar dan dapat digunakan sebagai penentu ciri sinyal suara
individu
Invers Fast Fourier Transform LPC
Cepstrum
Bab 4 Pengujian dan Analisa
45
Gambar 413 Penggabungan spektrum sinyal spektrum LPC dan spektrum LPC
Cepstrum
Gambar 413 spektrum sinyal yang diwakili warna merah merupakan hasil sinyal yang telah di-Fast
Fourier Transform-kan Spektrum sinyal yang berwarna hijau merupakan parameter LPC yang telah di-
Fourier Transform-kan Sinyal ini akan menjadi selubung spektrum dari spektrum sinyal masukan Bila
selubung dan spektrumnya secara gambar cocok maka dapat dikatakan bahwa LPC parameter yang dihitung
adalah benar Dari gambar 413 dapat dilihat antara selubunga dan selubung sinyal masukan sudah cocok
Sinyal yang berwarna biru merupakan sinyal rata-rata dari sinyal selubung spektrum
4210 Dynamic Time Warping
Pengujian terakhir dari proses pengolahan sinyal wicara adalah membandingkan sinyal hasil cepstrum LPC
antara data input dan data standarnya Berdasarkan daerah pembatas kontinyuitas lokal dari persamaan 21
maka digunakan model yang pertama dan menggunakan persamaan 2116 dalam menghitung jarak antara
kata sebagai standar dan sebagai masukan
Selanjutnya menetukan data data sebagai data standar dan data sebagai data masukan Pada sistem ini
digunakan 8 kombinasi kata sebagai kata standar dan kata msukan untuk masing-masing pengujian dengan
kata standar sebanyak sepuluh (10) kali Adapun kata yang digunakan sebagai standar dan kata yang diuji
adalah meliputi satu nyalasatu matidua nyaladua matitiga nyalatiga matiempat nyalaempat
mati
Pada pengujian sistem kali ini masih menggunakan datasuara dari pebgucap yang sama Dari kelima data
standar yang ada dilakukan pembandingan dengan masing-masing 10 (sepuluh) kali pemasukan data Data
yang menghasilkan jarak euclidian terpendek dari masing-masing kata itulah yang akan diambil sebagai
data perintah terbaik
Bab 4 Pengujian dan Analisa
46
Pelekukan Jalur Suara
0
50
100
150
0 50 100 150
Sinyal Input empat mati
Sinyal Standart
empat mati
Gambar 414 Pelekukan Jalur Suara dengan Dynamic Time Warping
Dari gambar 414 dapat dianalisa bahwa dengan menggunakan dynamic time warping dua buah sinyal suara
akan dibandingkan vektor-vektor spektralnya dimana juga terdapat proses pembandingan panjang sinyal
antara dua buah sinyal tersebut sehingga terjadi proses pemadanan panjang sinyal dengan cara
memperpanjang dan menekuk vektor spektralnya Memperpanjang dalam arti memperpanjang sinyal yang
lebih pendek dengan memperhatikan perbandingan vektor spektralnya dan demikian pula menekuk dalam
arti menekuk sinyal yang lebih panjang dengan memperhatikan vektor spektralnya Dengan panjang yang
sama sebagai hasil dynamic time warping maka jarak euclidian antara dua sinyal dapat diperbandingkan
atau dihitung
4211 Min Value dan Sorting
Min Value dan Sorting menjadi satu paket sendiri yang digunakan untuk mencari kemungkinan hasil
terkecil dari pembandingan pola kata masukkan dengan kedelapan kata standart Keluaran dari fungsi
dynamic time warping akan memberikan delapan buah data yaitu hasil pembandingan kata masukan
dengan kata standart satu nyala hasil pembandingan kata masukan dengan kata standart satu mati hasil
pembandingan kata masukan dengan kata standart dua nyala hasil pembandingan kata masukan dengan
kata standart dua mati hasil pembandingan kata masukan dengan kata standart tiga nyala hasil
pembandingan kata masukan dengan kata standart tiga mati hasil pembandingan kata masukan dengan
kata standart empat nyala hasil pembandingan kata masukan dengan kata standart empat mati Dengan
metode sorting buble sort maka akan didapat nilai minimalnya
0748745
0362272
0633390
0327642
0600250
0346530
Bab 4 Pengujian dan Analisa
47
0545907
0207464
Berdasarkan data diatas maka perintah input sama dengan perintah kedelapan (ldquoempat matirdquo) karena
memiliki hasil time warping terkecil yaitu 0207464
4212 Hasil Pengujian Awal dan Akhir Sinyal
Pada proses penentuan awal dan akhir agar lebih presisi menggunakan ldquoPowerrdquo Adapun kelebihan dari
power adalah dapat membedakan antara sinyal suara dengan sinyal noise
Untuk menentukan awal dan akhir dicari nilai power Pada proses power kata yang telah disampel
sebanyak 240 sampel akan menghasilkan sinyal yang halus dan terletak di atas sumbu x Hasil dalam bentuk
teks adalah sebagai berikut ini
7678195313
1165659297
123492625
8917128906
6318766797
4531086719
4338374609
4912630469
5382503125
4548908984
429756875
4739710547
4575902734
4682924609
4786217578
Bab 4 Pengujian dan Analisa
48
Gambar hasil power bisa dilihat pada gambar 415 berikut
Power
0
100000
200000
300000
400000
500000
0 50 100 150
Jumlah Frame
Amplitude
Gambar 415 Sinyal ldquoempat matirdquo hasil program power
Gambar 416 berikut ini adalah hasil pengujian kata ldquoempat matirdquo sebagai masukan dan kata standar ldquoempat
matirdquo dimana kedua kata dibandingkan berdasarkan powernya sebelum proses Dinamic Time Warping
Sinyal warna biru sebagai power sinyal standart dan sinyal yang berwarna merah merupakan power sinyal
input
Perbandingan Dua Kata empat mati
sebelum DTW
0
100000
200000
300000
400000
500000
0 50 100 150
Jumlah Frame
Amplitude
Gambar 416 Perbandingan power dua kata ldquoempat matirdquo sebelum Dynamic Time Warping
Berikut ini adalah hasil pengujian dua buah kata ldquoempat matirdquo dengan menggunakan dynamic time warping
dimana jalur pelekukan suara dapat digambarkan pada gambar 417
Bab 4 Pengujian dan Analisa
49
Pelekukan Jalur Suara
0
50
100
150
0 50 100 150
Sinyal Input empat mati
Sinyal Standart
empat mati
Gambar 417 Pelekukan jalur suara dua kata ldquoempat matirdquo dengan DTW
Gambar 418 adalah hasil pengujian dua buah kata ldquoempat matirdquo sebagai masukan dan dan kata standar
ldquoempat matirdquo dimana kedua kata dibandingkan berdasarkan powernya setelah proses dynamic time
warping
Gambar 418 dapat dibandingkan dengan gambar 416 yaitu sinyal sebelum proses Dynamic Time Warping
Sebelum proses Dynamic Time Warping sinyal tidak mengalami proses penekukan dan penarikan data
berdasarkan waktu antara keduanya sehingga antara sinyal input dan sinyal standart memiliki ukuran
panjang yang sangat jauh berbeda
Pemadanan Dua Kata Setelah DTW
0
100000
200000
300000
400000
500000
0 100 200 300
Jumlah Frame
Amplitude Power
Gambar 418 Perbandingan power dua kata ldquoempat matirdquo setelah Dynamic Time Warping
Dari gambar 418 dapat dinyatakan bahwa setelah melalui proses dynamic time warping terjadi penekukan
dan penarikan data berdasarkan waktu antara keduanya sehingga pada akhirnya kedua sinyal memiliki
ukuran panjang yang sama Sehingga dengan demikian dapat dicari jarak euclidian untuk menentukan
sebuah kata yang sesuai dengan kata yang lainnya
Bab 4 Pengujian dan Analisa
50
4213 Hasil Pengujian Sistem Perangkat Lunak
Pada pengujian sistem perangkat lunak diambil sampel data dari 3 orang dimana terdiri dari 3 orang pria
dan 1 orang wanita Pria pertama merupakan standar sekaligus pengisi suara untuk perintah Sedangkan pria
kedua dan wanita sebagai pembanding untuk mengetahui unjuk kerja sistem
Tabel 41 Hasil pengujian sistem pengolahan sinyal wicara untuk pengucap yang sama (pria
1)
8 7 6 5 4 3 2 1 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05417
03487
05964
03443
07272
04424
03449
01
961
Satu
nyala
Sinyal Standart
02496
04723
03013
05120
03450
03815
01
739
03471
Satu
mati
04389
02035
06139
03244
04343
02
158
04567
04047
Dua
nyala
01866
04517
04157
05267
01
940
02561
02036
04779
Dua
mati
04833
02168
03984
01
090
06409
04278
05019
02690
Tiga
nyala
02683
04628
01
188
03416
04046
03345
02959
04614
Tiga
mati
03807
01
046
05271
01974
05934
03134
04363
02554
Empat
nyala
01
388
03728
02269
04497
02559
03195
02476
04874
Empat
mati
Bab 4 Pengujian dan Analisa
51
16
15
14
13
12
11
10
9 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05776
02988
05100
04019
06101
05338
04219
02
047
Satu
nyala
Sinyal Standart
03382
04381
02427
05124
02642
05990
02
706
03335
Satu
mati
04453
02558
04993
04574
03381
02
344
04529
04121
Dua
nyala
01669
04532
03190
06355
01
004
04807
03466
04622
Dua
mati
05209
02261
03366
01
124
05377
04165
05369
02660
Tiga
nyala
03721
04074
00
891
03002
02637
05958
02719
04333
Tiga
mati
03889
01
755
04365
02341
04826
03150
05193
02472
Empat
nyala
01
092
03974
01802
04848
01455
05343
02717
04536
Empat
mati
Bab 4 Pengujian dan Analisa
52
24
23
22
21
20
19
18
17 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05157
04015
06277
02964
05609
04690
03376
01
369
Satu
nyala
Sinyal Standart
01787
05144
03814
04134
04952
04843
01
636
03404
Satu
mati
03988
03026
07420
03020
03977
01
905
04801
03610
Dua
nyala
01630
05662
06259
05009
01
808
03357
02206
05094
Dua
mati
04667
02681
05731
01
448
05575
03280
05344
03417
Tiga
nyala
01902
05055
03
395
02597
04700
04618
02951
04808
Tiga
mati
03809
01
863
06920
02154
04252
02455
04616
03184
Empat
nyala
00
761
04379
04288
04053
03629
04122
02419
05622
Empat
mati
Bab 4 Pengujian dan Analisa
53
32
31
30
29
28
27
26
25 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
04793
03554
06312
03247
06514
03585
03068
02
935
Satu
nyala
Sinyal Standart
01671
04661
03012
03961
02834
04667
01
079
05475
Satu
mati
04033
02359
05307
02587
03475
01
587
04781
04010
Dua
nyala
02222
04949
03652
04387
00
958
03222
02647
04966
Dua
mati
04499
02207
04170
01
873
05884
02500
05631
03257
Tiga
nyala
01791
04432
01
196
02646
02999
04619
02558
05048
Tiga
mati
03561
01
050
05061
02437
04927
01887
05325
03424
Empat
nyala
00
858
03774
02052
03974
01440
04186
02597
05381
Empat
mati
Bab 4 Pengujian dan Analisa
54
40
39
38
37
36
35
34
33 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
06471
03838
05816
03364
06492
03613
03496
01
111
Satu
nyala
Sinyal Standart
02951
05556
02631
04558
05057
04799
01
683
02958
Satu
mati
05259
02977
05228
03305
04614
00
878
05159
02707
Dua
nyala
03165
05686
03078
05512
01
088
03082
03482
04823
Dua
mati
05397
02037
03714
00
949
06365
02818
05998
02829
Tiga
nyala
02990
04867
00
921
02759
04978
04752
03131
04533
Tiga
mati
05028
01
233
05114
02070
05154
01825
05439
01975
Empat
nyala
01
914
04521
01834
04248
02711
04164
03149
04755
Empat
mati
Bab 4 Pengujian dan Analisa
55
48
47
46
45
44
43
42
41 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
07997
03701
06005
03992
05800
05223
03706
01
198
Satu
nyala
Sinyal Standart
03909
04978
02572
05339
05784
05103
01
161
03113
Satu
mati
06284
02355
05419
04194
03709
02
588
04764
02834
Dua
nyala
03737
04883
03321
06131
03
489
04229
03188
04962
Dua
mati
05885
02259
04026
00
918
06123
03601
05739
0 2867
Tiga
nyala
03583
04464
00
974
03340
05828
05114
02720
04269
Tiga
mati
05762
01
230
7
05459
02231
04899
03397
05114
0 2395
Empat
nyala
02
247
02888
01948
04994
04987
04505
02141
0 4956
Empat
mati
Bab 4 Pengujian dan Analisa
56
56
55
54
53
52
51
50
49 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05627
03923
06226
04018
05254
04895
02933
02
009
Satu
nyala
Sinyal Standart
02473
04947
02892
05661
05301
05040
01
289
03008
Satu
mati
04393
02779
06046
04425
02900
01
743
04571
02669
Dua
nyala
02222
05352
04171
06748
01
202
03736
03177
03699
Dua
mati
04644
02488
03523
00
835
05391
03319
05277
03671
Tiga
nyala
02213
04345
01
009
03758
02869
05933
02761
03900
Tiga
mati
04093
01
443
05080
05083
04959
02819
04840
02709
Empat
nyala
01
239
04029
0 2223
05428
01263
04236
02575
04141
Empat
mati
Bab 4 Pengujian dan Analisa
57
64
63
62
61
60
59
58
57 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
07489
03792
05134
04199
06459
04019
03044
01
850
Satu
nyala
Sinyal Standart
03586
04783
02186
05509
02884
04251
01
198
03243
Satu
mati
05697
02612
04576
04268
03211
01
519
04639
03845
Dua
nyala
03563
05288
02855
06752
01
074
03523
03265
04523
Dua
mati
05768
02262
03884
01
048
06348
02633
05784
02683
Tiga
nyala
03449
04859
01
009
03177
03425
04355
02975
04077
Tiga
mati
05693
01
445
04574
02498
05298
01999
05622
02359
Empat
nyala
02
236
04215
01468
05161
01827
03851
03161
04416
Empat
mati
Bab 4 Pengujian dan Analisa
58
72
71
70
69
68
67
66
65 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05439
02975
05593
03689
05796
03415
03416
01
492
Satu
nyala
Sinyal Standart
02225
04543
04586
04584
02669
04529
01
112
02881
Satu
mati
04025
02639
06303
03009
02582
01
003
05045
02767
Dua
nyala
01734
05437
04847
04897
00
826
02892
02584
04797
Dua
mati
04671
02336
04988
01
206
05595
02572
05647
02991
Tiga
nyala
02095
04805
04
025
02747
02848
04359
02773
04076
Tiga
mati
03971
01
297
05065
02121
04489
01703
05074
02131
Empat
nyala
00
901
04123
04026
04154
01514
03762
02328
04561
Empat
mati
Bab 4 Pengujian dan Analisa
59
80
79
78
77
76
75
74
73 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
07997
03054
06228
04446
05805
04687
03173
03
391
Satu
nyala
Sinyal Standart
05051
04619
05619
05749
02631
04447
01
086
05310
Satu
mati
05949
03685
05899
05607
03163
01
874
05234
03797
Dua
nyala
03109
05053
05258
07102
01
095
03368
03585
04539
Dua
mati
06473
02004
04524
01
350
05525
03084
05608
03682
Tiga
nyala
04759
04205
04
309
03701
03031
04660
02678
05243
Tiga
mati
05572
02
003
05167
02702
04478
02552
05358
03563
Empat
nyala
02
459
04960
04964
05734
01641
03971
02630
05029
Empat
mati
Pengujian pertama ini dilakukan dengan cara memasukkan suara pria pertama (yang digunakan sebagai
pengisi suara standart) Setiap satu perintah dilakukan sebanyak 10 kali pengujian Hasil pengujian
merupakan nilai dari hasil proses Dynamic Time Warping yang merupakan nilai dari pemadanan sinyal
input dengan kedelapan sinyal standart Nilai terkecil (nilai yang tercetak tebal) yang didapatkan merupakan
hasil yang paling mendekati sinyal standart Yang berarti sinyal masukan tersebut dianggap paling sesuai
dengan sinyal standart
Prosentase keberhasilan pengucapspeaker pertama untuk kedelapan perintah sebesar 100 semuanya
menunjukkan kepada sinyal masukkan dan sinyal standart yang sama
Hasil pengujian menunjukkan bahwa ciri sinyal suara yang dihasilkan oleh pengucap speaker pertama dan
sebagai pemberi standart adalah sama
Bab 4 Pengujian dan Analisa
60
Tabel 42 Hasil pengujian sistem pengolahan sinyal wicara untuk pengucap yang lain (pria
2)
8 7 6 5 4 3 2 1 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
06023
05121
07146
04599
04996
04561
07575
04
358
Satu
nyala
Sinyal Standart
04018
05701
06369
06256
03518
05738
07004
08129
Satu
mati
07120
03925
07395
04897
05938
02246
10082
06777
Dua
nyala
04963
05958
05189
07345
03449
04854
08816
08543
Dua
mati
05919
04337
05163
02
130
04797
03463
08871
05289
Tiga
nyala
03709
04519
04380
03601
03491
05239
06
046
07381
Tiga
mati
06087
03
161
06178
03280
05
068
02
439
08853
05354
Empat
nyala
03
409
04321
04
208
05569
03219
04898
06863
08596
Empat
mati
Bab 4 Pengujian dan Analisa
61
16
15
14
13
12
11
10
9 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05475
03932
05521
04
383
05634
05416
04
464
03
434
Satu
nyala
Sinyal Standart
04076
05731
04541
05681
03574
04920
03971
06662
Satu
mati
07427
04886
07924
05962
05824
02
712
07837
05504
Dua
nyala
04475
06666
05765
07616
03414
04203
05431
06334
Dua
mati
05357
03797
05099
04509
04902
04332
07097
05220
Tiga
nyala
04197
05134
04
209
05088
03169
04547
04464
06516
Tiga
mati
05936
03
769
05910
05109
05
311
03435
07646
04977
Empat
nyala
03
576
05767
04591
06367
03010
04129
04944
06850
Empat
mati
Bab 4 Pengujian dan Analisa
62
24
23
22
21
20
19
18
17 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
06927
04
279
08096
04
448
06461
05522
03935
02
444
Satu
nyala
Sinyal Standart
06409
05322
05528
05481
04912
04491
02
011
05508
Satu
mati
06134
04643
08962
06002
04868
02
579
06122
05502
Dua
nyala
04753
06443
05501
07364
02
298
03206
04239
06684
Dua
mati
05709
04928
05456
04961
06142
05726
06454
03831
Tiga
nyala
05798
04882
03
235
04708
04838
04317
03526
05462
Tiga
mati
05021
04423
06842
05583
05222
04132
06363
04235
Empat
nyala
04
457
05427
03546
05773
02946
03573
03618
07019
Empat
mati
Bab 4 Pengujian dan Analisa
63
32
31
30
29
28
27
26
25 No
Empat
mati
Empat
nyala
Tiga
mati
Tiga
nyala
Dua
mati
Dua
nyala
Satu
mati
Satu
nyala
Sinyal
Input
05260
04224
07393
04661
06292
04993
03989
03
549
Satu
nyala
Sinyal Standart
04478
04669
04568
05977
03523
04046
03
438
04819
Satu
mati
06448
04308
08152
06114
04665
02
444
07609
05162
Dua
nyala
04024
05867
05103
07873
01
872
02613
04489
06765
Dua
mati
05363
04
672
05250
04
529
05210
05103
06546
04794
Tiga
nyala
04422
04039
02
482
05102
03499
03985
03969
04371
Tiga
mati
05492
04073
06626
05239
04902
03553
06869
04794
Empat
nyala
03
326
04543
03153
06510
02133
03419
04175
05287
Empat
mati
Hasil pengujian yang kedua ini dilakukan dengan cara memasukkan suara dari pria kedua (pria lain yang
tidak digunakan sebagai suara standart) Setiap satu perintah dilakukan empat (4) kali proses pengujian
Hasil pengujian merupakan nilai dari hasil proses Dynamic Time Warping yang merupakan nilai dari
pemadanan sinyal input dengan kedelapan sinyal standart Nilai terkecil (nilai yang tercetak tebal) yang
didapatkan merupakan hasil yang paling mendekati sinyal standart Yang berarti sinyal masukan tersebut
dianggap paling sesuai dengan sinyal standart
Prosentase keberhasilan pengucapspeaker kedua untuk kedelapan perintah bervariasi sebesar 50
sampai dengan 100 semuanya menunjukkan kepada sinyal masukkan dan sinyal standart yang berbeda
Hasil pengujian menunjukkan bahwa ciri sinyal suara yang dihasilkan oleh pengucap speaker kedua dan
sebagai pemberi standart adalah mendekati sama
Bab 4 Pengujian dan Analisa
64
Tabel 43 Hasil pengujian sistem pengolahan sinyal wicara untuk pengucap yang sama (pria)
No Perintah Lampu DTMF
1 1 nyala B B
2 1 mati B G
3 2 nyala B G
4 2 mati G X
5 3 nyala G X
6 3 mati G X
7 4 nyala B B
8 4 mati B B
9 1 nyala B G
10 1 mati B B
11 2 nyala B G
12 2 mati B B
13 3 nyala B G
14 3 mati B B
15 4 nyala B G
16 4 mati B B
17 1 nyala B G
18 1 mati B B
19 2 nyala G X
20 2 mati G X
21 3 nyala B B
22 3 mati B B
23 4 nyala B B
24 4 mati G X
No Perintah Lampu DTMF
25 1 nyala B G
26 1 mati G X
27 2 nyala G X
28 2 mati B G
29 3 nyala B G
30 3 mati B G
31 4 nyala B G
32 4 mati G X
B Berhasil
G Gagal
X Donrsquot Care (Diabaikan)
Pengujian yang ketiga ini dilakukan oleh pria pertama (pria yang suaranya digunakan sebagai standart)
Masing-masing perintah dilakukan sebanyak empat kali pengujian
Bab 4 Pengujian dan Analisa
65
Pada kolom ketiga (kolom lampu) tanda B (berhasil) menunjukkan bahwa perintah yang diberikan pada
hardware berhasil dilakukan Tanda G (gagal) menunjukkan bahwa perintah yang diberikan pada hardware
gagal dilakukan(hasil tidak sesuai dengan perintah yang diberikan)
Pada kolom keempat (kolom DTMF) menunjukkan laporan dari hardware ke PC server tentang
bagaimana keadaan lampu yang sedang dikontrol apakah dalam keadaan menyala atau mati Pada kolom ini
tanda B (berhasil) menunjukkan bahwa laporan dari hardware ke PC server (yang merupakan proses
otomatisasi) berhasil dilakukan Tanda G (gagal) menunjukkan bahwa laporan ke PC client gagal dilakukan
Sedangkan tanda X (donrsquot care) menunjukkan bahwa perintah diabaikan Hal ini disebabkan perintah pada
hardware (perintah sebelumnya sebelum proses otomatisasi) sudah gagal dilakukan
Prosentase keberhasilan pengucapspeaker pertama untuk kedelapan perintah bervariasi antara 50
sampai 100 semuanya menunjukkan kepada sinyal masukkan dan sinyal standart yang berbeda
Hasil pengujian kedua ini menunjukkan bahwa ciri sinyal suara yang dihasilkan oleh pengucapspeaker
kedua ini yang merupakan suara orang lain (bukan pemberi standart) adalah mendekati sama dengan hasil
yang bervariasi antara 50 sampai 100
43 Pengujian Sistem Client Server
Pada sub bab ini akan diujikan program Client Server yang akan mengirimkan sinyal hasil pengolahan
suara
Tampilan pada client adalah seperti gambar 421 yang merupakan tampilan awal pada saat program
dimulai
Gambar 421 Proses pada client
Bab 4 Pengujian dan Analisa
66
Gambar 422 Proses pada server
1 Sebelumnya program server harus disiapkan lebih dulu
2 Setelah itu client dijalankan
3 Setelah client siap user memasukkan suara yang selanjutnya akan diolah sampai proses DTW
4 Server menerima data yang selanjutnya digunakan untuk melakukan kontrol alat rumah tangga
44 Analisa Pengujian Sistem Secara Keseluruhan
Berdasarkan data-data yang telah didapatkan di atas maka dapat ditarik suatu analisa bahwa
Berdasarkan tabel 44 untuk pengujian pertama pria 1 adalah pria yang suaranya digunakan sebagai standart
Prosentase keberhasilan rata-rata yang didapat untuk semua perintah adalah sebesar 100 Hal ini menunjukkan
bahwa suara yang diujikan adalah suara yang sama dengan standart dan pria 1 tersebut pernah berinteraksi
dengan sistem
Pengujian yang kedua adalah pengujian yang dilakukan oleh pria 2 (pria lain yang suaranya tidak
dipakai sebagai standart) Prosentase keberhasilan rata-rata yang didapat untuk semua perintah 7188 Karena
sistem bersifat dependent speaker dimana sistem hanya digunakan oleh orang tertentu dalam arti yang pernah
berinteraksi langsung dengan sistem Oleh karenanya didapat nilai prosentase keberhasilan yang bervariasi
Bab 4 Pengujian dan Analisa
67
Tabel 44 Tingkat keberhasilan sistem perangkat lunak
NNO
PENGUCAP
PERINTAH
BANYAK
PERCOBAAN
PROSENTASE
KEBERHASILAN
1 Pria 1 1 nyala 8 kali 100
2 1 mati 8 kali 100
3 2 nyala 8 kali 100
4 2 mati 8 kali 100
5 3 nyala 8 kali 100
6 3 mati 8 kali 100
7 4 nyala 8 kali 100
8 4 mati 8 kali 100
RATA-RATA 100
9 Pria 2 1 nyala 4 kali 100
10 1 mati 4 kali 75
11 2 nyala 4 kali 75
12 2 mati 4 kali 50
13 3 nyala 4 kali 50
14 3 mati 4 kali 75
15 4 nyala 4 kali 50
16 4 mati 4 kali 100
RATA-RATA 7188
Jika diurutkan proses pengolahan wicara dari awal sampai diambil keputusan suara yang dimasukkan
tersebut adalah suara yang sesuai atau tidak adalah sebagai berikut
Bab 4 Pengujian dan Analisa
68
Gambar 423 Tampilan awal perangkat lunak menggunakan TclTk dan Snack
Gambar 423 adalah tampilan awal dari perangkat lunak yang dibangun dengan menggunakan TclTk dan
Snack
Gambar 424 Tampilan hasil perekaman kata ldquoempat matirdquo dengan menggunakan dengan
menggunakan perangkat lunak Wavesurver
Gambar 424 adalah tampilan awal dari program Wavesurver yang merupakan pembanding dari program
yang dibuat dari perangkat lunak TclTk dan Snack
Bab 4 Pengujian dan Analisa
69
Gambar 425 Tampilan awal perangkat lunak
menggunakan TclTk dan Snack
Gambar 425 adalah tampilan ketika proses pengambilan sinyal suara sedang dilakukan dengan perangkat
lunak TclTk dan Snack
Gambar 426 Tampilan hasil perekaman kata ldquoempat
matirdquo dengan menggunakan perangkat lunak Wavesurver
Gambar 426 adalah tampilan ketika proses pengambilan sinyal suara sedang dilakukan dengan perangkat
lunak Wavesurver
Bab 4 Pengujian dan Analisa
70
Data Sampling
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 427 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900 menggunakan TclTk dan
Snack
Pada gambar 427 dilakukan proses sampling sinyal masukan dengan frekuensi sampling sebesar 12000
Hz maka didapatkan hasil sinyal yang hampir mirip dengan sinyal analognya yang dilakukan dengan
perangkat lunak TclTk dan Snack
Gambar 428 Cuplikan dari kata ldquoempat matirdquo milidetik ke-13900 dengan menggunakan
perangkat Wavesurver
Pada gambar 428 dilakukan proses sampling sinyal masukan dengan frekuensi sampling sebesar 12000
Hz yang dilakukan dengan perangkat lunak Wavesurver
Data Windowing
-30000
-20000
-10000
0
10000
20000
0 200 400 600
Jumlah Data
Amplitudo
Gambar 429 Hasil Windowing data sampel
kata ldquoempat matirdquo milidetik ke-13900 menggunakan TclTk dan Snack
Bab 4 Pengujian dan Analisa
71
Proses windowing terdapat pada gambar 429 dilakukan untuk membuat sinyal yang disampel lebih
halus Proses windowing ini dilakukan dengan menggunakan perangkat lunak TclTk dan Snack
Proses windowing pada Wavesurver merupakan fasilitas yang tergabung dengan proses lainnya Misal
dengan proses Fast Fourier Transform Jadi disini tidak ditampilkan hanya sebagai proses windowing saja
tetapi digabungkan dengan proses lain
Fast Fourier Transform Sinyal
Masukan
0
20
40
60
80
100
120
0 2000 4000 6000 8000
Frekuensi (Hz)
10 x log
10(magnitude)(dB)
Gambar 430 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat
lunak TclTk dan Snack
Gambar 430 di atas adalah proses Fast Fourier sinyal masukan dengan perangkat lunak TclTk dan Snack
Hasil Fast Fourier Transform sinyal masukan menunjukkan sebaran spektrum frekuensi dari sinyal suara
yang telah dihasilkan oleh pengucap
Sebagai pembanding adalah proses Fast Fourier sinyal masukan yang diambil dengan Wavesurver seperti
pada gambar 431 Yang didapatkan hasil yang sama
Gambar 431 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat Wavesurver
Bab 4 Pengujian dan Analisa
72
Fast Fourier Transform Parameter
LPC
0
20
40
60
80
100
0 2000 4000 6000 8000
Frekuensi (Hz)10 x log
10(magnitude)(dB)
Gambar 432 Fast Fourier Transform LPC dengan menggunakan perangkat lunak TCLTk
dan Snack
Hasil gambar 432 menunjukkan proses Fast Fourier Transform LPC yang dilakukan dengan perangkat
lunak TclTk dan Snack
Gambar 433 Fast Fourier Transform sinyal masukan dengan menggunakan perangkat Wavesurver
Proses Fast Fourier Transform yang dilakukan dengan Wavesurver dapat dilihat pada gambar 433
Pelekukan Jalur Suara
0
50
100
150
0 50 100 150
Sinyal Input empat mati
Sinyal Standart
empat mati
Gambar 434 Pelekukan Jalur Suara dengan Dynamic Time Warping
Bab 4 Pengujian dan Analisa
73
Dari gambar 434 dapat dianalisa bahwa dengan menggunakan dynamic time warping terdapat proses
pembandingan panjang sinyal antara dua buah sinyal input dan sinyal standart sehingga terjadi proses
pemadanan panjang sinyal dengan cara memperpanjang dan menekuk vektor spektralnya
74
BAB 5
PENUTUP
51 Kesimpulan
Dari hasil yang didapatkan maka dapat diambil kesimpulan bahwa
Sistem pengucap tak bebas atau speaker dependent system memiliki tingkat akurasi yang tinggi untuk
pengucap masukan dan pengucap standar yang sama Hal ini dibuktikan dengan hasil pengujian pertama
yang dilakukan oleh pria pertama Pria pertama ini adalah pria yang suaranya digunakan sebagai standar
Nilai prosentase keberhasilan rata-rata untuk semua perintah adalah sebesar 100 dari setiap perintah
dilakukan 8 kali percobaan
Sedangkan pengujian yang dilakukan oleh suara lain (bukan standart) prosentatase keberhasilan
rata-rata yang diperoleh untuk semua perintah 7188 dari setiap perintah dilakukan 4 kali percobaan Hal
ini disebabkan karena suara pria kedua tidak pernah berinteraksi dengan sistem
Keberhasilan sistem ditunjukkan oleh ketepatan penyalaan lampu sesuai dengan yang diperintahkan
melalui perintah suara
Kecepatan sistem secara keseluruhan diperlihatkan dalam tabel 51 dibawah
Tabel 51 Kecepatan sistem keseluruhan
No
Perintah
Waktu (detik)
1 2 3 4 Rata-rata
1 Satu Nyala 11 99 12 25 16 89 14 05 13 80
2 Satu Mati 12 51 13 28 14 83 12 25 13 22
3 Dua Nyala 10 70 11 73 11 99 12 25 11 67
4 Dua Mati 10 44 11 21 11 21 11 47 11 08
5 Tiga Nyala 10 96 12 25 13 54 12 51 12 32
6 Tiga Mati 10 70 11 99 11 99 13 28 11 99
7 Empat Nyala 11 73 11 99 13 02 12 24 12 25
8 Empat Mati 10 70 09 93 11 21 10 70 10 64
Rata-rata 12 12
Dari data yang diperoleh didapatkan kecepatan rata-rata untuk tiap perintah yang diberikan sampai
dengan terlaksananya eksekusi dari perintah adalah 12 12 detik
52 Saran
Pada penelitian ini masih sangat banyak hal yang dapat dilakukan untuk perbaikan-perbaikan dimasa
selanjutnya Saran dan usulan yang dapat dipertimbangkan untuk pengembangan sistem lebih lanjut adalah
antara lain
1 Sistem tidak lagi bersifat dependent speaker tetapi bersifat independent speaker dimana banyak
orang yang memberi perintah dan sistem dengan tepat memberikan respon
2 Sistem dapat mengatasi tingkat noise yang tinggi baik yang disebabkan oleh lingkungan atau oleh
hardware (sound card)
75
3 Otomatisasi sistem Artinya perintah tidak perlu lagi diberikan lewat penekanan tombol yang
dilakukan melalui mouse
4 Respon sistem yang real time
5 Sistem yang dapat dengan mudah beradaptasi dengan jenis sound card yang bervariasi
DAFTAR PUSTAKA
Anggraeni Triana Dewi Astutik Debi Puji Pengenalan Wicara Dengan Penutur Tak Bebas
Tugas Akhir PENS ITS 2003
Wahyudi Agus Verifikasi Sinyal Suara Sebagai Kendali Arah TA PENS-ITS 2002
Dewantara Bima Sena Bayu Aplikasi Pengenalan Wicara Untuk Perintah NirkabelRobot Mikro
Mouse Tugas Akhir PENS ITS 2004
Dutono Titon Penataran Kebahasaan Tahap I Fonetik Dan Fonologi ndashPengolahan Sinyal
Wicara Digital 20 Februari 2001
Gabel Robert A Richard A Robert Sinyal dan Sistem LinierErlangga 1996
Rabiner Lawrence Huang Juang Biing Fundamentals of Speech Recognition Prentice Hall
International Inc1993
Proakis John G Malonakis Dimitris G Digital Signal Processing Principles Algorithms and
Applications Prentice Hall Inc New Jersey 1995
Scolander Kare Snack Sound Toolkit
httpwwwtcltkmantcl85tutorialTcl11html
httpwikitcltk4074
httpwwwinveceorgtclwisefrontcoverhtml
httpwwwspeechkthsesnackmansnack22tcl-manhtml
httpwwwspeechkthsesnacktutorialhtml
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13]