PERANCANGAN SISTEM KLASIFIKASI UNTUK
MENGKLASIFIKASIKAN KEMAMPUAN BERBICARA ANAK
TUNA RUNGU
Tesis
untuk memenuhi sebagian persyaratanmencapai derajat Sarjana S-2
Program Studi S2 Teknik ElektroKonsentrasi Sistem Isyarat Elektronis
Jurusan Teknik Elektro dan Teknologi Informasi
JUDUL
diajukan olehHepiska Franatagola12/291342/PKT/34942
PROGRAM PASCASARJANAFAKULTAS TEKNIK
UNIVERSITAS GADJAH MADAYOGYAKARTA
2014DAFTAR ISI
JUDUL...........................................................................................................................iDAFTAR ISI.................................................................................................................iiDAFTAR TABEL........................................................................................................iiiDAFTAR GAMBAR...................................................................................................iiiBAB I PENDAHULUAN.............................................................................................1
1.1 Latar Belakang................................................................................................11.2 Rumusan Masalah...........................................................................................21.3 Keaslian Penelitian..........................................................................................31.4 Tujuan Penelitian............................................................................................41.5 Manfaat Penelitian..........................................................................................4
BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI......................................62.1 Tinjauan pustaka..................................................................................................6
2.1.1 Ciri Pada Klasifikasi Tutur...........................................................................63.1.1 Metode klasifikasi....................................................................................8
3.2 Dasar Teori......................................................................................................92.1.2 Pra pengolahan............................................Error! Bookmark not defined.2.1.3 Ekstraksi ciri...............................................................................................102.1.4 Adactive neuro Fuzzy Inference System (ANFIS)....................................15
BAB III METODOLOGI PENELITIAN....................................................................183.1 Alat dan bahan...................................................................................................183.2 Jalannya penelitian............................................................................................183.3 Pengolahan data.................................................................................................193.4 Perancangan sistem klasifikasi..........................................................................20
3.4.1 Pra pengolahan...........................................................................................213.4.2 Ekstaksi ciri................................................................................................233.4.3 Metode klasifikasi.......................................................................................25
DAFTAR TABEL
Tabel 1.1 Perbandingan hasil penelitian terkait dengan penelitian yang akan dilakukan saat ini...........................................................................................................5
DAFTAR GAMBAR
Gambar 2. 1 Diagram alir silence removing................Error! Bookmark not defined.Gambar 2.2 langkah-langkah MFCC...........................................................................11Gambar 2.3 Langkah –langkah PLP-RASTA.............................................................14Gambar 2.4 Arsitektur ANFIS dua aturan[18]............................................................16
BAB IPENDAHULUAN
1.1 Latar Belakang
Anak tuna rungu adalah anak yang mengalami penurunan fungsi dan
kemampuan pendengaran baik sebagian maupun seluruhnya yang mengakibatkan
tidak mampu memakai alat pendengaran dalam kehidupan sehari-hari[1]. Penurunan
pendengaran pada anak penderita tuna rungu umumnya diiringi dengan penurunan
kemampuan berbicara hal ini dikarenakan berkurangnya kemampuan untuk menyerap
dan menerima kata-kata yang diucapkan orang-orang oleh lingkungan sekitarnya,
serta kurangnya feedback dari apa yang ia sendiri ucapkan. Pengklasifikasian jenis
ketuna runguan serta kemampuan mengerti bicara dan bahasa adalah sebagai
berikut[2].
a. 10 – 20 dB (normal), tidak ada hubungan dengan gangguan bahasa.
b. 20 – 35 dB (mild hearing impairment), tidak ada hubungan dengan
gangguan bahasa, Tapi mungkin perkembangan bahasa terlambat.
c. 35 – 55 dB (mild to moderate hearing impairment), ada beberapa
kesulitan artikulasi, perkembangan kata mungkin tak sempurna.
d. 55 -70 dB (moderate hearing impairment), artikulasi dan suara tidak baik
dan perbendaharaan kata mungkin tak sempurna.
e. 70 -90 dB (severe hearing loss), artikulasi dan kualitas suara tidak baik.
Kalimat dan aspek-aspek bahasa tidak sempurna.
f. 90 dB atau lebih (severe to profound hearing impairment), ritme bicara,
suara dan artikulasi tidak baik. Bicara, bahasa harus dikembangkan secara
intensif dan seksama.
g. 100 dB lebih (profound hearing impairment), sangat perlu bantuan tentang
keberadaan pendengarannya, tapi tidak perlu bantuan pengembangan
bicara melalui pendengaran.
Kemampuan berbicara adalah kemampuan mengucapkan kalimat-kalimat
untuk mengekspresikan, menyatakan, menyampaikan pikiran, gagasan, dan
perasaan[3]. Faktor-faktor kebahasaaan yang menunjang kemampuan berbicara
adalah ketepatan ucapan, Penempatan tekanan, nada, sendi, dan durasi yang sesuai,
pemilihan kata,dan ketepatan sasaran pembicara[1]. Terapi wicara dilakukan pada
anak tuna rungu dengan tujuan agar dapat meningkatkan kemampuan berbicara pada
anak tuna rungu. Dalam rentang waktu tertentu dilakukan evaluasi terhadap
perkembangan kemampuan berbicara anak. Evaluasi dilakukan oleh tenaga ahli dan
penilaian dilakukan berdasarkan pendapat ahli itu sendiri tanpa ada standarisasi baku.
Saat ini perkembangan teknologi pemrosesan sinyal suara (speech processing)
berkembang cukup baik. Salah satu bagian dari speech processing adalah
pengklasifikasian sinyal suara (speech classification ). Klassifikasi pembicara antara
anak dan orang dewasa[4], klasifikasi emosi berdasarkan sinyal suara[5][6],
pengklasifikasian bagian bersuara dan tidak[7][8] adalah beberapa contoh pengunaan
speech classification. Pada penelitian ini dicoba menerapkan konsep speech
classification pada pengkategorian kemampuan berbicara anak tuna rungu. Salah satu
bagian penting dalam sistem klasifikasi adalah ekstraksi ciri dengan mengunakan
ekstraksi ciri yang tepat dapat meningkatkan akurasi, dan efisiensi komputasi dalam
sistem klasifikasi yang digunakan. Saat ini metode ekstraksi ciri yang paling banyak
digunakan dalam speech processing adalah Mel Frequency Cepstrum Coefficient
(MFCC) dan Perceptual Linier Predictive Relative spectra PLP- RASTA [6][9][10]
[11] oleh karena itu pada penelitian ini akan mengunakan dan membandingkan dua
metode ektraksi ciri tersebut untuk menentukan mana yang lebih sesuai untuk
klasifikasi kemampuan berbicara anak tunarungu.
1.2 Rumusan Masalah
Dari uraian pada latar belakang rumusan masalah pada penelitin ini adalah:
1. Bagaimana merancang pengkategorian kemampuan berbicara anak tuna
rungu kedalam sebuah sistem klasifikasi?
2. Bagaimana perbedaan kemampuan sistem klasifikasi yang dibuat dengan
mengunakan dua metode ektraksi ciri yang berbeda (MFCC dan PLP-
RASTA)?
1.3 Keaslian Penelitian
Dari studi pustaka yang telah dilakukan belum ada penelitian yang melakukan
klasifikasi kemampuan bicara pada anak tunarungu, sebagian besar klasifikasi suara
dilakukan untuk mengklasifikasikan umur penutur, jenis kelamain penutur,
pengurangan noise, membedakan musik dan tutur, mengklasifikasi emosi dan
membedakan bagian yang bericara dan tidak dari suatu sinyal suara.
Beberapa penelitian sebelumnya tentang speech classification yang dapat
dijadikan acuan untuk sistem klasifikasi bicara anak tunarungu baik dari segi
ekstraksi ciri dan metode yang digunakan seperti, [12], Saambhavi.V(2012) yang
meneliti tentang implementasi sofware dan hardware ekstraksi ciri pada pengenalan
suara pada penelitian ini lebih menekankan pada ekstraksi ciri Mel scale Frequency
ceptral coeficient (MFCC) karena dianggap sebagai ciri yang paling sering
digunakan[13], juraj kacur(2011) meneliti tentang identifikasi penutur dengan
menggunakan k-nearest neighbors(KNN) mengunakan ciri MFCC dan juga
mengunakan PCA dan LDA untuk mengurangi dimensi yang dicari pada penelitian
ini adalah titik optimal antara akurasi dan ketahanan[14], jitendra ajmera(2003)
mengsegmentasikan tutur dan musik berasarkan ciri entropi dan kedinamisan dengan
mengunakan hiden markov model(HMM) pada penelitiannya jitendra memandingkan
kemampuan klasifikasi degan ciri entropi saja, kedinamisan saja dan dengan
gabungan keduanya[15], C. Jelaksmi (2011) yang mentranskirpkan bicara atau speech
agar bisa dimengerti oleh orang tunarungu dengan mengunakan metode HMM dan
ciri MFCC [16], won-ho shin(2000) membedakan antara bagian yang berisi tutur dan
yang tidak untuk menentukan titik akhir dari suatu pembicaraan, Amane Taleb 2012
memcoba melakukan speech recognition dengan mengunakan metode ANFIS dan
GA[17], A.M ELWAKDY mengunakan wavelet sebagai ekstraksi ciri dan ANFIS
sebagai metode klasifiksi dan mengunakan subtractive clustering diantara ekstraksi
ciri dan ANFIS[18], Dave, Namrata menjelaskan secara singkat tentang ekstraksi-
ekstraksi ciri yang paling banyak digunakan termasuk PLP-RASTA[19], Marsal, Pp
mencoba membandingkan metode ekstraksi ciri PLP-RASTA,filtering frekuensi dan
MFCC[20].
Pada penelitian ini akan membandingkan pengunaan ekstraksi ciri MFCC dan
RASTA PLP untuk mengklasifikasi kemampuan berbicara anak tunarungu untuk
mencari metode ekstraksi ciri yang lebih seusuai. Selain itu juga memilih kata-kata
yang tepat untuk mengklasifikasi metode klasifikasi pada penelitian ini akan
mengunakan metode anfis,Tabel 1.1 adalah mengenai penelitian-penelitian yang
terkait.
1.4 Tujuan PenelitianTujuan penelitian ini adalah sebagi berikut.
1. Melakukan klasifikasi kemampuan bicara anak tunarungu.
2. Memilih kata yang tepat untuk digunakan sebagai input klasifikasi.
3. Membandingkan metode ektraksi ciri MFCC dan PLP-RASTA pada sistem
klasifikasi untuk menentukan metode ektraksi ciri mana yang lebih sesuai.
1.5 Manfaat PenelitianHasil penelitian ini diharapkan bermanfaat dalam bidang keilmuan mengenai
klasifikasi dan pengenalan pola terutama untuk klasifikasi suara, dengan mencoba
menerapkan ekstraksi ciri MFCC dan PLP-RASTA serta metode klasifikasi anfis
untuk mengelompokan kemampuan berbicara anak tunarungu.
Tabel 1.1 Perbandingan hasil penelitian terkait dengan penelitian yang akan dilakukan saat ini
Tahun Nama Metode, Aplikasi Hasil
ciri2000 W.Shin CART Mendeteksi titik akhir Perbandingan kecepatan
deteksi titik akhir2003 J.Ajmera HMM Membedakan musik dan
tutur.Membandingkan hasil klasifikasi dari berbagai macam metode dan berbagai macam ciri.
2011 J.Kacur KNN, MFCC
Identifikasi penutur Menemukan keseimbangan antara akurasi dan ketahanan
2011 C. Jelaksmi
HMM/MFCC
Mentranskripkan tutur agar dapat dimengerti oleh tunarungu
Alat bantu dengar
2012 V. sambhavi
- Desain sirkuit ekstraksi ciri
Perangkat keras
1991 Hermansky, H.
PLP-RASTA
Menganalisis pengunaan PLP-RASTA pada speech processing
Perbandingan PLP-RASTA dengan metode spectral konfesional.
2008 F.Elwakdy
ANFIS Mencoba wavelet dan ANFIS untuk membedakan kata satu,tiga,dan enam dalam bahasa ingris
Menunjukan kelebihan ANFIS dalam speech processing.
2012 T.Amane MFCC, ANFIS
Mengunakan MFCC dan ANFIS dan GA pada data TIMIT
Recognition rate dari sistem yang dibuat
2013-2014
F.Hepiska
MFCC, PLP-RASTA, ANFIS
Klasifikasi tingkatan berbicara anak tunarungu
Rancangan software klasifikasi.
BAB IITINJAUAN PUSTAKA DAN LANDASAN TEORI
II.1 Tinjauan pustaka
Pada bagian ini akan dibahas hasil tinjauan pustaka dari penelitian-penelitan
sebelumnya yang berkaitan dengan klasifikasi tutur baik dari ciri yang digunakan
untuk klasifikasi maupun metode klasifikasi yang digunakan.
II.1.1 Ciri pada Klasifikasi Tutur
Dalam sistem pengklasifikasi ciri digunakan agar dapat membedakan antara
suatu objek klasifikasi dengan objek yang lain, setiap objek klasifikasi memiliki ciri
yang berbeda dengan objek yang lain. Perbedaan dan persamaan ciri dari suatu objek
adalah dasar dalam melakukan klasifikasi. ciri yang digunakan untuk mengklasifikasi
suatu objek yang sama dapat mengunakan ciri yang berbeda-beda tergantung pada
tujuan dari sistem klasifikasi yang diinginkan. Suatu objek klasifikasi tidak selalu
memberikan ciri yang sesuai untuk sistem klasifikasi yang diinginkan, oleh karena itu
perlu dilakukan ekstraksi ciri. Ekstraksi ciri dilakukan untuk mengubah bentuk
gelombang suara menjadi beberapa parameter yang mewakili [21],[10]. Ekstraksi ciri
adalah proses mengubah atau mengambil informasi linguistik dari sinyal suara yang
diucapkan untuk dimanfaatkan dalam klasifikasi[13].
Zero crossing rate (ZCR) adalah jumlah perubahan tanda amplitudo
gelombang suara dari sampel[22], atau jumlah amplitudo sinyal suara melewati titik
nol. Ciri ini biasa digunakan untuk mengklasifikasi bagian yang bersuara dan bagian
yang tidak pada proses bicara. Pada bagian yang bersuara jumlah amplitudo yang
melewati titik nol akan sedikit sebaliknya jika bagian yang tidak bersuara[22]. Selain
ZCR Root mean square energi (RMSE) juga bisa digunakan untuk membedakan
antara bagian bersura dan tidak pada proses bicara.RMSE adalah akar kuadrat dari
rata-rata jumlah kuadrat amplitudo, untuk bagian yang bersuara atau pengucapan
suara yang stabil maka nilai RMSE akan semangkin besar.
Mel-Frequency cepstral coefficient (MFCC) sinyal tutur terdiri dari nada
dengan berbagai frekuensi yang tidak linier ketidaklineran ini dapat dimodelkan
dengan dengan yang disebut mel frekuensi. Kelompok-kelompok frekuensi dianggap
linier pada skala mel yang kemudian disebut frekuensi mel[23]. Saat ini MFCC
adalah ciri yang paling banyak digunakan untuk mengidentifikasi penutur maupun
untuk mengklasifikasi tutur, kelebihan utama MFCC adalah mengestimasi frekuensi-
frekuensi tinggi sesuai dengan persepsi manusia[16]. Selain itu MFCC juga efektif
untuk menolak kelebihan informasi pada sinyal tutur dan menampilkannya dalam
bentuk sinyal cosinus[10]. MFCC sejauh ini memberikan hasil yang cukup baik untuk
mengklasifikasi suara-suara terstruktur seperti tutur dan music. Namun untuk suara-
suara lingkungan seperti suara serangga MFCC menunjukan hasil yang kurang
memuaskan[24].
Perceptual Linier Predictive Relative Spectral (PLP-RASTA) merupakan
pengembangan dari metode PLP yang merupakan teknik analisis suara dengan
berdasarkan spectrum jangka pendek dari sinyal suara. Kekurangan teknik ini adalah
sangat rentan ketika spectrum jangka pendeknya dimodifikasi dengan respon
frekuensi Sedangkan pada pendengaran manusia tidak demikian. PLP-RASTA
memberikan hasil yang lebih tahanterhadap distorsi linier dari spektral [25]. PLP
merupakan salah satu teknik ekstaksi ciri yang paling banyak digunakan saat ini [19].
Meskipun MFCC merupakan standar dalam ekstraksi ciri dalam speech processing
namun PLP memberikan hasil yang lebih baik dalam kodisi-kondisi tertentu. Dalam
pendekatan PLP tidak terlalu terpengaruhi oleh informasi auditoty spectral,
mengabaikan informasi-informasi yang tidak terlalu diperlukan dapat meningkatkan
kemampuan klasifikasi karena memperkecil ciri yang dapat menggangu[10].
3.1.1 Metode klasifikasiGaussian mixture model(GMM) banyak digunakan secara intensif pada
speech prosesing, baik speech recongnition, speaker recognition dan lain-lain. Secara
prinsip GMM dapat memperkirakan semua fungsi kepadatan probabilitas dengan
akurasi yang bisa disesuaikan[4]. Algoritma expectation maximization (AM) sering
digunakan untuk melatih densitas GM. penelitian yang dilakukan oleh yumin zeng
mengunakan k-means untuk menginisialisasi parameter GMM[4]. GMM juga dapat
digunakan untuk membedakan voiced speech dan unvoiced speech dengan
melatihkan GMM dengan melatihkan gmm dengan kedua data tersebut kemudian
dihitung rasio kemiripannya dengan persamaan dibawah
L(t )=g1( y (t) ; Λ)−g0( y (t); Λ) (2.1)
dengan g11 dan g0 adalah nilai log-kemiripan voiced dan unvoiced GMM,y(t) adalah
vektor ciri dalam domain waktu dan Λ adalah set of parameter dari voiced maupun
unvoiced[26].
K-nearnest neigbours (KNN) mengklasifikasikan sampel yang diuji
berdasarkan jarak dengan terhadap sampel pelatihan, KNN menganggap semagkin
dekat jarak antara sampel yang diuji terhadap referensi maka semangkin besar
kemungkinan keduanya berada dalam satu kelompok[14]. Dari beberapa pustaka
yang dipelajari KNN dapat diterapkan untuk klasifikasi noise suara[27], Audio-
Visual Speech Recognition[28], dan identifikasi penutur [14].
Neural networks(NNs) adalah artificial intelligent network atau jaringan
kecerdasan buatan yang unit proses pararel yang bekerja secara bersamaan[29]. Pada
penelitian yang dilakukan oleh C.Shaw dan M.bouhard menggunakan feed foward
multilayer perceptron dengan satu hiden layer dengan fungsi tangen hiperbolik
sebagai inputan untuk network hiden layer yang digunakan untuk klasifikasi penutur
pada kondisi bernoise[29], lalu penelitian yang dilakukan oleh H.Sato mengunakan
neural network pada klasifikasi emosi pada tutur, dengan 3 layer NNs dan penerapan
algoritma back propagation(BP)[5]. Neural network terdiri dari elemen proses yang
saling terhubung berkerja dalam satu kesatuan untuk meyelesaikan suatu masalah
ANN memiliki kemampuan yang sangat baik untuk untuk mengeluarkan pola dan
mendeteksi pola yang terlalu kompleks untuk disadari baik oleh manusia maupun
komputer dengan metode lain[30].
Metode Adaptive Neuro Fuzzy Inference System (ANFIS) memanfaatkan
kelebihan dari metode neural network dan fuzzy inference system seperti kemampuan
belajar dari neural network dan kemampuan pengambilan keputusan dari fuzzy[31].
Pada ANFIS neural network menyediakan kekuatan matematika dari otak sedangkan
fuzzy logic memberikan kemampuan verbal[30], neural network memiliki
kemampuan klasifikasi yang sangat baik namum kemampuan ini sangat bergantung
pada kualitas dan jumlah data training yang digunakan. Dengan menggabungkan
neural network dan fuzzy akan mengatasi masalah tersebut sehingga menghasilkan
network yang lebih efisient dan kemampuan klasifikasi yang lebih efektif[18] .
II.2 Dasar Teori
Pada bagian ini akan dibahas mengenai dasar teori dari perancangan sistem
klasifikasi untuk mengklasifikasikan kemampuan berbicara anak tunarungu mulai
dari tahapan pra-pengolahan, ekstraksi ciri dan metode yang digunakan. Masing-
masing bagian akan di jelaskan secara terpisah.
II.2.1 Penapisan
Penapisan adalah proses untuk melewatkan informasi-informasi yang
diperlukan dan menghapus informasi yang tidak dibutuhkan pada proses-proses
selanjutnya. Beberapa jenis tapis yang sering digunakan pada speech processing
adalah noice reduction, end point detection, pengurangan dengung dan lain-lain[32].
Penapisan biasanya digunakan pada tahap prapengolahan dalam speech processing
hal ini dilakukan agar proses pada tahap-tahap selanjutnya menjadi lebih efektif dan
efisien. pada penelitian ini mengunakan tapis silence removing yang merupakan
bagian dari end point detection.
Penggunaan silence removing sangat penting terutama untuk pengolahan
sinyal suara yang kondisi diam dan background noice sangat tidak diinginkan.
Pengolahan sinyal suara membutuhkan metode esktraksi ciri yang efisien dimana
hanya bagian yang terdapat suara berbicaralah yang mengandung informasi yang
diinginkan[32]. Penerapan penghapusan diam sangat cocok diterapkan untuk masalah
ini. Pada penelitian ini penghapusan diam akan didasarkan pada perbedaan intensitas
suara dimana intensitas suara noise background selalu lebih kecil. Suara background
dianggap terjadi pada awal data sehingga sebagian data di awal akan dicuplik dan di
hitung rerata dan simpangan bakunya dan akan dianggap standardeviasi dari
background, selanjutnya setiap intensitas titik data akan dihitung seberapa mendekati
dengan error sesuai persamaan(2.1). selanjutnya hasil perhitungan ini akan
dibandingkan dengan batas yang telah ditentukan jika nilainya kurang dari batas
maka akan dianggap bagian diam.
z=datax ( i )−mean(backgroud)
stdv (backgroud) (2.1)
II.2.2 Ekstraksi ciri
Berdasarkan kajian pustaka yang telah dilakukan sebelumnya ekstraksi ciri
yang akan digunakan pada penelitian ini adalah ekstraksi ciri dengan metode Mel-
Frequency cepstral coefficient (MFCC), dan PLP-Rasta hasil klasifikasi dari kedua
ciri ini akan dibandingkan untuk melihat ciri mana yang lebih sesuai untuk
mengklasifikasi kemampuan berbicara anak tuna rungu.
a. Mel-Frequency cepstral coefficient (MFCC)
MFCC merupakan metode ekstraksi ciri front-end yang paling banyak
digunakan. MFCC efektif untuk menolak kelebihan informasi yang tidak diperlukan
dari sinyal suara dan menampilkan sinyal suara dalam bentuk sinyal cosinus.
Prosedur pada MFCC pertama MFCC akan membagi sinyal suara menjadi beberapa
frame berukuran sama dengan windowing pada domain waktu. Lalu setiap frame
akan dikalkulasikan dan akan dianggap sebagai ciri dari frame tersebut, oleh karena
Pre-emphasis FFT
Mel-scale filterbank log DCT
Hamming windowspeech
MFCC vector
setiap frame memberikan satu vektor MFCC maka setiap sinyal dengan panjang yang
berbeda akan memberikan jumlah vector MFCC yang berbeda[10]. Untuk mengatasi
masalah ini rerata vector MFCC akan dihitung dan dijadikan sebagai ciri pada
pengolahan sinyal suara[33], maka sebanyak d-dimensi MFCC vector menentukan
vector imput dari sistem klasifikasi dengan d adalah jumlah koefisient MFCC,
Gambar 2.1 langkah-langkah MFCC
Pre emphasis adalah teknik dalam pengolahan sinyal suara yang digunakan
untuk memperkaya sinyal-sinyal pada frekuensi tinggi, pre emphasis akan menaikkan
energi sinyal input dengan besarnya kenaikan akan berbanding lurus dengan kenaikan
frekuensi. Penggunaan pre emphasis akan mengurangi rentang spectral dynamic
range. Sehingga dengan pengunaan pre emphasis spectrum sinyal suara menjadi lebih
rata. Pre emphasis diimplementasikan sebagai Finite Impulse Respone (FIR) orde
pertama yang di definisikan sebagai:
Sn=E (n )−aE (b−1) (2.2)
dengan α adalalah koefisien pre emphasis nilai yang biasa digunakan adalah antara
0.9 hingga 0.95. E(n)= adalah data sampel yang merepresentasikan sinyal suaara
dengan n adalah 0≤n≤N, dimana N adalah jumlah sampel. [34], [35].
Windowing adalah suatu fungsi yang digunakan pada setiap frame untuk
memperhalus sinyal dan membuatnya lebih dapat diterima pada analisis spectral.
Hamming window adalah sebuah fungsi window yang biasa digunakan untuk
mengurangi perubahan secara mendadak dan frekuensi yang tidak diinginkan pada
frame sinyal suara. Hamming window didefinisikan sebagai:
w ( k )=0,54−0,46 cos[ 2πkL−1 ] (2.3)
Dengan L adalah lebar dari Sn dan k adalah sebiah nilai integer dengan nilai 0≤k≤L-
1. Hasil dari dari segmen yang telah dilakukan windowing adalah :
x (k )=Sn w (k ) (2.4)
dengan Sn adalah hasil output dari pre emphasis.
Fourier transform adalah metode untuk merubah sinyal suara dari domain
waktu ke domain frekuensi. Jika dalam domain waktu sinyal suara ditampilkan
sebagaimana perubahan sinyal seiiring berjalananya waktu. Sedangkan pada domain
frekuensi ditambilkan dalam bentuk seberapa banyak sinyal yang berada pada rentang
frekuensi tertentu. Sinyal suara perlu diubah kedalam domain frekuensi karena pada
sinyal-sinyal periodik yang compleks akan diurai menjadi lebih sederhana sebagai
bagian dari analisis, dan juga persamaan-persamaan seperti defirensial integral dan
konvolusi pada domain waktu akan menjadi perhitungan aljabar pada domain
frekuensi[36].
Discrete fourier transform (DFT) digunakan untuk mentranformasi sinyal
dengan panjang terbatas. DFT digunakan untuk transformasi dinyal diskrit domain
waktu menjadi spectrum diskrit domain frekuensi.
Fast fourier transform (FFT) merupakan algoritma yang sangat efisien untk
menghitung DFT. Untuk sinyal dengan panjang N memerlukan N2 kali perkalian
sedangkan dengan FFT hanya memerlukan Nlog2(N) kali perkalian . Proses
penurunan DFT menjadi FFT ditampilkan pada [36].
Mel skale filter bank terdiri dari filter segitiga yang saling tumpang tindih
dengan frekuensi cutoff ditentukan oleh pusat frekuensi yang saling berdekatan.
Batas-batas kritis adalah bandpass filter yang disesuaikan di antara frekuensi
pusat[37]. Dibawah 1kHz batas-batas kritis di tempatkan linier sekitar 100,200,
…,100Hz. Dan diatas 1kHz batas kritis akan di tempatkan sesuai dengan skala mel
(mel-scale). [38]
b. Perceptual Linier Predictive Relative Spectral PLP-RASTA
PLP pertama kali diajukan oleh Hynek Hermansky sebagai cara untuk
menyederhanakan nilai spectra untuk meminimalkan perbedaan antar pembicara
dengan mempertahankan informasi penting yang terdapat pada sinyal suara. Analisis
PLP berdasarkan spectrum jangka pendek dari sinyal suara teknik ini sangat rentan
karena nilai spectral dipengaruhi oleh respon frekuensi dari kanal komunikasi. Ciri
PLP dihasilkan dari spektrum pendengaran dilakuakan pemfilteran dengan filter
berbentuk trapesium dengan skala bark, equal loudness pre-emphasis, dan kompresi
akar pangkat tiga. Teknik RASTA menerapkan band pass filter pada energy dari
setiap subband frekuensi. Yang bertujuan menghaluskan variasi noise jangka pendek
dan menghilangkan ketimpangan terus menerus yang dihasilkan korelasi spectral
statis pada kanal suara. Band passs filter diterapkan pada representasi dari log-
spectral sinyal suara. Penerapan rasta ini membuat PLP menjadi lebih tahan terhadap
distorsi linier dari spectral[39]. Proses keseluruhan dari PLP rasta ditunjukan oleh
Gambar 2.2[4].
Untuk ektraksi ciri setelah dilakukan tahapan pra pengolahan sinyal suara
akan dilakukan Discrete fourier transform (DFT). DFT didefinisikan sebagai sebuah
transformasi yang memetakan sampel sinyal discrete {x[0],..x[N-1]} kedalam suatu
urutan periodic X[k] sesuai persamaan(2.5)Atau secara sederhana DFT merubah
sinyal discrete pada domain waktu kedalam domain frekuensi.
X [ k ]=DFT N {x [ n ]}≜∑n=0
N −1
x [ n ] e− j 2 πkn
N , k∈Z (2.5)
Sinyal keluaran dari DFT akan dilakukan analisis critical band dimana pada
bagian ini frekuensi keluaran dari DFT akan diubah ke skala bark. critical band
sendiri secara sederhana dapat interpretasikan sebagai serangkaian band pass filter
yang terletak pada sistem pendengaran. Skala bark atau critical band rate satu skala
bark sama dengan satu bandwidth pada critical band[40], setelah itu dilakuan filtering
baik dengan mengunakan threshold ataupun dengan median filtering, pada bagian ini
lah yang yang membedakan antara PLP dan PLP-RASTA. Selanjutnya untuk
mengkompensasi ketidaksamaan dari pendengaran manusia dari berbagai frekuensi.
Analisis PLP melakuan pengskalaan dari amplituo critical band berdasarkan equal
loudness pre-emphasis sesuai dengan persamaan(2.6)[41]. Selanjutnya adalah
merubah tingkat intentisas dari loudness dengan mengakar pangkat tiga hasil adri
keluaran sebelumnya, dan dilanjutkan dengan melakukan inverst DFT sesuai dengan
persamaan(2.7), terakhir adalah dilakukan autoregretive dari koefisien.
E (w )=¿¿¿ (2.6)
x [n ]=IDFT N {x [ k ] }≜ 1N ∑
n=0
N−1
x [k ] ej 2 πkn
N , k∈Z (2.7)
Gambar 2.2 Langkah –langkah PLP-RASTA
II.2.3 Adaptive neuro Fuzzy Inference System (ANFIS)
ANFIS merupakan metode klasifikasi hybrid yaitu metode yang merupakan
gabungan dari metode neural network dan fuzzy sehingga ANFIS memiliki
kelebihan dari kedua metode ini. ANFIS memiliki kemampuan belajar dari neural
network dan kemampuan pengambilan keputusan dari fuzzy[31]. Gambar 2.3 adalah
salah satu tipe arsitektur anfis yang paling banyak digunakan. Jaringan ANFIS
memiliki dua bagian yang menyerupai fuzzy sistem yang petama adalah bagian
penalaran dan bagian kesimpulan/pengambilan keputusan dimana keduanya
dihubungkan oleh aturan dalam bentuk jaringan saraf[31]. ANFIS memiliki lima
layer seperti yang ditunjukan oleh Gambar 2.3.
layer1 adalah fuzfikasi pada layer ini data pada setiap data yang masuk akan
dihitung derajat keanggotaannya untuk masing-masing kelas derajat keangotaan.
Derajat keanggotaan yang biasa digunakan adalah derajat keangotaan fungsi bell dan
derajat keangotaan fungsi Gaussian . Output dari layer 1 di tunjukan oleh
persamaan(2.8) untuk derajat keanggotaan fungsi bell dan fungsi Gaussian ditunjukan
oleh persamaan(2.9) dan (2.10). layer 2 adalah layer aturan output dari setiap titik
layer2 bisa berupa produk perkalian dari input yang masuk ataupun nilai minimal dari
input yang masuk.seperti yang di tunjukan oleh persamaan(2.11) dan (2.12). Layer3
adalah layer normalisasi output layer ini adalah output layer2 pada titik i di bagi
dengan keseluruhan output2 ditunjukan oleh persamaan(2.13). Layer4 adalah layer
defuzifikasi output setip titik layer 4 ditunjukan oleh persamaan(2.14). Layer5 output
merupakan penjumlahhan dari semua output layer4.
Proses belajar ANFIS pada penelitian ini mengunakann proses belajar hybrid
yaitu proses belajar Least Square Error (LSE) dan Back Error Propagation (BEP).
LSE digunakan untuk proses belajar variable konsekuen yang berada pada layer4
proses pembelajaran dilakukan perambatan maju dan dilakukan setelah dilakukan
perhitungan untuk satu serial data (batch). Persamaan untuk menghitung LSE
ditunjukan oleh persamaan(2.15) dimana B adalah matrix output yang diharapkan, A
adalah matrix perkalian antara input dan output dari layer3 untuk setiap titik dan
setiap data dalam satu deret input. BEP digunakan sebagai pembelajaran untuk
variable penalaran atau variable-variable yang mempengaruhi fungsi keanggotaan.
Proses pembelajaran ini dilakukan secara lansung untuk setiap pasang input dan
output. Eror pada proses ini akan merambat dari layer5 hingga layer1 kecuali layer4
karena layer4 sudah dilakukan perhitungan LSE. Untuk perambatan eror dari output
layer 5 hingga layer1 ditunjukan oleh persamaan(2.16) hingga persamaan(2.20)[42].
Hubungan antara eror dan variable-variabel fungsi keangotan Gaussian ditunjukan
oleh persamaan(2.21) dan persamaan(2.22)[17].
Gambar 2.3 Arsitektur ANFIS dua aturan[18].
out 1i=μAi(x) (2.8)
μAi (x )= 11+¿¿ (2.9)
μAi (x )=e−12 [ x−ci
si ]2
(2.10)
out 2.i=wi=∏ ( μAi ( x ) , μbi ( y ) )=μAi ( x ) . μbi ( y ) (2.11)
out 2, i=wi=min ( μ Ai ( x ) , μbi ( y ) ) (2.12)
out 3 ,i=wi= wi
∑1
k
wi (2.13)
out 4 , i=wi(ki 1. x 1+ki 2 y 2+ki 3) (2.14)
K=psudoinvers ( A )∗B (2.15)
psudoinvers ( A )=( AT A )−1 AT(2.16)
eror 5= yd− ya (2.17)
eror 3(i)=wi∗eror 5 (2.18)
eror 2.(i)=¿eror3(i)*out2(i)= eror3(i)*w(i) (2.19)
eror 1 ( i , j )=¿eror2(i)*μ(n ,i) (2.20)
∂ e∂ c
= ( yd− ya )( x−cs2 )w 1 (1−wi ) (k 1i+k 2i+k 3i ) (2.21)
∂ e∂ s
=( yd− ya )( x−cs3 )w 1 (1−wi ) (k 1i+k 2i+k 3i ) (2.22)
BAB III METODOLOGI PENELITIAN
III.1 Alat dan bahan
- Alat
- komputer dengan (prosesor : amd phemom x6, RAM 2 GIGABYTE)
- Sistem operasi windows 7 32 byte
- Alat perekam dari hanphone - Aplikasi matlab 2013
- Bahan
- Rekaman suara anak tuna rungu dalam format .wav dari 25 anak
dimana setiap anak mengucapkan 30 kata sebanyak dua kali.
III.2 Jalannya penelitian.
Penelitian dilakukan berdasarkan hasil dari tinjauan pustaka dan dasar teori
yang telah dikemukakan lalu dilakukan perancangan dua jenis sistem klasifikasi
dengan metode ekstraksi ciri yang berbeda. Perancangan dan simulasi sistem pada
penelitian ini mengunakan program MATLAB untuk dapat menunjukan dan
membandingkan kinerja dari sistem yang telah dibuat. Penulisan tesis dilakukan
dengan tahapan yang ditunjukan oleh Gambar 3. 2
Studi pustaka Pemilihan kata untuk klasifikasi
Perancangan sistem klasifikasi
Metode ekstraksi PLP-RASTA
Metode ekstraksi MFCC
Pengujian sistem klasifikasi
Pengujian dengan output ekstrkasi ciri rerata koefisen tiap window
Pengujian MFCC dengan jumlah koefisen 12,24 dan jumlah window 25,50,75
Pengujian PLP-RASTA dengan jumlah koefisen 12, 24 dan jumlah window 25, 50, 75
Analisis
Gambar 3. 1 diagram blok jalannya penelitian
III.3 Pengolahan data
Pada penelitian ini data yang digunakan adalah rekaman suara dua puluh
empat anak tuna rungu yang mengucapkan tiga puluh kata yang sering digunakan
sebagai latihan bicara masing-masing anak diminta untuk mengucapkan kata yang
sama sebanyak dua kali. Rekaman ini kemudian dipedengarkan kepada dua puluh
orang responden yang kemudian responden diminta untuk mengulangi kata yang
disebutkan hal ini dilakukan untuk memberikan bobot pada kata yang diucapkan lalu
Pengujian dengan output ekstrkasi delta MFCC dan PLP-RASTA
Pengujian MFCC output delta _ koefisen dan jumlah window_
Pengujian PLP-RASTA output delta _ koefisen dan jumlah window_
ditampilkan seperti tabel.. Hasil dari tabel ini digunakan sebagai referensi banyaknya
kelas klasifikasi, output, dan kata yang akan digunakan. Pada penelitian ini tidak
semua kata yang ditampilkan pada tabel.. akan digunakan, tetapi akan dipilih
beberapa kata yang dianggap mampu memberikan perbedaan bobot yang signifikan
pada setiap perubahan kelasnya.
berdasarkan hasil pembobotan yang dilakukan terdapat lima kelas
kemampuan bicara pada penelitian ini. Perbedaan kelas ini berdasarkan adanya
berbedaan nilai bobot yang menonjol dari satu data ke data lain. Selanjutnya dari tiga
puluh kata yang ada akan dipilih beberapa kata yang akan digunakan untuk
klasifikasi, tidak semua kata yang terdapat didalam data dapat dibedakan dengan
baik ada beberapa data yang tidak memeberikan perbedaan yang signifikan antara
satu kelas dan lainya. Pemilihan kata yang digunakan didasarkan pada perbedaan
bobot dari setiap kelas dari kata yang diucapkan, kata yang dipilih harus memberikan
perbedaan bobot yang signifikan dan konsisten untuk setiap kelasnya dan kata yang
akhirnya digunakan sebagai bahan klasifikasi adalah kata :
1. Ayam
2. Mobil
3. Bulan
4. Buku
5. Sapi
6. Daun
7. Sepatu
8. Kacamata
9. Bambu
10. sapu
III.4 Perancangan sistem klasifikasi
Ada dua tahapan dalam proses klasifikasi. Tahapan pertama adalah tahapan
pelatihan dan tahapan pengujian yang ditunjukan oleh gambar 3.2. Untuk tahapan pra
pengolahan dan ekstraksi ciri tidak ada perbedaan antara tahap pelatihan dan tahap
pengujian. Perbedaan ada pada tahap klasifikasi. Pada tahap pelatihan parameter-
parameter akan berubah sampai akhirnya konvergen nilai akhir parameter akan
bergantung terhadap data pelatihan yang digunakan, sedangkan pada tahap pengujian
akan mengunakan parameter hasil pelatihan untuk melakukan klasifikasi.
Pra pengolahan
Ekstraksi ciri
Latih klasifikasi
Eror< batas eror
mulai
selesai
Pra pengolahan
Ekstraksi ciri
Pengujian klasifikasi
mulai
selesai
ya
tidak
Proses training sistem klasifikasi
(b) Proses pengujian sistem klasifikasi
Gambar 3. 2 Tahapan sistem klasfikasi
III.4.1 Pra pengolahan
Pada proses perekaman sinyal suara jarak saat dimulainya ada informasi suara
yang masuk terhadap saat perekaman dimulai akan berbeda untuk setiap sampel.
Selain itu pada data penelitian ini ada perbedaan jarak antar suku kata. Untuk kata
yang diucapkan oleh anak dengan kemampuan berbicara kurang baik akan memiliki
jarak yang relatif lebih lebar dibandingkan dengan anak dengan kemampuan
berbicara yang lebih baik. Untuk memilimalisir kelasalahan karena perbedaan ini
pada peelitian ini akan mengunakan penghapusan bagian diam(silence removing).
Background(bg) = x[1..N/10]
mulai
X=speech, batas
N=panjang(x), j=0
j=j+1x2(j)=x(i)
z(i)=(x(i)-mean(bg))/std(bg)
xout= x2
i=1:1:N
Z(i) > batas
selesai
Dengan penerapan silence removing diharapkan titik awal sinyal adalah titik disaat
anak memulai pembicaran dan mengurangi jarak antar suku kata sehingga akan
mengurangi kesalahan karena adanya perbedaan durasi kata serta akan mengurangi
beban komputasi. Flowchart algoritma silence removing ditampilkan pada gambar 3.3
Gambar 3. 3 Flowchart silence removing
III.4.2 Ekstaksi ciri
Seperti yang telah dijelaskan pada bab sebelumnya pada penelitian ini akan
mengunakan dua buah metode ekstraksi ciri yaitu metode MFCC dan PLP-RASTA
lalu akan dilihat metode ekstaksi ciri mana yang lebih sesuai. Penerapan masing-
masing metode pada penelitian ini akan dijelaskan pada bagian berikut.
a. Mel-Frequency cepstral coefficient(MFCC)
Pada penelitian ini akan mengunakan MFCC dengan jumlah koefesien tiga
belas[43][44][45][46][17] dan dua puluh empat[15][tambah paper yang make angka
itu], selain itu output yang akan digunakan pada sistem klasifikasi adalah rerata nilai
koefisen MFCC dari setiap frame. Dengan hal ini diharapkan akan memperkecil
banyaknya dimensi pada metode klasifikasi. Pada metode ANFIS perhitungan pada
layer 2 adalah perkalian dari semua dimensi input dan semakin banyak jumlah
dimensi input maka nilai output layer dua akan mendekati nol hal ini dapat
menyebabkan kemungkian eror pada perhitungan selanjutnya, oleh karena itu
pengunaan koefisien MFCC rata-rata diharapkan dapat meminimalisir kemungkinan
ini terjadi.
Seperti yang telah dijelaskan sebelumnya ada perbedaan panjang durasi pada
pengucapan kata yang akan digunakan pada penelitian ini. Hal ini akan menjadi
masalah ketika dilakukan pencuplikan frame dari data dengan lebar frame tetap dalam
durasi waktu. banyaknya frame yang dihasilkan akan tidak sama. Selain itu posisi
pencuplikan juga akan relatif berbeda. Hal ini akan mengurangi keandalan dari ciri
yang dihasilkan dari MFCC. untuk menanggulangi masalah ini, pada penelitian ini
lebar frame merupakan pembagian dari panjang data dengan metode ini panjang
frame akan berbeda-beda namun banyaknya frame akan tetap dan posisi pencuplikan
data relatif akan lebih sama untuk setiap data meskipun memiliki durasi yang
berbeda.
Gambar 3. 4 Pengunaan lebar window berbeda banyak window sama
Gambar 3. 5 Pengunaan window dengan lebar yang sama banyak window berbeda
b. Perceptual Linier Predictive Relative Spectral PLP-RASTA
Pada penelitian ini akan mencoba mengunakan dua belas dan dua puluh empat
koefisien PLP-RASTA [paper yang mendukung]. sama dengan penggunaan MFCC
koefisen yang akan digunakan pada sistem klasifikasi adalah koefisen rerata dari
setiap frame yang diproses. Karena permasalahan yang sama yaitu durasi data yang
berbeda untuk ekstraksi ciri dengan metode PLP-RASTA juga mengunakan durasi
window yang berbeda, banyaknya window yang tetap.
III.4.3 Metode klasifikasi
Pengunaan metode ANFIS pada penelitian ini mengikuti arsitektur yang di
tunjukan oleh gambar 3.6. banyaknya input ANFIS tergantung pada banyaknya
dimensi yang dihasilkan oleh ekstraksi ciri. Untuk fungsi keanggotaan yang
digunakan adalah fungsi keanggotaan Gaussian dimana akan terdapat satu fungsi
keanggotaan untuk masing-masing kelas untuk menghitung fungsi keanggotaan
sesuai dengan persamaan (2.9). Penetapan rerata dan defiasi standar untuk nilai awal
parameter Gaussian didapatkan dari perhitungan rerata dan defiasi standar data
masing-masing kelompok. Pada layer dua diterapkan lima aturan anfis dengan output
hasil perkalian dari total input yang masuk. Nilai awal bobot konsekuen pada layer4
ditetapkan secara acak. Terdapat lima macam keluaran pada layer 5 (1,2,3,4,5) yang
masing-masing output akan di pasangkan dengan inputnya pada saat pelatihan.
Metode pelatihan yang digunakan pada penelitian ini adalah metode gabungan
LSE dan BEP. BEP untuk memperbarui parameter gausian pada layer 1. Dan LSE
untuk memberbarui bobot(parameter konsekuen) pada layer 4. Bobot-bobot serta
arksitektur ANFIS hasil pelatihan ini kemudian akan digunakan untuk pengujian
dengan data yang berbeda.
Ax1
Bx1
Cx1
Dx1
Ex1
X1
Ax2
Bx2
Cx2
Dx2
Ex2
X2
Axn
Bxn
Cxn
Dxn
Exn
Xn
∏
∏
∏
∏
∏
N
N
N
N
N
X1..Xn
X1..Xn
X1..Xn
X1..Xn
X1..Xn
∑f
Gambar 3. 6 Arsitektur ANFIS penelitian.
III.5 Cara Analisis
Analisis dilakukan dengan membandingkan peforma dari kedua metode
ekstraksi ciri pada sistem klasifikasi yang telah dirancang. Untuk mengklasifikasi
dengan mengunakan satu-persatu dari kata yang diucapkan, aspek yang dinilai adalah
banyaknya iterasi yang dibutuhkan untuk mencapai konvergen, dan kemampuan
sistem dalam melakukan klasifikasi dengan bantuan confusion matrix. Confusion
matrix adalah tabel atau matrix yang biasa digunakan untuk mengetahui kemampuan
dari supervised learning. Sebelum melakukan perbandingan antara MFCC dan PLP-
RASTA untuk masing-masing metode ekstraksi ciri akan dilakukan variasi terhadap
banyaknya koefisien, dan banyaknya frame. Variasi banyaknya koefisen dan
banyaknya frame yang memberikan peforma yang paling baik yang akan digunakan.
Setelah membandingkan peforma klasifikasi yang telah sistem dengan kedua metode
diatas, selanjutnya akan mencoba menggunakan lebih dari satu kata yang dijadikan
dasar untuk klasifikasi kemudian tingkat peforma dari sistem tersebut.
BAB IV HASIL DAN PEMBAHASAN
IV.1 Parameter pengujain
Parameter pengujian pada penelitian ini adalah jumlah iterasi pelatihan, dan
kemampuan sistem klasifikasi. untuk setiap metode ekstraksi ciri akan dilakukan
variasi jumlah koefisien dan jumlah window kemudian dicari nilai yang paling
optimal. Setelah itu akan membandingkan metode ekstrkasi ciri MFCC atau PLP-
RASTA yang menghasilkan sisitem klasifikasi yang lebih baik.
IV.2 Hasil Klasifikasi dengan metode ekstraksi ciri MFCC
Pada bagian ini akan ditampilkan hasil dari sistem klasifikasi dengan
menggunankan metode ekstraksi ciri MFCC dengan variasi jumlah koefisien (13 dan
24) dan juga jumlah window (24,50 dan 75), yang dimaksudkan untuk melihat
pengaruh dari jumlah window dan jumlah koefisien terhadap kemampuan klasifikasi
sistem. selain itu juga untuk menentukan jumlah koefisien dan jumlah window yang
memberikan hasil yang paling optimal untuk sistem klasifikasi kemampuan berbicara
anak tuna rungu.Seperti yang telah dijelaskan sebelumnya bahwa aspek penilaian
adalah jumlah iterasi dan confusion matrik. Maka pada bagian ini akan ditampilkan
grafik eror dari proses pelatihan dan menentukan akurasi dengan mengunakan prinsip
confusion matrix.
Langkah pertama pada percobaan ini adalah mencoba menjalankan sistem
klasifikasi dengan tiga belas koefisien MFCC dan menvariasikan jumlah window
dalam pemrosesan MFCC, lalu dilakukan hal yang sama untuk 24 koefisien MFCC.
banyaknya window akan berpengaruh terhadap lebar frame lebar frame akan
mempengaruhi nilai koefisen MFCC dari masing-masing frame kemudian
mempengaruhi nilai MFCC rata-rata yang digunakan, dengan memvariasikan jumlah
window bertujuan untuk melihat apakah semangkin banyak jumlah window dan
semangkin kecil lebar frame akan memberikan hasil klasifikasi yang lebih baik atau
sebaliknya. Untuk banyaknya koefisen yang digunakan pada anfis tidak sama seperti
yang dihasilkan pada ekstraksi ciri terdapat pengurangan dua koefisien awal yang
cenderung sama untuk setiap data sehingga diasumsikan tidak memberikan dampak
yang signifikan. Dibawah ini ditampilkan tabel-tabel perubahan eror terhadap iterasi
untuk masing-masing kata.
a) 13 MFCC koefisien 25 window b) 13 MFCC koefisien 50 window
c) 13 MFCC koefisien 75 window d) 24 MFCC koefisien 25 window
e) 24 MFCC koefisien 50 window f) 24 MFCC koefisien 75 windowGambar 4.1 Perubahan eror terhadap iterasi kata ayam
a)13 MFCC koefisien 25 window b) 13 MFCC koefisien 50 window
c) 13 MFCC koefisien 75 window d) 24 MFCC koefisien 25 window
e) 24 MFCC koefisien 50 window f) 24 MFCC koefisien 75 windowGambar 4.2 Perubahan eror terhadap iterasi kata mobil
a)13 MFCC koefisien 25 window b) 13 MFCC koefisien 50 window
c) 13 MFCC koefisien 75 window d) 24 MFCC koefisien 25 window
e) 24 MFCC koefisien 50 window f) 24 MFCC koefisien 75 windowGambar 4.3 Perubahan eror terhadap iterasi kata bulan
a)13 MFCC koefisien 25 window b)13 MFCC koefisien 50 window
c)13 MFCC koefisien 75 window d)24 MFCC koefisien 25 window
e)24 MFCC koefisien 50 window f)24 MFCC koefisien 75 windowGambar 4.4 Perubahan eror terhadap iterasi kata buku
a)13 MFCC koefisien 25 window b)13 MFCC koefisien 50 window
c)13 MFCC koefisien 75 window d)24 MFCC koefisien 25 window
e)24 MFCC koefisien 50 window f)24 MFCC koefisien 75 windowGambar 4.5 Perubahan eror terhadap iterasi kata sapi
a)13 MFCC koefisien 25 window b)13 MFCC koefisien 50 window
c)13 MFCC koefisien 75 window d)24 MFCC koefisien 25 window
e)24 MFCC koefisien 50 window f)24 MFCC koefisien 75 windowGambar 4. 6 Perubahan eror terhadap iterasi kata daun
a)13 MFCC koefisien 25 window b)13 MFCC koefisien 50 window
c)13 MFCC koefisien 75 window d)24 MFCC koefisien 25 window
e)24 MFCC koefisien 50 window f)24 MFCC koefisien 75 windowGambar 4.7 Perubahan eror terhadap iterasi kata sepatu
a)13 MFCC koefisien 25 window b)13 MFCC koefisien 50 window
c)13 MFCC koefisien 75 window d)24 MFCC koefisien 25 window
e)24 MFCC koefisien 50 window f)24 MFCC koefisien 75 windowGambar 4.8 Perubahan eror terhadap iterasi kata kacamata
a)13 MFCC koefisien 25 window b)13 MFCC koefisien 50 window
c)13 MFCC koefisien 75 window d)24 MFCC koefisien 25 window
e)24 MFCC koefisien 50 window f)24 MFCC koefisien 75 windowGambar 4.9 Perubahan eror terhadap iterasi kata bambu
a)13 MFCC koefisien 25 window b)13 MFCC koefisien 50 window
c)13 MFCC koefisien 75 window d)24 MFCC koefisien 25 window
e)24 MFCC koefisien 50 window f)24 MFCC koefisien 75 windowGambar 4. 10 Perubahan eror terhadap iterasi kata sapu
Kita dapat melihat kemampuan belajar dari sistem dengan mengamati jumlah
iterasi eror maksimal dan kurva penuruan eror Berdasarkan tabel-tabel diatas dapat
terlihat untuk setiap kata memiliki hasil yang berbeda baik untuk iterasi, dan eror
yang terkecil namun secara umum MFCC dengan dua puluh empat koefisien
memberikan hasil yang lebih baik dibandingkan dengan MFCC dengan tiga belas
koefisien, dan memiliki bentuk kurva yang cenderung lebih stabil untuk setiap kata.
Salah satu faktor yang mempengaruhi bentuk kurva eror terhadap iterasi adalah
penetapan bobot awal, semangkin mendekati bobot awal dengan nilai bobot awal
dengan nilai kahirnya akan semangkin cepat mencapai konvergen, Agar faktor ini
dapat diabaikan maka bobot awal ditetapkan secara random.
Setelah melihat kemampuan dari proses pembelajaran dari masing-masing
variasi dengan melihat jumlah iterasi eror maksimal dan kurva eror terhadap iterasi.
Selanjutnya adalah menghitung tingkat akurasi dari sistem. Untuk menghitung
akurasi akan mengunakan data yang independen yang tidak diikutkan pada data untuk
pembelajaran. Data test masing-masing terdiri dari dua data untuk setiap kelas
sehingga terdapat sepuluh data secara keseluruhan. Untuk menghitung akurasi
mengunakan prisip-prinsip confusion matrix. Dibawah adalah tabel hasil klasifikasi
dari sistem untuk masing-masing variasi koefisien mfcc dan variasi jumlah window.
Tabel 4.1 Tabel hasil klasifikasi mengunakan data test untuk jumlah koefisien 13 dan jumlah window 25
Tabel 4.2 Tabel hasil klasifikasi mengunakan data test untuk jumlah koefisien 13 dan jumlah window 50
Tabel 4.3 Tabel hasil klasifikasi mengunakan data test untuk jumlah koefisien 13 dan jumlah window 75
Tabel 4.4 Tabel hasil klasifikasi mengunakan data test untuk jumlah koefisien 24 dan jumlah window 25
Tabel 4. 5 tabel hasil klasifikasi mengunakan data test untuk jumlah koefisien 24 dan jumlah window 50
Tabel 4.6 tabel hasil klasifikasi mengunakan data test untuk jumlah koefisien 24 dan jumlah window 75
Dari tabel-tabel diatas terlihat bahwa sistem klasifikasi dengan ektraksi ciri
MFCC dua puluh empat koefisien memberikan akurasi yang lebih baik dibandingkan
dengan MFCC tiga belas koefisien, dan banyaknya window 50 memberikan akurasi
yan lebih baik dibandingkan yang lain dan in berlaku untuk kedua jumlah koefisien
MFCC. secara keseluruhan akurasi yang dihasilkan kurang baik hal ini dikarenakan
banyak parameter-parameter terhadap pembicaraan anak tuna rungu seperti durasi
pengucapan kata-kata yang berbeda, frekuensi berbicara anak tuna rungu yang
berbeda-beda, ketidak konsistenan dalam pengucapan kata-kata terutama pada anak
berkemampuan rendah.
IV.3 Hasil Klasifikasi dengan metode ekstraksi ciri PLP-RASTA
Pada bagian sebelumnya telah ditampilkan hasil klasifikasi dari sistem
klasifikasi dengan metode ekstraksi ciri MFCC. Pada bagian ini akan menampilkan
hasil klasifikasi dengan metode ekstraksi ciri PLP-RASTA dengan aspek penilaian
yang sama seperti pada bagian sebelumnya. Variasi banyaknya koefisien untuk
klasifikasi dengan metode ekstrakasi ciri PLP-RASTA dalah 8 dan 16 koefisien.
sedangkan variasi banyaknya window sama dengan bagian sebelumnya yaitu 25,50
dan 75 window. Variasi banyaknya koefisien dan window untuk melihat pengaruh
dari variasi keduanya dan juga untuk mencari variasi yang memberikan hasil yang
paling optimal. Langkah-langkah analisis untuk sistem klasifikasi dengan metode
ekstraksi ciri PLP-RASTA sama dengan langkah-langkah analisis sistem klasifikasi
dengan metode ekstraksi ciri dengan MFCC yaitu mejalankan sistem klasifikasi
dengan koefisien PLP-RASTA yang lebih sedikit (8 koefisien) lalu memvariasikan
banyaknya window dalam pemrosesan PLP-RASTA dan hal yang sama dilakukan
untuk sistem klasifikasi dengan koefisien PLP-RASTA yang lebih banyak (16
koefisien). Untuk melihat pengaruh dari lebar window terhadap hasil klasifikasi.
Dibawah ini ditampilkan tabel-tabel perubahan eror terhadap iterasi untuk masing-
masing kata.
a) 8 PLP-RASTA koefisien 25 window b) 8 PLP-RASTA koefisien 50 window
c)8 PLP-RASTA koefisien 75 window d)16 PLP-RASTA koefisien 25 window
e)16 PLP-RASTA koefisien 50 window f)16 PLP-RASTA koefisien 75 windowGambar 4.11 Perubahan eror terhadap iterasi kata ayam
a) 8 PLP-RASTA koefisien 25 window b) 8 PLP-RASTA koefisien 50 window
c)8 PLP-RASTA koefisien 75 window d)16 PLP-RASTA koefisien 25 window
e)16 PLP-RASTA koefisien 50 window f)16 PLP-RASTA koefisien 75 windowGambar 4.12 Perubahan eror terhadap iterasi kata mobil
a) 8 PLP-RASTA koefisien 25 window b) 8 PLP-RASTA koefisien 50 window
c)8 PLP-RASTA koefisien 75 window d)16 PLP-RASTA koefisien 25 window
e)16 PLP-RASTA koefisien 50 window f)16 PLP-RASTA koefisien 75 windowGambar 4.13 Perubahan eror terhadap iterasi kata Bulan
a) 8 PLP-RASTA koefisien 25 window b) 8 PLP-RASTA koefisien 50 window
c)8 PLP-RASTA koefisien 75 window d)16 PLP-RASTA koefisien 25 window
e)16 PLP-RASTA koefisien 50 window f)16 PLP-RASTA koefisien 75 windowGambar 4.14 Perubahan eror terhadap iterasi kata buku
8 PLP-RASTA koefisien 25 windows 8 PLP-RASTA koefisien 50 windows
a) 8 PLP-RASTA koefisien 25 window b) 8 PLP-RASTA koefisien 50 window
c)8 PLP-RASTA koefisien 75 window d)16 PLP-RASTA koefisien 25 window
e)16 PLP-RASTA koefisien 50 window f)16 PLP-RASTA koefisien 75 windowGambar 4.15 Perubahan eror terhadap iterasi kata sapi
a) 8 PLP-RASTA koefisien 25 window b) 8 PLP-RASTA koefisien 50 window
c)8 PLP-RASTA koefisien 75 window d)16 PLP-RASTA koefisien 25 window
e)16 PLP-RASTA koefisien 50 window f)16 PLP-RASTA koefisien 75 windowGambar 4.16 Perubahan eror terhadap iterasi kata daun
a) 8 PLP-RASTA koefisien 25 window b) 8 PLP-RASTA koefisien 50 window
c)8 PLP-RASTA koefisien 75 window d)16 PLP-RASTA koefisien 25 window
e)16 PLP-RASTA koefisien 50 window f)16 PLP-RASTA koefisien 75 windowGambar 4.17 Perubahan eror terhadap iterasi kata sepatu
a) 8 PLP-RASTA koefisien 25 window b) 8 PLP-RASTA koefisien 50 window
c)8 PLP-RASTA koefisien 75 window d)16 PLP-RASTA koefisien 25 window
e)16 PLP-RASTA koefisien 50 window f)16 PLP-RASTA koefisien 75 windowGambar 4.18 Perubahan eror terhadap iterasi kata kacamata
a) 8 PLP-RASTA koefisien 25 window b) 8 PLP-RASTA koefisien 50 window
c)8 PLP-RASTA koefisien 75 window d)16 PLP-RASTA koefisien 25 window
e)16 PLP-RASTA koefisien 50 window f)16 PLP-RASTA koefisien 75 windowGambar 4.19 Perubahan eror terhadap iterasi kata bambu
a) 8 PLP-RASTA koefisien 25 window b) 8 PLP-RASTA koefisien 50 window
c)8 PLP-RASTA koefisien 75 window d)16 PLP-RASTA koefisien 25 window
e)16 PLP-RASTA koefisien 50 window f)16 PLP-RASTA koefisien 75 windowGambar 4.20 Perubahan eror terhadap iterasi kata sapu
Dengan cara pengamatan grafik yang sama seperti pada sistem klasifikasi
dengan MFCC yaitu dengan mengamati jumlah iterasi, eror maksimal, dan bentuk
kurva penurunan error pada grafik-grafik perubahan eror terhadap iterasi untuk sistem
klasifikasi dengan metode ekstraksi ciri PLP-RASTA diatas. Setiap kata memiliki
hasil yang bebeda tetapi secara umum sistem klasifikasi dengan enam belas koefisien
PLP-RASTA memberikan hasil yang lebih baik dibandingkan dengan sistem
klasifikasi dengan delapan koefisien PLP-RASTA baik dari nilai error maksimal yang
dihasilkan, banyaknya iterasi dan bentuk kurva yang relatif lebih stabil. Sedangkan
untuk banyaknya window, sistem dengan window terbesar yaitu tujuh puluh lima
window untuk sebagian besar kata memberikan hasil yang paling baik.
Untuk menghitung akurasi dari sistem klasifikasi dengan metode ekstraksi ciri
PLP-RASTA juga mengunakan cara analisis yang sama seperti pada sistem
klasifikasi dengan metode ekstraksi ciri MFCC yaitu dengan mencobakan sistem
yang telah dilatih dengan data independen yang telah diketahui kelasnya kemudian
dilakukan perhitungan akurasi dengan mengunakan prinsip confusion matrix.
Dibawah adalah tabel hasil klasifikasi dari sistem untuk masing-masing variasi
koefisien PLP-RASTA dan variasi jumlah window.Tabel 4.7 Hasil klasifikasi mengunakan data test untuk jumlah koefisien 8 dan jumlah window
25
Tabel 4.8 Hasil klasifikasi mengunakan data test untuk jumlah koefisien 8 dan jumlah window 50
Tabel 4. 9 Hasil klasifikasi mengunakan data test untuk jumlah koefisien 8 dan jumlah window 75
Tabel 4. 10 Hasil klasifikasi mengunakan data test untuk jumlah koefisien 16 dan jumlah window 25
Tabel 4.11 Hasil klasifikasi mengunakan data test untuk jumlah koefisien 16 dan jumlah window 50
Tabel 4. 12 Hasil klasifikasi mengunakan data test untuk jumlah koefisien 8 dan jumlah window 75
Dari tabel-tabel diatas terlihat akurasi tertinggi terdapat pada sistem klasifikasi
dengan variasi koefisen PLP-Rasta delapan dan banyaknya window dua puluh lima
dan lima puluh window keduanya untuk kata mobil. Sedangkan untuk variasi
banyaknya koefesien dan banyaknya window yang lain memberikan besaran akurasi
yang hampir sama namun untuk kata-kata yang berbeda. Kata-kata yang memberikan
besaran akurasi yang cukup baik relatif di bandingkan kata-kata yang lainnya adalah
kata mobil,bulan,buku, dan daun.
IV.4 Perbandingan hasil klasifikasi dengan ekstraksi ciri MFCC dan PLP-
RASTA
Pada bagian ini akan membandingkan hasil klasifikasi dari kedua metode
ekstraksi ciri yang digunakan baik kemampuan belajar dan akurasi dari sistem
klasifikasi. yang akan dibandingkan pada bagian ini adalah variasi banyaknya
koefisien dan window yang memberikan hasil terbaik dari setiap metode ekstraksi
ciri. Untuk metode ekstraksi ciri MFCC akan digunakan variasi 24 koefisien MFCC
dan 50 window, sedangkan untuk metode ekstraksi ciri PLP-RASTA mengunakan
variasi 8 koefisien PLP-RASTA dan 50 window.
Dari segi kemampuan belajar MFCC menunjukan hasil yang lebih baik
dibandingkan dengan PLP-RASTA hal ini dapat dilihat berdasarkan gambar 4.1
hingga 4.10 dan 4.11 hingga 4.20 eror maksimal dan banyaknya dalam proses
pembelajaran MFCC lebih kecil dibandingkan degan PLP-RASTA. Hal ini terjadi
karna nilai-nilai koefisien MFCC memberikan perbedaan yang lebih jelas untuk
setiap kelasnya dibandingkan dengan koefisien PLP-RASTA sehingga memiliki eror
maksimal yang lebih kecil dan banyaknya iterasi yang lebi sedikit dibandingkan
dengan PLP-RASTA meskipun PLP-RASTA memiliki banyak koefisien yang lebih
sedikit. Demikian pula untuk akurasi sistem dengan ekstraksi ciri MFCC juga
memberikan hasil yang lebih baik dibandingkan dengan PLP-RASTA hal ini
dikarnakan MFCC memiliki kemampuan untuk mengurangi kelebihan informasi
sehingga koefisien-koefisien MFCC yang dihasilkan benar-benar memberikan
pengaruh yang lebih signifikan dan lebih banyak mengabaikan informasi-informasi
yang tidak diperlukan dibandingkan dengan PLP-RASTA.
IV.5 Hasil sistem klasifikasi MFCC dan PLP-RASTA dengan keluaran berupa rerata delta.
Setelah pada bagian sebelumnya membahas tentang kemampuan klasifikasi
yang dihasilkan oleh sistem baik untuk sistem dengan metode klasifikasi MFCC
metode PLP-RASTA dengan koefisien keluaran berupa rerata koefisien dari setiap
frame dan perbandingan diantara keduanya pada bagian ini akan melihat kemampuan
sistem klasifikasi jika koefisien keluaran berupa rerata dari perbedaan nilai antara
satu frame dan frame sebelumnya(delta). Dan pada bagian ini variasi koefisien dan
window yang dilihat adalah variasi koefisien dan window yang memberikan hasil
yang terbaik dari setiap metode ekstraksi berdasarkan yang telah dijelaskan pada
bagian sebelumnya yaitu MFCC dengan 24 koefisien dan 50 window dan PLP
dengan 8 koefisen dan 50 window
a) kata ayam b) kata mobil
c) kata bulan d) kata buku
e) kata sapi f) kata daun
g) kata sepatu h) kata kacamata
i) kata bambu j) kata sapuGambar 4.21 perubahan eror terhadap iterasi rerata delta MFCC 24 koefisen dan 50 window
Tabel 4.13 hasil klasifikasi menggunakan data test untuk rerata delta MFCC 24 koefisien dan 50 window
a) kata ayam b) kata mobil
c) kata bulan d) kata buku
e) Kata sapi f) kata daun
g) kata sepatu h) Kata kacamata
i) kata bambu j) kata sapuGambar 4.22 perubahan eror terhadap iterasi rerata delta PLP-RASTA 8 koefisen dan 50
window
Tabel 4.14 Hasil klasifikasi menggunakan data test untuk rerata delta PLP-RASTA 8 koefisien dan 50 window
Berdasarkan gambar dan tabel diatas terlihat bahwa untuk MFCC dengan
keluaran rerata delta memberikan hasil belajar yang tidak lebih baik hal ini dapat
dilihat dari banyaknya iterasi yang dan eror terbesar yang tidak menunjukan
perbedaan yang signifikan sedangkan untuk akurasi yang dihasilkan MFCC dengan
keluaran rerata memberikan hasil yang jauh lebih baik. Dan untuk PLP-RASTA
dengan keluaran rertata delta memberikan akurasi yang lebih baik dibandingkan
dengan PLP-RASTA dengan keluaran rerata. Namun dengan hasil belajar yang relatif
tidak berbeda.
[1] Kadarsih, “LATIHAN BINA PERSEPSI BUNYI DAN IRAMA MENINGKATKAN KEMAMPUAN BERBICARA ANAK TUNA RUNGU WICARA KELAS III SLB NEGERI SRAGEN,” solo, 2009.
[2] sarjono, Orthopaedagogiek Tuna Rungu I (Seri Pendidikan bagi Anak Tuna Rungu). UNS Press, 1997.
[3] G. arsad Maidar and M. U.S, Pembinaan Kemampuan Berbicara Bahasa Indonesia. jakarta: erlangga, 1987.
[4] Y. Zeng and Y. Zhang, “Robust Children and Adults Speech Classification,” Fourth Int. Conf. Fuzzy Syst. Knowl. Discov. (FSKD 2007), no. Fskd, pp. 721–725, 2007.
[5] H. Sato, Y. Mitsukura, M. Fukumi, and N. Akamatsu, “Emotional Speech Classification with Prosodic Prameters by Using Neural Networks,” no. November, pp. 18–21, 2001.
[6] M. Murugappan, N. Qasturi, I. Baharuddin, and S. Jerritta, “DWT and MFCC Based Human Emotional Speech Classification Using LDA,” no. February, pp. 27–28, 2012.
[7] A. Bendihen and K. Sfeiglifz, “Neural networks for voiced/unvoiced speech classification?,” pp. 521–524, 1990.
[8] R. Cai, “A Modified Multi-Feature Voiced/Unvoiced Speech Classification Method,” 2010 Asia-Pacific Conf. Power Electron. Des., pp. 68–71, May 2010.
[9] Z. H. U. Le-qing, “Insect sound recognition based on MFCC and PNN,” pp. 1–5, 2011.
[10] D. Mahmoodi and A. Soleimani, “Age Estimation Based on Speech Features and Support Vector Machine,” pp. 60–64, 2011.
[11] R. Gemello, D. Albesano, and F. Mana, “CSELT hybrid HMM/neural networks technology for continuous speech recognition,” … Networks, 2000. IJCNN 2000 …, pp. 103–108, 2000.
[12] B. D. Womack, J. H. L. Hansen, and S. Member, “N-Channel Hidden Markov Models for Combined Stressed Speech Classification and Recognition,” vol. 7, no. 6, pp. 668–677, 1999.
[13] V. B. Saambhavi, S. S. S. P. Rao, and P. Rajalakshmi, “Design of feature extraction circuit for speech recognition applications,” TENCON 2012 IEEE Reg. 10 Conf., pp. 1–5, Nov. 2012.
[14] J. Kacur and R. Vargic, “Speaker identification by K-nearest neighbors,” Syst. Signals Image Process. (IWSSIP), 2011 18th Int. Conf., 2011.
[15] J. Ajmera, I. McCowan, and H. Bourlard, “Speech/music segmentation using entropy and dynamism features in a HMM classification framework,” Speech Commun., vol. 40, no. 3, pp. 351–363, May 2003.
[16] C. Jeyalakshmi, V. Krishnamurthi., and a. Revathy, “Transcribing deaf and hard of hearing speech using Hidden markov model,” 2011 Int. Conf. Signal Process. Commun. Comput. Netw. Technol., no. Icsccn, pp. 326–331, Jul. 2011.
[17] A. Taleb, “Speech Recognition by Fuzzy-Neuro ANFIS Network and Genetic Algorithms,” pp. 41–44, 2012.
[18] F. a M. Elwakdy, S. B. E. Elsehely, and T. C. M. Eltokhy, “Speech recognition using a wavelet transform to establish fuzzy inference system through subtractive clustering and neural network ( ANFIS ),” Signal Processing, vol. 2, pp. 264–273, 2008.
[19] N. Dave, “Feature Extraction Methods LPC , PLP and MFCC In Speech Recognition,” Int. J. Adv. Res. Eng. Technol., vol. 1, no. Vi, pp. 1–5, 2013.
[20] P. Marsal and S. Pol, “Comparison and combination of RASTA-PLP and FF features in a hybrid HMM/MLP speech recognition system.,” …, vol. 1, pp. 2–5, 2002.
[21] X. Li, M. Yao, and W. Huang, “and Neural Network Ensembles,” pp. 614–617, 2011.
[22] A. Caruntu, A. Nica, and G. Toderean, “Robust Features for Speech Classification.”
[23] B. Plannerer, “An introduction to speech recognition,” March28, 2005.
[24] T. EnShuo, K. Seung-Hwan, and kuo C. –. Jay, “Environmental Sound Recognition woth CELP-basef Features.”
[25] H. Hermansky, N. Morgan, a. Bayya, and P. Kohn, “RASTA-PLP speech analysis.” 1991.
[26] K. Yamamoto, F. Jabloun, K. Reinhard, A. Kawamura, R. Corporate, and T. Corp, “ROBUST ENDPOINT DETECTION FOR SPEECH RECOGNITION BASED ON DISCRIMINATIVE FEATURE EXTRACTION,” pp. 805–808, 2006.
[27] C. Eamdeelerd, “Audio Noise Classification using Bark scale features and K-NN Technique,” no. Iscit, pp. 131–134, 2008.
[28] T. Pao, W. Liao, and Y. Chen, “Audio-Visual Speech Recognition with Weighted KNN-based Classification in Mandarin Database.”
[29] C. Shao and M. Bouchard, “Efficient classification of noisy speech using neural networks,” Seventh Int. Symp. Signal Process. Its Appl. 2003. Proceedings., pp. 357–360 vol.1, 2003.
[30] M. Arts, “Hybrid Learning For Adaptive Neuro Fuzzy Inference System,” vol. 2, no. 11, pp. 6–13, 2013.
[31] V. Seydi Ghomsheh, M. Aliyari Shoorehdeli, and M. Teshnehlab, “Training ANFIS structure with modified PSO algorithm,” 2007 Mediterr. Conf. Control Autom. MED, 2007.
[32] G. Saha, S. Chakroborty, and S. Senapati, “A New Silence Removal and Endpoint Detection Algorithm for Speech and Speaker Recognition Applications,” Proc. NCC, pp. 3–7, 2005.
[33] L. C.H, “Automatic recognition of animal vocalizations using averaged MFCC and linear discriminant analysis,” pattern Recognit. Lett., vol. 27, pp. 93–101, 2006.
[34] F. Ernawan, N. A. Abu, and N. Suryana, “Spectrum analysis of speech recognition via discrete Tchebichef transform,” vol. 8285, no. Icgip, p. 82856L, Oct. 2011.
[35] L. Deng and D. O’Shaughnessy, Speech processing: a dynamic and optimization-oriented approach. 2003.
[36] D. L. Macfarlane and W. Huang, “Fast Fourier Transform and MATLAB Implementation,” pp. 1–26.
[37] H. Combrinck and E. Botha, “On the mel-scaled cepstrum,” department of …. 1996.
[38] U. F. Bank and V. Iy, “uniform filter bank ,” pp. 1–11, 2000.
[39] Z. Qiu, “ICA-based Rasta-PLP feature for speaker identification,” 2nd Int. Conf. Inf. Sci. Eng. ICISE2010 - Proc., pp. 3753–3756, 2010.
[40] W. P. W. Peng, W. S. W. Ser, and M. Z. M. Zhang, “Bark scale equalizer design using warped filter,” 2001 IEEE Int. Conf. Acoust. Speech, Signal Process. Proc. (Cat. No.01CH37221), vol. 5, pp. 1–4, 2001.
[41] B. Milner, “A COMPARISON OF FRONT ‐ END CONFIGURATION FOR ROBUST.”
[42] B. Fatkhurrozi, M. A. Muslim, and D. R. Santoso, “Aktivitas Gunung Merapi,” vol. 6, no. 2, pp. 113–118, 2012.
[43] M. Vyas, “A Gaussian Mixture Model Based Speech Recognition System Using MATLAB,” Signal Image Process. An Int. J., vol. 4, no. 4, pp. 109–118, 2013.
[44] D. Ververidis and C. Kotropoulos, “Automatic speech classification to five emotional states based on gender information,” Proc. Eusipco, vol. 2004, pp. 341–344, 2004.
[45] W. Chu and B. Champagne, “Further Studies of a FFT-Based Auditory Spectrum,” pp. 2729–2733, 2008.
[46] R. D. Peacocke and D. H. Graf, “An introduction to speech and speaker recognition,” Computer (Long. Beach. Calif)., vol. 23, no. 8, pp. 26–33, Aug. 1990.