Download - Thesis 1 Rewvisi1 (Autosaved)

PERANCANGAN SISTEM KLASIFIKASI UNTUK

MENGKLASIFIKASIKAN KEMAMPUAN BERBICARA ANAK

TUNA RUNGU

Tesis

untuk memenuhi sebagian persyaratanmencapai derajat Sarjana S-2

Program Studi S2 Teknik ElektroKonsentrasi Sistem Isyarat Elektronis

Jurusan Teknik Elektro dan Teknologi Informasi

JUDUL

diajukan olehHepiska Franatagola12/291342/PKT/34942

PROGRAM PASCASARJANAFAKULTAS TEKNIK

UNIVERSITAS GADJAH MADAYOGYAKARTA

2014DAFTAR ISI

JUDUL...........................................................................................................................iDAFTAR ISI.................................................................................................................iiDAFTAR TABEL........................................................................................................iiiDAFTAR GAMBAR...................................................................................................iiiBAB I PENDAHULUAN.............................................................................................1

1.1 Latar Belakang................................................................................................11.2 Rumusan Masalah...........................................................................................21.3 Keaslian Penelitian..........................................................................................31.4 Tujuan Penelitian............................................................................................41.5 Manfaat Penelitian..........................................................................................4

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI......................................62.1 Tinjauan pustaka..................................................................................................6

2.1.1 Ciri Pada Klasifikasi Tutur...........................................................................63.1.1 Metode klasifikasi....................................................................................8

3.2 Dasar Teori......................................................................................................92.1.2 Pra pengolahan............................................Error! Bookmark not defined.2.1.3 Ekstraksi ciri...............................................................................................102.1.4 Adactive neuro Fuzzy Inference System (ANFIS)....................................15

BAB III METODOLOGI PENELITIAN....................................................................183.1 Alat dan bahan...................................................................................................183.2 Jalannya penelitian............................................................................................183.3 Pengolahan data.................................................................................................193.4 Perancangan sistem klasifikasi..........................................................................20

3.4.1 Pra pengolahan...........................................................................................213.4.2 Ekstaksi ciri................................................................................................233.4.3 Metode klasifikasi.......................................................................................25

DAFTAR TABEL

Tabel 1.1 Perbandingan hasil penelitian terkait dengan penelitian yang akan dilakukan saat ini...........................................................................................................5

DAFTAR GAMBAR

Gambar 2. 1 Diagram alir silence removing................Error! Bookmark not defined.Gambar 2.2 langkah-langkah MFCC...........................................................................11Gambar 2.3 Langkah –langkah PLP-RASTA.............................................................14Gambar 2.4 Arsitektur ANFIS dua aturan[18]............................................................16

BAB IPENDAHULUAN

1.1 Latar Belakang

Anak tuna rungu adalah anak yang mengalami penurunan fungsi dan

kemampuan pendengaran baik sebagian maupun seluruhnya yang mengakibatkan

tidak mampu memakai alat pendengaran dalam kehidupan sehari-hari[1]. Penurunan

pendengaran pada anak penderita tuna rungu umumnya diiringi dengan penurunan

kemampuan berbicara hal ini dikarenakan berkurangnya kemampuan untuk menyerap

dan menerima kata-kata yang diucapkan orang-orang oleh lingkungan sekitarnya,

serta kurangnya feedback dari apa yang ia sendiri ucapkan. Pengklasifikasian jenis

ketuna runguan serta kemampuan mengerti bicara dan bahasa adalah sebagai

berikut[2].

a. 10 – 20 dB (normal), tidak ada hubungan dengan gangguan bahasa.

b. 20 – 35 dB (mild hearing impairment), tidak ada hubungan dengan

gangguan bahasa, Tapi mungkin perkembangan bahasa terlambat.

c. 35 – 55 dB (mild to moderate hearing impairment), ada beberapa

kesulitan artikulasi, perkembangan kata mungkin tak sempurna.

d. 55 -70 dB (moderate hearing impairment), artikulasi dan suara tidak baik

dan perbendaharaan kata mungkin tak sempurna.

e. 70 -90 dB (severe hearing loss), artikulasi dan kualitas suara tidak baik.

Kalimat dan aspek-aspek bahasa tidak sempurna.

f. 90 dB atau lebih (severe to profound hearing impairment), ritme bicara,

suara dan artikulasi tidak baik. Bicara, bahasa harus dikembangkan secara

intensif dan seksama.

g. 100 dB lebih (profound hearing impairment), sangat perlu bantuan tentang

keberadaan pendengarannya, tapi tidak perlu bantuan pengembangan

bicara melalui pendengaran.

Kemampuan berbicara adalah kemampuan mengucapkan kalimat-kalimat

untuk mengekspresikan, menyatakan, menyampaikan pikiran, gagasan, dan

perasaan[3]. Faktor-faktor kebahasaaan yang menunjang kemampuan berbicara

adalah ketepatan ucapan, Penempatan tekanan, nada, sendi, dan durasi yang sesuai,

pemilihan kata,dan ketepatan sasaran pembicara[1]. Terapi wicara dilakukan pada

anak tuna rungu dengan tujuan agar dapat meningkatkan kemampuan berbicara pada

anak tuna rungu. Dalam rentang waktu tertentu dilakukan evaluasi terhadap

perkembangan kemampuan berbicara anak. Evaluasi dilakukan oleh tenaga ahli dan

penilaian dilakukan berdasarkan pendapat ahli itu sendiri tanpa ada standarisasi baku.

Saat ini perkembangan teknologi pemrosesan sinyal suara (speech processing)

berkembang cukup baik. Salah satu bagian dari speech processing adalah

pengklasifikasian sinyal suara (speech classification ). Klassifikasi pembicara antara

anak dan orang dewasa[4], klasifikasi emosi berdasarkan sinyal suara[5][6],

pengklasifikasian bagian bersuara dan tidak[7][8] adalah beberapa contoh pengunaan

speech classification. Pada penelitian ini dicoba menerapkan konsep speech

classification pada pengkategorian kemampuan berbicara anak tuna rungu. Salah satu

bagian penting dalam sistem klasifikasi adalah ekstraksi ciri dengan mengunakan

ekstraksi ciri yang tepat dapat meningkatkan akurasi, dan efisiensi komputasi dalam

sistem klasifikasi yang digunakan. Saat ini metode ekstraksi ciri yang paling banyak

digunakan dalam speech processing adalah Mel Frequency Cepstrum Coefficient

(MFCC) dan Perceptual Linier Predictive Relative spectra PLP- RASTA [6][9][10]

[11] oleh karena itu pada penelitian ini akan mengunakan dan membandingkan dua

metode ektraksi ciri tersebut untuk menentukan mana yang lebih sesuai untuk

klasifikasi kemampuan berbicara anak tunarungu.

1.2 Rumusan Masalah

Dari uraian pada latar belakang rumusan masalah pada penelitin ini adalah:

1. Bagaimana merancang pengkategorian kemampuan berbicara anak tuna

rungu kedalam sebuah sistem klasifikasi?

2. Bagaimana perbedaan kemampuan sistem klasifikasi yang dibuat dengan

mengunakan dua metode ektraksi ciri yang berbeda (MFCC dan PLP-

RASTA)?

1.3 Keaslian Penelitian

Dari studi pustaka yang telah dilakukan belum ada penelitian yang melakukan

klasifikasi kemampuan bicara pada anak tunarungu, sebagian besar klasifikasi suara

dilakukan untuk mengklasifikasikan umur penutur, jenis kelamain penutur,

pengurangan noise, membedakan musik dan tutur, mengklasifikasi emosi dan

membedakan bagian yang bericara dan tidak dari suatu sinyal suara.

Beberapa penelitian sebelumnya tentang speech classification yang dapat

dijadikan acuan untuk sistem klasifikasi bicara anak tunarungu baik dari segi

ekstraksi ciri dan metode yang digunakan seperti, [12], Saambhavi.V(2012) yang

meneliti tentang implementasi sofware dan hardware ekstraksi ciri pada pengenalan

suara pada penelitian ini lebih menekankan pada ekstraksi ciri Mel scale Frequency

ceptral coeficient (MFCC) karena dianggap sebagai ciri yang paling sering

digunakan[13], juraj kacur(2011) meneliti tentang identifikasi penutur dengan

menggunakan k-nearest neighbors(KNN) mengunakan ciri MFCC dan juga

mengunakan PCA dan LDA untuk mengurangi dimensi yang dicari pada penelitian

ini adalah titik optimal antara akurasi dan ketahanan[14], jitendra ajmera(2003)

mengsegmentasikan tutur dan musik berasarkan ciri entropi dan kedinamisan dengan

mengunakan hiden markov model(HMM) pada penelitiannya jitendra memandingkan

kemampuan klasifikasi degan ciri entropi saja, kedinamisan saja dan dengan

gabungan keduanya[15], C. Jelaksmi (2011) yang mentranskirpkan bicara atau speech

agar bisa dimengerti oleh orang tunarungu dengan mengunakan metode HMM dan

ciri MFCC [16], won-ho shin(2000) membedakan antara bagian yang berisi tutur dan

yang tidak untuk menentukan titik akhir dari suatu pembicaraan, Amane Taleb 2012

memcoba melakukan speech recognition dengan mengunakan metode ANFIS dan

GA[17], A.M ELWAKDY mengunakan wavelet sebagai ekstraksi ciri dan ANFIS

sebagai metode klasifiksi dan mengunakan subtractive clustering diantara ekstraksi

ciri dan ANFIS[18], Dave, Namrata menjelaskan secara singkat tentang ekstraksi-

ekstraksi ciri yang paling banyak digunakan termasuk PLP-RASTA[19], Marsal, Pp

mencoba membandingkan metode ekstraksi ciri PLP-RASTA,filtering frekuensi dan

MFCC[20].

Pada penelitian ini akan membandingkan pengunaan ekstraksi ciri MFCC dan

RASTA PLP untuk mengklasifikasi kemampuan berbicara anak tunarungu untuk

mencari metode ekstraksi ciri yang lebih seusuai. Selain itu juga memilih kata-kata

yang tepat untuk mengklasifikasi metode klasifikasi pada penelitian ini akan

mengunakan metode anfis,Tabel 1.1 adalah mengenai penelitian-penelitian yang

terkait.

1.4 Tujuan PenelitianTujuan penelitian ini adalah sebagi berikut.

1. Melakukan klasifikasi kemampuan bicara anak tunarungu.

2. Memilih kata yang tepat untuk digunakan sebagai input klasifikasi.

3. Membandingkan metode ektraksi ciri MFCC dan PLP-RASTA pada sistem

klasifikasi untuk menentukan metode ektraksi ciri mana yang lebih sesuai.

1.5 Manfaat PenelitianHasil penelitian ini diharapkan bermanfaat dalam bidang keilmuan mengenai

klasifikasi dan pengenalan pola terutama untuk klasifikasi suara, dengan mencoba

menerapkan ekstraksi ciri MFCC dan PLP-RASTA serta metode klasifikasi anfis

untuk mengelompokan kemampuan berbicara anak tunarungu.

Tabel 1.1 Perbandingan hasil penelitian terkait dengan penelitian yang akan dilakukan saat ini

Tahun Nama Metode, Aplikasi Hasil

ciri2000 W.Shin CART Mendeteksi titik akhir Perbandingan kecepatan

deteksi titik akhir2003 J.Ajmera HMM Membedakan musik dan

tutur.Membandingkan hasil klasifikasi dari berbagai macam metode dan berbagai macam ciri.

2011 J.Kacur KNN, MFCC

Identifikasi penutur Menemukan keseimbangan antara akurasi dan ketahanan

2011 C. Jelaksmi

HMM/MFCC

Mentranskripkan tutur agar dapat dimengerti oleh tunarungu

Alat bantu dengar

2012 V. sambhavi

- Desain sirkuit ekstraksi ciri

Perangkat keras

1991 Hermansky, H.

PLP-RASTA

Menganalisis pengunaan PLP-RASTA pada speech processing

Perbandingan PLP-RASTA dengan metode spectral konfesional.

2008 F.Elwakdy

ANFIS Mencoba wavelet dan ANFIS untuk membedakan kata satu,tiga,dan enam dalam bahasa ingris

Menunjukan kelebihan ANFIS dalam speech processing.

2012 T.Amane MFCC, ANFIS

Mengunakan MFCC dan ANFIS dan GA pada data TIMIT

Recognition rate dari sistem yang dibuat

2013-2014

F.Hepiska

MFCC, PLP-RASTA, ANFIS

Klasifikasi tingkatan berbicara anak tunarungu

Rancangan software klasifikasi.

BAB IITINJAUAN PUSTAKA DAN LANDASAN TEORI

II.1 Tinjauan pustaka

Pada bagian ini akan dibahas hasil tinjauan pustaka dari penelitian-penelitan

sebelumnya yang berkaitan dengan klasifikasi tutur baik dari ciri yang digunakan

untuk klasifikasi maupun metode klasifikasi yang digunakan.

II.1.1 Ciri pada Klasifikasi Tutur

Dalam sistem pengklasifikasi ciri digunakan agar dapat membedakan antara

suatu objek klasifikasi dengan objek yang lain, setiap objek klasifikasi memiliki ciri

yang berbeda dengan objek yang lain. Perbedaan dan persamaan ciri dari suatu objek

adalah dasar dalam melakukan klasifikasi. ciri yang digunakan untuk mengklasifikasi

suatu objek yang sama dapat mengunakan ciri yang berbeda-beda tergantung pada

tujuan dari sistem klasifikasi yang diinginkan. Suatu objek klasifikasi tidak selalu

memberikan ciri yang sesuai untuk sistem klasifikasi yang diinginkan, oleh karena itu

perlu dilakukan ekstraksi ciri. Ekstraksi ciri dilakukan untuk mengubah bentuk

gelombang suara menjadi beberapa parameter yang mewakili [21],[10]. Ekstraksi ciri

adalah proses mengubah atau mengambil informasi linguistik dari sinyal suara yang

diucapkan untuk dimanfaatkan dalam klasifikasi[13].

Zero crossing rate (ZCR) adalah jumlah perubahan tanda amplitudo

gelombang suara dari sampel[22], atau jumlah amplitudo sinyal suara melewati titik

nol. Ciri ini biasa digunakan untuk mengklasifikasi bagian yang bersuara dan bagian

yang tidak pada proses bicara. Pada bagian yang bersuara jumlah amplitudo yang

melewati titik nol akan sedikit sebaliknya jika bagian yang tidak bersuara[22]. Selain

ZCR Root mean square energi (RMSE) juga bisa digunakan untuk membedakan

antara bagian bersura dan tidak pada proses bicara.RMSE adalah akar kuadrat dari

rata-rata jumlah kuadrat amplitudo, untuk bagian yang bersuara atau pengucapan

suara yang stabil maka nilai RMSE akan semangkin besar.

Mel-Frequency cepstral coefficient (MFCC) sinyal tutur terdiri dari nada

dengan berbagai frekuensi yang tidak linier ketidaklineran ini dapat dimodelkan

dengan dengan yang disebut mel frekuensi. Kelompok-kelompok frekuensi dianggap

linier pada skala mel yang kemudian disebut frekuensi mel[23]. Saat ini MFCC

adalah ciri yang paling banyak digunakan untuk mengidentifikasi penutur maupun

untuk mengklasifikasi tutur, kelebihan utama MFCC adalah mengestimasi frekuensi-

frekuensi tinggi sesuai dengan persepsi manusia[16]. Selain itu MFCC juga efektif

untuk menolak kelebihan informasi pada sinyal tutur dan menampilkannya dalam

bentuk sinyal cosinus[10]. MFCC sejauh ini memberikan hasil yang cukup baik untuk

mengklasifikasi suara-suara terstruktur seperti tutur dan music. Namun untuk suara-

suara lingkungan seperti suara serangga MFCC menunjukan hasil yang kurang

memuaskan[24].

Perceptual Linier Predictive Relative Spectral (PLP-RASTA) merupakan

pengembangan dari metode PLP yang merupakan teknik analisis suara dengan

berdasarkan spectrum jangka pendek dari sinyal suara. Kekurangan teknik ini adalah

sangat rentan ketika spectrum jangka pendeknya dimodifikasi dengan respon

frekuensi Sedangkan pada pendengaran manusia tidak demikian. PLP-RASTA

memberikan hasil yang lebih tahanterhadap distorsi linier dari spektral [25]. PLP

merupakan salah satu teknik ekstaksi ciri yang paling banyak digunakan saat ini [19].

Meskipun MFCC merupakan standar dalam ekstraksi ciri dalam speech processing

namun PLP memberikan hasil yang lebih baik dalam kodisi-kondisi tertentu. Dalam

pendekatan PLP tidak terlalu terpengaruhi oleh informasi auditoty spectral,

mengabaikan informasi-informasi yang tidak terlalu diperlukan dapat meningkatkan

kemampuan klasifikasi karena memperkecil ciri yang dapat menggangu[10].

3.1.1 Metode klasifikasiGaussian mixture model(GMM) banyak digunakan secara intensif pada

speech prosesing, baik speech recongnition, speaker recognition dan lain-lain. Secara

prinsip GMM dapat memperkirakan semua fungsi kepadatan probabilitas dengan

akurasi yang bisa disesuaikan[4]. Algoritma expectation maximization (AM) sering

digunakan untuk melatih densitas GM. penelitian yang dilakukan oleh yumin zeng

mengunakan k-means untuk menginisialisasi parameter GMM[4]. GMM juga dapat

digunakan untuk membedakan voiced speech dan unvoiced speech dengan

melatihkan GMM dengan melatihkan gmm dengan kedua data tersebut kemudian

dihitung rasio kemiripannya dengan persamaan dibawah

L(t )=g1( y (t) ; Λ)−g0( y (t); Λ) (2.1)

dengan g11 dan g0 adalah nilai log-kemiripan voiced dan unvoiced GMM,y(t) adalah

vektor ciri dalam domain waktu dan Λ adalah set of parameter dari voiced maupun

unvoiced[26].

K-nearnest neigbours (KNN) mengklasifikasikan sampel yang diuji

berdasarkan jarak dengan terhadap sampel pelatihan, KNN menganggap semagkin

dekat jarak antara sampel yang diuji terhadap referensi maka semangkin besar

kemungkinan keduanya berada dalam satu kelompok[14]. Dari beberapa pustaka

yang dipelajari KNN dapat diterapkan untuk klasifikasi noise suara[27], Audio-

Visual Speech Recognition[28], dan identifikasi penutur [14].

Neural networks(NNs) adalah artificial intelligent network atau jaringan

kecerdasan buatan yang unit proses pararel yang bekerja secara bersamaan[29]. Pada

penelitian yang dilakukan oleh C.Shaw dan M.bouhard menggunakan feed foward

multilayer perceptron dengan satu hiden layer dengan fungsi tangen hiperbolik

sebagai inputan untuk network hiden layer yang digunakan untuk klasifikasi penutur

pada kondisi bernoise[29], lalu penelitian yang dilakukan oleh H.Sato mengunakan

neural network pada klasifikasi emosi pada tutur, dengan 3 layer NNs dan penerapan

algoritma back propagation(BP)[5]. Neural network terdiri dari elemen proses yang

saling terhubung berkerja dalam satu kesatuan untuk meyelesaikan suatu masalah

ANN memiliki kemampuan yang sangat baik untuk untuk mengeluarkan pola dan

mendeteksi pola yang terlalu kompleks untuk disadari baik oleh manusia maupun

komputer dengan metode lain[30].

Metode Adaptive Neuro Fuzzy Inference System (ANFIS) memanfaatkan

kelebihan dari metode neural network dan fuzzy inference system seperti kemampuan

belajar dari neural network dan kemampuan pengambilan keputusan dari fuzzy[31].

Pada ANFIS neural network menyediakan kekuatan matematika dari otak sedangkan

fuzzy logic memberikan kemampuan verbal[30], neural network memiliki

kemampuan klasifikasi yang sangat baik namum kemampuan ini sangat bergantung

pada kualitas dan jumlah data training yang digunakan. Dengan menggabungkan

neural network dan fuzzy akan mengatasi masalah tersebut sehingga menghasilkan

network yang lebih efisient dan kemampuan klasifikasi yang lebih efektif[18] .

II.2 Dasar Teori

Pada bagian ini akan dibahas mengenai dasar teori dari perancangan sistem

klasifikasi untuk mengklasifikasikan kemampuan berbicara anak tunarungu mulai

dari tahapan pra-pengolahan, ekstraksi ciri dan metode yang digunakan. Masing-

masing bagian akan di jelaskan secara terpisah.

II.2.1 Penapisan

Penapisan adalah proses untuk melewatkan informasi-informasi yang

diperlukan dan menghapus informasi yang tidak dibutuhkan pada proses-proses

selanjutnya. Beberapa jenis tapis yang sering digunakan pada speech processing

adalah noice reduction, end point detection, pengurangan dengung dan lain-lain[32].

Penapisan biasanya digunakan pada tahap prapengolahan dalam speech processing

hal ini dilakukan agar proses pada tahap-tahap selanjutnya menjadi lebih efektif dan

efisien. pada penelitian ini mengunakan tapis silence removing yang merupakan

bagian dari end point detection.

Penggunaan silence removing sangat penting terutama untuk pengolahan

sinyal suara yang kondisi diam dan background noice sangat tidak diinginkan.

Pengolahan sinyal suara membutuhkan metode esktraksi ciri yang efisien dimana

hanya bagian yang terdapat suara berbicaralah yang mengandung informasi yang

diinginkan[32]. Penerapan penghapusan diam sangat cocok diterapkan untuk masalah

ini. Pada penelitian ini penghapusan diam akan didasarkan pada perbedaan intensitas

suara dimana intensitas suara noise background selalu lebih kecil. Suara background

dianggap terjadi pada awal data sehingga sebagian data di awal akan dicuplik dan di

hitung rerata dan simpangan bakunya dan akan dianggap standardeviasi dari

background, selanjutnya setiap intensitas titik data akan dihitung seberapa mendekati

dengan error sesuai persamaan(2.1). selanjutnya hasil perhitungan ini akan

dibandingkan dengan batas yang telah ditentukan jika nilainya kurang dari batas

maka akan dianggap bagian diam.

z=datax ( i )−mean(backgroud)

stdv (backgroud) (2.1)

II.2.2 Ekstraksi ciri

Berdasarkan kajian pustaka yang telah dilakukan sebelumnya ekstraksi ciri

yang akan digunakan pada penelitian ini adalah ekstraksi ciri dengan metode Mel-

Frequency cepstral coefficient (MFCC), dan PLP-Rasta hasil klasifikasi dari kedua

ciri ini akan dibandingkan untuk melihat ciri mana yang lebih sesuai untuk

mengklasifikasi kemampuan berbicara anak tuna rungu.

a. Mel-Frequency cepstral coefficient (MFCC)

MFCC merupakan metode ekstraksi ciri front-end yang paling banyak

digunakan. MFCC efektif untuk menolak kelebihan informasi yang tidak diperlukan

dari sinyal suara dan menampilkan sinyal suara dalam bentuk sinyal cosinus.

Prosedur pada MFCC pertama MFCC akan membagi sinyal suara menjadi beberapa

frame berukuran sama dengan windowing pada domain waktu. Lalu setiap frame

akan dikalkulasikan dan akan dianggap sebagai ciri dari frame tersebut, oleh karena

Pre-emphasis FFT

Mel-scale filterbank log DCT

Hamming windowspeech

MFCC vector

setiap frame memberikan satu vektor MFCC maka setiap sinyal dengan panjang yang

berbeda akan memberikan jumlah vector MFCC yang berbeda[10]. Untuk mengatasi

masalah ini rerata vector MFCC akan dihitung dan dijadikan sebagai ciri pada

pengolahan sinyal suara[33], maka sebanyak d-dimensi MFCC vector menentukan

vector imput dari sistem klasifikasi dengan d adalah jumlah koefisient MFCC,

Gambar 2.1 langkah-langkah MFCC

Pre emphasis adalah teknik dalam pengolahan sinyal suara yang digunakan

untuk memperkaya sinyal-sinyal pada frekuensi tinggi, pre emphasis akan menaikkan

energi sinyal input dengan besarnya kenaikan akan berbanding lurus dengan kenaikan

frekuensi. Penggunaan pre emphasis akan mengurangi rentang spectral dynamic

range. Sehingga dengan pengunaan pre emphasis spectrum sinyal suara menjadi lebih

rata. Pre emphasis diimplementasikan sebagai Finite Impulse Respone (FIR) orde

pertama yang di definisikan sebagai:

Sn=E (n )−aE (b−1) (2.2)

dengan α adalalah koefisien pre emphasis nilai yang biasa digunakan adalah antara

0.9 hingga 0.95. E(n)= adalah data sampel yang merepresentasikan sinyal suaara

dengan n adalah 0≤n≤N, dimana N adalah jumlah sampel. [34], [35].

Windowing adalah suatu fungsi yang digunakan pada setiap frame untuk

memperhalus sinyal dan membuatnya lebih dapat diterima pada analisis spectral.

Hamming window adalah sebuah fungsi window yang biasa digunakan untuk

mengurangi perubahan secara mendadak dan frekuensi yang tidak diinginkan pada

frame sinyal suara. Hamming window didefinisikan sebagai:

w ( k )=0,54−0,46 cos[ 2πkL−1 ] (2.3)

Dengan L adalah lebar dari Sn dan k adalah sebiah nilai integer dengan nilai 0≤k≤L-

1. Hasil dari dari segmen yang telah dilakukan windowing adalah :

x (k )=Sn w (k ) (2.4)

dengan Sn adalah hasil output dari pre emphasis.

Fourier transform adalah metode untuk merubah sinyal suara dari domain

waktu ke domain frekuensi. Jika dalam domain waktu sinyal suara ditampilkan

sebagaimana perubahan sinyal seiiring berjalananya waktu. Sedangkan pada domain

frekuensi ditambilkan dalam bentuk seberapa banyak sinyal yang berada pada rentang

frekuensi tertentu. Sinyal suara perlu diubah kedalam domain frekuensi karena pada

sinyal-sinyal periodik yang compleks akan diurai menjadi lebih sederhana sebagai

bagian dari analisis, dan juga persamaan-persamaan seperti defirensial integral dan

konvolusi pada domain waktu akan menjadi perhitungan aljabar pada domain

frekuensi[36].

Discrete fourier transform (DFT) digunakan untuk mentranformasi sinyal

dengan panjang terbatas. DFT digunakan untuk transformasi dinyal diskrit domain

waktu menjadi spectrum diskrit domain frekuensi.

Fast fourier transform (FFT) merupakan algoritma yang sangat efisien untk

menghitung DFT. Untuk sinyal dengan panjang N memerlukan N2 kali perkalian

sedangkan dengan FFT hanya memerlukan Nlog2(N) kali perkalian . Proses

penurunan DFT menjadi FFT ditampilkan pada [36].

Mel skale filter bank terdiri dari filter segitiga yang saling tumpang tindih

dengan frekuensi cutoff ditentukan oleh pusat frekuensi yang saling berdekatan.

Batas-batas kritis adalah bandpass filter yang disesuaikan di antara frekuensi

pusat[37]. Dibawah 1kHz batas-batas kritis di tempatkan linier sekitar 100,200,

…,100Hz. Dan diatas 1kHz batas kritis akan di tempatkan sesuai dengan skala mel

(mel-scale). [38]

b. Perceptual Linier Predictive Relative Spectral PLP-RASTA

PLP pertama kali diajukan oleh Hynek Hermansky sebagai cara untuk

menyederhanakan nilai spectra untuk meminimalkan perbedaan antar pembicara

dengan mempertahankan informasi penting yang terdapat pada sinyal suara. Analisis

PLP berdasarkan spectrum jangka pendek dari sinyal suara teknik ini sangat rentan

karena nilai spectral dipengaruhi oleh respon frekuensi dari kanal komunikasi. Ciri

PLP dihasilkan dari spektrum pendengaran dilakuakan pemfilteran dengan filter

berbentuk trapesium dengan skala bark, equal loudness pre-emphasis, dan kompresi

akar pangkat tiga. Teknik RASTA menerapkan band pass filter pada energy dari

setiap subband frekuensi. Yang bertujuan menghaluskan variasi noise jangka pendek

dan menghilangkan ketimpangan terus menerus yang dihasilkan korelasi spectral

statis pada kanal suara. Band passs filter diterapkan pada representasi dari log-

spectral sinyal suara. Penerapan rasta ini membuat PLP menjadi lebih tahan terhadap

distorsi linier dari spectral[39]. Proses keseluruhan dari PLP rasta ditunjukan oleh

Gambar 2.2[4].

Untuk ektraksi ciri setelah dilakukan tahapan pra pengolahan sinyal suara

akan dilakukan Discrete fourier transform (DFT). DFT didefinisikan sebagai sebuah

transformasi yang memetakan sampel sinyal discrete {x[0],..x[N-1]} kedalam suatu

urutan periodic X[k] sesuai persamaan(2.5)Atau secara sederhana DFT merubah

sinyal discrete pada domain waktu kedalam domain frekuensi.

X [ k ]=DFT N {x [ n ]}≜∑n=0

N −1

x [ n ] e− j 2 πkn

N , k∈Z (2.5)

Sinyal keluaran dari DFT akan dilakukan analisis critical band dimana pada

bagian ini frekuensi keluaran dari DFT akan diubah ke skala bark. critical band

sendiri secara sederhana dapat interpretasikan sebagai serangkaian band pass filter

yang terletak pada sistem pendengaran. Skala bark atau critical band rate satu skala

bark sama dengan satu bandwidth pada critical band[40], setelah itu dilakuan filtering

baik dengan mengunakan threshold ataupun dengan median filtering, pada bagian ini

lah yang yang membedakan antara PLP dan PLP-RASTA. Selanjutnya untuk

mengkompensasi ketidaksamaan dari pendengaran manusia dari berbagai frekuensi.

Analisis PLP melakuan pengskalaan dari amplituo critical band berdasarkan equal

loudness pre-emphasis sesuai dengan persamaan(2.6)[41]. Selanjutnya adalah

merubah tingkat intentisas dari loudness dengan mengakar pangkat tiga hasil adri

keluaran sebelumnya, dan dilanjutkan dengan melakukan inverst DFT sesuai dengan

persamaan(2.7), terakhir adalah dilakukan autoregretive dari koefisien.

E (w )=¿¿¿ (2.6)

x [n ]=IDFT N {x [ k ] }≜ 1N ∑

n=0

N−1

x [k ] ej 2 πkn

N , k∈Z (2.7)

Gambar 2.2 Langkah –langkah PLP-RASTA

II.2.3 Adaptive neuro Fuzzy Inference System (ANFIS)

ANFIS merupakan metode klasifikasi hybrid yaitu metode yang merupakan

gabungan dari metode neural network dan fuzzy sehingga ANFIS memiliki

kelebihan dari kedua metode ini. ANFIS memiliki kemampuan belajar dari neural

network dan kemampuan pengambilan keputusan dari fuzzy[31]. Gambar 2.3 adalah

salah satu tipe arsitektur anfis yang paling banyak digunakan. Jaringan ANFIS

memiliki dua bagian yang menyerupai fuzzy sistem yang petama adalah bagian

penalaran dan bagian kesimpulan/pengambilan keputusan dimana keduanya

dihubungkan oleh aturan dalam bentuk jaringan saraf[31]. ANFIS memiliki lima

layer seperti yang ditunjukan oleh Gambar 2.3.

layer1 adalah fuzfikasi pada layer ini data pada setiap data yang masuk akan

dihitung derajat keanggotaannya untuk masing-masing kelas derajat keangotaan.

Derajat keanggotaan yang biasa digunakan adalah derajat keangotaan fungsi bell dan

derajat keangotaan fungsi Gaussian . Output dari layer 1 di tunjukan oleh

persamaan(2.8) untuk derajat keanggotaan fungsi bell dan fungsi Gaussian ditunjukan

oleh persamaan(2.9) dan (2.10). layer 2 adalah layer aturan output dari setiap titik

layer2 bisa berupa produk perkalian dari input yang masuk ataupun nilai minimal dari

input yang masuk.seperti yang di tunjukan oleh persamaan(2.11) dan (2.12). Layer3

adalah layer normalisasi output layer ini adalah output layer2 pada titik i di bagi

dengan keseluruhan output2 ditunjukan oleh persamaan(2.13). Layer4 adalah layer

defuzifikasi output setip titik layer 4 ditunjukan oleh persamaan(2.14). Layer5 output

merupakan penjumlahhan dari semua output layer4.

Proses belajar ANFIS pada penelitian ini mengunakann proses belajar hybrid

yaitu proses belajar Least Square Error (LSE) dan Back Error Propagation (BEP).

LSE digunakan untuk proses belajar variable konsekuen yang berada pada layer4

proses pembelajaran dilakukan perambatan maju dan dilakukan setelah dilakukan

perhitungan untuk satu serial data (batch). Persamaan untuk menghitung LSE

ditunjukan oleh persamaan(2.15) dimana B adalah matrix output yang diharapkan, A

adalah matrix perkalian antara input dan output dari layer3 untuk setiap titik dan

setiap data dalam satu deret input. BEP digunakan sebagai pembelajaran untuk

variable penalaran atau variable-variable yang mempengaruhi fungsi keanggotaan.

Proses pembelajaran ini dilakukan secara lansung untuk setiap pasang input dan

output. Eror pada proses ini akan merambat dari layer5 hingga layer1 kecuali layer4

karena layer4 sudah dilakukan perhitungan LSE. Untuk perambatan eror dari output

layer 5 hingga layer1 ditunjukan oleh persamaan(2.16) hingga persamaan(2.20)[42].

Hubungan antara eror dan variable-variabel fungsi keangotan Gaussian ditunjukan

oleh persamaan(2.21) dan persamaan(2.22)[17].

Gambar 2.3 Arsitektur ANFIS dua aturan[18].

out 1i=μAi(x) (2.8)

μAi (x )= 11+¿¿ (2.9)

μAi (x )=e−12 [ x−ci

si ]2

(2.10)

out 2.i=wi=∏ ( μAi ( x ) , μbi ( y ) )=μAi ( x ) . μbi ( y ) (2.11)

out 2, i=wi=min ( μ Ai ( x ) , μbi ( y ) ) (2.12)

out 3 ,i=wi= wi

∑1

k

wi (2.13)

out 4 , i=wi(ki 1. x 1+ki 2 y 2+ki 3) (2.14)

K=psudoinvers ( A )∗B (2.15)

psudoinvers ( A )=( AT A )−1 AT(2.16)

eror 5= yd− ya (2.17)

eror 3(i)=wi∗eror 5 (2.18)

eror 2.(i)=¿eror3(i)*out2(i)= eror3(i)*w(i) (2.19)

eror 1 ( i , j )=¿eror2(i)*μ(n ,i) (2.20)

∂ e∂ c

= ( yd− ya )( x−cs2 )w 1 (1−wi ) (k 1i+k 2i+k 3i ) (2.21)

∂ e∂ s

=( yd− ya )( x−cs3 )w 1 (1−wi ) (k 1i+k 2i+k 3i ) (2.22)

BAB III METODOLOGI PENELITIAN

III.1 Alat dan bahan

- Alat

- komputer dengan (prosesor : amd phemom x6, RAM 2 GIGABYTE)

- Sistem operasi windows 7 32 byte

- Alat perekam dari hanphone - Aplikasi matlab 2013

- Bahan

- Rekaman suara anak tuna rungu dalam format .wav dari 25 anak

dimana setiap anak mengucapkan 30 kata sebanyak dua kali.

III.2 Jalannya penelitian.

Penelitian dilakukan berdasarkan hasil dari tinjauan pustaka dan dasar teori

yang telah dikemukakan lalu dilakukan perancangan dua jenis sistem klasifikasi

dengan metode ekstraksi ciri yang berbeda. Perancangan dan simulasi sistem pada

penelitian ini mengunakan program MATLAB untuk dapat menunjukan dan

membandingkan kinerja dari sistem yang telah dibuat. Penulisan tesis dilakukan

dengan tahapan yang ditunjukan oleh Gambar 3. 2

Studi pustaka Pemilihan kata untuk klasifikasi

Perancangan sistem klasifikasi

Metode ekstraksi PLP-RASTA

Metode ekstraksi MFCC

Pengujian sistem klasifikasi

Pengujian dengan output ekstrkasi ciri rerata koefisen tiap window

Pengujian MFCC dengan jumlah koefisen 12,24 dan jumlah window 25,50,75

Pengujian PLP-RASTA dengan jumlah koefisen 12, 24 dan jumlah window 25, 50, 75

Analisis

Gambar 3. 1 diagram blok jalannya penelitian

III.3 Pengolahan data

Pada penelitian ini data yang digunakan adalah rekaman suara dua puluh

empat anak tuna rungu yang mengucapkan tiga puluh kata yang sering digunakan

sebagai latihan bicara masing-masing anak diminta untuk mengucapkan kata yang

sama sebanyak dua kali. Rekaman ini kemudian dipedengarkan kepada dua puluh

orang responden yang kemudian responden diminta untuk mengulangi kata yang

disebutkan hal ini dilakukan untuk memberikan bobot pada kata yang diucapkan lalu

Pengujian dengan output ekstrkasi delta MFCC dan PLP-RASTA

Pengujian MFCC output delta _ koefisen dan jumlah window_

Pengujian PLP-RASTA output delta _ koefisen dan jumlah window_

ditampilkan seperti tabel.. Hasil dari tabel ini digunakan sebagai referensi banyaknya

kelas klasifikasi, output, dan kata yang akan digunakan. Pada penelitian ini tidak

semua kata yang ditampilkan pada tabel.. akan digunakan, tetapi akan dipilih

beberapa kata yang dianggap mampu memberikan perbedaan bobot yang signifikan

pada setiap perubahan kelasnya.

berdasarkan hasil pembobotan yang dilakukan terdapat lima kelas

kemampuan bicara pada penelitian ini. Perbedaan kelas ini berdasarkan adanya

berbedaan nilai bobot yang menonjol dari satu data ke data lain. Selanjutnya dari tiga

puluh kata yang ada akan dipilih beberapa kata yang akan digunakan untuk

klasifikasi, tidak semua kata yang terdapat didalam data dapat dibedakan dengan

baik ada beberapa data yang tidak memeberikan perbedaan yang signifikan antara

satu kelas dan lainya. Pemilihan kata yang digunakan didasarkan pada perbedaan

bobot dari setiap kelas dari kata yang diucapkan, kata yang dipilih harus memberikan

perbedaan bobot yang signifikan dan konsisten untuk setiap kelasnya dan kata yang

akhirnya digunakan sebagai bahan klasifikasi adalah kata :

1. Ayam

2. Mobil

3. Bulan

4. Buku

5. Sapi

6. Daun

7. Sepatu

8. Kacamata

9. Bambu

10. sapu

III.4 Perancangan sistem klasifikasi

Ada dua tahapan dalam proses klasifikasi. Tahapan pertama adalah tahapan

pelatihan dan tahapan pengujian yang ditunjukan oleh gambar 3.2. Untuk tahapan pra

pengolahan dan ekstraksi ciri tidak ada perbedaan antara tahap pelatihan dan tahap

pengujian. Perbedaan ada pada tahap klasifikasi. Pada tahap pelatihan parameter-

parameter akan berubah sampai akhirnya konvergen nilai akhir parameter akan

bergantung terhadap data pelatihan yang digunakan, sedangkan pada tahap pengujian

akan mengunakan parameter hasil pelatihan untuk melakukan klasifikasi.

Pra pengolahan

Ekstraksi ciri

Latih klasifikasi

Eror< batas eror

mulai

selesai

Pra pengolahan

Ekstraksi ciri

Pengujian klasifikasi

mulai

selesai

ya

tidak

Proses training sistem klasifikasi

(b) Proses pengujian sistem klasifikasi

Gambar 3. 2 Tahapan sistem klasfikasi

III.4.1 Pra pengolahan

Pada proses perekaman sinyal suara jarak saat dimulainya ada informasi suara

yang masuk terhadap saat perekaman dimulai akan berbeda untuk setiap sampel.

Selain itu pada data penelitian ini ada perbedaan jarak antar suku kata. Untuk kata

yang diucapkan oleh anak dengan kemampuan berbicara kurang baik akan memiliki

jarak yang relatif lebih lebar dibandingkan dengan anak dengan kemampuan

berbicara yang lebih baik. Untuk memilimalisir kelasalahan karena perbedaan ini

pada peelitian ini akan mengunakan penghapusan bagian diam(silence removing).

Background(bg) = x[1..N/10]

mulai

X=speech, batas

N=panjang(x), j=0

j=j+1x2(j)=x(i)

z(i)=(x(i)-mean(bg))/std(bg)

xout= x2

i=1:1:N

Z(i) > batas

selesai

Dengan penerapan silence removing diharapkan titik awal sinyal adalah titik disaat

anak memulai pembicaran dan mengurangi jarak antar suku kata sehingga akan

mengurangi kesalahan karena adanya perbedaan durasi kata serta akan mengurangi

beban komputasi. Flowchart algoritma silence removing ditampilkan pada gambar 3.3

Gambar 3. 3 Flowchart silence removing

III.4.2 Ekstaksi ciri

Seperti yang telah dijelaskan pada bab sebelumnya pada penelitian ini akan

mengunakan dua buah metode ekstraksi ciri yaitu metode MFCC dan PLP-RASTA

lalu akan dilihat metode ekstaksi ciri mana yang lebih sesuai. Penerapan masing-

masing metode pada penelitian ini akan dijelaskan pada bagian berikut.

a. Mel-Frequency cepstral coefficient(MFCC)

Pada penelitian ini akan mengunakan MFCC dengan jumlah koefesien tiga

belas[43][44][45][46][17] dan dua puluh empat[15][tambah paper yang make angka

itu], selain itu output yang akan digunakan pada sistem klasifikasi adalah rerata nilai

koefisen MFCC dari setiap frame. Dengan hal ini diharapkan akan memperkecil

banyaknya dimensi pada metode klasifikasi. Pada metode ANFIS perhitungan pada

layer 2 adalah perkalian dari semua dimensi input dan semakin banyak jumlah

dimensi input maka nilai output layer dua akan mendekati nol hal ini dapat

menyebabkan kemungkian eror pada perhitungan selanjutnya, oleh karena itu

pengunaan koefisien MFCC rata-rata diharapkan dapat meminimalisir kemungkinan

ini terjadi.

Seperti yang telah dijelaskan sebelumnya ada perbedaan panjang durasi pada

pengucapan kata yang akan digunakan pada penelitian ini. Hal ini akan menjadi

masalah ketika dilakukan pencuplikan frame dari data dengan lebar frame tetap dalam

durasi waktu. banyaknya frame yang dihasilkan akan tidak sama. Selain itu posisi

pencuplikan juga akan relatif berbeda. Hal ini akan mengurangi keandalan dari ciri

yang dihasilkan dari MFCC. untuk menanggulangi masalah ini, pada penelitian ini

lebar frame merupakan pembagian dari panjang data dengan metode ini panjang

frame akan berbeda-beda namun banyaknya frame akan tetap dan posisi pencuplikan

data relatif akan lebih sama untuk setiap data meskipun memiliki durasi yang

berbeda.

Gambar 3. 4 Pengunaan lebar window berbeda banyak window sama

Gambar 3. 5 Pengunaan window dengan lebar yang sama banyak window berbeda

b. Perceptual Linier Predictive Relative Spectral PLP-RASTA

Pada penelitian ini akan mencoba mengunakan dua belas dan dua puluh empat

koefisien PLP-RASTA [paper yang mendukung]. sama dengan penggunaan MFCC

koefisen yang akan digunakan pada sistem klasifikasi adalah koefisen rerata dari

setiap frame yang diproses. Karena permasalahan yang sama yaitu durasi data yang

berbeda untuk ekstraksi ciri dengan metode PLP-RASTA juga mengunakan durasi

window yang berbeda, banyaknya window yang tetap.

III.4.3 Metode klasifikasi

Pengunaan metode ANFIS pada penelitian ini mengikuti arsitektur yang di

tunjukan oleh gambar 3.6. banyaknya input ANFIS tergantung pada banyaknya

dimensi yang dihasilkan oleh ekstraksi ciri. Untuk fungsi keanggotaan yang

digunakan adalah fungsi keanggotaan Gaussian dimana akan terdapat satu fungsi

keanggotaan untuk masing-masing kelas untuk menghitung fungsi keanggotaan

sesuai dengan persamaan (2.9). Penetapan rerata dan defiasi standar untuk nilai awal

parameter Gaussian didapatkan dari perhitungan rerata dan defiasi standar data

masing-masing kelompok. Pada layer dua diterapkan lima aturan anfis dengan output

hasil perkalian dari total input yang masuk. Nilai awal bobot konsekuen pada layer4

ditetapkan secara acak. Terdapat lima macam keluaran pada layer 5 (1,2,3,4,5) yang

masing-masing output akan di pasangkan dengan inputnya pada saat pelatihan.

Metode pelatihan yang digunakan pada penelitian ini adalah metode gabungan

LSE dan BEP. BEP untuk memperbarui parameter gausian pada layer 1. Dan LSE

untuk memberbarui bobot(parameter konsekuen) pada layer 4. Bobot-bobot serta

arksitektur ANFIS hasil pelatihan ini kemudian akan digunakan untuk pengujian

dengan data yang berbeda.

Ax1

Bx1

Cx1

Dx1

Ex1

X1

Ax2

Bx2

Cx2

Dx2

Ex2

X2

Axn

Bxn

Cxn

Dxn

Exn

Xn

∏

∏

∏

∏

∏

N

N

N

N

N

X1..Xn

X1..Xn

X1..Xn

X1..Xn

X1..Xn

∑f

Gambar 3. 6 Arsitektur ANFIS penelitian.

III.5 Cara Analisis

Analisis dilakukan dengan membandingkan peforma dari kedua metode

ekstraksi ciri pada sistem klasifikasi yang telah dirancang. Untuk mengklasifikasi

dengan mengunakan satu-persatu dari kata yang diucapkan, aspek yang dinilai adalah

banyaknya iterasi yang dibutuhkan untuk mencapai konvergen, dan kemampuan

sistem dalam melakukan klasifikasi dengan bantuan confusion matrix. Confusion

matrix adalah tabel atau matrix yang biasa digunakan untuk mengetahui kemampuan

dari supervised learning. Sebelum melakukan perbandingan antara MFCC dan PLP-

RASTA untuk masing-masing metode ekstraksi ciri akan dilakukan variasi terhadap

banyaknya koefisien, dan banyaknya frame. Variasi banyaknya koefisen dan

banyaknya frame yang memberikan peforma yang paling baik yang akan digunakan.

Setelah membandingkan peforma klasifikasi yang telah sistem dengan kedua metode

diatas, selanjutnya akan mencoba menggunakan lebih dari satu kata yang dijadikan

dasar untuk klasifikasi kemudian tingkat peforma dari sistem tersebut.

BAB IV HASIL DAN PEMBAHASAN

IV.1 Parameter pengujain

Parameter pengujian pada penelitian ini adalah jumlah iterasi pelatihan, dan

kemampuan sistem klasifikasi. untuk setiap metode ekstraksi ciri akan dilakukan

variasi jumlah koefisien dan jumlah window kemudian dicari nilai yang paling

optimal. Setelah itu akan membandingkan metode ekstrkasi ciri MFCC atau PLP-

RASTA yang menghasilkan sisitem klasifikasi yang lebih baik.

IV.2 Hasil Klasifikasi dengan metode ekstraksi ciri MFCC

Pada bagian ini akan ditampilkan hasil dari sistem klasifikasi dengan

menggunankan metode ekstraksi ciri MFCC dengan variasi jumlah koefisien (13 dan

24) dan juga jumlah window (24,50 dan 75), yang dimaksudkan untuk melihat

pengaruh dari jumlah window dan jumlah koefisien terhadap kemampuan klasifikasi

sistem. selain itu juga untuk menentukan jumlah koefisien dan jumlah window yang

memberikan hasil yang paling optimal untuk sistem klasifikasi kemampuan berbicara

anak tuna rungu.Seperti yang telah dijelaskan sebelumnya bahwa aspek penilaian

adalah jumlah iterasi dan confusion matrik. Maka pada bagian ini akan ditampilkan

grafik eror dari proses pelatihan dan menentukan akurasi dengan mengunakan prinsip

confusion matrix.

Langkah pertama pada percobaan ini adalah mencoba menjalankan sistem

klasifikasi dengan tiga belas koefisien MFCC dan menvariasikan jumlah window

dalam pemrosesan MFCC, lalu dilakukan hal yang sama untuk 24 koefisien MFCC.

banyaknya window akan berpengaruh terhadap lebar frame lebar frame akan

mempengaruhi nilai koefisen MFCC dari masing-masing frame kemudian

mempengaruhi nilai MFCC rata-rata yang digunakan, dengan memvariasikan jumlah

window bertujuan untuk melihat apakah semangkin banyak jumlah window dan

semangkin kecil lebar frame akan memberikan hasil klasifikasi yang lebih baik atau

sebaliknya. Untuk banyaknya koefisen yang digunakan pada anfis tidak sama seperti

yang dihasilkan pada ekstraksi ciri terdapat pengurangan dua koefisien awal yang

cenderung sama untuk setiap data sehingga diasumsikan tidak memberikan dampak

yang signifikan. Dibawah ini ditampilkan tabel-tabel perubahan eror terhadap iterasi

untuk masing-masing kata.

a) 13 MFCC koefisien 25 window b) 13 MFCC koefisien 50 window

c) 13 MFCC koefisien 75 window d) 24 MFCC koefisien 25 window

e) 24 MFCC koefisien 50 window f) 24 MFCC koefisien 75 windowGambar 4.1 Perubahan eror terhadap iterasi kata ayam

a)13 MFCC koefisien 25 window b) 13 MFCC koefisien 50 window


e) 24 MFCC koefisien 50 window f) 24 MFCC koefisien 75 windowGambar 4.2 Perubahan eror terhadap iterasi kata mobil

a)13 MFCC koefisien 25 window b) 13 MFCC koefisien 50 window


e) 24 MFCC koefisien 50 window f) 24 MFCC koefisien 75 windowGambar 4.3 Perubahan eror terhadap iterasi kata bulan

a)13 MFCC koefisien 25 window b)13 MFCC koefisien 50 window

c)13 MFCC koefisien 75 window d)24 MFCC koefisien 25 window

e)24 MFCC koefisien 50 window f)24 MFCC koefisien 75 windowGambar 4.4 Perubahan eror terhadap iterasi kata buku



e)24 MFCC koefisien 50 window f)24 MFCC koefisien 75 windowGambar 4.5 Perubahan eror terhadap iterasi kata sapi



e)24 MFCC koefisien 50 window f)24 MFCC koefisien 75 windowGambar 4. 6 Perubahan eror terhadap iterasi kata daun



e)24 MFCC koefisien 50 window f)24 MFCC koefisien 75 windowGambar 4.7 Perubahan eror terhadap iterasi kata sepatu



e)24 MFCC koefisien 50 window f)24 MFCC koefisien 75 windowGambar 4.8 Perubahan eror terhadap iterasi kata kacamata



e)24 MFCC koefisien 50 window f)24 MFCC koefisien 75 windowGambar 4.9 Perubahan eror terhadap iterasi kata bambu



e)24 MFCC koefisien 50 window f)24 MFCC koefisien 75 windowGambar 4. 10 Perubahan eror terhadap iterasi kata sapu

Kita dapat melihat kemampuan belajar dari sistem dengan mengamati jumlah

iterasi eror maksimal dan kurva penuruan eror Berdasarkan tabel-tabel diatas dapat

terlihat untuk setiap kata memiliki hasil yang berbeda baik untuk iterasi, dan eror

yang terkecil namun secara umum MFCC dengan dua puluh empat koefisien

memberikan hasil yang lebih baik dibandingkan dengan MFCC dengan tiga belas

koefisien, dan memiliki bentuk kurva yang cenderung lebih stabil untuk setiap kata.

Salah satu faktor yang mempengaruhi bentuk kurva eror terhadap iterasi adalah

penetapan bobot awal, semangkin mendekati bobot awal dengan nilai bobot awal

dengan nilai kahirnya akan semangkin cepat mencapai konvergen, Agar faktor ini

dapat diabaikan maka bobot awal ditetapkan secara random.

Setelah melihat kemampuan dari proses pembelajaran dari masing-masing

variasi dengan melihat jumlah iterasi eror maksimal dan kurva eror terhadap iterasi.

Selanjutnya adalah menghitung tingkat akurasi dari sistem. Untuk menghitung

akurasi akan mengunakan data yang independen yang tidak diikutkan pada data untuk

pembelajaran. Data test masing-masing terdiri dari dua data untuk setiap kelas

sehingga terdapat sepuluh data secara keseluruhan. Untuk menghitung akurasi

mengunakan prisip-prinsip confusion matrix. Dibawah adalah tabel hasil klasifikasi

dari sistem untuk masing-masing variasi koefisien mfcc dan variasi jumlah window.

Tabel 4.1 Tabel hasil klasifikasi mengunakan data test untuk jumlah koefisien 13 dan jumlah window 25

Tabel 4. 5 tabel hasil klasifikasi mengunakan data test untuk jumlah koefisien 24 dan jumlah window 50

Tabel 4.6 tabel hasil klasifikasi mengunakan data test untuk jumlah koefisien 24 dan jumlah window 75

Dari tabel-tabel diatas terlihat bahwa sistem klasifikasi dengan ektraksi ciri

MFCC dua puluh empat koefisien memberikan akurasi yang lebih baik dibandingkan

dengan MFCC tiga belas koefisien, dan banyaknya window 50 memberikan akurasi

yan lebih baik dibandingkan yang lain dan in berlaku untuk kedua jumlah koefisien

MFCC. secara keseluruhan akurasi yang dihasilkan kurang baik hal ini dikarenakan

banyak parameter-parameter terhadap pembicaraan anak tuna rungu seperti durasi

pengucapan kata-kata yang berbeda, frekuensi berbicara anak tuna rungu yang

berbeda-beda, ketidak konsistenan dalam pengucapan kata-kata terutama pada anak

berkemampuan rendah.

IV.3 Hasil Klasifikasi dengan metode ekstraksi ciri PLP-RASTA

Pada bagian sebelumnya telah ditampilkan hasil klasifikasi dari sistem

klasifikasi dengan metode ekstraksi ciri MFCC. Pada bagian ini akan menampilkan

hasil klasifikasi dengan metode ekstraksi ciri PLP-RASTA dengan aspek penilaian

yang sama seperti pada bagian sebelumnya. Variasi banyaknya koefisien untuk

klasifikasi dengan metode ekstrakasi ciri PLP-RASTA dalah 8 dan 16 koefisien.

sedangkan variasi banyaknya window sama dengan bagian sebelumnya yaitu 25,50

dan 75 window. Variasi banyaknya koefisien dan window untuk melihat pengaruh

dari variasi keduanya dan juga untuk mencari variasi yang memberikan hasil yang

paling optimal. Langkah-langkah analisis untuk sistem klasifikasi dengan metode

ekstraksi ciri PLP-RASTA sama dengan langkah-langkah analisis sistem klasifikasi

dengan metode ekstraksi ciri dengan MFCC yaitu mejalankan sistem klasifikasi

dengan koefisien PLP-RASTA yang lebih sedikit (8 koefisien) lalu memvariasikan

banyaknya window dalam pemrosesan PLP-RASTA dan hal yang sama dilakukan

untuk sistem klasifikasi dengan koefisien PLP-RASTA yang lebih banyak (16

koefisien). Untuk melihat pengaruh dari lebar window terhadap hasil klasifikasi.

Dibawah ini ditampilkan tabel-tabel perubahan eror terhadap iterasi untuk masing-

masing kata.

a) 8 PLP-RASTA koefisien 25 window b) 8 PLP-RASTA koefisien 50 window

c)8 PLP-RASTA koefisien 75 window d)16 PLP-RASTA koefisien 25 window

e)16 PLP-RASTA koefisien 50 window f)16 PLP-RASTA koefisien 75 windowGambar 4.11 Perubahan eror terhadap iterasi kata ayam



e)16 PLP-RASTA koefisien 50 window f)16 PLP-RASTA koefisien 75 windowGambar 4.12 Perubahan eror terhadap iterasi kata mobil



e)16 PLP-RASTA koefisien 50 window f)16 PLP-RASTA koefisien 75 windowGambar 4.13 Perubahan eror terhadap iterasi kata Bulan



e)16 PLP-RASTA koefisien 50 window f)16 PLP-RASTA koefisien 75 windowGambar 4.14 Perubahan eror terhadap iterasi kata buku

8 PLP-RASTA koefisien 25 windows 8 PLP-RASTA koefisien 50 windows



e)16 PLP-RASTA koefisien 50 window f)16 PLP-RASTA koefisien 75 windowGambar 4.15 Perubahan eror terhadap iterasi kata sapi



e)16 PLP-RASTA koefisien 50 window f)16 PLP-RASTA koefisien 75 windowGambar 4.16 Perubahan eror terhadap iterasi kata daun



e)16 PLP-RASTA koefisien 50 window f)16 PLP-RASTA koefisien 75 windowGambar 4.17 Perubahan eror terhadap iterasi kata sepatu



e)16 PLP-RASTA koefisien 50 window f)16 PLP-RASTA koefisien 75 windowGambar 4.18 Perubahan eror terhadap iterasi kata kacamata



e)16 PLP-RASTA koefisien 50 window f)16 PLP-RASTA koefisien 75 windowGambar 4.19 Perubahan eror terhadap iterasi kata bambu



e)16 PLP-RASTA koefisien 50 window f)16 PLP-RASTA koefisien 75 windowGambar 4.20 Perubahan eror terhadap iterasi kata sapu

Dengan cara pengamatan grafik yang sama seperti pada sistem klasifikasi

dengan MFCC yaitu dengan mengamati jumlah iterasi, eror maksimal, dan bentuk

kurva penurunan error pada grafik-grafik perubahan eror terhadap iterasi untuk sistem

klasifikasi dengan metode ekstraksi ciri PLP-RASTA diatas. Setiap kata memiliki

hasil yang bebeda tetapi secara umum sistem klasifikasi dengan enam belas koefisien

PLP-RASTA memberikan hasil yang lebih baik dibandingkan dengan sistem

klasifikasi dengan delapan koefisien PLP-RASTA baik dari nilai error maksimal yang

dihasilkan, banyaknya iterasi dan bentuk kurva yang relatif lebih stabil. Sedangkan

untuk banyaknya window, sistem dengan window terbesar yaitu tujuh puluh lima

window untuk sebagian besar kata memberikan hasil yang paling baik.

Untuk menghitung akurasi dari sistem klasifikasi dengan metode ekstraksi ciri

PLP-RASTA juga mengunakan cara analisis yang sama seperti pada sistem

klasifikasi dengan metode ekstraksi ciri MFCC yaitu dengan mencobakan sistem

yang telah dilatih dengan data independen yang telah diketahui kelasnya kemudian

dilakukan perhitungan akurasi dengan mengunakan prinsip confusion matrix.

Dibawah adalah tabel hasil klasifikasi dari sistem untuk masing-masing variasi

koefisien PLP-RASTA dan variasi jumlah window.Tabel 4.7 Hasil klasifikasi mengunakan data test untuk jumlah koefisien 8 dan jumlah window

25

Tabel 4.8 Hasil klasifikasi mengunakan data test untuk jumlah koefisien 8 dan jumlah window 50

Tabel 4. 9 Hasil klasifikasi mengunakan data test untuk jumlah koefisien 8 dan jumlah window 75


Tabel 4.11 Hasil klasifikasi mengunakan data test untuk jumlah koefisien 16 dan jumlah window 50


Dari tabel-tabel diatas terlihat akurasi tertinggi terdapat pada sistem klasifikasi

dengan variasi koefisen PLP-Rasta delapan dan banyaknya window dua puluh lima

dan lima puluh window keduanya untuk kata mobil. Sedangkan untuk variasi

banyaknya koefesien dan banyaknya window yang lain memberikan besaran akurasi

yang hampir sama namun untuk kata-kata yang berbeda. Kata-kata yang memberikan

besaran akurasi yang cukup baik relatif di bandingkan kata-kata yang lainnya adalah

kata mobil,bulan,buku, dan daun.

IV.4 Perbandingan hasil klasifikasi dengan ekstraksi ciri MFCC dan PLP-

RASTA

Pada bagian ini akan membandingkan hasil klasifikasi dari kedua metode

ekstraksi ciri yang digunakan baik kemampuan belajar dan akurasi dari sistem

klasifikasi. yang akan dibandingkan pada bagian ini adalah variasi banyaknya

koefisien dan window yang memberikan hasil terbaik dari setiap metode ekstraksi

ciri. Untuk metode ekstraksi ciri MFCC akan digunakan variasi 24 koefisien MFCC

dan 50 window, sedangkan untuk metode ekstraksi ciri PLP-RASTA mengunakan

variasi 8 koefisien PLP-RASTA dan 50 window.

Dari segi kemampuan belajar MFCC menunjukan hasil yang lebih baik

dibandingkan dengan PLP-RASTA hal ini dapat dilihat berdasarkan gambar 4.1

hingga 4.10 dan 4.11 hingga 4.20 eror maksimal dan banyaknya dalam proses

pembelajaran MFCC lebih kecil dibandingkan degan PLP-RASTA. Hal ini terjadi

karna nilai-nilai koefisien MFCC memberikan perbedaan yang lebih jelas untuk

setiap kelasnya dibandingkan dengan koefisien PLP-RASTA sehingga memiliki eror

maksimal yang lebih kecil dan banyaknya iterasi yang lebi sedikit dibandingkan

dengan PLP-RASTA meskipun PLP-RASTA memiliki banyak koefisien yang lebih

sedikit. Demikian pula untuk akurasi sistem dengan ekstraksi ciri MFCC juga

memberikan hasil yang lebih baik dibandingkan dengan PLP-RASTA hal ini

dikarnakan MFCC memiliki kemampuan untuk mengurangi kelebihan informasi

sehingga koefisien-koefisien MFCC yang dihasilkan benar-benar memberikan

pengaruh yang lebih signifikan dan lebih banyak mengabaikan informasi-informasi

yang tidak diperlukan dibandingkan dengan PLP-RASTA.

IV.5 Hasil sistem klasifikasi MFCC dan PLP-RASTA dengan keluaran berupa rerata delta.

Setelah pada bagian sebelumnya membahas tentang kemampuan klasifikasi

yang dihasilkan oleh sistem baik untuk sistem dengan metode klasifikasi MFCC

metode PLP-RASTA dengan koefisien keluaran berupa rerata koefisien dari setiap

frame dan perbandingan diantara keduanya pada bagian ini akan melihat kemampuan

sistem klasifikasi jika koefisien keluaran berupa rerata dari perbedaan nilai antara

satu frame dan frame sebelumnya(delta). Dan pada bagian ini variasi koefisien dan

window yang dilihat adalah variasi koefisien dan window yang memberikan hasil

yang terbaik dari setiap metode ekstraksi berdasarkan yang telah dijelaskan pada

bagian sebelumnya yaitu MFCC dengan 24 koefisien dan 50 window dan PLP

dengan 8 koefisen dan 50 window

a) kata ayam b) kata mobil

c) kata bulan d) kata buku

e) kata sapi f) kata daun

g) kata sepatu h) kata kacamata

i) kata bambu j) kata sapuGambar 4.21 perubahan eror terhadap iterasi rerata delta MFCC 24 koefisen dan 50 window

Tabel 4.13 hasil klasifikasi menggunakan data test untuk rerata delta MFCC 24 koefisien dan 50 window

a) kata ayam b) kata mobil

c) kata bulan d) kata buku

e) Kata sapi f) kata daun

g) kata sepatu h) Kata kacamata

i) kata bambu j) kata sapuGambar 4.22 perubahan eror terhadap iterasi rerata delta PLP-RASTA 8 koefisen dan 50

window

Tabel 4.14 Hasil klasifikasi menggunakan data test untuk rerata delta PLP-RASTA 8 koefisien dan 50 window

Berdasarkan gambar dan tabel diatas terlihat bahwa untuk MFCC dengan

keluaran rerata delta memberikan hasil belajar yang tidak lebih baik hal ini dapat

dilihat dari banyaknya iterasi yang dan eror terbesar yang tidak menunjukan

perbedaan yang signifikan sedangkan untuk akurasi yang dihasilkan MFCC dengan

keluaran rerata memberikan hasil yang jauh lebih baik. Dan untuk PLP-RASTA

dengan keluaran rertata delta memberikan akurasi yang lebih baik dibandingkan

dengan PLP-RASTA dengan keluaran rerata. Namun dengan hasil belajar yang relatif

tidak berbeda.

[1] Kadarsih, “LATIHAN BINA PERSEPSI BUNYI DAN IRAMA MENINGKATKAN KEMAMPUAN BERBICARA ANAK TUNA RUNGU WICARA KELAS III SLB NEGERI SRAGEN,” solo, 2009.

[2] sarjono, Orthopaedagogiek Tuna Rungu I (Seri Pendidikan bagi Anak Tuna Rungu). UNS Press, 1997.

[3] G. arsad Maidar and M. U.S, Pembinaan Kemampuan Berbicara Bahasa Indonesia. jakarta: erlangga, 1987.

[4] Y. Zeng and Y. Zhang, “Robust Children and Adults Speech Classification,” Fourth Int. Conf. Fuzzy Syst. Knowl. Discov. (FSKD 2007), no. Fskd, pp. 721–725, 2007.

[5] H. Sato, Y. Mitsukura, M. Fukumi, and N. Akamatsu, “Emotional Speech Classification with Prosodic Prameters by Using Neural Networks,” no. November, pp. 18–21, 2001.

[6] M. Murugappan, N. Qasturi, I. Baharuddin, and S. Jerritta, “DWT and MFCC Based Human Emotional Speech Classification Using LDA,” no. February, pp. 27–28, 2012.

[7] A. Bendihen and K. Sfeiglifz, “Neural networks for voiced/unvoiced speech classification?,” pp. 521–524, 1990.

[8] R. Cai, “A Modified Multi-Feature Voiced/Unvoiced Speech Classification Method,” 2010 Asia-Pacific Conf. Power Electron. Des., pp. 68–71, May 2010.

[9] Z. H. U. Le-qing, “Insect sound recognition based on MFCC and PNN,” pp. 1–5, 2011.

[10] D. Mahmoodi and A. Soleimani, “Age Estimation Based on Speech Features and Support Vector Machine,” pp. 60–64, 2011.

[11] R. Gemello, D. Albesano, and F. Mana, “CSELT hybrid HMM/neural networks technology for continuous speech recognition,” … Networks, 2000. IJCNN 2000 …, pp. 103–108, 2000.

[12] B. D. Womack, J. H. L. Hansen, and S. Member, “N-Channel Hidden Markov Models for Combined Stressed Speech Classification and Recognition,” vol. 7, no. 6, pp. 668–677, 1999.

[13] V. B. Saambhavi, S. S. S. P. Rao, and P. Rajalakshmi, “Design of feature extraction circuit for speech recognition applications,” TENCON 2012 IEEE Reg. 10 Conf., pp. 1–5, Nov. 2012.

[14] J. Kacur and R. Vargic, “Speaker identification by K-nearest neighbors,” Syst. Signals Image Process. (IWSSIP), 2011 18th Int. Conf., 2011.

[15] J. Ajmera, I. McCowan, and H. Bourlard, “Speech/music segmentation using entropy and dynamism features in a HMM classification framework,” Speech Commun., vol. 40, no. 3, pp. 351–363, May 2003.

[16] C. Jeyalakshmi, V. Krishnamurthi., and a. Revathy, “Transcribing deaf and hard of hearing speech using Hidden markov model,” 2011 Int. Conf. Signal Process. Commun. Comput. Netw. Technol., no. Icsccn, pp. 326–331, Jul. 2011.

[17] A. Taleb, “Speech Recognition by Fuzzy-Neuro ANFIS Network and Genetic Algorithms,” pp. 41–44, 2012.

[18] F. a M. Elwakdy, S. B. E. Elsehely, and T. C. M. Eltokhy, “Speech recognition using a wavelet transform to establish fuzzy inference system through subtractive clustering and neural network ( ANFIS ),” Signal Processing, vol. 2, pp. 264–273, 2008.

[19] N. Dave, “Feature Extraction Methods LPC , PLP and MFCC In Speech Recognition,” Int. J. Adv. Res. Eng. Technol., vol. 1, no. Vi, pp. 1–5, 2013.

[20] P. Marsal and S. Pol, “Comparison and combination of RASTA-PLP and FF features in a hybrid HMM/MLP speech recognition system.,” …, vol. 1, pp. 2–5, 2002.

[21] X. Li, M. Yao, and W. Huang, “and Neural Network Ensembles,” pp. 614–617, 2011.

[22] A. Caruntu, A. Nica, and G. Toderean, “Robust Features for Speech Classification.”

[23] B. Plannerer, “An introduction to speech recognition,” March28, 2005.

[24] T. EnShuo, K. Seung-Hwan, and kuo C. –. Jay, “Environmental Sound Recognition woth CELP-basef Features.”

[25] H. Hermansky, N. Morgan, a. Bayya, and P. Kohn, “RASTA-PLP speech analysis.” 1991.

[26] K. Yamamoto, F. Jabloun, K. Reinhard, A. Kawamura, R. Corporate, and T. Corp, “ROBUST ENDPOINT DETECTION FOR SPEECH RECOGNITION BASED ON DISCRIMINATIVE FEATURE EXTRACTION,” pp. 805–808, 2006.

[27] C. Eamdeelerd, “Audio Noise Classification using Bark scale features and K-NN Technique,” no. Iscit, pp. 131–134, 2008.

[28] T. Pao, W. Liao, and Y. Chen, “Audio-Visual Speech Recognition with Weighted KNN-based Classification in Mandarin Database.”

[29] C. Shao and M. Bouchard, “Efficient classification of noisy speech using neural networks,” Seventh Int. Symp. Signal Process. Its Appl. 2003. Proceedings., pp. 357–360 vol.1, 2003.

[30] M. Arts, “Hybrid Learning For Adaptive Neuro Fuzzy Inference System,” vol. 2, no. 11, pp. 6–13, 2013.

[31] V. Seydi Ghomsheh, M. Aliyari Shoorehdeli, and M. Teshnehlab, “Training ANFIS structure with modified PSO algorithm,” 2007 Mediterr. Conf. Control Autom. MED, 2007.

[32] G. Saha, S. Chakroborty, and S. Senapati, “A New Silence Removal and Endpoint Detection Algorithm for Speech and Speaker Recognition Applications,” Proc. NCC, pp. 3–7, 2005.

[33] L. C.H, “Automatic recognition of animal vocalizations using averaged MFCC and linear discriminant analysis,” pattern Recognit. Lett., vol. 27, pp. 93–101, 2006.

[34] F. Ernawan, N. A. Abu, and N. Suryana, “Spectrum analysis of speech recognition via discrete Tchebichef transform,” vol. 8285, no. Icgip, p. 82856L, Oct. 2011.

[35] L. Deng and D. O’Shaughnessy, Speech processing: a dynamic and optimization-oriented approach. 2003.

[36] D. L. Macfarlane and W. Huang, “Fast Fourier Transform and MATLAB Implementation,” pp. 1–26.

[37] H. Combrinck and E. Botha, “On the mel-scaled cepstrum,” department of …. 1996.

[38] U. F. Bank and V. Iy, “uniform filter bank ,” pp. 1–11, 2000.

[39] Z. Qiu, “ICA-based Rasta-PLP feature for speaker identification,” 2nd Int. Conf. Inf. Sci. Eng. ICISE2010 - Proc., pp. 3753–3756, 2010.

[40] W. P. W. Peng, W. S. W. Ser, and M. Z. M. Zhang, “Bark scale equalizer design using warped filter,” 2001 IEEE Int. Conf. Acoust. Speech, Signal Process. Proc. (Cat. No.01CH37221), vol. 5, pp. 1–4, 2001.

[41] B. Milner, “A COMPARISON OF FRONT ‐ END CONFIGURATION FOR ROBUST.”

[42] B. Fatkhurrozi, M. A. Muslim, and D. R. Santoso, “Aktivitas Gunung Merapi,” vol. 6, no. 2, pp. 113–118, 2012.

[43] M. Vyas, “A Gaussian Mixture Model Based Speech Recognition System Using MATLAB,” Signal Image Process. An Int. J., vol. 4, no. 4, pp. 109–118, 2013.

[44] D. Ververidis and C. Kotropoulos, “Automatic speech classification to five emotional states based on gender information,” Proc. Eusipco, vol. 2004, pp. 341–344, 2004.

[45] W. Chu and B. Champagne, “Further Studies of a FFT-Based Auditory Spectrum,” pp. 2729–2733, 2008.

[46] R. D. Peacocke and D. H. Graf, “An introduction to speech and speaker recognition,” Computer (Long. Beach. Calif)., vol. 23, no. 8, pp. 26–33, Aug. 1990.