viterbi vs baum welch

Pemrosesan Suara / S2-IF5281 / 12 Mar 2015

Tugas 3 MandiriLPC, PLP, dan perbedaanya dengan MFCC

Mahasiswa23514045 - Dwina Satrinia

Dosen PengajarDr.Dessi Puji Lestari, S.T.

Magister InformatikaSekolah Teknik Elektro dan InformatikaInstitut Teknologi Bandung2015

Linear Predictive Coefficient (LPC)Cara KerjaLinear Predictive Coefficient (LPC) adalah metode digital untuk meng-encode sinyal analog yang nilainya dapat diperkirakan dari fungsi linear dari nilai sinyal sebelumnya. Metode ini awalnya dibuat oleh United States Department of Defence pada federal standard 1015, yang dipublikasikan pada tahun 1984. Suara / speech diproduksi oleh vocal tract yang dapat dianalogikan sebagai variable diameter tabung. LPC ini memodelkan secara matematis perkiraan dari diameter vocal tract yang bervariasi.Prinsip dasar dari Linear Predictive Coefficient (LPC) adalah bahwa sample suara dapat diperkirakan sebagai kombinasi linear dari sample suara sebelumnya. Sample suara pada waktu ke-n dinotasikan sebagai s(n) dapat diperkirakan dari kombinasi linear dari p sample sebelumnya, sehingga sample suara dapat dinyatakan dengan persamaan sebagai berikut:

Dimana :S(n): sample suara pada waktu ke-n: koefisien dari linear prediction ke-kp: jumlah koefisien linear predictionEkstraksi fitur menggunakan LPC memiliki tahapan tahapan seperti terlihat pada gambar 1.

Gambar 1 Langkah - langkah LPCSinyal suaraPre-processingframingwindowingLPC analysisAutocorrelation analysisLPC Feature vector

Sinyal suara yang masuk akan dilakukan pre-processing yaitu Preemphasis, yaitu membuat sinyal suara spektral menjadi lebih rata. Setelah dilakukan pre-processing, sinyal suara hasil ini akan dipecah pecah menjadi frame-frame pendek. Langkah ini disebut framing. Panjang dari satu frame biasanya antara 30ms dengan overlap sekitar 20ms (dengan pergeseran setiap 10ms). Setiap frame mengandung N sample points dari sinyal suara. Setelah dilakukan framing, maka langkah selanjutnya adalah windowing. Untuk menganalisa sinyal suara pada frame, diasumsikan bahwa besarnya sinyal diluar segmen atau 0 m N-1 besarnya identik dengan nol, untuk mendapatkan keadaan seperti ini, maka sinyal suara s(n+m) dikalikan dengan fungsi window, yang panjangnya terbatas. Fungsi window yang sering digunakan adalah hamming window. Hamming window digunakan untuk memperlancar signal untuk komputasi discrete fourier transform (DFT). Hamming window memiliki kelebihan yaitu resolusi frekuensi yang dihasilkan lebih bagus sehingga cocok untuk mendeteksi formant. Fungsi hamming window dinyataan dengan persamaan berikut:

Dimana N adalah total jumlah sample, dan n adalah sample yang sekarang (yang dihitung)Setelah dilakukan windowing, filter koefisien (koefisien linear prediction) didapat dengan cara meminimalkan mean square error antara sinyal input dengan nilai sample hasil perkiraan. Koefisien ini diekstrak menggunakan autocorrelation analysis.

Yang memiliki nilai autocorrelation tertinggi yang nantinya akan dipilih untuk dilakukan LPC analysis. Tahap LPC analysis akan mengubah setiap frame dari autocorrelation menjadi kumpulan LPC parameter, dimana kemungkinan akan menjadi koefisien linear prediction. Metode formal yang biasa digunakan untuk mengubah koefisien dari autocorrelation menjadi koefisien LPC yaitu metode Durbin. KelebihanPerhitungan sederhana namun tetap efisien Kekurangan Spektral linear, tidak sesuai dengan suara yang sebenarnya. hanya cocok untuk low bit ratePerceptual Linear Predictive (PLP)Cara Kerja The Perceptual Linear Prediction (PLP) mewarisi karakteristik dari LPC dan juga MFCC, namun pada PLP karakteristik dari spectralnya telah ditransformasikan menjadi lebih sesuai dengan system pendengaran manusia. PLP dikembangkan oleh Hermansky. PLP akan menghilangkan informasi yang tidak relevan dari suara sehingga dapat meningkatkan speech recognition rate. Feature dari PLP dapat diambil dengan langkah pada gambar 2.

Gambar 2 langkah - langkah PLPSinyal suara yang telah dilakukan pre-emphasize, dan framing seperti pada proses LPC akan menjadi inputan pada tahap PLP. Power spectral diestimasi untuk dihitung menjadi windowed speech signal. Signal ini kemudian dihitung DFT-nya menggunakan FFT, selanjutnya dilakukan bark filter bank. Equal loudness pre-emphasis dilakukan untuk meningkatkan sensitifitasi dari pendengaran. Proses selanjutnya yaitu intensity loudness dimana spectrum koefisien dipangkatkan dengan 0.33. Setelah itu barulah dilakukan LPC analysis seperti pada tahap akhir ekstraksi fitur LPC.Kelebihan hasil prediksi tetap bagus pada situasi bising karakteristik spectral lebih mirip dengan system pendengaran manusia.KekuranganPLP feature vector kurang akurat untuk speech recognition dibandingkan dengan metode MFCCperbandingan PLP, LPC, dan MFCC1. PLP lebih robust dalam speech recognition dibandingkan dengan MFCC dan LPC jika pada sinyal suara terdapat noise2. Pada LPC, informasi sinyal suara tidak difilter, sedangkan pada PLP dan MFCC terdapat filter hanya informasi penting yang diambil.3. Filter pada PLP menggunakan bark filter bank, sedangkan pada MFCC menggunakan mel filter bank4. Analisis pada LPC dilakukan pada spectrum sedangkan analisis pada PLP dan MFCC dilakukan pada cepstrum

viterbi vs baum welch

Documents

Transcript of viterbi vs baum welch