Dasar Audio Processing

download Dasar Audio Processing

of 57

Transcript of Dasar Audio Processing

  • 7/26/2019 Dasar Audio Processing

    1/57

    Dasar Audio Processing

  • 7/26/2019 Dasar Audio Processing

    2/57

    Bentuk Gelombang Sederhana

    Frekuensi menyatakan banyaknya gelombang per detik, dinydalam Hertz (Hz)

    Periode gelombang merupakan invers dari frekuensi, yaitu lwaktu untuk sebuah gelombang, dikenal juga dengan panjagelombang

  • 7/26/2019 Dasar Audio Processing

    3/57

    Sinyal Sinus

    Sinyal sinus sederhana dinyatakan dalam bentuk:y = A sin (2ft + )

    A = Amplitudo

    f = frekuensi

    t = waktu (dalam detik) atau indeks sample

    = fase sinyal

  • 7/26/2019 Dasar Audio Processing

    4/57

    Hubungan antara Amplitudo, Frekuensi,

    Apa pengaruh perubahan amplitudo, frekuensi, dan fasa pagelombang ini?

  • 7/26/2019 Dasar Audio Processing

    5/57

    Hubungan antara Amplitudo, Frekuensi,

  • 7/26/2019 Dasar Audio Processing

    6/57

    Sinyal Audio

    Pada prinsipnya sinyal audio sederhana dinyatakan dalam sisinusioidal

    Semua operasi yang berlaku pada sebuah sinyal sinusoid daoperasikan pada sinyal audio

    Proses konversi audio analog ke audio digital prinsipnya sam

    proses ADC pada sinyal analog Pada audio yang kita dengar, apa efek dari perubahan ampli

    frekuensi?

  • 7/26/2019 Dasar Audio Processing

    7/57

    Spectogram

    Spectogram adalah suatu diagram yang berguna untuk msuatu gelombang dalam periode waktu yang pendek

    Untuk akusisi data suara, parameter data suaraakan lebih baik diamati menggunakan Spectogram

    Format data suara yang akan dianalisa yang paling umuberbentuk grafik dengan dua dimensi geometris yaitu sumb

    horizontal mewakili waktu dan sumbu vertikal mewakili Selain dua dimensi tersebut

    biasanya terdapat dimensi ketiga yaitu amplitudo frekuetu pada waktu tertentu yang diwakili dengan intensitas atasetiap titik digambar

  • 7/26/2019 Dasar Audio Processing

    8/57

    Spectogram

  • 7/26/2019 Dasar Audio Processing

    9/57

    Skema Pemrosesan Audio Digital

  • 7/26/2019 Dasar Audio Processing

    10/57

    10

    Sampling ProcessQuantization

    Error

    1010

    1011

    1011

    1011

    1001

    1010

    1001

    Digital Data Stream : 1010 1011 1011 1011 1001 ...

    Sampling

    Period

  • 7/26/2019 Dasar Audio Processing

    11/57

    Decibel

    Decibel (dB) digunakan untuk menyatakan intensitas suara Formula yang digunakan:

    X0 menyatakan nilai reference

    Jadi, dB biasa digunakan untuk menyatakan intensitas suaraterhadap referensi 0 dB

    Referensi 0 dB mewakili batas human perception

  • 7/26/2019 Dasar Audio Processing

    12/57

    Parameter Sinyal Audio Dasar

    Sampling Frequency Human Perception 20 Hz 20.000 Hz

    Nyquist menyatakan Fs dua kali dari frekuensi maksimal

    Nyquist : Fs >= 40 kHz

    CD Audio 44.1 kHz

    Blu-ray: 48 kHz

    Bit depth

    Raw Data Rate

  • 7/26/2019 Dasar Audio Processing

    13/57

    Parameter Sinyal Audio Dasar

    Bit depth Berpengaruh terhadap tingkat intensitas atau loudness relatif terh

    pendengarn manusia

    Treshold of hearing 0 dB

    Mesin Jet 110 s.d 140 dB

    Busy Road 100 dB

    Menggunakan PCM, intensitas bertambah 6 dB per bit 16 bits per sample menyebabkan 96 dB

    24 bits per sample menyebabkan 144 dB

    Raw Data Rate

    Dihitung berdasarkan frekuensi sampling, bit depth

  • 7/26/2019 Dasar Audio Processing

    14/57

    Raw Data Rate

    Berapa raw data rate untuk audio berdurasi 2 menit menggstandar Blu-ray dan bit depth 16 bits per sample?

  • 7/26/2019 Dasar Audio Processing

    15/57

    Frekuensi Suara Musik

    Nada dasar dari suara musik didasarkan pada nada A dengan freHz

    Untuk frekuensi nada-nada yang lain dihitung menggunakan rumberikut:

    Dimana :

    f = Frekuensi dari nada-nada yang lain

    n = langkah (dalam 1 oktaf) dari nada-nada yang akan di ca

    12 = jumlah oktaf ( C, C#, D, D#, E, F, F#, G, G#, A, A#, B)

    Sebagai contoh, untuk mencari frekuensi nada F, maka n = 4, umencari frekuensi nada B, maka n = 2.

  • 7/26/2019 Dasar Audio Processing

    16/57

    Frekuensi Suara Musik

    Hitung frekuensi nada F dan B! Setiap kenaikan 1 oktaf nada, maka frekuensinya menjadi du

    lipat

  • 7/26/2019 Dasar Audio Processing

    17/57

    Frekuensi Suara Musik

  • 7/26/2019 Dasar Audio Processing

    18/57

    Speech Processing

  • 7/26/2019 Dasar Audio Processing

    19/57

    Speech

    Speech (sinyal ucapan) merupakah bentuk khusus dari sinyal suara (vo

    Memerlukan pemrosesan khusus yaitu speech processing, relatif berbvoice processing

    Speech merupakan bentuk komunikasi yang paling natural sesama ma

    Speech sangat erat kaitannya dengan bahasa

    Sinyal speech mengandung informasi yang sangat kaya yang dengannydiperoleh informasi antara lain:

    Words (kata yang diucapkan) Speaker identity Aksen bicara Ekspresi Style of speech emosi Kondisi kesehatan speaker

  • 7/26/2019 Dasar Audio Processing

    20/57

    Speech

    Sinyal speech mengandung informasi yang sangat kaya yangdengannya dapat diperoleh informasi antara lain:

    words (kata yang diucapkan)

    speaker identity

    aksen bicara, style of speech

    ekspresi, emosi

    kondisi kesehatan speaker status gender

    usia

    dll

  • 7/26/2019 Dasar Audio Processing

    21/57

    Speech

    Penelitian di bidang speech sangat luas dan teru berkemban

    Di Indonesia relatif sedikit diminati

    Teknologi yang terkenal terkait speech:

    Speech Recognition, Speech to Text

    Text to Speech

  • 7/26/2019 Dasar Audio Processing

    22/57

    Sistem Pembentukan Sinyal Ucapan

    Ucapan manusia dihasilkan oleh suatu sistem produksi ucapdibentuk oleh alat-alat ucap manusia

    Dimulai dengan formulasi pesan dalam otak pembicara

    Pesan tersebut akan diubah menjadi perintah-perintah yangkepada alat-alat ucap manusia, sehingga akhirnya dihasilkan

    yang sesuai dengan pesan yang ingin diucapkan

  • 7/26/2019 Dasar Audio Processing

    23/57

    Sistem Pembentukan Sinyal Ucapan

    Vocal tract ditandai oleh g

    putus-putus, dimulai dari vcords atau glottis, dan bermulut

    Vocal tract terdiri dari pha(koneksi antara esophagus

    mulut) dan mulut

  • 7/26/2019 Dasar Audio Processing

    24/57

    Model Sistem Produksi Speech

    Pembentukan ucapan dimulai

    adanya hembusan udara dari Cara kerjanya mirip seperti pis

    pompa yang ditekan untuk metekanan udara. Pada saat vocaberada dalam keadaan tegangudara akan menyebabkan terjvibrasi pada vocal cord dan mbunyi ucapan yang disebut vo

    sound. Pada saat vocal cord bekeadaan lemas, aliran udara adaerah yang sempit pada vocamenyebabkan terjadinya turbsehingga menghasilkan suara sebagai unvoiced sound.

  • 7/26/2019 Dasar Audio Processing

    25/57

    Klasifikasi Sinyal Ucapan

    1. silence (S), keadaan pada saat tidak ada ucapan yang diuc

    2. unvoiced (U), keadaan pada saat vocal cord tidak melakuksehingga suara yang dihasilkan bersifat tidak periodic ataurandom;

    3. voiced (V), keadaan pada saat terjadinya vibrasi pada vocasehingga menghasilkan suara yang bersifat kuasi periodik.

  • 7/26/2019 Dasar Audio Processing

    26/57

    Klasifikasi Sinyal Ucapan-contoh

    Baris pertama serta awal barditandai dengan S

    bagian tersebut merepresendiam dimana pembicara beluapapun

    amplituda kecil yang tampaktersebut merupakan noise laikut terekam.

    Suatu perioda singkat unvoicmendahului vocal pertama d

    Selanjutnya voiced (V) yang cmerepresentasikan vokal i.

    Berikutnya unvoiced (U) yangmerepresentasikan daerah ppengucapan i.

    Setelah itu diikuti oleh silencmerupakan bagian dari fonemseterusnya.

  • 7/26/2019 Dasar Audio Processing

    27/57

    Klasifikasi Sinyal Ucapan-contoh

    Segmentasi ucapan me

    dan V tidak bersifat eks ada daerah-daerah yan

    dapat dikategorikan deke dalam salah satu dakategori tersebut

    ada segmen-segmen umirip atau bahkan mensilence didalamnya.

  • 7/26/2019 Dasar Audio Processing

    28/57

    Representasi Sinyal Ucapan

    Representasi sinyal dalam diagram waktu terhadap amplitudseringkali tidak cukup efektif untuk melakukan analisis dari ucapan

    Dengan menggunakan spektogram, dapat diidentifikasikankomponen-komponen frekuensi dari suatu segmen ucapan

    Segmen ucapan yang bentuknya mirip pada domain waktu lmudah dibedakan pada spektogram dengan cara melihat pekomponen frekuensinya

  • 7/26/2019 Dasar Audio Processing

    29/57

    Representasi Sinyal Ucapan

  • 7/26/2019 Dasar Audio Processing

    30/57

    Representasi Sinyal Ucapan

    Spektogram pita lebar dapat digunakan untuk melihat kompkomponen frekuensi utama dari suatu ucapan dengan jelas

    Sebagian komponen frekuensi yang tidak dominan yang tidapada spektogram pita lebar dapat lebih rinci dilihat mengguspektogram pita sempit

    Di dalam pengembangan TTS, analisis spektral diantaranya duntuk:

    segmentasi komponen-komponen sinyal ucapan,

    identifikasi komponen frekuensi segmen ucapan,

    analisis frekuensi dasar yang diperlukan untuk analisis intonasi uca

  • 7/26/2019 Dasar Audio Processing

    31/57

    Karakteristik Sinyal Ucapan

    Unit bunyi terkecil yang dapat dibedakan oleh manusia disefonem.

    Suatu ucapan kata atau kalimat pada prinsipnya dapat dilihaurutan fonem.

    Himpunan fonem yang ada dalam suatu bahasa berbeda-be

    Setiap fonem disimbolkan dengan suatu simbol yang unik. beberapa standar cara penamaan fonem yang berlaku diant

    adalah standar IPA (International Phonetic Alphabet), ARPABSAMPA.

  • 7/26/2019 Dasar Audio Processing

    32/57

    Fonem Bahasa Inggris-Amerika

  • 7/26/2019 Dasar Audio Processing

    33/57

    Klasifikasi Fonem Bahasa Inggris-Amerik

  • 7/26/2019 Dasar Audio Processing

    34/57

    Komponen Sinyal Suara

    Pitch

    Auditory sensation dari frekuensi fundamental sinyal ucapan

    Frekuensi fundamental dapat diukur menggunakan frequency ana

    Pitch adalah sensasi yang dirasakan/didengar oleh sistem persepspendengaran manusia (kombinasi dari telinga dan otak)

    Formant

    frekuensi-frekuensi resonansi dari filter, yaitu vocal tract (articulatmeneruskan dan memfilter bunyi keluaran (sinyal speech)

    frekuensi-frekuensi formant bersifat tidak terbatas namun, untukmengidentifikasi seseorang paling tidak ada 3 (tiga) format yang dyaitu, Formant 1 (F1), Formant 2 dan Formant 3 (F3)

  • 7/26/2019 Dasar Audio Processing

    35/57

    Komponen Sinyal Suara-Formant

  • 7/26/2019 Dasar Audio Processing

    36/57

    Komponen Sinyal Suara-Formant

  • 7/26/2019 Dasar Audio Processing

    37/57

    Text-To-Speech

    Sistem Text to Speech pada prinsipnya terdiri dari dua sub s

    yaitu :1. bagian Konverter Teks ke Fonem (Text to Phoneme), serta

    2. bagian Konverter Fonem to Ucapan (Phoneme to Speech).

  • 7/26/2019 Dasar Audio Processing

    38/57

    Text To Speech Konverter Teks-Fonem

    mengubah kalimat masukan (teks) menjadi rangkaian kode-kode

    yang biasanya direpresentasikan dengan kode fonem, durasi sert

    melakukan konversi dari simbol-simbol tekstual menjadi simbol-fonetik yang merepresentasikan unit bunyi terkecil dalam suatu

    Fonem yang dihasilkan disesuaikan dengan bahasa yang digunak

    Bagian ini bersifat sangat language dependant

    Implementasi unit konverter teks ke fonem menjadi sangat spesterhadap suatu bahasa

    Untuk suatu bahasa baru, bagian ini harus dikembangkan secarakhusus untuk bahasa tersebut

  • 7/26/2019 Dasar Audio Processing

    39/57

    Text To Speech Konverter Teks-Fonem

    Untuk mendapatkan ucapan yang lebih alami, ucapan yang

    harus memiliki intonasi (prosody).

    Secara kuantisasi, prosodi adalah perubahan nilai pitch (frekdasar) selama pengucapan kalimat atau pitch sebagai fungs

    Pada prakteknya, informasi pembentuk prosodi terdiri atas dpitch serta durasi pengucapannya untuk setiap fonem yang

    dibangkitkan.

    Nilai-nilai yang dihasilkan diperoleh dari suatu model prosod

  • 7/26/2019 Dasar Audio Processing

    40/57

    Text To Speech Konverter Fonem-Spee

    menerima masukan berupa kode-kode fonem serta pitch dan durasi yang dihasilkan

    sebelumnya

    Konverter Fonem ke Ucapan akan menghasilkan bunyi atau sinyal ucapan yang sesua

    yang ingin diucapkan.

    Ada beberapa alternatif teknik yang dapat digunakan untuk implementasi bagian ini,

    digunakan adalah:

    formant synthesizer,

    diphone concatenation

    Formant synthesizer bekerja berdasarkan suatu model matematis yang akan melakuk

    untuk menghasilkan sinyal ucapan yang diinginkan

    dapat menghasilkan ucapan dengan tingkat kemudahan interpretasi yang baik, synth

    dapat menghasilkan ucapan dengan tingkat kealamian yang tinggi.

  • 7/26/2019 Dasar Audio Processing

    41/57

    Text To Speech Konverter Fonem-Spee

    Synthesizer yang menggunakan teknik diphone concatenation bekerja d

    menggabung-gabungkan segmen-segmen bunyi yang telah direkam seb

    Setiap segmen speechnya merupakan diphone (gabungan dua buah fon

    Synthesizer jenis ini dapat menghasilkan bunyi ucapan dengan tingkat k

    (naturalness) yang tinggi.

    Pada sistem yang menggunakan teknik diphone concatenation, sistem h

    didukung oleh suatu diphone database yang berisi rekaman segmen-seyang berupa diphone

    Ucapan dalam suatu bahasa dibentuk dari satu set bunyi yang mungkin

    untuk setiap bahasa, oleh karena itu setiap bahasa harus dilengkapi de

    database yang berbeda.

  • 7/26/2019 Dasar Audio Processing

    42/57

    Text To Speech

  • 7/26/2019 Dasar Audio Processing

    43/57

    Text To Speech

    Text Normalization mengubah semua teks kalimat yang masih ber

    angka/singkatan/tanggal/bentuk-bentuk khusus ke dalam murni t

    Hasil normalisasi teks lalu diubah ke dalam bentuk fonem menggu

    aturan letter-to-phonem conversion

    Sebelum dikonversikan ke dalam fonem, teks harus diparsing hing

    bentuk satuan huruf

    Untuk konversi yang tidak teratur ditangani oleh bagian Exception

    Lookup

  • 7/26/2019 Dasar Audio Processing

    44/57

    Text To Speech

    Bagian prosody generator akan melengkapi setiap unit fonem

    dihasilkan dengan data durasi pengucapannya serta pitchnya

    Phonetic Analysis dapat dikatakan sebagai tahap penyempur

    melakukan perbaikan di tingkat bunyi

    Contoh:

    dalam bahasa Indonesia, fonem /k/ dalam kata bapak tidak pernah

    secara tegas

    penambahan sisipan fonem /y/ dalam pengucapan kata alamiah an

    dan /a/.

  • 7/26/2019 Dasar Audio Processing

    45/57

    Text To Speech

  • 7/26/2019 Dasar Audio Processing

    46/57

    Text To Speech

    Catatan:

    Jika digunakan fonem sebagai basis unit bunyi, maka diperlukan dat

    dan synthesizer speech yang digunakan adalah dengan merangkaika

    Jika digunakan diphone sebagai basis unit bunyi, maka diperlukan d

    diphone dan synthesizer speech yang digunakan adalah dengan me

    diphone

    Basis unit bunyi bisa menggunakan fonem, diphone, suku kata, atau

    Basis unit bunyi yang digunakan akan menentukan jenis database ya

    digunakan, parsing teks yang digunakan, dan synthesizer speech ya

  • 7/26/2019 Dasar Audio Processing

    47/57

    Text To Speech Parsing Diphone

    Diphone adalah satuan unit bunyi yang menggabungkan du

    fonem

    Teks input diparsing hingga ke dalam bentuk diphone

    Contoh:

    Synthesizer Speech menggunakan Diph

  • 7/26/2019 Dasar Audio Processing

    48/57

    Synthesizer Speech menggunakan DiphConcatenation

    h

  • 7/26/2019 Dasar Audio Processing

    49/57

    Speech Recognition

    S h R i i

  • 7/26/2019 Dasar Audio Processing

    50/57

    Speech Recognition

    Secara umum, sub proses yang ada di dalam Speech Recogn

    1. Preprocessing2. Feature Extraction (Ekstraksi Ciri)

    3. Classification

    1. Training

    2. Testing

    S h R i i

  • 7/26/2019 Dasar Audio Processing

    51/57

    Speech Recognition

    Secara umum, sub proses yang ada di dalam Speech Recogn

    1. PreprocessingReduksi noise, segmentasi/parsing sinyal hingga ke bentuk sinyal kata/suku k

    2. Feature Extraction (Ekstraksi Ciri)

    Mengambil ciri (feature) yang dianggap mewakili setiap unit speech

    Ciri dapat berupa pitch/frekuensi fundamental, frekuensi formant, warna slainnya

    Menggunakan berbagai metode, di antaranya kuantisasi vektor, MFCC, dll

    3. Classification

    Menggunakan berbagai metode, dapat berupa metode machine learning, astatistik, atau gabungan keduanya

    Contoh metode: JST, Hidden Markov Model, SVM, dll

    S h R iti T t

  • 7/26/2019 Dasar Audio Processing

    52/57

    Speech Recognition-Tantangan

    Peluang noise yang besar, terutama jika Speech Recognition

    digunakan di environment umum Speech mengandung banyak komponen yang rentan beruba

    mempengaruhi sinyal asli

    Contoh: kondisi kesehatan, logat/dialek

    Sulitnya memisahkan background voice dengan speech

    Sangat terikat pada bahasa tertentu

    S h R iti T li Ot k M

  • 7/26/2019 Dasar Audio Processing

    53/57

    Speech Recognition vs Telinga-Otak Ma

    Kemampuan Telinga dan Otak Manusia lebih superior

    Manusia dengan mudah memisahkan antara pembicara dengan suara musikbelakang, sementara komputer masih sangat sulit melakukan itu

    Bahkan manusia mempunyai kemampuan untuk fokus (berusaha fokus). Misatu keramaian konser musik, anda berbicara dengan teman di sebelah, masmemahami apa yang diucapkan. Speech Recognition?

    Mengapa komputer sulit melakukannya? Semuanya berhubungan dengan psinyal suara. Pemrosesan tersebut sekarang masih berbasis frekuensi. Ketikainformasi dalam sinyal suara mempunyai komponen frekuensi yang banyak

    komponen frekuensi noise-nya, jadi sulit memisahkannya, sementara telingamanusia masih bisa melakukannya dengan mudah. Jadi, kesimpulannya? Temanusia mungkin bekerja dengan prinsip yang berbeda.., mungkin tidapemisahan frekuensi. Sensor dalam telinga manusia berupa rambut-rambujumlahnya sangat banyak, sementara sensor komputer hanya satu buah mikkarena itu, salah satu arah riset yang berkembang adalah penggunaan arrayuntuk menirukan banyaknya sensor dalam telingan manusia.

    S h R iti T li Ot k M

  • 7/26/2019 Dasar Audio Processing

    54/57

    Speech Recognition vs Telinga-Otak Ma

    Mengapa komputer sulit melakukannya?

    Semuanya berhubungan dengan pemrosesan sinyal suara yasekarang masih berbasis frekuensi

    Ketika sebuah informasi dalam sinyal suara mempunyai komfrekuensi yang sama banyaknya dengan komponen frekuensnya, maka sangat sulit memisahkannya

    Telinga dan otak manusia mungkin bekerja dengan prinsip yberbeda, mungkin tidak berbasis pemisahan frekuensiMmemerlukan riset yang panjang

    Speaker Recognition

  • 7/26/2019 Dasar Audio Processing

    55/57

    Speaker Recognition

  • 7/26/2019 Dasar Audio Processing

    56/57

    CBAR

  • 7/26/2019 Dasar Audio Processing

    57/57

    CBAR

    Teknologi lain yang sedang berkembang

    Content Based Audio Retrieval

    Selama ini pencarian data audio pada searching engines maberbasis text-searching

    CBAR berbasis kesamaan konten audio