97660077 Teknik Kompresi Mp3
-
Upload
dee-nugraha -
Category
Documents
-
view
39 -
download
1
Transcript of 97660077 Teknik Kompresi Mp3
TEKNIK KOMPRESI MP3
A. Pendahuluan
Dalam zaman yang makin maju ini,teknologi baru yang belum pernah
dibayangkan sebelumnya makin banyak bermunculan. Mulai dari munculnya
komputer , handphone,dan masih banyak lagi. Salah satu teknologi baru yang
muncul adalah MP3 Player.MP3 Player ini bisa membuat seseorang mendengarkan
lagu secara digital,tidak perlu menggunakan kaset atau CD seperti zaman dahulu.
MP3, format yang bisa dimainkan oleh MP3 Player adalah salah satu format audio
yang paling sering digunakan dalam penyimpanan data audio.
MP3 merupakan bentuk audio yang paling sering digunakan,karena data
yang disimpan menyerupai data yang asli pada saat direkam, dan memiliki ukuran
yang tidak terlalu besar dibandingkan format lain. Tapi, bagaimana dengan cara
pembentukan MP3 bisa memiliki ukuran data yang kecil? Untuk memiliki ukuran
data yang tidak besar , diperlukan metode kompresi. Kompresi memiliki arti untuk
mepersingkat ukuran bit yang diperlukan dalam suatu data. Metode kompresi data
dalam audio yang paling sering digunakan adalah metode pengkodean Huffman.
Kode Huffman merupakan salah satu metode kompresi data yang terkenal.
Kompresi data ini memperkecil bit untuk kata yang sering muncul dan
memperbesar bit yang jarang muncul.Sebagai contoh, data yang awalnya memiliki
panjang 56 bit, bisa dikompresi menjadi 11 bit tanpa ada informasi yang hilang.
B. Pengenalan Format MP3 dan Kode Huffman
1. Pengenalan MP3
MP3 merupakan format yang menarik karena bisa mempertahankan
kualitas suara sementara memiliki ukuran yang tidak terlalu besar. Teknologi ini
dikembangkan oleh seorang insinyur Institut Fraunhofer di Jerman, Karlheinz
Brandenburg. MP3 terdiri dari banyak sekali frame ,dimana setiap frame
mengandung sebagian detik dari data audio yang berguna,yang siap dikonstruksi
ulang oleh decoder. Yang dimasukkan ke setiap bagian awal dari frame data
adalah “header frame”,yang mengandung 32 bit meta-data yang berhubungan
dengan frame data yang masuk.
Gambar 1. Data yang mendeskripsikan bentuk struktural dari frame tersebut;
data inilah yang disebut header dari frame
Gambar 2.Frame Header MP3 secara visual
Tabel 2.Karakteristik file header
Walau MP3 terlihat begitu hebat, ternyata format ini juga memiliki
keterbatasannya tersendiri :
a. Bit rate terbatas, maksimum 320 kbit/s (beberapa encoder dapat
menghasilkan bit rate yang lebih tinggi, tetapi sangat sedikit dukungan untuk
mp3-mp3 tersebut yang memiliki bit rate tinggi
b. Resolusi waktu yang digunakan mp3 dapat menjadi terlalu rendah untuk
sinyal-sinyal suara yang sangat transient, sehingga dapat menyebabkan
noise.
c. Resolusi frekuensi terbatasi oleh ukuran window yang panjang kecil,
mengurangi efisiensi coding.
d. Tidak ada scale factor band untuk frekuensi di atas 15,5 atau 15,8 kHz.
e. Mode jointstereo dilakukan pada basis per frame.
f. Delay bagi encoder/decoder tidak didefinisikan, sehingga tidak ada
dorongan untuk gapless playback (pemutaran audio tanpa gap). Tetapi,
beberapa encoder seperti LAME dapat menambahkan metadata tambahan
yang memberikan informasi kepada MP3 player untuk mengatasi hal itu.
2. Pengenalan Kode Huffman
Pertama, akan dikenalkan lebih dalam tentang kompresi. Kompresi
merupakan proses melakukan encoding informasi menggunakan bit yang lebih
sedikit dari informasi awal. Terdapat dua jenis tipe kompresi, yaitu : lossless dan
lossy . Dalam kompresi lossless, awalnya data akan dipecah menjadi ukuran yang
lebih kecil dan pada akhirnya data disatukan kembali. Sedangkan, dalam
kompresi lossy, ada bit informasi yang dieliminasi setelah dilakukan
kompresi.Kompresi tipe ini sering dilakukan untuk kompresi gambar.Prinsip
umum dalam proses kompresi adalah mengurangi duplikasi data sehingga
memori untuk merepresentasikan menjadi lebih sedikit daripada representasi
data digital semula.
Beberapa perbandingan antar lossy dan lossless :
a. Keuntungan dari metode lossy atas lossless adalah dalam bebeapa kasus
metode lossy dapat menghasilkan file kompresi yang lebih kecil
dibandingkan dengan metode lossless yang ada, ketika masih memenuhi
persyaratan aplikasi.
b. Metode lossy sering digunakan untuk mengkompresi suara, gambar dan
video. karena data tersebut dimaksudkan kepada human interpretation
dimana pikiran dapat dengan mudah “mengisi bagian-bagian yang kosong”
atau melihat kesalahan masa lalu sangat kecil atau inkonsistensi-idealnya
lossy adalah kompresi transparan, yg dapat diverifikasi dengan tes ABX.
c. Sedangkan lossless digunakan untuk mengkompresi data untuk diterima
ditujuan dalam kondisi asli seperti dokumen teks.
d. Lossy akan mengalami generation loss pada data sedangkan pada lossless
tidak terjadi karena data yang hasil dekompresi sama dengan data asli. Kode
Huffman merupakan salah satu metode kompresi data yang diciptakan oleh
David A. Huffman. Kode Huffman menggunakan metode tertentu untuk
merepresentasikan tiap simbol dimana ekspresi yang paling sering muncul
mendapat ukuran bit terkecil dan ekspresi yang jarang muncul mendapat
ukuran bit yang lebih banyak.
Proses pembentukan dari kode Huffman adalah :
a. Pilih 2 simbol dengan peluang paling kecil. Kedua simbol tadi
dikombinasikan sebagai simpul orangtua dan peluang nya dijumlahkan.
b. Simbol baru ini diperlakukan sebagai simpul baru dan diperhitungkan dalam
mencari simbol selanjutnya yang memiliki peluang paling kecil.
c. Selanjutnya, pilih dua simbol berikutnya,termasuk simbol baru, yang
mempunyai peluang terkecil. Lakukan hal yang sama seperti langkah
sebelumnya.
d. Ulangi hingga seluruh tulisan terkode.
Sebagai contoh,akan diberikan tabel dari banyaknya kemunculan suatu
tulisan “ABCCAAD”:
Tabel 1. Tabel Kemunculan Tulisan Simbol Kekerapan Peluang
Pada saat dilakukan langkah - langkah pengkodean Huffman seperti diatas,
maka hasilnya adalah :
Kode A : 0
Kode B : 110
Kode C : 10
Kode D : 111
3. Kompresi Audio MP3
Asal-usul MP3 dimulai dari penelitian IIS-FHG (Institut Integriette
Schaltungen-Fraunhofer Gesellschaft), sebuah lembaga penelitian terapan di
Munich, Jerman dalam penelitian coding audio perceptual. Penelitian tersebut
menghasilkan suatu algoritma yang menjadi standard sebagai ISO-MPEG Audio
Layer-3 (MP3)
Untuk melakukan kompresi audio , terdapat beberapa metode yang dapat
digunakan,antara lain :
a. Model psikoakustik ,critical band,dan joint stereo.
Dalam melakukan kompresi MP3,metode yang dilakukan adalah
model psikoakustik. Model psikoakustik adalah model yang menggambarkan
karakteristik pendengaran manusia. Salah satu karakteristik pendengaran
manusia adalah memiliki batas frekuensi 20 Hz s/d 20 kHz, dimana suara
yang memiliki frekuensi yang berada di bawah ambang batas ini tidak dapat
didengar oleh manusia, sehingga suara seperti itu tidak perlu dikodekan.
Beberapa percobaan pada psikoakustik adalah MPEG Layer-1,diikuti
MPEG Layer-2. Kedua model pertama ini mengurangi secara drastis tingkat
data yang diperlukan untuk memroduksi ulang suara berkualitas CD. MPEG
Layer-3 menguranginya lebih jauh(Layer-1 : 384 kbps,Layer-2: 192
kbps,Layer-3 :112 kbps). Perbedaan antara MPEG Layer 1,2 dan 3 dari segi
desain :
Gambar 3. MPEG Layer 1 dan 2
Gambar 4. MPEG Layer 3
Gambar 5. Proses Pembentukan File MP3
Blok pertama yang dilihat adalah blok Filter Bank. Fraunhofer
menggunakan solusi hibrid untuk MP3 yang mengkombinasikan sebuah
bank filter polifase dan sebuah Modified Discrete Cosine Transform (MDCT).
Bank filter polifase adalah pemisahan awal audio stream menjadi frekuensi
sub-band yang berjarak sama. Dengan sampel ini,frekuensi inti dipilih dan
kemudian digunakan untuk kompresi. Satu masalah yang muncul dari
pemilihan ini adalah frekuensi inti yang bertumpang tindih dengan subband,
yang menyebabkan masalah kualitas dan kejernihan suara. Untuk mencegah
masalah ini, MDCT digunakan pada 32 sub-band dari bank filter. Setiap jarak
sub-band dilebarkan untuk bertumpang tindih dengan sub-band tetangga.
Sampel baru diproses melalui MDCT dan ditambah dengan fungsi inversnya
untuk membatalkan setiap kesalahan pada MDCT. Proses pembatalan ini
dinamakan time domain aliasing cancellation.Ini adalah proses yang
memakan waktu, tapi kalkulasi dan waktu yang dibutuhkan dikurangi
menggunakan faktorisasi rekursif.
Sampel hasil dilewatkan ke porsi dari encoder joint stereo
coding.Joint stereo coding adalah dimana informasi yang berlebihan dan
tidak penting dibuang dari bit stream. Model perseptual (perceptual model)
mengkalkulasikan akan menjadi apa frekuensi limit untuk tiap sub-
band,yang digunakan dalam penentuan frekuensi kritis. Fungsi lainnya
adalah menentukan permulaan masking untuk setiap sub-band. Masking
adalah ketika satu suara membuat suara yang lain tidak dapat didengar,atau
menutupi suara lain.Jadi berdasarkan model psikoakustik, encoder dapat
menentukan untuk melakukan eliminasi atau mengurangi jumlah bit yang
dialokasi untuk setiap suara dibawah permulaan masking untuk setiap
subband. Faktor lain yang menentukan apakah yang dapat dihilangkan
adalah bit rate dari encoding.Semakin rendah bit rate,semakin banyak data
yang dihilangkan.
Aliran data dialirkan ke sepasang loop:noise control/distortion
loop(control loop)dan rate loop.Keseluruhan aliran data dibagi menjadi
beberapa potong,dan juga sub-band.Control loop mengecek setiap potongan
untuk menentukan noise berada dalam tiap subband melebihi batas
masking,atau noise yang diperbolehkan.Jika sub-band melebihi noise yang
diperbolehkan,maka faktor skala untuk sub-band tersebut harus
disesuaikan. Faktor skala menyediakan gain yang diperoleh untuk setiap
sub-band. Gain adalah perbandingan sinyal keluaran dan masukan. Untuk
mengganti syarat bit rate yang meningkat,rate loop diinisialisasikan.
Rate loop melakukan dan mengecek kode Huffman. Kode Huffman
adalah metode menganalisa sebuah setdata dan memroduksi sebuah set bit
yang optimal untuk merepresentasikan data.Semakin sering sampel input
digunakan,diberikan string bit yang lebih kecil,dengan demikian melakukan
kompresi lossless pada data lossy dari porsi enkoding psikoakustik,dan tabel
pengkodean Huffman yang berbeda digunakan untuk spektrum frekuensi
yang berbeda untuk memperoleh pengurangan ukuran maksimum.Jika
jumlah bit dari kode Huffman lebih besar dari bitrate yang
diperbolehkan,maka jumlah potongan waktu dikurangi.
b. Auditory Masking
Auditory Masking Effect, yaitu ketidakmampuan manusia untuk
mendengarkan suara pada frekuensi tertentu dengan amplitudo tertentu,
dimana pada frekuensi didekatnya terdapat suara dengan amplitudo yang
tinggi. Contoh : kita dapat mendengar nafas seseorang dalam ruangan sunyi,
namun jika dimainkan sebuah lagu dengan piano maka nafas jadi tak
terdengar.
Manusia tidak mampu mendengarkan suara pada frekuensi tertentu
dengan amplitudo tertentu jika pada frekuensi di dekatnya terdapat suara
dengan amplitudo yang jauh lebih tinggi.
Masking pendengaran adalah ketika persepsi satu suara dipengaruhi
oleh adanya suara lain. Masking dapat simultan atau non simultan, masking
simultan adalah ketika sebuah sinyal, suara yang diinginkan untuk didengar,
dibuat tak terdengar oleh masker, kebisingan atau suara yang tidak
diinginkan yang ada di seluruh sinyal.
Ambang batas tidak bertopeng adalah tingkat paling tenang dari
sinyal yang dapat dirasakan dalam tenang. Ambang bertopeng adalah tingkat
paling tenang dari sinyal yang dirasakan ketika disajikan dalam kebisingan.
Jumlah masking adalah perbedaan antara ambang bertopeng dan tidak
bertopeng. Sebagai contoh jika ambang bertopeng adalah 20dB dan ambang
batas tidak bertopeng adalah 35dB jumlah masking akan 15dB.
Tes masking dasarnya terkait dengan ambang batas tidak bertopeng
yang diukur pada subjek. Kemudian suara masking diperkenalkan pada
tingkat suara tetap dan sinyal disajikan pada saat yang sama. Tingkat sinyal
yang bervariasi sampai batas baru diukur. Ini adalah ambang bertopeng.
Fenomena masking sering digunakan untuk menyelidiki kemampuan
sistem pendengaran untuk memisahkan komponen-komponen suara yang
kompleks. Sebagai contoh jika dua suara dari dua frekuensi yang berbeda
(lapangan) yang dimainkan pada saat yang sama, dua suara yang terpisah
sering terdengar daripada nada kombinasi. Hal ini dikenal sebagai resolusi
frekuensi atau selektivitas frekuensi. Resolusi frekuensi diperkirakan terjadi
karena penyaringan di dalam koklea, organ pendengaran di telinga dalam.
Sebuah suara yang kompleks dibagi ke dalam komponen frekuensi yang
berbeda dan komponen ini menyebabkan puncak dalam pola getaran pada
tempat tertentu pada membran basilar dalam koklea
Masking menggambarkan batas-batas selektivitas frekuensi bahkan
pada orang pendengaran normal. Jika sinyal yang diperlukan tertutup oleh
masker dengan frekuensi yang berbeda untuk sinyal maka sistem
pendengaran tidak dapat membedakan antara dua frekuensi. Oleh karena itu
dengan melakukan percobaan untuk melihat kondisi yang diperlukan untuk
satu suara untuk menutupi sinyal sebelumnya mendengar, selektivitas
frekuensi dari sistem pendengaran dapat diselidiki.
Masking menggambarkan batas-batas selektivitas frekuensi. Jika
sinyal yang diperlukan tertutup oleh masker dengan frekuensi yang berbeda
untuk sinyal maka sistem pendengaran tidak dapat membedakan antara dua
frekuensi. Dengan bereksperimen dengan kondisi di mana satu suara dapat
menutupi sinyal sebelumnya mendengar, selektivitas frekuensi dari sistem
pendengaran dapat diuji.
1. Pengaruh frekuensi pada pola masking
a) frekuensi Similar
Seberapa efektif masker adalah pada meningkatkan ambang
sinyal tergantung pada frekuensi dari sinyal dan frekuensi masker
tersebut. Grafik pada Gambar B adalah serangkaian pola masking, juga
dikenal sebagai masking audiogram . Setiap grafik menunjukkan
jumlah masking dihasilkan pada masing-masing frekuensi masker
ditampilkan di sudut atas, 250, 500, 1000 dan 2000Hz. Sebagai contoh,
dalam grafik pertama masker tersebut disajikan pada frekuensi 250Hz
pada saat yang sama sebagai sinyal. Jumlah masker akan meningkatkan
ambang sinyal diplot dan ini diulang untuk frekuensi sinyal yang
berbeda, yang ditunjukkan pada sumbu X. Frekuensi masker yang
dipertahankan konstan. Efek masking ditampilkan di setiap grafik pada
tingkat suara masker berbagai.
Diadaptasi dari Ehmer (a)
Gambar diatas menunjukkan sepanjang sumbu Y jumlah
masking. Para masking terbesar adalah ketika masker dan sinyal
adalah frekuensi yang sama dan ini menurun sebagai frekuensi sinyal
bergerak lebih jauh dari frekuensi masker. Fenomena ini disebut on-
frekuensi masking dan terjadi karena masker dan sinyal berada dalam
sama pendengaran filter (gambar b). Ini berarti bahwa pendengar tidak
dapat membedakan antara mereka dan mereka dianggap sebagai salah
satu suara dengan suara tenang tertutup oleh satu lebih keras (gambar
c).
Diadaptasi dari Gelfand 2004 (b) Diadaptasi dari Gelfand 2004 (c)
Jumlah masker menimbulkan ambang sinyal jauh lebih sedikit di
masking frekuensi off, tetapi memiliki beberapa efek masking karena
beberapa tumpang tindih masker ke filter pendengaran dari sinyal
(gambar b)
Diadaptasi Dari Moore 1998 (d)
Masking frekuensi Off membutuhkan tingkat masker lebih besar
untuk memiliki efek masking, ini ditunjukkan pada Gambar e.
Diadaptasi Dari Moore 1998 (e)
b) frekuensi rendah
Perubahan pola masking tergantung pada frekuensi dari masker
dan intensitas (gambar a). Untuk tingkat rendah pada grafik 1000Hz,
seperti kisaran 20-40 dB, kurva relatif paralel. Sebagai intensitas
masker meningkatkan kurva terpisah, terutama untuk sinyal pada
frekuensi yang lebih tinggi dari masker tersebut. Hal ini menunjukkan
bahwa ada penyebaran efek masking ke atas dalam frekuensi sebagai
intensitas masker meningkat. Kurva ini jauh lebih dangkal dalam
frekuensi tinggi daripada di frekuensi rendah. Ini merata menyebar ke
atas disebut masking dan mengapa sebuah topeng suara mengganggu
sinyal frekuensi tinggi jauh lebih baik dari sinyal frekuensi rendah.
Gambar A juga menunjukkan bahwa dengan meningkatnya
frekuensi masker, pola masking menjadi semakin terkompresi. Ini
menunjukkan bahwa masker frekuensi tinggi hanya efektif pada
rentang sempit frekuensi, dekat dengan frekuensi masker. Masker
frekuensi rendah di sisi lain adalah efektif pada rentang frekuensi yang
luas.
Fletcher melakukan percobaan untuk menemukan berapa
banyak dari sebuah band kebisingan berkontribusi pada masking dari
nada. Dalam percobaan, sinyal nada tetap memiliki bandwidth berbagai
kebisingan berpusat di atasnya. Ambang bertopeng tercatat untuk
bandwidth masing-masing. Penelitiannya menunjukkan bahwa ada
bandwidth yang kritis terhadap kebisingan yang menyebabkan efek
masking maksimum dan energi di luar band yang tidak mempengaruhi
masking. Hal ini dapat dijelaskan oleh sistem pendengaran memiliki
filter pendengaran yang berpusat di frekuensi nada. Bandwidth dari
masker yang ada di dalam filter ini pendengaran efektif masker nada
tapi masker bagian luar filter tidak berpengaruh (gambar F.)
Diadaptasi Dari Sebuah Diagram Dengan Gelfand (F)
c) Pengaruh intensitas
Berbagai tingkat intensitas juga dapat memiliki efek pada
masking. Ujung bawah filter menjadi lebih datar dengan tingkat desibel
yang meningkat, sedangkan akhir yang lebih tinggi menjadi sedikit
lebih curam (Moore 1998). Perubahan kemiringan sisi frekuensi tinggi
saringan dengan intensitas yang kurang konsisten dari yang ada pada
frekuensi rendah. Pada frekuensi menengah (1-4 kHz) kemiringan
meningkat dengan meningkatnya intensitas, tetapi pada frekuensi
rendah tidak ada kecenderungan yang jelas dengan tingkat dan filter
pada frekuensi pusat yang tinggi menunjukkan penurunan kecil di
lereng dengan tingkat meningkat. Para ketajaman filter tergantung
pada tingkat input dan bukan tingkat output ke filter. Sisi bawah dari
filter pendengaran juga memperluas dengan tingkat meningkat.
Pengamatan ini diilustrasikan pada Gambar g.
Diadaptasi Dari Moore 1998 (G)
d) Kondisi Masking Lain
Masking ipsilateral ("sisi yang sama") bukan satu-satunya
kondisi di mana masking terjadi. Situasi lain dimana terjadi masking
disebut kontralateral ("sisi lain") masking simultan. Dalam hal ini,
contoh di mana sinyal mungkin terdengar pada satu telinga tetapi
sengaja diambil dengan menerapkan masker ke telinga yang lain.
Situasi terakhir di mana terjadi masking masking pusat. Hal ini
mengacu pada kasus di mana sebuah masker menyebabkan elevasi
ambang batas. Ini bisa dalam ketiadaan, atau di samping, efek lain dan
karena interaksi dalam sistem saraf pusat antara input saraf terpisah
diperoleh dari masker dan sinyal.
Mencari H - Masking Simultan Ipsilateral
2. Mekanisme Masking
Ada mekanisme yang berbeda banyak masking, satu penekanan
makhluk. Ini adalah ketika ada pengurangan respon terhadap sinyal
karena kehadiran orang lain. Hal ini terjadi karena aktivitas saraf asli
disebabkan oleh sinyal pertama tersebut dikurangi dengan aktivitas
saraf dari suara lain.
Penambahan adalah penambahan masker beberapa
mengakibatkan ambang masker meningkat akhir lebih besar dari
masker asli (Lincoln 1998).
Kombinasi nada adalah produk dari sinyal / s dan sebuah masker /
s. Hal ini terjadi ketika dua suara berinteraksi penyebab suara baru, yang
dapat lebih terdengar dari sinyal asli. Hal ini disebabkan oleh distorsi
non linier yang terjadi di telinga.
Sebagai contoh, nada kombinasi dua masker bisa menjadi masker
lebih baik dari dua masker asli saja. Suara berinteraksi dengan berbagai
cara tergantung pada perbedaan frekuensi antara dua suara. Dua yang
paling penting adalah nada perbedaan kubik dan nada perbedaan
kuadrat.
3. Sistem Masking Suara
Pengaruh masking pendengaran digunakan dalam sistem
masking suara . Ini adalah sistem audio yang disiarkan White noise
untuk tujuan menyembunyikan suara yang tidak diinginkan. Bunyi yang
tidak diinginkan mungkin intermiten suara dari mesin, orang atau
sumber lain. Biasanya, suara ini disaring untuk memberikan efek terbaik
menyembunyikan bunyi yang tidak diinginkan.
4. Masking Spektral
Masking spektral adalah versi frekuensi-domain masking
sementara , dan cenderung terjadi pada suara dengan frekuensi yang
sama: lonjakan kuat pada 1 kHz akan cenderung untuk menutupi sebuah
nada tingkat rendah sebesar 1,1 kHz. Ini juga dapat dimanfaatkan oleh
model psychoacoustic .
c. Critical Band
Critical Band atau pita frekuensi kritis, yaitu daerah frekuensi
tertentu yang harus diperhatikan lebih teliti lagi, karena pendengaran
manusia lebih peka pada frekuensi-frekuensi ini. Dengan demikian frekuensi
sensitif seperti frekuensi rendah mendapatan alokasi bit dan alokasi sub-
band pada filter lebih banyak daripada frekuensi yang tidak sensistif
(frekuensi tinggi).
Psychophysiologically, mengalahkan dan pendengaran sensasi
kekasaran dapat dihubungkan dengan ketidakmampuan mekanisme
frekuensi pendengaran untuk menyelesaikan analisis input yang frekuensi
perbedaan lebih kecil dari bandwidth kritis dan ke "gelitikan" tidak teratur
sehingga dari sistem mekanis (membran basilar ) yang beresonansi dalam
menanggapi masukan tersebut. Band Kritis juga terkait erat dengan
fenomena masking pendengaran - penurunan kemampuan mendengar sinyal
suara saat di hadapan sinyal kedua intensitas tinggi dan dalam band kritis
yang sama. Fenomena masking memiliki implikasi luas, mulai dari hubungan
yang kompleks antara kenyaringan (bingkai persepsi dari referensi) dan
intensitas (frame fisik referensi) terdengar algoritma kompresi.
Filter digunakan dalam banyak aspek audiologi dan psychoacoustics
termasuk sistem pendengaran perifer. Filter adalah perangkat yang
meningkatkan frekuensi tertentu dan melemahkan orang lain. Secara
khusus, filter band-pass memungkinkan rentang frekuensi dalam bandwidth
untuk melewati waktu menghentikan mereka di luar cut-off frekuensi.
Sebuah filter Band-pass menunjukkan frekuensi tengah (Fc), semakin rendah
(Fl) dan atas (Fu) memotong frekuensi dan bandwidth. Cut-off atas dan
bawah frekuensi didefinisikan sebagai titik di mana amplitudo jatuh ke 3dB
bawah amplitudo puncak. Bandwidth adalah daerah antara cut-off frekuensi
atas dan bawah dan adalah rentang frekuensi melewati filter.
d. Joint stereo
Stereo Bersama adalah properti dari aliran data audio yang
mendukung lebih dari satu metode pengkodean stereo, seperti SS
("sederhana" atau "L / R" stereo), MS ("pertengahan sisi" stereo), atau IS
("intensitas" stereo). Aliran stereo bersama mungkin masih hanya
menggunakan metode pengkodean tunggal, tetapi demi efisiensi atau
kualitas mungkin beralih antara metode pada bingkai atau bahkan sub-frame
dasar.
Sebagai contoh, tinggi bitrate "stereo bersama" MP3 file dapat
mengandung campuran SS dan MS frame, atau mungkin berisi semua frame
SS atau semua frame MS. Sebuah "stereo bersama" non-MP3 tidak akan
pernah mengandung campuran jenis frame.
Bersama metode pengkodean stereo dalam prosa umumnya
mengacu pada apa pun alternatif sederhana (L / R) coding stereo didukung
oleh format tertentu, meskipun stereo sederhana juga merupakan pilihan.
Terkadang dual channel stereo mengirimkan informasi yang sama.
Dengan menggunakan joint stereo, informasi yang sama ini cukup
ditempatkan dalam salah satu channel saja dan ditambah dengan informasi
tertentu. Dengan teknik ini bitrate dapat diperkecil
Bentuk stereo bersama menggunakan teknik yang dikenal sebagai
pengkodean frekuensi bersama, yang berfungsi pada prinsip lokalisasi
suara . Pendengaran manusia adalah terutama akut di kurang memahami
arah frekuensi audio tertentu. Dengan memanfaatkan karakteristik ini,
intensitas coding stereo dapat mengurangi tingkat data stream audio dengan
perubahan yang dirasakan sedikit atau tidak dalam kualitas yang jelas.
Lebih khusus lagi, dominasi antar-aural perbedaan waktu (ITD)
untuk lokalisasi suara oleh manusia hanya hadir untuk frekuensi rendah.
Yang meninggalkan perbedaan amplitudo antar-aural (IAD) sebagai indikator
lokasi yang dominan untuk frekuensi yang lebih tinggi. Ide coding stereo
intensitas adalah menggabungkan spektrum atas menjadi hanya satu saluran
(sehingga mengurangi perbedaan secara keseluruhan antara saluran) dan
mengirimkan informasi samping sedikit tentang cara menggeser daerah
frekuensi tertentu untuk memulihkan isyarat IAD.
Jenis coding tidak sempurna merekonstruksi audio asli karena
hilangnya informasi yang menghasilkan penyederhanaan gambar stereo dan
dapat menghasilkan kentara artefak kompresi . Namun, untuk laju bit yang
sangat rendah jenis coding biasanya menghasilkan keuntungan dalam
kualitas yang dirasakan dari audio. Hal ini didukung oleh banyak format
kompresi audio (termasuk MP3 , AAC dan Vorbis ) tetapi tidak selalu oleh
setiap encoder.
C. Kesimpulan
Beberapa karakteristik dari MP3 memanfaatkan kelemahan pendengaran manusia:
1. Model psikoakustik
Model psikoakustik adalah model yang menggambarkan karakteristik
pendengaran manusia. Salah satu karakteristik pendengaran manusia adalah
memiliki batas frekuensi 20 Hz s/d 20 kHz, dimana suara yang memiliki
frekuensi yang berada di bawah ambang batas ini tidak dapat didengar oleh
manusia, sehingga suara seperti itu tidak perlu dikodekan.
2. Auditory masking
Manusia tidak mampu mendengarkan suara pada frekuensi tertentu dengan
amplitudo tertentu jika pada frekuensi di dekatnya terdapat suara dengan
amplitudo yang jauh lebih tinggi.
3. Critical band
Critical band merupakan daerah frekuensi tertentu dimana pendengaran
manusia lebih peka pada frekuensi-frekuensi rendah, sehingga alokasi bit dan
alokasi sub-band pada filter critical band lebih banyak dibandingkan frekuensi
lebih tinggi.
4. Joint stereo
Terkadang dual channel stereo mengirimkan informasi yang sama. Dengan
menggunakan joint stereo, informasi yang sama ini cukup ditempatkan dalam
salah satu channel saja dan ditambah dengan informasi tertentu. Dengan teknik
ini bitrate dapat diperkecil.
REFERENSI
Munir,Rinaldi ,“Diktat Kuliah IF 2091 Struktur Diskrit”, STEI,ITB,2008
Ruckert,Martin , “Understanding MP3: syntax, semantics, mathematics, and
algorithms”, Birkhäuser,2005
http://www.omninerd.com/articles/How_Audio_Compression_ Works . Tanggal
akses : 19 Desember 2009
http://en.wikipedia.org/wiki/Audio_file_format .Tanggal akses : 15 Desember
2009.
http://en.wikipedia.org/wiki/Huffman_coding . Tanggal akses : 15 Desember
2009
http://computer.howstuffworks.com/file-compression3.htm Tanggal akses : 15
Desember 2009
http://www.mp3-converter.com/mp3codec/huffman_coding.htm Tanggal akses :
19 Desember 2009