HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG SÁCH HƯỚNG DẪN HỌC TẬP XỬ LÝ ÂM...
-
Upload
independent -
Category
Documents
-
view
4 -
download
0
Transcript of HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG SÁCH HƯỚNG DẪN HỌC TẬP XỬ LÝ ÂM...
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG SÁCH HƯỚNG DẪN HỌC TẬP
XỬ LÝ ÂM THANH VÀ HÌNH ẢNH (DÙNG CHO SINH VIÊN HỆ ĐÀO TẠO ĐẠI HỌC TỪ XA)
Biên soạn: TS Nguyễn Thanh Bình ThS Võ Nguyễn Quốc Bảo
TP HỒ CHÍ MINH - 2007
LƯU HÀNH NỘI BỘ
LỜI NÓI ĐẦU Tài liệu hướng dẫn học tập môn "Xử lý âm thanh và hình ảnh" dành cho khối đào tạo từ xa
chuyên ngành điện tử viễn thông. Tài liệu này giới thiệu những kiến thức cơ bản về xử lý âm thanh và hình ảnh. Đặc biệt, tác giả chú trọng tới vấn đề xử lý tín hiệu ứng dụng trong mạng viễn thông: đó là các phương pháp nén tín hiệu, lưu trữ, các tiêu chuẩn nén tín hiệu âm thanh và hình ảnh. Những kiến thức được trình bày trong tài liệu sẽ giúp học viên tiếp cận nhanh với các vấn đề thực tiễn thường gặp trong mạng viễn thông.
Vì khối lượng kiến thức trong lĩnh vực xử lý âm thanh cũng như hình ảnh rất lớn, trong tài liệu hướng dẫn chỉ có thể nêu lên một số vấn đề chính. Để tìm hiểu sâu và rộng hơn học viên phải nghiên cứu thêm trong các sách tham khảo được tác giả đề cập tới trong phần cuối của tài liệu này.
Đây là lần biên soạn đầu tiên, chắc chắn tài liệu còn nhiều sơ sót, rất mong các bạn đọc trong quá trình học tập và các thày cô giảng dạy môn học này đóng góp các ý kiến xây dựng.
Tp. Hồ Chí Minh 10/11/2007
Nhóm biên soạn
Biên soạn phần xử lý âm thanh: ThS Võ Nguyễn Quốc Bảo Biên soạn phần xử lý hình ảnh: TS Nguyễn Thanh Bình
Chương 1 Giới thiệu chung về xử lý tín hiệu
3
CHƯƠNG 1 GIỚI THIỆU CHUNG VỀ XỬ LÝ TÍN HIỆU
1.1 CÁC KHÁI NIỆM VÀ LÝ THUYẾT CƠ BẢN
Xử lý tín hiệu là lĩnh vực khoa học được nghiên cứu và phát triển trong một thời gian dài. Hệ thống xử lý tín hiệu tương tự cũng như xử lý tín hiệu số được ứng dụng rất rộng rãi trong ngành viễn thông cũng như trong nhiều ngành khoa học khác. Trong những năm gần đây, các phương pháp xử lý tín hiệu số đang dần chiếm ưu thế, cho dù, về mặt bản chất, tín hiệu nguyên thủy được truyền đi và tín hiệu mà người nhận tin có thể tiếp thu được vẫn là tín hiệu tương tự. Xu hướng phát triển trên hình thành do hệ thống số có nhiều tính năng nổi trội của so với các hệ thống analog cổ điển:
1. Các hệ thống xử lý số có độ linh hoạt cao: có thể nhanh chóng thay đổi cơ chế hoạt động của phần cứng thông qua phần mềm điều khiển.
2. Độ ổn định cao, ít chịu ảnh hưởng của môi trường xung quanh, tính chất của hệ thống số hầu như không thay đổi theo thời gian.
3. Khả năng xử lý tín hiệu với độ chính xác cao. Tín hiệu số cho phép lưu trữ và sao chép nhiều lần với mức độ tin cậy cao. Khả năng chống nhiễu của tín hiệu số cao hơn so với tín hiệu tương tự.
4. Thời gian thiết kế và thi công các hệ thống số nhanh, kích thước nhỏ gọn, mức tiêu hao năng lượng thấp v.v.
Trước đây, do tốc độ xử lý của máy tính còn chậm, việc xử lý các tín hiệu "phức tạp" như tín hiệu âm thanh chất lượng cao hay tín hiệu ảnh số không thể thực hiện được trong thời gian thực. Tuy nhiên, trong những năm gần đây, với sự phát triển mạnh mẽ của công nghệ vi điện tử, nhược điểm nêu trên đã được khắc phục. Ví dụ điển hình là DSP xử lý ảnh và âm thanh cao cấp của hãng Texac Instrument TMS320DM6446 Digital Media System-on-Chip làm việc với tần số xung nhịp 594 Mhz, cho phép thực hiện nén video theo chuẩn MPEG-2 và MPEG-4 thời gian thực (http://focus.ti.com/docs/prod/folders/print/tms320dm6446.html). Tốc độ xử lý của DSP này là 4752 MIPS (Million Instructions Per Second - MIPS). DSP TMS320DM6446 được tích hợp 4 kênh biến đổi DAC (54MHz) để tạo các tín hiệu video tiêu chuẩn theo hệ NTSC/PAL, S-Video cũng như video thành phần (Component video). Giá thành của DSP xử lý video chuyên dụng nói trên khoảng <45$. Hiện nay, kỹ thuật xử lý tín hiệu số đang được sử dụng rất hiệu quả trong các lĩnh vực xử lý âm thanh (nhận dạng tiếng nói, tổng hợp âm thanh và tiếng nói v.v.), xử lý ảnh (nâng cao chất lượng ảnh, phân vùng, nhận dạng .v.v), đo lường và điều khiển, thiên văn học v.v.
Tài liệu hướng dẫn học tập môn xử lý âm thanh và hình ảnh này thực chất có thể được gọi là tài liệu hướng dẫn "nhập môn" xử lý âm thanh và hình ảnh. Thông thường các tài liệu nghiên cứu về xử lý ảnh và âm thanh được tách riêng vì: 1- Đây là hai lĩnh vực xử lý tín hiệu rất rộng, liên quan tới rất nhiều ngành khoa học khác nhau; 2- Quá trình xử lý tín hiệu âm thanh và hình ảnh phải được thực hiện dựa trên những hiểu biết sâu sắc về hệ thống thính giác và thị giác của con người. Ở các phần sau, ta sẽ thấy rằng đa số các kỹ thuật xử lý tín hiệu âm thanh và hình ảnh sẽ dựa trên đặc điểm tiếp thu thông tin của các giác quan nói trên; 3- Tín hiệu âm thanh và hình ảnh khác nhau về bản chất: tín hiệu âm thanh là tín hiệu một chiều còn tín hiệu hình ảnh (tĩnh hay động) là tín hiệu hai hoặc ba chiều. Chính vì thế, công cụ toán học để mô tả và phân tích quá trình xử lý hai loại tín hiệu trên cũng khác nhau.
Tuy âm thanh và hình ảnh là hai tín hiệu tương đối khác nhau, nhưng quá trình xử lý chúng
Chương 1 Giới thiệu chung về xử lý tín hiệu
4
vẫn được mô tả dựa trên nền tảng lý thuyết xử lý tín hiệu tổng quát. Sau đây chúng ta nhắc lại một số những khái niệm cơ bản về tín hiệu và hệ thống xử lý tín hiệu.
1.1.1 Tín hiệu và phân loại tín hiệu
Tín hiệu do một thiết bị đầu cuối tạo ra, tín hiệu là biểu diễn vật lý (dòng điện, điện áp...) của tin tức, được truyền đi từ đầu phát đến đầu thu. Tín hiệu có thể được biểu diễn bằng một hàm của nhiều biến số: ( ) ( )ϕ,,, fvtftm = , f - tần số, t - thời gian, v - biên độ, ϕ - trạng thái pha.
Khi phân loại tín hiệu ta có thể dựa trên các cơ sở khác nhau như phân loại theo năng lượng, hình thái, theo tính chất của phổ của tín hiệu v.v.
Trong lý thuyết tín hiệu có hai lớp tín hiệu quan trọng đó là tín hiệu xác định và ngẫu nhiên. Tín hiệu xác định là tín hiệu có quá trình biến đổi biểu diễn bằng một hàm thời gian, và có thể xác định chính xác ở mọi thời điểm. Các tín hiệu xác định có vai trò rất quan trọng trong lý thuyết tín hiệu cổ điển. Tín hiệu xác định còn chia ra thành tín hiệu tuần hoàn (theo chu kỳ T) và không tuần hoàn (phi chu kỳ).Tín hiệu tuần hoàn là những tín hiệu có thể biểu diễn bằng công thức như sau: ( ) ( ) nguyeânkkTtxtx −+= - tín hiệu này tuân theo quy luật lặp lại đều với chu kỳ T.
Tín hiệu ngẫu nhiên là các tín hiệu mà không thể dự kiến trước hành vi của chúng theo thời gian và để biểu diễn chúng phải dựa trên lý thuyết thống kê. Trên thực tế, các tín hiệu thông tin đều mang tính chất ngẫu nhiên.
Tín hiệu có thể có biên độ và biến thời gian (không gian) là rời rạc hay liên tục, do đó chúng ta còn phân biệt bốn loại tín hiệu sau:
Tín hiệu tương tự (analog)
Tín hiệu lượng tử
Tín hiệu rời rạc
Tín hiệu số (digital)
Biên độ liên tục rời rạc liên tục rời rạc
Biến thời gian liên tục liên tục rời rạc rời rạc
Như vậy, tín hiệu tương tự là tín hiệu có biên độ và biến thời gian là liên tục. Nếu tín hiệu được biểu diễn bằng hàm của biến rời rạc thì tín hiệu đó là tín hiệu rời rạc. Ký hiệu chung của tín
hiệu rời rạc là ( )s sx nT , snT là biến độc lập, rời rạc, n là số nguyên, sT là chu kỳ lấy mẫu.
Tín hiệu có biên độ và thời gian đều rời rạc được gọi là tín hiệu số, ký hiệu là ( )dx n .
Ngoài ra, dựa trên tính chất của tin tức truyền đi, người ta còn phân loại các tín hiệu sau:
- Tín hiệu thoại (tiếng nói con người).
- Tín hiệu hình ảnh tĩnh hay ảnh động (tín hiệu video)
- Tín hiệu dữ liệu (data) dùng trong hệ thống máy tính, bộ vi xử lý. Một số tín hiệu khác, phân biệt theo bề rộng phổ và tần số (tín hiệu dải rộng, dải hẹp, cao
tần v.v.) cũng sẽ được định nghĩa và sử dụng trong những phần tiếp theo.
1.1.2 Tín hiệu rời rạc
Tín hiệu x(t) có biến thời gian t rời rạc được gọi là tín hiệu rời rạc, chúng ta có thể ký hiệu là {xn} với n là số nguyên (n = 0, ±1, ±2, … ).
Chương 1 Giới thiệu chung về xử lý tín hiệu
5
1.1.2.1 Biểu diễn tín hiệu rời rạc
a- Biểu diễn toán học
Xét hàm x(n) với n là phần tử nguyên. Ký hiệu tín hiệu rời rạc :
{ ( )}x x n n= − ∞ < < +∞
⎩⎨⎧ ≤≤
=laïi coøn
toaùn thöùc bieåun
NnNnx
0)( 21
b- Biểu diễn bằng đồ thị
Để minh hoạ theo kiểu nhìn trực quan, ta có thể vẽ đồ thị (hình 1.1.1) của dãy x(n). c- Biểu diễn bằng dãy số
Chúng ta không để ở dạng chung (một tổng hay tích) mà khai triển các giá trị của tín hiệu rời rạc như sau : ),...}1n(x),n(x),1n(n{...,)n(x +−=
↑
=
0, ,41 ,
21 ,
43 1, 0 ,...},{...,)n(x
↑ : chỉ mẫu tại n = 0.
1.1.2.2 Các phép biến đổi tín hiệu rời rạc
a- Phép nhân hai tín hiệu rời rạc :
)}().({. nynxyx = (1.1.1)
b- Phép nhân tín hiệu rời rạc với hằng số :
)}(.{. nyy αα = (1.1.2)
c- Phép cộng hai tín hiệu rời rạc :
)}()({ nynxyx +=+ (1.1.3)
d- Phép dịch (trễ) :
Dãy x được dịch sang phải n0 mẫu, thành dãy y :
)()( 0nnxny −= với n0 > 0 (1.1.4)
Dãy x được dịch sang trái n0 mẫu, thành dãy y :
)nn(x)n(y 0+= với n0 > 0 (1.1.5)
Như vậy một tín hiệu x(n) bất kỳ có thể biểu diễn :
∑∞
−∞=
−=k
knkxnx )()()( δ (1.1.6)
n
-1 0 1 2 3 4 5 6
)n(x
Hình 1.1.1 Tín hiệu rời rạc
Chương 1 Giới thiệu chung về xử lý tín hiệu
6
e- Tín hiệu rời rạc tuần hoàn với chu kỳ là N nếu thoả mãn :
)()( Nnxnx += , ∀ n. (1.1.7)
Tín hiệu tuần hoàn có thể được ký hiệu với chỉ số p (period) : xp(n). Tín hiệu chỉ được xác định trong một khoảng hữu hạn N mẫu được gọi là tín hiệu có độ dài hữu hạn N.
f- Tín hiệu năng lượng và tín hiệu công suất:
* Năng lượng của tín hiệu được định nghĩa bằng tổng bình phương các modul :
2( )xNn
E x n∞
=−∞
= ∑ (1.1.8)
* Công suất trung bình của tín hiệu rời rạc được định nghĩa như sau:
21lim ( )2 1
N
xN N n NP x n
N→∞ =−
=+ ∑ (1.1.9)
g- Tín hiệu tuần hoàn và tín hiệu không tuần hoàn
* Tín hiệu là tuần hoàn với chu kỳ N (N > 0) , nếu và chỉ nếu
x(n + N) = x(n) (1.1.10)
Giá trị nhỏ nhất của N được gọi là chu kỳ. x(n + kN) = x(n) ; k nguyên dương * Nếu không có giá trị N thỏa (1.1.10), thì tín hiệu gọi là không tuần hoàn.
h- Tín hiệu chẵn và tín hiệu lẻ
Tín hiệu x(n) được gọi là chẵn khi
x(-n) = x(n) (1.1.11)
Ngược lại, tính hiệu x(n) được gọi lẻ khi
x(-n) = -x(n) (1.1.12)
i- Phép gập tín hiệu:
Thay biến n bằng (-n), kết quả ta có ( )x n thay vì ( )x n− . Phép biến đổi này thực hiện
bằng cách lấy đối xứng tín hiệu ( )x n qua gốc thời gian.
1.1.3 Phân loại hệ thống
1.1.3.1 Hệ thống tương tự Quá trình biến đổi tín hiệu được thực hiện trong hệ thống xử lý tín hiệu. Các hệ thống xử lý
tín hiệu được phân loại dựa vào đặc trưng của tín hiệu mà nó xử lý. Từ cách phân loại tín hiệu trên đây, ta có các hệ thống xử lý tín hiệu tương ứng như sau:
Hệ thống tương tự: các mạch lọc tương tự, mạch khuyếch đại, nhân tần số, điều chế tín hiệu v.v.
Hệ thống rời rạc: mạch tạo xung, điều chế xung v.v Hệ thống số: mạch lọc số..
Chương 1 Giới thiệu chung về xử lý tín hiệu
7
Ngoài ra cũng còn các hệ thống hỗn hợp khác như hệ thống biến đổi tương tự- số hay ngược lại.
Tín hiệu vào và tín hiệu ra của một hệ thống quan hệ với nhau thông qua toán tử biến đổi T:
( ) ( ) ( ) ( )TT x t y t hay x t y t= ⎯⎯→⎡ ⎤⎣ ⎦ (1.1.13)
1.1.3.1.1 Các tính chất của hệ thống tương tự a) Tính tuyến tính:
Hệ thống là tuyến tính khi nó có tính xếp chồng:
nếu
)t(ya)t(ya)t(xa)t(xa)t(y)t(x)t(y)t(x
22112211
22
11
+→+→→
(1.1.14)
b) Tính bất biến theo thời gian: Hệ thống được gọi là bất biến nếu
( ) ( )y t T x t= ⎡ ⎤⎣ ⎦ thì ( ) ( )0 0y t t T x t t− = −⎡ ⎤⎣ ⎦ (1.1.15)
c) Tính nhân quả
Hệ thống được gọi là nhân quả nếu đáp ứng của nó tại thời điểm bất kỳ chỉ phụ thuộc vào các giá trị của tín hiệu vào ở thời điểm hiện tại và quá khứ.
d) Tính ổn định: Một hệ thống được gọi là ổn định nếu tín hiệu ra giới hạn với tất cả các tín hiệu vào giới hạn.
Dựa trên các tính chất đã nêu của hệ thống, chúng ta có thể phân loại các hệ thống như sau: hệ thống tuyến tính, hệ thống bất biến, hệ thống nhân quả, hệ thống tuyến tính bất biến.
1.1.3.1.2 Các hệ thống tuyến tính bất biến (LTI) Các hệ thống tuyến tính bất biến thường được biểu diễn trong miền thời gian dưới các dạng
sau: - Phương trình vi phân - Phương trình trạng thái - Đáp ứng xung.
Đáp ứng xung của hệ thống ( )h t là đáp ứng ra của hệ thống khi tín hiệu đưa vào là xung
đơn vị. Nếu hệ thống là tuyến tính và bất biến thì tín hiệu ra của hệ thống có thể tìm được thông qua tích chập giữa tín hiệu vào và hàm đáp ứng xung:
( ) ( ) ( ) ( ) ( )y t x t h t x h t dτ τ τ∞
−∞
= ∗ = −∫ (1.1.16)
Các tính chất của hệ thống LTI � Tính nhân quả
Hệ thống LTI là nhân quả nếu ( ) 0h t = với t∀ và ngược lại
nếu ( ) 0h t = với t∀ thì hệ thống là nhân quả.
Chương 1 Giới thiệu chung về xử lý tín hiệu
8
� Tính ổn định của hệ thống LTI
Cho tín hiệu vào hệ thống được giới hạn biên độ: ( ) xx t M≤ < ∞ , xM là hằng số.
Trong trường hợp này, hệ thống sẽ là ổn định nếu đáp ứng xung của nó thỏa mãn điều
kiện: ( )h t dt∞
−∞
< ∞∫ . Điều kiện này là cần và đủ để hệ thống LTI là ổn định.
� Hệ thống LTI không nhớ: hệ thống tuyến tính bất biến là không nhớ nếu ( ) 0h t =
với 0t ≠ .
1.1.3.1.3 Phương trình sai phân tuyến tính hệ số hằng
Cho ( )x t và ( )y t là tín hiệu vào ra của hệ thống tuyến tính bất biến. Phương trình sai
phân tuyến tính hệ số hằng tổng quát của hệ thống có thể biểu diễn dưới dạng:
( ) ( ) ( ) ( )0 0
N Mk r
k rk r
a y t b x t= =
=∑ ∑ (1.1.17)
N, M là số nguyên dương, N là bậc của phương trình.
Nghiệm đầy đủ của phương trình bằng tổng nghiệm riêng ( )ry t và nghiệm thuần nhất
( )0y t : ( ) ( ) ( )0ry t y t y t= + .
Trong đó nghiệm thuần nhất ( )0y t là nghiệm của phương trình thuần nhất:
( ) ( )0
0N
kk
ka y t
=
=∑ . (1.1.18)
1.1.3.2 Hệ thống rời rạc
Hệ thống rời rạc được đặc trưng bởi toán tử T làm nhiệm vụ biến đổi dãy vào ( )x n (là tín
hiệu rời rạc) thành dãy ra ( )y n . Toán tử T cho chúng ta thấy quan hệ vào ra của hệ thống.
Chúng ta có hai cách để biểu diễn toán tử T:
( ) ( ) ( ) ( )TT x t y t hay x t y t= ⎯⎯→⎡ ⎤⎣ ⎦ (1.1.19)
Dãy vào còn được gọi là kích thích, còn dãy ra là đáp ứng của hệ thống đối với kích thích đang khảo sát.
1.1.3.2.1 Hệ thống rời rạc tuyến tính bất biến (LTI) a. Hệ thống tuyến tính Hệ thống tuyến tính là hệ thống mà quan hệ vào ra của hệ thống thoả mãn nguyên lý xếp chồng.
Với ( )1x n và ( )2x n là các chuỗi vào bất kỳ, ( )1y n và ( )2y n là các chuỗi ra tương ứng. Hệ
thống được gọi là tuyến tính khi:
1 1 2 2
1 1 2 2 1 1 2 2
( ) ( ); ( ) ( )
( ) ( ) ( ) ( )
T T
T
x n y n x n y n
a x n a x n a y n a y n
⎯⎯→ ⎯⎯→
+ ⎯⎯→ + (1.1.20)
trong đó a1, a2 là các hằng số.
Chương 1 Giới thiệu chung về xử lý tín hiệu
9
b. Hệ thống tuyến tính bất biến
Nếu ( )y n là đáp ứng của kích thích ( )x n thì hệ thống tuyến tính gọi là bất biến khi
( )y n k− là đáp ứng của hệ thống đối với kích thích ( )x n k− . Nếu biến số là thời gian thì ta
có hệ thống bất biến theo thời gian. Đối với hệ thống bất biến, khi kích thích giống nhau thì đáp ứng sẽ giống nhau tại mọi thời điểm. c. Hệ thống nhân quả và không nhân quả
Một hệ thống gọi là nhân quả khi tín hiệu ngõ ra tại một thời điểm nào đó chỉ phụ thuộc vào các giá trị của tín hiệu vào từ thời điểm đó trở lại. Ta có thể biểu diễn quan hệ vào - ra của hệ thống nhân quả bằng một phương trình toán học như sau:
( ) ( ) ( ) ( ), 1 , 2 ....y n F x n x n x n= − −⎡ ⎤⎣ ⎦ , với F là một hàm số nào đó.
Nếu hệ thống không thỏa mãn được điều kiện trên thì ta gọi hệ thống đó là không nhân quả.
d. Hệ thống ổn định và không ổn định
Một hệ thống gọi là ổn định nếu nó bị chặn (Bounded Input Bounded Output - BIBO), tức là với một tín hiệu vào ( )x n hữu hạn thì tín hiệu ra ( )y n cũng hữu hạn:
nếu ( ) xx t M≤ < ∞ , xM là hằng số thì
( ) yy t M≤ < ∞ , yM là hằng số.
1.1.3.2.2 Đáp ứng xung của hệ thống tuyến tính bất biến Nếu hệ thống là tuyến tính và bất biến ta có:
Khi hệ thống là tuyến tính và bất biến, thì ta có quan hệ sau :
( ) ( ) ( )k
y n x k h n k∞
=−∞
= −∑ (1.1.21)
( )h n là đáp ứng xung của hệ thống tuyến tính bất biến, không phụ thuộc vào biến k.
Đáp ứng của hệ thống có thể tìm được thông qua tích chập của kích thích và đáp ứng xung:
( ) ( ) ( ) ( ) ( )k
y n x k h n k x n h n∞
=−∞
= − = ∗∑ (1.1.22)
Như chúng ta đã biết, các hệ thống có tín hiệu ra chỉ phụ thuộc vào tín hiệu vào trong quá khứ và hiện tại được gọi là hệ thống nhân quả.
Định lý : Hệ thống tuyến tính bất biến là nhân quả nếu và chỉ nếu đáp ứng xung h(n) = 0 với mọi n < 0.
1.1.3.2.3 Hệ thống tuyến tính bất biến và ổn định Tính ổn định là một điều kiện ràng buộc quan trọng cần xét đến trong thực tế đối với các
hệ thống xử lý tín hiệu. Theo định nghĩa, một hệ thống được gọi là ổn định hay là hệ BIBO (Bounded Input Bounded Output) nếu đáp ứng của hệ thống đó luôn bị chặn khi kích thích vào bị chặn. Thuật ngữ bị chặn có thể hiểu là “có giá trị hữu hạn”.
Chương 1 Giới thiệu chung về xử lý tín hiệu
10
Định lý: Một hệ thống tuyến tính bất biến được xem là ổn định nếu và chỉ nếu đáp ứng xung thoả mãn điều kiện sau :
∞<= ∑
∞
−∞=nnhS )(
(1.1.23)
1.1.3.2.4 Phương trình sai phân tuyến tính hệ số hằng
a. Phương trình sai phân tuyến tính Về mặt toán học, kích thích vào x(n) và đáp ứng ra y(n) của hầu hết các hệ thống tuyến tính
thoả mãn một phương trình sai phân tuyến tính sau đây :
∑ ∑= =
−=−N
k
M
rrk rnxnbknyna
0 0)()()()( (1.1.24)
ở đây N và M là các số nguyên dương, N gọi là bậc của phương trình sai phân. Trong phương trình này, tập hợp các hệ số ak(n) và br(n) sẽ quyết định toàn bộ hành vi của
hệ thống. Phương trình này chính là ảnh rời rạc của phương trình vi phân tuyến tính đối với các hệ số liên tục, phương trình vi phân tuyến tính có dạng sau :
0 0
( ) ( )( ) ( )k rN M
k rk rk r
d y t d x ta t b rdt dt= =
=∑ ∑ (1.1.25)
Chúng ta có thể nhận được phương trình sai phân tuyến tính từ một phương trình vi phân tuyến tính bằng cách thay gần đúng của các đạo hàm vào vị trí của các đạo hàm. Ví dụ với đạo hàm bậc một, ta có gần đúng như sau :
( ) ( ) ( )dy t y t y t tdt t
− −Δ≈
Δ
b. Phương trình sai phân tuyến tính hệ số hằng
Hệ tuyến tính bất biến đóng vai trò rất quan trọng trong nhiều ứng dụng thực tiễn. Một lớp hệ con của hệ tuyến tính bất biến là các hệ có tín hiệu vào và tín hiệu ra thoả mãn phương trình sai phân tuyến tính hệ số hằng (PT-SP-TT-HSH) dưới dạng:
0 0
( ) ( )N M
k rk r
a y n k b x n r= =
− = −∑ ∑ (1.1.26)
trong đó tập các hệ số ak và br đặc trưng cho hệ tuyến tính bất biến. Hệ tuyến tính bất biến mô tả bằng PT-SP-TT-HSH đóng vai trò đặc biệt trong xử lý tín
hiệu số. Trong tài liệu này, chúng ta chỉ sử dụng các hệ thống xử lý tín hiệu được mô tả bằng phương trình tuyến tính bất biến hệ số hằng nói trên.
1.1.3.2.5 Các hệ thống đệ quy và không đệ quy a. Hệ thống không đệ quy
Một hệ thống tuyến tính bất biến được đặc trưng bởi PT-SP-HSH bậc N như sau :
0 0
. ( ) . ( )N M
k rk r
a y n k b x n r= =
− = −∑ ∑ (1.1.27)
Chương 1 Giới thiệu chung về xử lý tín hiệu
11
nếu trường hợp N = 0, ta có :
0 0
( ) . ( )M
r
r
by n x n ra=
= −∑ a0 ≠ 0
0
( ) . ( )M
rr
y n b x n r=
= −∑ a0 = 1 (1.1.28)
Định nghĩa : Hệ thống được đặc trưng bởi phương trình sai phân tuyến tính bậc không (N = 0) được gọi
là hệ thống không đệ qui.
b. Hệ thống đệ quy
Trong trường hợp nếu N > 0, ta có phương trình SP-TT-HSH bậc N như sau :
0 10 0
( ) . ( ) . ( )M N
kr
r k
bby n x n r y n ka a= =
= − − −∑ ∑ (1.1.29)
Định nghĩa : Hệ thống được đặc trưng bởi phương trình sai phân bậc N > 0 được gọi là hệ thống đệ qui.
1.2 ỨNG DỤNG KỸ THUẬT XỬ LÝ ÂM THANH VÀ HÌNH ẢNH VÀO MẠNG BĂNG THÔNG ĐA DỊCH VỤ
1.2.1 Đặc điểm của multimedia
Multimedia là nguồn dữ liệu được tổng hợp từ các dạng thông tin khác nhau. Multimedia có thể có dạng rất đơn giản, đơn cử như một vài hình ảnh kèm với dữ liệu text hay có thể có dạng phức tạp như các file trình diễn multimedia sử dụng video clips, âm thanh, ảnh động và dữ liệu text. File multimedia chiếm một dung lượng rất lớn khi chứa dữ liệu là các file video. Ví dụ như tín hiệu video theo chuẩn PAL sau khi được số hóa cho luồng dữ liệu có tốc độ lên tới 170Mbps. Dữ liệu âm thanh chiếm ít dung lượng hơn, ví dụ tốc độ dòng bits của tín hiệu Dolby Digital Plus lên tới 6.144 Mbps. Đối với dữ liệu dạng ảnh thì dung lượng của nó tỷ lệ thuận với kích thước của ảnh.
Một vấn đề quan trọng khác của multimedia là vấn đề đồng bộ.
- Dữ liệu âm thanh rất nhạy cảm với độ trễ hay tỷ lệ mất gói trong quá trình lưu trữ hay trong qua trình truyền dẫn.
- Dữ liệu video thì ít nhạy cảm hơn với độ trễ (phụ thuộc vào ứng dụng) nhưng vẫn nhạy cảm với jitter. Jitter có thể được loại bỏ trong các ứng dụng bằng các giải thuật tại máy thu.
Trong bảng dưới đây mô tả một số yêu cầu đối với tín hiệu âm thanh và hình ảnh trên mạng ATM (RFC 1193 - Các yêu cầu cho các dịch vụ thời gian thực 11/1990).
Chương 1 Giới thiệu chung về xử lý tín hiệu
12
Nhìn chung, dữ liệu multimedia có dung lượng rất lớn và có đặc tính nhạy cảm với trễ cũng
như mất mát dữ liệu. Để truyền các dạng dữ liệu trên mạng điện thoại, Internet hay mạng truyền hình, các đặc
tính kỹ thuật của từng loại dữ liệu phải được biến đổi cho phù hợp với đường truyền. Việc điều chỉnh này bao gồm việc nén dữ liệu, định thời trong truyền dẫn và lưu trữ multimedia.
1.2.2 Nén tín hiệu trong mạng đa dịch vụ
Các kỹ thuật và giải thuật nén quyết định đến sự sống còn của các mạng đa dịch vụ. Ví dụ như một kênh truyền hình số không nén có thể yêu cầu băng thông lên đến 216 Mbps. Nếu chúng ta không dùng kỹ thuật nén, hệ thống chỉ có thể phục vụ đồng thời cho một số ít người. Nén là giải pháp cứu cánh cho phép việc truyền bá rộng rãi video số và multimedia. Kỹ thuật nén phụ thuộc vào giải thuật được cài đặt trên phần cứng hoặc phần mềm của máy phát và máy thu. Khi ứng dụng yêu cầu tốc độ nén và giải nén cao, giải thuật phải được cài đặt trên phần cứng (card âm thanh hay card đồ họa trên máy tính).
Nén dữ liệu là giải pháp để giảm bớt áp lực về băng thông trên mạng và giảm bớt không gian lưu trữ, tuy nhiên nó cũng tạo ra một số nhược điểm đáng kể. Một số kỹ thuật nén hoạt động dựa trên ý tưởng lược bớt các thông tin kém quan trọng trong tín hiệu vì thế sẽ tạo ra sự mất mát độ phân giải trong tín hiệu nén. Nhưng bên cạnh đó, việc nén dữ liệu sẽ làm tăng tính bảo mật của thông tin khi được truyền qua mạng công cộng. Khi tiến hành nén dữ liệu chúng ta phải quan tâm đến các yếu tố sau: độ phức tạp của phần cứng và phần mềm, thời gian trễ gây nên bởi quá trình xử lý nén và giải nén và cũng như các yếu tố quan trọng khác.
Trong các ứng dụng khác nhau người ta sử dụng các phương pháp mã hóa khác nhau để tận dụng tối đa tài nguyên sẵn có, đồng thời đạt chất lượng dịch vụ cao nhất. Ví dụ như hội nghị video phải được thực hiện và xử lý trong thời gian thực, vì thế các phương pháp má hóa và giải mã được phải thỏa mãn các tiêu chuẩn xử lý trong thời gian thực. Đây là lý do quan trọng mà tiêu chuẩn H.261 được thiết kế. Một ví dụ khác là việc truyền file video qua mạng có dây, không dây tới hệ thống lưu trữ video không đòi hỏi thời gian thực, quá trình thực hiện ít nhạy cảm với thời gian trễ nên thời gian xử lý mã hóa và giải mã không là một vấn đề quan trọng, ngược lại hiệu quả nén mới là tiêu chí đặt lên hàng đầu, vì vậy tiêu chuẩn nén MPEG được thiết kế (ban đầu) dựa trên quan điểm này.
1.2.3 Lưu trữ
Như đã nói ở trên, thông tin âm thanh chất lượng cao và video trong multimedia làm cho luồng số tổng hợp có kích thước rất lớn, vì thế lưu trữ dữ liệu là một trong những vấn đề quan
Chương 1 Giới thiệu chung về xử lý tín hiệu
13
trọng trong hệ thống multimedia. Hiện nay, hệ thống multimedia sử dụng hầu hết các công nghệ truyền thống để ghi dữ liệu đó là các công nghệ lưu trữ từ, quang và công nghệ flash. Giá thành các hệ thống lữu trữ dung lượng lớn ngày càng hạ, trong khi các thông số kỹ thuật liên tục được cải thiện. Ví dụ, các ổ đĩa cứng (HDD) hiện đại cho phép ghi luồng dữ liệu có tốc độ lên tới 300MBps qua giao thức SATA-II, tốc độ ghi này cho phép lưu trực tiếp video số lên ổ cứng không qua giai đoạn nén dữ liệu (làm mất chất lượng video gốc). Hệ thống RAID (Redundant Array of Independent Disks) có thể được thiết lập từ 8, 16 hoặc nhiều hơn nữa các ổ cứng có dung lượng lên tới 750 GB mỗi ổ. Với dung lượng 12 TB, hệ thống RAID cho phép ghi tới ~2700 giờ video chất lượng DVD (9.8Mbps) hoặc ~125 giờ video số (PAL) không nén (216Mbps). Giá thành ổ cứng hiện nay chỉ khoảng ~0.3$/GB. Để so sánh, vào năm 2005, giá thành ổ cũng khoảng 1.2$/GB, tốc độ ghi chỉ đạt ~6Mbps.
Trong các hệ thống truyền dẫn có băng thông hẹp, việc truyền tải dữ liệu multimedia không thể thực hiện trong thời gian thực, khi đó các user đầu cuối phải sử dụng thiết bị lưu trữ cục bộ. Toàn bộ dữ liệu sau khi tải về sẽ được giải mã để trình chiếu offline. Ví dụ như mạng Internet chỉ có khả năng phân phối video và audio trực tuyến với chất lượng thấp, tuy nhiên lưu trữ cục bộ vẫn cho phép người dùng nghe nhạc hoặc xem video chất lượng cao. Hệ thống lưu trữ ngày càng được cải tiến để đáp ứng nhu cầu này.
Các thiết bị lưu trữ như CDROM và DVD cũng được cải tiến để cung cấp luồng dữ liệu tốc độ cao. Công nghệ CDROM hiện tại có thể truyền tải dữ liệu khoảng 64 Mbps hay cao hơn, lưu trữ khoảng 700MB dữ liệu và có thời gian truy cập khoảng 300 ms. Đĩa DVD một mặt có dung lượng ~4.7 GB. Với các thông số như vậy, công nghệ CD ROM là tạm chấp nhận được cho một số ứng dụng. Hiện tại công nghệ đĩa cứng vẫn được cải tiến liên tục để phục vụ cho nhu cầu lưu trữ đa dạng của dữ liệu multimedia ngày càng đòi hỏi những tiêu chuẩn khắt khe về không gian lưu trữ, thời gian trễ…
1.2.4 Băng thông
Các ứng dụng multimedia, đặc biệt các ứng dụng liên quan đến video và hình ảnh yêu cầu băng thông rất lớn. Tuy nhiên băng thông là nguồn tài nguyên giới hạn. Tăng băng thông đồng nghĩa với việc tăng chi phí để nâng cấp, cài đặt các thiết bị truyền dẫn quang, các thiết bị đầu cuối phức tạp, các bộ chuyển mạch tốc độ cao….
Mặc dù hiện này công nghệ chuyển mạch đã phát triển mạnh mẽ cũng với mạng cáp quang cho phép cung cấp nhiều băng thông hơn, nhưng kinh nghiệm cho thấy việc phát triển của mạng luôn luôn thấp hơn nhu cầu thực tế. Do đó, cần có cơ chế phân phối và quản lý băng thông cho các ứng dụng tại thiết bị đầu cuối để băng thông được sử dụng một cách hợp lý và hiệu quả.
1.2.5 Chất lượng dịch vụ (Quality of Service)
Hiện này nhu cầu trao đổi dữ liệu multimedia qua mạng là rất lớn. Để đảm bảo chất lượng dịch vụ ở đầu cuối, các thông số quan trọng sau phải được đánh giá và điều khiển: tỷ lệ lỗi bit (Bit Error Ratio), tỷ lệ mất gói, thời gian trễ và sự biến thiên của thời gian trễ…Ở một số dịch vụ tài nguyên của mạng sẽ được dành sẵn để đảm bảo các thông số trên. Ví dụ như trong mạng ATM, người dùng đầu cuối sẽ được phân định các mức băng thông và chất lượng dịch vụ khác nhau phụ thuộc vào ứng dụng cụ thể. Với các ứng dụng liên quan đến thoại, tài nguyên của mạng được phân phối sao cho mức trễ nằm trong phạm vi cho phép để đảm bảo chất lượng thoại.
Chương 1 Giới thiệu chung về xử lý tín hiệu
14
1.2.6 Tương tác
Ngày này, cùng với sự phát triển của công nghệ, tồn tại rất nhiều các loại phần cứng khác nhau, các loại mạng khác nhau, các ứng dụng khác nhau và các loại định dạng multimedia khác nhau. Việc tương tác để chúng cùng hoạt động được là vấn đề cốt lõi của người dùng đầu cuối multimedia.
Để giải quyết vấn đề đó, tổ chức IMA (Interactive Multimedia Association) và MMCF (Multimedia Communications Forum) được thành lập để phát triển các giải pháp giải quyết vấn đề tương tác multimedia giữa các chuẩn khác nhau.
Mục đích của MMCF là phát triển: - Giải pháp tương tác multimedia từ người dùng đầu cuối đến người dùng đầu cuối mà
không phụ thuộc vào ứng dụng cũng như công nghệ truyền dẫn. - Phát triển Application Programming Interfaces (API) mở rộng hỗ trợ tương tác giữa người
dùng đầu cuối với người dùng đầu cuối mà không phụ thuộc vào nhà sản xuất. Loại phần mềm như vậy được gọi dưới tên là ‘middleware” bởi vì nó liên quan đến ứng dụng của người dùng đầu cuối cũng như định dạng file, kỹ thuật lưu trữ và mạng truyền dẫn.
IMA đảm nhận trách nhiệm kết hợp các tiêu chuẩn định dạng multimedia. Đây là một công việc khó khăn vì hiện này tồn tại rất nhiều định dạng cho âm thanh, hình ảnh và video.
Hiện nay có khoản 20 mô hình (scheme) mã hóa âm thanh. Hầu hết đều dựa trên u-law, A-law và ADPCM sử dụng 4, 8 hay 16 bit/mẫu. Các định dạng tiêu biểu như:
• Sound Blaster .VOC • Windows .WAV • Sounder/Soundtools .SND • Apple/SGI AIFF files
Với dữ liệu ảnh màu cũng tồn tại rất nhiều định dạng khác nhau. Các định dạng ảnh màu cho phép hiển thị từ 16 đến hàng triệu màu. Các định dạng ảnh tĩnh tiêu biểu đang được sử dụng rộng rãi là:
• Windows Bitmap .BMP • Graphic Interchange Format .GIF • Joint Picture Experts Group .JPEG or JPG • TIFF • PCX • PhotoCD .PCD Hiện nay trên toàn thế giới có tổng cộng khoảng 15 loại định dạng video cho truyền hình
tương tự và truyền hình chất lượng cao (High Definition TV) đã được thực hiện và đưa ra thị trường. Một số định dạng tiêu biểu của video:
• Motion JPEG • Video conferencing H.261 • Microsoft AVI Video for Windows
• Apple Quicktime • Intel Indeo DVI
Chương 1 Giới thiệu chung về xử lý tín hiệu
15
• ISO MPEG-1, MPEG-2, MPEG-4
TÓM TẮT CHƯƠNG 1 Trong chương một chúng ta đã nhắc lại một số khái niệm cơ bản về tín hiệu và hệ thống xử
lý tín hiệu nói chung. Những kiến thức này sẽ được sử dụng và mở rộng để phục vụ cho quá trình nghiên cứu xử lý tín hiệu âm thanh và hình ảnh ở những chương sau.
Phạm vi ứng dụng kỹ thuật xử lý âm thanh và hình ảnh nói chung rất rộng. Nhưng, nói riêng trong ngành viễn thông, mục đích chính của việc xử lý các tín hiệu nói trên nhằm vào việc nâng cao chất lượng tín hiệu và nén dung lượng tín hiệu để truyền qua kênh truyền. Trong chương một chúng ta cũng nhắc tới khái niệm về hệ thống truyền thông đa dịch vụ. Một số đặc điểm và các thông số quan trọng của hệ thống truyền thông đa dịch vụ được đã được nêu ra. Có thể thấy rằng, tín hiệu audio và video là một phần thông tin multimedia phải được xử lý để đáp ứng nhưng yêu cầu khắt khe đặt ra trong hệ thống truyền thông đa dịch vụ. Đó là các tiêu chuẩn về độ nén, thời gian trễ, các đòi hỏi về cấu hình bộ mã hoá và giải mã v.v. Trong mạng truyền thông đa dịch vụ, vai trò của xử lý ảnh và âm thanh trở nên vô cùng quan trọng.
Trong các chương tiếp theo của tài liệu này, chúng ta sẽ giới thiệu cụ thể hơn về các công cụ toán học được sử dụng để phân tích từng loại tín hiệu cũng như các ứng dụng riêng của xử lý âm thanh và hình ảnh.
CÂU HỎI VÀ BÀI TẬP CHƯƠNG 1 1. Cho biết ưu điểm và nhược điểm của hệ thống xử lý tín hiệu số 2. Kỹ thuật xử lý âm thanh được sử dụng trong các lĩnh vực khoa học nào? 3. Liệt kê các ứng dụng chính của hệ thống xử lý ảnh 4. Phân tích các phương pháp phân loại tín hiệu. Trong các hệ thống xử lý tín hiệu, cách
phân loại tín hiệu nào được sử dụng rộng rãi nhất. 8. Các hệ thống xử lý tín hiệu được phân loại theo cách nào? Trong thực tế chúng ta thường
gặp những hệ thống xử lý tín hiệu loại nào?
9. Thế nào là hệ thống xử lý tín hiệu tuyến tính và bất biến? 10. Nêu định nghĩa hàm đáp ứng xung của hệ thống xử lý tín hiệu 12. Thế nào là hệ thống nhân quả và ổn định? 13. Phát biểu định nghĩa hệ thống đệ quy. Cho biết hàm đáp ứng xung của hệ thống xử lý
tín hiệu nào có chiều dài hữu hạn?
14. Thế nào là Multimedia? Phân tích tầm quan trọng của kỹ thuật nén tín hiệu trong lĩnh vực truyền dẫn dữ liệu Multimedia.
15. Nêu ra các phương tiện thường được dùng để lưu trữ dữ liệu số? Những thông số nào đặc trưng cho hệ thống lưu trữ dữ liệu?
16. Cho biết các định dạng ảnh tĩnh và ảnh động thông dụng được sử dụng trong hệ thống truyền phát multimedia hiện nay?
Chương 2 Kỹ thuật xử lý âm thanh
16
CHƯƠNG 2 KỸ THUẬT XỬ LÝ ÂM THANH
2.1 TỔNG QUAN VỀ XỬ LÝ ÂM THANH
2.1.1 Giới thiệu sơ lược về âm thanh và hệ thống xử lý âm thanh
2.1.1.1 Đặc tính của âm thanh tương tự Mục đích của lời nói là dùng để truyền đạt thông tin. Có rất nhiều cách mô tả đặc điểm
của việc truyền đạt thông tin. Dựa vào lý thuyết thông tin, lời nói có thể được đại diện bởi thuật ngữ là nội dung thông điệp, hoặc là thông tin. Một cách khác để biểu thị lời nói là tín hiệu mang nội dung thông điệp, như là dạng sóng âm thanh.
Hình 2.1.1 Dạng sóng của tín hiệu ghi nhận được từ âm thanh của người
Kỹ thuật đầu tiên dùng trong việc ghi âm sử dụng các thông số về cơ, điện cũng như trường có thể làm nên nhiều cách thức ghi âm ứng với các loại áp suất không khí khác nhau. Điện áp đến từ một microphone là tín hiệu tương tự của áp suất không khí (hoặc đôi khi là vận tốc). Dù được phân tích bằng cách thức nào, thì các phương pháp khi so sánh với nhau phải dùng một tỉ lệ thời gian.
Trong khi các thiết bị tương tự hiện đại trông có vẻ xử lý âm thanh tốt hơn những thiết bị cổ điển, các tiêu chuẩn xử lý thì hầu như không có gì thay đổi, mặc dù công nghệ có vẻ xử lý tốt hơn. Trong hệ thống xử lý âm thanh tương tự, thông tin được truyền đạt bằng thông số liên tục biến thiên vô hạn.
Hệ thống xử lý âm thanh số lý tưởng có những tính năng tương tự như hệ thống xử lý âm thanh tương tự lý tưởng: cả hai hoạt động một cách “trong suốt” và tạo lại dạng sóng ban đầu không lỗi. Tuy nhiên, trong thế giới thực, các điều kiện lý tưởng rất hiếm tồn tại, cho nên hai loại hệ thống xử lý âm thanh hoạt động sẽ khác nhau trong thực tế. Tín hiệu số sẽ truyền trong khoảng cách ngắn hơn tín hiệu tương tự và với chi phí thấp hơn. Trong giáo trình này, tập trung đề cập đến hệ thống số xử lý âm thanh.
Thông tin dùng để truyền đạt của âm thoại về bản chất có tính rời rạc, và nó có thể được biểu diễn bởi một chuỗi ghép gồm nhiều phần tử từ một tập hữu hạn các ký hiệu (symbol). Các ký hiệu từ mỗi âm thanh có thể được phân loại thành các âm vị (phoneme). Mỗi ngôn ngữ có các tập âm vị khác nhau, được đặc trưng bởi các con số có giá trị từ 30 đến 50. Ví dụ như tiếng Anh được biểu diễn bởi một tập khoảng 42 âm vị.
Tín hiệu thoại được truyền với tốc độ như thế nào? Đối với tín hiệu âm thoại nguyên thủy chưa qua hiệu chỉnh thì tốc độ truyền ước lượng có thể tính được bằng cách lưu ý giới hạn vật lý của việc nói lưu loát của người nói tạo ra âm thanh thoại là khoảng 10 âm vị trong một giây. Mỗi một âm vị được biểu diễn bởi một số nhị phân, như vậy một mã gồm 6 bit có
Chương 2 Kỹ thuật xử lý âm thanh
17
thể biểu diễn được tất cả các âm vị của tiếng Anh. Với tốc độ truyền trung bình 10 âm vị/giây, và không quan tâm đến vấn đề luyến âm giữa các âm vị kề nhau, ta có thể ước lượng được tốc độ truyền trung bình của âm thoại khoảng 60bit/giây.
Trong hệ thống truyền âm thoại, tín hiệu thoại được truyền lưu trữ và xử lý theo nhiều cách thức khác nhau. Tuy nhiên đối với mọi loại hệ thống xử lý âm thanh thì có hai điều cần quan tâm chung là:
1. Việc duy trì nội dung của thông điệp trong tín hiệu thoại 2. Việc biểu diễn tín hiệu thoại phải đạt được mục tiêu tiện lợi cho việc truyền tin hoặc
lưu trữ, hoặc ở dạng linh động cho việc hiệu chỉnh tín hiệu thoại sao cho không làm giảm nghiêm trọng nội dung của thông điệp thoại. Việc biểu diễn tín hiệu thoại phải đảm bảo việc các nội dung thông tin có thể được dễ
dàng trích ra bởi người nghe, hoặc bởi các thiết bị phân tích một cách tự động. 2.1.1.2 Khái niệm tín hiệu
Là đại lượng vật lý biến thiên theo thời gian, theo không gian, theo một hoặc nhiều biến độc lập khác, ví dụ như:
Âm thanh, tiếng nói: dao động sóng theo thời gian (t) Hình ảnh: cường độ sáng theo không gian (x, y, z) Địa chấn: chấn động địa lý theo thời gian
Biểu diễn toán học của tín hiệu: hàm theo biến độc lập Ví dụ:
52)( 2 −= ttu
22 62),( yxyxyxf −−=
Thông thường các tín hiệu tự nhiên không biểu diễn được bởi một hàm sơ cấp, cho nên trong tính toán, người ta thường dùng hàm xấp xỉ cho các tín hiệu tự nhiên.
Hệ thống: là thiết bị vật lý, thiết bị sinh học, hoặc chương trình thực hiện các phép toán trên tín hiệu nhằm biến đổi tín hiệu, rút trích thông tin, … Việc thực hiện phép toán còn được gọi là xử lý tín hiệu.
2.1.1.3 Phân loại tín hiệu Tín hiệu đa kênh: gồm nhiều tín hiệu thành phần, cùng chung mô tả một đối tượng nào
đó, thường được biểu diễn dưới dạng vector, ví dụ như tín hiệu điện tim (ECG-ElectroCardioGram), tín hiệu điện não (EEG – ElectroEncephaloGram), tín hiệu ảnh màu RGB.
Tín hiệu đa chiều: biến thiên theo nhiều hơn một biến độc lập, ví dụ như tín hiệu hình ảnh, tín hiệu tivi trắng đen.
Tín hiệu liên tục theo thời gian: là tín hiệu được định nghĩa tại mọi điểm trong đoạn thời gian [a, b], ký hiệu )(tx .
Chươ
khác n
tín hiệ
hiệu số
ơng 2 Kỹ thu
HìnTín hiệu rờ
nhau, ký hiệu
Hìn
Tín hiệu li
ệu tương tự (
HìnTín hiệu rờ
ố).
uật xử lý âm
nh 2.1.1 Tínời rạc thời gu )(nx .
nh 2.1.2 Tín
ên tục giá tr
(analog).
nh 2.1.3 Tínời rạc giá tr
thanh
n hiệu liên tụgian: là tín h
n hiệu rời rạc
rị: là tín hiệu
n hiệu liên tụrị: tín hiệu c
ục theo thời ghiệu chỉ được
c theo thời g
u có thể nhận
ục giá trị chỉ nhận trị
gian c định nghĩa
gian
n trị bất kỳ t
trong một tậ
a tại những t
trong đoạn [
ập trị rời rạ
thời điểm rờ
],[ maxmin YY , v
c định trước
ời rạc
ví dụ
c (tín
Chương 2 Kỹ thuật xử lý âm thanh
19
Hình 2.1.4 Tín hiệu rời rạc giá trị
Tín hiệu analog: là tín hiệu liên tục về thời gian, liên tục về giá trị.
Hình 2.1.5 Tín hiệu analog
Tín hiệu số: là tín hiệu rời rạc về thời gian, rời rạc về giá trị.
Hình 2.1.6 Tín hiệu số
Tín hiệu ngẫu nhiên: giá trị của tín hiệu trong tương lai không thể biết trước được. Các tín hiệu trong tự nhiên thường thuộc nhóm này
Tín hiệu tất định: giá trị tín hiệu ở quá khứ, hiện tại và tương lại đều được xác định rõ, thông thường có công thức xác định rõ ràng
2.1.1.4 Phân loại hệ thống xử lý Gồm hai loại hệ thống là hệ thống tương tự và hệ thống số. Trong đó hệ thống xử lý
số: là hệ thống có thể lập trình được, dễ mô phỏng, cấu hình, sản xuất hàng loạt với độ chính xác cao, giá thành hạ, tín hiệu số dễ lưu trữ, vận chuyển và sao lưu, nhược điểm là khó thực hiện với các tín hiệu có tần số cao
Chương 2 Kỹ thuật xử lý âm thanh
20
2.1.1.5 Hệ thống số xử lý âm thanh Độ nhạy của tai người rất cao, nó có thể phân biệt được số lượng nhiễu rất nhỏ cũng
như chấp nhận tầm biên độ âm thanh rất lớn. Các đặc tính của một tín hiệu tai người nghe được có thể được đo đạc bằng các công cụ phù hợp. Thông thường, tai người nhạy nhất ở tầm tần số 2kHz và 5kHz, mặc dù cũng có người có thể nhận dạng được tín hiệu trên 20kHz. Tầm động nghe được của tai người được phân tích và người ta nhận được kết quả là có dạng đáp ứng logarith.
Tín hiệu âm thanh được truyền qua hệ thống số là chuỗi các bit. Bởi vì bit có tính chất rời rạc, dễ dàng xác định số lượng bằng cách đếm số lượng trong một giây, dễ dàng quyết định tốc độ truyền bit cần thiết để truyền tín hiệu mà không làm mất thông tin.
Hình 2.1.7 Để nhận được tám mức tín hiệu khác nhau một cách phân biệt, tín hiệu
đỉnh-đỉnh của tín hiệu nhiểu phải nhỏ hơn hoặc độ sai biệt giữa các mức độ. Tỉ số tín hiệu trên nhiễu phải tối thiểu là 8:1 hoặc là 18dB, truyền bởi 3 bit. Ở 16 mức thì tỉ số tín hiệu trên nhiễu phải là 24dB, truyền bởi 4 bit.
2.1.1.6 Mô hình hóa tín hiệu âm thanh Có rất nhiều kỹ thuật xử lý tín hiệu được mô hình hóa và áp dụng các giải thuật trong
việc khôi phục âm thanh. Chất lượng của âm thoại phụ thuộc rất lớn vào mô hình giả định phù hợp với dữ liệu. Đối với tín hiệu âm thanh, bao gồm âm thoại, nhạc và nhiễu không mong muốn, mô hình phải tổng quát và không sai lệnh so với giả định. Một điều cần lưu ý là hầu hết các tín hiệu âm thoại là các tín hiệu động trong thực tế, mặc dù mô hình thực tiễn thì thường giả định khi phân tích tín hiệu là tín hiệu có tính chất tĩnh trong một khoảng thời gian đang xét.
Mô hình phù hợp với hầu hết rất nhiều lãnh vực trong việc xử lý chuỗi thời gian, bao gồm việc phục hồi âm thanh là mô hình Autoregressive (viết tắt AR), được dùng làm mô hình
Chương 2 Kỹ thuật xử lý âm thanh
21
chuẩn cho việc phân tích dự đoán tuyến tính. Tín hiệu hiện tại được biểu diễn bởi tổng giá trị của P tín hiệu trước đó và tín hiệu
nhiễu trắng, P là bậc của mô hình AR:
[ ] [ ] [ ]∑=
+−=P
ii neainsus
1 (2.1.1)
Mô hình AR đại diện cho các quá trình tuyến tính tĩnh, chấp nhận tín hiệu tương tự nhiễu và tín hiệu tương tự điều hòa. Một mô hình khác phù hợp hơn đối với nhiều tình huống phân tích là mô hình auto regressive moving-average (ARMA) cho phép các điểm cực cũng như điểm 0. Tuy nhiên mô hình AR có tính linh động hơn trong phân tích hơn mô hình ARMA, ví dụ một tín hiệu nhạc phức tạp cần mô hình có bậc 100>P để biểu diễn dạng sóng của tín hiệu, trong khi các tín hiệu đơn giản hơn chỉ cần biểu diễn bằng bậc 30. Trong nhiều ứng dụng, việc lựa chọn bậc của mô hình phù hợp để đảm bảo việc biểu diễn tín hiệu để không làm mất đi thông tin ban đầu là tương đối phức tạp. Có rất nhiều phương pháp dùng để ước lượng bậc của mô hình AR như phương pháp trong các phương pháp dùng để giảm nhiễu. Tín hiệu được cho bởi công thức (2.1.2):
[ ] [ ] ( ) ⎟⎟⎠
⎞⎜⎜⎝
⎛+= ∫∑
=
nT
ii
P
ii dttnans
n
01sin φω (2.1.2)
Đây là mô hình tổng quát đối với các tín hiệu điều chế biên độ và điều chế tần số, tuy nhiên lại không phù hợp để mô tả các thành phần nhiễu tương tự, mặc dù nhiễu có thể được biểu diễn bởi số lượng hàm sin rất lớn.
2.1.1.7 Kiến trúc hệ thống số xử lý âm thanh Để sử dụng máy tính trong xử lý âm thanh, người ta thường dùng phương pháp điều
chế xung (Pulse Code Modulation - PCM). Dạng sóng âm thanh được chuyển sang dãy số PCM như sau, xét tín hiệu hình sin làm ví dụ:
Tín hiệu gốc là tín hiệu âm thanh lan truyền trong không khí như hình 2.1.8
Air
Dis
plac
emen
t
Time
Tín
hiệu
âm
than
h dị
ch
lan
truyề
n tro
ng k
hông
khí
Hình 2.1.8 Dạng sóng âm thanh nguyên thủy
Kế đến, sử dụng một microphone để thu tín hiệu âm thanh và chuyển đổi thành tín hiệu điện, biên độ điện áp ngõ ra của microphone (sau khi được khuếch đại) nằm trong khoảng ±1 volt như hình 2.1.9.
Chương 2 Kỹ thuật xử lý âm thanh
22
Vol
tage
Time
+1.0
+0.5
0
-0.5
-1.0
Hình 2.1.9 Dạng sóng của tín hiệu điện
Vì số lượng điểm dữ liệu là vô hạn nên không thể truyền đi tất cả các điểm trên trục thời gian, việc lấy mẫu sẽ được thực hiện trong một khoảng thời gian đều đặn. Số lượng mẫu trong một giây được gọi là tần số lấy mẫu (sampling rate). Hình 2.1.10 mô tả 43 mẫu được lấy:
C
onve
rter O
utpu
t +32,767
+16,383
0
-16,384
-32,768
1 43
Hình 2.1.10 Thực hiện việc lấy mẫu Tín hiệu điện áp dạng tương tự sau đó được lượng tử hóa và số hóa bằng thiết bị
chuyển đổi tương tự-số (analog-to-digital converter). Khi sử dụng bộ lượng tử chuyển đổi 16bit/mẫu, tầm số nguyên ngõ ra có giá trị từ –32,768 đến +32,767, được mô tả như hình 2.1.11.
Con
verte
r Out
put
Time
+32,767
+16,383
0
-16,384
-32,768
Hình 2.1.11 Ngõ ra của bộ chuyển đổi tín hiệu tương tự sang tín hiệu số
Kết quả của việc lấy mẫu và lượng tử được biến đổi thành một chuỗi gồm 43 chữ số biểu diễn các mẫu của dạng sóng ứng thời gian (hình 2.1.12).
Rec
orde
d V
alue
+32,767
+16,383
0
-16,384
-32,768
1 43
Hình 2.1.12 Kết quả của việc lấy mẫu các giá trị
Chương 2 Kỹ thuật xử lý âm thanh
23
Tín hiệu số có thể được chuyển đổi ngược thành tín hiệu tương tự bằng việc kết nối các điểm dữ liệu rời rạc lại với nhau. Dạng sóng kết quả được mô tả ở hình 2.1.13.
Rec
orde
d V
alue
+32,767
+16,383
0
-16,384
-32,768
1 43
Hình 2.1.13 Dạng sóng được tái tạo lại
Lưu ý rằng có một vài điểm khác biệt giữa dạng sóng nguyên thủy và dạng sóng tái tạo giữa hình 2.1.9 và hình 2.1.13, lý do:
A. Các giá trị được tạo ra tại bộ chuyển đổi tín hiệu tương tự sang tín hiệu số là các số nguyên và được làm tròn giá trị.
B. Hình dáng của tín hiệu tái tạo phụ thuộc vào số lượng mẫu được ghi nhận. Tổng quát, một dãy số hữu hạn (đại diện cho tín hiệu số) chỉ có thể biểu diễn cho một
dạng sóng tín hiệu tương tự với độ chính xác hữu hạn. 2.1.1.8 Tần số lấy mẫu
Khi chuyển đổi một âm thanh sang dạng số, điều cần lưu ý là tần số lấy mẫu của hệ thống xử lý phải đảm bảo để có thể phục hồi lại dạng sóng tín hiệu ban đầu một cách chính xác.
Theo định lý lấy mẫu Nyquist và Shannon, tần số lấy mẫu xác định bởi tần số cao nhất của tín hiệu phục hồi. Để tái tạo lại dạng sóng có tần số là F , cần phải lấy F2 mẫu trong một giây. Tần số này còn được gọi là tần số Nyquist.
2.1.2 Nhắc lại một số khái niệm toán học trong xử lý âm thanh
2.1.2.1 Phép biến đổi z Phép biến đổi z của một chuỗi được định nghĩa bởi cặp biểu thức
( ) ∑∞
−∞=
−=n
nznxzX )( (2.1.3a)
∫ −=C
n dzzzXj
nx 1)(21)(π
(2.1.3b)
Biến đổi Z của )(nx được định nghĩa bởi biểu thức (2.1.3a). )(zX còn được gọi là
dãy công suất vô hạn theo biến 1−z với các giá trị của )(nx chính là các hệ số của dãy công
suất. Miền hội tụ ROC là { ∞<)(zXz }, là những giá trị của z sao cho chuỗi hội tụ, hay
nói cách khác
∑∞
−∞=
− ∞<n
nznx )( (2.1.4)
Chương 2 Kỹ thuật xử lý âm thanh
24
Thông thường, miền hội tụ của z có dạng:
21 RzR << (2.1.5)
Ví dụ: Cho )()( 0nnnx −= δ . Theo công thức (2.1.3a), ta có 0)( nzzX −=
Ví dụ: Cho )()()( Nnununx −−= . Theo công thức (2.1.3a), ta có
1
1
0 11).1()( −
−−
=
−
−−
==∑ zzzzX
NN
n
n
Ví dụ: Cho )(.)( nuanx n= . Suy ra zaaz
zazX n
n
n <−
== −−
∞
=∑ ,
11)( 1
0
Ví dụ: Cho )1()( −−−= nubnx n . Then 1
1
11)( −
−−
−∞= −== ∑ bz
zbzX n
n
n , bz <
Bảng 2.1.1 Chuỗi tín hiệu và biến đổi z tương ứng
Chuỗi tín hiệu Biến đổi z
1. Tuyến tính )()( 21 nbxnax + )()( 21 zbXzaX +
2. Dịch )( 0nnx + )(0 zXzn
3. Hàm mũ ( )nxan )( 1zaX −
4. Hàm tuyến tính nx(n) dz
zdXz )(−
5. Đảo thời gian x(-n) )( 1−zX
6. Tương quan x(n)*h(n) X(z)H(z)
7. Nhân chuỗi x(n)w(n) νννν
πdzWX
j C∫ −1)/()(
21
2.1.2.2 Phép biến đổi Fourier Biến đổi Fourier của tín hiệu rời rạc thời gian được cho bởi biểu thức
jwn
n
jw enxeX −∞
−∞=∑= )()( (2.1.6a)
∫−=π
ππdweeXnx jwnjw)(
21)( (2.1.6b)
Biến đổi Fourier là trường hợp đặc biệt của phép biến đổi z bằng cách thay thế iwez = . Như mô tả trong hình 2.1.14, trong mặt phẳng z, tần số w là góc quay. Điều kiện đủ
để tồn tại biến đổi Fourier là 1=z , như vậy
∞<∑∞
)(nx (2.1.7)
Chương 2 Kỹ thuật xử lý âm thanh
25
Hình 2.1.2 Vòng tròn đơn vị thuộc mặt phẳng z
Một đặc tính quan trọng của biến đổi Fourier của một chuỗi là )( iweX là hàm điều hòa w, với chu kỳ là π2 .
Bằng cách thay iwez = ở bảng 2.1.1, có có được bảng biến đổi Fourier tương ứng.
2.1.2.3 Phép biến đổi Fourier rời rạc Trong trường hợp tín hiệu tương tự, tuần hoàn với chu kỳ N
∞<<∞−+= nNnxnx )(~)(~ (2.1.8)
Với )(~ nx có thể có dạng là tổng rời rạc các tín hiệu sin thay vì tích phân như ở công thức (2.1.9b). Phép biến đổi Fourier cho chuỗi tuần hoàn như sau
∑−
=
−=
1
0
2
)(~)(~ N
n
knN
jenxkX
π
(2.1.9a)
∑−
=
=1
0
2
)(~1)(~ N
k
knN
jekX
Nkx
π
(2.1.9b)
Chuỗi x(n) hữu hạn, có giá trị bằng 0 với 10 −≤≤ Nn , có phép biến đổi z là.
∑−
=
−=1
0)()(
N
n
nznxzX (2.1.10)
Nếu chia )(zX thành N điểm trên vòng tròn đơn vị, Nkjk ez π2= , 1,...,1,0 −= Nk , ta
có:
∑−
=
−=
1
0
22
)()(N
n
knN
jkN
jenxeX
ππ
, 1,...,1,0 −= Nk (2.1.11)
Chuỗi tuần hoàn vô hạn )(~ nx có công thức từ x(n) như sau
∑∞
−∞=
+=r
rNnxnx )()(~ (2.1.12)
Ta nhận thấy rằng các mẫu )(2 kN
jeX
π
từ phương trình (2.1.9a) và (2.1.11) chính là các hệ số Fourier của chuỗi tuần hoàn )(~ nx trong phương trình (2.1.12). Như vậy, một chuỗi có chiều dài N có thể được biểu diễn bởi phép biến đổi Fourier rời rạc (DFT) như sau:
∑−
=
−=
1
0
2
)()(N
n
knN
jenxkX
π
, 1,...,1,0 −= Nk (2.1.13a)
Chương 2 Kỹ thuật xử lý âm thanh
26
∑−
=
=1
0
2
)(1)(N
k
knN
jekX
Nnx
π
, 1,...,1,0 −= Nn (2.1.13b)
Điều khác biệt duy nhất giữa biểu thức (2.1.9a,b) và (2.1.13a,b) là ký hiệu ~ (loại bỏ ký hiệu ~ khi nói đến tín hiệu không tuần hoàn) và giới hạn hữu hạn 10 −≤≤ Nk và
10 −≤≤ Nn . Lưu ý một điều là chỉ dùng phép biến đổi DFT cho tín hiệu tuần hoàn có tính chất là module của N .
( ) ( )
( ( ))r
N
x n x n rN
x n
∞
=−∞
= + =
=
∑ (2.1.14)
Bảng 2.1.2 Chuỗi và biến đổi DFT
Chuỗi tín hiệu Biến đổi N điểm DFT
1. Tuyến tính )()( 21 nbxnax + )()( 21 kbXkaX +
2. Dịch Nnnx ))(( 0+ )(02
kXekn
Nj π
3. Đảo thời gian Nnx ))((− )(* kX
4. Kết hợp ∑−
=
−1
0))(()(
N
mNmnhmx X(k)H(k)
5. Nhân chuỗi x(n)w(n) ∑−
=
−1
0))(()(1 N
rNrkWrX
N
2.2 MÔ HÌNH XỬ LÝ ÂM THANH
2.2.1 Các mô hình lấy mẫu và mã hoá thoại
2.2.1.1 Lấy mẫu tín hiệu ở miền thời gian và tái tạo tín hiệu liên tục Để xử lý một tín hiệu liên tục bằng các phương tiện xử lý tín hiệu số, ta phải đổi tín
hiệu liên tục đó ra dạng một chuỗi số bằng các lấy mẫu tín hiệu liên tục một cách tuần hoàn có chu kỳ là T giây. Gọi )(nx là tín hiệu rời rạc hình thành do quá trình lấy mẫu, tín hiệu liên tục )(txa , ta có:
)()( nTxnx a= , ∞<<∞− n (2.2.1)
Các mẫu )(nx phải được lượng hóa thành một tập các mức biên độ rời rạc rồi mới được đưa vào bộ xử lý số. Hình 2.2.1 minh họa một cấu hình tiêu biểu cho hệ thống xử lý tín hiệu tương tự bằng phương pháp số. Trong các phần sau, ta bỏ qua sai số lượng hóa phát sinh trong quá trình biến đổi A/D
Chương 2 Kỹ thuật xử lý âm thanh
27
Mạch lọc
A/D
Mạch xử lý tín hiệu số
D/A
Mạch lọc
Tín hiệu liên tục
)(txa )(nx )(ny )(tya )(' tx a
Hình 2.2.1 Cấu hình hệ thống xử lý tín hiệu tương tự bằng phương pháp số Để xác định quan hệ giữa phổ của tín hiệu liên tục và phổ của tín hiệu rời rạc tạo ra từ
quá trình lấy mẫu tín hiệu, liên tục đó, ta chú ý đến quan hệ giữa biến độc lập t và n của tín hiệu )(txa và )(nx
sF
nnTt == (2.2.2)
Định lý lấy mẫu: một tín hiệu liên tục có băng tần hữu hạn, có tần số cao nhất là B Hertz có thể khôi phục từ các mẫu của nó với điều kiện tần số lấy mẫu BFs 2≥ mẫu / giây
2.2.1.2 Lấy mẫu tín hiệu ở miền tần số và tái tạo tín hiệu liên tục Ta đã biết tín hiệu liên tục có năng lượng hữu hạn thì có phổ liên tục. Trong phần này,
ta sẽ xét quá trình lấy mẫu của các tín hiệu loại đó một cách tuần hoàn và sự tái tạo tín hiệu từ các mẫu của phổ của chúng
Xét một tín hiệu liên tục )(txa với một phổ liên tục )(FX a . Giả sử ta lấy mẫu
)(FX a tại các thời điểm cách nhau F∂ Hertz. Ta muốn tái tạo )(FX a hoặc )(txa từ các
mẫu )(FX a
Nếu tín hiệu tương tự )(txa có giới hạn thời gian là ℑ giây và sT được chọn để
ℑ> 2sT thì aliasing không xảy ra và phổ )(FX a có thể được khôi phục hoàn toàn từ các
mẫu. 2.2.1.3 Lấy mẫu tín hiệu ở miền tần số và tái tạo tín hiệu rời rạc
Xét một tín hiệu rời rạc không tuần hoàn )(nx có phép biến đổi Fourier:
∑∞
−∞=
−=n
njenxX ωω )()( (2.2.3)
Giả sử ta lấy mẫu )(ωX tuần hoàn tại các điểm cách nhau ω∂ rad. Vì )(ωX tuần hoàn với chu kỳ π2 , chỉ có các mẫu trong phạm vi tần số cơ bản là cần thiết. Để thuận tiện, ta lấy N mẫu cách đều nhau trong khoảng πω 20 ≤≤ theo khoảng cách N/2πω =∂
Xét Nk /2πω = , ta được ∑∞
−∞=
−=⎟⎠⎞
⎜⎝⎛
n
NknjenxkN
X /2)(2 ππ 1,...,1,0 −= Nk (2.2.4)
Xét tín hiệu ∑∞
−∞=
−=l
p lNnxnx )()( nhận được bằng cách lặp lại tuần hoàn )(nx tại
mỗi N mẫu, tín hiệu này tuần hoàn với chu kỳ N , do đó có thể được triển khai theo khai triển Fourier
NknjN
kp ek
NX
Nnx /2
1
0)2(1)( ππ∑
−
=
= , 1,...,1,0 −= Nn (2.2.5)
Từ công thức )(nxp trên, ta nhận thấy có thể khôi phục tín hiệu )(nxp từ các mẫu của
Chương 2 Kỹ thuật xử lý âm thanh
28
phổ )(ωX . Như vậy, ta phải tìm ra mối tương quan giữa )(nxp và )(nx để có thể thực hiện
khôi phục )(nx từ )(ωX
Vì )(nxp là sự mở rộng tuần hoàn của )(nx , nên )(nx có thể được khôi phục từ
)(nxp nếu không có aliasing ở cõi thời gian, nghĩa là nếu )(nx có thời gian giới hạn nhỏ hơn
hoặc bằng chu kỳ N của )(nxp .
2.2.1.4 Các chuẩn mã hóa âm thoại trong các hệ thống xử lý thoại Chuẩn mã hóa âm thoại thông thường được nghiên cứu và phát triển bởi một nhóm
các chuyên gia đã giành hết thời gian và tâm huyết thực hiện các công việc kiểm nghiệm, mô phỏng sao cho đảm bảo một tập các yêu cầu đưa ra đáp ứng được. Chỉ có các tổ chức với nguồn tài nguyên khổng lồ mới có thể thực hiện được các công việc khó khăn này, thông thường, thời gian tối thiểu cần thiết để hoàn thành một chuẩn trong trường hợp gặp nhiều thuận lợi trong quá trình là khoảng bốn năm rưỡi.
Điều này không có nghĩa là một chuẩn được đưa ra thì “không có lỗi” hoặc không cần phải cải tiến. Do đó, các chuẩn mới luôn luôn xuất hiện sao cho tốt hơn chuẩn cũ cũng như phù hợp với các ứng dụng trong tương lai.
Hội đồng chuẩn là các tổ chức có trách nhiệm trong việc giám sát việc phát triển các chuẩn cho một ứng dụng cụ thể nào đó. Sau đây là một số hội đồng chuẩn nổi tiếng được nhiều nhà cung cấp sản phẩm tuân theo
Liên minh viễn thông quốc tế - International Telecommunications Union (ITU): Các chuẩn viễn thông của ITU ( chuẩn ITU-T) có uy tín trong việc định ra các chuẩn mã hóa âm thoại cho hệ thống mạng điện thoại, bao gồm các mạng vô tuyến lẫn hữu tuyến.
Hiệp hội công nghiệp viễn thông - Telecommunications Industry Association (TIA): có trách nhiệm ban hành các chuẩn mã hóa thoại cho các ứng dụng cụ thể, là một thành viên của Viện tiêu chuẩn quốc gia Hoa Kỳ - National Standards Institute (ANSI). TIA đã thành công trong việc phát triển các chuẩn sử dụng trong các hệ thống tổng đài tế bào số Bắc Mỹ, bao gồm các hệ thống sử dụng chuẩn đa kết phân thời gian - Time division multiple access (TDMA) và Đa truy nhập phân chia theo mã - Code division multiple access (CDMA).
Viện tiêu chuẩn viễn thông châu Âu - European Telecommunications Standards Institute (ETSI): ETSI có các hội viên từ các nước cũng như các công ty Châu Âu, là tổ chức đưa ra các chuẩn sản xuất thiết bị tại Châu Âu. ETSI được thành lập bởi nhóm có ảnh hưởng nhất trong lãnh vực mã hóa âm thoại là nhóm di động đặc biệt - Groupe Speciale Mobile (GSM), đã đưa ra rất nhiều chuẩn hữu dụng và được triển khai rất nhiều trên thế giới
Bộ quốc phòng Hoa Kỳ - United States Department of Defense (DoD). DoD có liên quan đến việc sáng lập các chuẩn mã hóa thoại, được biết đến với các chuẩn liên bang Hoa Kỳ (U.S. Federal) dùng nhiều cho các ứng dụng quân sự
Trung tâm phát triển và nghiên cứu các hệ thống vô tuyến của Nhật Bản - Research and Development Center for Radio Systems of Japan (RCR). Các chuẩn tế bào số được phát hành bởi RCR.
Chương 2 Kỹ thuật xử lý âm thanh
29
Bảng 2.2.1 Các chuẩn mã hóa âm thoại chính
Năm hoàn thành
Tên chuẩn Tốc độ bit truyền (kbps)
Các ứng dụng
1972a ITU-T G.711 PCM 64 Sử dụng công cộng
1984b FS 1015 LPC 2.4 Liên lạc bảo mật
1987b ETSI GSM 6.10 RPE-LTP 13 Vô tuyến di động số
1990c ITU-T G.726 ADPCM 16, 24, 32, 40 Sử dụng công cộng
1990b TIA IS54 VSELP 7.95 Hệ thống thoại tế bào số TDMA Bắc Mỹ
1990c ETSI GSM 6.20 VSELP 5.6 Hệ thống tế bào GSM
1990c RCR STD-27B VSELP 6.7 Hệ thống tế bào Nhật
1991b FS1016 CELP 4.8 Liên lạc bảo mật
1992b ITU-T G.728 LD-CELP 16 Sử dụng công cộng
1993b TIA IS96 VBR-CELP 8.5, 4, 2, 0.8 Hệ thống thoại tế bào số CDMA Bắc Mỹ
1995a ITU-T G.723.1 MP-MLQ/ACELP
5.3, 6.3 Liên lạc đa phương tiện, điện thoại truyền hình
1995b ITU-T G.729 CS-ACELP 8 Sử dụng công cộng
1996a ETSI GSM EFR ACELP 12.2 Sử dụng công cộng
1996a TIA IS641 ACELP 7.4 Hệ thống thoại tế bào số TDMA Bắc Mỹ
1997b FS MELP 2.4 Liên lạc bảo mật
1999a ETSI AMR-ACELP 12.2, 10.2, 7.95, 7.40, 6.70, 5.90,
5.15, 4.75
Sử dụng công cộng viễn thông
a là được mô tả một phần b là được giải thích đầy đủ c là được mô tả ngắn gọn mà không có mô tả kỹ thuật chi tiết
2.2.1.5 Kiến trúc của hệ thống mã hóa âm thoại
Hình 2.2.2 mô tả sơ đồ khối của hệ thống mã hóa âm thoại. Tín hiệu âm thoại tương tự liên tục có từ nguồn cho trước sẽ được số hóa bởi bộ một bộ lọc chuẩn, bộ lấy mẫu (bộ chuyển đổi thời gian rời rạc), và bộ chuyển tín hiệu tương tự sang tín hiệu số. Tín hiệu ngõ ra là tín hiệu âm thoại thời gian rời rạc với các giá trị lấy mẫu cũng rời rạc hóa. Tín hiệu này được xem là tín hiệu âm thoại số.
Chương 2 Kỹ thuật xử lý âm thanh
30
Hình 2.2.2 Sơ đồ khối của hệ thống xử lý tín hiệu thoại
Thông thường, hầu hết các hệ thống mã hóa âm thoại được thiết kế để hỗ trợ các ứng dụng viễn thông, với tần số giới hạn giữa 300 và 3400Hz. Theo lý thuyết Nyquist, tần số lấy mẫu tối thiểu phải lớn hơn hai lần băng thông của tín hiệu liên tục thời gian. Giá trị 8kHz thường được lựa chọn là tần số lấy mẫu chuẩn cho tín hiệu thoại. Bộ mã hóa kênh thực hiện việc mã hóa hiệu chỉnh lỗi của chuỗi bit truyền trước khi tín hiệu được truyền trên kênh truyền, nơi mà tín hiệu sẽ bị thay đổi do nhiễu cũng như giao thoa tín hiệu…. Bộ giải mã thực hiện việc hiệu chỉnh lỗi để có được tín hiệu đã mã hóa, sau đó tín hiệu được đưa vào bộ giải mã để có được tín hiệu âm thoại số có cùng tốc độ với tín hiệu ban đầu. Lúc này, tín hiệu số sẽ được chuyển sang dạng tương tự thời gian liên tục. Bộ phận thực hiện việc xử lý tín hiệu thoại chủ yếu của mô hình hệ thống xử lý thoại là bộ mã hóa và giải mã. Thông thường, khi xử lý các bài toán về truyền thoại, mô hình được đơn giản hóa như hình 2.2.3
Ví dụ tín hiệu thoại ngõ vào là tín hiệu rời rạc thời gian có tốc độ bit là 128kbps được đưa vào bộ mã hóa để thực hiện mã hóa chuỗi bit hoặc thực hiện nén dữ liệu thoại. Tốc độ của chuỗi bit thông thường sẽ có tốc độ thấp hơn tốc độ của tín hiệu ngõ vào bộ mã hóa. Bộ giải mã nhận chuỗi bit mã hóa này và tạo ra tín hiệu thoại có dạng là rời rạc thời gian và có tốc độ bằng với tốc độ của tín hiệu ban đầu truyền vào hệ thống.
Hình 2.2.3 Sơ đồ khối đơn giản hóa của bộ mã hóa âm thoại
Chương 2 Kỹ thuật xử lý âm thanh
31
2.2.1.6 Kiến trúc tổng quát của bộ mã hóa – giải mã âm thoại
Phân tích và xử lý
Trích và mã hóa thông
số 1
Trích và mã hóa thông
số N
Trích và mã hóa thông
số 2
Đóng gói
Chỉ số 1 Chỉ số 2 Chỉ số N
Chuỗi bit
Tín hiệu âm thoại ngõ vào
PCM
...
Mở gói
Giải mã thông số
1
Giải mã thông số
N
Giải mã thông số
2
Kết hợp và xử lý
Chỉ số 1 Chỉ số 2 Chỉ số N
Âm thoại tổng hợp
...
Chuỗi bit
Hình 2.2.4 Mô tả sơ đồ khối tổng quát của bộ mã hóa và giải mã âm thoại. Đối với bộ mã hóa, tín hiệu âm thoại đầu vào được xử lý và phân tích nhằm thu được
các thông số đại diện cho một khung truyền. Các thông số ngày được mã hóa và lượng tử với mã chỉ số nhị phân và được gửi đi như là một chuỗi bit đã được nén. Các chỉ số này được đóng gói và biểu diễn thành chuỗi bit, chúng được sắp xếp thứ tự truyền dựa vào các thông số đã quyết định trước và được truyền đến bộ giải mã.
Chương 2 Kỹ thuật xử lý âm thanh
32
Hình 2.2.5 Mô hình chung của bộ mã hóa âm thoại. Hình trên: bộ mã hóa, hình dưới:
bộ giải mã. Bộ giải mã thực hiện việc phân tích chuỗi bit nhận được, các chỉ số nhị phân được
phục hồi sau quá trình phân tích và dùng để kết hợp với các thông số tương ứng của bộ giải mã để có được các thông số đã được lượng tử. Các thông số giải mã này sẽ kết hợp với nhau và được xử lý để tạo lại tín hiệu âm thoại tổng hợp.
2.2.1.7 Các yêu cầu cần có của một bộ mã hóa âm thoại Mục tiêu chính của của mã hóa thoại là tối đa hóa chất lượng nghe tại một tốc độ bit
nào đó, hoặc tối thiểu hóa tốc độ bit ứng với một chất lượng đặc thù. Tốc độ bit tương ứng với âm thoại nào sẽ được truyền hoặc lưu trữ phụ thuộc vào chi phí của việc truyền hay lưu trữ, chi phí của mã hóa tín hiệu thoại số, và các yêu cầu về chất lượng của âm thoại đó. Trong hầu hết các bộ mã hóa âm thoại, tín hiệu được xây dựng lại sẽ khác với tín hiệu nguyên thủy. Tốc độ bit truyền bị giảm bởi việc biểu diễn tín hiệu âm thoại (hoặc các thông số trong mô hình tạo âm thoại) với độ chính xác bị giảm, và bởi quá trình loại bỏ các thông tin dư thừa của tín hiệu. Các yêu cầu lý tưởng của một bộ mã hóa thoại bao gồm:
Tốc độ bit thấp: đối với chuỗi bit mã hóa có tốc bit tỉ lệ thuận với băng thông cần cho truyền dữ liệu. Điều này dẫn đến nếu tốc độ bit thấp sẽ làm tăng hiệu suất của hệ thống. Yêu cầu này lại xung đột với các các đặc tính khác của hệ thống, như là chất
Chương 2 Kỹ thuật xử lý âm thanh
33
lượng của âm thoại. Trong thực tế, việc đánh đổi giữa các lựa chọn phụ thuộc vào áp dụng vào ứng dụng gì.
Chất lượng thoại cao: tín hiệu âm thoại đã giải mã phải có chất lượng có thể chấp nhận được đối với ứng dụng cần đạt. Có rất nhiều khía cạnh về mặt chất lượng bao gồm tính dễ hiểu, tự nhiên, dễ nghe và cũng như có thể nhận dạng người nói.
Nhận dạng tiếng nói / ngôn ngữ khác nhau: kỹ thuật nhận dạng tiếng nói có thể phân biệt được giọng nói của người lớn nam giới, người lớn nữ giới và trẻ con cũng như nhận dạng được ngôn ngữ nói của người nói.
Cường độ mạnh ở trong kênh truyền nhiễu: đây là yếu tố quan trọng đối với các hệ thống truyền thông số với các nhiễu ảnh hưởng mạnh đến chất lượng của tính hiệu thoại.
Hiệu suất cao đối với các tín hiệu phi thoại (ví dụ như tín hiệu tone điện thoại): trong hệ thống truyền dẫn kinh điển, các tín hiệu khác có thể tồn tại song song với tín hiệu âm thoại. Các tín hiệu tone như là đa tần tone đôi – Dual tone multifrequency (DTMF) của tín hiệu âm bàn phím và nhạc thông thường bị chèn vào trong đường truyền tín hiệu. Ngay cả những bộ mã hóa thoại tốc độ thấp cũng có thể không thể tạo lại tín hiệu một cách hoàn chỉnh.
Kích thước bộ nhớ thấp và độ phức tạp tính toán thấp: nhằm mục đích sử dụng được bộ mã hóa âm thoại trong thực tế, chi phí thực hiện liên quan đến việc triển khai hệ thống phải thấp, bao gồm cả việc bộ nhớ càn thiết để hỗ trợ khi hệ thống hoạt động cũng như các yêu cầu tính toán. Các nhà nghiên cứu mã hóa âm thoại đã nổ lực trong việc tìm kiếm hiện thực bài toán triển khai trong thực tiễn sao cho có hiệu quả nhất.
Độ trễ mã hóa thấp: trong quá trình xử lý mã hóa và giải mã thoại, độ trễ tín hiệu luôn luôn tồn tại, chính là thời gian trượt giữa âm thoại ngõ vào của bộ mã hóa với tín hiệu ngõ ra của bộ giải mã. Việc trễ quá mức sẽ sinh ra nhiều vấn đề trong việc thực hiện trao đổi tiếng nói hai chiều trong thời gian thực.
2.2.2 Các mô hình dùng trong xử lý âm thanh
2.2.2.1 Mô hình quang phổ 2.2.2.1.1 Mô hình sin
Tín hiệu âm thanh có thể được triển khai từ tập hợp các mô hình sin nếu như có có dạng
∑=
=I
i
tji
ietAty1
)()()( φ (2.2.6)
Với ∫∞−
=t
ii dt ττωφ )()( , )(tAi và )(tiω là thành phần biên độ và tần số tương ứng của
thành phần sin thứ i . Trong thực tế, tín hiệu được xem xét là tín hiệu rời rạc thời gian thực, như vậy ta có thể viết lại
( )( )∑=
=I
iii nnAny
1cos)()( φ (2.2.7)
Chương 2 Kỹ thuật xử lý âm thanh
34
Với .)()( ,00
i
nT
ii dn φττωφ += ∫ (2.2.8)
Về cơ bản, nếu như I có giá trị vô cùng lớn, thì bất cứ tín hiệu âm thanh nào cũng có thể được triển khai từ mô hình sin, phép tính gần đúng được áp dụng tính toán trong mô hình này. Thực tế, tính hiệu nhiễu cũng được triển khai thành vô số các tín hiệu sin, và ta tách việc xử lý riêng tín hiệu này thành phần xử lý Stochastic (Λ ) được ký hiệu là )(ne .
( )( )+=
Γ
=∑ nnAny i
I
ii φcos)()(
0 Λ
)(ne (2.2.9)
Thành phần Λ có thể được tính bằng phép biến đổi Short-Time Fourier sử dụng lưu đồ ở hình 2.2.6. Phương pháp này được ứng dụng trong các phần mềm sms, viết tắt của tổng hợp mô hình phổ - spectral modeling synthesis.
Hình 2.2.6 Phân tích các thành phần hình sin của phần stochastic Phát hiện đỉnh và ghép (Peak detection and continuation): để thực hiện việc phân
tích các thành phần hình sin từ tín hiệu thặng dư, ta phải tìm được và ghi chú lại các đỉnh tần số nổi trội, tức là các thành phần hình sin nắm vai trò chính trong công thức phân tích được. Một chiến thuật được sử dụng để thực hiện điều này là vẽ “bảng chỉ dẫn” trong các khung STFT.
Để thực hiện việc phân chia phần nào là tín hiệu, phần nào là nhiễu, các tần số và pha phải được xác định một cách chính xác. Ngoài ra, để quá trình tổng hợp lại hai tín hiệu đó được đơn giản, biên độ của các thành phần nên được nội suy giữa các khung tín hiệu, và phép nội suy tuyến tính thường được sử dụng. Các tần số cũng như pha của tín hiệu cũng có thể được nội suy, tuy nhiên cần phải lưu ý là phép nội suy tần số có ảnh hưởng chặt chẽ đến phép nội suy pha.
Tổng hợp lại các thành phần sin: Trong giai đoạn tổng hợp lại, các thành phần sin có
Chương 2 Kỹ thuật xử lý âm thanh
35
thể được tạo bởi bất kỳ phương pháp nào như máy tạo dao động số, máy tạo dao động bảng sóng hoặc tổng hợp lấy mẫu bảng sóng, hoặc kỹ thuật dựa trên cơ sở FFT. Kỹ thuật FFT được sử dụng nhiều do tính tiện lợi khi tín hiệu có nhiều thành phần hình sin.
Trích tín hiệu thặng dư (Extraction of the residual): Việc trích phổ của tín hiệu nhiễu thặng dư có thể được thực hiện ở miền tần hoặc trực tiếp từ miền thời gian.
Sự hiệu chỉnh phổ thặng dư (Residual spectral fitting): thành phần stochastic được mô hình hóa là tín hiệu nhiễu băng rộng, được lọc bởi khối đặc trưng tuyến tính. Phổ cường độ của tín hiệu thặng dư có thể được xấp xỉ bằng giá trị trung bình của hàm piecewise-linear. Việc tổng hợp trong miền thời gian có thể được thực hiện bằng phép đảo FFT, sau khi đã ấn định được một tập cường độ mong muốn và một tập pha ngẫu nhiên.
Hiệu chỉnh âm thanh: mô hình sin là một mô hình hữu dụng vì nó cho phép áp dụng việc truyền các âm thanh nhạc lấy từ việc ghi băng thực tế. Hình 2.2.7 mô tả một các bước thực hịên cho việc hiệu chỉnh tín hiệu âm nhạc
Hình 2.2.7 Cơ cấu tổ chức cho việc biểu diễn việc truyền tín hiệu âm nhạc
2.2.2.1.2 Tín hiệu sin + nhiễu + nốt đệm Trong mô hình sin + nhiễu, điều cơ bản là các tín hiệu âm thanh là tổng hợp của nhiều
tín hiệu sin tần số thấp và các loại nhiễu băng rộng hầu như ở dạng tĩnh. Khi đó, một thành phần của âm thanh không được xem xét đến, đó là nốt đệm. Việc hiệu chỉnh âm thanh có thể được thực hiện dễ dàng bằng cách tách riêng thành phần nốt đệm để xét riêng. Thực tế, hầu hết các dụng cụ âm nhạc mở rộng trường độ của một nốt nhạc không làm ảnh hưởng đến chất lượng xử lý.
Với lý do này, một mô hình mới là sin + nhiễu + nốt đệm (SNT) được phát họa dùng trong việc phân tích âm thanh. Ý tưởng chính của việc trích âm đệm trong thực tế từ việc quan sát rằng, các tín hiệu hình sin trong miền thời gian được ánh xạ qua miền tần thành các đỉnh có vị trí xác định, trong khi đó các xung ngắn đối ngẫu trong miền thời gian khi được ánh xạ qua miền tần lại có dạng hình sin. Như vậy, mô hình sin có thể được ứng dụng trong miền tần số biểu diễn các tín hiệu hình sin. Sơ đồ khối mô tả quá trình phân tích SNT được biểu diễn trên hình 2.2.8.
Chương 2 Kỹ thuật xử lý âm thanh
36
Hình 2.2.8 Phân tích tín hiệu âm thanh theo mô hình sin + nhiễu + nốt đệm
Khối DCT trong hình 2.2.8 mô tả hoạt động của phép rời rạc cosin. Phép biến đổi, được định nghĩa như sau:
( )∑
−
=⎟⎠⎞
⎜⎝⎛ +
=1
0 212cos)()(
N
n NknnxkC πα (2.2.10)
Phép biến đổi DCT thực hiện việc một xung được biến đổi thành dạng cosin và ngược lại.
2.2.2.1.3 Mô hình LPC Mã hóa dự đoán tuyến tính có thể được sử dụng để mô hình phổ tĩnh. Tổng hợp LPC
được mô tả trong lưu đồ trong hình 2.2.9. Về bản chất, mô hình chính là giải thuật trừ tổng hợp thực hiện một tín hiệu có phổ “đặc” được lọc bởi một bộ lọc cực. Tín hiệu kích thích có thể sử dụng chính tín hiệu thặng dư e có được qua quá trình phân tích, hoặc có thể sử dụng các thông tin của tín hiệu thoại/phi thoại.
paa ,,1 …
Hình 2.2.9 Tổng hợp LPC
2.2.2.2 Mô hình miền thời gian Việc mô tả âm thanh trong miền tần rất có hiệu quả, tuy nhiên trong một vài ứng dụng,
để tiện việc nghiên cứu việc tổng hợp âm thanh, việc phân tích trong miền thời gian lại có ưu thế hơn.
2.2.2.2.1 Máy tạo dao động số Ta nhận thấy một âm thanh phức tạp đuợc tổng hợp từ nhiều thành phần hình sin bằng
phép tổng hợp FTT-1. Nếu như các thành phần hình sin không quá nhiều, việc tổng hợp từng thành phần được thực hiện bằng cách lấy giá trị trung bình của máy tạo dao động số.
Chương 2 Kỹ thuật xử lý âm thanh
37
njjnj eee 000 )1( ωωω =+ (2.2.11)
Với )()(0 njxnxe IRnj +=ω ở dạng số phức, mỗi bước nhảy thời gian được định nghĩa
như sau:
)(sin)(cos)1( 00 nxnxnx IRR ωω −=+ (2.2.12)
)(cos)(sin)1( 00 nxnxnx IRI ωω +=+ (2.2.13)
Thông số biên độ và pha ban đầu có thể tính dựa theo pha ban đầu 00ωje và thực hiện việc lệch pha vào số mũ. Tín hiệu )1( +nxR có thể được tính theo công thức sau:
)1()(cos2)1( 0 −−=+ nxnxnx RRR ω (2.2.14)
Đáp ứng xung của bộ lọc như sau:
( )( )10
10 11
1cos21
1)( 210
−−
−−=
+−=
−−− zjzjR eezzzH
ωωω (2.2.15)
Giá trị cực của bộ lọc biểu thức 10 nằm trên chu vi đường tròn đơn vị.
Gọi 1Rx , 2Rx là hai biến trạng thái của hai mẫu trứoc đó của tín hiệu ngõ ra Rx , pha
ban đầu 0φ có thể được tính theo hệ phương trình sau:
( )001 sin ωφ −=Rx (2.2.16)
( )002 2sin ωφ −=Rx (2.2.17)
Máy tạo dao động số đặc biệt hữu ích trong việc biểu diễn tổng hợp tín hiệu đối với các bộ vi xử lý đa mục đích, khi các phép toán trên dấu chấm động được triển khai. Tuy nhiên, phương pháp này dùng cho việc tạo tín hiệu sin có hai bất lợi:
Việc cập nhật thông số yêu cầu tính toán trên hàm cosin. Đây là một điều khó đối với điều chế tốc độ âm thanh, do phải thực hiện phép tính cosin ứng với từng mẫu trong miền thời gian
Thay đổi tần số của máy dao động số sẽ làm thay đổi biên độ tín hiệu sin. Khi đó bộ phận logic điều khiển biên độ cần được sử dụng để điều chỉnh hạn chế này.
2.2.2.2.2 Máy tạo dao động bảng sóng Phương pháp thông dụng nhất dùng để tổng hợp các dạng sóng có chu kỳ (bao gồm tín
hiệu dạng sin) thực hiện quá trình đọc lặp đi lặp lại một bảng chứa nội dung của một dạng sóng đã được lưu trữ trước. Ví dụ: nếu dạng sóng cần được tổng hợp ở dạng sin, đối xứng thì chỉ cần lưu trữ lưu trữ ¼ chu kỳ, sau đó sử dụng phép tính toán để nội suy cho toàn bộ chu kỳ.
Đặt [ ]buf là bộ đệm có nội dung chứa là chu kỳ của dạng sóng, hoặc bảng dạng
sóng. Máy tạo dao động dạng sóng hoạt động lặp lại theo chu kỳ quét bảng dạng sóng là bội số của gia số I và đọc nội dung của bảng dạng sóng tại vị trí đó.
Gọi B là chiều dài của bộ đệm, 0f là tần số mà ta muốn tạo tần số lấy mẫu sF , khi đó
giá trị của gia số I là:
sF
BfI 0= (2.2.18)
Chươ
S
tần số
được l
thực h123
•
•
ơng 2 Kỹ thu
Sự thay đổiBài toán th
lấy mẫu, ví
lấy mẫu tại
hiện thay đổi1. Tăng tần 2. Sử dụng b3. Giảm tần
Hình 2.2.1
Hìn
2Tổng hợp l
Dạng sóng
Bảng dạngCác tín hiệ
2Các bảng
uật xử lý âm
i tần số lấy mhiết kế máy dụ như biến
tần số 2,sF .
i tần số lấy msố lấy mẫu bbộ lọc thông
n số lấy mẫu
10 Sơ đồ khố
nh 2.2.11 V
2.2.2.2.3 Tổnlấy mẫu bản
g phân tích k
g sóng được ệu điều khiển2.2.2.2.4 Tổsóng ngắn c
thanh mẫu tạo dao độn
n đổi tín hiệu
Nếu FF
s
s =1,
2,
mẫu có thể đưbằng hệ số L
g thấp bằng hệ số
ối phân rã củ
Ví dụ về thay
ng hợp lấy mng sóng là ph
không phải d
lưu trữ với nn rất quan trọổng hợp hạt có thể được
ng bảng sónu được lấy m
ML
= , với L
ược như hiệnL
M
ủa quá trình
y đổi tần số l
mẫu bảng sóhần mở rộng
ạng sin
nhiều chu kỳọng trong vi(với Giovanđọc với nh
g có thể chumẫu tại tần số
L và M là
n bằng các b
thay đổi tần
lấy mẫu với
ng của máy da
ỳ ệc nhận đượni De Poli) iều tốc độ k
uyển thành bố lấy mẫu F
các số nguy
bước:
n số lấy mẫu
ao động bảng
ợc âm thanh
khác nhau, v
/3/ =ML
bài toán thay
1,sF thành tín
yên tối giản,
g sóng đối vớ
tự nhiên
và kết quả l
2/
y đổi n hiệu
việc
ới
à âm
Chương 2 Kỹ thuật xử lý âm thanh
39
điệu có thể chồng chéo vào nhau trong miền thời gian. Trong phương pháp miền thời gian, việc tổng hợp âm thanh này được gọi là tổng hợp hạt. Tổng hợp hạt bắt đầu từ ý tưởng việc phân tích âm thanh trong miền thời gian được thay thế bằng biểu diễn chúng thành một chuỗi các thành phần ngắn được gọi là “hạt”. Các thông số của kỹ thuật này là các dạng sóng của hạt thứ )(⋅kg , vị trí trong miền thời gian kl và biên độ ka
∑ −=k
kkkg lngans )()( (2.2.19)
Khi số lượng “hạt” lớn, thì việc tính toán sẽ trở nên phức tạp. Tính chất của các hạt và các vị trí trong miền thời gian quyết định âm sắc của âm thanh. Việc lựa chọn các thông số tùy thuộc vào các tiêu chuẩn đưa ra bởi các mô hình thể hiện. Việc lựa chọn các mô hình biểu diễn liên quan đến các quá trình hoạt động mà các quá trình này có thể ảnh hưởng đến âm thanh nào đó theo nhiều cách khác nhau.
Loại cơ bản và quan trọng nhất của tổng hợp hạt (tổng hợp hạt bất đồng bộ) là phân phối các hạt không theo quy luật trong miền tần số -thời gian. Dạng sóng hạt có dạng
( )iTfiig skdk πω 2cos)()( = (2.2.20)
Với )(idω là cửa số có chiều dài là d mẫu, dùng để điều khiển nhịp thời gian và băng
tần phổ kf .
2.2.2.3 Các mô hình phi tuyến 2.2.2.3.1 Điều pha và điều tần
Kỹ thuật tổng hợp phi tuyến thông dụng nhất là điều tần (FM). Trong liên lạc thông tin, FM được dùng trong các thập kỹ gần đây, nhưng ứng dụng của nó trong giải thuật tổng hợp âm thanh trong miền thời gian rời rạc được biết đến với cái tên John Chowning. Về bản chất, Chowning đã thực hiện các nghiên cứu trên các phạm vi khác nhau của việc tạo tiếng rung bằng các bộ tạo dao động đơn giản, và thu được kết quả là các tần số rung nhanh sẽ tạo ra các thay đổi đầy kịch tính. Như vậy, điều chế tần số của một máy tạo dao động cũng đủ tạo ra tín hiệu âm thanh có phổ phức tạp. Mô hình FM của Chowning như sau:
( )( ) ( )( )nnAnInAnx cmc φωωω +=+= sinsinsin)( (2.2.21)
Với cω là tần số sóng mang và mω là tần số điều chế, I là chỉ số điều chế. Phương
trình (2.2.21) thực tế cũng là phương trình điều pha. Tần số tức thời của phương trình (2.2.21)
( )nIn mmc ωωωω cos)( −= (2.2.22)
Hoặc:
)2cos()( nfIffnf mmc π−= (2.2.23)
Hình 2.2.12 mô tả việc triển khai pd của giải thuật FM đơn giản. Tần số điều chế được dùng để điều khiển trực tiếp bộ tạo dao động, trong khi tần số sóng mang dùng để điều khiển bộ tạo pha đơn vị, tạo pha theo chu kỳ. Với tần số sóng mang, tần số điều chế và chỉ số điều chế cho trước, ta có thể dễ dàng dự đoán các thành phần ở phổ tần số của âm thanh kết quả.
Chương 2 Kỹ thuật xử lý âm thanh
40
Hình 2.2.12 Phần triển khai phân phối pd của điều pha.
Việc phân tích dựa trên đặc tính lượng giác
( )( )
( )( ) ( ) ( )( )[ ]⎪⎭
⎪⎬
⎫
⎪⎩
⎪⎨
⎧
−−+++=
+=
−
∞
=∑
sfrequencieside
kmc
kmck
carrier
c
mc
nknkIJnIJA
nInAnx
10 sin1sin)()sin()(
sinsin)(
ωωωωω
ωω
(2.2.24)
Với )(IJ k là bậc thứ k của hàm Bessel. Các hàm Bessel được vẽ trên hình 2.2.13
ứng với nhiều giá trị k trên trục số lượng side-frequencies và giá trị I trên trục chỉ số điều chế.
Hình 2.2.13 Các giá trị của hàm Bessel. Băng thông có giá trị xấp xỉ bằng
( ) mm IIIBW ωω 224.02 27.0 ≈+= (2.2.25)
2.2.2.3.2 Méo phi tuyến Khái niệm tổng hợp âm thanh bằng méo phi tuyến – Nonlinear distortion (NLD) rất
đơn giản: ngõ ra của mạch tạo dao động được dùng như là thông số của một hàm phi tuyến. Trong miền thời gian rời rạc số, hàm phi tuyến được lưu trữ trong một bảng, và ngõ ra của bộ dao động được dùng như là chỉ số để truy nhập vào bảng. Điều thú vị của NLD là lý thuyết
Chương 2 Kỹ thuật xử lý âm thanh
41
này cho phép thiết kế một bảng méo cho bởi các đặc điểm kỹ thuật của một phổ mong muốn. Nếu bộ tạo dao động có dạng tín hiệu sin, ta có thể tính toán NLD như sau
)cos()( 0nAnx ω= (2.2.26)
( )( )nxFny =)( (2.2.27)
Với hàm số phi tuyến, dùng đa thức Chebyshev. Đa thức Chebyshev cấp độ n được định nghĩa đệ quy như sau:
1)(0 =xT (2.2.28)
xxT =)(1 (2.2.29)
)()(2)( 21 xTxxTxT nnn −− −= , (2.2.30)
và có tính chất:
θθ nTn cos)(cos = (2.2.31)
Như vậy, với tính chất (2.2.31), nếu hàm méo phi tuyến là đa thức Chebyshev cấp độ m , giá trị ngõ ra y có được bằng cách sử dụng bộ dao động sin nnx 0cos)( ω= , như vậy
( )nmny 0cos)( ω= là hài bậc m của x .
Phổ của y(n) với:
∑=k
k nkhny )cos()( 0ω (2.2.32)
là:
∑=k
kk xThxF )()( (2.2.33)
Ngoài các mô hình trên, các mô hình vật lý cũng được áp dụng trong việc tổng hợp, xử lý âm thanh như mạch dao động vật lý, mạch dao động đôi và mạch phân phối cộng hưởng một chiều.
2.2.2.4 Mô hình thời gian rời rạc Trong hầu hết các trường hợp liên quan đến xử lý thông tin, việc biểu diễn tín hiệu sao
cho đảm bảo tính tiện lợi trong phân tích mà vẫn không làm mất đi tính chất của tín hiệu là điều mà các nhà khoa học quan tâm. Sóng âm thanh xuất phát từ lời nói của người có tính chất tự nhiên và ngẫu nhiên nhất. Phân tích toán học thuận tiện nhất là xem sóng âm thanh là một hàm số theo biến thời gian t . Ta ký hiệu )(txa là dạng sóng tương tự theo thời gian t .
Chương 2 Kỹ thuật xử lý âm thanh
42
Hình 2.2.14 Biểu diễn tín hiệu âm thoại
Trong giáo trình này, ta dùng ký hiệu )(nx mô tả cho chuỗi số. Trong trường hợp lấy mẫu tín hiệu âm thoại, một chuỗi có thể được xem như là một dãy các mẫu của tín hiệu tương tự được lấy mẫu một cách đều đặn với thời gian lấy mẫu là T, khi đó tín hiệu sau khi lấy mẫu được ký hiệu bởi )(nTxa . Hình 2.2.14 mô tả một ví dụ của việc tín hiệu âm thoại được biểu
diễn ở cả hai dạng là tín hiệu tương tự và dạng chuỗi các mẫu được lấy mẫu ở tần số là 8kHz. Xung đơn vị được định nghĩa như sau:
1)( =nδ 0=n
0= ngược lại (2.2.34)
Chuỗi bước đơn vị được ký hiệu
1)( =nu 0≥n
0= 0<n (2.2.35)
Hàm mũ
nanx =)( (2.2.36)
Nếu a ở dạng số phức, 0jwrea = , thì
)sin(cos)( 000 njnrernx nnjwn ωω +== (2.2.37)
Chương 2 Kỹ thuật xử lý âm thanh
43
Hình 2.2.15 (a) Lấy mẫu đơn vị, (b) đơn vị bước, (c) hàm mũ thực và (d) hàm sin suy
giảm
Hình 2.2.16 Sơ đồ khối (a) hệ thống đơn ngõ vào/đơn ngõ ra; (b) hệ thống đơn ngõ
vào/đa ngõ ra Khi hệ thống gồm nhiều ngõ ra, tín hiệu chuỗi ngõ ra sẽ được biểu diễn bằng một
vector được mô tả như ở hình 2.2.16. Hệ thống tuyến tính dịch bất biến là hệ thống đặc biệt hữu dụng cho việc xử lý tín hiệu
âm thoại. Hệ thống được đặc trưng bởi đáp ứng xung, )(nh , khi đó tín hiệu ngõ ra được tính bởi công thức
∑∞
−∞=
=−=k
nhnxknhkxny )(*)()()()( (2.2.38a)
Chương 2 Kỹ thuật xử lý âm thanh
44
∑∞
−∞=
=−=k
nxnhknxkhny )(*)()()()( (2.2.38b)
với * là phép chập hai tín hiệu.
2.3 LÝ THUYẾT VÀ CÁC BÀI TOÁN CƠ BẢN
2.3.1 Phân tích dự đoán tuyến tính
Dự đoán tuyến tính (Linear prediction, viết tắt là LP) là một phần không thể thiếu của hầu hết tất cả giải thuật mã hóa thoại hiện đại ngày nay. Ý tưởng cơ bản là một mẫu thoại có thể được xấp xỉ bằng một kết hợp tuyến tính của các mẫu trong quá khứ. Trong một khung tín hiệu, các trọng số dùng để tính toán kết hợp tuyến tính được tìm bằng cách tối thiểu hóa bình phương trung bình lỗi dự đoán; các trọng số tổng hợp, hoặc các hệ số dự đoán tuyến tính (LPC) được dùng đại diện cho một khung cụ thể.
Trong thực tế, phân tích dự đoán là một tiến trình ước lượng để tìm các thông số của AR, mà các thông số này được cho bởi các mẫu của tín hiệu. Như vậy, LP là một kỹ thuật nhận dạng với các thông số của một hệ thống được tìm từ việc quan sát. Với giả định là tín hiệu thoại được mô hình như là tín hiệu AR, điều này đã được chứng minh tính đúng đắn của nó trong thực tiễn.
Một cách biểu diễn LP khác là phương pháp ước lượng phổ. Như đã trình bày ở trên, phân tích LP cho phép việc tính toán các thông số của AR, đã được định nghĩa trong mật độ phổ công suất (PSD) của chính bản thân tín hiệu. Bằng cách tính toán LPC của một khung tín hiệu, ta có thể tạo ra một tín hiệu khác theo cách thức có nội dung phổ gần như tương đồng với tín hiệu gốc.
LP cũng có thể được xem như là một quá trình loại bỏ các dư thừa khi thông tin bị lặp lại trong một sự trường hợp cần khử. Sau cùng, việc truyền dữ liệu có thể không cần thiết nếu như dữ liệu cần truyền có thể được dự đoán trước. Bằng cách thức chuyển chỗ các dư thừa trong một tín hiệu, số lượng bit cần thiết để mang thông tin sẽ ít hơn và như thế sẽ đạt được mục tiêu nén dữ liệu.
Trong phần này sẽ đề cập đến bài toán cơ bản của phân tích LP đã được định rõ, kết hợp với việc hiệu chỉnh lại cho phù hợp theo hướng các tín hiệu động, cũng như ví dụ và các giải thuật cần thiết cho quá trình dự đoán tuyến tính.
2.3.1.1 Bài toán dự đoán tuyến tính Dự đoán tuyến tính được mô tả như là một bài toán nhận dạng hệ thống, với các thông
số của một mô hình AR được ước lượng từ bản thân tín hiệu. Mô hình được trình bày ở hình 2.3.1. Tín hiệu nhiễu trắng ][nx được lọc bởi quá trình tổng hợp AR để có được tín hiệu AR
][ns , với các thông số AR được ký hiệu là ia . Dự đoán tuyến tính thực hiện ước đoán ][ns
dựa vào M mẫu trong quá khứ:
][][1
insansM
ii −−= ∑
=
(2.3.1)
Với ia là các ước lượng của các thông số AR được xem là các hệ số dự đoán tuyến
Chương 2 Kỹ thuật xử lý âm thanh
45
tính (LPC). Hằng số M trong công thức là bậc dự đoán. Như vậy, việc dự đoán dự trên tổ hợp tuyến tính của M mẫu trong quá khứ của tín hiệu, chính vì thế việc dự đoán mang tính tuyến tính. Lỗi dự đoán được tính bằng công thức:
][ˆ][][ nsnsne −= (2.3.2)
Hình 2.3.1 Hệ thống nhận dạng dưới dạng dự đoán tuyến tính
Hình 2.3.2 Bộ lọc lỗi dự đoán
Lỗi dự đoán chính là độ sai biệt giữa mẫu thật sự và mẫu ước lượng. Hình 2.3.2 mô tả lưu đồ tín hiệu thực hiện bộ lọc lỗi dự đoán. Bộ lọc có ngõ vào là tín hiệu AR và ngõ ra chính là tín hiệu lỗi dự đoán.
Tối thiểu hoá lỗi
Bài toán nhận dạng hệ thống bao gồm việc ước lượng các thông số AR ia từ ][ns . Để
thực hiện việc ước lượng, tiêu chuẩn phải được thiết lập. Trong đó, bình phương trung bình lỗi dự đoán được tính bởi công thức:
{ }⎭⎬⎫
⎩⎨⎧
⎟⎠⎞
⎜⎝⎛ −+== ∑
=
2
1
2 ][][][M
ii insansEneEJ (2.3.3)
Được tối thiểu hóa bằng cách lựa chọn LPC thích hợp. Thông số LPC tối ưu có thể được tìm bằng cách thiết lập các đạo hàm riêng phần của J khi ia tiến tới zero:
Chương 2 Kỹ thuật xử lý âm thanh
46
0][][][21
=⎭⎬⎫
⎩⎨⎧ −⎟
⎠⎞
⎜⎝⎛ −+=
∂∂ ∑
=
knsinsansEaJ M
ii
k
(2.3.4)
Với Mk ,...,2,1= , khi (2.3.4) xảy ra thì ia = ia , lúc này LPC chính bằng các thông số
AR. Độ lợi dự đoán Độ lợi dự đoán của bộ dự đoán được cho bởi công thức
{ }{ }⎟⎟⎠
⎞⎜⎜⎝
⎛=⎟⎟
⎠
⎞⎜⎜⎝
⎛=
][][log10log10 2
2
102
2
10 neEnsEPG
e
s
σσ
(2.3.5)
Là tỉ số giữa biến tín hiệu ngõ vào và biến của lỗi dự đoán theo đơn vị decibels (dB). Độ lợi dự đoán là thông số đo lường chất lượng của bộ dự đoán. Một bộ dự đoán tốt hơn có khả năng tạo ra lỗi dự đoán nhỏ hơn với độ lợi cao hơn.
Tối thiểu hóa bình phương trung bình lỗi dự đoán
Từ hình 2.3.2, ta có thể nhận xét khi ii aa ˆ= , thì ][][ nxne = ; như vậy lỗi dự đoán
tương tự như dùng tín hiệu nhiễu trắng để tạo ra tín hiệu AR ][ns . Đây là trường hợp tối ưu khi lỗi bình phương trung bình được tối thiểu hóa, với
{ } { } 222min ][][ xnxEneEJ σ=== (2.3.6)
Khi đó, độ lợi dự đoán đạt giá trị lớn nhất. Điều kiện tối ưu có thể đạt được khi bậc của bộ dự đoán lớn hơn hoặc bằng bậc của
quá trình tổng hợp AR. Trong thực tế, M thường là số chưa biết trước. Một phương pháp đơn giản để có thể ước lượng được giá trị M từ tín hiệu nguồn là vẽ biểu đồ độ lợi dự đoán như là một hàm của bậc dự đoán. Với phương pháp này, ta có thể quyết định được bậc của dự đoán ứng với độ lợi bão hòa, khi đó khi tăng bậc dự đoán thì độ lợi không tăng. Giá trị của bậc dự đoán tại điểm thỏa điều kiện bão hòa này được xem là giá trị ước lượng tốt nhất cho bậc của tín hiệu AR.
Sau khi đã xác định được giá trị M, hàm chi phí J đạt giá trị tối thiểu khi ii aa ˆ= , dẫn
đến ][][ nxne = . Và khi đó, lỗi dự đoán sẽ bằng với giá trị tín hiệu đầu vào của bộ tổng hợp quá trình AR.
2.3.1.2 Phân tích dự đoán tuyến tính cho tín hiệu động Tín hiệu thoại trong thực tế là tín hiệu động, nên LPC phải được tính ứng với từng
khung tín hiệu. Trong một khung tín hiệu, một tập LPC được tính toán và dùng để đại diện cho các thuộc tính của tín hiệu trong một chu kỳ cụ thể, với giả định rằng số liệu thống kê của tín hiệu vẫn không thay đổi trong một khung. Quá trình tính toán LPC từ dữ liệu tín hiệu được gọi là phân tích dự đoán tuyến tính.
Bài toán dự đoán tuyến tính cho tín hiệu động được phát biểu lại như sau: đây là bài toán thực hiện việc tính các giá trị LPC ứng với N điểm dữ liệu với thời gian kết thúc là m :
]1[ +−Nms , ]2[ +− Nms , …, ][ms . Vector LPC được viết như sau:
[ ] [ ] [ ] [ ][ ]TM mamamama ...21= (2.3.7)
Chươ
VĐ
V
công t
lọc bở
mẫu. Ưđược ttoán tạcao hơ
ơng 2 Kỹ thu
Với M là bĐộ lợi dự đoĐộ lợi dự đ
Với
e
Các LPC athức (2.3.9) l
Ví dụ: Nhiởi bộ tổng hợ
534.11 =a
061.06 −=a
Khung tổnƯớc lượng tthực hiện vớại 2=M vàơn nữa, cho n
Hình 2.3.3
uật xử lý âm
ậc dự đoán oán đoán của bộ
[ ] [ ]nsne −=
[ ]mai được
là một hàm t
iễu trắng đượp AR với
2 =a
1 7 =a
ng hợp của ttự động tươnới bậc từ 2 đà đạt giá trị cnên ta có thể
3 Độ lợi dự
thanh
dự đoán đư
[ ]mPG
[ ] [ ]nsns +=^
tính toán từ
theo biến thờ
ược tạo ra bở
1=
172.0−=
tín hiệu AR ng quan khôến 20. Hình cao nhất tại ể chỉ cần xét
đoán (PG) l
ợc cho bởi c
⎜⎜⎜⎜
⎝
⎛
= 10log10
[ ] [nsmaM
ii+∑
=1
các mẫu tro
ời gian m .
ởi bộ tạo số
58.03 =a
.08 −=a
được dùng ông hồi qui s 2.3.3 tóm t
10=M . Cát đến 1=M
là một hàm t
công thức
[ ]
[ ]⎟⎟⎟⎟
⎠
⎞
∑
∑
+−=
+−=m
Nmn
m
Nmn
ne
ns
1
2
1
2
]in− ; = mn
ong chu kỳ.
ngẫu nhiên
87 4a
156 9a
cho phân tícsử dụng cửatắt kết quả, vác bậc lớn hơ0 .
theo biến bậc
1+− Nm , …
Độ lợi dự đo
phân phối đ
347.04 =
157.09 −=
ch LP, với ta sổ Hamminvới độ lợi dựơn 10 không
c dự đoán M
(2
…, m (2
oán định ngh
đều, sau đó
56 =a
10 −=a
tổng cộng làng. Phân tícự đoán đượcg cho được đ
M
2.3.8)
2.3.9)
hĩa ở
được
08.0
14.0−
à 240 h LP
c tính độ lợi
Chương 2 Kỹ thuật xử lý âm thanh
48
2.3.1.3 Giải thuật Levison-Durbin
Thông thường, việc tính toán ma trận nghịch đảo không đơn giản, tuy nhiên đối với bài toán này, các hệ số giải thuật có thể được tính thông qua tính toán ma trận tương quan. Hai giải thuật Levison-Durbin và Leroux-Gueguen là hai giải thuật rất phù hợp cho việc tính toán LP của các hệ thống triển khai trong thực tế.
Giải thuật Levison-Durbin thực hiện việc tìm bộ dự đoán bậc thứ M từ bộ dự đoán bậc thứ )1( −M . Đây là quá trình lặp đệ quy cho đến khi tìm được lần đầu tiên bộ dự đoán bậc zero, sau đó sẽ dùng bộ bậc zero sẽ được dùng để tính bộ dự đoán bậc 1 và quá trình tiếp tục cho đến khi tính toán được bộ dự đoán có bậc cần tìm.
Giải thuật: biến đầu vào là các hệ số tự tương quan [ ]lR , giá trị tính được là các LPC và RC
Định trị ban đầu: 0=l , tập [ ]00 RJ =
Thực hiện đệ quy, Mlfor ,...,2,1=
o Bước 1: Tính toán RC thứ l , [ ]( ) [ ]∑−
=
−
−
−+=1
1
)1(
1
1 l
i
li
ll ilRalR
Jk ,
o Bước 2: Tính toán các LPC ứng với bộ dự đoán bậc l
;)(l
li ka −=
;)1()1()( −−
− −= lill
li
li akaa 1,...,2,1 −− li
Dừng nếu Ml =
o Bước 3: Tính giá trị bình phương trung bình lỗi dự đoán tương ứng với lời giải tại bậc l
( )21 1 ljl kJJ −= −
Gán 1+= ll , quay lại bước 1
2.3.1.4 Giải thuật Leroux-Gueguen Bài toán sử dụng giải thuật Levinson-Durbin dựa trên các giá trị của các LPC, bởi vì
chúng có thuộc một tầm vực rộng và giá trị biên của biên độ của các LPC không thể tính được ứng với cơ sở lý thuyết. Vấn đề xảy ra khi giải thuật được áp dụng cho tính toán trên dấu chấm tĩnh. Giải thuật Leroux-Gueguen khắc phục điểm yếu này của giải thuật Levison-Durbin.
Leroux và Gueguen [1979] đã đề xuất một phương pháp tính toán các RC từ các giá trị tự tương quan mà không cần phải tính thông qua các LPC. Do đó, bài toán liên quan đến tầm động với điều kiện dấu chấm tĩnh đã được giải quyết. Xét thông số sau
[ ] [ ] [ ]{ } [ ]∑=
−=−=l
i
li
ll kiRaknsneEk0
)()()(ε , (2.3.10)
Với
[ ]ne l )( = lỗi dự đoán sử dụng bộ lọc dự đoán lỗi bậc thứ
Chương 2 Kỹ thuật xử lý âm thanh
49
l
)(lia = LPC của bộ dự đoán bậc thứ l
][kR = giá trị tự tương quan của tín hiệu ][ns
Định lý:
[ ] [ ]0)( Rkl ≤ε (2.3.11)
Sinh viên có thể tự chứng minh
Bảng 2.3.1 mô tả các thông số ε cần thiết ứng với mỗi bậc l trong giải thuật Leroux-Gueguen
Bảng 2.3.1
l Các thông số cần thiết
M
[ ] [ ]MMM )1()1( ,0 −− εε
[ ] [ ] [ ] [ ]MM MMMM )2()2()2()2( ,1,0,1 −−−− −− εεεε
3−M [ ] [ ] [ ] [ ]MM MMMM )3()3()3()3( ,,2,0,,2 −−−− −− εεεε ……
4−M [ ] [ ] [ ] [ ]MM MMMM )4()4()4()4( ,,3,0,,3 −−−− −− εεεε ……
[ ] [ ] [ ] [ ]MM )1()1()1()1( ,,2,0,,2 εεεε ……+−
0 [ ] [ ] [ ] [ ]MM )0()0()0()0( ,,1,0,,1 εεεε ……+−
Giải thuật:
Định trị ban đầu: 0=l , tập [ ] [ ] MMkkRk ,...,1,)0( +−==ε
Thực hiện đệ quy, Mlfor ,...,2,1=
o Bước 1: Tính toán RC thứ l , [ ][ ]0)1(
)1(
−
−
= l
l
l elk ε , dừng khi Ml =
o Bước 2: Tính toán các thông số
[ ] [ ] [ ] .,...1,0,...,1;)1()1()( MllMkklkkk ll
ll +++−=−−= −− εεε
o Gán 1+= ll , quay lại bước 1
2.3.1.5 So sánh giải thuật Levison-Durbin và Leroux-Gueguen Giải thuật Leroux-Gueguen phù hợp hơn cho các bài toán dấu chấm tĩnh đối với các
biến trung gian có biên đã được biết trước. Nhược điểm của giải thuật này là chỉ có các giá trị RC là kết quả trả về, là kết quả không cần thiết đối với bộ lọc lưới. Đối vớic các bộ lọc có dạng trực tiếp, các giá trị LPC có thể có được nếu dùng một trong hai giải thuật.
Việc sử dụng bộ lọc mắt cao thường trong việc tính toán LP thường không đơn giản
1−M
2−M
1
Chương 2 Kỹ thuật xử lý âm thanh
50
do số lượng tính toán. Ngoài ra, đối với trường hợp thời gian biến đổi, các hệ số được cập nhật từ khung thời gian này đến khung thời gian khác sẽ làm cho việc tính toán càng phức tạp hơn đối với cấu trúc lưới. Ngoài ra, phương pháp Leroux-Gueguen sử dụng biến đổi RC-sang-LPC không cung cấp việc lưu trữ lại các bước tính toán quan trọng so với giải thuật Levinson-Durbin. Tất cả các điều trên làm cho giải thuật Levinson-Durbin thông dụng hơn trong thực tiễn, đặc biệt là đối với các bài toán số.
Trong các bài toán ứng dụng thực tế, giải thuật Levison-Durbin dùng trong điều kiện dấu chấm tĩnh phải được cân nhắc kỹ sao cho đảm bảo các biến phải nằm trong tầm vực cho phép.
2.3.2 Dự đoán tuyến tính trong xử lý thoại
Đối với việc đơn giản hóa mô hình xử lý thoại, giải thuật dự đoán tuyến tính (LPC) là một trong những giải thuật áp dụng tạo các bộ mã hóa chuẩn cho việc xử lý âm hoạt động ở tần số thấp. Ở tốc độ 2.4kbps, bộ mã hóa FS1015 LPC [Hãng Tremain, 1982] là một bước tiến vượt bật trong ngành xử lý âm thanh; mặc dù chất lượng của âm thanh được giải mã không cao, nhưng hệ thống giải mã đơn giản và dễ hiểu. Thuật ngữ “mã hóa dự đoán tuyến tính” xuất hiện từ khi việc tạo ra âm thanh thoại sử dụng bất kỳ giải thuật ứng dụng mô hình LPC, trong đó chuẩn FS1015 là chuẩn điển hình.
Ban đầu, trong việc phát triển cho việc truyền thông bảo mật thuộc các ứng dụng quân sự, bộ mã hóa FS1015 được đặc trưng bởi tín hiệu thoại mã tổng hợp ngõ ra thường cần đến các nhân viên vận hành tổng đài đã được huấn luyện sử dụng. Mặc dù hầu hết các bộ mã hóa thoại dựa vào công nghệ LP đạt được hiệu suất cao hơn ngày nay, nhưng về cơ bản, hoạt động của chúng là có nguồn gốc từ LPC, việc cải tiến nhằm mục đích đạt được chất lượng tốt hơn và hiệu suất mã hóa tối ưu hơn.
2.3.2.1 Mô hình xử lý tín hiệu thoại Mô hình xử lý thoại dựa vào mô hình mã hóa dự đoán tuyến tính được mô tả trong
hình 2.3.4. Mô hình được dựng dựa vào việc quan sát các đặc tính cơ bản của tín hiệu thoại và bắt chước kỹ thuật tạo âm thanh thoại của người. Bộ lọc tổng hợp được mô phỏng theo sự phát âm, khẩu âm của miệng người. Tín hiệu lái ngõ vào của bộ lọc hoặc tín hiệu kích thích mạch được mô phỏng theo dạng xung truyền động (âm thanh thoại) hoặc là nhiễu ngẫu nhiên (âm thanh phi thoại). Như vậy, phụ thuộc vào trạng thái âm thanh thoại hay phi thoại của tín hiệu, mạch chuyển được thiết lập ở vị trí thích hợp sao cho ngõ vào tương ứng sẽ được chọn đưa vào mạch. Mức năng lượng của tín hiệu ngõ ra được điều khiển bởi thông số độ lợi.
Làm cách nào mô hình phù hợp với ngữ cảnh của mã hóa âm thoại? Xét các mẫu thoại một cách riêng lẻ ứng với từng khung tín hiệu không chồng lên nhau. Ứng với từng đoạn khung đủ ngắn, thuộc tính của tín hiệu về cơ bản là hằng số. Trong mỗi khung, các thông số của mô hình được ước lượng từ các mẫu thoại, các thông số bao gồm:
Dạng: tín hiệu thuộc khung là thoại hay phi thoại Độ lợi: liên quan chủ yếu đến mức năng lượng của khung Hệ số lọc: định rõ đáp ứng của bộ lọc tổng hợp Chu kỳ âm thanh: trong trường hợp đối với khung thoại, là chiều dài thời gian giữa
các xung kích thích liên tiếp nhau.
Chươ
các thôđược gđịnh ứ
thông
FS101việc tổhiệu sđược m
ơng 2 Kỹ thu
Quá trình ưông tin của kgửi đi. Để gứng với từng
Chu kỳ cường độ
Việc ước l
số ước lượn
HìnHình 2.3.5
15). Các mẫuổng hợp âm au khi tổng mô tả trong h
uật xử lý âm
ước lượng thkhung. Như giảm thiểu n
thông số, nh
Bộ tạo chuỗi xun
Bộ tạo nhiễu trắn
Hình 2lượng các th
ng này và dùn
nh 2.3.5 Hì5 mô tả mộu nguyên thủthoại dựa trhợp tương đhình 2.3.6.
thanh hông số đượcvậy, thay vì
nhiễu và sự mhư vậy, tỉ số
T
ng
ng
tr
.3.4 Mô hìnhông số là nhng mô hình t
ình vẽ các cáột khung tínủy được xửrên mô hình đối giống nh
c thực hiện ứì truyền các méo tín hiệuố nén tối ưu c
Truyền âm
Khóa ruyền âm/cách âm
nh LPC tổnghiệm vụ củatạo thoại để
ác khung phin hiệu phi th
phân tích Lhình 2.3.4.
hau do mật đ
ứng với từngxung PCM, u, các bít trucó thể đạt đư
Độ lợi C
t
g hợp tiếng na bộ mã hóatổng hợp âm
i thoại hoại có 180P qua quá trTín hiệu củađộ phổ công
g khung, cáccác thông số
uyền được cược.
Các hệ sốbộ lọc
Bộ lọc tổng hợp
nói a. Bộ giải mãm thoại.
0 mẫu (sử drình tổng hợa tín hiệu ngg suất có dạn
c kết quả chíố của mô hìncấp phát theo
Âm thoại
ã sẽ sử dụng
dụng bộ mãợp LPC dùngguyên thủy vng tương đư
nh là nh sẽ o chỉ
i
g các
ã hóa g cho và tín ương,
Chươ
Hthuỷ; Hphươn
Hdưới: t
HHình bpháp d
ơng 2 Kỹ thu
Hình 2.3.6 Hình bên ph
ng pháp dự đ
Hình 2.3.7 tín hiệu tổng
Hình 2.3.8 bên phải: tíndự đoán LPC
uật xử lý âm
Sơ đồ của hải: tín hiệu đoán LPC.
Sơ đồ khungg hợp.
Sơ đồ của mn hiệu tổng hC.
thanh
một khung tổng hợp. Đ
g tín hiệu âm
một khung âhợp. Đường
âm thanh phĐường nét đ
m thanh thoạ
âm thanh thonét đứt là gi
hi thoại, Hìnđứt là giá trị
ại. Hình trên
oại, Hình bêiá trị mật độ
nh bên trái: mật độ phổ
n: tín hiệu ng
ên trái: tín hi phổ công su
tín hiệu ngổ công suất
guyên thủy;
iệu nguyên tuất dùng phư
guyên dùng
Hình
thuỷ; ương
Chương 2 Kỹ thuật xử lý âm thanh
53
2.3.2.2 Cấu trúc của giải thuật dùng mô hình LPC 2.3.2.2.1 Bộ mã hóa (Encoder)
Hình 2.3.9 mô tả sơ đồ khối của bộ mã hóa. Tín hiệu thoại ngõ vào đầu tiên sẽ được phân cắt thành các khung tín hiệu không chồng lên nhau. Bộ lọc đầu dùng để hiệu chỉnh phổ của tín hiệu ngõ vào, bộ nhận dạng tiếng nói phân loại khung hiện tại đang xử lý là tín hiệu thoại hay phi thoại và các ngõ ra một bit biểu thị trạng thái của âm thoại.
Tín hiệu ra của bộ lọc đầu được dùng để phân tích LP, mạch bao gồm mười LPC . Các hệ số này sẽ được lượng tử hóa với các chỉ số được truyền như là thông tin của khung. Các LPC được lượng tử hoá dùng để xây dựng bộ lọc dự đoán lỗi, dùng để lọc các tín hiệu âm thanh từ bộ lọc đầu để có được tín hiệu dự đoán lỗi ở ngõ ra.
Hình 2.3.9 Sơ đồ khối của bộ mã hóa LPC
2.3.2.2.2 Tính toán công suất Công suất của chuỗi lỗi dự đoán ứng với hai trường hợp khung thoại và khung phi
thoại là khác nhau. Ký hiệu chuỗi lỗi dự đoán là ][ne , [ ]1,0 −∈ Nn với N là chiều dài của khung.
Trường hợp tín hiệu là phi thoại:
[ ]neN
pN
n∑−
=
=1
0
21 (2.3.12)
Trường hợp tín hiệu là âm thoại, T là chu kỳ lớn nhất của tín hiệu thành phần
[ ] [ ][ ]
∑−
=
=1
0
21 TTN
nne
TTNp (2.3.13)
Với [ ]⋅ là hàm tính giá trị nhỏ hơn hoặc bằng với toán hạng. Giả sử rằng TN > thì việc dùng [ ]⋅ luôn đảm bảo rằng việc tính toán luôn nằm trong vùng biên của khung.
Chương 2 Kỹ thuật xử lý âm thanh
54
2.3.2.2.3 Bộ giải mã
Chuỗi bit
Bộ giãi mã chu kỳ cường độ
Khối tạo nhiễu
Bộ giải mã công suất
Bộ giãi mã LPC
Tính toán độ lợi
Bộ lọc tổng hợp
Tiếng nói tổng hợp
Khối tạo xung huấn luyện
Khóa voiced/
unvoiced
Chỉ số chu kỳ cường độ
Chỉ số công suất
Chỉ số LPC
Khối De-emphasis
Khối unpack
Hình 2.3.10 Sơ đồ khối của bộ giải mã LPC
Hình 2.3.10 mô tả sơ đồ khối của bộ giải mã theo mô hình tạo âm LPC với các thông số được điều khiển bởi luồng bit. Giả sử rằng của bộ tạo chuỗi xung tạo ra các xung có biên độ đơn vị, trong khi bộ tạo nhiễu trắng có tín hiệu ngõ ra có biên độ khác đại lượng đơn vị.
Việc tính toán độ lợi được thực hiện như sau: Đối với tín hiệu là phi thoại, công suất của tín hiệu của bộ lọc tổng hợp phải bằng với lỗi dự đoán của bộ mã hóa. Ký hiệu độ lợi là g , ta có
pg = (2.3.14)
2.3.2.2.4 Giới hạn của mô hình LPC Giới hạn 1: Trong một số trường hợp, một khung âm thanh có được phân loại là tín hiệu
dạng thoại hay phi thoại. Giới hạn 2: Việc sử dụng hoàn toàn nhiễu ngẫu nhiên hoặc hoàn toàn chuỗi xung có chu
kỳ tạo kích thích không phù hợp với thực tế là sử dụng tín hiệu âm thoại thực. Giới hạn 3: Thông tin về pha của tín hiệu nguyên thủy không được xem xét. Giới hạn 4: Phương pháp thực hiện việc tổng hợp các khung thoại, trong khi một chuỗi
xung dùng để kích thích bộ lọc tổng hợp với các hệ số có được từ việc phân tích LP vi phạm nền tảng của mô hình AR.
2.4 PHÂN TÍCH CHẤT LƯỢNG XỬ LÝ THOẠI
2.4.1 Các phương pháp mã hoá
Dịch vụ thoại là dịch vụ cơ bản và quan trọng nhất trong các dịch vụ cung cấp cho khách hàng của các nhà khai thác di động ở Việt Nam cũng như trên thế giới. Để đảm bảo hỗ trợ tốt khách hàng nhằm đạt được lợi thế cạnh tranh, các nhà khai thác di động cần hỗ trợ tốt
Chương 2 Kỹ thuật xử lý âm thanh
55
dịch vụ cơ bản này. Do đó, việc đánh giá các chỉ tiêu chất lượng chất lượng thoại có vai trò rất quan trọng. Các phương thức đánh giá chất lượng thoại đã được nhiều tổ chức viễn thông (như ITU,ETSI...) nghiên cứu, xây dựng. Trong phần này trình bày một số phương pháp đánh giá chất lượng thoại, đặc biệt là cho mạng viễn thông (cố định, di động).
Việc đánh giá chất lượng thoại có vai trò rất quan trọng đối với các nhà khai thác mạng thông tin di động và cố định. Vì thoại là dịch vụ thông tin cơ bản cho nên việc đảm bảo cung cấp dịch vụ này với chất lượng ổn định là một yếu tố cạnh tranh của các nhà khai thác mạng.
Phương pháp đánh giá chất lượng thoại đã được nhiều tổ chức tiêu chuẩn như ITU-T, ETSI, 3GPP thực hiện chuẩn hóa. Giáo trình phân tích bản chất của một số phương pháp đánh giá chất lượng thoại cơ bản: phương pháp đánh giá theo thang điểm MOS (Mean Opinion Score) dựa trên khuyến nghị ITU-T P.800, các phương pháp đánh giá dựa trên mô hình giác quan PSQM (Perceptual Speech Quality Measurement) theo khuyến nghị ITU-T P.861, PESQ (Perceptual Evaluation of Speech Quality) theo khuyến nghị ITU-T P.862 và phương pháp dựa trên mô hình đánh giá truyền dẫn E-model theo tiêu chuẩn ETR 250 của ETSI. Các phương pháp này được so sánh về ưu nhược điểm và phạm vi ứng dụng.
2.4.2 Các tham số liên quan đến chất lượng thoại
Các tham số truyền dẫn cơ bản liên quan đến chất lượng thoại là:
Tham số đánh giá cường độ âm lượng/tổn hao tổng thể (OLR-Overall Loudness Rating): OLR của hệ thống phải không được vượt quá giới hạn được định nghĩa trong khuyến nghị G.111 của ITU-T. Các giá trị đánh giá tổn hao phía phát và thu (SLR và RLR) đối với hệ thống GSM được đánh giá cho đến giao diện POI. Tuy nhiên, tham số ảnh hưởng chính là đặc tính của MS gồm cả bộ chuyển đổi tương tự - số (ADC) và số tương tự (DAC). Do vậy, thông thường, người ta đánh giá OLR của giao diện vô tuyến.
Trễ: thời gian truyền dẫn tín hiệu giữa hai đầu cuối gây ra những khó khăn trong việc hội thoại. Trễ bao gồm: trễ chuyển mã thoại, trễ mã hóa kênh, trễ mạng và trễ xử lý tín hiệu thoại để loại bỏ tiếng vọng và giảm nhiễu ở chế độ Handsfree.
Tiếng vọng (echo). Cắt ngưỡng (clipping): là hiện tượng mất phần đầu hoặc phần cuối của cụm tín hiệu
thoại. Các tính chất liên quan đến độ nhạy tần số. Xuyên âm (sidetone loss). Nhiễu nền...
2.4.3 Các phương pháp đánh giá chất lượng thoại cơ bản
Việc đánh giá chất lượng thoại trong mạng GSM cũng như các hệ thống thông tin khác (cố định và vô tuyến) có thể được thực hiện bằng cách đánh giá các tham số truyền dẫn có ảnh hưởng đến chất lượng thoại và xác định tác động của các tham số này đối với chất lượng tổng thể. Tuy nhiên, việc đánh giá từng tham số rất phức tạp và tốn kém. Hiện nay, việc đánh giá chất lượng thoại được dựa trên một tham số chất lượng tổng thể là MOS (Mean Opinion Score). Những phương pháp sử dụng MOS đều mang tính chất chủ quan do chúng
Chương 2 Kỹ thuật xử lý âm thanh
56
phụ thuộc vào quan điểm của người sử dụng dịch vụ. Tuy vậy, chúng ta có thể phân chia các phương pháp đánh giá chất lượng thoại ra làm hai loại cơ bản:
Các phương pháp đánh giá chủ quan: việc đánh giá theo quan điểm của người sử dụng về mức chất lượng được thực hiện trong thời gian thực. Phương pháp này được quy định trong khuyến nghị ITU-T P.800.
Các phương pháp đánh giá khách quan: sử dụng một số mô hình để ước lượng mức chất lượng theo thang điểm MOS.
Phương pháp đánh giá khách quan có thể được phân thành: a) Các phương pháp so sánh: dựa trên việc so sánh tín hiệu thoại truyền dẫn
với một tín hiệu chuẩn đã biết.
b) Các phương pháp ước lượng tuyệt đối: dựa trên việc ước lượng tuyệt đối chất lượng tín hiệu thoại (phương pháp này không sử dụng các tín hiệu chuẩn đã biết); vd: INMD (sử dụng trong khuyến nghị P.561 của ITU-T).
c) Các mô hình đánh giá truyền dẫn: phương pháp này xác định giá trị chất lượng thoại mong muốn dựa trên những hiểu biết về mạng; vd: mô hình ETSI Model.
Trên thực tế, các thiết bị đo có thể sử dụng kết hợp nhiều phương pháp đánh giá chất lượng thoại. Tuy vậy, trong các phương pháp này thì phương pháp so sánh (hay còn gọi là intrusive methods) có kết quả đánh giá chính xác nhất. Các phương pháp đánh giá các cũng có thể được sử dụng cho một số ứng dụng đặc thù.
Hình 2.4.1 Phân loại các phương pháp đánh giá chất lượng thoại: a) Các phương pháp so sánh, b) Các phương pháp ước lượng tuyệt đối, c) Các mô hình đánh giá truyền dẫn
Chương 2 Kỹ thuật xử lý âm thanh
57
2.4.3.1 Phương pháp đánh giá chủ quan (MOS) Kỹ thuật này đánh giá chất lượng thoại sử dụng đối tượng là một số lượng lớn người
nghe, sử dụng phương pháp thống kê để tính điểm chất lượng. Điểm đánh giá bình quân của nhiều người được tính là điểm Mean Opinion Scoring (MOS). Kỹ thuật thực hiện tính điểm MOS được mô tả trong khuyến nghị P.800 của ITU. Khuyến nghị P.830 thể hiện các phương pháp cụ thể để đánh giá chất lượng thoại cho các bộ mã hóa. Cả hai khuyến nghị ITU này mô tả: phương thức đánh giá, cách tính điểm theo phương thức đánh giá chủ quan, giá trị của điểm, tính chất của các mẫu thoại được sử dụng để đánh giá và các điều kiện khác mà việc kiểm tra chất lượng được thực hiện.
Phương thức đánh giá theo MOS có thể được thực hiện theo các bài kiểm tra hội thoại hai chiều hoặc bài nghe một chiều. Các bài kiểm tra nghe một chiều sử dụng các mẫu thoại chuẩn. Người nghe nghe mẫu truyền qua một hệ thống và đánh giá chất lượng tổng thể của mẫu dựa trên thang điểm cho trước. P.800 định nghĩa một số hình thức đánh giá chất lượng thoại theo phương pháp chủ quan:
Bài kiểm tra hội thoại (Conversation Opinion Test). Đánh giá phân loại tuyệt đối (Absolute Category Rating (ACR) Test). Phương thức phân loại theo suy hao (Degradation Category Rating (DCR)). Phương thức phân loại so sánh (Comparison Category Rating (CCR)).
Mỗi phương thức trên có một thang điểm đánh giá. Ví dụ: phương thức đánh giá hội thoại và ACR đều có thang điểm tương tự gọi là điểm hội thoại và điểm chất lượng nghe. Trong phương thức hội thoại, người nghe được hỏi về quan điểm của họ đối với kết nối đang sử dụng. ACR hỏi chủ thể về chất lượng thoại. Thang điểm cho cả hai phương thức trên như sau:
Điểm đánh giá Chất lượng thoại
5 Rất tốt
4 Tốt
3 Chấp nhận được
2 Tồi
1 Rất tồi
Đây là thang điểm từ 1-5 thông thường được sử dụng để tính MOS.
Ví dụ thứ hai là điểm nỗ lực nghe trong phương thức ACR (ACR Listening Effort Score). Trong phương thức này, chủ thể được yêu cầu đánh giá nỗ lực của họ thực hiện để hiểu ngữ nghĩa của các câu chuẩn sử dụng làm mẫu. Thang điểm được cho như sau:
Điểm đánh giá Mức độ cố gắng cần thực hiện để hiểu câu
5 Không cần cố gắng
4 Cần chú ý nhưng không cần cố gắng nhiều
3 Cần tương đối tập trung
2 Cần tập trung
1 Không hiểu câu mẫu
Chương 2 Kỹ thuật xử lý âm thanh
58
Hiển nhiên, các phương thức cho điểm theo MOS có một số nhược điểm như sau:
Phương thức này mang tính chất chủ quan vì kết quả phụ thuộc vào nhiều yếu tố không thể kiểm soát của chủ thể như: trạng thái tâm lý, thái độ đối với bài kiểm tra và trình độ văn hóa. Trên thực tế, phương thức đánh giá chất lượng thoại theo thang điểm MOS không phải là phương thức nhất quán.
Phương thức này rất tốn kém, đòi hỏi nhiều người tham gia và thiết lập phức tạp. Khi cần thực hiện đo thường xuyên các tham số chất lượng thì việc sử dụng phương
pháp đánh giá chất lượng này là không thực tế. Những hạn chế của phương pháp đánh giá chất lượng thoại dựa trên MOS cho thấy
cần có một phương thức đánh giá khách quan, phương pháp này có thể thực hiện một cách tự động để đánh giá chất lượng thoại.
2.4.3.2 Các phương pháp so sánh dựa trên mô hình giác quan 2.4.3.2.1 Phương pháp PSQM
PSQM là kỹ thuật đánh giá chất lượng thoại được phát triển bởi John G. Beerends và J. A. Stemerdink thuộc Trung tâm nghiên cứu KPN ở Hà Lan. Trong khoảng từ 1993-1996, nhiều kỹ thuật đánh giá chất lượng thoại đã được ITU so sánh để xác định kỹ thuật có độ chính cao nhất (ước lượng gần nhất với phương pháp đánh giá chủ quan). Theo ITU, PSQM là kỹ thuật đánh giá chất lượng thoại có tương quan lớn nhất với các kết quả theo phương pháp đánh giá chủ quan. PSQM sau đó đã được ITU-T Study Group 12 thông qua và đã được công bố trong khuyến nghị P.861 năm 1996. Kỹ thuật này đã được sử dụng rộng rãi và thể hiện độ chính xác tương đối cao.
PSQM là một phương pháp tính toán nhằm ước lượng chất lượng thoại theo kết quả của phương pháp đánh giá chủ quan theo khuyến nghị P.830 (MOS). Tuy nhiên, PSQM tính theo thang điểm khác so với MOS. Điểm PSQM thể hiện độ lệch giữa tín hiệu chuẩn và tín hiệu truyền dẫn.
PSQM được thiết kế để sử dụng cho tín hiệu thoại (300-3400 Hz) qua các bộ mã hóa thoại. Phương thức này được sử dụng để đo tổn hao của các bộ mã hóa thoại này dựa trên các thông số nhận thức của con người. Phương thức này sử dụng hiệu quả đối với các bộ mã hóa thoại tốc độ thấp. Việc xử lý trong phương thức PSQM được thể hiện trên hình 2.4.2
Để thực hiện phép đo PSQM, một mẫu tiếng nói được đưa vào hệ thống và được xử lý bởi một bộ mã hóa thoại bất kỳ. Những tính chất của tín hiệu vào giống như của các tín hiệu sử dụng cho phép đánh giá MOS được định nghĩa trong chuẩn ITU P.830.
Các tín hiệu vào có thể là mẫu tiếng nói thật hoặc tiếng nói nhân tạo theo khuyến nghị ITU P.50. ITU-T khuyến nghị tín hiệu vào được lọc theo modified IRS (Intermediate Reference System trong khuyến nghị ITU P.48) có những tính chất được định nghĩa trong phụ lục của D/P.830. Nó mô phỏng đặc tính tần số của máy điện thoại đầu cuối.
Khi nhận được, tín hiệu ra được ghi lại. Sau đó, nó được đồng bộ về mặt thời gian với tín hiệu vào. Hai tín hiệu này được thực hiện so sánh bởi các thuật toán PSQM. So sánh được
Chương 2 Kỹ thuật xử lý âm thanh
59
thực hiện theo từng phân đoạn thời gian (khung thời gian) trong miền tần số (được biết đến là các phần tử thời gian - tần số) hoạt động dựa trên các tham số lấy từ mật độ phổ công suất của tín hiệu vào và ra của các phần tử thời gian - tần số. Việc so sánh dựa trên các tham số nhận thức của con người như: tần số và độ nhạy âm lượng (không chỉ phụ thuộc vào Mật độ phổ công suất - Spectral Power Densities (SPD)).
Điểm PSQM nằm trong dải từ 0 đến vô cùng. Điểm số này thể hiện độ lệch về mặt cảm nhận giữa tín hiệu ra và tín hiệu vào. VD: điểm 0 thể hiện tín hiệu ra và tín hiệu vào hoàn toàn trùng khớp, đánh giá là mức chất lượng hoàn hảo. Điểm PSQM càng cao thì thể hiện mức tổn hao càng lớn và đánh giá là mức chất lượng thấp. Trên thực tế, giới hạn trên đối với thang điểm PSQM trong khoảng từ 15-20.
Hình 2.4.2 Phương thức đánh giá chất lượng thoại PSQM 2.4.3.2.2 Phương pháp PESQ
PESQ là phương pháp đánh giá chất lượng thoại so sánh; phương pháp này được mô tả trong khuyến nghị ITU-T P.862 được sử dụng thay thế cho khuyến nghị ITU-T P.861.
PESQ so sánh tín hiệu gốc X(t) với tín hiệu suy giảm Y(t) là kết quả của việc truyền tín hiệu X(t) qua hệ thống thông tin. Đầu ra của PESQ là một ước lượng về chất lượng thoại nhận được của tín hiệu Y(t).
Trong bước đầu tiên của PESQ, một loạt các trễ tín hiệu giữa tín hiệu vào ban đầu và tín hiệu ra được xác định; mỗi giá trị trễ được tính cho một khoảng thời gian mà có sự khác biệt về độ trễ so với phân đoạn thời gian trước đó. Ứng với mỗi phân đoạn thời gian, điểm bắt đầu và kết thúc được xác định. Một thuật toán sắp xếp dựa trên nguyên tắc so sánh giữa khả năng có hai trễ trong một đoạn thời gian với khả năng có một trễ trong đoạn thời gian đó. Thuật toán này có thể xử lý thay đổi về trễ trong cả khoảng lặng và trong thời gian tích cực thoại. Dựa trên tập các trễ đã xác định được, PESQ so sánh tín hiệu vào ban đầu với tín hiệu ra đã được sắp xếp bằng cách sử dụng một mô hình giác quan. Điểm mấu chốt của quá trình này là chuyển đổi cả tín hiệu gốc và tín hiệu đã bị suy giảm thành dạng biểu diễn của tín hiệu âm thanh trong hệ thống thính giác của con người có tính đến tần số thính giác và cường độ âm. Quá trình này được thực hiện theo nhiều giai đoạn: sắp xếp về mặt thời gian, sắp xếp mức tín hiệu về mức tín hiệu nghe đã được căn chỉnh, ánh xạ thời gian - tần số, frequency warping và căn chỉnh cường độ âm.
Trong PESQ, hai tham số lỗi được tính toán trong mô hình kinh nghiệm; chúng được kết hợp lại để ước lượng điểm MOS.
Một mô hình máy tính của chủ thể bao gồm mô hình giác quan và mô hình kinh nghiệm được sử dụng để so sánh tín hiệu đầu ra với tín hiệu gốc sử dụng các thông tin sắp xếp
Chương 2 Kỹ thuật xử lý âm thanh
60
lấy được từ các tín hiệu định thời trong môđun sắp xếp định thời.
Hình 2.4.3 Mô tả phương pháp đánh giá chất lượng thoại PESQ
Phương pháp PESQ là có thể sử dụng không chỉ để đánh giá các bộ mã hóa thoại mà còn để đánh giá chất lượng thoại đầu cuối đến đầu cuối. Các hệ thống thông tin trên thực tế có thể bị ảnh hưởng của nhiều khâu lọc, trễ khả biến và các tổn hao do lỗi kênh truyền dẫn và việc sử dụng các bộ codec tốc độ thấp. Phương pháp PSQM được mô tả trong khuyến nghị ITU-T P.861 chỉ được khuyến nghị sử dụng để đánh giá các bộ codec thoại mà không tính đến các yếu tố như lọc, trễ khả biến ... PESQ tính đến các yếu tố này nhờ sử dụng cân bằng hàm truyền dẫn, sắp xếp định thời, và một thuật toán mới để thực hiện xác định tổn hao trung bình. PESQ đã được kiểm tra trong điều kiện kết hợp nhiều yếu tố như: lọc, trễ khả biến, tổn hao mã hóa và lỗi kênh truyền dẫn. Phương pháp này được khuyến nghị sử dụng thay thế cho PSQM để đánh giá chất lượng thoại từ đầu cuối đến đầu cuối.
2.4.3.2.3 Mô hình đánh giá truyền dẫn E-Model E-model (tham khảo ETR 250, EG 201 050 và khuyến nghị ITU-T G.107) được sử
dụng làm một công cụ để quy hoạch truyền dẫn trong các mạng điện thoại. Nó hỗ trợ việc ước lượng chất lượng tín hiệu thoại từ một kết hợp của nhiều yếu tố can nhiễu. E-model khác so với các phương pháp đánh giá chất lượng đã phân tích ở trên:
Đây không phải là một công cụ đo mà là một công cụ quy hoạch mặc dù nó có thể sử dụng kết hợp với các phép đo.
model này ước lượng chất lượng thoại hai chiều và tính đến các yếu tố như: tiếng vọng, trễ ... Đầu vào của E-model bao gồm các tham số được sử dụng tại thời điểm quy hoạch.
Lưu ý rằng việc quy hoạch có thể được thực hiện trước và sau khi triển khai mạng. E-model có tính đến các tham số như: nhiễu, trễ, tiếng vọng và tính chất của thiết bị đầu cuối mà đã được chuẩn hóa hoặc đã được xác định, có thể đo được. Ngoài ra, E-model xác định trọng số
Chương 2 Kỹ thuật xử lý âm thanh
61
đối với ảnh hưởng của thiết bị số hiện đại (các bộ codec tốc độ thấp, các bộ ghép kênh ...) đến chất lượng truyền dẫn. Trong nhiều trường hợp, số lượng và chủng loại các thiết bị này được xác định tại thời điểm quy hoạch.
E-model dựa trên giả thiết là các tổn hao truyền dẫn có thể được chuyển đổi thành "psychological factors" và các hệ số này có tính cộng dồn trên một "psychological scale". Nói cách khác, nhận thức chủ quan về chất lượng thoại được coi như là tổng hợp của các tổn hao truyền dẫn.
E-model đầu tiên thực hiện tính toán một "giá trị gốc" về chất lượng (giá trị này được xác định từ nhiễu trên mạng). Mỗi tổn hao thêm vào được biểu diễn dưới dạng một giá trị tổn hao. Kết quả của phép trừ giá trị gốc với các giá trị tổn hao thể hiện ước lượng chất lượng thoại cho một mạng cụ thể. Cuối cùng, kết quả chất lượng thoại thu được được sử dụng để ước tính tỷ lệ thuê bao đánh giá chất lượng là tốt hay tồi. Cụ thể, E-model tính một hệ số đánh giá truyền dẫn R như sau:
R = Ro - Is - Id - Ie + A (2.4.1) Hệ số này bao gồm: giá trị gốc Ro, các tổn hao Is, Id và Ie và một hệ số thuận lợi
(Advantage factor) như sau: Ro mô tả tỷ số tín hiệu trên nhiễu (SNR) của kết nối. Nó bao gồm tạp âm trong mạng,
trong môi trường phía người nói và người nghe và ảnh hưởng của tạp âm tại phía người nghe, SNR được coi là một tham số biểu diễn chất lượng cơ bản.
Is thể hiện các tổn hao nhất thời bao gồm: mức cường độ âm, mức xuyên âm vượt quá phạm vi cho phép và tổn hao lượng tử (mã hóa PCM).
Id chứa các tổn hao do trễ và tiếng vọng. Ie bao gồm các tổn hao gây ra bởi các kỹ thuật nén thoại (codec tốc độ thấp). A cho phép điều chỉnh chất lượng trong những trường hợp đặc biệt nhờ thêm vào các
yếu tố phi kỹ thuật để đánh giá chất lượng. Cuối cùng, E-model sử dụng một ánh xạ phi tuyến tính để chuyển giá trị R thành giá
trị MOS tương đương. Như vậy, E-model cho phép xác định chất lượng thoại nhờ phân tích tác động của
nhiều tham số truyền dẫn. Nhờ đó có thể đánh giá ảnh hưởng của các tham số này đối với mức chất lượng tổng thể.
2.4.3.2.4 Kết luận Phần 2.4.3.2 đã phân tích các phương pháp đánh giá chất lượng có thể sử dụng để
đánh giá chất lượng thoại trong mạng GSM. Như đã phân tích ở trên, điểm MOS là chỉ tiêu chất lượng tổng thể được sử dụng để đánh giá chất lượng thoại. Phương pháp đánh giá chủ quan sử dụng số liệu vào là nhận xét của khách hàng về mức chất lượng từ đó tính toán ra điểm đánh giá bình quân MOS. Các phương pháp đánh giá khách quan sử dụng các mô hình tính toán để ước lượng ra mức chất lượng quy đổi về MOS.
Dựa trên những ưu nhược điểm và phạm vi ứng dụng của các phương pháp này, để sử dụng đánh giá chất lượng thoại cho mạng GSM của VNPT có thể sử dụng các phương pháp đánh giá như sau:
Sử dụng PESQ để đánh giá chất lượng thoại một chiều từ đầu cuối đến đầu cuối.
Chương 2 Kỹ thuật xử lý âm thanh
62
Mô hình đánh giá E-Model có thể được sử dụng để phân tích hệ thống nhằm xác định các yếu tố ảnh hưởng đến chất lượng thoại.
Ngoài ra, nếu có điều kiện có thể sử dụng kết hợp phương pháp đánh giá chủ quan để kiểm chứng lại việc đánh giá theo PESQ.
2.5 MÔ HÌNH ỨNG DỤNG XỬ LÝ THOẠI
2.5.1 Mô hình thời gian động
2.5.1.1 Tổng quan Nhận dạng tiếng nói tự động (Automatic speech recognition-ASR) là một lãnh vực
nghiên cứu quan trọng và có nhiều ứng dụng trên thực tế, dựa trên việc lưu trữ một hay nhiều mẫu âm thanh (template) ứng với từng từ trong bảng từ vựng nhận dạng. Quá trình nhận dạng thực hiện việc so trùng tiếng nói nhận được với các mẫu lưu trữ. Các mẫu có khoảng cách đo lường thấp nhất so với mẫu tiếng nói nhận được chính là từ được nhận dạng. Giải thuật dùng để tìm được sự tương thích tốt nhất là dựa trên lập trình động (Dynamic Programming - DP), và một trong các giải thuật là giải thuật mô hình thời gian động (Dynamic Time Warping-DTW).
Để có thể nắm bắt được kiến thức về DTW một cách nhanh chóng, có hai khái niệm cần làm rõ
→ Điểm đặc trưng: là thông tin của từng tín hiệu được biểu diễn dưới dạng nào đó.
→ Sai biệt: dạng đo lường nào đó được dùng để tính toán được sự tương thích, có hai dạng:
1. Cục bộ: độ tính toán sai biệt giữa điểm đặc trưng của một tín hiệu một tín hiệu khác.
2. Toàn cục: độ tính toán sai biệt tổng giữa một tín hiệu tổng với một tín hiệu khác có thể có sai biệt.
Việc phân tích điểm đặc trưng bao gồm việc tính toán vector đặc trưng với khoảng thời gian thông thường. Đối với việc phân tích dự đoán tuyến tính, vector đặc trung bao gồm việc tính toán các hệ số dự đoán (hoặc các phép biến đổi giữa chúng). Một loại vector đặc trưng thôngdụng dùng trong nhận dạng tiếng nói là Mel Frequency Cepstral Coefficients (MFCCs).
Vì các vector đặc trưng có thể có nhiều phần tử phức tạp, nên giá trị trung bình của việc tính toán cần được thiết lập. Phép đo sai biệt giữa hai vector đặc trưng được tính toán bằng đơn vị theo hệ Euclidean. Như vậy độ sai biệt cục bộ giữa vector đặc trưng x của tín hiệu một và vector đặc trưng y của tín hiệu hai được cho bởi
( ) ( )2, ∑ −=i
ii yxyxd (2.5.1)
Mặc dù sử dụng hệ đơn vị Euclidean cho việc tính toán sẽ tăng độ phức tạp hơn so với các hệ đo lường khác, nhưng nó lại cho tác dụng nhiều hơn với độ sai biệt lớn đối với một đặc trưng đơn. Nếu như việc quay lui trong quá trình tìm kiếm sự tương thích nhất cần thiết thì một dãy có nhiệm vụ lưu trữ các entry trước đó trong quá trình xử lý tìm kiếm, được gọi là backtrace array.
Chương 2 Kỹ thuật xử lý âm thanh
63
2.5.1.2 Giải thuật DTW đối xứng
Tiếng nói là một quá trình phụ thuộc vào thời gian. Tiếng nói có nhiều âm tiết tương tự nhau nhưng với khoảng thời gian phát âm khác nhau, hoặc có âm tiết đồng âm nhưng khác ở chỗ nhấn âm, v.v… Để phân tích được sự sai biệt toàn cụ giữa hai mẫu tiếng nói (đại diện bởi một chuỗi các vector), vấn đề về thời gian phải được xem xét.
Bài toán được mô tả ở hình 2.5.1, mô tả một ma trận hai chiều theo thời gian sử dụng cho việc canh chỉnh theo thời gian. Cột là mô tả cho tiếng nói mẫu (template) và dòng là tiếng nói thu được cần nhận dạng. Trong hình minh họa, tín hiệu vào “SsPEEhH” được xem là một dạng “nhiễu” của tiếng nói mẫu. Tín hiệu vào này sẽ được so sánh trùng với tất cả các mẫu tiếng nói được lưu trữ trong hệ thống. Mẫu có độ tương thích tốt nhất sẽ có độ sai biệt nhỏ nhất so với tín hiệu vào cần so sánh. Giá trị độ sai biệt toàn cục là tổng các sai biệt cục bộ của việc so sánh.
Hình 2.5.1 Mô tả canh chỉnh thời gian giữa mẫu tiếng nói “SPEECH” và tín hiệu tiếng
nói đầu vào “SsPEEhH” Làm cách nào để có thể tính được độ tương thích tốt nhất (có giá trị độ sai biệt toàn
cục nhỏ nhất) giữa tín hiệu cần so sánh và tiếng nói mẫu? Việc này được thực hiện bằng cách ước lượng tất cả khoảng cách có thể có, nhưng cách này không hiệu quả khi số lượng khoảng cách có dạng hàm mũ theo chiều dài của tín hiệu ngõ vào. Thay vào đó, ta xem xét những ràng buộc tồn tại trong quá trình so trùng (hoặc có thể áp đặt các ràng buộc này) và dùng những ràng buộc này để có được giải thuật hiệu quả hơn. Các ràng buộc được thiết lập phải không phức tạp và cũng không hạn chế nhiều, như:
→ Các khoảng cách so trùng không thể thực hiện việc đi lui;
→ Mọi khung của tín hiệu cần so trùng phải được dùng trong quá trình so trùng;
→ Các giá trị sai biệt cục bộ được kết hợp bằng phương pháp cộng dồn vào giá trị sai biệt toàn cục.
Mọi khung trong tín hiệu cần so trùng với mẫu tiếng nói được xem xét ứng với từng tính toán độ sai biệt. Nếu thời điểm đang xét là ),( ji , với i là chỉ số của khung tín hiệu ngõ vào, j là của khung tiếng nói mẫu, thì các vị trí trước đó là ),1,1( −− ji ),1( ji − , )1,( −ji . Ý tưởng chính của lập trình động là tại vị trí ),( ji , việc tính toán dự trên độ sai biệt nhỏ nhất của các vị trí ),1,1( −− ji ),1( ji − , )1,( −ji .
Chương 2 Kỹ thuật xử lý âm thanh
64
Giải thuật lập trình động thực hiện cần phải đồng bộ thời gian: mỗi cột của ma trận thời gian-thời gian được xem như là một sự kế vị các tính toán trước đó, do đó, ứng với một mẫu tiếng nói có chiều dài N , số lượng bước so trùng tối đa là N .
Gọi ),( jiD , ),( jid tương ứng là độ sai biệt toàn cục và độ sai biệt cục bộ tại vị trí ),( ji .
[ ] ),()1,(),,1(),1,1(min),( jidjiDjiDjiDjiD +−−−−= (2.5.2)
Với )1,1()1,1( dD = là giá trị khởi tạo ban đầu, giải thuật ứng dụng đệ qui vào việc tính toán các độ sai biệt tại ),( jiD . Giá trị cuối ),( NnD chính là giá trị chênh lệch giữa template và tín hiệu cần so sánh, lưu ý rằng N sẽ khác nhau ứng với mỗi template.
Đối với việc nhận dạng tiếng nói, giải thuật DP không cần phải chạy trên các máy tính có bộ nhớ lớn, việc lưu trữ được thực hiện bởi một array, lưu giữa từng cột đơn trong ma trận thời gian-thời gian. Ma trận có vị trí đầu tiên có giá trị là 0, như vậy chỉ những hướng di chuyển trong ma trận được mô tả ở hình 2.5.2 mới có thể xuất phát từ vị trí ),( ji .
Hình 2.5.2 Ba hướng có độ tương thích tốt nhất có thể đi đến từ ô ),( ji trong giải thuật
DTW đối xứng. Phương trình (2.5.2) được thực hiện bằng phương pháp đệ quy. Tuy nhiên, trừ khi
ngôn ngữ đã được tối ưu cho việc đệ quy, phương pháp này có thể tốn nhiều thời gian ngay cả đối với những tín hiệu cần so sánh có kích thước nhỏ. Một phương pháp khác có thể cải tiến được tốc độ xử lý cũng như cần bộ nhớ thực thi nhỏ hơn là dùng hai vòng lặp, sử dụng hai array để lưu trữ các cột kề với ma trận thời gian-thời gian.
Hình 2.5.3 Vị trí ô ),( ji và )0,(i có các ô định hướng khác nhau. Từ )0,(i chỉ có thể đi
từ ô )0,1( −i . Tuy nhiên tại ô ),( ji thì có thể đi đến 3 ô như mặc định.
Chươ
G1.
2.
3. 4.
5. M
cần sođiểm l
vị trí đ
hd , d
(2.5.3)
V
C
vậy tatừng ô
ơng 2 Kỹ thu
Giải thuật tìmTính tại cộcục bộ. Sauthấp bằng ngay dưới Tính giá trô cộng thêmTính giá trcurCol đượxong. Giá trị chi
Mã giải của
2Mặc dù gi
o trùng và mlà tại các vị t
Một cách đđường chéo,
vd tương ứng
jiD = m),()
Với giá trị dCác ràng bu→ ,1( − ji
→ ,1( − ji
→ ,1( ji −
Giả sử rằna có thể khônô khác nhau n
uật xử lý âm
m chi phí toột 0, bắt đầuu đó, tính tocách lấy giáđó, ô này đư
rị chi phí toàm cho giá tr
rị toàn cục củợc định là pr
phí toàn cụcquá trình nh
2.5.1.3 Giải ải thuật cơ b
mẫu tiếng nóitrí cột và hàn
để tránh việ, điều này dẫg cho các bư
[ jiD − ,1(min
hd , vd có đư
ộc trong việ)2−j đến v
)1−j đến vị
)j đến vị trí
ng mỗi khunng xét đến vnên giải thuậ
thanh àn cục nhỏ n
u từ đáy của án giá trị chá trị chi phí ược gọi là pràn cục của ô ị toàn cục củủa các ô cònredCol và lặp
c tại vị trí cộhư sau:
thuật DTWbản DP có ư cần tham khng lệ thuộc v
c này là thựẫn đến loại bớc di chuyển
jid+− ,(2)1
ược qua thực
c nhảy đến cvị trí ),( ji -
ị trí ),( ji - g
),( ji - gọi
ng của tín hiệviệc chuẩn hật được gọi l
nhất: ô. Giá trị chi phí toàn cụcục bộ của
redCol (predđầu tiên củaủa ô phía dư
n lại của curCp lại bước 2
ột cuối cùng,
W bất đối xứnưu điểm là đhảo được xevào các vị trí
ực hiện việc bỏ lỗi tại cácn theo hàng
jiDj − ),1(),
c nghiệm
các ô kế tiếpgọi là đường
gọi là đừong
là đường ng
ệu ngõ vào hóa độ dài clà giải thuật
hi phí toàn ục của các ô
ô cộng thêmdecessor colua cột kế tiếp ưới cùng của Col. cho đến khi
dòng trên cụ
ng đối xứng ( tấem xét), tuy í đường chéo
dùng ,( jidc vị trí cột vvà cột. Phươ
jid +++ )()
p: g chéo mở rộ
g chéo chuẩn
gang (độ dốc
chỉ được xécủa mẫu tiếnlập trình độn
cụ của ô bằncó khả năng
m cho giá trumn). là curCol. Gcột trước nó
i tất cả các cộ
ục là giá trị
ất cả các khnhiên giải tho có thể sinh
) hai lần trovà hàng, gọi ơng trình (1)
h jiDd −1,(,
ộng (độ đốc
n (độ dốc là
là 0)
ét đến một lầng nói. Do vng bất đối xứ
ng giá trị chg cho được grị toàn cục c
Giá trị cục bộó.
ột được tính
cần tìm.
hung của tín huật vẫn cònh lỗi.
ong mỗi bướgiá trị lỗi c
) sẽ trở thành
jid ++ ),()1
là 2)
1)
ần duy nhất,việc tính toáứng.
hi phí giá trị của ô
ộ của
h toán
hiệu n yếu
ớc tại ô lập h
]vd
, như án tại
Chươ
H
thuật D
H
)0,(i ccó thể
H
Các hìlà trườcác trư
toàn cụ
ơng 2 Kỹ thu
Hình 2.5.4 DTW bất đố
Hình 2.5.5 chỉ có thể điđi đến các v
Hình 2.5.6 ình chữ nhậtờng hợp đặcường hợp cò
Các trườngục cho từng
→
→
Mã giải củ
uật xử lý âm
Ba hướng i xứng.
Các vị trí ôi đến ô ( −ivị trí chuẩn.
Vùng tô màt mô tả là cá
c biệt, còn trn lại.
g hợp đặc bitrường hợp
12 −i : chipredCol[ −j
i2 : chi phí
ủa quá trình n
thanh
có giá trị so
ô tại ),( ji , )0,1 ; tại ô (
àu mô tả vùác trường hợrong giải thu
iệt thường xđược tính nh
i phí cục bộ]2−
cục bộ + giá
như sau:
o trùng tốt n
)0,(i và )1,(i)1,i có thể đi
ùng mà các hợp đặc biệt. Tuật DTW bấ
xảy ra tại vịhư sau:
ộ + giá trị
á trị nhỏ nhấ
nhất có thể
) có các ô đi đến 1,1( −i
hướng di chTrong giải tất đối xứng,
trí 2 −= ij
nhỏ nhất t
ất tại vị trí p
đi đến từ ô
định hướng k)1 hoặc ( −i
huyển khôngthuật DTW đdòng 1 đượ
1, và j 2=
tại vị trí pr
predCol[ −j
),( ji trong
khác nhau. T)0,1− ; tại ô (
g bao giờ đi đối xứng, dòợc xử lý khác
i2 , giá trị ch
redCol 1[ −j
]2
g giải
Tại ô
),( ji
đến.
òng 0 c với
hi phí
]1 và
Chươ
G
kê môđặc đi
các thôgian.
đến hàxác sukết quphải làđược g
T- -
-
ơng 2 Kỹ thu
Giá trị chi ph
2.5
2Mô hình M
ô hình tạo âmểm của tín h
Các trạng ông số). Như
2Mô hình M
àm phân phốuất được gọi uả có thể đưà một trạng gọi là mô hìnTrong mô hì
Số lượng tr
Số lượng kM là vô h
Tập các trạ
{paij =
uật xử lý âm
hí nhỏ nhất l
.2 Mô hình
2.5.2.1 TổngMarkov ẩn (Hm thoại. Tínhiệu âm thoạthái của HMư thế, ngõ và
2.5.2.2 ĐịnhMarkov ẩn làối xác suất. Vlà xác suất c
ược tạo ra dựthái có thể n
nh Markov ẩình Markov rạng thái của
ký hiệu quanhạn
ạng thái xác
{ qjq tt ==+1
thanh
là cột cuối c
chuỗi mark
g quan Hidden Mark
nh hiệu quả cại theo dạng tMM có đượcào của HMM
h nghĩa mô hà một tập cácViệc chuyển chuyển tiếp ựa trên hàm nhìn thấy đưẩn. ẩn, các ký ha mô hình, Nn sát theo th
suất chuyển
}i= , ji≤ ,1
cùng lưu tron
kov ẩn
kov Model -của mô hìnhtoán học dễ
c trước khi tM chính là ch
hình Markoc trạng thái tiếp giữa cá(transition pphân phối xược thông q
hiệu sau đây N .
hứ tự, M . N
n tiếp {a=Λ
N≤ với q
ng highestJ
- HMM) đưh được thể hdàng cho việ
thực hiện việhuỗi các thôn
ov ẩn hữu hạn, mà
ác trạng thái probability). xác suất tươ
qua việc quan
được sử dụn
Nếu việc quan
}ija
t là trạng thá
ược sử dụng hiện trong việc xử lý tín hệc xử lý cácng số vector
à mỗi trạng được định nTrong một
ơng ứng. Kến sát các trạ
ng
n sát là liên
ái hiện tại.
trong việc thiệc có thể mhiệu.
c trạng thái (r rời rạc theo
thái có liên nghĩa bởi mộtrạng thái cụết quả này kạng thái, cho
tục thì có g
hống mô tả
(trích o thời
quan ột tập ụ thể,
không o nên
giá trị
Chương 2 Kỹ thuật xử lý âm thanh
68
- Xác suất trạng thái chuyển tiếp phải thỏa mãn ràng buộc trực giao sau
Njiaij ≤≤≥ ,1,0 và ∑=
=N
jija
11 , Ni ≤≤1
- Hàm phân phối xác suất của mỗi trạng thái { })(kbB j=
{ } MkNjjqvapkb tktj ≤≤≤≤=== 1,1,)( với kv định nghĩa cho ký
hiệu quan sát thứ k theo thứ tự alphabet, và ta là vector thông số hiện tại. Điều kiện
,0)( ≥kb j MkNj ≤≤≤≤ 1,1 và ∑=
≤≤=M
kj Njkb
11,1)(
- Nếu việc quan sát là liên tục thì phải dùng hàm mật độ xác suất liên tục thay cho xác suất rời rạc. Trong trường hợp này, các thông số của hàm mật độ xác suất liên tục phải được định rã. Thông thường mật độ xác suất xấp xỉ với trọng số tổng M của phân bố Gaussian Ν
- ),,()(1
tjmjm
M
mjmtj acab ΣΝ= ∑
=
μ với
- =jmc hệ số trọng số
- =jmμ vector trung bình
- =Σ jm ma trận đồng biến
jmc thỏa các điều kiện ,0≥jmc MmNj ≤≤≤≤ 1,1 và
∑=
≤≤=M
mjm Njc
11,1
- Trạng thái ban đầu của hàm phân phối { }iππ = với { } Niiqp ii ≤≤== 1,π
Ký hiệu ( )πλ ,, BΛ= dùng cho HMM với hàm phân phối xác suất rời rạc, và
( )πμλ ,,,, jmjmjmc ΣΛ= dùng cho HMM với hàm mật độ xác suất liên tục
Một số ứng dụng mô hình Markov ẩn trong thực tiễn là: - Ứng dụng HMM trong việc nhận dạng âm thoại cô lập - Ứng dụng HMM trong việc nhận dạng âm thoại liên tục - Ứng dụng HMM trong việc xử lý cấu trúc đa cấp độ cho văn phạm tiếng Anh - Ứng dụng HMM trong học bản thảo viết tay
2.5.2.3 Ứng dụng HMM trong việc nhận dạng âm thoại liên tục Trong chế độ cô lập, ta sử dụng một HMM cho từng đơn vị âm thoại, còn trong
trường hợp nhận dạng liên tục, hệ thống cần nhận dạng một chuỗi các âm đơn vị kết nối lại với nhau, đôi khi cần nhận diện cả một câu, hoặc nhiều câu. Khi đó số lượng câu có thể rất lớn. Phương pháp thực hiện cũng tương tự như trong nhận dạng âm thoại cô lập, bao gồm hai bước huấn luyện và nhận dạng. Bước huấn luyện có thể dùng hoặc là tiêu chuẩn MMI hoặc là ML, và bước nhận dạng có thế sử dụng các phương pháp như nhận dạng trên cơ sở Veterbi, xây dựng cấp độ, tìm kiếm N-tốt nhất và tính toán hiệu suất bộ nhận dạng.
Chương 2 Kỹ thuật xử lý âm thanh
69
2.5.3 Mạng nơron
2.5.3.1 Tổng quan Mạng neural nhân tạo (Artificial Neural Network - ANN) là một mô hình xử lý thông
tin dựa trên cơ chế hoạt động của hệ thống thần kinh sinh học, như não bộ. Thành phần chính yếu của mô hình này là cấu trúc đặc biệt của hệ thống này. Nó tập hợp một số lượng lớn các phần tử xử lý kết hợp nội tại (được gọi là các neuron) hoạt động hợp nhất để giải quyết các bài toán cụ thể. Một ANN sẽ được cấu hình cho một ứng dụng cụ thể nào đó, ví dụ như nhận dạng mô hình hoặc phân loại dữ liệu thông qua quá trình học. Việc học trong hệ thống nhằm mục đích điều chỉnh các kết nối thuộc kỳ tiếp hợp được phân chia trong tế bào mà đã có sẵn giữa các neuron.
Neuron nhân tạo đầu tiên được tạo ra vào năm 1943 bởi nhà nghiên cứu neuron học Warren McCulloch và nhà logic học Walter Pits. Nhưng kỹ thuật thời đó không cho phép neuron phát triển được các thế mạnh của nó. Mạng neuron này nay có nhiều cải tiến cũng như đáp ứng được các yêu cầu đặt ra của các bài toán, một số ưu điểm của mạng neuron ngày nay so với thời trước là:
1. Học thích ứng: có khả năng học cách thức thực hiện công việc dựa trên các dữ liệu cho sẵn trong quá trình huấn luyện hoặc định các thông số ban đầu
2. Khả năng tự tổ chức: một ANN có thể tự thân tổ chức hoặc miêu tả các thông tin mà nó nhận được trong suốt thời gian học
3. Hiệu chỉnh lỗi thông qua mã hóa thông tin dư thừa: có thể hủy một phần mạng làm cho hiệu suất hệ thống giảm. Tuy nhiên, một số mạng có khả năng nhớ được phần mạng đã hủy.
2.5.3.2 Phương pháp học của não người Trong não người, một neuron sẽ thực hiện nhiệm vụ thu thập các tín hiệu từ các
neuron khác thông qua các cấu trúc thần kinh phức tạp được gọi là dạng cây. Neuron gửi các hoạt động điện thông qua sợ mỏng, dài, gọi là sợi trục thần kinh axon, được phân chia thành hàng ngàn nhánh nhỏ. Tại cuối mỗi nhánh, một cấu trúc được gọi là khớp thần kinh synapse sẽ chuyển đổi các hoạt động từ axon thành các hiệu ứng điện thực hiện việc ức chế hoặc kích thích hoặc động này đối với các neuron kết nối tới nhánh. Khi một neuron nhận được tín hiệu kích thích đầu vào có mức độ so sánh tương đối lớn so với tín hiệu cấm ngõ vào, neuron sẽ gửi một gai điện đến axon của nó. Việc học xảy ra theo cách thức thay đổi hiệu lực của khớp thần kinh dẫn đến việc truyền thông tin từ một neuron đến một neuron khác về sự thay đổi.
Hình 2.5.7 Các thành phần của một neuron
Chươ
các netính nàtính tothuộc
gồm ntùy thneuronhọc.
ơng 2 Kỹ thu
2
Thực hiện euron và cácày. Tuy nhiêoán là có giớdạng “lý tưở
Mô phỏng
nhiều phần tửhuộc vào cấun đơn lẻ. Mạ
uật xử lý âm
Hình 22.5.3.3 Từ nquản lý các kết nối nội ên, do nhận ới hạn, cho ởng” và đơn
Hình 2
CÁC NVÀO
Hình 2hoạt động cử xử lý đơn u trúc của hạng neuron c
thanh
.5.8 Khớp thneuron ngườ
mạng neurotại bên tronthức về các
nên mô hìnhgiản hơn.
Hình
.5.9 Mô hìn
NGÕ O
.5.10 Mô hìncủa các neurgiản (neuron
hệ, các trọngcó thể từ dữ
hần kinh ời đến neuroon bằng cáchng. Sau đó thc neuron khôh mạng neur
Phép tổng
Thân tế
h cây
nh neuron
HƯỚNG DẪ
NGÕ VÀ
nh hóa mô hron thần kinhn) hoạt độngg số liên kếliệu mẫu và
on nhân tạoh đầu tiên tìmhực hiện việcông đầy đủron nhân tạo
Ngưỡng
ế bào
Trục t(a
ẪN / SỬ DỤNG
ÀO HƯỚNG DẪN
hình neuronh, mạng neug song song.ết neuron vàà tổng quát h
m cách suy lc lập trình đcũng như n
o so với mạn
thần kinh axon)
NGÕ RA
N
ron nhân tạo Tính năng c
à quá trình thoá dựa trên
luận bản chấđể giả lập cácăng lực của ng neuron n
o là hệ thốngcủa hệ thốngtính toán tạ
n các dữ liệu
ất của c đặc việc
người
g bao g này i các mẫu
Chươ
một vehiện csản sinlớp mạhiệu đthực hra từ lớẩn (hitrườngthành
--
tương -
hạn đầT
tín hiệ
toán kcách tikhai chướngtính LP
cảm ndạng ctín hiệra quycon ng
ơng 2 Kỹ thu
Một nhóm
ector vào Xùng một lúcnh ra bấy nhạng. Chúng đầu vào (vechiện như mộtớp ra của mạdden layer)
g bên ngoài. phần cơ bản- Tập trọng s- Bộ cộng (Sứng - Hàm kích hầu vào của nTrong mô hìệu ix từ chún
2Mạng neur
khó, thực tế niếp cận truycó hiệu quả g (Back-propPC (Linear P
2Lý thuyết
nhận-nhận thcó gắn chặt vệu trong khôyết định... Hệgười qua các
uật xử lý âm
Hình 2m các neuron X để xử lý tạc. Vì mỗi neuhiêu tín hiệuta có thể kết
ctor tín hiệut bộ đệm chứạng (output và nó là thSố lượng lớ
n sau: số liên kết đSum) để thự
hoạt (squashneuron. ình neuron nng với các tr
2.5.3.4 Ứng ron (Neuron những nghiêền thống trotrong nhận
pagation NeuPredictive C2.5.3.4.1 Sơ nhận dạng l
hức-nhận biếvới 3 khả năng gian nhiềệ thống nhận
c mức:
thanh
.5.11 Mô hìnđược tổ chứại cùng một turon có một
u ra khác nht hợp nhiều l
u vào x ) đưứa tín hiệu đlayer). Bất k
hành phần nộớp ẩn có thể
ặc trưng choực hiện phép
hing function
nhân tạo mỗirọng số iw .
dụng mạngNetwork) là
ên cứu về mạong lý thuyếtn dạng tiếngural Network
Coding). lược về lý th
là phương phết các đối tượăng trên là mều chiều, môn dạng phải
nh mạng Neức theo một cthời điểm. Vt tập trọng s
hau. Một nhólớp mạng tạoợc gọi là lớđầu vào. Cáckỳ lớp nào nội tại của mtừ 0 đến vài
o các khớp thp tính tổng cá
n) hay hàm c
i neuron đượTổng thông
g neuron troà một công cạng neuron đt nhận dạng
g nói thườngk) hoặc kết h
huyết nhận dháp để xây dợng vật lý g
một lĩnh vực ô hình, đồ th
có khả năng
euron theo cácách sao cho
Việc sản sinhố khác nhauóm các neuro ra một mạnớp vào (inpuc tín hiệu đầunằm giữa 2 lớmạng và khôi lớp. Mô hìn
hần kinh. ác tích tín h
chuyển (tran
ợc nối với cátin vào có tr
ong nhận dạcụ có khả năđưa ra một c. Trong thựcg dùng mạnhợp với phư
dạng dựng một hệ
gần giống khhết sức rộng
hị, ngôn ngữ,g thể hiện đ
ác lớp o tất cả chúnh ra tín hiệu ru nên có baoron như vậy ng có nhiều
ut layer). Trêu ra của mạnớp mạng trênông có tiếp xnh neuron nh
hiệu vào với
nsfer functio
ác neuron khrọng số là: N
ạng tiếng nóiăng giải quyếcách tiếp cậnc tế, mạng nng neuron laương pháp m
ệ thống tin hhả năng của g có liên qua, cơ sở dữ liđược quá trìn
ng đều nhận ra của mạng
o nhiêu neurođược gọi làlớp, lớp nhậ
ên thực tế cng được sảnn được gọi lxúc nào vớihân tạo đòi h
trọng số liên
on) thực hiện
hác và nhận đ
∑= jwNet
i ết được nhiền khác với nhneuron được an truyền n
mã dự đoán t
học có khả ncon người. Nan đến việc xệu, phương
nh nhận thức
cùng xuất on sẽ à một ận tín húng
n sinh à lớp i môi hỏi 3
n kết
n giới
được
jx .
u bài hững triển gược tuyến
năng: Nhận xử lý pháp c của
Chươ
-tượng cảm blà tiến
-tới hìn
-Hay đ
H
gia về dụng 1
+++
biểu dP
theo c+
nhiên +
quả gồtrọng s
+Kohon
P
ơng 2 Kỹ thu
- Mức 1- mmà hệ thốngiến trong hệ
ng nói (speec- Mức 2- mứ
nh thành sự p- Mức 3- mứây là quá trìn
Đối tượng vật lý
Hìn
2Hình 2.5.13
HìnPhương án
mạng neuro1 lớp tính toá+ Số neuron+ Số neuron+ Số neuron
diễn số lượngPhương pháác bước sau+ Khởi tạo
+ Đọc tín hiồm 2 thành psố liên kết b+ Hiệu chỉnhnen sao cho Phương pháp
- Đầu
uật xử lý âm
mức cảm nhậg cần nhận dthống nhận
ch) và thu nhức nhận thứcphân lớp (claức nhận biếtnh ra quyết đ
Thu nhận quan sát
Đlượ
S(t
nh 2.5.12 Sơ
2.5.3.4.2 Nhmô tả chức
nh 2.5.13 Sn lựa chọn sốon trong các án là lớp mạ
n lớp vào = sn lớp Kohonen lớp ra = số g kết quả áp học cạnh t: trọng số: cá
iệu vào cho mphần: mảng an đầu của lh ma trận trmạng có thểp nhận dạngu vào: file c
thanh ận: cảm nhậdạng. Mức ndạng, ví dụ
hận đầu vào qc: ở đây biểuassification) t: từ đối tượnđịnh.
Tiềnsố
Đánh giá chất ợng nhận dạng
Số liệu tín hiệu)
ơ đồ tổng qu
hận dạng tiếnnăng cơ bản
Sơ đồ khối mố nút của từn
bài toán phạng Kohonenố chiều của en = số giá trlượng kết q
tranh của lớp
ác thành phầ
mạng: dữ liệ1 chiều chứ
lớp Kohonenọng số lớp Kể học mẫu tốg chứa dữ liệu
ận được sự tnày cũng đưa
trong hệ thốqua Micro hu diễn quá tcác đối tượn
ng quan sát
n xử lý liệu
R
Đối tượbiểu d
Trả lời nhận dạng
uan của hệ th
ng nói dùng n của hệ thốn
mô tả hệ thốnng lớp trong ân lớp có sửn làm lớp ẩnvector vào.rị các tập trả
quả đầu ra, sử
p ẩn và quá
ần ma trận t
ệu trong fileứa vector tín n Kohonen: hiốt nhất.
tín hiệu tiến
tồn tại các đa ra quá trìnhống nhận dạnhoặc các file trình học, mng cần nhận có thể trả lờ
Trích chọđặc tính
Ra quyết định phân lớp
ợng diễn
hống nhận dạ
mạng Neurong nhận dạng
ng nhận dạngmạng: theo ử dụng mạng. Việc xác đ
ả lời. ử dụng phươ
trình học có
trọng số đượ
e mẫu chứa thiệu vào và
iệu chỉnh trọ
ng nói cần n
đối tượng qh thu nhận sống tiếng nói:âm thanh .wô hình hoá đdạng. ời nhận biết
Học và ra quyết định
ọn h
Biểu diễn đặc tính
ạng
on g tiếng nói
g tiếng nói kinh nghiệm
g lan truyền nịnh số neuro
ơng pháp mã
ó chỉ đạo tại
ợc khởi tạo
thông tin mẫà mảng 2 chi
ọng số liên k
nhận dạng và
quan sát, hayố liệu qua cá: đối tượng ở
wav. đối tượng để
đối tượng là
Học hình thànsự phân lớp
m của các chngược hướn
on cho từng l
ã hoá bằng s
lớp ra của m
bởi giá trị
ẫu học và chiều chứa ma
kết neuron lớ
à file chứa t
y đối ác bộ ở đây
ể tiến
à gì ?
nh p
huyên ng, sử lớp.
số bit
mạng
ngẫu
o kết a trận
ớp ẩn
thông
Chương 2 Kỹ thuật xử lý âm thanh
73
tin trọng số liên kết neuron lớp ẩn và lớp ra. Ngoài ra đầu vào nguồn âm cũng có thể là từ micro thông qua sound card, lúc này dữ liệu tiếng nói được đọc trong buffer dữ liệu của Windows.
- Đầu ra: kết quả cần nhận dạng Quá trình nhận dạng tiếng nói được thực hiện qua các bước:
+ Đọc tín hiệu vào: đọc dữ liệu từ file wav hoặc từ buffer dữ liệu âm thanh + Xử lý tín hiệu giống như chức năng phân tích LPC ở trên + Đọc ma trận trọng số liên kết lớp ẩn và lớp ra của mạng + Xác định neuron trung tâm + Tra cứu kết quả: tra cứu trên bản đồ topo mạng neuron để đưa ra giá trị cần
nhận dạng.
TÓM TẮT CHƯƠNG 2 Chương 2 cung cấp các kiến thức tổng quát về xử lý âm thanh. Trước hết cái khái
niệm về tín hiệu, cách phân loại tín hiệu cũng như tổng quát về hệ thống xử lý âm thanh được đề cập trong phần 2.1. Ngoài ra ở mục phép biến đổi z, biến đổi Fourier liên tục và rời rạc cũng được nhắc lại.
Trong xử lý âm thanh, mô hình âm thanh là không thể thiếu, mục 2.2 đã giới thiệu cho các mô hình lấy mẫu âm thanh và mã hóa thoại cũng như các mô hình dùng trong xử lý âm thanh. Ngoài ra tổng quan về các chuẩn mã hóa âm thoại thông thường cũng được giới thiệu trong mục 2.1.4.
Dự đoán tuyến tính là một phần không thể thiếu của hầu hết tất cả giải thuật mã hóa thoại hiện đại ngày nay của trong xử lý âm thanh. Để giúp các bạn hiểu về vấn đề này toàn bộ mục 2.3 được dành để thảo luận về bài toán dự toán tuyến tính cũng như các giải thuật chính như giải thuật Levison-Durbin, Leroux-Gueguen. Ngoài ra mô hình xử lý thoại dựa vào mô hình mã hóa dự đoán tuyến tính được mô tả và thảo luận chi tiết.
Ở mục tiếp theo, mục 2.4, trình bày một số phương pháp đánh giá chất lượng thoại, đặc biệt là cho mạng viễn thông (cố định, di động) vì dịch vụ thoại là dịch vụ cơ bản và quan trọng nhất trong các dịch vụ cung cấp cho khách hàng của các nhà khai thác di động ở Việt Nam cũng như trên thế giới hiện nay. Vì thế trong mục này, các phương pháp đánh giá được thảo luận bao gồm: phương pháp đánh giá chủ quan và phương pháp dựa trên mô hình khách quan.
Và mục cuối cùng đề cập đến một số mô hình ứng dụng xử lý động như mô hình thời gian động, mô hình chuỗi markov ẩn và mạng nơtron. Để cụ thể hóa, bài toán cụ thể ứng dụng mạng neuron lan truyền ngược hướng (Back-propagation Neural Network) trong nhận dạng tiếng nói hoặc kết hợp với phương pháp mã dự đoán tuyến tính LPC (Linear Predictive Coding) được giới thiệu.
Chương 2 Kỹ thuật xử lý âm thanh
74
CÂU HỎI VÀ BÀI TẬP CHƯƠNG 2 1. Điều kiện đủ để tồn tại biến đổi Fourier là
A/ ∞<∑∞
)(nx
B/ 1=z
C/ A, B đều đúng D/ A, B đều sai 2. Như thế nào được gọi là yêu cầu “Nhận dạng tiếng nói / ngôn ngữ khác nhau” của
một bộ mã hóa thoại? A/ Kỹ thuật nhận dạng tiếng nói có thể phân biệt được giọng nói của người lớn nam
giới, người lớn nữ giới và trẻ con B/ Kỹ thuật nhận dạng tiếng nói có thể nhận dạng được ngôn ngữ nói của người nói. C/ A, B đều đúng D/ A, B đều sai 3. Để sử dụng đánh giá chất lượng thoại cho mạng GSM (Global System Mobile) của
VNPT (Vietnam Posts and Telecommunications Corporation), có thể sử dụng các phương pháp đánh giá nào sau đây
A/ Sử dụng PESQ (Perceptual Evaluation of Speech Quality) để đánh giá chất lượng thoại một chiều từ đầu cuối đến đầu cuối
B/ Sử dụng PSQM (Perceptual Speech Quality Measurement) để đánh giá chất lượng thoại một chiều từ đầu cuối đến đầu cuối
C/ Sử dụng E-model để đánh giá chất lượng thoại một chiều từ đầu cuối đến đầu cuối D/ A, B đều đúng 4. Ứng dụng mạng neuron trong thực tế, người ta thường dùng để A/ thống kê mô hình tạo âm thoại B/ nhận dạng tiếng nói C/ A, B đều đúng D/ A, B đều sai 5. Người ta sử dụng phương pháp nào trong những phương pháp sau đây để nhận dạng
tiếng nói A/ mạng neuron B/ mô hình thời gian động C/ Mô hình chuỗi markov ẩn D/ A, B đúng 6. Người ta sử dụng phương pháp nào trong những phương pháp sau đây để xử lý thoại A/ mạng neuron
Chương 2 Kỹ thuật xử lý âm thanh
75
B/ mô hình thời gian động C/ Mô hình chuỗi markov ẩn D/ A, B, C đúng 7. Trong thực tế, việc tính toán dự đoán tuyến tính LP (Linear Prediction) thường được
thực hiện bằng giải thuật nào A/ Giải thuật Levison-Durbin B/ Giải thuật DTW (Dynamic Time Warping) bất đối xứng C/ Giải thuật DTW (Dynamic Time Warping) đối xứng D/ B, C đều đúng 8. Mô hình Markov ẩn (Hidden Markov Model - HMM) được sử dụng trong thực tế như
thế nào A/ sử dụng trong việc thống kê mô hình tạo âm thoại B/ nhận dạng âm thoại cô lập C/ nhận dạng âm thoại liên tục D/ A, B, C đều đúng 9. Nhược điểm của các phương thức cho điểm theo MOS (Mean Opinion Score) là: A/ mang tính chất khách quan B/ tốn kém, đòi hỏi nhiều người tham gia và thiết lập phức tạp C/ Khi cần thực hiện đo thường xuyên các tham số chất lượng thì việc sử dụng phương
pháp đánh giá chất lượng này là không thực tế D/ B, C đều đúng 10. Mô hình nào được dùng trong việc tổng hợp tiếng nói A/ Mô hình AR (Autoregressive) B/ Mô hình tất định C/ Mô hình analog ngẫu nhiên D/ Mô hình LP (Linear Prediction) 11. Trong mô hình xử lý âm thanh, việc lấy mẫu tín hiệu ở miền thời gian có thể được
thực hiện với loại tín hiệu nào A/ Tín hiệu liên tục B/ Tín hiệu rời rạc C/ Tín hiệu ngẫu nhiên D/ A, B đúng
Chương 2 Kỹ thuật xử lý âm thanh
76
12. Bảng sau là thang điểm đánh giá điểm hội thoại và điểm chất lượng nghe của phương thức nào của phương pháp chủ quan trong đánh giá chất lượng thoại?
Điểm đánh giá Mức độ cố gắng cần thực hiện để hiểu câu
5 Không cần cố gắng
4 Cần chú ý nhưng không cần cố gắng nhiều
3 Cần tương đối tập trung
2 Cần tập trung
1 Không hiểu câu mẫu
A/ Comparison Category Rating (CCR) B/ Conversation Opinion Test (COT) C/ Degradation Category Rating (DCR) D/ A, B, C đều sai 13. Phương pháp nào so sánh dựa trên mô hình giác quan trong đánh giá chất lượng
thoại A/ Phương pháp PSQM (Perceptual Speech Quality Measurement) B/ Phương pháp PESQ (Perceptual Evaluation of Speech Quality) C/ Phương pháp mô hình đánh giá truyền dẫn E-Model D/ A, B, C đều đúng 14. Thông thường, tai người nhạy nhất ở tầm tần số nào A/ 2MHz và 5MHz B/ 2kHz và 5kHz C/ 2Hz và 5HZ D/ 2GHz và 2GHz 15. Chọn phát biểu đúng A/ Tầm động nghe được của tai người được phân tích và người ta nhận được kết quả là
có dạng đáp ứng tuyến tính B/ Tầm động nghe được của tai người được phân tích và người ta nhận được kết quả là
có dạng đáp ứng logarith C/ Tầm động nghe được của tai người được phân tích và người ta nhận được kết quả là
có dạng đáp ứng hình sin D/ Tầm động nghe được của tai người được phân tích và người ta nhận được kết quả là
có dạng đáp ứng xung 16. Giải thuật giải thuật mô hình thời gian động đối xứng - Dynamic Time Warping -
DTW có khuyết điểm so với giải thuật mô hình thời gian động bất đối xứng là A/ giải thuật sinh lỗi tại những vị trí không ước đoán trước B/ tại các vị trí cột và hàng lệ thuộc vào các vị trí đường chéo có thể sinh lỗi C/ giải thuật luôn luôn sinh lỗi trong thực tế
Chương 2 Kỹ thuật xử lý âm thanh
77
D/ A, B, C đều sai 17. Trong thực tế, việc tổng hợp âm thanh có thể được thực hiện bằng A/ mô hình miền thời gian B/ mô hình phi tuyến C/ A, B đều sai D/ A, B đều đúng 18. Cho tín hiệu có tần số cao nhất là 256Hz, vậy tần số lấy mẫu có giá trị là A/ tối đa là 512 Hz B/ tối thiểu là 512Hz C/ tối thiểu là 256Hz D/ A, B đều đúng 19. Hình thức đánh giá chất lượng thoại theo phương pháp chủ quan là hình thức nào A/ Bài kiểm tra hội thoại (Conversation Opinion Test). B/ Đánh giá phân loại tuyệt đối (Absolute Category Rating (ACR) Test). C/ Phương thức phân loại theo suy hao (Degradation Category Rating (DCR)). D/ Phương thức phân loại so sánh (Comparison Category Rating (CCR)). E/ A, B, C, D đều đúng 20. Mô hình điều pha và điều tần thuộc mô hình A/ Mô hình phi tuyến B/ Mô hình miền thời gian C/ Mô hình quang phổ D/ Mô hình sin 21. Các mô hình dùng trong xử lý âm thanh A/ Mô hình phi tuyến B/ Mô hình miền thời gian C/ Mô hình quang phổ D/ A, B, C đều đúng 22. Mô hình giác quan PSQM (Perceptual Speech Quality Measurement) được thiết kế
để sử dụng cho A/ tín hiệu thoại B/ tín hiệu hình ảnh C/ tín hiệu điều khiển D/ B, C đúng
Chương 2 Kỹ thuật xử lý âm thanh
78
23. Điểm PSQM thuộc mô hình giác quan PSQM (Perceptual Speech Quality Measurement) có giá trị
A/ từ 5 đến 10
B/ từ 0 đến ∞
C/ từ -∞ đến ∞
D/ từ -1 đến 1 24. Điểm PSQM thuộc mô hình giác quan PSQM (Perceptual Speech Quality
Measurement) có giá trị 0 để chỉ tương quan giữa tín hiệu ra và tín hiệu vào mô hình là A/ hoàn toàn trùng khớp B/ hoàn toàn khác biệt C/ không thể đánh giá được D/ A, B, C đều sai 25. Hệ số đánh giá truyền dẫn trong E-model được tính dựa vào thông số: A/ tỷ số tín hiệu trên nhiễu (SNR) B/ các tổn hao do trễ và tiếng vọng. C/ Tổn hao gây ra bởi các kỹ thuật nén thoại (codec tốc độ thấp). D/ A, B, C đều đúng 26. Quá trình nhận dạng tiếng nói bằng phương pháp mạng neuron được thực hiện qua
__________ bước A/ 10 B/ 5 C/ 20 D/ 15 27. Cho chuỗi x(n) có phép biến đổi z là X(z). Phép biến đổi z của chuỗi hàm tuyến tính
nx(n) là
A/ dz
zdXz )/1(
B/ dz
zdXz )/1(−
C/ dz
zdXz )/1(−−
D/ dz
zdXz )/1(−
E/ A, B, C, D đều sai
Chương 2 Kỹ thuật xử lý âm thanh
79
28. Cho mô hình sau
Trong mô hình, khối bộ chuyển đổi A/D thực hiện việc A/ chuyển đổi tín hiệu dạng tương tự sang tín hiệu số B/ chuyển đổi tín hiệu dạng số sang tín hiệu tương tự C/ chuyển đổi tín hiệu liên tục sang tín hiệu rời rạc D/ A, B, C đều sai 29. Mô hình quang phổ gồm những mô hình gì A/ Mô hình AR (Autoregressive), mô hình sin B/ Mô hình tất định, mô hình sin C/ Mô hình analog ngẫu nhiên, mô hình sin D/ Mô hình LP (Linear Prediction), mô hình sin 30. Phương pháp nào thuộc phương pháp đánh giá khách quan A/ phương pháp so sánh B/ phương pháp ước lượng tuyệt đối C/ mô hình đánh giá truyền dẫn D/ A, B, C đều đúng
Chương 3 Kỹ thuật xử lý hình ảnh
80
CHƯƠNG 3 KỸ THUẬT XỬ LÝ HÌNH ẢNH
3.1 TỔNG QUAN VỀ XỬ LÝ ẢNH VÀ VIDEO SỐ
Xử lý ảnh số là lĩnh vực khoa học tương đối mới mẻ và được quan tâm nhiều hiện nay. Hai ứng dụng cơ bản của xử lý ảnh là nâng cao chất lượng hình ảnh và xử lý ảnh cũng như video số với mục đích lưu trữ hoặc truyền qua các hệ thống truyền dẫn hình ảnh.
Trong phần này, chúng ta sẽ đề cập tới nhưng vấn đề sau: 1- Giới thiệu khái niệm cơ bản về ảnh số và xử lý video số, xác định ranh giới của lĩnh vực xử lý ảnh. 2- Giới thiệu các ứng dụng quan trọng của xử lý ảnh trong một số lĩnh vực khoa học 3- Xác định các giai đoạn cơ bản trong quá trình xử lý ảnh; 4- Giới thiệu các thành phần của hệ thống xử lý ảnh tổng quát.
3.1.1 Khái niệm cơ bản về xử lý ảnh
Hình ảnh tĩnh có thể được biểu diễn bởi hàm hai chiều f(x,y), trong đó, x và y là tọa độ không gian phẳng (2 chiều). Khi xét ảnh "đen-trắng", giá trị hàm f tại một điểm được xác định bởi tọa độ (x,y) được gọi là độ chói (mức xám) của ảnh tại điểm này. Nếu x,y và f là một số hiện hữu các giá trị rời rạc, chúng ta có ảnh số. Xử lý ảnh số là quá trình biến đổi ảnh số trên máy tính (PC). Như vậy, ảnh số được tạo ra bởi một số hữu hạn các điểm ảnh, mỗi điểm ảnh nằm tại một vị trí nhất định và có một giá trị nhất định. Một điểm ảnh trong một ảnh còn được gọi là một pixel.
Hệ thống thị giác là cơ quan cảm nhận hình ảnh quang học tương đối hoàn hảo, cho phép con người cảm nhận được hình ảnh quang học trong thiên nhiên. Ứng dụng quan trọng nhất của xử lý ảnh là biến đổi tính chất của ảnh số nhằm tạo ra cảm nhận về sự gia tăng chất lượng hình ảnh quang học trong hệ thống thị giác.
Tuy nhiên, mắt người chỉ cảm nhận được sóng điện từ có bước sóng hạn chế trong vùng nhìn thấy được, do đó ảnh theo quan niệm thông thường gắn liền với hình ảnh quang học mà mắt người có thể cảm nhận. Trong khi đó "ảnh" đưa vào xử lý có thể được tạo ra bởi các nguồn bức xạ có phổ rộng hơn, từ sóng vô tuyến tới tia gamma, ví dụ: ảnh do sóng siêu âm hoặc tia X tạo ra. Nhiều hệ thống xử lý ảnh có thể tương tác với những "ảnh" nêu trên, vì vậy trên thực tế, lĩnh vực xử lý ảnh có phạm vi tương đối rộng, và liên quan tới nhiều lĩnh vực khoa học khác.
Có thể tạm phân biệt các hệ thống xử lý ảnh theo mức độ phức tạp của thuật toán xử lý như sau:
1- Xử lý ảnh mức thấp: đó là các quá trình biến đổi đơn giản như thực hiện các bộ lọc nhằm khử nhiễu trong ảnh, tăng cường độ tương phản hay độ nét của ảnh. Trong trường hợp này, tín hiệu đưa vào hệ thống xử lý và tín hiệu ở đầu ra là ảnh quang học.
2- Xử lý ảnh mức trung: quá trình xử lý phức tạp hơn, thường được sử dụng để phân lớp, phân đoạn ảnh, xác định và dự đoán biên ảnh, nén ảnh để lưu trữ hoặc truyền phát. Đặc điểm của các hệ thống xử lý ảnh mức trung là tín hiệu đầu vào là hình ảnh, còn tín hiệu đầu ra là các thành phần được tách ra từ hình ảnh gốc, hoặc luồng dữ liệu nhận được sau khi nén ảnh.
3- Xử lý ảnh mức cao: là quá trình phân tích và nhận dạng hình ảnh. Đây cũng là quá trình xử lý được thực hiện trong hệ thống thị giác của con người.
3.1.2 Lĩnh vực ứng dụng kỹ thuật xử lý ảnh
Như đã nói ở trên, các kỹ thuật xử lý ảnh trước đây chủ yếu được sử dụng để nâng cao chất lượng hình ảnh, chính xác hơn là tạo cảm giác về sự gia tăng chất lượng ảnh quang học trong mắt
Chươn người hiện kh
Txạ X -rtiếp trêđược xtạo ra h
Tcấu trú(imagevới độ
Txử lý, đó có ảnh vệnhiễm có thể
45λ =
là ảnh hai ảnhbờ. Thbức ảnhơn. Ntùy thu
ng 3 Kỹ thu
quan sát. Thhông có lĩnh
Trong y học,ray hay nguồên bề mặt màxử lý tiếp để hình ảnh tron
Trong lĩnh vúc bề mặt tráie restoration) chính xác ca
Hình 3.1.1
Trong ngànhnâng cao chấthể thực hiệnệ tinh tại các
môi trường ể thu được 50 520 nm−
bề mặt trái đh. Đặc biệt trhiết bị thu hìnnh trong đó vNhư vậy việcuộc vào mục
Hìn
uật xử lý hình
hời gian gần đvực khoa họ
, các thuật toồn bức xạ siêàn hình hiển nâng cao độ
ng không gia
vực địa chất, i đất. Kỹ thu) cho phép nao.
Ảnh nhận đư
h khí tượng hất lượng và gn việc dự báokhu vục đôncũng như cáthông qua ), hoặc tia hồđất nhận đượrên ảnh 3.1.2nh nhạy cảmvật thể có nhic lựa chọn cáđích sử dụng
nh 3.1.2 - Ản
h ảnh
đây, phạm viọc nào không
oán xử lý ảnhêu âm thành h
thị. Hình ảnộ tương phản,an ba chiều (s
hình ảnh nhuật làm nổi đưnâng cao chất
ược từ vệ tinh
học, ảnh nhậnghép hình đểo thời tiết m
ng dân cư cònác yếu tố ảnhcác thiết bồng ngoại (λợc từ hai ống 2b, hình con s
m với vật thể biệt độ thấp sẽác thiết bị ghg trong các lĩ
a
nh bề mặt trái
i ứng dụng xửg sử dụng các
h cho phép bihình ảnh quanh các cơ qua, lọc, tách cásiêu âm 3 chi
hận được từ vường biên (imt lượng ảnh
h dùng trong
n được từ hệể tạo ra ảnh bột cách chínhn có thể dự đh hưởng tới mbị ghi hình
760 90λ = −
ghi hình nóisông được tábức xạ các tiẽ được phân
hi hình khácĩnh vực khoa
i đất thu đượ
ử lý ảnh mởc thành tựu củ
iến đổi hình ang học trên ban chức năng
ác thành phầniều).
vệ tinh có thmage enhancvệ tinh và tạ
g khí tượng họ
thống vệ tinbề mặt trái đấh xác hơn. Dđoán quá trìnhmôi trường scảm nhận 0 nm ). Trêni trên, dễ dàn
ách biệt rất rõia trong miềnbiệt rõ ràng nhau sẽ tạo r
a học cụ thể .
b
c từ hai came
rộng không ủa công nghệ
ảnh được tạobề mặt film xg của con ngn cần thiết (c
hể được phâncement) và khạo ra các bản
ọc
nh theo dõi thất trên một vùDựa trên các h tăng trưởngsinh thái. Ảnđược tia sá
n hình 3.1.2a ng nhận thấy õ ràng so với n hồng ngoạiso với vật thra ảnh có đặ
era khác nhau
ngừng, có thệ xử lý ảnh số
o ra từ nguồnx-quang hoặcgười sau đó cchụp cắt lớp)
n tích để xác hôi phục hìnhn đồ địa hình
hời tiết cũng ùng rộng lớnkết quả phâng dân số, tốc
nh chụp từ vệáng quang hvà 3.1.2b lầnsự khác biệtvùng ảnh ha
i sẽ cho ra nhể có nhiệt độặc tính khác n
u
hể nói ố .
n bức c trực có thể
hoặc
định h ảnh h 3-D
được n, qua n tích c độ ô ệ tinh học (n lượt t giữa ai bên những ộ cao nhau,
Chương 3 Kỹ thuật xử lý hình ảnh
82
Xử lý ảnh còn được sử dụng nhiều trong các hệ thống quản lý chất lượng và số lượng hàng hóa trong các dây truyền tự động, ví dụ như hệ thống phân tích ảnh để phát hiện bọt khí bên trong vật thể đúc bằng nhựa, phát hiện các linh kiện không đạt tiêu chuẩn (bị biến dạng) trong quá trình sản xuất hoặc hệ thống đếm sản phẩm thông qua hình ảnh nhận được từ camera quan sát.
Xử lý ảnh còn được sử dụng rộng rãi trong lĩnh vực hình sự và các hệ thống bảo mật hoặc kiểm soát truy nhập: quá trình xử lý ảnh với mục đích nhận dạng vân tay hay khuôn mặt cho phép phát hiện nhanh các đối tương nghi vấn cũng như nâng cao hiệu quả hệ thống bảo mật cá nhân cũng như kiểm soát ra vào. Ngoài ra, có thể kể đến các ứng dụng quan trọng khác của kỹ thuật xử lý ảnh tĩnh cũng như ảnh động trong đời sống như tự động nhận dạng, nhận dạng mục tiêu quân sự, máy nhìn công nghiệp trong các hệ thống điều khiển tự động, nén ảnh tĩnh, ảnh động để lưu và truyền trong mạng viễn thông v.v.
3.1.3 Các giai đoạn chính trong xử lý ảnh
1- Thu nhận hình ảnh: đây là giai đoạn đầu tiên và quan trọng nhất trong toàn bộ quá trình xử lý ảnh. Ảnh nhận được tại đây chính là ảnh gốc để đưa vào xử lý tại các giai đoạn sau, trường hợp ảnh gốc có chất lượng kém, hiệu quả của các bước xử lý tiếp theo sẽ bị giảm. Thiết bị thu nhận có thể là các ông ghi hình chân không (vidicon, plumbicon v.v.) hoặc thiết bị cảm biến quang điện bán dẫn CCD (Charge-Coupled Device).
2- Tiền xử lý ảnh: giai đoạn xử lý tương đối đơn giản nhằm nâng cao chất lượng ảnh để trợ giúp cho các quá trình xử lý nâng cao tiếp theo, ví dụ: tăng độ tương phản, làm nổi đường biên, khử nhiễu v.v.
3- Phân đoạn: là quá trình tách hình ảnh thành các phần hoặc vật thể riêng biệt. Đây là một trong nhưng vấn đề khó giải quyết nhất trong lĩnh vực xử lý ảnh. Nếu thực hiện tách quá sâu các chi tiết thì bài toán nhận dạng thành phần được tách ra trở nên phức tạp, còn ngược lại nếu quá trình phân đoạn được thực hiện quá thô hoặc phân đoạn sai thì kết quả nhận được cuối cùng sẽ không chính xác.
4- Biểu diễn và mô tả: là quá trình xử lý sau khâu phân đoạn hình ảnh. Các vật thể sau khi phân đoạn có thể được mô tả dưới dạng chuỗi các điểm ảnh tạo nên ranh giới một vùng, hoặc tập hợp tất cả các điểm ảnh nằm trong vùng đó. Phương pháp mô tả thông qua ranh giới vùng thường được sử dụng khi cần tập trung sự chú ý vào hình dạng bên ngoài của chi tiết ảnh như độ cong, các góc cạnh v.v. Một vùng ảnh có thể được mô tả dựa trên đặc tính bên trong của nó: miền đồng nhất, đặc điểm đường vân (texture).
5- Nén ảnh: là các biện pháp giảm thiểu dung lượng bộ nhớ cần thiết để lưu trữ hình ảnh, hay giảm băng thông kênh truyền, cần thiết để truyền tín hiệu hình ảnh số.
6- Nhận dạng: là quá trình phân loại vật thể dựa trên cơ sở các chi tiết mô tả vật thể đó (ví dụ các phương tiện giao thông có trong ảnh).
Các quá trình xử lý liệt kê ở trên đều được thực hiện dưới sự giám sát và điều khiển dựa trên cơ sở các kiến thức về lĩnh vực xử lý ảnh. Các kiến thức cơ bản có thể đơn giản như vị trí vùng ảnh nơi có những thông tin cần quan tâm, như vậy có thể thu nhỏ vùng tìm kiếm. Trường hợp phức tạp hơn, cơ sở kiến thức có thể chứa danh sách tất cả những hư hỏng có thể gặp trong quá trình kiểm soát chất lượng thành phẩm hoặc các ảnh vệ tinh có độ chi tiết cao trong các hệ thống theo dõi sự thay đổi môi trường trong một vùng. Ngoài việc điều khiển hoạt động của từng
Chương 3 Kỹ thuật xử lý hình ảnh
83
modul xử lý ảnh (hình 3.1.3), cơ sở kiến thức còn sử dụng để thực hiện việc điều khiển tương tác giữa các modules. Trong hình 3.1.3, quá trình điều khiển tương tác được biểu diễn bằng mũi tên hai chiều.
Hình 3.1.3 Các giai đoạn xử lý ảnh số
3.1.4 Các phần tử của hệ thống xử lý ảnh số
Cấu trúc một hệ thống xử lý ảnh đa dụng dùng để thực hiện các giai đoạn xử lý ảnh đề cập ở trên được mô tả trên hình 3.1.4.
Hình 3.1.4 Các thành phần chính của hệ thống xử lý ảnh
Thiết bị thu nhận hình ảnh: là thiết bị biến đổi quang-điện, cho phép biến đổi hình ảnh quang học thành tín hiệu điện dưới dạng analog hay trực tiếp dưới dạng số. Có nhiều dạng cảm biến cho phép làm việc với ánh sáng nhìn thấy hoặc hồng ngoại. Hai loại thiết bị biến đổi quang – điện chủ yếu thường được sử dụng là đèn ghi hình điện tử và chip CCD (Charge Couple Device – linh kiện ghép điện tích).
Ống vidicon là đại diện tiêu biểu cho họ đèn ghi hình điện tử được sử dụng tương đối rộng rãi trong camera màu cũng như đen trắng. Ống Vidicon có kích thước nhỏ gọn (đường kính 18-25 mm, chiều dài 10-12 cm), nhẹ, cấu tạo đơn giản, dễ sử dụng. Đèn hình này sử dụng nguyên lý hiệu ứng quang điện trong và nguyên lý tích lũy điện tích.
Chip CCD là linh kiện bán dẫn có khả năng biến đổi năng lượng quang phổ thành tín hiệu điện. Thành phần chính của chip CCD là các tụ điện MOS (Metal-Oxide-Semiconductor). Tụ điện MOS được hình thành bởi ba lớp: một má tụ bằng kim loại, chất điện môi nằm giữa là lớp
Chương 3 Kỹ thuật xử lý hình ảnh
84
SiO2 và một má tụ bằng lớp bán dẫn loại p hoặc n (hình 3.1.5).
Neàn baùn daãn "p"
Ñieän cöïc kim loaïi+ U
Hình 3.1.5 Cấu trúc tụ điện MOS
Một chuỗi tụ điện MOS phân bố đều trên bề mặt chip CCD được biểu diễn trên hình 3.1.6a, mỗi tụ điện với bề mặt cảm quang là má bán dẫn sẽ tạo ra một điểm trên hình ảnh thu được.Theo phương pháp dịch chuyển điện tích, các chip CCD có thể chia ra làm hai loại: CCD dạng chuỗi (một chiều) và dạng ma trận (hai chiều).
Chip CCD sử dụng trong máy quay video thường có cấu trúc ma trận (hình 3.16b). Các phần tử cảm quang trong CCD tập hợp thành ma trận hai chiều, quá trình “đọc” tín hiệu được thực hiện theo chiều ngang và chiều dọc. Có nhiều cách tổ chức quá trình ghi và đọc tín hiệu trong CCD, nhưng phổ biến nhất là phương pháp dịch chuyển từng ảnh. Khi sử dụng phương pháp này, trong chip CCD được thiết kế một miền nhớ, không tiếp xúc với ánh sáng và có diện tích bằng miền tích lũy – là ma trận các phần tử cảm quang.
Điện tích thu được tại miền tích lũy được chuyển về miền nhớ. Sau đó, quá trình ghi ảnh tại miền tích lũy và đọc ảnh từ miền nhớ vào thanh dịch ngang sẽ được tiến hành song song.Từng dòng ảnh được dịch chuyển xuống thanh dịch ngang, sau đó các gói điện tích ứng với các điểm trong dòng ảnh sẽ được đẩy ra lần lượt khỏi thanh dịch. Sau khi toàn bộ ảnh trong miền nhớ được đọc ra hết, một ảnh mới từ miền tích lũy sẽ lại được chuyển về đây.
Với những tính năng vượt trội trước ống ghi hình điện tử cổ điển, linh kiện biến đổi - quang điện CCD được sử dụng rất rộng rãi trong công nghệ truyền hình và ảnh số. Hầu hết các camera quay video dân dụng và bán chuyên nghiệp (semi-professional) được thiết kế trên cơ sở chip CCD.
Bộ nhớ trong và ngoài trong các hệ thống xử lý ảnh số thường có dung lượng rất lớn dùng để lưu trữ ảnh tĩnh và động dưới dạng số. Ví dụ, để lưu một ảnh số đen trắng kích thước 1024x1024 điểm, mỗi điểm được mã hóa bằng 8 bits cần bộ nhớ ~1MB. Để lưu một ảnh màu
Hình 3.1.6 Cấu trúc chip CCD a) dạng chuỗi b) dạng ma trận
Chương 3 Kỹ thuật xử lý hình ảnh
85
không nén, dung lượng bộ nhớ phải tăng lên gấp 3. Bộ nhớ số trong hệ thống xử lý ảnh có thể chia làm 3 loại: 1- bộ nhớ đệm trong máy tính để lưu ảnh trong quá trình xử lý. Bộ nhớ này phải có khả năng ghi/đọc rất nhanh (tốc độ tối đa có thể lên tới 17GB/sec); 2- bộ nhớ ngoài có tốc độ truy cập tương đối nhanh, dùng để lưu thông tin thường dùng. Các bộ nhớ ngoài có thể là ổ cứng, thẻ nhớ flash v.v.. 3- Bộ nhớ dùng để lưu trữ dữ liệu. Loại bộ nhớ này thường có dung lượng lớn, tốc độ truy cập không cao. Thông dụng nhất là đĩa quang ghi một lần hoặc nhiều lần như đĩa DVD-R, DVD-RW có dung lượng 4.7GB (một mặt). Ngoài ra trong hệ thống xử lý ảnh còn sử dụng các thiết bị cho phép lưu ảnh trên vật liệu khác như giấy in, giấy in nhiệt, giấy trong, đó có thể là máy in phun, in laser, in trên giấy ảnh đặc biệt bằng công nghệ nung nóng v.v.
Bộ xử lý ảnh chuyên dụng:
Là các chip xử lý ảnh chuyên dụng, có khả năng thực hiện nhanh các lệnh chuyên dùng trong xử lý ảnh. Cho phép thực hiện các quá trình xử lý ảnh như lọc, làm nổi đường biên, nén và giải nén video số v.v.. Trong bộ xử lý ảnh thường tích hợp bộ nhớ đệm có tốc độ cao.
Màn hình hiển thị: Hệ thống biến đổi điện - quang hay đèn hình (đen trắng cũng như màu) có nhiệm vụ biến đổi tín hiệu điện có chứa thông tin của ảnh (tín hiệu video) thành hình ảnh trên màn hình. Có hai dạng display được sử dụng rộng rãi là đèn hình CRT (Cathode-Ray Tube) và màn hình tinh thể lỏng LCD (Liquid Crystal Display). Đèn hình CRT thường có khả năng hiển thị màu sắc tốt hơn màn hình LCD nên được dùng phổ biến trong các hệ thống xử lý ảnh chuyên nghiệp.
Máy tính: có thể là máy tính để bàn cũng như siêu máy tính có chức năng điều khiển tất cả các bộ phận chức năng trong hệ thống xử lý ảnh số.
3.1.5 Biểu diễn ảnh số
Trong phần này, chúng ta sẽ đề cập tới một số những kiến thức cơ bản và ký hiệu được sử dụng trong lĩnh vực xử lý ảnh. Đó là các vấn đề về ánh sáng, màu sắc, khả năng tiếp thu hình ảnh quang học của hệ thống thị giác. Tiếp theo là quá trình biến đổi ảnh analog thành tín hiệu ảnh số, cách biểu diễn hình ảnh số, ảnh hưởng của quá trình lấy mẫu và lượng tử hóa tới chất lượng ảnh số.
3.1.5.1 Ánh sáng, màu sắc và hình ảnh Phổ của các sóng điện từ trong thiên nhiên trải dài từ tia gamma (10-12 m) đến sóng radio
(10-4-104 m). Mắt người chỉ cảm nhận được những sóng điện từ có bước sóng từ 380 nm (tia màu tím) đến 780 nm (tia màu đỏ).
Các bức xạ điện từ đặc biệt nói trên được gọi là ánh sáng. Trong lĩnh vực xử lý ảnh, người ta chỉ quan tâm đến phần năng lượng bức xạ mà mắt người cảm nhận được. Các đại lượng trắc quang được sử dụng để đánh giá tính chất của nguồn sáng: quang thông, độ sáng, độ rọi và độ chói. Để đánh giá được tác động của ánh sáng lên mắt người, chúng ta phải lưu ý đến hai yếu tố quan trọng:
1 – Mắt có độ nhậy cảm không đồng đều đối với các tia bức xạ có bước sóng khác nhau. Trên đồ thị độ nhạy của mắt người (hình 3.1.7) ta thấy vùng lục – vàng (λ ~ 555 nm) là nơi nhậy cảm nhất của mắt.
2 – Mật độ phân bố phổ công suất của các nguồn sáng trong thiên nhiên không đồng đều.
Chương 3 Kỹ thuật xử lý hình ảnh
86
tím380
döông460
luïc500
vaøng590
cam630
ñoû700
Ñoä
nhaïy
Hình 3.1.7 Đáp ứng phổ (độ nhạy) của mắt người
Trường hợp tổng quát, một nguồn bức xạ có thể đặc trưng bởi hàm mật độ phân bố công suất trên trục tần số ( )λρ :
( ) ( )
λλλρ
ddP
= (Watt/μm) (3.1.1)
λ - bước sóng (μm);
( )λP – công suất nguồn bức xạ có bước sóng λ (Watt);
Công suất toàn phần của nguồn ánh sáng có phổ liên tục (ánh sáng mặt trời, áng sáng đèn đốt nóng v.v.) sẽ bằng:
( )∫ ⋅=∑
780
370λλρ dP (3.1.2)
Để đặc trưng cho phần năng lượng bức xạ có ích (cảm nhận được bằng mắt) ta đưa ra khái niệm quang thông F :
( ) ( )∫ ⋅=
780
370λλρλ dVKF (lumen1) (3.1.3)
( )λV - hàm độ nhạy phổ tương đối của mắt người (không có đơn vị).
K là hệ số tỷ lệ giữa quang thông và công suất bức xạ.
Nhìn chung, quang thông của một nguồn sáng có thể phân bố không đồng đều theo các phương hướng khác nhau. Ta định nghĩa đại lượng độ sáng I đặc trưng cho khả năng phát sáng của nguồn sáng theo một hướng nào đó (hình 3.1.10):
Ω
=ddFI , (candela2) (3.1.4)
Ω - góc khối; 2rdSd =Ω (sr –steradian)
1 Lumen (lat.) – nguồn sáng 2 Đơn vị độ sáng là candela (cd) – là 1 trong sáu đơn vị cơ bản hệ SI. 1 candela là độ sáng đo theo phương
vuông góc của bề mặt platin, ở nhiệt độ đông đặc, (2046,5 K), có diện tích 1/60π=0.0053 cm2.
Chương 3 Kỹ thuật xử lý hình ảnh
87
dF – quang thông truyền qua góc khối dΩ.
dFdSo
Ar
dS
dΩn
r
Hình 3.1.10 Minh họa độ sáng của nguồn điểm
Góc khối lớn nhất là 2
2
4 4π πΩ = =rr
, do đó độ sáng trung bình của nguồn điểm3 sẽ
bằng toàn bộ quang thông chia cho góc 4π:
4
A Atb
F FIπ
= =Ω
Quang thông và độ sáng là hai đại lượng đặc trưng cho nguồn sáng.
Độ rọi E là đại lượng đặc trưng cho bề mặt được chiếu sáng.
Độ rọi là mật độ phân bố quang thông trên bề mặt được chiếu sáng:
=dFEdS
(lux4) (3.1.5)
1 lux là độ rọi lên một bề mặt khi 1 m2 bề mặt đó nhận được quang thông bằng 1 lumen.
Xét bề mặt được chiếu sáng dS bởi nguồn điểm A (hình 3.1.10). Diện tích bề mặt hình cầu giới hạn trong góc khối dΩ là dS0., α là góc giữa pháp tuyến của dS và pháp tuyến dS0.
02 2
2
2
α
α
α
⋅Ω ≅ =
Ω ⋅= = =
⋅=
cos ;
cos
cos
S
S
dS dSdr rdF Id I dSEdS dS dS rIEr
(3.1.6)
Như vậy độ rọi của bề mặt được chiếu sáng bởi nguồn điểm tỷ lệ nghịch với bình phương khoảng cách giữa nguồn sáng và bề mặt đó.
Độ chói L là đại lượng đặc trưng cho bề mặt phát sáng (trong khi độ rọi đặc trưng cho bề mặt được chiếu sáng).
3 Nguồn điểm là nguồn sáng có kích thước (d) nhỏ hơn nhiều lần so với khoảng cách (l) đến bề mặt được
chiếu sáng (l ≥ 10d). 4 lux (lat.) – chiếu sáng
Chương 3 Kỹ thuật xử lý hình ảnh
88
Độ chói là mật độ độ sáng trên bề mặt phát sáng. Độ chói đặc trưng cho mức độ sáng của nguồn sáng. Cho bề mặt phát sáng S0. Theo hướng trực giao với S0, độ chói sẽ bằng:
200 ( / )I
L candel mS
= (3.1.7)
Đơn vị độ chói còn gọi là Nít ( Nít là độ chói của nguồn sáng có diện tích 1 m2 và cường độ sáng là 1 candela theo hướng vuông góc với bề mặt nguồn sáng)
3.1.5.2 Màu sắc và các thông số đặc trưng Cảm nhận về màu sắc là kết quả của sự nhận biết chủ quan của mắt người dưới tác động
của ánh sáng. Để giải thích cơ chế cảm nhận màu của mắt người, các nhà khoa học đã đưa ra nhiều giả thuyết khác nhau, trong đó, thuyết ba thành phần cảm thụ màu, do nhà bác học Nga Lômônôxốp đưa ra năm1756 được công nhận rộng rãi hơn cả (T. Young năm 1801 – cũng đưa ra giả thiết về “ba nhóm tế bào cảm nhận” trong mắt và mô hình mắt người). Theo thuyết này, các tế bào hình nón trên võng mạc có thể chia ra ba loại. Mỗi loại tế bào đặc biệt nhạy cảm với những vùng phổ nhất định trong dải quang phổ – vùng sóng ngắn (màu xanh lam - B), vùng sóng trung (màu lục - G) và vùng sóng dài (màu đỏ - R). Sóng điện từ có bước sóng khác nhau tác động lên các tế bào không đồng đều, sự khác biệt về tỷ lệ kích thích sẽ tạo nên cảm nhận về các sắc màu khác nhau. Thuyết ba thành phần cảm thụ màu được chứng minh qua nhiều thực nghiệm và phù hợp với luật pha trộn màu mà chúng ta sẽ đề cập tới dưới đây.
Trên phương diện sinh học (cảm giác chủ quan), ánh sáng được cảm nhận thông qua ba đại lượng chính là: độ sáng, sắc màu và độ bão hòa màu.
Độ sáng – phụ thuộc vào công suất của nguồn sáng, ví dụ: nguồn sáng trắng 500 W sẽ có độ sáng lớn hơn nguồn sáng trắng 15 W.
Sắc màu (sắc điệu) là tính chất đặc trưng của màu mà qua đó ta nhận biết được màu đỏ, xanh, vàng v.v.
Độ bão hòa màu là cường độ về sắc màu qua đó ta có thể phân biệt được màu đỏ thẫm hay màu đỏ nhạt v.v.
Khi đánh giá về số lượng của các đại lượng trên (bằng cách đo lường khách quan) chúng ta sẽ sử dụng ba khái niệm tương đương là: độ chói, bước sóng trội và độ sạch của màu. Sắc điệu của nguồn sáng tương đương với bước sóng λ có năng lượng lớn nhất trong phổ của nguồn sáng đó, đại lượng này được gọi là bước sóng trội λ . Độ bão hòa của một màu có bước sóng trội λ được tính bằng:
( )/ Ep F F Fλ λ= + (3.1.8)
p – là độ sạch màu, đại lượng xác định số lượng ánh sáng trắng trong nguồn sáng hay độ pha loãng của nguồn sáng đó. Như vậy, màu quang phổ sẽ có độ sạch là 100%p = , đối với màu trắng 0p = .
Dựa trên những tính chất của hệ thị giác như độ phân giải, tính lưu ảnh và thuyết ba thành phần cảm nhận màu, để tạo ra cảm giác về một màu nào đó, người ta có thể thực hiện pha trộn các màu cơ bản theo những phương pháp sau:
Chương 3 Kỹ thuật xử lý hình ảnh
89
1. Phương pháp cộng màu quang học
Phương pháp này dựa trên khả năng tổng hợp màu khi các nguồn bức xạ được chiếu lên một mặt phẳng. Các nguồn bức xạ có thể được rọi cùng một lúc hay nối tiếp nhau với một tốc độ tương đối lớn (còn gọi là phép trộn màu theo thời gian), khi đó, ánh sáng thứ cấp phản xạ từ bề mặt của mặt phẳng trên sẽ mang lại cho người quan sát cảm nhận về một màu sắc tổng hợp. Sắc độ màu mới phụ thuộc vào tỷ lệ công suất của các bức xạ thành phần (hình 3.1.11).
Hình 3.1.11 Trộn các màu cơ bản
2. Phương pháp trộn màu không gian
Khi trộn màu không gian, các phần tử ảnh mang sắc màu cơ bản nằm độc lập với nhau trong không gian, nếu những phần tử này nằm gần nhau và có kính thước nhỏ thì mắt cảm nhận chúng như một điểm ảnh, màu sắc của điểm ảnh này phụ thuộc vào tỷ lệ công suất của các màu cơ bản. Hình dạng của các phần tử có thể là các điểm tròn hay vạch màu nhỏ. Tỷ lệ công suất của các màu cơ bản có thể thay đổi bằng cách thay đổi độ chói của các phần tử ảnh tham gia trộn màu hay thay đổi kích thước của chúng. Việc tái tạo hình ảnh màu trên màn hình vô tuyến thường được thực hiện bằng phương pháp trộn màu trong không gian.
3. Phương pháp trừ
Để tạo ra một màu mới, ngoài phương pháp cộng các màu đơn sắc, người ta còn có thể sử dụng phương pháp loại bỏ bớt một số màu từ ánh sáng trắng. Thí dụ, nếu cho ánh sáng trắng qua môi trường hấp thụ (kính lọc) các tia màu đỏ, ta sẽ nhận được màu lơ. Phương pháp này thường dùng trong kỹ thuật ảnh màu, in ấn và trong hội họa. Đặc điểm của phương pháp trừ là độ chói của màu được tạo ra bao giờ cũng nhỏ hơn độ chói của màu trắng ban đầu.
3.1.5.3 Các định luật trộn màu cơ bản Trên cơ sở các kết quả nhận được qua nhiều công trình thực nghiệm về cảm nhận màu sắc
của hệ thống thị giác, nhà bác học người Đức H.Grassmann đã đưa ra bốn định luật về trộn màu:
Định luật thứ nhất: Bất kỳ một màu sắc nào cũng có thể tạo được bằng cách trộn 3 màu cơ bản độc lập tuyến tính với nhau.
Ba màu được gọi là độc lập tuyến tính khi một trong những màu đó không thể tạo ra bằng cách pha trộn hai màu còn lại được. Như vậy, ta có thể viết ra được phương trình so màu như sau:
f F r R g G b B′ ′ ′ ′= + + (3.1.9)
f F′ - nguồn ánh sáng bất kỳ, có đơn vị là F và số lượng ánh sáng là f ′ ; R,G,B – đơn vị
màu cơ bản; , ,r g b′ ′ ′ - số lượng các màu cơ bản R, G, B, còn gọi là modul của các màu đó.
Năm 1931, theo quy định của tổ chức quốc tế CIE (Commission Internationale d’Eclairage - International Commission on Ilumination – ủy ban quốc tế về ánh sáng) ba nguồn bức xạ đơn sắc
Chương 3 Kỹ thuật xử lý hình ảnh
90
màu đỏ, lục và lam tương ứng có bước sóng:
nmnm
nm
B
G
R
8,4351,546
700
===
λλλ
Ba màu trên được gọi là ba màu cơ bản. Mỗi màu cơ bản sẽ có một màu bổ xung tương ứng, khi pha trộn màu cơ bản và màu bổ xung của nó chúng ta sẽ nhận được màu trắng. Các cặp màu cơ bản và màu bổ xung là: Đỏ – Lơ (Cyan), Lục – Mận chín (Magenta), Lam – Vàng (Yellow).
Định luật thứ hai: Sự biến đổi liên tục của các hệ số công suất của các màu cơ bản sẽ dẫn dến sự biến đổi liên tục của màu sắc tổng hợp, nó chuyển từ màu này sang màu khác.
Khi thay đổi công suất của các nguồn sáng cơ bản nhưng giữ nguyên tỷ lệ công suất thì màu tổng hợp sẽ không thay đổi sắc độ, chỉ có sự thay đổi về độ chói mà thôi. Vì vậy, tỷ lệ tương đối giữa ba màu cơ bản R:B:G sẽ quyết định màu sắc của màu tổng hợp.
Định luật thứ ba: Màu sắc tổng hợp của nhiều nguồn sáng chỉ xác định bởi các thành phần màu sắc của từng nguồn sáng chứ không phụ thuộc vào thành phần phổ của chúng.
Định luật thứ tư: độ chói của màu tổng hợp bằng tổng số độ chói của các thành phần màu.
R G BL L L L= + +∑
3.1.5.4 Không gian màu RGB Để xác định một màu F, theo định luật trộn màu thứ nhất, ta chỉ cần biết số lượng của ba
màu cơ bản trong phương trình (3.1.9). Vì thế màu F có thể được biểu diễn bằng một điểm trong không gian màu ba chiều rgb hay như một vector nối từ gốc tọa độ tới điểm đó, các vector màu
đơn vị sẽ là , ,R G B (hình 3.1.12). Độ chói của màu F sẽ bằng chiều dài (modul) của vector F ,
sắc – tương ứng với phương hướng của F trong không gian rgb. Tổng ba vector đơn vị sẽ cho ta màu trắng chuẩn.
g
r
b
G
BR
E
F
0
f'F
Hình 3.1.12 Không gian màu rgb
Xét một màu bất kỳ trong không gian màu rgb, xác định bởi phương trình:
Chương 3 Kỹ thuật xử lý hình ảnh
91
f F r R g G b B′ ′ ′ ′= + + (3.1.11)
Ta thấy ba hệ số , ,r g b′ ′ ′ cho ta biết cả về số lượng lẫn chất lượng của nguồn sáng. Nếu
chỉ cần xét đến chất lượng hay thành phần “sắc” của màu, chúng ta không cần biết đến giá trị tuyệt đối , ,r g b′ ′ ′ , mà chỉ cần biết đến số lượng tương đối giữa các thành phần màu cơ bản R, G,
B, tìm được qua các phương trình sau:
;
;
r rrr g b m
g ggr g b m
b bbr g b m
′ ′ ⎫= = ⎪′ ′ ′+ + ⎪
′ ′ ⎪= = ⎬′ ′ ′+ + ⎪⎪′ ′
= = ⎪′ ′ ′+ + ⎭
(3.1.12)
m r g b f′ ′ ′ ′= + + = - độ chói của màu.
Chia (3.1.11) cho m ta nhận được màu F:
F rR gG bB= + + (3.1.13)
, ,r g b - được gọi là tọa độ màu. Các tọa độ màu không cho ta biết về chiều dài của vector
màu, nhưng hoàn toàn xác định phương hướng của nó trong không gian màu ba chiều.
Đẳng thức (3.1.13) cho phép chúng ta biểu diễn sắc của một nguồn sáng bất kỳ như một điểm trên hình tam giác đều RGB có chiều cao bằng 1 (hình 3.1.13). Mặt phẳng RGB còn gọi là mặt phẳng đơn vị. Nếu vị trí của điểm màu F trong tam giác màu được biết trước, ta có thể tìm tọa độ màu bằng cách kẻ các đoạn thẳng vuông góc từ F đến các cạnh của tam giác màu và đo chiều dài của chúng. Nếu cho trước tọa độ màu, người ta tìm vị trí của điểm màu theo luật tìm trọng tâm của tam giác màu. Sắc màu của những điểm nằm ngoài tam giác RGB (như điểm N trên hình 3.1.13) không thể nhận được khi ta cộng ba màu cơ sở, để nhận được sắc màu điểm N, một trong các tọa độ màu (tọa độ màu đỏ - r) sẽ phải là âm.
Kẻ đường thẳng nối điểm N là màu quang phổ có bước sóng Nλ và điểm trắng đẳng năng
E, điểm 1N là điểm cắt của đường EN và BG sẽ có sắc điệu tương đương điểm N, nhưng độ sạch
màu thấp hơn ( 1N Np p< ). Nói cách khác, bước sóng trội của tất cả các điểm màu nằm trên
đường thẳng NE sẽ bằng Nλ - tức bước sóng của màu quang phổ N. Như vậy khi cộng ba màu R,
G, B ta có thể tạo ra tất cả các sắc điệu, nhưng không thể tạo ra mọi độ bão hòa.
Chương 3 Kỹ thuật xử lý hình ảnh
92
R
G
B
Fb
g
r
550
500
450 600E
N N1
A
C
N2
Hình 3.1.13 Biểu đồ màu RGB
Màu quang phổ là các màu có độ sạch màu tuyệt đối : 100%pλ = , màu trắng có độ bão
hòa 0Ep = , độ sạch màu tại điểm 1N có giá trị:
1
1 100%NN EpNE
= ⋅ (3.1.14)
Các màu quang phổ nằm trên đường cong hình móng ngựa RGAB. Hai đầu cuối của đường cong là điểm R và B. Sắc màu nằm trên đường thẳng RB (đỏ - mận chín) không phải là màu quang phổ, những màu này thường gặp trong thiên nhiên. Các điểm nằm ngoài đường màu quang phổ là những màu không có thực, vì độ sạch màu của chúng lớn hơn 100%.
Năm 1931, CIE đã đề xuất một không gian màu mới, ký hiệu là không gian XYZ. Khi thiết kế biểu đồ màu mới người ta đặt ra những yêu cầu như sau:
1. Tất cả các màu thực phải được xác định bởi các modul màu có giá trị dương. Như vậy tọa độ màu của tất cả các màu thực (nằm phía trong đường màu quang phổ) phải nằm trong tam giác màu XYZ.
2. Độ chói phải được biểu diễn bằng một trục (Y)
3. Điểm trắng đẳng năng phải nằm ở trọng tâm tam giác màu XYZ.
Không gian XYZ do CIE công bố với ba màu cơ bản X,Y,Z đáp ứng được các yêu cầu trên. Hệ tọa độ không gian XYZ được chọn làm sao cho các vector màu thực (nằm bên trong đường màu quang phổ) đều đi qua tam giác màu đơn vị XYZ (hình 3.1.15). Như vậy, trong phương trình màu f F x X y Y z Z′ ′ ′ ′= + + các thành phần , ,x y z′ ′ ′ sẽ có giá trị dương cho tất cả các màu thực.
Các màu đơn vị X,Y,Z đều không có thực vì độ sạch màu của chúng lớn hơn 100%. Để đánh giá màu sắc của một nguồn sáng (không tính đến độ chói của nguồn sáng đó), người ta sử dụng tam giác màu đơn vị với các tọa độ màu , ,x y z : 1x y z+ + = (hình 3.1.16).
Chương 3 Kỹ thuật xử lý hình ảnh
93
g
b
E
0r
Y
Z
X
Hình 3.1.15 Không gian màu RGB và XYZ Quan sát tam giác màu đơn vị XZY ta thấy rằng:
1- Tất cả các màu thực đều nằm bên trong tam giác XYZ
2- Tọa độ của màu trắng đẳng năng là: 1 3/E E Ex y z= = =
3- Các màu đơn vị X.Y.Z nằm ngoài đường cong các màu quang phổ nên có độ bão hòa lớn hơn 100%.
Để thuận tiện cho việc sử dụng, tam giác màu đơn vị XYZ được biến đổi thành biểu đồ màu trong hệ tọa độ vuông góc xy (hình 3.1.17).
700
600
550
500
xz
y
0
0.2
0.4
0.6
E
Hình 3.1.16 Biểu đồ màu trên mặt
phẳng đơn vị XYZ
Hình 3.1.17 Biểu đồ màu XYZ theo CIE
3.1.5.5 Hệ thống thị giác Tuy lý thuyết xử lý ảnh chủ yếu dựa trên nền tảng lý thuyết toán và xác suất thống kê,
nhưng việc lựa chọn các phương pháp xử lý khác nhau cũng như việc đánh giá chất lượng hình ảnh ở đầu ra của hệ thống chủ yếu dựa trên cảm nhận chủ quan của cơ quan thị giác. Vì vậy sau đây chúng ta sẽ làm quen với một số vấn đề cơ bản về cấu tạo và khả năng phân tích hình ảnh của hệ thống thị giác.
y
x
E
0 0.4 0.6 0.8 1.00.2
0.4
0.6
0.8
1.0
0.2
520
580
700
F1y1
x1
yE
yλ
xE
C
Chương 3 Kỹ thuật xử lý hình ảnh
94
voõng maïc
hoaøng ñieåm
thaàn kinh thò giaùc
thaáu kính
thuûy tinh dòch
giaùc maïc
ñieåm muø
moáng maét
truïc nhìn
moâ maïc
Hình 3.1.18 Cấu tạo của mắt người
Trong mắt người (hình 3.1.18) phần lớn ánh sáng được hội tụ ở vùng hoàng điểm (fovea) trên võng mạc, nơi mật độ các tế bào thần kinh thị giác lớn nhất. Có hai loại tế bào cảm nhận ánh sáng (receptors) là tế bào hình nón (cones) và tế bào hình que (rods). Trong thành phần võng mạc có khoảng 7 triệu tế bào hình nón và 130 triệu tế bào hình que.
Mật độ phân bố các tế bào thần kinh thị giác trên võng mạc không đồng đều. Các tế bào hình nón tập trung tại vùng hoàng điểm, còn gọi là vùng “nhìn rõ nhất”. Vùng này có hình bầu dục rộng 0.8 mm, dài 2 mm). Tế bào hình que phân bố xung quanh hoàng điểm. Các tế bào hình que nhạy cảm với ánh sáng hơn tế bào hình nón, nhưng chúng không có cảm thụ về màu sắc. Tế bào hình nón ngược lại kém nhậy cảm với sự kích thích của ánh sáng, nhưng có khả năng phân biệt màu sắc. Theo thuyết ba thành phần cảm thụ màu của mắt người, trong võng mạc tồn tại ba loại tế bào hình nón, các tế bào này có phản ứng khác nhau đối với các màu khác nhau. Cụ thể, qua thí nghiệm ta thấy rằng ba loại tế bào hình nón nhạy cảm với ba màu khác nhau là Đỏ, Lục và Lam. Sự cảm thụ màu của mắt sẽ phụ thuộc vào tỷ lệ mức độ kích thích của mỗi loại tế bào nói trên. Các tế bào cảm quang biến đổi năng lượng ánh sáng thành các xung điện để truyền đến bộ phận xử lý hình ảnh trong não qua hệ thống dây thần kinh thị giác (khoảng 800000 dây). Một vùng nhỏ trên võng mạc không nhạy cảm với ánh sáng là nơi tập hợp các dây thần kinh thị giác. Vùng này gọi là điểm mù của mắt. Sở dĩ số dây thần kinh ít hơn số tế bào cảm quang vì mỗi dây được nối với hàng trăm tế bào hình que và hàng chục tế bào hình nón. Riêng các tế bào hình nón trong vùng hoàng điểm được nối trực tiếp với tế bào hạch, do đó, độ phân giải của mắt tại vùng này là cao nhất.
Phạm vi các mức sáng mà mắt có thể cảm nhận được rất rộng. Các tế bào que bắt đầu cảm nhận được hình ảnh có độ chói từ 10-4-10-5 cd/m2, các tế bào nón từ 1 cd/m2. Khi độ chói xấp xỉ 10 cd/m2 các tế bào que bị “loá” dần vì lúc này, tốc độ phân hủy rodopxin lớn hơn tốc độ tái tạo, do đó lượng rodopxin trong các tế bào hình que giảm đi nhanh chóng. Ở độ chói từ 10-104 cd/m2, chỉ còn các tế bào nón làm việc. Phản ứng quang - hoá học nói trên và cơ chế tự điều chỉnh lượng ánh sáng đi vào võng mạc là nguyên nhân để mắt có phạm vi cảm nhận ánh sáng rộng như vậy (~109).
Tuy nhiên mắt không thể cảm nhận được cùng một lúc tất cả mức sáng trong phạm vi rộng như đã nói trên. Trên thực tế, mắt người chỉ có thể cảm nhận một khoảng nhỏ giới hạn từ
min maxL L÷ xung quanh mức chói trung bình của ảnh, khoảng này ta gọi là phạm vi động của
mắt. Đối với hình ảnh có mức chói trung bình nào đó, tất cả mức chói lớn hơn maxL sẽ cảm nhận
như mức trắng, tất cả mức chói nhỏ hơn minL sẽ được cảm nhận như mức đen. Khi mức chói
Chương 3 Kỹ thuật xử lý hình ảnh
95
trung bình nL thay đổi, mắt người sẽ tự động điều tiết để di chuyển phạm vi động theo nL . Đây
chính là tính chất thích nghi với độ sáng của mắt người. Thí nghiệm cho thấy, khi mức sáng tăng lên, thời gian mắt điều tiết để thích nghi với mức mới rất nhanh (khoảng vài giây). Ngược lại, khi mức chiếu sáng giảm thì mắt điều tiết để thích nghi tương đối chậm (khoảng vài phút).
Khả năng mắt người cảm nhận sự thay đổi độ chói là không liên tục.
Hình 3.1.22 Khảo sát khả năng cảm nhận độ chói của mắt người
Nếu tăng dần độ chói của chi tiết trong một ảnh từ mức chói nền nL (hình 3.1.22), lúc đầu
mặc dù đã có sự khác biệt về độ chói giữa chi tiết và nền, nhưng người quan sát không phát hiện ra chi tiết này. Khi mức chênh lệch đạt tới ngưỡng nhất định, người quan sát bắt đầu nhận dạng được chi tiết ảnh.
Người ta định nghĩa ngưỡng cảm nhận ánh sáng tuyệt đối của mắt ε là đại lượng ngược với giá trị độ chói nhỏ nhất của điểm sáng trên nền đen mà mắt phát hiện được trong bóng tối:
1 min/ Lε = . Trên thực tế ta thường gặp hình ảnh có khoảng chói động là min maxL L÷ và có độ
chói của nền là nL . Độ tương phản của ảnh là tỷ lệ max min/k L L= .
Các chi tiết ảnh có độ chói khác với độ chói nền, mức chênh lệch độ chói là
( )nL L LΔ = − , nếu minLΔ là mức khác biệt nhỏ nhất mà mắt còn nhận biết được, thì tỷ lệ
( )min n/ /n n miL L L L σΔ = Δ = gọi là ngưỡng tương phản. Giá trị σ phụ thuộc vào kích
thước của chi tiết hình ảnh và độ chói của nền.
Kết luận quan trọng rút ra được ở đây là giá trị ngưỡng tương phản của mắt người 0σ > , hay nói cách khác, khả năng cảm nhận độ tương phản của mắt mang tính rời rạc (tương tự như độ phân giải của mắt). Chính vì vậy, số lượng các mức xám cần có là hữu hạn trong dải động các mức chói min maxL L÷ của ảnh số.
Số lượng mức xám mà mắt người cảm nhận được cùng một lúc phụ thuộc vào giá trị ngưỡng tương phản và độ tương phản của ảnh:
( )
11ln
lnkmσ
= ++
(3.1.15)
Thay vào công thức (3.1.15) giá trị độ tương phản trung bình của hình ảnh trên màn hình hiển thị: 100k = , giá trị ngưỡng tương phản 0 03 0 04. ... .σ = , ta nhận được số sọc xám cực đại để mắt cảm nhận được sẽ là 100 150m = ÷ .
Nguồn ánh sáng bên ngoài ngL chiếu vào màn hình sẽ làm giảm độ tương phản của ảnh
Chương 3 Kỹ thuật xử lý hình ảnh
96
gốc, độ tương phản trong trường hợp này là:
max max
min min
ng
ng
L L Lk kL L L
+′ = < =
+, (3.1.16)
do đó số mức xám tính theo (3.1.15) cũng sẽ giảm đi.
3.1.5.6 Biểu diễn tín hiệu hình ảnh trong không gian và thời gian 3.1.5.6.1 Hình ảnh tương tự
Như đã đề cập tới ở phần trên, hình ảnh có thể biểu diễn bằng hàm 2 chiều ( ),f x y . Giá
trị hàm f tại điểm có tọa độ không gian (x,y) là độ chói của điểm ảnh (x,y). Đa số ảnh sử dụng trong tài liệu này này là ảnh đen – trắng, độ chói của các điểm ảnh nằm trong phạm vi nhất định từ minL tới axmL . Nếu ảnh được tạo ra bởi quá trình vật lý thì giá trị các điểm ảnh sẽ tỷ lệ thuận
với năng lượng của nguồn bức xạ, ví dụ năng lượng sóng điện từ, khi đó hàm ( ),f x y là hữu
hạn: ( )0 ,f x y< < ∞ .
Giá trị hàm ( ),f x y phụ thuộc vào lượng ánh sáng rọi lên cảnh vật và lượng ánh sáng
phản xạ lại từ cảnh vật đó:
( ) ( ) ( ), , ,f x y i x y r x y= (3.1.17)
với ( )0 ,i x y< < ∞ , ( )0 , 1r x y< <
( ),i x y - Hàm biểu diễn độ rọi sáng của nguồn lên bề mặt cảnh vật.
( ),r x y - Hàm mô tả tính phản xạ (hay hấp thụ) ánh sáng của các vật thể trong cảnh vật.
Giá trị độ lớn của điểm ảnh đen-trắng có tọa độ ( )0 0,x y được gọi là mức xám hay độ chói
của ảnh tại điểm này: ( )0 0,l x y= ; độ chói nằm trong khoảng min axmL l L< < - được gọi là
thang xám. Thường mức xám nhỏ nhất được quy về mức 0 (mức đen) , còn mức trắng sẽ tương ứng với giá trị độ chói lớn nhất 1l L= − .
3.1.5.6.2 Quá trình lấy mẫu và lượng tử hóa tín hiệu hình ảnh
Tín hiệu hình ảnh nhận được từ cảm biến quang điện thường có dạng tương tự, ví dụ tín hiệu điện áp có biên độ thay đổi liên tục theo độ chói của ảnh nguồn. Để có thể đưa tín hiệu hình ảnh này vào xử lý bằng máy tính cần thực hiện quá trình số hóa thông qua ba giai đoạn: lấy mẫu, lượng tử hóa và mã hóa.
Lấy mẫu tín hiệu: Quá trình lấy mẫu tín hiệu được mô tả trên hình 3.1.23. Tín hiệu mang tin tức về độ chói của một dòng ảnh AB là tín hiệu một chiều liên tục theo thời gian và có biên độ biến đổi liên tục (hình 3.1.23). Khi lấy mẫu, thời gian truyền dòng AB được chia ra thành nhiều đoạn bằng nhau. Giá trị tín hiệu tại các điểm lấy mẫu được đánh dấu ô vuông trên đồ thị. Theo định lý lấy mẫu Nyquist, nếu tần số lấy mẫu lớn hơn (hoặc bằng) hai lần tần số lớn nhất trong phổ tín hiệu tương tự, thì tập hợp các mẫu rời rạc nhận được hoàn toàn xác định tín hiệu đó.
Chươn
Đmẫu vừđược cbằng cmẫu ảntín hiệmô tả ảnh từ
Kchiều. quang thuộc (hình 3
hay tín
ng 3 Kỹ thu
Để biến đổi từa nhận đượchia thành 8 cách tìm giá tnh. Biên độ cu video số. Kbiến đổi độ trên xuống d
Khi sử dụngCấu trúc khtheo chiều nvào số lượng3.1.24).
Hìn
3
n hiệu video:
uật xử lý hình
tiếp tín hiệu ợc. Đây là qu
mức rời rạc trị mức lượncác mẫu ảnh Kết quả nhậnchói trong m
dưới, chúng t
Hình 3.
g chip cảm bhung lấy mẫngang và chig điểm ảnh
nh 3.1.24 Qu
a - Ảnh
b - Ảnh
3.1.5.7 Tín h
h ảnh
thành dạng suá trình rời rạ
từ mức trắngng tử gần giốn
sau khi lượnn được sau khmột dòng ảnhta sẽ nhận đư
1.23 Quá trìn
iến CCD, tínẫu hai chiềuiều dọc trên cũng như số
a)
á trình hình t
tương tự
rời rạc trên b
hiệu video
số, chúng ta ạc tín hiệu thg tới mức đeng nhất với g
ng tử sẽ đượchi lấy mẫu, lh. Nếu thực ược ảnh số tro
nh số hóa tìn
n hiệu hình ảphụ thuộc vbề mặt CCDố mức lượng
thành ảnh rời
bề mặt CCD
phải thực hiheo biên độ. en. Lượng tửgiá trị thực cc mã hóa (bằnlượng tử hóa hiện quá trìnong không gi
hiệu video
ảnh đã đượcvào phương D. Chất lượng
tử được sử
b)
i rạc trong ch
λ
ện giai đoạn Trên hình 3.
ử hóa được thcủa mẫu và gng mã nhị phvà mã hóa l
nh số hóa chian hai chiều
c rời rạc tronpháp phân bg hình ảnh sdụng trong
hip CCD
lượng tử hó.1.23 thanghực hiện đơnán giá trị này
hân) để nhận là chuỗi số rờho tất cả các u.
ng không giabố các điểmsố nhận đượcquá trình mã
p
a các g xám n giản y cho được ời rạc dòng
an hai m cảm
c phụ ã hóa
động
Chương 3 Kỹ thuật xử lý hình ảnh
98
( )( )( )
, , , ;
, , , ;
, , , .
L
p
L f x y z t
f x y z t
p f x y z tλλ
⎫=⎪
= ⎬⎪= ⎭
(3.1.18 )
, ,x y z - tọa độ trong không gian 3 chiều, t - thời gian.
Những phương trình trong (3.1.18) xác định độ chói (L) và màu sắc ( , pλ ) cho từng điểm
thay đổi trong không gian và thời gian. Hệ thống truyền hình hiện nay là hệ thống truyền hình
phẳng, do đó hàm mô tả ảnh truyền hình đen trắng là hàm ba chiều: ( ), ,LL f x y t= . Như vậy,
để khôi phục ảnh bên phía thu, ngoài giá trị độ chói tức thời L cần phải xác định chính xác vị trí của điểm sáng trong không gian màn hình (hai chiều).
Khi biến đổi tín hiệu hình ảnh ba chiều thành tín hiệu điện một chiều người ta dựa trên hai nguyên tắc chính là rời rạc hình ảnh (trong không gian và thời gian) và quét hình. Rời rạc hình ảnh trong không gian là phương pháp chia nhỏ hình ảnh ra thành một số hữu hạn các thành phần tử rời rạc. Một phần tử của hình ảnh là chi tiết nhỏ nhất của ảnh có độ chói và sắc màu không thay đổi trên diện tích chi tiết đó. Về mặt lý thuyết, số lượng phần tử ảnh càng nhiều thì độ nét của ảnh càng cao. Nhưng trên thực tế, do sự hạn chế về độ phân giải của mắt người, hình ảnh chỉ cần phân chia ra thành các phần tử có kích thước nhỏ vừa đủ để mắt người không nhận ra cấu trúc rời rạc của ảnh (hình 3.1.25). Chia nhỏ thêm những phần tử này không làm cho hình ảnh rõ nét thêm (theo cảm nhận của mắt), trong khi đó, lượng thông tin sẽ tăng lên nhiều lần.
Hình 3.1.25 Ma trận các điểm ảnh rời rạc ảnh và "phần tử" ảnh
Sau khi hình ảnh được rời rạc, các phần tử có thể được mã hoá và truyền đi riêng rẽ sang bên thu. Nhưng chúng ta không thể truyền song song tất cả các phần tử vì khi đó cần đến rất nhiều kênh truyền. Để giải quyết vấn đề này, trong hệ thống truyền hình người ta sử dụng nguyên tắc quét hình: nguyên tắc truyền lần lượt theo thời gian từng phần tử hình ảnh. Nguyên tắc này dựa trên đặc điểm lưu ảnh của mắt người. Sự lưu ảnh là khả năng mà người xem nhớ lại ấn tượng về ảnh trong một thời gian nào đó (~0.1- 0.3 giây) sau khi tác động của ảnh đó đã chấm dứt. Chính vì vậy, để truyền đi một hình ảnh tĩnh, ta “chiếu” lần lượt tất cả các phần tử của một ảnh tĩnh lên màn hình, vào đúng vị trí tương đương của các phần tử đó như trong hình ảnh đã được truyền đi. Nếu tốc độ “chiếu” một hình nhanh hơn thời gian lưu ảnh thì mắt người xem sẽ thu nhận và lưu lại tất cả các phần tử đã truyền đi để tái tạo ra một ảnh tĩnh hai chiều. Quá trình truyền lần lượt các phần tử của ảnh gọi là quá trình quét (scanning) ảnh.
Tiếp theo, khi "chiếu" nhiều ảnh tĩnh nhận được bằng phương pháp trên với tần số tương đối lớn (trên 10 hình/giây), trong đó mỗi ảnh là một pha của hình ảnh chuyển động, thì người xem sẽ có cảm giác như đang quan sát chuyển động liên tục. Tần số ảnh được lựa chọn để đáp ứng hai yếu cầu: 1- Tạo cảm giác về quá trình chuyển động liên tục của ảnh; 2- Ảnh động tái tạo trên màn
Chương 3 Kỹ thuật xử lý hình ảnh
99
hình không bị chớp. Trong các hệ truyền hình đại chúng, tần số được chọn là 25 (hoặc 30) ảnh/giây. Khi quét theo phương pháp xen kẽ, người ta chia ảnh thành 2 mành, trong mành đầu tiên sẽ được truyền đi các dòng lẻ 1, 3, 5 …, trong mành tiếp theo truyền đi các dòng chẵn 2, 4, 6 …(hình 3.1.26). Như vậy toàn bộ ảnh sẽ được chia ra làm 2 mành. Tần số ảnh sẽ là 25 (30) Hz, tần số mành là 50 (60) Hz.
Hình 3.1.26 Quá trình quét hình xen kẽ
Tín hiệu video được tạo ra tại ống ghi hình bằng phương pháp quét xen kẽ, tuyến tính từ trái sang phải, trên xuống dưới là hàm của thời gian, giá trị hàm tỷ lệ thuận với độ chói của các phần tử ảnh truyền hình. Tín hiệu video đầy đủ (hình 3.1.28) bao gồm các thành phần sau: tín hiệu video, tín hiệu đồng bộ dòng và mành, tín hiệu xoá. Trong tín hiệu video màu còn có thêm thành phần mang tin tức về màu sắc của các dòng ảnh.
Hình 3.1.28 Hình dạng tín hiệu video
Tín hiệu video có các đặc điểm sau:
- Tín hiệu video là tín hiệu mang tính chất xung: ngoài các xung đồng bộ và xung xóa, trong tín hiệu video thường có sự thay đổi biên độ đột ngột, tạo ra biên trước và biên sau của các "xung hình";
- Tín hiệu video là tín hiệu đơn cực, có thành phần một chiều;
- Tín hiệu video có thể được coi là tín hiệu tuần hoàn với tần số lặp lại là = =1/ ; 1/H H V Vf T f T ;
Tín hiệu video tương tự cũng như tín hiệu ảnh tĩnh phải được số hóa trước khi đưa vào hệ thống xử lý số. Cũng như trong các hệ thống xử lý tín hiệu một chiều, quá trình số hóa tín hiệu
Chương 3 Kỹ thuật xử lý hình ảnh
100
hình ảnh cũng chia thành ba giai đoạn:
1- Rời rạc tín hiệu trong miền không gian 2 chiều, đây là quá trình lấy mẫu
2- Số lượng vô hạn các mức xám trong tín hiệu hình ảnh tương tự được thay bằng số lượng hữu hạn các mức lượng tử, đây là quá trình lượng tử hóa tín hiệu
3- Mỗi mức lượng tử được biểu diễn bằng một số nhị phân - mã hóa tín hiệu
Quá trình số hóa tín hiệu hình ảnh trong không gian hai chiều có thể được thực hiện với nhiều cấu trúc lấy mẫu khác nhau và các bước lượng tử khác nhau nhằm giảm dung lượng tín hiệu số nhận được. Tuy nhiên, trên thực tế cấu trúc lấy mẫu trong đa số trường hợp có dạng trực giao (hình chữ nhật) với giá trị bước lượng tử không thay đổi, vì khi đó quá trình số hóa sẽ đơn giản nhất. Khi sử dụng cấu trúc lấy mẫu trực giao, ảnh số nhận được dưới dạng ma trận các điểm ảnh phân bố theo dòng và cột.
Quá trình lấy mẫu tín hiệu video phải thỏa mãn định lý lấy mẫu Nyquist. Ví dụ: Tín hiệu video hệ PAL có bề rộng phổ PALB 5.0 MHz= , tần số lấy mẫu theo Nyquits phải 10MHz≥ .
Trên thực tế, tần số lấy mẫu thường được lựa chọn cao hơn để tăng khoảng cách giữa dải phổ chính và phổ phụ của tín hiệu video rời rạc, khi đó thành phần phổ chính có thể được tách ra (trong quá trình khôi phục ảnh gốc) bằng các mạch lọc thông thấp đơn giản. Ngoài ra, tín hiệu video tổng hợp (bao gồm thành phần màu) được lấy mẫu với tần số là bội số của tần số sóng mang phụ sf (sóng mang màu). Với hệ PAL, tần số lấy mẫu sẽ là 3 sf (13,3 MHz) hoặc 4 sf (17,7 MHz).
Trong hệ thống số hóa tín hiệu video theo thành phần, ba tín hiệu R, G, B hoặc thành phần chói Y và hai tín hiệu hiệu màu R-Y, B-Y sẽ được lấy mẫu với tần số đáp ứng định lý Nyquist và là bội số của tần số dòng theo cả 2 tiêu chuẩn 525 và 625 dòng/ ảnh. Tiêu chuẩn CCIR-601 cho phép sử dụng tần số lấy mẫu là 13,5 MHz. Số bít dùng để mã hóa tín hiệu video là 8 hoặc 10 bits.
Các tiêu chuẩn lấy mẫu video thành phần: có nhiều tiêu chuẩn lấy mẫu theo thành phần, điểm khác nhau chủ yếu là tỷ lệ giữa tần số lấy mẫu của tín hiệu chói và tín hiệu màu (hoặc tín hiệu hiệu màu CR và CB): đó là các tiêu chuẩn 4:4:4, 4:2:2, 4:2:0, 4:1:1.
- Tiêu chuẩn 4:4:4: Tín hiệu chói và màu được lấy mẫu tại tất cả các điểm lấy mẫu trên dòng tích cực của tín hiệu video. Cấu trúc lấy mẫu trực giao (hình 3.1.29)
Hình 3.1.29 Cấu trúc lấy mẫu theo chuẩn 4:4:4
Tiêu chuẩn lấy mẫu 4:4:4 cho chất lượng hình ảnh tốt nhất, thuận tiện cho việc xử lý tín hiệu video số. Tuy nhiên, với phương pháp lấy mẫu này, tốc độ dòng dữ liệu video số sẽ tương đối cao, ví dụ khi số hóa tín hiệu video có độ phân giải 720x576 (hệ PAL), 8 bít lượng tử /điểm ảnh, 25 ảnh/s luồng dữ liệu số nhận được sẽ có tốc độ : 3x720x576x8x25= 249Mbits/s.
Chương 3 Kỹ thuật xử lý hình ảnh
101
- Tiêu chuẩn 4:2:2: Tín hiệu chói được lấy mẫu tại tất cả các điểm lấy mẫu trên dòng tích cực của tín hiệu video. Hai tín hiệu màu trên mỗi dòng được lấy mẫu với tần số bằng nửa tần số lấy mẫu tín hiệu chói (hình 3.1.30)
Hình 3.1.30 Cấu trúc lấy mẫu theo chuẩn 4:2:2
- Tiêu chuẩn 4:2:0: Tín hiệu chói được lấy mẫu tại tất cả các điểm lấy mẫu trên dòng tích cực của tín hiệu video. Cách một điểm lấy mẫu một tín hiệu màu. Tại các dòng lẻ chỉ lấy mẫu tín hiệu màu CR, tại dòng chẵn lấy mẫu tín hiệu CB. Như vậy, nếu tần số lấy mẫu tín hiệu chói là fD, thì tần số lấy mẫu tín hiệu màu sẽ là fD/2.
Hình 3.1.31 Cấu trúc lấy mẫu theo chuẩn 4:2:0
- Tiêu chuẩn 4:1:1: Tín hiệu chói được lấy mẫu tại tất cả các điểm lấy mẫu trên dòng tích cực của tín hiệu video. Tín hiệu màu trên mỗi dòng được lấy mẫu với tần số bằng một phần tư tần số lấy mẫu tín hiệu chói (hình 3.1.32). Như vậy, nếu tần số lấy mẫu tín hiệu chói là fD, thì tần số lấy mẫu tín hiệu màu CR và CB sẽ là fD/4.
Hình 3.1.32 Cấu trúc lấy mẫu theo chuẩn 4:1:1
3.1.5.8 Biểu diễn tín hiệu ảnh số Sau khi số hóa tín hiệu hình ảnh theo các phương pháp đã nêu ở trên, chúng ta nhận được
ma trận giá trị mức xám của các điểm ảnh. Các điểm ảnh rời rạc được sắp xếp theo cột và hàng
Chương 3 Kỹ thuật xử lý hình ảnh
102
như trên hình 3.1.33. Tọa độ của các điểm ảnh (x,y) là rời rạc. Gốc tọa độ nằm tại góc trên bên trái của ảnh ( ) ( ), 0,0=x y .
Hình 3.1.33 Hệ tọa độ để biểu diễn ảnh số
Như vậy, chúng ta có thể biểu diễn ảnh số nói trên như ma trận kích thước MxN:
( )
( ) ( ) ( )( ) ( ) ( )
( ) ( ) ( )
0,0 0,1 ... 0, 1
1,0 1,1 ... 1, 1,
1,0 1,1 ... 1, 1
f f f N
f f f Nf x y
f M f M f M N
−⎡ ⎤⎢ ⎥
−⎢ ⎥= ⎢ ⎥⎢ ⎥
− − − −⎢ ⎥⎣ ⎦
(3.1.19)
Mỗi phần tử của ma trận được gọi là 1 điểm ảnh (image element hay pixel).
M và N phải là số nguyên dương. Số lượng mức xám có thể gán cho 1 điểm ảnh (L) thường được lựa chọn sao cho kL 2= , k là số nguyên dương.
Như vậy, số lượng bits được sử dụng để biểu diễn 1 ảnh số sẽ được xác định theo công thức: b M N k= × × .
Ví dụ: ảnh số hiển thị trên màn hình VGA với độ phân giải 640x480 điểm, số lượng các mức xám là 256 (8 bits/mẫu) có thể được lưu lại trong bộ nhớ có kích thước M bằng: M 640 480 8 2457600 bits= × × = .
3.1.6 Lý thuyết toán ứng dụng trong xử lý ảnh và video số
Tín hiệu hình ảnh tĩnh sau khi được số hóa có thể được lưu trữ dưới dạng ma trận 2 chiều các bits. Các dòng và cột của ma trận sẽ tương ứng với dòng và cột các phần tử ảnh (pixel). Đối với ảnh động (video), kết quả quá trình số hóa sẽ là ma trận 3 chiều cho thấy phân bố các điểm ảnh trong không gian theo hàng và cột cũng như quá trình biến đổi hình ảnh trong miền thời gian.
Quá trình biến đổi tín hiệu trong hệ thống xử lý ảnh số có thể được mô tả bằng các thuật toán trong miền không gian và thời gian hoặc trong các không gian tín hiệu khác dựa trên các phép biến đổi ánh xạ không gian, ví dụ biến đổi Fourier, biến đổi Karhumen Loeve v.v. Trong phần này chúng ta sẽ làm quen với công cụ toán học thường dùng để mô tả quá trình xử lý ảnh trong không gian và các phép biến đổi không gian một và hai chiều (được sử dụng rộng rãi trong
Chương 3 Kỹ thuật xử lý hình ảnh
103
các hệ thống lọc và nén ảnh).
Song song với việc trình bày lý thuyết toán, trong phần này sẽ đưa ra các ví dụ minh họa một số kỹ thuật biến đổi hình ảnh cụ thể. Nhiều ví dụ sẽ được thực hiện dựa trên phần mềm Matlab. Đây là một công cụ tính toán được xây dựng trên cơ sở các phép xử lý ma trận rất thích hợp cho việc mô tả các giải thuật xử lý ảnh số.
3.1.6.1 Các toán tử không gian a) Hệ thống tuyến tính
Hệ thống xử lý tín hiệu số nói chung và xử lý ảnh nói riêng đều có thể được mô tả thông qua phương trình vào-ra sau:
( ) ( ), ,y m n T x m n= ⎡ ⎤⎣ ⎦ (3.1.21)
( ),x m n - ảnh số đưa vào hệ thống (là tín hiệu 2 chiều);
( ),y m n - ảnh số tại đầu ra hệ thống;
T – toán tử đặc trưng của hệ thống.
Trong giáo trình này, chúng ta sẽ quan tâm chủ yếu đến các hệ thống tuyến tính. Hệ thống biểu diễn bởi (3.1.21) được gọi là tuyến tính khi và chỉ khi:
( ) ( ) ( ) ( )( ) ( )
1 2 1 2
1 2
, , , ,
, ,
T ax m n bx m n aT x m n bT x m n
ay m n by m n
+ = + =⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎣ ⎦ ⎣ ⎦ ⎣ ⎦= +
(3.1.22)
a và b là các hằng số bất kỳ.
Các toán tử thực hiện với ảnh 2 chiều thường có tính chất tuyến tính, ví dụ các phép dịch chuyển trong không gian, phép chập, các phép biến đổi thực hiện quá trình lọc tuyến tính mà chúng ta sẽ xét ở các chương sau.
b) Xung đơn vị trong không gian 2 chiều
Xung đơn vị được sử dụng rộng rãi để mô tả các tác động trực tiếp lên điểm ảnh trong không gian.
( )
1,
0khi m n
m nkhi m n
δ=⎧
= ⎨ ≠⎩ (3.1.23)
( ),m A n Bδ − − là điểm ảnh có mức chói tối đa tại vị trí (A,B) trong không gian.
Đáp ứng xung của hệ thống là tín hiệu nhận được khi xung đơn vị tác động lên hệ thống:
[ ] ( ), ,h m n T m nδ= ⎡ ⎤⎣ ⎦ (3.1.24)
c) Mô tả quá trình biến đổi tín hiệu trong không gian 2 chiều
Cho ảnh số gốc là ma trận các điểm ảnh có kích thước NxN. Trong trường hợp tổng quát, đáp ứng của hệ thống tuyến tính đối với tín hiệu vào có thể tìm được thông qua đáp ứng xung như sau:
Chương 3 Kỹ thuật xử lý hình ảnh
104
( ) ( ) ( )1 1
0 0
, , , ; ,− −
= =
= ∑∑N N
l k
y m n x l k h m l n k (3.1.25)
Khi hệ thống xử lý số là tuyến tính và bất biến, ta có thể tìm được ảnh kết quả thông qua ảnh gốc và đáp ứng xung của hệ thống như sau:
( ) ( ) ( )1 1
0 0
, , ;N N
l k
y m n x l k h m l n k− −
= =
= − −∑∑ (3.1.26)
hay ( ) ( ) ( ), , ,y m n x m n h m n= ⊗ (3.1.27)
3.1.6.2 Các phép tính với vector và ma trận Đối với tín hiệu hình ảnh, các thuật toán nói trên thường được thực hiện trên ma trận các
điểm ảnh hai chiều, do đó phần này sẽ giới thiệu sơ lược về ma trận và các phép toán thực hiện trên ma trận.
a) Vector
Vector cột (ma trận cột) f , kích thước Nx1 là tập hợp các phần tử ( )f n với n=1, 2, ..., N
sắp xếp theo cột dọc:
( )( )
( )
( )
1
2
f
f
ff j
f N
⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦
(3.1.28)
Vector dòng (ma trận dòng) h, kích thước 1xN là tập hợp các phần tử ( )f n với n=1, 2, ...,
N sắp xếp theo dòng ngang: ( ) ( ) ( ) ( )1 , 2 ... ...f f f f j f N= ⎡ ⎤⎣ ⎦ (3.1.29)
b) Ma trận
Ma trận F, kích thước MxN là tập hợp các phần tử F(m,n) với m=1,2,..,M, n=1,2,...,N được sắp xếp thành M hàng và N cột như sau:
( ) ( ) ( )( ) ( ) ( )
( ) ( ) ( )
1,1 1, 2 ..... 1,
2,1 2, 2 ..... 2,...............................................
,1 , 2 ..... ,
F F F N
F F F NF
F M F M F M N
⎡ ⎤⎢ ⎥⎢ ⎥= ⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦
(3.1.30)
Lưu ý rằng, khi sử dụng phần mềm Matlab, địa chỉ của mỗi điểm ảnh được xác định khác so với phương pháp biểu diễn ảnh số được quy định ở phần trên: điểm ảnh trên cùng bên trái trong ma trận của Matlab là điểm F(1,1).
Ma trận NxN được gọi là ma trận vuông cấp N. Trong ma trận vuông, tập hợp các phần tử F(1,1), F(2,2),..F(NN) được gọi là đường chéo chính, đường chéo còn lại gọi là đường chéo phụ.
Chương 3 Kỹ thuật xử lý hình ảnh
105
Ma trận vuông có các phần tử ngoài đường chéo chính bằng 0 gọi là ma trận chéo. Ma trận chéo với các phần tử trên đường chéo bằng 1 gọi là ma trận đơn vị, ký hiệu là In.
c) Cộng ma trận
Tổng ma trận C=A+B chỉ xác được định khi A và B có cùng kích thước MxN. C cũng có kích thước MxN, các phần tử của C là: C(m,n)= A(m,n)+B(m,n).
d) Nhân ma trận
Tích hai ma trận C=AB chỉ xác định khi số lượng cột của A bằng số dòng của B. Khi nhân ma trận A có kích thước MxP với B - PxN ta nhận được C có kích thước MxN:
( ) ( ) ( )P
p 1
C m,n A m,p B p,n=
= ∑ (3.1.31)
Tích của hai ma trận không có tính giao hoán.
Tích của ma trận vuông A và ma trận đơn vị cùng cấp B chính là ma trận A.
e) Ma trận nghịch đảo
Ma trận nghịch đảo của ma trận vuông A là ma trận 1A− nếu: 1AA I− = và 1A A I− = .
Nếu tồn tại ma trận nghịch đảo của ma trận A cấp n thì A được gọi là khả nghịch.
Ma trận đơn vị I có nghịch đảo là chính nó.
f) Ma trận chuyển vị
Ma trận chuyển vị của A thu được bằng cách đổi chỗ hàng thành cột và cột thành hàng và giữ nguyên thứ tự các phần tử trên hàng. Ma trận chuyển vị của A ký hiệu là TA .
Nếu TA A= , ma trận A được gọi là ma trận đối xứng. Ma trận nhận được khi cộng TA A+ và nhân TAA là ma trận đối xứng.
g) Tích vô hướng (scalar product) hai vector f và g kích thước Nx1:
( ) ( )
T T
N
n 1
k g f f g ,
k g n f n=
= =
= ∑ (3.1.32)
h) Tích ma trận của hai vector f kích thước Mx1 và g kích thước Nx1 là ma trận:
( ) ( )
TA=gf ,A(m,n) g m f n=
(3.1.33)
i) Tích chập hai ma trận
Như chúng ta đã biết, đối với các hệ thống xử lý tín hiệu rời rạc tuyến tính và bất biến quan
Chương 3 Kỹ thuật xử lý hình ảnh
106
hệ giữa đáp ứng (dãy ra) và kích thích (dãy vào) của hệ thống được mô tả theo (3.1.23):
( ) ( ) ( )1 1
0 0
, , ;N N
l k
y m n x l k h m l n k− −
= =
= − −∑∑ (3.1.34)
Đối với hệ thống xử lý ảnh, tín hiệu vào và đáp ứng xung thường được biểu diễn dưới dạng ma trận hai chiều, do đó để mô tả tác động của hệ thống lên tín hiệu ta cần tìm tích chập hai ma trận. Tích chập hai ma trận kích thước 1 1M N× và 2 2M N× sẽ là ma trận có kích thước
( ) ( )1 2 1 21 1M M N N+ − × + − .
Ví dụ:
Hình 3.1.34 Cách tìm tích chập hai ma trận
Khi tìm giá trị tích chập cho các điểm nằm tại biên của ảnh ví dụ điểm y(1,1) (hình 3.1.34), các điểm ảnh không tồn tại trong x(m,n) phải được chèn các giá trị nhất định. Có nhiều quy tắc chèn giá trị mức xám như: mặc định bằng 0, lặp lại các giá trị mức xám trên đường biên của ảnh v.v.
k) Biến đổi ma trận thành một vector (stacking operator)
Trong một số trường hợp, việc phân tích hình ảnh 2 chiều sẽ đơn giản hơn khi ma trận F các điểm ảnh hai chiều ( 1 2N N× ) được biến đổi thành vector cột có kích thước ( 1 2N N ,1), để làm
được như vậy, chúng ta sắp xếp lần lượt các cột (hay hàng) của F thành 1 vector dài.
Thao tác trên có thể được mô tả thông qua vector nv ( 2 1N × ) và ma trận nN (
1 2 1N N N× ):
2
0 1
0 110 1
0
⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥ −⎢ ⎥= ⎢ ⎥⎢ ⎥ +⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦
n
nv n
n
N
(3.1.35)
Chương 3 Kỹ thuật xử lý hình ảnh
107
[ ]
[ ]
[ ]
[ ]
( )
( )
1 1
2 1 1
01 (N )
0
1 0 00 1 0 atrix
0 0 1
0
(N )0
th
n
n zeros matrix N
n unit mN
N n zeros matrix N
⎡ ⎤ ⎧⎢ ⎥ ⎪ − ×⎨⎢ ⎥
⎪⎢ ⎥ ⎩⎢ ⎥⎢ ⎥ ⎧⎡ ⎤⎢ ⎥ ⎪⎢ ⎥
⎪⎢ ⎥⎢ ⎥= ⎨⎢ ⎥⎢ ⎥ ⎪⎢ ⎥⎢ ⎥ ⎪⎢ ⎥⎣ ⎦ ⎩⎢ ⎥
⎧⎢ ⎥ ⎪⎢ ⎥ − ×⎨⎢ ⎥ ⎪⎢ ⎥ ⎩⎣ ⎦
……
…
(3.1.36)
Ma trận F sẽ được biến đổi thành vector f như sau:
2N
n nn 1
f N Fv=
= ∑ (3.1.37)
Biến đổi nghịch từ f thành F là:
2N
Tn
n=1
F= N f v∑ Tn (3.1.38)
Sở dụng công thức (3.1.37) và (3.1.38) có thể dễ dàng xác định quan hệ giữa hai phương pháp biểu diễn hình ảnh thông qua ma trận và vector. Phương pháp biểu diễn dưới dạng vector giúp thu gọn đáng kể các công thức mô tả quá trình xử lý ảnh và cho phép chúng ta áp dụng những phương pháp xử lý tín hiệu một chiều trong xử lý ảnh.
Ví dụ: Biến đổi ma trận F (3x3) thành vector f
1 4 72 5 83 6 9
F⎡ ⎤⎢ ⎥= ⎢ ⎥⎢ ⎥⎣ ⎦
, 1 2 3
1 0 0v 0 ; v 1 ; v 0
0 0 1
⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦
,
1 2 3
1 0 0 0 0 0 0 0 00 1 0 0 0 0 0 0 00 0 1 0 0 0 0 0 00 0 0 1 0 0 0 0 00 0 0 ; 0 1 0 ; 0 0 00 0 0 0 0 1 0 0 00 0 0 0 0 0 1 0 00 0 0 0 0 0 0 1 00 0 0 0 0 0 0 0 1
N N N
⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦
2N
n n 1 1 2 2 3 3n=1
f= N Fv N Fv N Fv N Fv= + +∑
Chương 3 Kỹ thuật xử lý hình ảnh
108
1 1
11 0 0 1 0 020 1 0 0 1 030 0 1 0 0 1
1 1 00 0 0 1 4 7 0 0 00 0 0 2 5 8 0 0 0 0 2 00 0 0 3 6 9 0 0 00 3 00 0 0 0 0 0 00 0 0 0 0 0 00 0 0 0 0 0 0
⎡ ⎤⎡ ⎤ ⎡ ⎤⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥⎢ ⎥ ⎢ ⎥
⎡ ⎤ ⎡ ⎤⎡ ⎤ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= = =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦
⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥⎢ ⎥ ⎢ ⎥
⎣ ⎦ ⎣ ⎦ ⎣ ⎦
N Fv
Tương tự ta có: 2 2
0004
N Fv 56000
⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦
; 3 3
0000
N Fv 00789
⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦
⇒
123456789
f
⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦
3.1.6.3 Biểu diễn hệ thống tuyến tính bằng ma trận Việc phân tích các toán tử tuyến tính trong xử lý ảnh sẽ thuận tiện hơn khi chúng ta sử dụng
phương pháp biểu diễn bằng ma trận đã đề cập tới ở trên.
Khi tìm đáp ứng hệ thống, biết hàm đáp ứng xung, chúng ta tìm tổng chập:
( ) ( ) ( )1 1
0 0
, , ;N N
l k
y m n x l k h m l n k− −
= =
= − −∑∑ (3.1.39)
Cho tín hiệu vào ( ),x m n và đáp ứng xung ( ),h m n là các ma trận vuông 3x3, ta có:
( )( ) ( ) ( ) ( ) ( ) ( )( ) ( ) ( ) ( ) ( ) ( )
( ) ( ) ( ) ( ) ( ) ( )
,
0, 0 0, 0 1,0 1, 0 2,0 2, 0
0,1 0, 1 1,1 1, 1 2,1 2, 1
0, 2 0, 2 1, 2 1, 2 2, 2 2, 2
y m n
x h m n x h m n x h m n
x h m n x h m n x h m n
x h m n x h m n x h m n
=
= − − + − − + − − +
− − + − − + − − +
− − + − − + − −
(3.1.40)
Vế phải của (3.1.40) là tích vô hướng của hai vector cột x và ,m nh :
Chương 3 Kỹ thuật xử lý hình ảnh
109
( )( )( )( )( )( )( )( )( )
( )( )( )( )( )( )( )( )( )
,
0,0 0, 0
1,0 1, 0
2,0 2, 0
0,1 0, 1
1,1 1, 1
2,1 2, 1
0, 2 0, 2
1, 2 1, 2
2, 2 2, 2
m n
x h m n
x h m n
x h m n
x h m n
x x h h m n
x h m n
x h m n
x h m n
x h m n
− −⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥
− −⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥− −⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥− −⎢ ⎥ ⎢ ⎥
= = − −⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥
− −⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥− −⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥− −⎢ ⎥ ⎢ ⎥
− −⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦
(3.1.41)
Có thể thấy rằng, ma trận hai chiều các điểm ảnh X ứng với hàm ( ),x m n - được biến đổi
theo (3.1.37) để nhận được vector x. Nếu ma trận hai chiều ảnh Y ứng với ( ),y m n cũng được
biểu diễn tương tự, thì vector ,m nh sẽ biến đổi thành ma trận H:
( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )( ) ( ) ( ) ( )
0,0 1,0 2,0 0, 1 1, 1 2, 1 0, 2 1, 2 2, 21,0 0,0 1,0 1, 1 0, 1 1, 1 1, 2 0, 2 1, 22,0 1,0 0,0 2, 1 1, 1 0, 1 2, 2 1, 2 0, 20,1 1,1 2,1 0,0 1,0 2,0 0, 1 1, 1 2, 11,1 0,1 1,1 1,0
h h h h h h h h hh h h h h h h h hh h h h h h h h hh h h h h h h h h
H h h h h h
− − − − − − − − − − − −− − − − − − − − −
− − − − − −− − − − − − − − −
= − ( ) ( ) ( ) ( ) ( )( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )
0,0 1,0 1, 1 0, 1 1, 12,1 1,1 0,1 2,0 1,0 0,0 2, 1 1, 1 0, 10,2 1,2 2,2 0,1 1,1 2,1 0,0 1,0 2,01,2 0,2 1,2 1,1 0,1 1,1 1,0 0,0 1,02,2 1,2 0,2 2,1 1,1 0,1 2,0 1,0 0,0
h h h hh h h h h h h h hh h h h h h h h hh h h h h h h h hh h h h h h h h h
⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢⎢ − − − − −⎢
− − −⎢⎢ − − − − − −⎢
− − −⎢⎢⎣ ⎦
⎥⎥⎥⎥⎥⎥⎥⎥
(3.1.42)
Khi đó, phương trình (3.1.40) được rút ngắn như sau:
y Hx= (3.1.43)
Đây là phương trình cơ bản trong lĩnh vực xử lý ảnh tuyến tính. Ma trận H có thể được chia thành 9 ma trận nhỏ kích thước 3 3× có dạng:
00 01 02
10 11 12
20 21 22
H H HH H H H
H H H
⎡ ⎤⎢ ⎥= ⎢ ⎥⎢ ⎥⎣ ⎦
(3.1.44)
Khi ( ),x m n và ( ),y m n có kích thước ×N N , Ma trận H có kích thước 2 2N N× , các
ma trận nhỏ m,nH sẽ có kích thước ×N N . Trong trường hợp tổng quát, H là ma trận circulant
khối, được tạo ra bởi ×N N ma trận circulant theo cách sau:
Chương 3 Kỹ thuật xử lý hình ảnh
110
0 1 10 0 0
0 1 11 1 1
01
l l lk k k N
m m mn n n
l l lk k k N
H m m mn n n
l lk k
m mn N
→ → →⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = = −⎛ ⎞ ⎛ ⎞ ⎛ ⎞⎢ ⎥ ⎢ ⎥ ⎢ ⎥↓ ↓ ↓⎜ ⎟ ⎜ ⎟ ⎜ ⎟⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = =⎝ ⎠ ⎝ ⎠ ⎝ ⎠⎣ ⎦ ⎣ ⎦ ⎣ ⎦
→ → →⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = = −⎛ ⎞ ⎛ ⎞ ⎛ ⎞⎢ ⎥ ⎢ ⎥ ⎢ ⎥= ↓ ↓ ↓⎜ ⎟ ⎜ ⎟ ⎜ ⎟⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = =⎝ ⎠ ⎝ ⎠ ⎝ ⎠⎣ ⎦ ⎣ ⎦ ⎣ ⎦
→ →⎡ ⎤⎢ ⎥=⎛ ⎞⎢ ⎥↓ ↓⎜ ⎟⎢ ⎥= −⎝ ⎠⎣ ⎦
1 11 1
lk N
mn N n N
⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥→⎡ ⎤ ⎡ ⎤⎢ ⎥
⎢ ⎥ ⎢ ⎥⎢ ⎥= = −⎛ ⎞ ⎛ ⎞⎢ ⎥ ⎢ ⎥⎢ ⎥↓⎜ ⎟ ⎜ ⎟⎢ ⎥ ⎢ ⎥= − = −⎢ ⎥⎝ ⎠ ⎝ ⎠⎣ ⎦ ⎣ ⎦⎣ ⎦
(3.1.45)
Theo (3.1.37) vector y tương đương ma trận ảnh Y có thể tìm được thông qua ma trận X như sau:
N
n nn 1
y HN Xv=
= ∑ (3.1.46)
Ngoài ra, sử dụng (3.1.38) chúng ta cũng có thể biếu diễn ma trận Y thông qua vector y của ảnh:
N
T Tm m
m=1
Y= M y u∑ (3.1.47)
Từ (3.1.46) và (3.1.47) chúng ta có thể tìm ra quan hệ giữa ma trận ảnh vào và ra của hệ thống tuyến tính:
( ) ( )N N
T Tm n n m
m=1 n 1
Y= M HN X v u=
∑∑ (3.1.48)
Có thể chứng minh được rằng việc nhân H với ma trận TmM và nN sẽ tách ra các ma trận
circulant m,nH , như vậy ta có:
( )N N
Tm,n n m
m=1 n 1
Y= H X v u=
∑∑ (3.1.49)
Đối với hệ thống tuyến tính tách được (separable), quá trình tìm tổng chập (3.1.39) có thể được thực hiện lần lượt bằng cách tính tổng theo m, sau đó theo n. Ta có thể viết:
( ) ( ) ( ), ; , , ,= c rh m l n k h m l h n k (3.1.50)
( ) ( ) ( ) ( )1 1
0 0
, , , ,− −
= =
= ∑ ∑N N
c rl k
y m n h m l x l k h n k (3.1.51)
Theo (3.1.50) ta thấy trong các ma trận circulant (3.1.45) thành phần ( ),rh n k là constant
và có thể đưa ra ngoài ma trận. Do đó ma trận circulant khối H có thể biến đổi như sau (để rút gọn, chúng ta viết tắt ( ), ,=n kh h n k ):
Chương 3 Kỹ thuật xử lý hình ảnh
111
0,0 1,0 0,0 1,0
0,0 1,0
0, 1 1, 1 0, 1 1, 1
0,0 1,0 0,0 1,0
0,1 1,1
0, 1 1, 1 0, 1 1,
... ...
... ...
... ...
... ...
− −
−
− − − − − −
− −
−
− − − − −
⎛ ⎞ ⎛ ⎞⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠⎛ ⎞⎜ ⎟⎜ ⎟= ⎜ ⎟⎝ ⎠
c c N c c N
r rN
c N c N N c N c N N
c c N c c N
r rN
c N c N N c N c N N
h h h h
h hh h h h
h h h h
h hH
h h h h 1
0,0 1,0 0,0 1,0
0, 1 1, 1
0, 1 1, 1 0, 1 1, 1
... ...
... ...
−
− −
− − −
− − − − − −
⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎛ ⎞⎢ ⎥⎜ ⎟⎢ ⎥⎜ ⎟ = ⊗⎢ ⎥⎜ ⎟
⎝ ⎠⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎛ ⎞ ⎛ ⎞⎢ ⎥⎜ ⎟ ⎜ ⎟⎢ ⎥⎜ ⎟ ⎜ ⎟⎢ ⎥⎜ ⎟ ⎜ ⎟
⎝ ⎠ ⎝ ⎠⎣ ⎦
T Tr c
c c N c c N
r N rN N
c N c N N c N c N N
h h
h h h h
h hh h h h
(3.1.52)
Ma trận H được gọi là tích Kronecker của hai ma trận Trh và T
ch .
3.1.6.4 Biến đổi không gian tín hiệu 3.1.6.4.1 Biến đổi Fourier liên tục
Cặp biến đổi Fourie liên tục một chiều được định nghĩa như sau:
( ) ( ) 2 uxπ
∞−
−∞
= ∫ jF u f x e dx (3.1.53)
( ) ( ) 2 uxπ
∞
−∞
= ∫ jf x F u e du (3.1.54)
( )f x là hàm liên tục, có biến thực x, j 1= − .
Công thức (3.1.53) được gọi là khai triển Fourier thuận còn (3.1.54) – khai triển Fourier nghịch.
Trong trường hợp tổng quát, hàm F(u) là hàm phức, do đó nó có thể được biểu diễn dưới dạng:
( ) ( ) ( )Φ= j uF u F u e (3.1.55)
Modul ( ) ( ) ( ) 1/ 22 2⎡ ⎤= +⎣ ⎦F u R u I u được gọi là phổ biên độ, còn hàm
( ) ( )( )
arctg⎡ ⎤
Φ = ⎢ ⎥⎣ ⎦
I uu
R u gọi là phổ pha của hàm f(u). R(u) và I(u) là thành phần thực và ảo
của F(u).
Một đại lượng khác có thể suy ra từ phổ Fourier là phổ công suất của tín hiệu P(u):
( ) ( ) ( ) ( )2 2 2P u F u R u I u= = + (3.1.56)
Phổ công suất cho chúng ta thấy phân bố công suất của tín hiệu trong miền tần số.
Đối với tín hiệu rời rạc, một biến, cặp khai triển Fourier thuận và nghịch có dạng như sau:
Chương 3 Kỹ thuật xử lý hình ảnh
112
( ) ( )ux1 2M
0
1 π− −
=
= ∑M j
x
F u f x eM
với 0,1,2... 1= −u M , (3.1.57)
( ) ( )ux1 2M
0
π−
=
= ∑M j
u
f x F u e với 0,1,2... 1= −x M (3.1.58)
Để thực hiện khai triển Fourier, chúng ta phải sử dụng M2 phép nhân và phép cộng. Cũng như tín hiệu rời rạc ( )f x , khai triển Fourier của nó cho kết quả là M các thành phần rời rạc. Dễ
dàng nhận thấy rằng, mỗi thành phần rời rạc trong F(u) là tổng của tích tất cả các giá trị của hàm
( )f x nhân với các hàm cosin và sin có M tần số khác nhau. Như vậy có thể nói F(u) là biểu diễn
tín hiệu f(x) trong miền tần số vì biến u xác định các tần số tạo nên tín hiệu rời rạc f(x). Có thể nói, khai triển Fourier cho phép chúng ta mô tả một hàm thông qua các thành phần tần số chứa trong hàm đó. Chính vì vậy khai triển Fourie có thể được sử dụng như một công cụ quan trọng để mô tả và phân tích các phương pháp lọc tuyến tính.
Trong trường hợp tổng quát, phổ của tín hiệu rời rạc là hàm phức, do đó nó có thể được biểu diễn dưới dạng:
( ) ( ) ( )Φ= j uF u F u e (3.1.59)
Phổ công suất của tín hiệu rời rạc là:
( ) ( ) ( ) ( )2 2 2P u F u R u I u= = + (3.1.60)
Biến đổi Fourier có thể được mở rộng cho hàm ( ),f x y có hai biến. Khi ( ),f x y liên tục
và lấy tích phân được thì cặp biến đổi Fourier hai chiều thuận và nghịch sẽ là:
( ) ( ) ( )2 ux+vy, , jF u v f x y e dxdyπ
∞−
−∞
= ∫ ∫ (3.1.61)
( ) ( ) ( )2 ux+vy, , jf x y F u v e dudvπ
∞
−∞
= ∫ ∫ (3.1.62)
u, v là biến tần số.
Cũng như trường hợp biến đổi Fourier một chiều, ta có phổ biên độ, phổ pha và phổ công suất cho tín hiệu hai chiều:
( ) ( ) ( ) 1/ 22 2, , ,F u v R u v I u v⎡ ⎤= +⎣ ⎦ (3.1.63)
( ) ( )
( )I u,v
, arctg,
u vR u v⎡ ⎤
Φ = ⎢ ⎥⎣ ⎦
(3.1.64)
( ) ( ) ( ) ( )2 2 2, , , ,P u v F u v R u v I u v= = + (3.1.65)
Ví dụ: Biến đổi Fourier của xung hình chữ nhật trong không gian 3 chiều (hình 3.1.35a) có
Chương 3 Kỹ thuật xử lý hình ảnh
113
dạng như trên (hình 3.1.35b).
a) b)
Hình 3.1.35 Phổ Fourier của xung hình chữ nhật trong không gian 3 chiều.
3.1.6.4.2 Biến đổi Fourier rời rạc 2 chiều Biến đổi Fourier thuận 2 chiều của hàm rời rạc f(x,y) (mô tả ảnh số kích thước MxN) được
biểu diễn như sau:
( ) ( )
ux vy1 1 2M N
0 0
1, ,π ⎛ ⎞− − − +⎜ ⎟⎝ ⎠
= =
= ∑∑M N j
x y
F u v f x y eMN
(3.1.66)
Nếu có F(u,v) chúng ta có thể tìm ra f(x,y) bằng khai triển Fourier thuận:
( ) ( )ux vy1 1 2M N
0 0
, ,π ⎛ ⎞− − +⎜ ⎟⎝ ⎠
= =
= ∑∑M N j
u v
f x y F u v e (3.1.67)
Phổ biên độ, phổ pha và phổ công suất cũng được xác định như sau:
( ) ( ) ( ) 1/ 22 2, , ,⎡ ⎤= +⎣ ⎦F u v R u v I u v (3.1.68)
( ) ( )
( ),
, arctg,
⎡ ⎤Φ = ⎢ ⎥
⎣ ⎦
I u vu v
R u v (3.1.69)
( ) ( ) ( ) ( )2 2 2, , , ,P u v F u v R u v I u v= = + (3.1.70)
Giá trị của phổ Fourier tại điểm u=v=0 bằng:
( ) ( )
1 1
0 0
10,0 ,− −
= =
= ∑∑M N
x y
F f x yMN
(3.1.71)
Nếu f(x,y) là hàm biểu diễn độ chói của ảnh số thì F(0,0) chính là giá trị trung bình của độ chói ảnh. Vì (0,0) là điểm gốc tọa độ của không gian tần số, nơi tần số bằng 0, nên thành phần F(0,0) còn được gọi là thành phần một chiều (DC) của phổ tín hiệu.
Ví dụ: Trên hình 3.1.36a là ảnh chi tiết hình chữ nhật màu trắng, kích thước 20x40 nằm trên ảnh phông màu đen. Phổ 2 chiều của ảnh trên nhận được bằng khai triển Fourie (3.1.66) biểu diễn trên hình 3.1.36b.
Các thành phần phổ của tín hiệu sẽ được đánh số theo thứ tự từ u=1 tới u=M, v=1 tới v=N. Để thành phần một chiều của phổ nằm tại trung tâm của ảnh, chúng ta phải thực hiện dịch phổ
Chương 3 Kỹ thuật xử lý hình ảnh
114
trong không gian hai chiều, bằng cách nhân hàm f(x,y) với ( )x y1 +− , khi đó theo tính chất của
khai triển Fourier, phổ của ảnh sẽ dịch chuyển đến vị trí ( )u M/ 2= và ( )v N / 2= :
( )( )x y M Nf x,y 1 F u ;v2 2
+ ⎛ ⎞− ↔ − −⎜ ⎟⎝ ⎠
(3.1.72)
Phổ của ảnh sau khi dịch chuyển được biểu diễn trên hình 3.1.36c.
Phạm vi dải động (khoảng biến thiên) của giá trị các hệ số khai triển Fourier có thể cao hơn nhiều so với giá trị của thành phần chói. Vì vậy, để ảnh phổ hiển thị rõ hơn trên màn hình, đôi khi người ta biến đổi các giá trị phổ theo hàm logarit như sau:
( ) ( )D u,v c log 1 F u,v⎡ ⎤= +⎣ ⎦ (3.1.73)
c- hằng số.
Ảnh phổ sau khi biến đổi bằng (3.1.73) biểu diễn trên hình 3.1.36d.
Hình 3.1.36 Phổ Fourier của hình ảnh 2D
Chươn
Mdọc, đ
ký hiệu
(x,y)
(x 1+
được g
lân cận
Mtiết haycận vàảnh có
Ctrị các có 3 lo
1) Liên
2) Liên
3) Liên
Lràng) c3.2.1 đliên kế3.2.1c)liên kế
ng 3 Kỹ thu
3.2 PHÂ
3.2.1 Khá
3Mỗi điểm ảnó là các điểm
u là ( )4N p
theo đ
) (, y 1 , x+ +
gọi là 8 điểm
n có thể nằm
3Mối liên kết y các vùng tr
à giá trị mức ó liên kết, khi
Cho V là tậpmức xám th
oại liên kết:
n kết 4: hai đ
n kết 8: hai đ
n kết m (hỗn
- q nằm tro
- q nằm tro
Liên kết m lcó thể gặp kđược biểu diễết m, ta sẽ x). Hai vùng ảết với một điể
Hìn
uật xử lý hình
ÂN TÍCH CÁ
ái niệm về q
3.2.1.1 Các nh p tại tọa đm ( )x 1, y ,+
. Mỗi điểm l
ường ché
) (1, y 1 , x−
m lân cận: Nbên ngoài ản
3.2.1.2 Mối giữa các điểrong một ảnhxám của chú
i chúng nằm
p các mức xáhay đổi từ 0-2
điểm ảnh p và
điểm ảnh p và
hợp): hai điể
ong tập (4N p
ng tập (DN p
à biến thể củkhi dùng liênễn bằng đườnxác định 1 đưảnh S1 và S2 ểm ảnh khác
nh 3.2.1 M
h ảnh
ÁC KỸ THU
quan hệ giữa
điểm ảnh lâđộ (x,y) sẽ có
( ) (, x 1, y , x−
lân cận nằm
éo ký
) (1, y 1 x− +
( )8 p . Trong
nh.
i liên kết (conm ảnh là kháh. Hai điểm úng đáp ứngtrong bộ 4 lâ
ám dùng để đ255, thì V có
à q có các giá
à q có các giá
ểm ảnh p và
)p , hoặc
)p và tập 4N
ủa liên kết 8 n kết 8. Điềung đứt nét là ường liên kếđược gọi là htrong S2. Giữ
Minh họa liên
UẬT XỬ LÝ
a các điểm ản
ân cận ó 4 điểm ảnh
) (x, y 1 x, y+
cách điểm (x
hiệu là
)x 1, y 1− − .
g trường hợp
nnectivity) ái niệm quanảnh có sự liê
g một tiêu chân cận và có
định nghĩa mó thể là 1 tập
á trị từ V có l
á trị từ V có l
q có các giá
( ) (4 4p N q∩
dùng để loạu này minh hliên kết đa hết duy nhất ghai vùng liênữa hai vùng ả
kết 8 và liên
Ý ẢNH VÀ V
nh
h được gọi là
)y 1− . Tập h
x,y) 1 đơn vị
( )DN p ,
Tập hợp 8
p khi điểm p
n trọng, cho pên kết với nhí nào đó. Ví giá trị giống
mối liên kết, vbất kỳ trong
liên kết 4 nếu
liên kết 8 nếu
trị từ V có li
)q không ch
ại trừ các mốhọa trên hìnhhướng, trong giữa các điểmn kết nếu mộtảnh có thể có
n kết m.
VIDEO
à lân cận thehợp 4 điểm l
ị. 4 điểm ảnh
đó là
điểm (4N
nằm ở biên c
phép xác địnhhau nếu chún
dụ: với ảnh nhau.
ví dụ trong ảg số 255 giá t
u q nằm tron
u q nằm tron
ên kết m nếu
hứa các giá tr
i liên kết đa h 3.2.1b. Liêkhi đó nếu s
m ảnh có giát điểm ảnh nó liên kết 4, 8
eo chiều nganlân cận trên
h lân cận với
à các đ
)p và DN
của ảnh, các
h giới hạn củng là các điểm
nhị phân, 2
ảnh đen-trắngtrị này. Chhú
ng tập (4N p
ng tập (8N p
u:
ị trong V.
hướng (khônên kết 8 trên ử dụng khái á trị bằng 1 nào đó trong 8 hoặc liên kế
ng và được
điểm
điểm:
( )D p
điểm
ủa chi m lân điểm
g, giá úng ta
)p .
)p .
ng rõ hình niệm (hình S1 có ết m.
Chương 3 Kỹ thuật xử lý hình ảnh
116
Đường kết nối (rời rạc) giữa hai điểm ảnh p có tọa độ (x,y) và q có tọa độ là (s,t) là chuỗi các pixel khác nhau với các tọa độ: ( ) ( ) ( )0 0 1 1 n nx , y , x , y ,..., x , y , trong đó:
( ) ( )( ) ( )
0 0
n n
x , y x, y
x , y s, t
=
=
( )i ix , y và ( )i 1 i 1x , y− − là các điểm liên kết với 1 i n≤ ≤ . n được gọi là chiều dài của đường
kết nối. Khi ( ) ( )0 0 n nx , y x , y= , đường nối được gọi là khép kín.
Tùy theo phương pháp xác định liên kết,chúng ta có đường kết nối 4, 8 hoặc đường kết nối m. Trên hình 3.2.1 mô tả hai loại đường kết nối với liên kết m và 8.
Cho S là một tập các điểm ảnh, hai pixel p và q được gọi là liên kết trong S, nếu tồn tại đường kết nối giữa hai điểm p và q được tạo ra chỉ bởi các điểm trong tập S.
Với bất cứ điểm p nào từ S, tất cả các pixel liên kết với p trong S sẽ được gọi là thành phần liên kết của S. Nếu S trong chỉ tồn tại một thành phần liên kết, thì tập S gọi là tập liên kết.
Cho R là tập con các điểm ảnh, R được gọi là vùng ảnh nếu R là tập liên kết. Đường biên của vùng R được tạo ra từ tập nhỏ các điểm ảnh. Các điểm này có một hoặc nhiều hơn các điểm lân cận không nằm trong tập R.
3.2.1.3 Toán tử xử lý điểm ảnh Trong phần này, chúng ta sẽ nói đến một số phép tính thực hiện trực tiếp với các điểm ảnh
trong ảnh, thí dụ nhân hoặc chia một ảnh cho ảnh khác theo từng điểm. Như đã giới thiệu ở trên, ta có thể biểu diễn ảnh số như ma trận các điểm ảnh, tuy nhiên trong trường hợp tổng quát, hai ma trận không chia được cho nhau. Do đó, khi thực hiện toán tử chia hai ảnh cho nhau, người ta chia các pixel tương ứng của ảnh này cho ảnh khác (với điều kiện các điểm ảnh của ảnh chia khác 0). Tương tự như vậy, các toán tử số học và logic sẽ được thực hiện cho các pixel tương ứng giữa hai ảnh.
3.2.1.3.1 Khoảng cách giữa các điểm ảnh
Đối với các pixels p, q, z với các tọa độ (x,y), (s,t), (u,v), D là hàm khoảng cách hoặc metric, nếu:
( )D p, q 0≥ , ( )D p, q 0= nếu p=q
( ) ( )D p, q D q, p=
( ) ( ) ( )D p, z D p, q D q, z≤ +
3.2.1.3.2 Khoảng cách Euclide giữa p va q được định nghĩa:
( ) ( ) ( )
1/ 22 2eD p,q x s y t⎡ ⎤= − + −⎣ ⎦
(3.2.1)
3.2.1.3.3 Khoảng cách D4 giữa p va q được định nghĩa:
( )4D p,q x s y t= − + − (3.2.2)
Các pixels nằm cách điểm (x,y) một khoảng D4 nhỏ hơn hoặc bằng giá trị r sẽ tạo ra hình
Chươn
thoi có
P
P
Cđó là Phươntrong mchúng
Ncủa ản
Q
Toán t
liên tiế
hoặc h
T
ng 3 Kỹ thu
ó tâm điểm tạ
3.2.1.3.4
8D
Pixels nằm c
Pixels với kh
3.2.2 Các
Các phương phương phá
ng pháp xử lýmiền tần số, ta sẽ đề cập Nâng cao ch
nh như làm tă
3Quá trình nân
( ),f x y - ản
tử T có thể đ
ếp. Thông th
hình chữ nhật
Toán tử T đ
uật xử lý hình
ại (x,y).Ví dụ
Khoảng cách
( )p, q max=
cách (x,y) mộ
hoảng cách D
c phương ph
pháp xử lý áp xử lý troný thứ nhất dựảnh số phảitới một số ph
hất lượng ảnhăng độ tương
3.2.2.1 Nângng cao chất l
nh số gốc; g
được thực hiệ
hường, vùng
t có điểm giữ
được thực hiệ
Mặt
h ảnh
ụ: pixels nằm
h D8 giữa p v
(x x s , y− −
ột khoảng 8D
8D 1= là 8 đ
háp nâng cao
nâng cao chng không giaựa trên các t được ánh xhương pháp xh là bước tiềnphản, lọc nh
g cao chất lưlượng ảnh tro
( ),g x y T f= ⎡⎣
( ),g x y - ảnh
ện cho một v
lân cận với
ữa là ( )0 0,x y
Hình
ện cho các đ
nạ
m cách (x,y) m
va q được địn
)t−
8 2≤ tạo ra h
iểm lân cận c
o chất lượng
ất lượng hìnhan ảnh và phthao tác tác đạ về miền tầxử lý ảnh tron xử lý quan
hiễu, nổi biên
ượng ảnh bằnong không gi
( ),f x y ⎤⎦
h đã được xử
vùng ảnh xu
điểm ( 0 0,x y
- vùng này c
h 3.2.2 Vùng
điểm ảnh bên
một khoảng D
nh nghĩa như
hình vuông c
của pixel (x,y
g ảnh
h ảnh thườnghương pháp động trực tiếần số thông qong miền khôn trọng, nhằmn, tăng kích th
ng toán tử đan được biểu
lý; T – toán
ng quanh điể
)0 thường đư
còn được gọi
g ảnh lân cận
n trong mặt
4D 2≤ tạo r
ư sau:
(3.
có tâm điểm t
y).
g được chia txử lý ảnh trếp tới các điểqua biến đổi ông gian. m làm nổi bậhước ảnh v.v
điểm u diễn như sa
(3.
n tử dùng để
ểm ( )0 0,x y
ược chọn có
là mặt nạ. (h
n với điểm ( x
nạ, tâm mặt
ra hình thoi s
2.3)
tại điểm (x,y)
thành hai lớprong miền tầểm ảnh. Để xFourier. Sau
ật một số đặcv.
au:
2.4)
biến đổi ảnh
và cho nhiều
dạng hình v
hình 3.2.2).
)0 0,x y
t nạ sẽ được
sau:
):
p lớn, ần số. xử lý u đây
c tính
h gốc.
u ảnh
vuông
dịch
Chương 3 Kỹ thuật xử lý hình ảnh
118
chuyển lần lượt qua tất cả các điểm ảnh, thường là từ trái sang phải, từ trên xuống dưới. Sau đây là một số biện pháp xử lý ảnh dùng toán tử không gian.
3.2.2.1.1 Tăng độ tương phản Khi vùng lân cận có kích thước 1x1, hàm g sẽ chỉ phụ thuộc vào f tại điểm (x,y). Toán tử T
sẽ là hàm biến đổi mức xám:
[ ]s T r= (3.2.5)
r và s là mức xám của ảnh gốc ( ),f x y và ảnh ( ),g x y tại điểm (x,y).
Ví dụ: Quá trình biến đổi mức xám đơn giản được mô tả trên hình 3.2.3. Ảnh gốc "Lena" (hình 3.2.3a) được tăng cường độ tương phản khi áp dụng hàm biến đổi có đặc tuyến trên hình 3.2.3b. Mục đích đạt được khi các điểm ảnh có mức xám lớn hơn mức trung bình m sẽ được làm “sáng” thêm, ngược lại các điểm ảnh có độ chói dưới mức m sẽ được làm tối đi. Trên hình 3.2.3c, ảnh được xử lý sẽ biến thành dạng nhị phân: chỉ có 2 mức cố định, đen hoặc trắng.
a)
b)
c)
Hàm dùng để biến đổi mức xám trong Matlab có dạng: J = imadjust(I,[low_in; high_in],[low_out; high_out],gamma).
Hàm này biến đổi các mức xám nằm trong khoảng [low_in; high_in] thành các giá
trị trong khoảng [low_out; high_out] theo quy luật eγ .
Hình 3.2.3 Biến đổi mức xám làm tăng độ tương phản
Lena
Chương 3 Kỹ thuật xử lý hình ảnh
119
3.2.2.1.2 Biến đổi âm bản Hàm biến đổi âm bản ảnh có dạng:
s L r= − (3.2.6)
Giá trị các điểm ảnh trong ảnh âm bản (hình 3.2.4) có mức xám thay đổi từ mức 0 (đen) tới mức L (trắng).
3.2.2.1.3 Nén dải động của ảnh (biến đổi logarithm)
Khi dải động của ảnh biến đổi trong phạm vi quá rộng so với khả năng hiển thị của màn hình, ví dụ khi cần hiển thị ảnh 2-D của các hệ số khai triển DCT, chúng ta cần nén dải động theo hàm logarithm như sau:
log 1s c r= +⎡ ⎤⎣ ⎦ (3.2.7)
Hình 3.2.5 Nén dải động của ảnh bằng biến đổi logarithm Ví dụ: Hệ số khai triển Fourie của ảnh 3.2.5 (kích thước 512x512) có giá trị nằm trong dải
động 60 35 10⎡ ⎤÷ ⋅⎣ ⎦ , vì vậy khi trực tiếp hiển thị ảnh phổ nói trên lên màn hình máy tính (tín hiệu
đầu vào có 256 mức xám) chúng ta sẽ có ảnh màu gần như trắng hoàn toàn (hình3.2.5b). Sau khi nén dải động theo hàm logarithm, chúng ta nhận được ảnh 3.2.5c. Do dải động của tín hiệu sau khi nén và dải động của thiết bị hiển thị tương đương với nhau, chúng ta có thể quan sát được dạng 2-D của ảnh phổ.
3.2.2.1.4 Tách ảnh theo mức chói Có hai phương pháp tách ảnh theo mức chói: đó là tách có nền và tách không nền. Tách
không có nền được thực hiện với toán tử sau:
( ) ax
min
mL A r BT r
L< <⎧
= ⎨⎩
(3.2.8)
Với phương pháp này, các mức xám trong phạm vi [A-B] được thay thế bằng lên mức axmL ,
còn các mức khác sẽ được gán mức minL . Tách mức chói có nền dùng phép ánh xạ sau:
( ) axmL A r BT r
r< <⎧
= ⎨⎩
(3.2.9)
Toán tử (3.2.9) thay đổi mức chói cho các điểm ảnh trong dải [A-B] và giữ nguyên mức chói ở các điểm khác.
Hình 3.2.4 Ảnh âm bản
với các r khác
với các r khác
Chương 3 Kỹ thuật xử lý hình ảnh
120
a) c)
b)
Trên hình 3.2.6 minh họa là kết quả tách dải chói [A-B] trong ảnh bằng hai phương pháp nói trên.
3.2.2.1.5 Tách ảnh theo mặt phẳng bit Có ứng dụng đòi hỏi phải tách ảnh số với 256 mức lượng tử (8 bits/điểm) thành 8 ảnh nhị
phân theo mặt phẳng bit như mô tả trên hình 3.2.7. Ví dụ, các bit tạo nên mặt phẳng thứ 7 là các MSB (most significant bit), các bit tạo nên mặt phẳng số 0 là LSB (least significant bit) của các điểm ảnh.
Tám mặt phẳng bit được tách ra từ hình gốc "Lena" được biểu diễn trên hình 3.2.8. Có thể
nhận thấy rằng các bit bậc cao (nhất là MSB) chứa phần lớn tin tức về hình dạng ảnh. Các bít bậc thấp hơn tập trung ở các chi tiết nhỏ. Cách chia ảnh theo phương pháp tách mặt phẳng bit được sử dụng trong một số phương pháp nén dư thừa trong ảnh.
Hình 3.2.8 Tám mặt phẳng bit được tách ra từ ảnh gốc "Lena"
3.2.2.1.6 Xử lý lược đồ xám (histogram) Lược đồ xám của một ảnh số (histogram) có các mức xám biến thiên trong khoảng
Hình 3.2.6 So sánh hai phương pháp tách ảnh theo mức chói
a) Ảnh gốc b) Đặc tuyến tách mức chói
không nền và ảnh kết quả c) Đặc tuyến tách mức chói
có nền và ảnh kết quả
Hình 3.2.7 Tách ảnh (8 bits/điểm) theo các mặt phẳng bit.
Chương 3 Kỹ thuật xử lý hình ảnh
121
[ ]0, 1L − là hàm rời rạc ( )k kh r n= , với kr là mức xám thứ k, kn - là số lượng điểm ảnh, có mức
xám kr . Thông thường, histogram được chuẩn hóa bằng cách chia các giá trị nk cho tổng số điểm
ảnh n, khi đó histogram chuẩn sẽ bằng:
( ) /k kp r n n= (3.2.10)
với k=0,1,2...L-1.
Nói cách khác ( )kp r là xác suất xuất hiện các điểm ảnh có mức xám rk. Tổng các giá trị rời
rạc ( )kp r bằng 1. Ngoài các thông tin thống kê về mức xám, histogram còn chứa nhiều tin tức
quan trọng có thể sử dụng trong các quá trình xử lý khác như nén hay phân vùng ảnh.
Hàm cơ bản nhất dùng để tìm histogram của ảnh trong Matlab là hàm: imhist(I, n), trong đó,toàn bộ dải động các mức xám được chia ra thành n đoạn.
Trên hình 3.2.9 thể hiện 4 ảnh có độ chói và độ tương phản khác nhau cùng với histogram của chúng. Lược đồ xám được biểu diễn trong hệ tọa độ vuông góc, trục hoành biểu diễn các giá trị mức xám từ [0,255], trục tung biểu diễn số lượng điểm ảnh có cùng mức xám.
Dễ dàng thấy rằng, khi ảnh có độ tương phản cao (hình 3.2.9a), các mức xám phân bố đều trên trục rk. Với ảnh có độ chói thấp (hình 3.2.9b), các mức xám tập trung tại miền giá trị độ chói thấp và ngược lại với ảnh có độ chói cao (hình 3.2.9c). Với ảnh có độ tương phản thấp, nhạt màu trên lược đồ xám các vạch xám tập trung tại trung tâm dải chói (hình3.2.9d).
Hình 3.2.9 Histogram của bốn loại ảnh thường gặp:
a. Ảnh có độ tương phản cao b. Ảnh có độ sáng thấp c. Ảnh có độ sáng cao d. Ảnh có độ tương phản thấp
Kỹ thuật cân bằng histogram Khảo sát lược đồ xám của ảnh có thể phỏng đoán rằng, nếu phân bố giá trị các mức xám của
các điểm ảnh đồng đều trên toàn bộ dải chói [ ]0, 1L − thì ảnh sẽ có độ tương phản cao. Quá trình
biến đổi ảnh có lược đồ xám không đồng đều thành đồng đều được gọi là cân bằng lược đồ (histogram equalization).
Xét toán tử biến đổi mức xám:
( ) 0 1s T r r= ≤ ≤ (3.2.11)
Chương 3 Kỹ thuật xử lý hình ảnh
122
với điều kiện:
a- ( )T r là hàm đơn ánh và đồng biến trong khoảng 0 1r≤ ≤
b- ( )0 1 0 1T r khi r≤ ≤ ≤ ≤
Điều kiện (a) cần thiết để tồn tại biến đổi nghịch: ( )1 0 1r T s s−= ≤ ≤ . Ngoài ra, nếu
hàm T(r) không đồng biến, trong ảnh kết quả có thể xuất hiện một phần dải chói là "âm bản" so với ảnh gốc. Điều kiện (b) cho thấy dải động của ảnh vào và ra giống nhau.
Hình 3.2.10 Hàm biến đổi mức xám đồng biến T(r)
Mức xám xuất hiện trong ảnh là đại lượng ngẫu nhiên trong khoảng [0,1]. Cho ( )rp r và
( )sp s là các hàm mật độ phân bố xác suất (PDF) của biến ngẫu nhiên r và s, hai hàm này có quan
hệ như sau:
( ) ( )s rdrp s p rds
= (3.2.12)
Như vậy, mật độ phân bố xác suất mức xám của ảnh ra phụ thuộc vào mật độ phân bố xác suất mức xám của ảnh vào và hàm biến đổi ( )s T r= .
Trong lĩnh vực xử lý ảnh, hàm biến đổi sau đây có ý nghĩa rất quan trọng:
( ) ( )0
r
rs T r p dτ τ= = ∫ (3.2.13)
Vế phải của (3.2.13) chính là tích phân phân bố xác suất (CDF) của biến ngẫu nhiên r. Hàm này là hàm đơn ánh và đồng biến trong khoảng 0 1r≤ ≤ , đáp ứng yêu cầu (a) và (b) trong (3.2.11). Lấy đạo hàm của s theo r ta có:
( )dT rds
dr dr= (3.2.14)
( ) ( )
0
r
r rds d p d p rdr dr
τ τ⎡ ⎤
= =⎢ ⎥⎣ ⎦∫ (3.2.15)
Thay (3.2.15) vào (3.2.12) ta có:
( ) ( ) ( ) ( )1 1 0 1s r r
r
drp s p r p r sds p t
= = = ≤ ≤
(3.2.16)
Như vậy, PDF của ảnh ra trong khoảng [0-1] là đồng đều. Nói cách khác, nếu hàm biến đổi mức xám có dạng (3.2.13) thì histogram ảnh kết quả sẽ có dạng phân bố đều và không phụ thuộc vào hàm PDF của ảnh gốc.
Quá trình cân bằng lược đồ xám cho ảnh số được thực hiện với các biến ngẫu nhiên rời rạc
Chương 3 Kỹ thuật xử lý hình ảnh
123
nk và rk (nk là số lượng điểm ảnh có mức chói rk). Xác suất xuất hiện điểm ảnh có mức chói rk là:
( ) 0,1,2,......, 1kr k
np r k Ln
= = − (3.2.17)
n là tổng số pixel trong ảnh.
Hàm ( )r kp r với biến kr chính là histogram của ảnh gốc.
Hàm biến đổi mức xám dùng để cân bằng histogram cho tín hiệu rời rạc tương đương với (3.2.13) trong trường hợp này sẽ có dạng:
( ) ( )
0 0
0,1,2,......, 1k k
jk k r j
j j
ns T r p r k L
n= =
= = = = −∑ ∑
(3.2.18)
Phương pháp biến đổi ảnh theo (3.2.18) cho phép nới rộng dải động mức xám của ảnh số chỉ dựa trên các thông tin có trong ảnh gốc.
a) b)
c) d)
Hình 3.2.11 Minh họa quá trình cân bằng lược đồ xám a) Ảnh có độ chói thấp, trước và sau khi cân bằng b) Ảnh có độ chói cao, trước và sau khi cân bằng c) Ảnh có độ tương phản thấp, trước và sau khi cân bằng d) Hàm biến đổi T(r) dùng để cân bằng các ảnh: (a) - đồ thị 1, (b)- đồ thị 2, (c) - đồ thị 3
Trên hình 3.2.11 biểu diễn ba ảnh có độ chói thấp, cao và có độ tương phản thấp. Ba ảnh trên được cân bằng histogram theo (3.2.18), hàm biến đổi của từng ảnh khác nhau và được biểu
Chương 3 Kỹ thuật xử lý hình ảnh
124
diễn trên hình 3.2.11d. Có thể thấy rằng, các ảnh nhận được sau khi áp dụng phương pháp cân bằng hisrogram có độ tương phản cao hơn. Đặc biệt, kết quả nhận được sau khi cân bằng lược đồ cho cả ba ảnh là tương đối giống nhau. Lí do vì trong ví dụ trên, các ảnh gốc đều có nội dung giống nhau, chỉ khác nhau về độ chói và độ tương phản. Sau khi được cân bằng histogram, độ tương phản được tăng lên làm cân bằng cả mức chói giữa các ảnh, do đó các ảnh kết quả, dưới mắt người quan sát, trở nên gần giống nhau.
Kỹ thuật xấp xỉ histogram (Histogram matching) Kỹ thuật cân bằng mức xám là quá trình biến đổi tự thích nghi với ảnh gốc để tạo ra ảnh
mới có histogram đồng đều. Trong một số trường hợp, chúng ta cần biến đổi ảnh gốc sao cho ảnh biến đổi có dạng histogram mong muốn, kỹ thuật này gọi là xấp xỉ histogram.
Nhắc lại công thức mô tả kỹ thuật cân bằng mức xám (3.2.18):
( ) ( )0 0
0,1,2,......, 1k k
jk k r j
j j
ns T r p r k L
n= =
= = = = −∑ ∑ (3.2.19)
Mức xám kr trong ảnh gốc được ánh xạ thành mức ks trong ảnh mới. Histogram ảnh mới
sẽ có dạng đồng đều. Hàm ( )r jp r là histogram của ảnh gốc.
Bài toán đặt ra là cần biến đổi ảnh gốc thành ảnh mới sao cho histogram của nó có dạng mong muốn: ( )z ip z . Thực hiện biến đổi (3.2.19) với ( )z ip z ta có:
( ) ( )
0
0,1,2,......, 1k
k k z ii
v G z p z k L=
= = = −∑
(3.2.20)
Biến đổi theo (3.2.20) có ý nghĩa là ảnh với histogram ( )z ip z , sau khi biến đổi sẽ có
histogram đồng đều. Biến đổi nghịch của (3.2.20):
( )1 0,1,2,......, 1k kz G v k L−= = − (3.2.21)
Biến đổi theo (3.2.21) thực hiện quá trình ánh xạ các mức chói kv của ảnh có histogram
đồng đều thành ảnh có histogram ( )z ip z . Nếu k ks v= , ta có:
( ) ( ) ( )1 1 1 0,1,2,......, 1k k k kz G v G s G T r k L− − −= = = = −⎡ ⎤⎣ ⎦ (3.2.22)
( )1
0
k
k r jj
z G p r−
=
⎡ ⎤= ⎢ ⎥
⎣ ⎦∑ (3.2.23)
Có thể thấy rằng quá trình biến đổi theo (3.2.23) sẽ ánh xạ mức xám kr của ảnh gốc (có
histogram ( )r jp r ) thành mức xám kz của ảnh mới, histogram của ảnh mới sẽ có dạng là ( )z ip z .
Như vậy phép biến đổi mức xám theo (3.2.23) đã cho phép chúng ta tạo xấp xỉ histogram theo dạng cho trước.
Các bước thực hiện xấp xỉ histogram: Trên thực tế, quá trình thực hiện biến đổi mức xám thuận và nghịch theo (3.2.20) và
(3.2.21) được thực hiện cho hình ảnh số bằng cách tra bảng. Ví dụ, bảng tra cứu sẽ chứa tập giá trị các mức chói kr với 0,1,2,......, 1k L= − của ảnh gốc và các mức xám ks của ảnh kết quả. ks là
Chương 3 Kỹ thuật xử lý hình ảnh
125
mức xám trung gian được sử dụng để tìm ra kz trong biến đổi (3.2.23). Dải biến thiên của ks tính
theo (3.2.14) sẽ là [0,1]. Quá trình xấp xỉ theo (3.2.23) được minh họa trên hình 3.2.12.
Trên hình 3.2.12a biểu diễn hàm biến đổi ( )s T r= . Đặc tuyến T(r) có thể tìm ra dựa trên
histogram của ảnh gốc thông qua (3.2.19). Dựa trên đặc tuyến T(r), điểm ảnh gốc có mức xám kr của sẽ được thay bằng mức xám ks . Biến đổi này chính là quá trình cân bằng mức xám.
Biến đổi thuận ( )G z là quá trình cân bằng xám cho ảnh gốc có histogam dạng ( )z ip z ,
biến đổi thuận có thể mô tả bằng công thức: Gq qz v⎯⎯→ . Khi thực hiện biến đổi nghịch
1Gk ks z
−
⎯⎯→ , mỗi giá trị ks được ánh xạ ngược thành giá trị kz (hình 3.2.12b). Đặc tuyến G(z)
được tìm ra dựa trên histogram cho trước và (3.2.20).
Hàm (3.2.23) mô tả quá trình biến đổi kết hợp ( )T r và ( )1kG s− , với giá trị trung gian ks .
Biến đổi nghịch ( )1kG s− có thể được thực hiện bằng phương pháp dò tìm *z sao cho:
( )* 0 0,1,2,......, 1kG s s k L⎡ ⎤− ≥ = −⎣ ⎦ (3.2.24)
khi đó, *kz z= . Quá trình dò tìm với giá trị ks (hình 3.2.12b) được bắt đầu thực hiện khi
* 0z = , ta tăng dần *z đến khi bất đẳng thức (3.2.24) được thực hiện.
Tóm lại, quá trình xấp xỉ histogram thực hiện theo các bước sau: 1. Tính histogram của ảnh gốc 2. Sử dụng (3.2.19) để tìm các giá trị ks
3. Sử dụng (3.2.20) và hàm rời rạc ( )zp z để tính hàm biến đổi G.
4. Dựa trên bất đẳng thức (3.2.24) dò tìm kz theo các giá trị ks .
5. Tạo ra bảng tra (Look Up Table - LUT) để thực hiện quá trình ánh xạ k kr z⎯⎯→
theo (3.2.23).
Hình 3.2.12 a) Minh họa quá trình ánh xạ T
k kr s⎯⎯→
b) Biến đổi thuận Gq qz v⎯⎯→ và
biến đổi nghịch 1G
k ks z−
⎯⎯→
Chương 3 Kỹ thuật xử lý hình ảnh
126
Dưới dây là một ví dụ minh họa quá trình xấp xỉ histogram theo dạng cho trước. Ảnh gốc (hình 3.2.13a) [15] chụp từ vệ tinh. Do điều kiện ánh sáng, trên ảnh gốc tồn tại chủ yếu hai vùng tối và sáng. Điều này cũng thể hiện trên lược đồ xám của ảnh. Các mức xám tập trung tại vùng có độ chói cao hoặc rất thấp.
Hình 3.2.13 So sánh hai phương pháp nâng cao chất lượng ảnh bằng kỹ thuật cân bằng mức xám và xấp xỉ histogram
Quá trình cân bằng xám được thực hiện bởi hàm biến đổi có đồ thị như trên hình 3.2.14a. Hàm này được tìm ra dựa trên công thức (3.2.19) và histogram của ảnh gốc. Có thể thấy rằng, để cân bằng histogram, các điểm ảnh có mức xám nằm gần mức đen sẽ được biến đổi thành mức gần trắng. Trong ảnh gốc, các điểm ảnh có mức xám thấp chiếm đa số, do đó, ảnh nhận được sau khi cân bằng sẽ có mức chói trung bình rất cao (hình 3.2.13b), độ tương phản của ảnh sẽ bị giảm.
Hình 3.2.14 a) Đồ thị hàm biến đổi ( )T r dùng để cân bằng mức xám cho ảnh trên
hình 3.2.13.
b) Histogram mong muốn của ảnh kết quả (được cho trước). c) Hàm biến đổi thuận ( )kG z và nghịch ( )1
kG v− .
Để ảnh có chất lượng tốt hơn, cần biến đổi làm sao cho histogram của ảnh kết quả không khác nhiều so với histogram của ảnh gốc, nhưng không có sự biến đổi quá nhanh trong khu vực mức xám thấp. Với ảnh cụ thể, ta lựa chọn histogram mong muốn có dạng:
Chương 3 Kỹ thuật xử lý hình ảnh
127
( )( ) ( )2 2
1 22 21 22 2
1 21 2
1 12 2
z m z m
p z A e A eσ σ
σ π σ π
⎛ ⎞ ⎛ ⎞− −⎜ ⎟ ⎜ ⎟− −⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠= + (3.2.25)
Thay đổi các thông số 1 1 2 2 1 2, , , , ,m m A Aσ σ có thể nhận được histogram mong muốn theo những tiêu chí nói trên (hình 3.2.14b). Trong ví dụ trên sử dụng các giá trị sau:
1 1 2 2m =0.02; =0.025; m =0.75; =0.05;A1=3; A2=0.08σ σ
Đồ thị hàm biến đổi ( )kG z tính theo (3.2.20) là đường cong 1 trên hình 3.2.14c. Đường
cong 2 (hình 3.2.14c) là đồ thị hàm biến đổi nghịch ( )1kG v− nhận được theo phương pháp dò tìm
đã trình bày ở trên.
Ảnh kết quả nhận được khi thực hiện biến đổi nghịch ( )1kG s− với các giá trị ks và
histogram của nó được hiển thị trên hình 3.2.13c. So sánh ảnh 3.2.13b và 3.2.13c, dễ dàng nhận thấy chất lượng 3.2.13c tốt hơn. Để đạt được kết quả tối ưu nhất, chúng ta phải thực hiện biến đổi ảnh với các dạng histogram khác nhau, ví dụ, bằng cách thay đổi các thông số trong (3.2.25).
3.2.2.1.7 Kỹ thuật triệt nhiễu dựa trên cơ sở trung bình hóa ảnh
Khi ảnh ( ),f x y bị tác động bởi nhiễu cộng ( ),x yη , ảnh kết quả sẽ là:
( ) ( ) ( ), , ,g x y f x y x yη= + (3.2.26)
Nhiễu ( ),x yη tại từng điểm (x,y) là các quá trình ngẫu nhiên độc lập tương hỗ và có giá trị
trung bình thống kê bằng 0 (moment gốc cấp 1: , 0x ym = ). Nếu chúng ta có tập M ảnh ( ),f x y bị
tác động bởi nguồn nhiễu ngẫu nhiên nói trên, thì ảnh trung bình cộng sẽ là:
( ) ( )1
1, ,M
ii
g x y g x yM −
= ∑ (3.2.27)
Giá trị trung bình thống kê của g tại mỗi điểm (x,y) bằng:
( ){ } ( ), ,E g x y f x y= (3.2.28)
Phương sai ( )2
,g x yσ (chính là công suất nhiễu trong từng điểm của ảnh trung bình cộng)
bằng: ( ) ( )2 2
, ,1
g x y x yM ησ σ= (3.2.29)
Theo (3.2.29), khi M tăng lên, công suất trung bình của nhiễu tại mỗi điểm ảnh giảm đi; công thức (3.2.28) cũng cho thấy trong trường hợp này ( ),g x y sẽ tiến dần tới ( ),f x y . Như
vậy, có thể kết luận rằng, khi số lượng ảnh tham gia vào quá trình trung bình cộng càng nhiều, ảnh kết quả ( ),g x y sẽ càng giống với ảnh gốc ( ),f x y .
Trên hình 3.2.15 và 3.2.16 minh họa kỹ thuật triệt nhiễu phân tích ở trên. Ảnh gốc 3.2.15a được tổng hợp với nhiễu cộng (nhiễu Gaussian với m=0, độ lệch chuẩn
bằng 0.01) để tạo tập ảnh có nhiễu dùng để thực hiện trung bình cộng. Hai ảnh chịu tác động của nhiễu được hiển thị trên hình 3.2.15b và 3.2.15c. Ảnh trung bình cộng với M= 4, 8 và 16 biểu diễn trên hình 3.2.15d,e,f. Có thể thấy rõ ràng ảnh 3.2.15f có chất lượng gần với ảnh gốc nhất. Để thấy rõ hơn tác dụng của quá trình trung bình ảnh, trên hình 3.2.16 biểu diễn các ảnh sai số (tuyệt đối) giữa ảnh 3.2.15d,e,f và ảnh gốc cùng histogram của chúng. Dễ dàng nhận thấy độ lệch chuẩn của
Chương 3 Kỹ thuật xử lý hình ảnh
128
ảnh sai số giảm khi M tăng.
Hình 3.2.15 a- Ảnh gốc. b,c) ảnh bị tác động bởi nguồn nhiễu ( ),x yη (tại các thời điểm
khác nhau). d,e,f ) kết quả trung bình của 4, 8 và 16 ảnh có nhiễu.
Hình 3.2.16 Từ trái sang phải: ảnh sai số giữa ảnh gốc (3.2.15a) và ảnh 3.2.15d,e,f và histogram của chúng.
3.2.2.2 Nâng cao chất lượng ảnh bằng toán tử không gian Một cách tổng quát, toán tử không gian trong xử lý ảnh được thực hiện tại vùng xung quanh
điểm ảnh theo các bước sau:
1- Xác định điểm ảnh trung tâm. 2- Thực hiện tính toán với các điểm ảnh nằm trong vùng lân cận điểm ảnh trung tâm (kích
thước và hình dạng vùng ảnh này được xác định trước). 3- Kết quả tính toán ở bước 2 (còn gọi là đáp ứng của quá trình xử lý) sẽ được gán cho điểm
ảnh trung tâm. 4- Thực hiện các bước trên cho toàn bộ các pixels của ảnh. Nếu toán tử biến đổi là tuyến tính, thì quá trình trên được gọi là quá trình lọc tuyến tính.
Chương 3 Kỹ thuật xử lý hình ảnh
129
Hình 3.2.17 Quá trình lọc trong không gian 2-D
Nếu ngược lại, ta có quá trình lọc phi tuyến. Toán tử không gian trong xử lý ảnh được sử dụng để lọc nhiễu và làm nổi các chi tiết nhỏ
hay đường biên.
3.2.2.2.1 Các bộ lọc tuyến tính (trong không gian ) Khi thực hiện lọc tuyến tính, các điểm ảnh sẽ được nhân với hệ số sau đó được tổng hợp
(cộng) lại với nhau để tạo ra đáp ứng của bộ lọc tại mỗi điểm (x,y). Vùng ảnh kích thước mxn được xử lý với ma trận mxn hệ số. Ma trận này thường được gọi là bộ lọc, ma trận lọc, cửa sổ lọc hay mặt nạ. Thường người ta lấy giá trị m và n là số lẻ để dễ xác định tâm điểm của mặt nạ.
Quá trình dịch chuyển tâm điểm của mặt nạ dọc theo ảnh và thực hiện toán tử tuyến tính nói trên cho từng điểm ảnh là quá trình nhân chập ảnh và mặt nạ các hệ số. Cơ chế lọc tuyến tính được mô tả trên hình 3.2.17.
Có hai cách thực hiện quá trình lọc tuyến tính, đó là thực hiện phép nhân chập như đã nói ở
trên hoặc thực hiện phép tính tương quan. Khi tính tương quan chúng ta di chuyển mặt nạ lọc qua các điểm ảnh; khi tính tích chập, mặt nạ phải được xoay 1800 trước khi thực hiện nhân với ma trận điểm ảnh. Ảnh f có kích thước MxN được lọc bởi mặt nạ ( )w ,x y kích thước (mxn) theo biểu
thức tổng quát sau:
( ) ( ) ( ), w , ,a b
s a t b
g x y s t f x s y t=− =−
= + +∑ ∑ (3.2.30)
( ) ( )1 / 2, 1 / 2a m b n= − = − , 0,1, 2..., 1x M= − , 0,1, 2..., 1y N= − .
Đáp ứng của mặt nạ lọc mxn tại điểm (x,y) là:
1 1 2 21
w w ... w wmn
mn mn i ii
R z z z z=
= + + + = ∑ (3.2.30a)
Phép lọc tuyến tính trong Matlab được thực hiện bằng hàm: B = imfilter(A, H, option1, option2,...); H- ma trận lọc với các thông số tùy chọn option1, option2.
Bộ lọc trung bình không gian thực hiện theo (3.2.30) thường được sử dụng để lọc nhiễu hoặc làm mờ (blurring) ảnh. Ví dụ: quá trình làm mờ ảnh có thể được sử dụng để lược bỏ các chi tiết nhỏ trước khi đưa vào nhận dạng những chi tiết có kích thước lớn trong ảnh. Trên hình 3.2.18 là hai mặt nạ dùng để thực hiện quá trình trung bình trong không gian, về bản chất, đó là mặt nạ lọc thông thấp. Đáp ứng mặt nạ hình 3.2.18a là giá trị trung bình của 9 điểm ảnh. Dễ dàng nhận
Chươn
thấy, tbình trđộng c
Vta có thđiểm tnhỏ. Cbình h
K"trơn" 3x3 và
Tgốc bị trên, ản
N
Jhàm G
Lchi tiết
ng 3 Kỹ thu
thành phần nrong vùng ảncủa mặt nạ sẽ
Hì
Hì
Với mặt nạ hhể xác định "trung tâm cóCách phân bốóa ảnh. Khi kích thưảnh sẽ tăng
à 5x5 (hình 3Tác dụng lọctác động củ
nh kết quả cóNhiễu Gausi
J = imnoiGausian.
Hì
Lọc tuyến tínt nhỏ, hay nổ
uật xử lý hình
hiễu, là nhữnnh rộng, sẽ bịẽ làm cho các
ình 3.2.18 C
a)
ình 3.2.19 Ả
hình 3.2.18b,"trọng lượng
ó "trọng lượnố "trọng lượn
ước cửa sổ tănlên, điều này.2.19a và 3.2c nhiễu của bủa nhiễu Gauó mức nhiễu an được tổng
ise(I,'ga
ình 3.2.20
nh bằng phưổi biên ảnh (l
h ảnh
ng điểm ảnh ị làm "trơn" c đường biên
Các mặt nạ d
Ảnh kết quả k
, các pixel khg" riêng (mứcng" lớn nhất,ng" này làm
ng lên, băng y thấy rõ trên2.19b). bộ lọc thôngssian được lọthấp hơn như
g hợp với ảnh
aussian',
a) Ảnh gốc. b
ương pháp nhlọc thông cao
có độ chói bsau khi bị tá
n hoặc các chi
dùng để thực
b)
khi lọc thông
hác nhau được độ quan trọ, các điểm ả
m giảm hiệu ứ
thông của bn hình minh h
g thấp với mọc tuyến tínhưng độ nét suh I bởi hàm M
m,v); m -
b) Ảnh nhiễu
hân chập trono). Đặc điểm
biến đổi bất tc động bởi mi tiết nhỏ tron
hiện trung b
thấp bằng m
ợc nhân với họng) cho từngảnh nằm càngứng nhòe đư
ộ lọc thông thọa kết quả l
ma trận 3x3 thh bằng ma truy giảm so vMatlab:
trung bình t
u. c) Kết quả
ng không giam của các ma
thường so vớmặt nạ nói trêng ảnh bị "là
bình không gi
ma trận 3x3 (a
hệ số khác ng pixel. Trong xa tâm, "trường biên kh
thấp sẽ giảmlọc thông thấ
hể hiện trên ận 3x3, đúngới ảnh gốc.
thống kê, v- đ
lọc thông th
an còn sử dụntrận lọc thôn
ới mức chói tên. Tuy nhiênàm mờ".
ian
a) và 5x5 (b)
nhau, làm nhưng mặt nạ 3.2rọng lượng" hi thực hiện t
, nên mức độấp với hai ma
hình 3.2.20.g như phân t
độ lệch chuẩn
hấp ảnh nhiễu
ng để làm nổng cao được
trung n, tác
ư vậy 2.18b,
càng trung
ộ làm a trận
Ảnh tích ở
n của
u
ổi các phân
Chương 3 Kỹ thuật xử lý hình ảnh
131
tích ở phần sau.
3.2.2.2.2 Làm trơn nhiễu bằng lọc phi tuyến (trong không gian ) Kỹ thuật lọc phi tuyến dựa trên cơ sở thống kê bằng cách sắp xếp giá trị các điểm ảnh trong
mặt nạ lọc thành dãy theo quy luật tăng dần hay giảm dần, qua đó chọn ra giá trị nằm tại vị trí nhất định nào đó trong dãy - giá trị này chính là đáp ứng của bộ lọc. Giá trị điểm ảnh là trung tâm của ma trận lọc sẽ được thay thế bằng đáp ứng tìm được.
Bộ lọc trung vị làm việc theo nguyên lý trên thường được sử dụng để lọc nhiễu xung. Đáp ứng của bộ lọc này chính là giá trị trung vị của các điểm ảnh nằm trong ma trận lọc. Trung vị của dãy số là giá trị x sao cho một nửa dãy số có giá trị nhỏ hơn hoặc bằng x, nửa còn lại lớn hơn hoặc bằng x. Với mặt nạ 3x3, trung vị sẽ bằng giá trị thứ 5 từ trên xuống. Ví dụ: trong mặt nạ 3x3 điểm ảnh có giá trị { }25,20,20,15,30,60,40,35,15 , sau khi sắp xếp lại theo thứ tự tăng dần sẽ có
dạng: { }15,15,20,20,25,30,35,40,60 . Như vậy, trung vị sẽ là giá trị 25.
Ưu điểm của bộ lọc phi tuyến so với các bộ lọc thông thấp ta đã xét ở trên là khả năng lọc nhiễu xung (nhiễu có dạng điểm đen trắng trên ảnh) tốt, đồng thời ít ảnh hưởng tới độ nét của ảnh. Ưu điểm nêu trên được minh họa trên hình 3.2.21. Ảnh gốc 3.2.21a bị ảnh hưởng của nhiễu xung. Ảnh có nhiễu (hình 3.2.21b) được đưa qua mạch lọc thông thấp (lấy trung bình không gian với ma trận (3x3) và mạch lọc trung vị với ma trận có cùng kích thước. Nhiễu xung được tạo ra trong ảnh bởi hàm Matlab: J = imnoise(I,'salt & pepper',d); d - mật độ nhiễu trong ảnh. Hàm lọc trung vị: J = medfilt2(I,[m n]);[m n]- kích thước ma trận lọc.
Kết quả lọc trung vị (hình 3.2.21c) cho thấy nhiễu xung bị triệt gần như hoàn toàn, các đường biên hầu như không bị biến dạng. Bộ lọc thông thấp trong trường hợp này cho kết quả kém hơn rất nhiều (hình 3.2.21d): biên độ nhiễu giảm đi, nhưng kích thước của các điểm nhiễu lớn lên, các đường biên nhòe đi rõ rệt.
Hình 3.2.21 a) Ảnh gốc; b) Ảnh nhiễu
c) Ảnh lọc median; d) Ảnh lọc trung bình không gian
Chương 3 Kỹ thuật xử lý hình ảnh
132
3.2.2.2.3 Làm tăng độ nét của ảnh
Toán tử Laplace hay Laplacian của hàm hai biến ( ),f x y được xác định bởi biểu thức:
2 2
22 2
f ffdx dy∂ ∂
∇ = + (3.2.31)
( ) ( ) ( )
( ) ( ) ( )
2
2
2
2
1, 1, 2 ,
, 1 , 1 2 ,
f f x y f x y f x yx
f f x y f x y f x yy
∂= + + − −
∂∂
= + + − −∂
(3.2.32)
Như vậy Laplacian tại điểm (x,y) tìm được theo biểu thức:
( ) ( ) ( ) ( ) ( )2 1, 1, , 1 , 1 4 ,f f x y f x y f x y f x y f x y∇ = + + − + + + − −⎡ ⎤⎣ ⎦ (3.2.33)
Toán tử Laplace được sử dụng rộng rãi trong kỹ thuật xác định đường biên và sẽ được phân tích trong phần 3.2.4. Tại đây, chúng ta sẽ chỉ xét kỹ thuật làm rõ ảnh sử dụng toán tử Laplace. Về mặt bản chất, đây là phương pháp ứng dụng đạo hàm bậc hai để làm tăng độ nét của ảnh.
Toán tử Laplace hai chiều cho tín hiệu rời rạc thường được thực hiện với mặt nạ kích thước 3x3. Hai mặt nạ lọc trên hình 3.2.22a và b thực hiện toán tử Laplacian rời rạc theo công thức (3.2.33) đều cho các ảnh kết quả giống nhau.
a) b)
Hình 3.2.22 Mặt nạ Laplacian Ảnh gốc (hình 3.2.23a) được xử lý bằng mặt nạ Laplacian. Vì toán tử Laplace là đạo hàm
bậc hai nên ảnh kết quả sẽ là tập hợp các đường biên nằm tại vùng biến đổi nhanh của mức chói trong ảnh (hình 3.2.23b). Thành phần nền của ảnh gốc (những vùng ảnh có độ chói gần như không đổi) sẽ cho giá trị gần bằng 0. Như vậy, nếu tổng hợp ảnh gốc 3.2.23a và ảnh các đương biên 3.2.23b, ta sẽ được ảnh mới, với các đường biên được tăng cường (hình 3.2.23c). Nói cách khác, ảnh kết quả sẽ có độ nét cao hơn.
a) b) c)
Hình 3.2.23 Làm nét ảnh bằng toán tử Laplace
a- ảnh gốc; b- ảnh các đường biên được làm nổi c- ảnh tổng hợp
Chương 3 Kỹ thuật xử lý hình ảnh
133
Tóm lại, công thức tổng quát để làm nét ảnh với toán tử Laplace là:
( )( ) ( )( ) ( )
2
2
, ,,
, ,
f x y f x yg x y
f x y f x y
⎧ − ∇⎪= ⎨+ ∇⎪⎩
(3.2.34)
Khi thực hiện Laplacian với mặt nạ trên hình 3.2.22a (mặt nạ với hệ số trung tâm nhỏ hơn 0), ảnh kết quả sẽ là hiệu giữa ảnh gốc và ảnh Laplacian và ngược lại, với mặt nạ 3.2.22b ảnh kết quả sẽ là tổng hai ảnh. Quá trình làm nét theo (3.2.34) được thực hiện theo hai bước: tìm Laplacian của ảnh gốc và tổng hợp ảnh gốc và ảnh kết quả với nhau. Tuy nhiên, chúng ta có thể thực hiện quá trình biến đổi này nhanh hơn. Dựa vào (3.2.33) và (3.2.34) ta có đáp ứng của bộ lọc làm tăng độ nét là:
( ) ( ) ( )( ) ( ) ( ) ( ) ( )
2, , ,
5 , 1, 1, , 1 , 1
g x y f x y f x y
f x y f x y f x y f x y f x y
= − ∇ =
= − + + − + + + −⎡ ⎤⎣ ⎦ (3.2.35)
Mạt nạ lọc thực hiện biểu thức (3.2.35) có dạng:
Hình 3.2.24 Mặt nạ làm nét ảnh bằng toán tử Laplace
3.2.3 Khôi phục ảnh
Khôi phục ảnh là quá trình loại bỏ hay tối thiểu hóa các ảnh hưởng của môi trường bên ngoài đến ảnh thu nhận được. Các nguyên nhân dẫn tới sự biến dạng (méo) ảnh có thể là: nhiễu tại bộ biến đổi quang-điện, méo do hệ thống ống kính quang học gây ra, nhiễu không gian ảnh hưởng tới tín hiệu trong quá trình truyền qua đường truyền, nhiễu công nghiệp tác động trực tiếp tới tín hiệu hình ảnh v.v. Trong phần này chúng ta sẽ đề cập tới một số phương pháp khôi phục ảnh như: lọc ảnh bằng bộ lọc không gian, khử nhiễu bằng các bộ lọc tần số thích nghi với nguồn nhiễu v.v.
3.2.3.1 Mô hình hóa quá trình gây méo và khôi phục ảnh
( ),f x y ( ),f x y
Hình 3.2.25 Mô hình gây méo/khôi phục ảnh Trong phần này, chúng ta sử dụng mô hình trên hình 3.2.25 để mô tả quá trình làm méo và
khôi phục ảnh. Trong mô hình này, ảnh gốc ( ),f x y chịu tác động của toán tử làm méo H, được
đặc trưng bởi hàm đáp ứng xung ( ),h x y và nhiễu cộng ( ),x yη . Dựa trên ( ),h x y và ( ),x yη ,
chúng ta phải tìm ra phương pháp khôi phục ảnh, sao cho ảnh ra ( ),f x y giống với ảnh vào nhất.
Nếu H là toán tử tuyến tính và bất biến, thì ảnh bị nhiễu ( ),g x y có dạng như sau:
( ) ( ) ( ) ( ) ( ) ( ), , , , , ,g x y H f x y x y h x y f x y x yη η= + = ∗ +⎡ ⎤⎣ ⎦ (3.2.36)
( ),h x y - hàm đáp ứng đặc trưng cho toán tử H trong không gian.
Chương 3 Kỹ thuật xử lý hình ảnh
134
Trong miền tần số, dựa trên tính chất của biến đổi Fourier ta có:
( ) ( ) ( ) ( ), , , ,G u v H u v F u v N u v= ⋅ + (3.2.37)
với ( ) ( ) ( ) ( ), , , , , , ,G u v H u v F u v N u v là kết quả biến đổi Fourie của các hàm tương ứng.
3.2.3.2 Mô hình nhiễu Cường độ nhiễu tác động lên hình ảnh là một đại lượng ngẫu nhiên, vì vậy khi phân tích các
kỹ thuật khôi phục ảnh, vấn đề quan trọng là cần xác định được mật độ phân bố xác suất của nguồn nhiễu. Dưới đây là một số loại nhiễu thường gặp trong lĩnh vực xử lý ảnh và hàm mật độ phân bố xác suất của chúng.
3.2.3.2.1 Nhiễu Gaussian Mô hình Gaussian tiện lợi cho việc phân tích trong miền thời gian cũng như trong miền tần
số, do đó mô hình này được sử dụng rất rộng rãi. Hàm mật độ phân bố xác suất của biến ngẫu nhiên z trong quá trình ngẫu nhiên Gaussian (quá trình ngẫu nhiên chuẩn) có dạng:
( ) ( )2 2/212
z mp z e σ
πσ− −= (3.2.38)
m - giá trị trung bình thống kê của z; σ - độ lệch chuẩn. 2σ là phương sai của quá trình ngẫu nhiên.
Đồ thị hàm mật độ phân bố xác suất chuẩn được biểu diễn trên hình 3.2.26.
3.2.3.2.2 Nhiễu Rayleigh Hàm mật độ phân bố xác suất của nhiễu Rayleigh:
( ) ( ) ( )2 /2
0
z a bz a e khi z ap z b
khi z a
− −⎧ − ≥⎪= ⎨⎪ <⎩
(3.2.39)
Giá trị trung bình và phương sai có dạng / 4m a bπ= + và ( )2 4
4b π
σ−
= .
Đồ thị hàm phân bố xác suất Rayleigh có dạng không đối xứng (hình 3.2.26), do đó phân bố này thường được dùng để xấp xỉ histogram có dạng tương đương.
3.2.3.2.3 Nhiễu Erlang (Gamma) Hàm mật độ phân bố xác suất của nhiễu Erlang có dạng:
( ) ( )1
01 !
0 0
b baza z e khi z
bp zkhi z
−−⎧
≥⎪ −= ⎨⎪ <⎩
(3.2.40)
với a>0, b- số nguyên dương.
Giá trị trung bình và phương sai bằng bma
= và 22
ba
σ = .
3.2.3.2.4 Nhiễu có phân bố là hàm mũ Hàm mật độ phân bố xác suất của nhiễu này là trường hợp đặc biệt của phân bố Erlang khi
b=1:
Chương 3 Kỹ thuật xử lý hình ảnh
135
( ) 00 0
azae khi zp z
khi z
−⎧ ≥= ⎨
<⎩ (3.2.41)
với a>0
Giá trị trung bình và phương sai bằng 1ma
= và 22
1a
σ =
3.2.3.2.5 Nhiễu có phân bố đều Hàm mật độ phân bố xác suất của nhiễu có dạng:
( )1
0
khi a z bp z b a
⎧ ≤ ≤⎪= −⎨⎪⎩
(3.2.42)
Giá trị trung bình của biến ngẫu nhiên z là 2
a bm += , phương sai
( )22
12a b
σ−
= .
3.2.3.2.6 Nhiễu dạng xung Hàm mật độ phân bố xác suất của nhiễu xung có thể mô tả như sau:
( )0
a
b
P khi z ap z P khi z b
=⎧⎪= =⎨⎪⎩
(3.2.43)
aP và bP là xác suất xuất hiện z a= hoặc z b= . Hàm mật độ phân bố có dạng
( ) ( ) ( )a bp z P z a P z bδ δ= − + − .
Hình 3.2.26 Một số hàm mật độ phân bố xác suất quan trọng.
với các z khác
với các z khác
Chương 3 Kỹ thuật xử lý hình ảnh
136
3.2.3.3 Triệt nhiễu bằng phương pháp lọc không gian Trường hợp khi ảnh chỉ chịu tác động của nhiễu cộng, các phương pháp lọc nhiễu trong
không gian thường cho kết quả khôi phục ảnh tốt nhất. Một số phương pháp lọc trong không gian được đề cập đến trong phần 3.2.2.2 như các biện pháp nâng cao chất lượng ảnh. Dưới đây sẽ giới thiệu một số bộ lọc không gian khác có thể dùng để khôi phục ảnh. Các thao tác thực hiện những bộ lọc này cũng dựa trên quá trình nhân chập mặt nạ lọc với ảnh như đã trình bày ở phần 3.2.2.2.
3.2.3.3.1 Các bộ lọc sử dụng kỹ thuật lấy trung bình trong không gian
Theo (3.2.36) và (3.2.37), ta có thể mô tả ảnh ( ),g x y chỉ bị ảnh hưởng bởi nhiễu cộng
( ),x yη trong miền không gian như sau:
( ) ( ) ( ), , ,g x y f x y x yη= + (3.2.44)
trong miền tần số ta có quan hệ:
( ) ( ) ( ), , ,G u v F u v N u v= + (3.2.45)
Trong các bộ lọc dưới đây, ta sử dụng ma trận lọc xyS có tâm nằm tại điểm (x,y) có kích
thước mxn. Ảnh khôi phục được ký hiệu là ( )ˆ ,f x y .
Bộ lọc sử dụng trung bình cộng (Arithmetic mean filter) Như đã đề cập trong phần 3.2.2.2.1, bộ lọc này thực hiện quá trình nhân chập ảnh vào với
mặt nạ xyS có các hệ số bằng 1 / mn :
( ) ( )( ),
1ˆ , ,xys t S
f x y g s tmn ∈
= ∑ (3.2.46)
Bộ lọc trung bình nhân (Geometric mean filter) Quan hệ giữa ảnh khôi phục và ảnh nhiễu được mô tả bằng công thức tính trung bình nhân
như sau:
( ) ( )( )
1
,
ˆ , ,xy
mn
s t S
f x y g s t∈
⎡ ⎤= ⎢ ⎥⎢ ⎥⎣ ⎦∏ (3.2.47)
Bộ lọc trung bình nhân cũng có tác dụng làm trơn nhiễu, ưu điểm của nó so với bộ lọc trung bình cộng là mức độ làm mờ các chi tiết nhỏ tương đối thấp.
Bộ lọc trung bình điều hòa (Harmonic mean filter) Kết quả nhận được khi lọc bằng bộ lọc trung bình harmonic sẽ là:
( )
( )( ),
ˆ , 1,
xys t S
mnf x y
g s t∈
=∑
(3.2.48)
Bộ lọc này có khả năng triệt nhiễu xung dạng "đốm trắng" và nhiễu Gaussian khá tốt. Nhưng bộ lọc này không có khả năng lọc các thành phần nhiễu xung dạng "đốm đen".
Bộ lọc contraharmonic (Contraharmonic mean filter) Biến đổi trong bộ lọc contraharmonic được mô tả bằng biểu thức:
Chương 3 Kỹ thuật xử lý hình ảnh
137
( )( )
( )
( )( )
1
,
,
,ˆ ,
,xy
xy
Q
s t SQ
s t S
g s tf x y
g s t
+
∈
∈
=∑
∑ (3.2.49)
Q - gọi là bậc của bộ lọc. Bộ lọc này thích ứng tốt với ảnh có nhiễu xung. Với Q là số dương, nhiễu xung "đốm đen" sẽ bị triệt, ngược lại, thành phần nhiễu xung "đốm trắng" được lọc bớt khi Q là số âm. Có thể thấy rằng khi Q=0, ta có bộ lọc trung bình cộng; với Q= -1 ta có bộ lọc trung bình hài.
Nhìn chung, các bộ lọc trung bình cộng và nhân thích ứng tốt với các loại loại nhiễu có phân bố Gaussian, Rayleigh hay nhiễu có phân bố đều. Bộ lọc contraharmonic cho phép triệt nhiễu xung khá tốt, tuy nhiên, như đã phân tích ở trên, chúng ta phải xác định được dạng nhiễu xung là "đốm đen" hay "đốm trắng".
3.2.3.3.2 Các bộ lọc dựa trên thống kê thứ tự Bộ lọc trung vị
Trong phần 3.2.2.2.2 đã đề cập tới kỹ thuật lọc trung vị, cho phép loại nhiễu xung trong ảnh. Đây là bộ lọc phi tuyến có đáp ứng là giá trị bằng giá trị điểm trung vị trong ma trận lọc:
( )( )
( ){ },
ˆ , ,xys t S
f x y med g s t∈
= (3.2.50)
Bộ lọc trung vị được sử dụng rất rộng rãi vì nó một mặt cho phép loại bỏ hiệu quả các loại nhiễu xung lưỡng cực cũng như đơn cực, mặt khác bộ lọc này ít làm trơn ảnh so với các bộ lọc sử dụng toán tử lấy trung bình như đã xét ở phần trên.
Bộ lọc dựa trên phép lựa trọn giá trị cực đại và cực tiểu Quá trình biến đổi dựa trên thống kê thứ tự và chọn giá trị cực đại được gọi là bộ lọc cực
đại:
( )( )
( ){ },
ˆ , max ,xys t S
f x y g s t∈
= (3.2.51)
Bộ lọc cực đại cho phép phát hiện những điểm sáng nhất trong ảnh, đồng thời có tác dụng triệt nhiễu xung dạng "đốm đen".
Bộ lọc cực tiểu được mô tả bằng biểu thức:
( )( )
( ){ },
ˆ , min ,xys t S
f x y g s t∈
= (3.2.52)
Bộ lọc này cho phép phát hiện những vùng tối của ảnh và làm giảm nhiễu xung "trắng". Bộ lọc giả trung vị
Đáp ứng của bộ lọc này là giá trị trung bình giữa hai điểm cực đại và cực tiểu trong ma trận lọc:
( )( )
( ){ }( )
( ){ },,
1ˆ , max , min ,2 xyxy s t Ss t S
f x y g s t g s t∈∈
⎡ ⎤= +⎢ ⎥⎣ ⎦ (3.2.53)
3.2.3.4 Triệt nhiễu trong miền tần số Các bộ lọc trong miền không gian đề cập tới ở các phần trên là các bộ lọc thông thấp hoặc
thông cao. Lọc không gian có thể được sử dụng để khôi phục ảnh có nhiễu hoặc để làm tăng chất lượng ảnh. Trong phần này chúng ta sẽ đề cập tới vấn đề xử lý ảnh trong miền tần số: đó là một số
Chương 3 Kỹ thuật xử lý hình ảnh
138
bộ lọc dải, bộ lọc chặn dải và ứng dụng của chúng để khôi phục ảnh có nhiễu tuần hoàn. Lọc chặn dải và lọc thông dải Đặc tuyến tần số của bộ lọc chặn dải lý tưởng được mô tả bằng biểu thức sau:
( )
( )
( )
( )
0
0 0
0
W1 ,2
W W, 0 ,2 2
W1 ,2
khi D u v D
H u v khi D D u v D
khi D u v D
⎧ < −⎪⎪⎪= − ≤ ≤ +⎨⎪⎪ > +⎪⎩
(3.2.54)
( ),D u v - Khoảng cách tính từ tâm điểm của không gian tần số (điểm 0) (hình 3.2.27d);
W - bề rộng băng chặn của bộ lọc; D0 - bán kính đường tròn đi qua tâm của băng chặn (hình 3.2.27d) Hàm đáp ứng tần số của bộ lọc chặn dải Butterworth bậc n có dạng:
( )( )( )
2
2 20
1,, W
1,
nH u vD u v
D u v D
=⎡ ⎤
+ ⎢ ⎥−⎣ ⎦
(3.2.55)
Hình 3.2.27 Đáp ứng tần số của bộ lọc a - lý tưởng, b - Butterworth,
c- Gaussian d- đáp ứng tần số bộ lọc Gaussian (hình chiếu từ trên xuống) Hàm đáp ứng tần số của bộ lọc chặn dải Gaussian được định nghĩa như sau:
( )( )( )
22 20,1
2 , W, 1D u v D
D u vH u v e⎡ ⎤−
− ⎢ ⎥⎢ ⎥⎣ ⎦= − (3.2.56)
Trên hình 3.2.27 a,b,c minh họa đáp ứng tần số của ba bộ lọc nêu trên (trong không gian 3 chiều).
Bộ lọc thông dải có đáp ứng tần số ( ),tdH u v ngược lại so với bộ lọc chặn dải ( ),cdH u v :
Chương 3 Kỹ thuật xử lý hình ảnh
139
( ) ( ), 1 ,td cdH u v H u v= − (3.2.57)
Notch filter Các bộ lọc Notch cho phép lọc một số thành phần phổ trong không gian phổ hai chiều của
ảnh. Khác với các bộ lọc chặn dải có đặc tuyến tần số đẳng hướng (hình 3.2.27b,c), notch filter cho phép lọc bỏ các thành phần nhiễu theo hướng nhất định trong không gian tần số.
Đặc tuyến tần số của notch filter (lọc chặn) lý tưởng có dạng đối xứng qua điểm gốc của không gian tần số, với đỉnh nằm tại các điểm ( 0 0,u v ) và ( 0 0,u v− − ) có thể được mô tả bằng biểu
thức sau:
( ) ( ) ( )1 0 2 00 , ,,
1khi D u v D hay D u v D
H u v≤ ≤⎧
= ⎨⎩
(3.2.58)
D0- bán kính miền chặn dải của bộ lọc.
( ) ( ) ( )2 21 0 0, / 2 / 2D u v u M u v N v⎡ ⎤= − − + − −⎣ ⎦ (3.2.59)
( ) ( ) ( )2 22 0 0, / 2 / 2D u v u M u v N v⎡ ⎤= − + + − +⎣ ⎦ (3.2.60)
Đặc tuyến tần số của Butterworth notch filter bậc n có dạng:
( )
( ) ( )20
1 2
1,
1, ,
nH u vD
D u v D u v
=⎡ ⎤
+ ⎢ ⎥⋅⎣ ⎦
(3.2.61)
với ( )1 ,D u v và ( )2 ,D u v tính theo (3.2.59) và (3.2.60)
Có thể thấy rằng, khi 0 0 0u v= = notch filter trở thành bộ lọc thông cao. Notch pass filter
(lọc thông dải) có đáp ứng tần số ( ),ntdH u v ngược lại so với bộ lọc chặn dải ( ),ncdH u v :
( ) ( ), 1 ,ntd ncdH u v H u v= − (3.2.62)
3.2.3.5 Kỹ thuật lọc ngược (inverse filter) Nhắc lại công thức 3.2.36 mô tả quá trình làm méo tín hiệu hình ảnh:
( ) ( ) ( ), , ,g x y H f x y x yη= +⎡ ⎤⎣ ⎦ (3.2.63)
Ở đây, chúng ta xét trường hợp tín hiệu bị làm méo bởi toán tử H tuyến tính, bất biến và nhiễu cộng ( ),x yη . Dựa trên hàm đáp ứng xung của hệ thống ( ),h x y ta có:
( ) ( ) ( ) ( ), , , ,g x y h x y f x y x yη= ∗ + (3.2.64)
Trong miền tần số, ứng dụng các tính chất của biến đổi Fourier ta có quan hệ sau:
( ) ( ) ( ) ( ), , , ,G u v H u v F u v N u v= ⋅ + (3.2.65)
( ) ( ) ( ), , , , ,F u v G u v N u v là phổ của ảnh gốc, ảnh kết quả và nhiễu. ( ),H u v - hàm đáp
ứng tần số (tương ứng với toán tử H).
Trong trường hợp khi hàm ( ),H u v được cho trước, kỹ thuật khôi phục đơn giản và chính
với các trường hợp khác
Chương 3 Kỹ thuật xử lý hình ảnh
140
xác nhất là lọc ngược. Hàm đáp ứng tần số của bộ lọc ngược là ( )1 / ,H u v , khi đó phổ của ảnh
kết quả ( )ˆ ,F u v sẽ bằng:
( ) ( ) ( )ˆ , , / ,=F u v G u v H u v (3.2.66)
Nếu ảnh bị tác động bởi nhiễu cộng, từ (3.2.65) ta có:
( ) ( ) ( ) ( )ˆ , , , / ,F u v F u v N u v H u v= + (3.2.67)
Có thể thấy rằng, ngay cả khi biết trước ( ),H u v , chúng ta vẫn không thể khôi phục chính
xác được ảnh gốc, vì nhiễu cộng là tín hiệu ngẫu nhiễn và hàm mật độ phổ ( ),N u v không xác
định chính xác được. Một nhược điểm nữa của lọc ngược là khi hàm ( ),H u v có giá trị bằng
hoặc gần bằng 0, bộ lọc này trở nên không ổn định. Trong trường hợp này, thành phần thứ hai của (3.2.67) sẽ có giá trị lớn hơn nhiều so với tín hiệu ảnh gốc. Để không xảy ra hiện tượng nói trên, trên thực tế băng thông của bộ lọc ngược được hạn chế trong dải tần thấp, nơi hàm ( ),H u v có
giá trị lớn hơn 0.
3.2.3.6 Lọc Wiener Phương pháp lọc ngược tuy đơn giản, nhưng kết quả không tối ưu khi ảnh chịu tác động của
nhiễu. Bộ lọc Wiener cho phép khôi phục ảnh dựa trên hàm biến đổi ( ),H u v và đặc điểm của
nguồn nhiễu. Trong kỹ thuật lọc Wiener, ảnh số ( ),f u v và nhiễu được mô tả như các các tín
hiệu ngẫu nhiên; Tín hiệu ở đầu ra của bộ lọc là ( )ˆ ,f u v phải đáp ứng được điều kiện sao cho lỗi
trung bình bình phương (MSE - mean square error) của ( )ˆ ,f u v và ( ),f u v phải là nhỏ nhất. Giá
trị MSE tính theo công thức sau:
( ){ }22 ˆe E f f= − (3.2.68)
Xét trường hợp thỏa mãn các điều kiện sau: - Nhiễu và ảnh gốc là hai tín hiệu ngẫu nhiên độc lập tương hỗ (không tương quan);
- Hoặc ảnh gốc, hoặc nhiễu có giá trị trung bình bằng 0;
- Hàm biến đổi ( ),H u v là tuyến tính
khi đó, có thể chứng minh được MSE sẽ là nhỏ nhất khi đáp ứng của bộ lọc được xác định theo biểu thức sau:
( ) ( ) ( )( ) ( ) ( )
( )
( )( )
( ) ( ) ( )( )
*
2
2
2
, ,ˆ , ,, , ,
,1 ,, , , / ,
f
f
f
H u v S u vF u v G u v
S u v H u v S u v
H u vG u v
H u v H u v S u v S u v
η
η
⎛ ⎞⎜ ⎟= =⎜ ⎟+⎝ ⎠⎛ ⎞⎜ ⎟= ⋅⎜ ⎟+⎝ ⎠
(3.2.69)
( ) ( ) 2, ,S u v N u vη = - Hàm mật độ phổ công suất của nhiễu;
( ) ( ) 2, ,fS u v F u v= - Hàm mật độ phổ công suất của tín hiệu ảnh gốc;
Chương 3 Kỹ thuật xử lý hình ảnh
141
( ) ( ), / ,fS u v S u vη - Tỷ lệ công suất nhiễu/tín hiệu (NSPR- Noise-to-Signal-Power-
Ratio).
( ),G u v - Phổ của ảnh đã bị biến đổi và chịu tác động của nhiễu.
Ảnh kết quả là biến đổi nghịch Fourier của ( )ˆ ,F u v .
Kết quả trên do N. Wiener thu được năm 1942. Bộ lọc có đáp ứng tần số mô tả trong (3.2.69) được gọi là bộ lọc trung bình bình phương cực tiểu. Nếu nhiễu không tồn tại trong hệ thống, mật độ phổ công suất ( ),S u vη bằng 0, bộ lọc Wiener sẽ biến thành bộ lọc ngược.
Có thể xác định hai đại lượng quan trọng là công suất trung bình của ảnh gốc và của nhiễu là:
( )1 ,A fu v
f S u vMN
= ∑∑ (3.2.70)
và ( )1 ,Au v
S u vMN ηη = ∑∑ (3.2.71)
MxN là kích thước ma trận ảnh và nhiễu. Tỷ lệ /A AR fη= (là hằng số) đôi khi được sử
dụng thay cho tỷ lệ NSPR trong (3.2.69), khi không thể tìm được hàm mô tả mật độ phổ công suất của nhiễu cũng như của tín hiệu hình ảnh. Tất nhiên, cách xấp xỉ này tương đối thô, nhưng ảnh khôi phục thường có chất lượng cao hơn so với ảnh nhận được khi lọc ngược. Phổ ảnh kết quả được mô tả bằng biểu thức sau:
( ) ( )( )
( )( )
2
2
,1ˆ , ,, ,
H u vF u v G u v
H u v H u v R
⎛ ⎞⎜ ⎟= ⋅⎜ ⎟+⎝ ⎠
(3.2.72)
Để so sánh khả năng khôi phục ảnh của các bộ lọc ngược và lọc Wiener, ta quan sát các ảnh được biểu diễn trên hình 3.2.28. Hình 3.2.28a là ảnh gốc dạng hình bàn cờ. Trong quá trình chụp ảnh, nếu camera bị dịch chuyển so với ảnh gốc, hình ảnh thu được sẽ bị nhòe. Trên hình 3.2.28b là ảnh bị làm nhòe theo cách trên, ảnh này được mổ phỏng bằng các hàm Matlab PSF=fspecial('motion',len,theta)và g=imfilter(f,PSF,'circular'); len - độ dịch chuyển của camera; theta - góc dịch chuyển;
Trên hình 3.2.28c là ảnh đã bị làm nhòe được tổng hợp với nhiễu Gaussian với giá trị trung bình bằng 0, độ lệch chuẩn 0.005. Hình 3.2.28d là kết quả lọc ngược từ ảnh 3.2.28b. Quá trình này được thực hiện bằng hàm: fr0=deconvwnr(g,PSF); đây chính là hàm thực hiện bộ lọc Wiener với NSPR bằng 0. Vì ảnh 3.2.28b không bị ảnh hưởng của nhiễu, nên lọc ngược cho phép khôi phục chính xác ảnh gốc.
Trên hình 3.2.28e là ảnh kết quả lọc ngược ảnh có nhiễu cộng, hình 3.2.28f là kết quả thực hiện lọc Wiener: fr2=deconvwnr(g,PSF,R), với giá trị / 0,07A AR fη= = (được tính theo (3.2.70) và (3.2.71).
Chương 3 Kỹ thuật xử lý hình ảnh
142
Hình 3.2.28 So sánh hiệu quả bộ lọc ngược và lọc Wiener Dựa trên các ảnh kết quả trên hình 3.2.28, có thể thấy rằng bộ lọc trung bình bình phương
cực tiểu Wiener với NSPR không đổi (3.2.72) cho kết quả tốt hơn rất nhiều so với bộ lọc ngược khi ảnh biến đổi bị tác động của nhiễu cộng.
3.2.4 Các phương pháp xác định và dự đoán biên ảnh
3.2.4.1 Cơ sở phát hiện đường biên ảnh Làm nổi, phát hiện và dự đoán biên ảnh là vấn đề quan trọng trong phân tích ảnh. Như đã
được định nghĩa ở phần trước, đường biên của một vùng ảnh R được tạo ra bởi các điểm ảnh có một hoặc nhiều điểm lân cận không nằm trong tập liên kết R. Nói cách khác, một điểm ảnh được coi là nằm trên đường biên nếu tại vị trí điểm ảnh đó có sự thay đổi đột ngột của mức xám. Như vậy, đường biên là đường nối các điểm ảnh nằm trong khu vực ảnh có thay đổi đột ngột về độ chói, đường biên thường ngăn cách hai vùng ảnh, khi mỗi vùng có các mức xám gần như không đổi.
a) b)
Hình 3.2.29 Minh họa khái niệm đường biên của ảnh. a- Đường biên giữa hai vùng ảnh trong không gian 2 chiều b- Sự thay đổi độ chói trên đường biên.
Trong trường hợp lý tưởng, độ chói giữa hai vùng ảnh thay đổi đột ngột hoặc tăng dần đều.
Chương 3 Kỹ thuật xử lý hình ảnh
143
Tuy nhiên, trên thực tế, mức xám giữa các vùng ảnh thay đổi tương đối ngẫu nhiên (hình 3.2.29b). Chính vì vậy quá trình phát hiện đường biên thường không đơn giản và kết quả thường không hoàn toàn chính xác.
Có nhiều phương pháp phát hiện đường biên khác nhau:
1- Phương pháp phát hiện đường biên trực tiếp dựa trên các phân tích về sự thay đổi độ chói của ảnh. Kỹ thuật chủ yếu dùng để phát hiện biên là dùng đạo hàm. Khi lấy đạo hàm bậc nhất của ảnh ta có phương pháp gradient, khi lấy đạo hàm bậc hai ta có kỹ thuật Laplace.
2- Phương pháp phát hiện đường biên trong ảnh màu: phân tích ảnh màu thành các ảnh đơn sắc (R,G,B) và xác định đường biên trên cơ sở sự thay đổi màu sắc trong các ảnh đơn sắc nói trên.
3- Phân tích ảnh thành vùng theo các đặc điểm đặc trưng. Ví dụ theo kết cấu bề mặt (texture). Ranh giới giữa các vùng chính là đường biên của ảnh.
Hình 3.2.30 Sơ đồ khối tổng quát của hệ thống phát hiện đường biên
Sơ đồ khối tổng quát của hệ thống phát hiện đường biên biểu diễn trên hình 3.2.30.
Ảnh gốc f(x,y) được đưa vào khối làm nổi đường biên. Ở đây, bằng phương pháp xử lý tuyến tính hoặc phi tuyến, ảnh f(x,y) được làm tăng mức chênh lệch độ chói giữa các vùng ảnh. Ảnh G(x,y) là ảnh đã được xử lý đường biên. Tại khối so sánh, người ta so sánh giá trị các điểm ảnh G(x,y) với mức ngưỡng T để xác định vị trí các điểm nằm ở vùng có mức thay đổi độ chói lớn tức các điểm ảnh nằm trên đường biên. Ví dụ: khi f(x,y) được xử lý bằng đạo hàm bậc hai, ảnh kết
quả G(x,y) sẽ được so sánh với các mức ngưỡng TL (thấp) và TH (cao). Nếu ( ) LG x,y T< thì
điểm (x,y) là điểm biên, nằm vùng có độ chói thấp. Và ngược lại nếu ( ) HG x,y T> - điểm (x,y)
nằm ở vùng có mức chói cao.
Việc lựa chọn giá trị ngưỡng rất quan trọng trong quá trình xác định đường biên. Khi giá trị T quá cao, các đường biên có độ tương phản thấp sẽ bị mất đi, ngược lại, khi T quá thấp, dễ xảy ra hiện tượng xác định biên sai khi ảnh chịu tác động của nhiễu.
3.2.4.2 Phương pháp Gradient Phương pháp gradient là phương pháp dò biên cục bộ dựa vào giá trị cực đại của đạo hàm
bậc một. Gradient của ảnh ( ),f x y tại điểm A là vector f∇ . Hướng của vector gradient trùng
với hướng có tốc độ thay đổi lớn nhất của hàm ( ),f x y .
x
y
fG xf
fGy
∂⎡ ⎤⎢ ⎥⎡ ⎤ ∂∇ = = ⎢ ⎥⎢ ⎥ ∂⎢ ⎥⎣ ⎦⎢ ⎥∂⎣ ⎦
(3.2.73)
Các thành phần của gradient được tính bởi:
Chương 3 Kỹ thuật xử lý hình ảnh
144
( ) ( ) ( )x
f x, y f x dx, y f x, yG
x dx∂ + −
= =∂
(3.2.74)
( ) ( ) ( )y
f x, y f x, y dy f x, yG
y dy∂ + −
= =∂
(3.2.75)
dx và dy là khoảng cách giữa các điểm theo hướng lấy đạo hàm x và y. Trên thực tế thường dùng dx=1, dy=1.
Modul của vector gradient f∇ chính là giá trị thay đổi lớn nhất của hàm f tại điểm A (hình
3.2.31) theo hướng của vector f∇ :
2 2x yf f G G∇ = ∇ = + (3.2.76)
Việc xác định modul gradient theo công thức trên đòi hỏi thực hiện phép tính bình phương và lấy căn bậc hai. Để đơn giản hóa quá trình tính toán, mà vẫn có kết quả tương đối chính xác khi tìm biên, người ta xấp xỉ giá trị gradient như sau:
x yf f G G∇ ≅ ∇ = + (3.2.77)
Hướng của vector gradient tại điểm A có tọa độ (x,y) cũng là một thông số quan trọng, nó
được xác định thông qua góc ( ),x yα giữa vector f∇ và trục x:
( ), ar y
x
Gx y ctg
Gα
⎛ ⎞= ⎜ ⎟
⎝ ⎠ (3.2.78)
Hướng của đường biên ảnh là đường vuông góc với vector gradient f∇ , trên hình được biểu diễn như vector n.
Khi ảnh số được biểu diễn như ma trận các điểm ảnh phân bố theo dòng và cột, gradient rời rạc theo hướng x sẽ bằng:
( ) ( ) ( )xG x,y f x 1,y f x,y= + − (3.2.79)
Gradient theo hướng y sẽ là:
( ) ( ) ( )yG x, y f x, y 1 f x, y= + − (3.2.80)
Hình 3.2.31 Vector Gradient tại điểm A
Chươn
a
Đlại. Kế3.2.32
CRobert
b
S3.2.33b
G(3.2.33(3.2.81ảnh (tr
ng 3 Kỹ thu
a)
Để làm nổi nết quả quá .
Có nhiều cáct.
-1 z30
0 z31
b- Mặt nạ Ro
Sử dụng toánb) như sau:
Gradient của3b). Trên hìn1). Trong từnrên ảnh gốc)
Hình 3.2.ảnh và cácgradient tạ
uật xử lý hình
những đườngtrình làm n
ch tìm đạo hà
0 z3-1
1 z30
obert c - M
n tử Robert, t
a ảnh được tìmnh (3.2.34b)ng ảnh, các đcó độ chói kh
33 Ma trậnc mặt nạ dùại điểm z5
h ảnh
c)
g biên dọc, tanổi đường b
àm bậc một c
-1 -1 z3-1
0 0 z30
1 1 z31
Mặt nạ Prew
ta tìm ra grad
1 9
2 8
G z zG z z
= −= −
m ra bằng cá) là hai ảnh kđường biên dhông đổi đượ
s
n 9 điểm ng để tìm
a phải lấy đạbiên theo ph
của ảnh, đơn
z1
z4
z7
-1 0
-1 0
-1 0
witt
dient theo đư
5
6
zz
ách nhân chậkết quả có đưdọc theo haiợc tô màu đe
Hình sử dụng phươ
a- Ảnb- Grc- Gr
b)
ạo hàm rời rạhương pháp
giản nhất là
1 z2 z3z3
4 z5 z3z6
7 z8 z3z9
z31
z31
z31
-1
0
1
d- mặt
ường chéo củ
ập ảnh với cácược sau khi t đường chéon trên ảnh kế
3.2.32 Lơng pháp granh gốc; radient theo cradient theo c
ạc theo chiềugradient thể
phương phá
a- Ma trận
-2 z3-1
0 z30
2 z31
t nạ Sobel
ủa block 2x2
(3.
c mặt nạ Robthực hiện toá
o được làm nết quả.
Làm nổi đườnadient.
chiều x (Gx);chiều y (Gy);
u ngang và nể hiện trên
áp sử dụng to
các điểm ảnh
-1 0 z1
-2 0 z2
-1 0 z1
tại điểm z5
2.81)
bert như trênán tử Robertnổi, còn các
ng biên
; ;
ngược hình
oán tử
h
z31
z32
z31
(hình
n hình t theo vùng
Chươn D
3x3 hotính th
Tđiểm k
giá trị hướng
Vtrình n
ng 3 Kỹ thu
Do mặt nạ 2oặc 5x5. Toá
heo chiều nga
Toán tử Sobkhác biệt là c
2± (hình 3.2g:
Việc tăng ginhân chập ảnh
a)
b)
c)
d)
uật xử lý hình
2x2 không cóán tử Prewittang và chiều
(xG z=
(yG z=
el được biểucác hệ số nằm
2.33d). Mặt n
(xG z=
(yG z=
á trị các hệ sh gốc với các
h ảnh
ó điểm trungt được thực hdọc sẽ bằng:
)7 8 9z z z+ +
)3 6 9z z z+ +
u diễn trên hìm tại vị trí lâ
nạ nói trên cũ
7 8 92z z z+ +
3 6 92z z z+ +
số nói trên sẽc mặt nạ này.
tâm, người hiện với các
) ( 1 2z z− + +
) ( 1 4z z− + +
ình 3.2.33d cân cận theo ch
ũng cho phép
) (9 1 2z z− +
) (9 1 2z z− +
ẽ làm giảm t.
ta thường dùmặt nạ như
)3z+
)7z+
có tác dụng ghiều ngang v
p thực hiện q
)2 3z z+
)4 7z z+
tính trung bìn
gđmP
ùng các mặt ư trên hình (3
(3.
(3.
gần giống nhvà dọc với 5zquá trình tìm
(3.
(3.
nh hóa (làm
Hình gốc (a) và kđường biênmặt nạ RobPrewitt (c)Sobel (d).
nạ có kích t3.2.34c). Gra
2.82)
2.83)
hư mặt nạ Pre
5 tức (4 5N zđạo hàm the
2.84)
2.85)
mờ ảnh) của
3.2.34 Ảkết quả làm nn sử dụng cert (b), mặt
) và mặt
thước adient
ewitt,
)5 có
eo hai
a quá
Ảnh nổi các nạ nạ
Chương 3 Kỹ thuật xử lý hình ảnh
147
Có thể thấy rằng tổng các hệ số trong các mặt nạ nói trên bằng 0, như vậy tại những vùng ảnh có độ chói không đổi, đáp ứng của bộ lọc sẽ bằng 0, điều này hoàn toàn phù hợp với tính chất của toán tử tìm đạo hàm.
Toán tử Prewitt và Sobel được sử dụng rộng rãi hơn so với Robert vì chúng ít nhậy cảm với nhiễu nhờ tháo tác lấy trung bình cục bộ trong vùng rộng hơn (9 điểm ảnh)
Kết quả nhận được khi thực hiện toán tử Prewitt và Sobel được thể hiện trên hình (3.2.34c,d).
Dễ dàng nhận thấy các đường biên ngang và dọc được làm nổi bằng toán tử Sobel có biên độ lớn hơn so với kết quả của toán tử Prewitt.
Mặt nạ Prewitt và Sobel được mô tả ở trên cho phép làm nổi đường biên cục bộ nằm theo chiều ngang và chiều dọc. Có thể thay đổi cấu trúc những mặt nạ nói trên để chúng cho đáp ứng mạnh nhất với các đường biên nằm theo góc 450 và 1350 so với trục x.
Hai cặp mặt nạ bổ xung Prewitt và Sobel dùng để làm nổi biên theo đường chéo có dạng như trên hình 3.2.35 và 2.3.36.
Hình 3.2.35 Cặp mặt nạ Prewitt (bổ xung) Hình 3.2.36 Cặp mặt nạ Sobel (bổ xung)
3.2.4.3 Làm nổi biên bằng toán tử la bàn Đạo hàm rời rạc hai chiều có thể được thực hiện bằng cách lấy tổng chập giữa ảnh gốc và
mặt nạ gradient. Một số mặt nạ được sử dụng để làm nổi các đường biên theo hướng nhất định. Các mặt nạ cho phép phát hiện đường biên nằm dọc theo tám hướng (địa lý) được sử dụng trong toán tử la bàn. Tên mặt nạ được đặt theo hướng thay đổi độ chói mà mặt nạ cho đáp ứng lớn nhất. Ví dụ, mặt nạ hướng đông cho đáp ứng mạnh nhất với sự thay đổi độ chói theo hướng từ trái sang phải. Lưu ý rằng tổng các hệ số trong từng mặt nạ bằng 0, như vậy đáp ứng của chúng với ảnh có mức chói không đổi sẽ bằng 0.
Hình 3.2.37 Mặt nạ dùng trong toán tử la bàn
Chương 3 Kỹ thuật xử lý hình ảnh
148
Trong hình dưới đây là một số ảnh đã được xử lý nổi biên bằng các mặt nạ trên:
Mặt nạ Bắc Mặt nạ Nam
Mặt nạ Đông Bắc Mặt nạ Đông
Hình 3.2.38 Minh họa quá trình làm nổi biên bằng toán tử la bàn. Có thể thấy rằng, các mặt nạ trên có tổng giá trị các hệ số bằng 0, do đó đáp ứng của mặt nạ
tại vùng ảnh có độ chói không đổi sẽ bằng 0.
Toán tử la bàn Kirsh cũng cho phép làm nổi biên theo tám hướng. 8 mặt nạ Kirsh có dạng như sau:
Hình 3.2.39 Mặt nạ thực hiện toán tử Kirsh
3.2.4.4 Kỹ thuật Laplace Phương pháp gradient cho kết quả khá tốt khi mức sáng giữa các vùng ảnh thay đổi tương
đối rõ nét. Khi mức xám thay đổi chậm, các đường biên không rõ nét, miền chuyển tiếp tương đối rộng, phương pháp làm nổi biên hiệu quả hơn là dùng đạo hàm bậc hai. Phương pháp này gọi là phương pháp Laplace. Toán tử Laplace được định nghĩa như sau:
Chương 3 Kỹ thuật xử lý hình ảnh
149
2 2
22 2
f ffdx dy∂ ∂
∇ = + (3.2.86)
Việc xấp xỉ đạo hàm bậc hai cho tín hiệu rời rạc (tạm thời xét tín hiệu một chiều) được thực hiện như sau:
( ) ( ) ( )2
2 1 1 2f f x f x f xx
∂= + + − −
∂ (3.2.87)
Để thấy sự khác biệt, chúng ta quan sát tác động của đạo hàm bậc một và bậc hai tới tín hiệu:
Hình 3.2.40 Minh họa ứng dụng đạo hàm bậc một và bậc hai trong quá trình tách biên
Nhìn trên đồ thị kết quả đạo hàm bậc một và hai (hình 3.2.40 và 3.2.41) ta thấy đạo hàm bậc một trong vùng mức xám giảm dần có giá trị khác không, trong khi đạo hàm bậc hai chỉ khác không ở vị trí đầu và cuối vùng này. Vùng biên trên ảnh thực thường có sự thay đổi độ chói tương đối chậm, do đó có thể thấy đạo hàm bậc hai cho phép xác định vị trí đường biên tốt hơn đạo hàm bậc một. Tại vị trí điểm ảnh riêng rẽ, đạo hàm bậc hai cho đáp ứng mạnh hơn, do đó các chi tiết nhỏ (và cả nhiễu) sẽ được làm nổi rõ nét hơn. Đường nét tương đối mảnh trên hình ảnh cũng được làm nổi nhiều hơn khi sử dụng đạo hàm bậc hai. Cuối cùng, đối với tín hiệu dạng "bậc sáng" (hình 3.2.40) đáp ứng của cả đạo hàm bậc một và hai gần giống nhau. Tuy nhiên đạo hàm bậc hai có thể cho giá trị âm và dương. Do đó kết quả xác định biên dựa trên đạo hàm bậc hai có thể cho hiệu ứng đường biên đôi.
Hình 3.2.41 Dạng tín hiệu nhận được sau khi lấy đạo hàm bậc 1 và bậc 2
Chương 3 Kỹ thuật xử lý hình ảnh
150
Các hệ thống phân tích ảnh dựa trên đạo hàm bậc hai thường rất nhạy cảm với nhiễu, điều này được minh họa trên hình (3.2.42). Trên hình (3.2.42a) là ba ảnh từ trái sang phải có độ chói tăng dần. Ảnh thứ hai và thứ ba bị tác động bởi nguồn nhiễu Gausian với tỷ lệ S/N tương ứng là 25 và 15 dB. Hình (3.2.42b) biểu diễn phân bố độ chói dọc theo từng dòng ảnh. Kết quả đạo hàm bậc một và hai của ảnh được biểu diễn trên các hình 3.2.42c và 3.2.42d. Dễ dàng nhận thấy hiệu ứng đường biên đôi, cũng như khả năng chống nhiễu kém của phương pháp tìm biên bằng đạo hàm bậc hai so với đạo hàm bậc một.
Hình 3.2.42 Minh họa quá trình phát hiện biên bằng đạo hàm bậc một và bậc hai.
Đối với tín hiệu 2 chiều, đạo hàm riêng theo trục x và y bằng:
( ) ( ) ( )2
2 1, 1, 2 ,f f x y f x y f x yx
∂= + + − −
∂ (3.2.88)
( ) ( ) ( )2
2 , 1 , 1 2 ,f f x y f x y f x yy
∂= + + − −
∂ (3.2.89)
Thông thường, toán tử Laplace hai chiều rời rạc được thực hiện với mặt nạ kích thước 3x3. Có hai cách xấp xỉ đạo hàm bậc 2 rời rạc cho vùng ảnh 3x3: theo công thức (3.2.90) và (3.2.91).
[ ]25 2 4 6 84f z z z z z∇ = − + + + (3.2.90)
[ ]25 1 2 3 4 6 7 8 98f z z z z z z z z z∇ = − + + + + + + + (3.2.91)
Để thực hiện các công thức trên, chúng ta sử dụng hai mặt mạ tương ứng như trên hình 3.2.43.
a) b) c)
Hình 3.2.43 Mặt nạ thực hiện toán tử Laplace
a- Thứ tự các điểm ảnh trong mặt nạ
b- Mặt nạ thực hiện toán tử (3.2.90) c- Mặt nạ thực hiện toán tử (3.2.91)
Trên hình 3.2.44a và b là kết quả thực hiện toán tử Laplace bằng các mặt nạ 3.2.43b và
Chươn
3.2.43chơn.
Ttrưng thườngđể làmảnh bằLaplac
M
Đ
Thệ thốn
M
phép tíảnh vớKết qu
ng 3 Kỹ thu
c. Biên độ cá
a)
Hì
Trong thực tcho đạo hàmg dẫn đến hiệ
m giảm ảnh hằng bộ lọc Gace của hàm G
Mức độ làm
Đạo hàm bậc
Trên hình 3.2ng thực hiện
HìnMặt nạ trên hính tuyến tínới hàm làm muả nhận được
uật xử lý hình
ác đường biê
ình 3.2.44 M
tế toán tử Lam bậc hai. Nện tượng xuấhưởng của nhausian. Ảnh
Gausse hai ch
( )h r =
mờ ảnh sẽ p
c hai của hàm
( )2h r∇
2.45a, b, c làtoán tử Lapl
nh 3.2.45 Hàmhình 3.2.45d
nh, do đó quámờ Gausse 2c minh họa tr
h ảnh
ên thu được d
Minh họa quá
aplace ít đượNgoài ra, nhưất hiện các bihiễu, trước kđưa vào xử l
hiều có dạng n2 2
22x y
e eσ+− −
= =
phụ thuộc vào
m Gausse the
)2 2
4
r σσ
⎛ −= ⎜⎝
à đồ thị 3 chilacian-Gauss
m đáp ứng củđược sử dụn
á trình nhân c2 chiều (3.2.9ên hình 3.2.4
dựa trên bộ l
b)
trình làm nổi
ợc sử dụng trư đã phân tíciên kép, gây khi thực hiện lý trong trườnhư sau:
2
22rσ
−
o giá trị dung
o r sẽ có dạn2
22
2r
e σ−⎞
⎟⎠
ều, ảnh nhìn ian (gọi tắt là
ủa bộ lọc Lapng để xấp xỉ tchập ảnh và L92), sau đó th45.
lọc bằng mặt
i đường biên
rực tiếp do ch ở trên, vikhó khăn chotoán tử Lap
ờng hợp này s
g sai chuẩn σng:
từ phía trên à Laplacian o
placian-Gaustoán tử LoG LoG cũng tươhực hiện toán
t nạ hình 3.2.
n bằng toán tử
tính nhạy cảiệc sử dụng o việc phân đ
place người tsẽ được nhân
(3.
2σ .
(3.
và hình cắt hof a Gaussian
ssian và ảnhrời rạc. Vì đơng đương vn tử Laplace
.43c có giá tr
ử Laplace
ảm với nhiễuđạo hàm bậđoạn ảnh. Vìta thường làmn chập với to
2.92)
2.93)
hàm đáp ứngn – LoG).
kết quả đạo hàm bậc hới việc nhân
e để làm nổi
rị lớn
u đặc ậc hai ì vậy, m mờ oán tử
g của
hai là chập biên.
Chương 3 Kỹ thuật xử lý ảnh
152
3.2.5 Phân vùng ảnh
3.2.5.1 Tổng quan về phân vùng ảnh Vùng ảnh (segment) là một chi tiết trong ảnh. Nó được hình thành bởi tập hợp các điểm ảnh
có cùng hoặc gần cùng một tính chất nào đó như: mức xám, màu sắc, kết cấu (texture) v.v. Đường bao xung quanh vùng ảnh được gọi là biên ảnh (boundary).
Phân vùng ảnh là quá trình phát hiện và tách ảnh thành các vùng hoặc các thành phần độc lập. Các thành phần độc lập có thể được xác định dựa trên cơ sở đường biên của chúng, hoặc dựa trên các tiêu chuẩn phân vùng liên thông có cùng độ chói, màu sắc hoặc có cùng các tham số khác của ảnh. Ngoài ra còn có các kỹ thuật phân vùng khác như phân vùng dựa vào biên độ, phân vùng theo kết cấu (texture segmentation), phân vùng dựa trên tốc độ di chuyển của các chi tiết trong ảnh v.v.
3.2.5.2 Phân vùng ảnh dựa theo đường biên Quá trình làm nổi biên cục bộ được trình bày ở phần trước, trong trường hợp tối ưu chỉ cho
phép phát hiện tập hợp các điểm ảnh nằm trên đường biên. Trên thực tế, dưới tác động của nhiễu, tập hợp các điểm đó thường không mô tả đường biên một cách chính xác. Vì vậy, người ta thường sử dụng các thuật toán để liên kết tập hợp các điểm ảnh nói trên thành đường biên. Có nhiều kỹ thuật được dùng cho mục đích này.
3.2.5.2.1 Mô tả đường biên bằng giải pháp xử lý cục bộ Một trong những giải pháp đơn giản nhất để thực hiện liên kết đường biên là phân tích các
đặc trưng của điểm ảnh trong vùng lân cận nhỏ (3x3 hoặc 5x5) của mỗi điểm (x,y) trong ảnh cần tách biên. Tất cả các điểm ảnh có chung một đặc điểm lựa chọn trước sẽ được liên kết lại thành đường biên.
Hai đặc điểm được lựa chọn để xác định sự giống nhau của các điểm ảnh biên là: 1- Độ lớn của gradient tại điểm biên 2- Hướng của gradient
Độ lớn gradient f∇ được tính theo (3.2.76) hoặc (3.2.77) cho điểm ảnh (x,y). Điểm ảnh biên (x0,y0), nằm trong vùng ảnh xung quanh điểm (x,y) sẽ được coi là “giống” với điểm (x,y) nếu:
( ) ( )0 0, ,f x y f x y E∇ −∇ ≤ (3.2.94)
Trong đó E- là ngưỡng biên độ cho trước. Hướng của vector gradient tại điểm (x0,y0) được cho là “trùng” với hướng vector gradient
tại điểm (x,y) (tính theo (3.2.78)), nếu:
( ) ( )0 0, ,x y x y Aα α− ≤ (3.2.95)
A- Góc lệch được cho trước.
Điểm ảnh (x0,y0) sẽ được nối với điểm (x,y) nếu thỏa mãn hai điều kiện (3.2.94) và (3.2.95). Điểm ảnh (x0,y0) sẽ được ghi lại như điểm biên thực. Quá trình so sánh nói trên được thực
hiện cho tất cả các điểm ảnh biên đã được phát hiện.
3.2.5.2.2 Mô tả đường biên bằng phương pháp xử lý toàn cục (global processing)
Trong phần này, quá trình mô tả đường biên sẽ được thực hiện dựa trên cở sở xác định các
Chương 3 Kỹ thuật xử lý ảnh
153
điểm ảnh có nằm trên cùng đường cong (hoặc đường thẳng) cho trước hay không. Khác với phương pháp liên kết trong phần (3.2.5.2.1), để xấp xỉ đường biên, chúng ta phải xét đến quan hệ giữa các điểm ảnh nằm trong toàn ảnh.
- Xấp xỉ đường biên bằng đa thức
Xét tập hợp các điểm ảnh có tọa độ ( ,i ix y ) với 0,1,2,.....i M= nằm trên ranh giới giữa
hai vùng ảnh. Các điểm ảnh được đánh số theo thứ tự sao cho điểm ( ),i ix y nằm cạnh điểm
( )1 1,i ix y+ + . Quá trình xấp xỉ đường cong trên tập điểm ảnh là quá trình xác định hàm ( )y g x=
sao cho sai số xấp xỉ, tức độ khác biệt giữa điểm ( ),i ix y và ( ),i ix g x⎡ ⎤⎣ ⎦ , là nhỏ nhất. Sai số xấp
xỉ có thể được đánh giá thông qua:
Sai số tuyệt đối: ( )1
M
i ii
y g xε=
= −∑
Sai số trung bình bình phương: ( ) 2
1
M
i ii
y g xε=
= −⎡ ⎤⎣ ⎦∑
Sai số tối đa: ( )max i iiy g xε = −
Trong trường hợp tổng quát, ta có thể dùng đa thức bậc N để xấp xỉ đường biên: 2
0 1 2ˆ ... NNy a a x a x a x= + + + + (3.2.96)
ai - hệ số của đa thức. Sau khi đặt tọa độ của các điểm ảnh trên đường biên vào (3.2.96) ta có hệ phương trình
tuyến tính: 2
0 00 0 02
1 11 1 12
2 22 2 2
20
ˆ1 ...ˆ1 ...ˆ1 ...
1ˆ1 ...
N
N
N
NNM M M
a yx x xa yx x xa yx x x
a yx x x
⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥=⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦⎣ ⎦
(3.2.97)
Hệ phương trình trên có thể viết gọn thành:
ˆXa y= (3.2.98)
Giải hệ phương trình trên, ta có thể tìm ra được tập hệ số ai của đa thức y .
Sai số trung bình bình phương là:
( ) ( )ˆ ˆTy y y yε = − − (3.2.99)
- Xấp xỉ đường biên bằng các đoạn thẳng Đây là phương pháp xấp xỉ đường biên tương đối đơn giản. Quá trình thực hiện được mô tả
trên hình 3.2.46. Tại bước đầu tiên, ta nối hai điểm ngoài cùng của tập điểm đang xét là A và B bằng một đường thẳng. Sau đó tiến hành dò tìm điểm có độ lệch lớn nhất theo hướng trực giao với đường AB (điểm C) (hình 3.2.46a). Nối điểm A,B và C với nhau. Thao tác trên được lặp lại cho hai đoạn thẳng AC và CB với các điểm ảnh lân cận của chúng (hình 3.2.46b). Quá trình xấp xỉ biên sẽ được kết thúc khi đường thẳng gấp khúc sẽ “gần giống” với đường biên thực: cho đến lúc khoảng cách giữa các điểm biên và đường thẳng gấp khúc luôn nhỏ hơn ngưỡng quy định là dmin
Chương 3 Kỹ thuật xử lý ảnh
154
(điểm F trên hình 3.2.46c).
Hình 3.2.46 Minh họa xấp xỉ đường biên bằng các đoạn thẳng
- Xấp xỉ đường biên bằng biến đổi Hough (Hough transform) Để xấp xỉ đường biên bằng các đoạn thẳng, chúng ta phải xác định được tập hợp các điểm
ảnh nằm trên hoặc gần một đường thẳng nào đó. Để giải quyết bài toán này chúng ta có thể sử dụng phép biến đổi do Hough đề nghị năm 1962. Một đường thẳng trong mặt phẳng (x,y) có thể được biểu diễn bằng hệ tọa độ góc thông qua khoảng cách r từ đường thẳng tới điểm 0 và góc θ như trên hình 3.2.46a:
cos sinr x yθ θ= + (3.2.100)
Như vậy, mỗi đường thẳng có thể biểu diễn trong mặt phẳng (r,θ ) bằng 1 điểm duy nhất (hình 3.2.47b).
Biến đổi Hught là quá trình ánh xạ các điểm nằm trên một đường thẳng thành một điểm trên
mặt phẳng (r,θ ). Một tập các đường thẳng cắt nhau tại một điểm (hình 3.2.47c) sau khi được biến
Hình 3.2.47 Minh họa biến đổi Hough a) Đường thẳng trong không gian (x,y). b) Đường thẳng được biểu diễn bằng 1 điểm trong không gian (r,θ ). c) Tập các đường thẳng đi qua một điểm d) Biến đổi Hough của tập đường thẳng e) Các điểm A,B,C nằm trên một đường thẳng có tọa độ góc (r,θ ) f) Biến đổi Hough cho tập các đường thẳng chạy qua A,B và C
Chương 3 Kỹ thuật xử lý ảnh
155
đổi sẽ tạo ra 1 đường cong trên mặt phẳng (r,θ ) (hình 3.2.47d).
Chúng ta xét ba điểm A, B, C trong mặt phẳng (x,y). Biến đổi Hough đối với các đường thẳng đi qua từng điểm A, B, C sẽ tạo ra ba đường cong trên mặt phẳng như trên hình 3.2.47f. Có thể thấy rằng điểm cắt của ba đường cong tại ( )0 0,X r θ ánh xạ sang mặt phẳng (x,y) sẽ cho
đường thẳng đi qua cả ba điểm A, B và C.
Khi ba điểm A,B,C không nằm cùng trên một đường thẳng, 3 đường cong nói trên sẽ không cắt nhau ở cùng một điểm. Tuy nhiên, có thể thấy rằng đối với các điểm nằm gần đường thẳng AC trên mặt phẳng (x,y), biến đổi Hough sẽ cho kết quả là các đường cong cắt nhau trong khu vực lân cận với điểm ( )0 0,X r θ (hình 3.2.47f). Tính chất này được sử dụng để xấp xỉ đường biên trong
ảnh số. Tất cả các điểm biên rời rạc trong ảnh (trên mặt phẳng (x,y)) sẽ được biến đổi thành đường cong trên bề mặt (r,θ ). Mặt phẳng (r,θ ) được chia thành các ô nhỏ (cells) như trên hình 3.2.48. “Trọng lượng” của từng ô nói trên sẽ tỷ lệ thuận với số đường cong Hough đi qua nó. Chúng ta sẽ khảo sát để tìm ra các ô có “trọng lượng” lớn. Các đường cong đi qua những ô này tương ứng với những điểm có thể xấp xỉ gần đúng bằng một đường thẳng với tọa độ góc (ri,θ i) là tọa độ của ô đó. Những ô có “trọng lượng” nhỏ là ánh xạ của một số ít điểm ảnh nằm độc lập trong mặt phẳng (x,y) nên có thể loại bỏ trong kết quả mô tả đường biên. Ô vuông nằm tại
( )0 0,M r θ có "trọng lượng" tương đối lớn nhất vì có 3 đường cong chạy qua (hình 3.2.48).
Hình 3.2.48 Chia nhỏ mặt phẳng (r,θ ) để xấp xỉ đường biên
Quá trình xấp xỉ đường biên sử dụng biến đổi Hough được minh họa trên trên hình 3.2.49. Các bước thực hiện quá trình xấp xỉ đường biên với biến đổi Hough có trình tự như sau: 1- Tìm giá trị gradient cho các điểm trên ảnh gốc; So sánh giá trị modul gradient với
ngưỡng (cho trước) để tạo ra ảnh nhị phân hiển thị vị trí của các điểm biên.
2- Chia mặt phẳng (r,θ ) thành các ô nhỏ.
3- Tìm ánh xạ của tất cả các điểm khác 0 trong ảnh nhị phân sang mặt phẳng (r,θ ) và tiến hành đánh giá "trọng lượng" từng ô trong mặt phẳng đó.
4- Chọn ra các ô có trọng lượng lớn nhất; tìm ra các điểm ảnh biên có thể xấp xỉ bằng đường thẳng có cùng tọa độ góc với tọa độ của ô có trọng lượng lớn, tương ứng với những đường cong đi qua ô đó.
Chương 3 Kỹ thuật xử lý ảnh
156
Hình 3.2.49a là ảnh gốc được đưa vào xử lý. Hình 3.2.49b biểu diễn kết quả nhận được sau
khi xử lý ảnh gốc bằng mặt nạ LoG. Đường biên A là một đường thẳng 0 0 0cos sinr x yθ θ= + .
Kết quả biến đổi Hough cho các điểm ảnh biên được biểu diễn trên hình 3.2.49c. Có thể thấy rõ ràng rằng các đường cong Hough cắt nhau tại các ô A và B, nói cách khác, “trọng lượng” các ô A và B lớn hơn so với các ô còn lại trong mặt phẳng (r,θ ). Các đường thẳng A và B (hình 3.2.49d) chính là các đường thẳng được tạo ra bởi các điểm ảnh ứng với các đường cong ánh xạ đi qua hai ô có “trọng lượng” lớn nói trên.
3.2.5.3 Phân vùng dựa trên xử lý ngưỡng (biên độ) (Thresholding) 3.2.5.3.1 Giới thiệu chung về phương pháp phân vùng theo ngưỡng biên độ
Kỹ thuật biến đổi ảnh và so sánh biên độ các điểm ảnh với mức ngưỡng được sử dụng khá rộng rãi trong các phương pháp phân vùng ảnh. Trong trường hợp tổng quát, quá trình xử lý ngưỡng là quá trình so sánh ảnh với hàm T:
( ) ( ), , , , ,T T x y p x y f x y= ⎡ ⎤⎣ ⎦ (3.2.101)
f(x,y)- giá trị mức xám tại điểm (x,y), p(x,y) - hàm biểu diễn tính chất của vùng ảnh xung quanh điểm (x,y), ví dụ, giá trị mức xám trung bình của vùng ảnh, có tâm là điểm (x,y). Kết quả so sánh được tổng hợp trên ảnh g(x,y) theo quy luật sau:
( )( )( )
1 ,,
0 ,
f x y Tg x y
f x y T
>⎧⎪= ⎨≤⎪⎩
(3.2.102)
Chúng ta gọi các điểm ảnh trong g(x,y) có giá trị bằng 1 là các điểm ảnh thuộc vật thể (hay vùng ảnh chi tiết), các điểm có giá trị bằng 0 sẽ thuộc vùng ảnh nền. Nếu T chỉ phụ thuộc vào f(x,y) và không thay đổi trong toàn bộ quá trình xử lý ảnh thì T được gọi là ngưỡng toàn cục. Nếu T phụ thuộc vào toạ độ không gian (x,y) ta gọi T là ngưỡng cục bộ. Nếu ngưỡng cục bộ T phụ thuộc vào p(x, y) hay nói cách khác, T thay đổi theo tính chất của từng vùng ảnh, ta gọi mức T là ngưỡng thích nghi.
Hình 3.2.49 Biến đổi Hough và kết quả xấp xỉ biên
Chương 3 Kỹ thuật xử lý ảnh
157
3.2.5.3.2 Phân vùng với ngưỡng toàn cục (Global thresholding) Phương pháp phân vùng theo ngưỡng toàn cục là phương pháp khá đơn giản, khi vật thể và
nền được tách bằng cách so sánh với một mức ngưỡng T. Mức độ chính xác của phương pháp này phụ thuộc vào tính chất của ảnh, ví dụ: nếu ảnh có histogram được chia thành các vùng rõ rệt (còn gọi là các mode) thì việc lựa chọn ngưỡng sẽ tương đối dễ dàng. Trên hình 3.2.50a là ảnh scan của văn bản, đây là loại hình ảnh thông dụng và tương đối đơn giản. Có thể thấy histogram của ảnh được chia thành các vùng rõ rệt (hình 3.2.50c). Như vậy để tách vùng ảnh (các chữ cái) khỏi nền màu xám, ta có thể dùng mức ngưỡng T nằm giữa hai vùng xám như trên hình 3.2.50c. Tất cảc các điểm ảnh có độ chói thấp sẽ được gán mức trắng, các điểm ảnh có độ chói cao (nền của ảnh) được thay bằng mức đen. Ảnh kết quả cho chúng ta hàng chữ trắng trên nền màu đen trên hình 3.2.50b.
Hình 3.2.50 Phân vùng bằng ngưỡng toàn cục T Cách chọn ngưỡng như trên dựa trên cơ sở phân tích histogram của ảnh bằng mắt người
quan sát. Để có thể xác định ngưỡng T một cách tự động, chúng ta thực hiện các bước sau: 1- Lựa chọn mức ngưỡng ban đầu T. 2- Dùng T để phân vùng ảnh. Kết quả nhận được là hai nhóm điểm ảnh: nhóm G1 có giá
trị độ chói lớn hơn T, G2 – có độ chói nhỏ hơn T. 3- Xác định giá trị độ chói trung bình m1 và m2 của hai nhóm điểm ảnh trên. 4- Xác định giá trị ngưỡng T mới bằng:
( )1 212
T m m= + .
5- Thực hiện các bước 2-4 đến khi sai số giữa hai giá trị T kế tiếp không vượt quá giá trị T0 cho trước.
Mức ngưỡng ban đầu thường được lựa chọn bằng giá trị trung bình giữa mức chói cao nhất và mức chói thấp nhất trong ảnh.
Hình 3.2.51 Minh họa kỹ thuật xác định ngưỡng tự động
Chương 3 Kỹ thuật xử lý ảnh
158
Hình 3.2.52 Histogram của ảnh 3.2.53a Trên hình 3.2.51 là kết quả quá trình phân vùng dựa trên kỹ thuật xác định ngưỡng so sánh
tự động theo giải thuật nói ở trên. Hình 3.2.51a là ảnh gốc, ảnh phân vùng với mức ngưỡng ban đầu T=65 và mức ngưỡng kế tiếp T=100 được biểu diễn trên hình 3.2.51 b,c. Sau ba vòng lặp, kết quả cuối cùng nhận được là T=125 với T0=0. Histogram ảnh vân tay trong ví dụ nêu trên (hình 3.2.52) có hai mode được phân biệt khá rõ ràng, nên quá trình phân vùng theo ngưỡng toàn cục cho kết quả khá tốt.
3.2.5.3.3 Phân vùng với ngưỡng thích nghi Trong nhiều trường hợp, khi ảnh có histogram phức tạp, dùng một mức ngưỡng toàn cục T
không thể có kết quả phân vùng tốt, chúng ta phải sử dụng phương pháp phân vùng theo ngưỡng thích nghi. Như đã định nghĩa ở phần trên, ngưỡng T được gọi là thích nghi khi nó thay đổi theo vị trí của vùng ảnh được phân tích.
Hình 3.2.53 a) Ảnh gốc. b) Phân vùng với ngưỡng toàn cục. c) Ảnh được chia vùng d) Phân vùng với ngưỡng thích nghi.
Hình 3.2.53a là ảnh gốc bao gồm nền và chi tiết có độ chói thay đổi trong phạm vi nhỏ. Histogram của ảnh không phân vùng rõ rệt, do đó, khi dùng ngưỡng toàn cục, tức ngưỡng duy nhất để phân vùng sẽ không cho kết quả tốt (hình 3.2.53b). Một phương pháp làm tăng chất lượng phân tích ảnh là chia ảnh gốc ra thành nhiều vùng nhỏ (segment) (hình 3.2.53c), trong mỗi vùng chúng ta sẽ tìm giá trị ngưỡng cục bộ theo phương pháp đã mô tả ở trên. Giá trị T ban đầu được chọn bằng giá trị trung bình giữa
Chương 3 Kỹ thuật xử lý ảnh
159
mức chói cao nhất và mức chói thấp nhất trong vùng. Như vậy có thể nói rằng, ảnh gốc đã được xử lý với mức ngưỡng thích nghi theo từng vùng ảnh. Kết quả nhận dạng vùng theo ngưỡng thích nghi biểu diễn trên hình 3.2.53d, dễ dàng nhận thấy vùng ảnh chi tiết được hiển thị chính xác hơn nhiều so với trường hợp dùng ngưỡng toàn cục.
3.2.5.3.4 Phân vùng với ngưỡng toàn cục tối ưu Trong phần này chúng ta sẽ phân tích kỹ thuật tìm ngưỡng toàn cục tối ưu theo tiêu chí tối
thiểu hóa sai số phân vùng trung bình. Giả thiết ảnh chỉ có hai vùng có độ chói khác nhau, gọi là vùng sáng (ảnh chi tiết) và vùng tối (ảnh nền). Mức xám z của các điểm ảnh là biến ngẫu nhiên, được đặc trưng bởi hàm mật độ phân bố xác suất ( )p z . Như chúng ta đã biết ( )p z chính là
histogram của ảnh. Hàm mật độ phân bố xác suất mức xám trong vùng sáng và vùng tối là ( )1p z
và ( )2p z . Mật độ phân bố xác suất của toàn ảnh sẽ bằng tổng hai hàm trên:
( ) ( ) ( )1 1 2 2p z P p z P p z= ⋅ + ⋅ (3.2.103)
1 2,P P - xác suất để điểm ảnh nằm trong vùng sáng hoặc vùng tối.
Vì ảnh chỉ bao gồm hai vùng sáng tối nên 1 2 1P P+ = .
Bài toán đặt ra là cần tìm giá trị ngưỡng toàn cục optT (hình 3.2.54) để tách chi tiết ảnh, sao
cho sai số dự đoán trung bình là nhỏ nhất.
Hình 3.2.54 Mật độ phân bố xác suất mức xám của hai vùng ảnh Xác suất để điểm ảnh nền bị xác định nhầm thành điểm ảnh chi tiết là:
( ) ( )1 2
T
E T p z dz−∞
= ∫ (3.2.104)
Xác suất để điểm ảnh chi tiết bị xác định nhầm thành điểm ảnh nền là:
( ) ( )2 1T
E T p z dz∞
= ∫ (3.2.105)
Xác suất sai số chung sẽ là:
( ) ( ) ( )2 2 1 1
T
T
E T P p z dz P p z dz∞
−∞
= +∫ ∫ (3.2.106)
Để có được ngưỡng tối ưu optT khi sai số E(T) là nhỏ nhất, đạo hàm của (3.2.106) theo T
phải bằng 0, ta có:
( ) ( )1 1 2 2P p T P p T⋅ = ⋅ (3.2.107)
Chương 3 Kỹ thuật xử lý ảnh
160
Trường hợp khi 1 2P P= , ngưỡng tối ưu sẽ nằm tại điểm cắt đồ thị hàm ( )1p z và ( )2p z .
Trong trường hợp tổng quát, để tìm ra optT , ta cần biết hai hàm phân bố xác suất ( )1p z và
( )2p z . Thông thường mật độ phân bố mức xám được qui về dạng phân bố Gausian:
( )( ) ( )2 2
1 22 21 22 21 2
1 22 2
z zP Pp z e e
μ μσ σ
πσ πσ
− −− −
= + (3.2.108)
1μ và 1σ là trị trung bình và độ lệch chuẩn của phân bố xác suất mức xám cho ảnh chi tiết,
2μ và 2σ là trị trung bình và độ lệch chuẩn của phân bố xác suất mức xám cho ảnh nền.
Sử dụng (3.2.107 ) và (3.2.108) ta suy ra phương trình:
2 0AT BT C+ + = (3.2.109)
với: 2 21 2A σ σ= − (3.2.110)
( )2 21 2 2 12B μ σ μ σ= −
( )2 2 2 22 1 1 2 1 2 2 1 1 22 2 ln /C P Pμ σ μ σ σ σ σ σ= − +
Phương trình bậc hai có thể có hai nghiệm, do đó, trong một số trường hợp có thể có hai giá
trị ngưỡng tối ưu. Nếu phương sai của hai hàm phân bố như nhau: 2 2 21 2σ σ σ= = thì optT là duy
nhất:
2
1 2 2
1 2 1ln
2optPTP
μ μ σμ μ
⎛ ⎞+= + ⎜ ⎟− ⎝ ⎠
(3.2.111)
Nếu 1 2P P= , ta có:
1 2
2optT μ μ+= (3.2.112)
3.2.6 Xử lý ảnh màu
Trong phần 3.1.5 đã giới thiệu sơ bộ về màu sắc và các thông số đặc trưng của màu sắc. Dựa trên các phân tích về cơ chế cảm nhận màu sắc của hệ thống thị giác ta thấy mọi màu sắc trong thiên nhiên có thể được tạo ra từ các màu cơ bản bằng các phương pháp pha trộn màu khác nhau. Không gian màu RGB hoặc XYZ thường được sử dụng để mô tả quá trình pha trộn màu sắc. Ta có thể xác định được mọi màu sắc được tạo ra từ tổ hợp ba màu bất kỳ bằng cách xác định vị trí ba màu đó trong không gian RGB (XYZ) sau đó nối chúng lại, để tạo ra tam giác màu; Tam giác có đỉnh là ba điểm nói trên sẽ chứa tất cả các màu sắc có thể được tạo ra bằng cách pha trộn ba màu trên (hình 3.2.55).
3.2.6.1 Các hệ màu cơ bản Hiện nay có khá nhiều hệ màu (không gian màu) được sử dụng với các mục đích khác nhau.
Không gian màu RGB thường được sử dụng để mô phỏng các hệ thống tạo ảnh màu như màn hình TV màu, camera màu; hệ màu CMYK (Cyan-Magenta-Yellow-BlacK) thường được dùng trong kỹ thuật in ấn. Hệ màu HSI (Hue-Saturation-Intensity) hay còn gọi là HSB (Hue-Saturation-Bright) được sử dụng rộng rãi trong lĩnh vực xử lý ảnh. Hệ màu HSI cho phép mô tả ảnh màu
Chương 3 Kỹ thuật xử lý ảnh
161
thông qua các thành phần sắc màu và thành phần chói của ảnh. Phương pháp mô tả này tương đối phù hợp với cách cảm nhận màu sắc của hệ thống thị giác, đồng thời hệ HSI cũng có thể dùng khi phân tích ảnh đen-trắng (chỉ có các mức xám). Sau đây chúng ta nhắc lại một số đặc điểm chính của ba hệ màu nói trên.
Hình 3.2.55 Tam giác màu đơn vị XYZ trong hệ tọa độ vuông góc xy
3.2.6.1.1 Hệ màu RGB Như đã biết, trong hệ RGB, ba màu cơ bản là R (đỏ), G (xanh lục), B (xanh lam). Không
gian RGB, trong lĩnh vực ảnh số, được thể hiện dưới dạng hình khối lập phương như trên hình 3.2.56a. Các màu cơ bản nằm trên ba đỉnh của hình khối. Màu đen K nằm tại điểm gốc tọa độ, màu trắng nằm đối diện với K qua đường chéo. Không gian màu RGB trên hình 3.2.56a là không gian màu chuẩn, giá trị của các màu RGB nằm trong khoảng [0,1]. Trong lĩnh vực ảnh số, mỗi điểm màu R, G hoặc B thường được lượng tử hóa với 256 mức, tức mỗi mẫu được mã hóa bằng 8 bit.
a) b)
Hình 3.2.56 Không gian màu RGB
Số lượng bít sử dụng để mã hóa 1 điểm ảnh màu được gọi là độ sâu của màu. Trường hợp nói trên, độ sâu màu sẽ là 24 bits khi đó số sắc màu tối đa có thể được hiển thị sẽ là
( )382 16777216= . Trên hình 3.2.56b là không gian màu RGB 24 bits.
Chương 3 Kỹ thuật xử lý ảnh
162
3.2.6.1.2 Hệ màu CMYK Như chúng ta đã biết, màu C (Cyan - xanh lơ), màu M (Magenta - mận chín) và màu Y
(Yellow - vàng) là các màu bổ xung của R, G và B. Đa số các thiết bị in màu lên giấy đòi hỏi dữ liệu đưa vào tương ứng với các kênh màu CMY hoặc biến đổi từ RGB sang CMY. Quá trình biến đổi được thực hiện theo công thức sau:
111
C RM GY B
⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥= −⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦
(3.2.113)
Khi C=M=Y chúng ta sẽ nhận được màu đen. Tuy nhiên, trên thực tế màu nhận được không hoàn toàn đen. Do đó trong các hệ thống in ấn, người ta sử dụng thêm một loại mực nữa có màu đen (BlacK) - ký hiệu là K. Như vậy hệ màu CMY được mở rộng thành CMYK.
3.2.6.1.3 Hệ màu HSI Trong không gian màu HSI, mỗi điểm màu được mô tả dựa trên các thông số về: sắc màu
(bước sóng trội), độ bão hòa màu (độ sạch màu) và độ chói. Hai thông số đầu tiên đặc trưng cho "màu sắc", còn thông số thứ ba cho ta thấy độ sáng của điểm ảnh. Cách mô tả các điểm ảnh như vậy tương đối giống với thói quen quan sát và phân tích màu sắc của hệ thống thị giác.
Hình 3.2.57 Biến đổi không gian RGB thành HSI Để có được không gian HSI, chúng ta xoay hệ trục RGB như trên hình 3.2.57a. Điểm đen
(0,0,0) sẽ là điểm thấp nhất trong không gian màu, điểm trắng (1,1,1) nằm phía trên cùng. Tất cả các mức xám có cường độ [0,1] nằm trên trục thẳng đứng nối K và W. Như vậy các điểm màu trên mặt phẳng vuông góc với trục KW (trục xám) có cùng độ chói. Các điểm màu nằm càng xa trục xám càng có độ bão hòa cao. Ngay trên trục KW, độ bão hòa màu sẽ bằng 0.
Trên hình 3.2.57b, xét mặt phẳng đi qua điểm C và trục KW, dễ nhận thấy là tất cả các điểm màu nằm trong tam giác CKW được tạo ra từ màu C và hai thành phần không màu K và W, do đó chúng có cùng bước sóng trội là Cλ . Khi xoay tam giác CKW xung quanh trục xám, ta sẽ
có các sắc màu khác nhau. Tóm lại, không gian HSI là tập hợp các mặt phẳng màu có cùng độ chói, vuông góc với trục chói thẳng đứng. Vị trí điểm màu trên các mặt phẳng nói trên được xác định bởi vector bắt đầu từ trục xám. Trên hình 3.2.58 là không gian màu HSI với các mặt phẳng màu là hình tròn đồng tâm. Chiều dài vector S tương đương với độ bão hòa màu, góc H giữa vector S và đường thẳng đi qua điểm R tương đương với bước sóng trội của điểm màu.
Để biến đổi hệ màu RGB thành HSI, ta thực hiện các bước sau: - Xác định bước sóng trội H:
360
B GH
B Gθ
θ≤⎧
= ⎨ − >⎩ (3.2.114)
Chương 3 Kỹ thuật xử lý ảnh
163
với ( )
( ) ( ) ( )1/22
1 (2arccos
R G R B
R G R B G Bθ
⎧ ⎫− + −⎡ ⎤⎣ ⎦⎪ ⎪= ⎨ ⎬
⎡ ⎤⎪ ⎪− + − −⎣ ⎦⎩ ⎭
(3.2.115)
- Xác định độ bão hòa màu:
( ) ( )31 min , ,S R G BR G B
= − ⎡ ⎤⎣ ⎦+ + (3.2.116)
- Xác định độ chói I:
( )13
I R G B= + + (3.2.117)
Hình 3.2.58 Không gian màu HSI
Để biến đổi hệ màu HSI thành RGB, ta thực hiện lần lượt cho ba sector các bước sau:
1- Sector RG ( 0 00 120H≤ ≤ ):
( )1B I S= − (3.2.118)
( )0
cos1cos 60
S HR IH
⎡ ⎤= +⎢ ⎥
−⎢ ⎥⎣ ⎦ (3.2.119)
( )3G I R B= − + (3.2.120)
2- Sector GB ( 0 0120 240H≤ ≤ ):
0120H H= − (3.2.121)
( )1R I S= − (3.2.122)
( )0
cos1cos 60
S HG IH
⎡ ⎤= +⎢ ⎥
−⎢ ⎥⎣ ⎦ (3.2.123)
( )3B I R G= − + (3.2.124)
3- Sector BR ( 0 0240 360H≤ ≤ ):
0240H H= − (3.2.125)
Chương 3 Kỹ thuật xử lý ảnh
164
( )1G I S= − (3.2.126)
( )0
cos1cos 60
S HB IH
⎡ ⎤= +⎢ ⎥
−⎢ ⎥⎣ ⎦ (3.2.127)
( )3R I G B= − + (3.2.128)
Các công thức (3.2.114) –(3.2.128) nhận được thông qua phép biến đổi hình học như đã mô tả trên hình 3.2.58.
Trên hình 3.2.59 là các thành phần ảnh H, S, I được tách ra từ ảnh màu RGB theo công thức 3.2.114, 3.2.116, 3.2.117.
Có thể thấy rằng, mức sáng của ảnh I chính là độ chói (Intensity) của ảnh màu. Mức sáng của ảnh H phụ thuộc vào góc vector màu với trục R, ví dụ, đối với màu đỏ H=0 nên vùng đỏ trên ảnh H sẽ có màu đen.
Hình 3.2.59 Ảnh màu RGB (24 bít) và các thành phần H,S,I tương ứng.
3.2.6.2 Một số kỹ thuật xử lý ảnh màu căn bản 3.2.6.2.1 Kỹ thuật tạo màu giả
Đây là phương pháp thay thế các mức xám trong của ảnh đen -trắng bằng các màu theo một quy luật nhất định. "Màu giả" được sử dụng để "tô" ảnh trong trường hợp này không phải là màu thực của ảnh. Như chúng ta biết, hệ thống thị giác có khả năng cảm nhận sự khác biệt về màu sắc tốt hơn sự thay đổi độ chói của ảnh, do đó trong nhiều trường hợp, kỹ thuật tạo màu giả cho phép hiển thị rõ ràng hơn những chi tiết có độ tương phản thấp trong ảnh đen-trắng.
Kỹ thuật lượng tử theo mức chói và mã hóa bằng màu giả là một trong những phương pháp xử lý ảnh màu dựa trên quá trình tạo màu giả. Trên hình 3.2.60 mô tả ảnh đen trắng với các điểm
ảnh có độ chói thay đổi trong dải động [ ]0 1L÷ − phân bố trên mặt phẳng X0Y. Mặt phẳng có
độ chói không đổi là iL sẽ chia dải động nói trên thành 2 mức. Để thực hiện mã hóa bằng màu
giả, chúng ta gán cho tất cả các điểm ảnh có độ chói nằm trên mặt phẳng cắt một màu nào đó, các điểm ảnh nằm dưới mặt phẳng cắt được gán một màu khác.
Chương 3 Kỹ thuật xử lý ảnh
165
Hình 3.2.60 Minh họa quá trình lượng tử theo mức chói và mã hóa bằng màu giả
Hàm biến đổi mức xám-màu có đặc tuyến dạng bậc thang như trên hình 3.2.61.
Hình 3.2.61 Đặc tuyến biến đổi mức xám – màu
Trong trường hợp tổng quát, dải động mức xám có thể chia thành N mức, các mức sẽ được hiển thị bằng các màu khác nhau. Đặc tuyến trên hình 3.2.61 sẽ biến đổi thành dạng bậc thang với N-1 bậc.
Kỹ thuật lượng tử mức xám nói trên được sử dụng rộng rãi trong y khoa. Ví dụ: ảnh siêu âm tim trên hình 3.2.62a thu được có dạng đen-trắng, trên ảnh có vùng máu đông cần được phát hiện nằm ở gần mũi tên. Vùng này có độ tương phản không cao, nên rất khó phân biệt với các thành phần khác trong ảnh. Bằng kỹ thuật lượng tử theo mức chói, ta thay các mức xám bằng các lớp màu, khi đó, vùng ảnh cần quan tâm (nơi máu đông) sẽ hiển thị rõ nét hơn rất nhiều (hình 3.2.62b).
Hình 3.2.62 Xử lý ảnh siêu âm bằng kỹ thuật lượng tử mức xám. Trong ví dụ trên, dải động các mức xám (từ đen tới trắng) được chia đều thành 8 dải con
bằng nhau, các điểm ảnh có biên độ nằm trong từng dải con được gán một màu nhất định. Như vậy, ảnh sẽ được phân tích thành tám vùng có màu tương ứng với tám dải chói khác nhau. Kỹ
Chương 3 Kỹ thuật xử lý ảnh
166
thuật lượng tử mức xám có thể được sử dụng để tách các vật thể hiển thị trong ảnh dựa trên tính chất vật lý của chúng. Ví dụ, trên hình 3.263a, ta có ảnh X quang thu được trong hệ thống giám sát chất lượng các mối hàn [15].
Hình 3.2.63 a- ảnh chụp bằng tia X quang mối hàn ống thép b- ảnh kết quả sau khi mã hóa bằng màu giả. Trong đường hàn nằm ngang (sẫm màu) có vết rạn nứt, các vết rạn hiển thị như các vệt sáng
chói, nằm theo chiều ngang ở giữa màn hình. Các vết nứt hiển thị trên ảnh có mức chói tối đa là 255, vì tia X đi qua các vết nứt sẽ làm thiết bị cảm biến (dùng để ghi nhận ảnh X quang) bị bão hòa. Để người kiểm tra có thể dễ dàng phát hiện ra các vết nứt, người ta có thể biến đổi mức 255 thành một màu, còn tất cả các mức xám còn lại thành một màu khác (hình 3.2.63). Dễ dàng thấy rằng, việc phát hiện lỗi hàn sẽ được thực hiện chính xác hơn khi sử dụng ảnh màu nhận được theo phương pháp nói trên.
3.2.6.2.2 Biến đổi thành phần chói thành màu Các phương pháp xử lý ảnh dựa trên biến đổi thành phần chói thành màu mang tính tổng
quát hơn kỹ thuật tạo màu giả. Mỗi điểm màu trong ảnh được phân tích thành ba màu cơ bản tùy theo hệ màu được xử dụng (ví dụ R, G, B). Sau khi phân tích, chúng ta nhận được ba ảnh đơn sắc, ba ảnh này có độ chói nằm trong khoảng [0-255], các ảnh đơn sắc đó có thể được hiển thị lên màn hình dưới dạng ảnh đen trắng. Như vậy, ảnh màu có thể được xử lý dựa trên các phép biến đổi độc lập với 3 ảnh đen trắng nói trên. Ảnh kết quả sẽ được tập hợp lại từ ba ảnh đen trắng khi đưa chúng vào các kênh màu tương ứng. Quá trình xử lý được mô tả bằng sơ đồ khối hình 3.2.64. Phương pháp xử lý nói trên được thực hiện cho từng điểm ảnh mà không phụ thuộc vào vị trí của chúng trong ảnh số.
Kỹ thuật tạo màu giả là trường hợp đặc biệt của phương pháp biến đổi thành phần chói thành màu khi hàm biến đổi mức xám-màu có dạng bậc thang như trên hình 3.2.61.
Hình 3.2.64 Quá trình xử lý ảnh độc lập trên từng kênh màu
3.2.6.2.3 Biến đổi màu Kỹ thuật xử lý ảnh màu được chia thành hai nhóm. Nhóm thứ nhất bao gồm các phương
pháp phân tích ảnh màu thành ba ảnh đơn sắc (ví dụ: ảnh R, G, B), sau đó xử lý từng ảnh đơn sắc riêng rẽ; ảnh kết quả sẽ được tổng hợp từ các ảnh vừa được xử lý. Chúng ta gọi đây là các phương
Chương 3 Kỹ thuật xử lý ảnh
167
pháp xử lý ảnh theo thành phần. Nhóm thứ hai là các kỹ thuật xử lý tác động trực tiếp lên các điểm ảnh màu. Trong không gian màu RGB, mỗi điểm màu có thể được biểu diễn như vector nối gốc tọa độ và điểm màu đó. Vector màu c có thể được biểu diễn thông qua các vector cơ bản R,G,B như sau:
( )( )( )( )
,
, ,
,
R x y
c x y G x y
B x y
⎡ ⎤⎢ ⎥
= ⎢ ⎥⎢ ⎥⎣ ⎦
(3.2.129)
Công thức (3.2.129) cho thấy: các thành phần của vector màu c là tọa độ của điểm màu trong không gian R, G, B. Cần lưu ý rằng ( ) ( ) ( ), , , , ,R x y G x y B x y còn phụ thuộc vào tọa độ
trong không gian ảnh (x,y).
Các điểm màu trong ảnh kích thước MxN được biểu diễn bằng MxN vector màu ( ),c x y , x
và y là vị trí của điểm màu trong ảnh. Quá trình xử lý ảnh dựa trên các thành phần đơn sắc và dựa trên các vector màu có thể cho kết quả khác nhau.
Hình 3.2.65 Kỹ thuật lọc bằng mặt nạ trong không gian ảnh a- ảnh đen - trắng b- ảnh màu Trên hình 3.2.65 mô tả quá trình lọc (trung bình hóa) ảnh trong miền không gian. Trên ảnh
đen trắng, chúng ta cộng giá trị mức xám của các điểm ảnh bên trong mặt nạ rồi chia cho tổng số điểm ảnh của mặt nạ, giá trị trung bình này sẽ được gán cho điểm ảnh (x,y) (hình 3.2.65a). Trong ảnh màu RGB, quá trình trung bình hóa được thực hiện với các vector màu ứng với các điểm ảnh trong mặt nạ. Vector màu trung bình tại điểm (x,y) có các thành phần
( ) ( ) ( ), , , , ,R x y G x y B x y bằng với giá trị trung bình trong mặt nạ xung quanh tọa độ (x,y) trên
mặt phẳng R, G và B (hình 3.2.65b). Do đó, trong trường hợp này, cả hai phương pháp xử lý: với các thành phần màu hay với các vector màu đều cho kết quả như nhau.
Quá trình biến đổi ảnh màu có thể được biểu diễn giống như trường hợp ảnh đen-trắng:
( ) ( ), ,g x y T f x y= ⎡ ⎤⎣ ⎦ (3.2.130)
( ),f x y - ảnh màu gốc, ( ),g x y - ảnh kết quả, T- toán tử biến đổi.
Tuy nhiên, toán tử T sẽ mô tả quá trình biến đổi vector màu (gồm nhiều thành phần), chứ không phải mức xám như trong trường hợp ảnh đen-trắng. Quá trình biến đổi ảnh màu theo thành phần được mô tả như sau:
( ) 1,2...i i is T r i n= = (3.2.131)
Chương 3 Kỹ thuật xử lý ảnh
168
Biến ir và is là giá trị các thành phần màu của ảnh ( ),f x y và ( ),g x y tại một điểm
(x,y) bất kỳ. n - số lượng thành phần màu. iT - toán tử biến đổi cho từng thành phần màu. n được
xác định bởi hệ màu đang sử dụng. Ví dụ: trong không gian màu RGB n=3, trong không gian CMYK n=4. Tập hợp các toán tử iT sẽ xác định toán tử T trong (3.2.130).
Trên hình 3.2.66 là ảnh màu và ảnh các thành phần trong không gian R,G,B. Ở đây, các thành phần có giá trị lớn nhất là 1 (mức trắng) , nhỏ nhất là 0 (mức đen). Trên ảnh đen-trắng biểu diễn thành phần R, ta thấy cánh hoa màu đỏ (gần bão hòa) sẽ có độ chói lớn nhất. Thành phần G và B trong vùng cánh hoa có giá trị rất thấp.
Hình 3.2.66 Ảnh màu và các ảnh thành phần RGB Trong không gian màu HSI, các thành phần H, S, I không đặc trưng cho màu sắc. Do đó,
thành phần I (hình 3.2.67), sẽ là ảnh "đen-trắng" của ảnh gốc, nói cách khác, ảnh màu được tái tạo trên màn hình đen-trắng sẽ có dạng như thành phần I.
Hình 3.2.67 Ảnh màu và các ảnh thành phần H, S, I Thành phần S, đặc trưng cho độ bão hòa màu sẽ có giá trị lớn ở các chi tiết có độ sạch màu
cao (trên các cánh hoa).
Chương 3 Kỹ thuật xử lý ảnh
169
Thành phần H đặc trưng cho sắc màu của ảnh tính theo (3.2.114) có thể có các giá trị xung đột ở các điểm ảnh có góc H bằng 00 và 3600; ngoài ra, giá trị H cũng không được xác định tại các điểm ảnh đen, trắng hoặc xám. Các điểm ảnh có giá trị H bằng 00 và 3600 hiển thị trên ảnh H (hình 3.2.67) như các điểm đen hoặc trắng ngẫu nhiên trong vùng cánh hoa màu đỏ.
Các biến đổi màu sắc ảnh có thể được thực hiện trong các hệ màu khác nhau, tuy nhiên, trên thực tế tùy theo ứng dụng, chúng ta nên chọn hệ màu phù hợp nhất.
Ví dụ: để thực hiện quá trình biến đổi độ sáng của ảnh:
( ) ( ), ,g x y k f x y= ⋅ với 0 1k< < (3.2.132)
Trong hệ màu HSI, theo nguyên tắc, biến đổi trên được thực hiện cho ba thành phần H, S, I
bởi toán tử sau ( ) 1,2...i i is T r i n= = , với n=3. Trên thục tế để thay đổi độ sáng, trong hệ
HSI, chúng ta chỉ cần áp dụng biến đổi đối với thành phần I:
3 3s k r= ⋅ (3.2.133)
Các thành phần khác của ảnh màu sẽ được giữ nguyên: 1 1 2 2;s r s r= = .
Cũng bài toán trên, nếu thực hiện trong hệ màu RGB, chúng ta phải biến đổi cả ba thành phần màu R, G và B: 1,2,3i is k r i= ⋅ =
3.2.6.2.4 Tách ảnh theo các mức màu Tương tự như kỹ thuật tách ảnh theo mức chói, khi xử lý ảnh màu, chúng ta có thể tách
những chi tiết có màu nhất định ra khỏi ảnh gốc. Những thành phần màu khác trong ảnh kết quả sẽ được biến đổi thành màu nền (làm nổi những chi tiết màu cần tách). Nếu các màu được quan tâm nằm trong hình khối con có cạnh là D0, tâm hình khối nằm tại điểm ( 1 2 3, ,a a a ) trong không
gian màu R, G, B, khi đó kỹ thuật tách ảnh theo các mức màu được mô tả theo biểu thức:
0
0
0,52
2
j j
i
j j j
Dr as
Dr r a
⎧ − >⎪⎪= ⎨⎪ − ≤⎪⎩
(3.2.134)
với các i=1, 2, 3; j=1, 2, 3; Biến đổi (3.2.134) cho ảnh kết quả bao gồm các màu nằm trong hình khối có cạnh D0, các
màu nằm ngoài hình khối sẽ được thay thế bằng mức xám trung bình. Nếu vùng màu quan tâm nằm trong hình cầu, biểu thức (3.2.134) sẽ biến đổi thành:
( )
( )
2 20
1
2 20
1
0,5n
j jj
i n
j j jj
r a R
sr r a R
=
=
⎧− >⎪
⎪= ⎨⎪ − ≤⎪⎩
∑
∑ (3.2.135)
1, 2,....i n= , 1, 2,....j n=
Biểu thức (3.2.135) có thể ứng dụng cho không gian màu n-chiều. Các thành phần màu được tách biệt nằm trong hình cầu (khi n=3) có bán kính R0, tâm nằm tại điểm ( 1 2 3, ,a a a ).
Trên hình 3.2.68 mô tả quá trình tách thành phần màu xung quanh màu đỏ có tọa độ
Chươn
(0.686biến đổR0 đượảnh kếtách ra
Qthường
Hđa khảnày khgiống sáng (htuyến hình 3phản cmàu sẽlên. Quthị độ hoặc th
ng 3 Kỹ thu
63, 0.1608, 0.ổi (3.2.135) vợc lựa chọn sết quả, có thểa có diện tích
H
a-c-d-
3Quá trình hiệg được thực h
• HiệuHiệu chỉnh đả năng hiển thhông được thnhau hoàn tohình 3.2.69a)sử dụng để h
3.2.69. Ví dụcủa ảnh; với đẽ trở nên sẫmuan sát các ảsáng (ảnh tố
hông qua lượ
uật xử lý ảnh
1922) trong với R0 = 0.17sao cho vùng nhận thấy rằ
h lớn hơn so v
a)
c)
Hình 3.2.68
Ảnh màu g Ảnh kết qu
- Ảnh kết qu
3.2.6.2.5 Hiệệu chỉnh ảnhhiện từng bư
chỉnh độ sánđộ sáng là quhị các chi tiế
hay đổi. Tronoàn cho từng), thừa ánh shiệu chỉnh ảnụ: đặc tuyến đặc tuyến biếm hơn hoặc nảnh và histogối, quá sáng ợc đồ xám (hi
không gian R765, ta nhận đ màu đỏ đượằng biến đổi với kết quả n
Minh họa kỹ
gốc, b- Vùngả khi tách cáả khi tách cá
ệu chỉnh ảnhh màu trên mớc theo hai g
ng uá trình thay ết nhỏ của ảnhng hệ màu RGg kênh màu. Tsáng (hình 3.2nh trong từngdạng đườngến đổi như trnhạt hơn trogram của chúhay thiếu tưistogram) củ
RGB. Thực hđược các ảnhợc tách một cá(3.2.135) cho
nhận được từ
b)
d)
ỹ thuật tách ả
g màu được táác màu nằm trác màu nằm tr
h màu màn hình mágiai đoạn: hiệ
đổi độ sáng h. Các thôngGB hay CMYThông thườn2.69b) và thig trường hợp cong chữ Srên hình 3.2.6ng ảnh kết qúng trên hìnhương phản) của ảnh.
hiện biến đổi h kết quả 3.2ách chính xáo kết quả tốt (3.2.134).
ảnh theo các
ách trong khôrong hình lậprong hình cầu
áy tính trước ệu chỉnh độ s
và độ tươngg số về màu sYK quá trìnhng có ba loại iếu độ tươngp và kết quảS có thể được69c, các điểm
quả, do đó độh 3.2.69 có tó thể đánh g
(3.2.134) vớ.72c và 3.2.7
ác nhất. Quanhơn vì vùng
mức màu
ông gian màup thể u
khi đưa tới áng và hiệu c
phản của ảnsắc của ảnh th biến đổi phảnh cần hiệu
g phản (hình hiệu chỉnh đc dùng để cảm ảnh gốc sẫộ tương phảnthể thấy rằnggiá trực tiếp
ới D0 =0.254972d. Giá trị Dn sát ảnh gốc
màu đỏ đượ
u RGB
các thiết bịchỉnh màu.
nh để làm tăntại giai đoạn ải được thựcu chỉnh: thiếu3.2.69c). Cáđược hiển thịải thiện độ tẫm màu hoặcn của ảnh sẽg, chất lượngkhi quan sát
9, và D0 và
và ợc
in ấn
ng tối xử lý
c hiện u ánh c đặc ị trên tương c nhạt ẽ tăng g hiển t ảnh,
Chương 3 Kỹ thuật xử lý ảnh
171
3.2.69 a) Ảnh thiếu ánh sáng, ảnh kết quả và đặc tuyến hiệu chỉnh mức chói
b) Ảnh thừa ánh sáng, ảnh kết quả và đặc tuyến hiệu chỉnh mức chói c) Ảnh tương phản thấp, ảnh kết quả và đặc tuyến hiệu chỉnh mức chói
• Hiệu chỉnh màu Sau khi ảnh đã được hiệu chỉnh độ chói, bước xử lý tiếp theo là hiệu chỉnh màu. Đây là quá
trình cân bằng màu với mục đích làm cho màu sắc hiển thị trên ảnh trở nên trung thực. Ví dụ: tuyết phải có màu trắng, cỏ phải có màu xanh lá cây v.v. Thường thì quá trình hiệu chỉnh màu được thực hiện trên các mảng hình có màu trắng, khi đó các thành phần màu R, G, B sẽ phải giống nhau. Ngoài ra, màu da mặt người cũng có thể dùng để hiệu chỉnh, vì hệ thống thị giác rất nhạy cảm với màu này.
Khi tiến hành hiệu chỉnh theo từng kênh màu, nhất thiết cần phải hiểu rõ quá trình hiệu chỉnh tác động thể nào tới màu sắc tổng hợp của ảnh. Để thấy được ảnh hưởng của sự thay đổi mỗi thành phần màu tới màu sắc chung của ảnh có thể dựa trên vòng tròn màu (hình 3.2.70). Để làm tăng một thành phần màu trong ảnh có thể: hoặc làm giảm màu bổ xung với nó, hoặc tăng cùng lúc hai màu nằm cạnh màu đó. Ví dụ, trong hình màu hệ RGB có quá nhiều màu xanh lam (B), để làm giảm màu này, chúng ta có thể: (1) tăng màu bổ xung với nó là màu vàng (Y) hoặc (2) giảm các màu xanh lơ (C) và màu mận chín (M).
Một ví dụ cụ thể được biểu diễn trên hình 3.2.71. Ảnh gốc trên hình 3.2.71a sau khi truyền qua kênh bị mất cân bằng màu. Thành phần màu xanh lam trở nên vượt trội hơn so với các màu khác (hình 3.2.71b). Để làm giảm màu xanh lam trên ảnh, chúng ta chuyển đổi ảnh từ hệ màu RGB sang hệ màu CMYK, tăng màu Y bằng cách áp dụng đặc tuyến hiệu chỉnh kênh Y như trên hình 3.2.71c. Ảnh kết quả nhận được (hình 3.2.71d) tương đối giống với ảnh gốc (hình 3.2.71a).
Chươn
Nđen-trắnhiều chúng một víảnh đơ
C
ng 3 Kỹ thu
a)
c)
3Như chúng tắng làm cho ảnh đơn sắcthành ảnh m
í dụ điển hìnhơn sắc R, G, B
Cả ba ảnh trê
uật xử lý ảnh
3.2.6.2.6 Xửta đã biết, kỹphân bố các
c, việc thực hmàu kết quả h. Ảnh màu gB.
ên được cân b
b)
d)
ử lý histogramỹ thuật cân b mức xám trhiện cân bằncó thể dẫn tgốc có độ tươ
bằng mức xá
m ảnh màu bằng lược đồở thành đồng
ng lược đồ "tới hiện tượnơng phản thấ
ám. Tuy nhiê
H
H
ồ xám (histog đều. Đối vớxám" cho từ
ng mất cân bấp (xem lược
ên vì lược đồ
Hình 3.2.70
Hình 3.2.71 a- Ảnh gb- Ảnh nc- Đặc t
kênh d- Ảnh k
Hìlược đồmàu R, G
ogram equaliới ảnh màu, ừng ảnh đơn ằng màu. Trđồ xám) đượ
xám của 3 ả
Vòng tròn m
Hiệu chỉnh gốc nhiều màu Btuyến hiệu Y kết quả
nh 3.2.72 Cxám cho t
G, B
zation) trongđược tổng hợsắc rồi tổng
rên hình 3.2.ợc tách ra thà
ảnh đơn sắc c
màu
màu
Blue chỉnh
Cân bằng từng kênh
g ảnh ợp từ
g hợp 72 là ành 3
có dải
Chươn
động kđơn sắvới ảnhTuy nhlược đ
Đhệ màuđược gbị thaydàng ntrên hì
Tkhông di chuđiểm ảsử dụn
Q
C
không điểm ả
ng 3 Kỹ thu
khác nhau, kếắc nhận đượch gốc, chính hiên, độ tươnồ xám. Để tránh tìnhu HSI. Khi đgiữ nguyên. Cy đổi. Trên hnhận thấy ảnình 3.2.71.
H
3Trong phần gian. Đặc tu
uyển trong ảnảnh bao trùmng để làm nổiQuá trình lọc
Cho xyS là t
gian RGB. ảnh có tọa độ
uật xử lý ảnh
ết quả quá trc sau khi cân
vì vậy, so sáng phản của ả
h trạng trên, đó, cân bằng mChính vì vậyhình 3.2.73 m
nh kết quả có
Hình 3.2.73 C
3.2.6.2.7 Kỹ 3.2.2.2 chún
uyến bộ lọc pnh, giá trị đi
m bởi mặt nạ. i các chi tiết c tuyến tính n
tập hợp tọa đ
Giá trị trungộ trong xyS là
( ),c x y
rình cân bằng bằng, tỷ lệ b
ánh hai ảnh mảnh kết quả t
quá trình cânmức xám chỉ
y, độ tương phmô tả quá tró độ tương p
Cân bằng lượ
thuật làm trơng ta đã nói đphụ thuộc vàoểm ảnh tại tLọc tuyến tínhỏ, hay nổi nói trên có th
độ của K điểm
g bình của cáà:
)( ),
1
x y SK ∈
= ∑
g cũng sẽ khába thành phầmàu gốc và ktăng lên rõ rệ
n bằng lược đỉ được thực hhản của ảnh ình cân bằng
phản cao và m
ợc đồ xám tro
ơn ảnh màuđến quá trìnho các hệ số trtâm mặt nạ đính bằng phư biên ảnh (lọ
hể được áp dụ
m ảnh nằm lâ
ác vector mà
( ),xyS
c x y
ác nhau. Khiần R, G, B tạkết quả, ta thấệt, đó cũng là
đồ xám đượchiện cho ảnh sẽ được cải tg lược đồ xámàu sắc "thậ
ong hệ màu H
h làm trơn ảrong mặt nạ lđược thay bằương pháp nhọc thông cao)ụng cho ảnh m
ân cận điểm ả
àu trong khôn
tổng hợp ảnại mỗi điểm ảấy có sự khácà hệ quả của b
c thực hiện ch I (kênh chóithiện trong kám trong khôật" hơn so kế
HSI
ảnh đen-trắnglọc (hình 3.2ằng giá trị trhân chập tron (xem 3.2.4)màu (hình 3.
ảnh màu trun
ng gian ba c
(3.
nh màu từ cácảnh bị thay đc biệt về màubiến đổi cân
ho ảnh màu ti), các ảnh H
khi sắc màu kông gian HSết quả nhận
g bằng các b2.74a). Khi mrung bình củang không gian. .2.74b).
ng tâm (x,y) t
chiều ứng vớ
2.136)
c ảnh đổi so u sắc. bằng
trong H và S không I. Dễ được
ộ lọc mặt nạ
a các n còn
trong
ới các
Chương 3 Kỹ thuật xử lý ảnh
174
Dựa vào tính chất cộng các vector, ta có:
( )
( )( )
( )( )
( )( )
,
,
,
1 ,
1, ,
1 ,
xy
xy
xy
x y S
x y S
x y S
R x yK
c x y G x yK
B x yK
∈
∈
∈
⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦
∑
∑
∑
(3.2.137)
Như vậy, các tọa độ của vector màu trung bình trong không gian R, G, B bằng các giá trị trung bình tìm được trong từng ảnh đơn sắc riêng biệt. Điều này có nghĩa là quá trình làm trơn ảnh có thể được thực hiện cho từng thành phần màu riêng rẽ, sau đó tổng hợp lại thành ảnh màu kết quả. Ảnh này sẽ giống với ảnh màu được thực hiện làm trơn dựa trên các vector màu trong không gian màu RGB.
a) b)
Hình 3.2.74 Mô tả kỹ thuật làm trơn ảnh màu theo từng thành phần
Hình 3.2.75 Làm trơn ảnh màu : a- Ảnh gốc
b- Làm trơn ảnh trong hệ màu RGB
c- Làm trơn ảnh trong hệ màu HSI
d- Ảnh sai số giữa (b) và (c) Quá trình làm trơn ảnh có thể được thực hiện trong các không gian màu khác nhau. Hình
3.2.75b là ảnh kết quả, nhận được sau khi làm trơn ảnh trong không gian RGB theo phương pháp mô tả trên hình 3.2.75b. Các ảnh R. G và B được làm trơn một cách độc lập, sau đó tổng hợp lại thành ảnh màu kết quả.
Trong không gian màu HSI, thành phần được làm trơn là ảnh mang tin tức về độ chói I. Ảnh H và S được giữa nguyên. Kết quả nhận được (hình 3.2.75c) cũng là ảnh gốc đã bị làm "mờ".
Chương 3 Kỹ thuật xử lý ảnh
175
Tuy nhiên khi so sánh với ảnh được làm mờ trong hệ RGB, chúng ta nhận thấy rằng chúng có sự khác nhau. Ảnh sai số được hiển thị trên 3.2.75d. Vấn đề ở chỗ, màu của các điểm ảnh được làm trơn trong hệ RGB không hoàn toàn giống màu sắc thực vì thành phần R, G và B bằng giá trị trung bình trong không gian ma trận lọc (giá trị trung bình thường khác so với giá trị gốc của điểm ảnh màu). Trong khi đó, thành phần màu (H và S) của các điểm ảnh trong hệ HSI khi làm trơn không thay đổi. Cũng chính vì lý do vừa nêu trên, có thể đưa ra kết luận rằng mức độ sai số giữa các ảnh được làm trơn trong không gian RGB và HSI sẽ tăng khi kích thước ma trận lọc tăng.
3.2.6.3 Nhiễu trong ảnh màu Mô hình nhiễu được trình bày trong phần 3.2.3.2 có thể được áp dụng cho trường hợp ảnh
màu. Tuy nhiên, tác động nhiễu tới ảnh màu có đặc thù riêng. Trong một số trường hợp, nhiễu tác động lên các kênh màu một cách khác nhau, ví dụ trong bộ cảm biến CCD, kênh R (màu đỏ) nhạy cảm với nhiễu nhiều hơn so với hai kênh màu còn lại. Tác động của nhiễu sẽ thay đổi mạnh khi chúng ta thực hiện phép biến đổi không gian biểu diễn ảnh màu. Trên hình 3.2.76, ảnh màu bị tác động bởi nhiễu Gaussian với độ lệch chuẩn 0.005 được phân tích thành các thành phần trong không gian RGB và HSI. Có thể thấy rằng thành phần H (sắc màu) và S (độ bão hòa màu) bị biến dạng rất nhiều dưới tác động của nhiễu, lý do chính vì trong công thức (3.2.114, 3.2.115, 3.2.116) tính H và S chứa các hàm phi tuyến là arccos và hàm tìm minimum.
Hình 3.2.76 Biểu diễn ảnh nhiễu (a) trong không gian màu RGB (b, c, d) và HSI (e, f,g)
Quá trình triệt nhiễu cho ảnh màu có thể được thực hiện trên cở sở lọc trong không gian hay trong miền tần số như đã xét trong phần 3.2.3. Các bộ lọc nói trên có thể áp dụng cho các thành phần màu riêng rẽ hay áp dụng trực tiếp tới các vector màu. Một số bộ lọc, thí dụ bộ lọc trung bình không gian sẽ cho kết quả giống nhau. Các bộ lọc dựa trên nguyên tắc thống kê thứ tự điển hình là bộ lọc median thường chỉ được thực hiện cho từng thành phần màu. Quá trình thống kê thứ tự trong không gian vector màu nhiều chiều tương đối phức tạp nên không được giới thiệu ở đây.
Chương 3 Kỹ thuật xử lý hình ảnh
176
3.3 CÁC KỸ THUẬT NÉN ẢNH
3.3.1 Giới thiệu chung về kỹ thuật nén ảnh Các kỹ thuật nén ảnh hướng tới giải quyết bài toán làm giảm thiểu khối lượng thông tin cần
thiết để mô tả ảnh số. Nền tảng của quá trình nén là loại bỏ dư thừa có trong tín hiệu. Phương pháp nén hiệu quả nhất thường sử dụng các biến đổi toán học để biến ma trận các điểm ảnh trong không gian hai chiều sang một không gian hai chiều khác, nơi mức độ tương quan giữa các hệ số biến đổi mới nhỏ hơn. Như chúng ta biết, độ dư thừa trong tín hiệu ảnh số phụ thuộc vào mức độ tương quan giữa các điểm ảnh, độ tương quan lớn thì độ dư thừa cũng lớn.
Nén ảnh là lĩnh vực nghiên cứu khá lâu đời. Thời gian đầu, các nghiên cứu đi theo hướng xử lý tín hiệu video tương tự, nhằm nén "bề rộng phổ" của tín hiệu này. Nén video trong những năm 1950 được thực hiện bằng công nghệ tương tự có tỷ số nén thấp. Các hệ truyền hình tương tự NTSC, PAL, SECAM sử dụng kỹ thuật nén tín hiệu video bằng cách giảm độ rộng băng tần thành phần màu so với thành phần chói, ví dụ trong hệ NTSC, thành phần màu I và Q có bề rộng phổ 1,3 MHz và 0.6 MHz, bề rộng phổ thành phần chói là 4.2 MHz.
Sự phát triển của kỹ thuật số và việc sử dụng công nghệ số vào kỹ thuật truyền hình làm cho khái niệm “nén video” trở thành đề tài nóng hổi trong những năm gần đây. Như chúng ta đã biết, tiêu chuẩn định dạng video thành phần 4:2:2 ( CCIR-601) với quy định bề rộng băng tần tín hiệu chói và màu là 5,75 MHz và 2,75 MHz (± 0,1 dB). Sau khi số hóa với tần số lấy mẫu tiêu chuẩn 13.5 MHz (cho kênh chói), tốc độ bit tổng cộng của tín hiệu chói và màu là 270 Mbps. Dòng dữ liệu video số có tốc độ cao như trên không thể được truyền qua vệ tinh với độ rộng dải tần mỗi kênh 27 MHz hoặc qua hệ thống truyền hình quảng bá trên mặt đất với quy định 7÷8 MHz cho một kênh truyền hình tiêu chuẩn. Do vậy, nén tín hiệu video là công đoạn không thể thiếu để khắc phục được những khó khăn trên. Từ những năm 1980, các nhà khoa học đã đạt được những thành tựu quan trọng trong việc nén tín hiệu video và audio. Có rất nhiều hãng sản xuất thiết bị nén tín hiệu video, chủ yếu các thiết bị này làm việc với hai định dạng nén được coi là tiêu chuẩn là JPEG (Joint Photographic Experts Group) – áp dụng cho ảnh tĩnh và MPEG (Moving Picture Experts Group) - áp dụng cho ảnh động.
Phân loại các phương pháp nén ảnh:
Có thể thực hiện phân loại theo nguyên lý nén:
- Nén không tổn hao (lossless data reduction) - Nén có tổn hao (loss data reduction) Phân loại theo cách thực hiện nén: - Phương pháp không gian (Spatial Data Compression): các phương pháp nén bằng cách
tác động trực tiếp lên điểm ảnh.
- Phương pháp sử dụng biến đổi (Transform Coding): phương pháp nén sử dụng các phép biến đổi không gian, quá trình nén được thực hiện bằng cách tác động lên ảnh biến đổi.
3.3.2 Dư thừa trong tín hiệu 3.3.2.1 Độ dư thừa số liệu
Nén số liệu là quá trình giảm lượng số liệu cần thiết để biểu diễn cùng một lượng thông tin cho trước. Số liệu và thông tin không đồng nghĩa với nhau. Số liệu (tạo nên tín hiệu) chỉ là phương tiện dùng để truyền tải thông tin. Cùng một lượng thông tin cho trước có thể biểu diễn
Chương 3 Kỹ thuật xử lý hình ảnh
177
bằng các lượng số liệu khác nhau.
Độ dư thừa số liệu là vấn đề trung tâm trong nén ảnh số. Độ dư thừa được xác định như sau: nếu N1 và N2 là lượng số liệu trong hai tập hợp số liệu cùng được dùng để biễu diễn lượng thông tin cho trước thì độ dư thừa số liệu tương đối RD của tập số liệu thứ nhất so với tập số liệu thứ hai có thể được định nghĩa như sau:
RD = 1- 1/CN trong đó: CN = N1/N2
Trong trường hợp N1 = N2 thì RD = 0, điều này có nghĩa là so với tập số liệu thứ hai thì tập số liệu thứ nhất không chứa số liệu dư thừa. Khi N2 << N1 thì CN tiến tới vô cùng và RD tiến tới một, có nghĩa là độ dư thừa số liệu tương đối của tập số liệu thứ nhất là khá lớn so với tập số liệu thứ hai.
Chất lượng ảnh nén có thể thay đổi tùy theo đặc điểm của hình ảnh nguồn và nội dung ảnh. Có thể đánh giá chất lượng ảnh nén theo số bit cho một điểm trong ảnh nén (Nb). Nb được xác định bằng tổng số bit dùng để mô tả ảnh nén chia cho tổng số điểm ảnh:
Nb = Số bit nén/Số điểm
Trong lý thuyết nén ảnh số,có thể phân biệt ba loại dư thừa số liệu khác nhau, đó là:
• Dư thừa mã (Coding Redundancy)
Nếu các mức của tín hiệu video được mã hóa bằng các symbol nhiều hơn cần thiết thì tín hiệu nhận được sẽ có độ dư thừa mã. Để giảm độ dư thừa mã, có thể sử dụng các mã VLC (Variable-Length Coding) như mã Huffman, mã LZW(Lempel-Ziv-Welch) v.v...
• Dư thừa trong pixel (Interpixel Redundancy)
Mức độ tương quan giữa hai điểm ảnh gần nhau là tương đối lớn, do đó trong ảnh số tồn tại lượng dư thừa pixel (còn gọi là dư thừa không gian) tương đối lớn. Mỗi điểm ảnh có thể được dự báo từ giá trị các điểm lân cận với nó. Như đã nhắc tới ở trên, giảm độ dư thừa trong pixel của một ảnh có thể được thực hiện khi sử dụng phép biến đổi ảnh số từ miền không gian sang miền tần số.
• Dư thừa tâm sinh lý
Dựa trên các nghiên cứu về hệ thống thị giác, chúng ta biết rằng mắt người chỉ cảm nhận được một phần thông tin chứa trong ảnh quang học. Nói cách khác, ảnh có thể được tách ra thành hai phần: một phần chứa các tin tức quan trọng cho người xem, phần khác là các thông tin mà người xem hầu như không cảm nhận được. Thành phần thứ hai có thể được loại bỏ mà không ảnh hưởng đáng kể đến chất lượng thu nhận ảnh.
3.3.2.2 Tiêu chí đánh giá chất lượng hình ảnh Quá trình nén ảnh thường đi đôi với việc ảnh nén bị biến dạng so với ảnh gốc. Vì vậy, cần
xác định tiêu chí và phương pháp đánh giá một cách khách quan lượng thông tin về ảnh đã bị mất đi sau khi nén. Có thể đánh giá mức độ sai số giữa hai ảnh thông qua mức sai lệch trung bình bình
phương - RMS (Root Mean Square). Cho ( ),f x y là ảnh gốc, ( )ˆ ,f x y là ảnh khôi phục sau khi
nén. Khác biệt tuyệt đối giữa hai ảnh là:
( ) ( ) ( )ˆ, , ,e x y f x y f x y= − (3.3.1)
Chương 3 Kỹ thuật xử lý hình ảnh
178
Sai số trung bình bình phương được tính theo công thức sau:
( ) ( )( )1/2
1 1 2
0 0
1 ˆ , ,M N
RMSx y
e f x y f x yMN
− −
= =
⎡ ⎤= −⎢ ⎥⎢ ⎥⎣ ⎦
∑ ∑ (3.3.2)
Thông thường, khi giá trị RMS thấp, chất lượng ảnh nén sẽ tốt. Tuy nhiên, trong một số trường hợp chất lượng hình ảnh nén không nhất thiết phải tỷ lệ thuận với giá trị RMS.
Một phương pháp đánh giá chất lượng ảnh nén khác dựa trên tỷ lệ tín hiệu/nhiễu được tính theo công thức sau:
( )
( ) ( )( )
1/21 12
0 01 1 2
0 0
ˆ ,
ˆ , ,
M N
x yM N
x y
f x ySNR
f x y f x y
− −
= =− −
= =
⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥
−⎢ ⎥⎣ ⎦
∑ ∑
∑ ∑ (3.3.3)
SNR (Signal to Noise Ratio) - tỷ lệ tín hiệu/ nhiễu.
Các thông số nêu trên chỉ cho phép đánh giá chất lượng ảnh nén một cách gần chính xác. Trên thực tế chất lượng hình ảnh phụ thuộc rất nhiều vào cảm nhận tâm sinh lý của con người. Chính vì vậy, trong một số trường hợp người ta sử dụng phương pháp đánh giá chất lượng ảnh một cách chủ quan: ảnh được trình chiếu cho một số lượng lớn người quan sát. Dựa trên kết quả thống kê đánh giá của cả nhóm người quan sát, có thể đưa ra kết luận tương đối chính xác về chất lượng ảnh nén.
3.3.3 Mô hình hệ thống nén tín hiệu
Hình 3.3.1 Sơ đồ khối hệ thống nén tín hiệu Hệ thống truyền dẫn sử dụng các phương pháp nén tín hiệu khác nhau có thể được mô tả
bằng sơ đồ khối như trên hình 3.3.1. Các thành phần quan trọng nhất trong hệ thống là bộ mã hóa và giải mã.
Bộ mã hóa và giải mã nguồn Bộ mã hóa nguồn thực hiện quá trình loại bỏ các thành phần dư thừa trong ảnh gốc. Thông
thường, bộ mã hóa nguồn có cấu trúc như trên hình 3.3.2.
Hình 3.3.2 Sơ đồ khối bộ mã hóa nguồn - Bộ chuyển đổi: thường dùng các phép biến đổi không gian để chuyển ảnh trong
không gian thực sang một không gian khác, nơi các hệ số chuyển đổi có mức độ tương quan thấp hơn. Kết quả nhận được là ma trận các hệ số biến đổi.
Chương 3 Kỹ thuật xử lý hình ảnh
179
- Bộ lượng tử hoá: sử dụng phương pháp lượng tử không đồng đều nhằm triệt tiêu các hệ số biến đổi có năng lượng thấp hoặc đóng vai trò không quan trọng khi khôi phục ảnh. Quá trình lượng tử không có tính thuận nghịch: ảnh khôi phục sẽ bị biến dạng so với ảnh gốc.
- Bộ mã hoá: gán một từ mã (một dòng bit nhị phân) cho một mức lượng tử.
Hình 3.3.3 Sơ đồ khối giải mã nguồn Bộ giải mã nguồn có các bộ phận chức năng sau: - Bộ giải mã: thực hiện giải mã tín hiệu nhận được để cho ra ma trận các hệ số của ảnh biến
đổi. - Bộ chuyển đổi thực hiện biến đổi nghịch (so với quá trình biến đổi ở bộ mã hóa) để khôi
phục lại ảnh số ban đầu.
Bộ mã hóa và giải mã kênh Khi truyền tín hiệu qua kênh truyền có nhiễu, để làm giảm ảnh hưởng của nhiễu tới tín hiệu
người ta thường sử dụng các phương pháp mã bằng cách thêm một số thông tin dư thừa vào chuỗi tín hiệu cần truyền đi. Tùy thuộc vào phương pháp mã hóa, tại phía thu, sau khi giải mã kênh, chúng ta có thể phát hiện được lỗi trong chuỗi tín hiệu vừa nhận được (do nhiễu kênh gây ra) hoặc có thể đồng thời thực hiện sửa các lỗi đó.
3.3.4 Các phương pháp nén không tổn hao (lossless data reduction) Trong nhiều ứng dụng tín hiệu phải được nén không làm mất mát thông tin: ví dụ khi cần
nén các file chương trình trong máy tính hay khi nén những hình ảnh nhận được từ các thiết bị khảo sát vũ trụ: những ảnh này thường có giá trị sử dụng cao, cần được giữ nguyên chất lượng ban đầu. Sau đây chúng ta phân tích một số phương pháp nén không tổn hao tiêu biểu.
3.3.4.1 Phương pháp mã hóa Huffman Phương pháp mã hóa Huffman là phương pháp giảm dư thừa thống kê, dựa vào mô hình
thống kê của tín hiệu. Phân tích dữ liệu gốc, người ta tính tần suất xuất hiện của các ký tự. Các ký tự có tần suất cao nhất sẽ được mã hóa bằng từ mã ngắn nhất và ngược lại. Tóm lại, với cách mã hóa trên, chúng ta đã làm giảm chiều dài trung bình của từ mã được dùng để mã hóa dữ liệu.
3.3.4.2 Phương pháp mã LZW (Lempel-Ziv-Welch) Đây là phương pháp mã hóa từ điển, quá trình mã hóa được thực hiện bằng cách thay chuỗi
dữ liệu gốc có độ dài khác nhau bằng từ mã có độ dài cố định. Khác với mã Huffman, kỹ thuật LZW không cần biết tần suất của các ký tự trong tín hiệu gốc.
Để mã hóa theo phương pháp LZW, chuỗi dữ liệu phải được đưa vào tra cứu trong "từ điển" để tìm ra mã tương ứng với nó. "Từ điển" được hình thành ngay trong quá trình mã hóa. Ví dụ: khi nén ảnh đen-trắng được mã hóa bằng 8 bits/pixel, từ điển được khởi tạo bao gồm 256 từ tương ứng với các mức chói 0,1,2…255. Sau đó, coder sẽ phân tích lần lượt chuỗi ký tự (mức xám) liên tiếp trong dữ liệu nguồn, khi phát hiện trong từ điển không có chuỗi ký tự tương đương, coder sẽ ghi chuỗi ký tự liên tiếp đó vào vị trí còn trống của từ điển. Ví dụ: nếu hai điểm ảnh đầu tiên có giá trị 255, thì chuỗi 255-255 sẽ được ghi vào vị trí thứ 256, sau đó tổ hợp 255-255 có thể được truyền đi với từ mã là 256. Như vậy thay vì truyền hai ký tự có 16 bits, ta chỉ cần truyền đi từ mã 9 bits. "Từ điển" bao gồm các từ mã 9 bits có thể lưu được 512 từ mã. Có thể thấy rằng, khi "từ
Chương 3 Kỹ thuật xử lý hình ảnh
180
điển" quá nhỏ, số lượng chuỗi ký tự được mã hóa sẽ ít, ngược lại khi "từ điển" quá lớn từ mã sẽ có độ dài lớn do đó hiệu quả nén cũng bị giảm. Cần lưu ý rằng, "từ điển" sử dụng khi mã hóa không cần phải chuyển sang phía giải mã, trong quá trình giải mã LZW, "từ điển" này sẽ được khôi phục tự động. Giải thuật nén LZW thường được sử dụng cho các loại ảnh nhị phân. Chuẩn nén này được sử dụng để tạo ra các dạng ảnh GIF và TIFF.
3.3.4.3 Phương pháp mã hóa loạt dài (RLC - Run Length Coding) Kỹ thuật mã hóa RLC được pháp triển ban đầu để nén ảnh nhị phân như ảnh scan từ văn
bản, ảnh nhận được từ máy Fax. Kỹ thuật nén này dựa trên nguyên lý tìm trong tín hiệu số nhị phân chuỗi bít "1" hoặc "0" liên tiếp, sau đó mã hóa chuỗi đó bằng hai thông số: giá trị bit lặp và số lượng bít lặp (chiều dài chuỗi). Đôi khi, để nâng cao hiệu quả nén, giá trị chiều dài các chuỗi có thể được mã hóa bằng mã có chiều dài thay đổi (ví dụ mã Huffman). Chiều dài chuỗi bits trong ảnh nhị phân đôi khi có thể lớn hơn 255. Vì thế, để có thể dùng 1 byte để mã hóa giá trị số bit lặp lại, người ta hạn chế chiều dài chuỗi bằng 255. Phương pháp nén RLC được sử dụng để lưu trữ các ảnh Bitmap theo dạng PCX, BMP.
3.3.4.4 Phương pháp mã hóa theo vùng đồng trị Đây là phương pháp khá đơn giản và hiệu quả khi mã hóa ảnh nhị phân hoặc ảnh mặt phẳng
bit (xem phần 3.2.2.1.5). Ảnh gốc được chia thành nhiều khối nhỏ có kích thước mxn pixel. Chúng ta phân biệt ba loại khối ảnh: khối toàn màu trắng, toàn màu đen và khối có độ sáng hỗn hợp. Sau đó, các khối ảnh có tần suất cao được mã hóa với từ mã ngắn nhất, ví dụ từ mã "0". Hai khối còn lại được mã hóa bằng từ mã 2 bits: "01" và "10". Như vậy, thay vì phải truyền đi giá trị mxn điểm ảnh trong mỗi khối, với khối toàn trắng và toàn đen ta chỉ cần truyền đi các từ mã có độ dài 1 hoặc 2 bits.
3.3.4.5 Phương pháp mã dự đoán không tổn thất Phương pháp mã hóa này dựa trên tính tương quan giữa hai điểm ảnh nằm kề nhau và kỹ
thuật tách và truyền thông tin "mới" chứa trong mỗi pixel ảnh. Theo những nghiên cứu thống kê về phân bố biên độ tín hiệu video, mức độ tương quan giữa các điểm ảnh nằm gần nhau trong miền không gian là khá cao, điều này có nghĩa là sự khác biệt giữa hai điểm ảnh kế bên rất nhỏ hoặc bằng 0, vì thế khi mã hóa độ chênh lệch này cần số lượng bit ít hơn so với khi mã hóa toàn bộ biên độ các mẫu.
Thông tin "mới" trong điểm ảnh được xác định bằng hiệu giữa điểm ảnh thực và điểm ảnh dự đoán. Phương pháp mã dự đoán còn gọi là điều xung mã vi sai (DPCM – Differential Pulse Code Modulation). Trong bộ mã hóa DPCM cũng sử dụng thêm các kỹ thuật lượng tử hóa thích nghi và mã hóa entropy để tăng hệ số nén. Các thành phần chính của hệ thống DPCM được mô tả trên hình 3.3.4.
Hệ thống DPCM bao gồm bộ mã hóa (hình 3.3.4a) và bộ giải mã (hình 3.3.4b).
nf
ˆnf
ˆn n ne f f= −
a) mã hóa DPCM
Chương 3 Kỹ thuật xử lý hình ảnh
181
nf
ˆnf
ne
b) giải mã DPCM
Hình 3.3.4 Sơ đồ khối bộ mã hóa và giải mã DPCM
Trong thành phần bộ mã hóa và giải mã đều có khối dự đoán. Khi một mẫu nf của ảnh
được đưa tới bộ mã hóa, khối dự đoán sẽ thực hiện xấp xỉ giá trị mẫu ảnh đó dựa trên thông tin đã
có về các điểm ảnh trước. Sau đó giá trị xấp xỉ được làm tròn nf và đưa tới mạch trừ để tìm ra sai
số giữa điểm ảnh thực và điểm ảnh dự đoán:
ˆn n ne f f= − (3.3.4)
Giá trị sai số (thường là nhỏ) được mã hóa bằng mã có độ dài thay đổi (mã Entropy) trước khi đưa vào đường truyền.
Ở phí thu, sau khi dữ liệu nén được giải mã Entropy, giá trị sai số ne được đưa tới bộ dự
đoán để khôi phục giá trị điểm ảnh nf :
ˆn n nf f e= + (3.3.5)
Để có được giá trị nf dựa trên các mẫu tới trước, có thể sử dụng các phương pháp xấp xỉ
cục bộ, toàn cục hoặc phương pháp thích nghi. Thông thường, nf được xác định dựa trên giá trị
của m mẫu đến trước như sau:
1
ˆm
n i n ii
f round fα −=
⎡ ⎤= ⎢ ⎥
⎣ ⎦∑ (3.3.6)
iα - hệ số dự đoán với 1,2,...i m= ;
( )round ⋅ - toán tử làm tròn tới số nguyên gần nhất.
3.3.5 Các phương pháp nén tổn hao (loss data reduction) Các phương pháp nén có tổn hao thường có hiệu quả nén cao hơn rất nhiêu so với nén
không tổn hao. Đặc điểm của các phương pháp nén này là hiệu quả nén càng cao thì mức độ tổn hao càng lớn, nói cách khác chất lượng ảnh nén sẽ giảm đi khi hệ số nén tăng lên. Một số phương pháp nén ảnh có tổn hao có thể đạt hệ số nén tới 100 lần trong khi chất lượng ảnh nén vẫn còn chấp nhận được. Cần chú ý rằng hệ số nén cũng như chất lượng ảnh nén trong trường hợp nén tổn hao phụ thuộc tương đối nhiều vào tính chất của hình ảnh gốc.
Sau đây chúng ta sẽ đề cập tới một số phương pháp nén ảnh tổn hao tiêu biểu.
3.3.5.1 Phương pháp mã dự đoán có tổn hao Sơ đồ khối của bộ mã hóa dự đoán có tổn thất khác với bộ mã hóa không tổn thất (hình
3.3.5) do có thêm bộ lượng tử hóa . Quá trình lượng tử hóa sẽ làm tròn giá trị ne tới mức lượng tử
gần nhất là ne . Hiệu quả nén của hệ thống mã hóa và sai số giữa ảnh nén và ảnh gốc sẽ phụ thuộc
vào số mức lượng tử được sử dụng trong coder.
Chương 3 Kỹ thuật xử lý hình ảnh
182
Để kết quả dự đoán ở coder và decoder như nhau, các mẫu tới trước dùng để dự đoán tại coder phải chứa cả thành phần sai số do lượng tử hóa tạo ra vì sai số này tồn tại trong tín hiệu đưa tới bộ dự đoán trong decoder:
ˆn n nf e f= + (3.3.7)
nf cũng được sấp xỉ theo công thức (3.3.6).
Trong bộ giải mã, giá trị các điểm ảnh giải nén cũng được xác định bởi (3.3.7).
nf
nene
nfnf
a) mã hóa DPCM
nenf
nf
b) giải mã DPCM
Hình 3.3.5 Hệ thống mã hóa dự đoán có tổn thất 3.3.5.2 Các phương pháp nén sử dụng phép biến đổi không gian tín hiệu
Trong phần này chúng ta sẽ phân tích kỹ thuật nén ảnh số sử dụng các phép biến đổi không gian tín hiệu. Nguyên lý chung của các phương pháp nén này là sử dụng các phép biến đổi tuyến tính (như biến đổi Fourier, biến đổi Cosin, biến đổi DCT - Discrete Cosine Transform v.v.) để ánh xạ ảnh số sang không gian khác. Tập hệ số kết quả của các biến đổi tuyến tính sau đó được lượng tử hóa và mã hóa. Ưu điểm quan trọng của các phép biến đổi là các hệ số khai triển thường có mức tương quan nhỏ hơn so với mức độ tương quan giữa các điểm ảnh trong không gian thực. Ngoài ra, phần lớn năng lượng của tín hiệu tập trung tại các hệ số nằm trong miền tần số thấp. Quá trình nén dữ liệu có thể được thực hiện trong giai đoạn lượng tử hóa: khi lựa chọn mức lượng tử tương đối lớn, các hệ số biến đổi có năng lượng nhỏ (thường nằm ở miền tần số cao) sẽ bị loại bỏ bớt. Ảnh nén nhìn chung sẽ không hoàn toàn giống được ảnh gốc, tuy nhiên có thể dự đoán rằng, ảnh hưởng của các thành phần cao tần bị loại bỏ thường không lớn, do đó chất lượng ảnh hầu như không bị thay đổi kể cả khi tín hiệu bị nén khá nhiều. Hình 3.3.6 mô tả sơ đồ khối tổng quát hệ thống nén ảnh sử dụng phép biến đổi không gian. Coder thực hiện bốn bước cơ bản: 1- Chia ảnh thành các block (để tiện xử lý trong máy tính, các block thường có kích thước 8x8 pixel); 2- Thực hiện phép biến đổi với từng block; 3- Lượng tử hóa các hệ số biến đổi; 4- Mã hóa. Decoder thực hiện quá trình biến đổi ngược lại (ngoài việc lượng tử hóa).
Chương 3 Kỹ thuật xử lý hình ảnh
183
Hình 3.3.6 Sơ đồ khối hệ thống nén ảnh sử dụng phép biến đổi không gian
a- Bộ mã hóa (coder) b- Bộ giải mã (decoder)
3.3.5.3 Các chuẩn nén ảnh tính và ảnh động • Các chuẩn nén ảnh tĩnh
Hiện nay trong lĩnh vực ảnh số có khá nhiều chuẩn nén đang được sử dụng. Một số định dạng nén không tổn hao được hầu hết các phần mềm xử lý ảnh số chuyên nghiệp như Photoshop (hãng Adobe Systems) hay Photo Paint (Corel Corp.) hỗ trợ là: BMP, PCX, GIF, TIFF…. Tuy nhiên như đã phân tích ở trên, các chuẩn nén không tổn hao thường có hệ số nén rất thấp, do đó chúng chỉ được sử dụng để nén ảnh có kích thướng nhỏ. Phương pháp nén ảnh có tổn hao được sử dụng rộng rãi vì có hiệu quả nén cao hơn nhiều so với nén không tổn hao. Hai phương pháp nén đáng chú ý nhất hiện nay đều dựa trên các phép biến đổi không gian, đó là phương pháp nén theo JPEG và nén ảnh sử dụng biến đổi Wavelet (Wavelet transform). Cả hai phương pháp nén nói trên có hiệu quả nén rất cao, tuy nhiên, chuẩn nén JPEG được sử dụng rộng rãi hơn. Tiêu chuẩn nén JPEG được hỗ trợ trong nhiều chương trình xử lý ảnh, trên các web browser; kỹ thuật nén JPEG còn được tích hợp trong các hệ thống nén ảnh động MPEG, là chuẩn nén thông dụng cho tín hiệu truyền hình số hiện nay. Phần sau của tài liệu này chúng ta sẽ nghiên cứu kỹ hơn về tiêu chuẩn nén JPEG và MPEG.
• Các chuẩn nén ảnh động 1- Chuẩn H.261
ITU (CCITT) H.261 được phát triển để nén tín hiệu hình ảnh cho dịch vụ truyền hình hội nghị và video phone qua đường truyền ISDN ở tốc độ px64kbps (p=1..30). Trên đường truyền 64kbps, luồng 48kbps dùng để truyền tín hiệu video, 16kbps – dành cho audio. Kỹ thuật nén ảnh được sử dụng trong chuẩn H.261 sẽ làm nền tảng cho các chuẩn nén sau này như MPEG 1, 2.
Trong chuẩn nén H.261 có sử dụng các kỹ thuật nén trong ảnh dựa trên biến đổi DCT, nén liên ảnh với bộ bù chuyển động. H.261 hỗ trợ hai độ phân giải CIF (Common Intermediate Format) và QCIF (Quarter Common Intermediate Format) (hình 3.3.7). Phương pháp lấy mẫu tín hiệu chói và màu: YCbCr 4:2:0.
2- Chuẩn H.263 Đây là chuẩn nén được cải tiến từ H.261 tạo ra luồng video tốc độ thấp, có thể truyền trên
mạng điện thoại công cộng PSTN. Chuẩn nén H.263 được công nhận năm 1996.
Giống như H.261, H.263 sử dụng biến đổi DCT cho quá trình nén trong ảnh và ảnh sai số (là hiệu của ảnh gốc và ảnh nén). Chuẩn H.263 hỗ trợ các độ phân giải SQCIF, QCIF, CIF, 4 CIF và 16CIF.
Chương 3 Kỹ thuật xử lý hình ảnh
184
Hình 3.3.7 Độ phân giải chuẩn của video số
3- Chuẩn nén MPEG Chuẩn nén MPEG sẽ được phân tích cụ thể hơn ở phần sau của tài liệu này.
3.3.5.4 Phương pháp nén ảnh tĩnh theo chuẩn JPEG JPEG (Joint Photographic Expert Group ) là tên của một tổ chức nghiên cứu về các chuẩn
nén ảnh (trước đây là ISO) được thành lập vào năm 1982. Năm 1986, JPEG chính thức được thiết lập nhờ sự kết hợp giữa nhóm ISO/IEC và ITV. Chuẩn JPEG được ứng dụng để nén ảnh tĩnh đơn sắc và ảnh màu.Tiêu chuẩn nén JPEG có thể được ứng dụng trong nhiều lĩnh vực: lưu trữ ảnh, truyền ảnh qua mạng, truyền ảnh báo chí, ảnh cho y học, camera số v.v...
Hệ số nén ảnh tĩnh theo phương pháp JPEG có thể đạt từ 10 – 50 (lần) mà không làm ảnh hưởng nhiều đến chất lượng hiển thị của ảnh. Khai triển DCT được chọn là kỹ thuật then chốt trong JPEG vì nó cho phép nén ảnh với chất lượng tốt nhất tại tốc độ bit thấp, giải thuật chuyển đổi nhanh và dễ dàng thực hiện bằng phần cứng. Trên hình 3.3.8 là sơ đồ khối bộ mã hóa ảnh theo chuẩn JPEG.
( ),f i j ( ),F u v ( ),qF u v
Hình 3.3.8 Sơ đồ khối bộ mã hóa ảnh theo JPEG Trước khi đưa tới bộ chuyển đổi DCT, ảnh màu gốc phải được phân tích thành các ảnh đơn
sắc và được số hóa theo một trong những tiêu chuẩn hiện hành. Ảnh chói (Y) và hai ảnh màu đơn sắc UV (chuẩn PAL) hoặc IQ (chuẩn NTSC) được chia thành các block 8x8 và đưa tới bộ chuyển đổi DCT. Các block được "đọc" lần lượt từ ảnh gốc theo chiều từ trái sang phải, từ trên xuống dưới. Kích thước block là 8×8 được chọn bởi hai lý do sau: (1) nhiều công trình nghiên cứu cho thấy hàm tương quan giữa các điểm ảnh suy giảm rất nhanh khi khoảng cách giữa các pixel vượt quá 8; (2) kích thước 8x8 tiện lợi cho việc tính toán và thiết kế phần cứng.
Bộ chuyển đổi DCT biến đổi ma trận ảnh ( ),f i j 8x8 thành ma trận hệ số ( ),F u v cùng
kích thước. Ma trận F(u,v) được đưa tới bộ lượng tử. Các hệ số DCT sẽ được lượng tử hóa dựa trên bảng lượng tử. Tín hiệu chói và tín hiệu màu sẽ được lượng tử theo các bảng lượng tử khác
Chương 3 Kỹ thuật xử lý hình ảnh
185
nhau. Ma trận các hệ số DCT nhận được sau bộ lượng tử là ( ),qF u v . Hệ số ( )0,0qF là thành
phần trung bình (thành phần DC) của mỗi block được đưa tới bộ mã hóa vi sai (DPCM). Các hệ số khác (thành phần AC) trong từng block được đọc ra theo trình tự zigzag và đưa tới bộ mã hóa loạt dài (RLC). Cuối cùng chuỗi dữ liệu từ hai bộ mã hóa DPCM và RLC được mã hóa một lần nữa bằng mã entropy. Dữ liệu nén cùng các bảng mã và bảng lượng tử được kết hợp lại thành file ảnh nén theo chuẩn JPEG.
Sau đây chúng ta sẽ phân tích từng khâu xử lý trong quá trình nén ảnh JPEG.
3.3.5.4.1 Biến đổi DCT Công đoạn đầu tiên của quá trình nén theo JPEG là biến đổi cosin rời rạc DCT (Discrete
Cosine Transform). DCT biến đổi dữ liệu từ miền không gian sang miền tần số. DCT được sử dụng tương đối rộng rãi vì nó có đặc tính "gói" năng lượng tốt, biến đổi DCT cho kết quả là các số thực, ngoài ra có các thuật toán nhanh để thực hiện biến đổi này.
Biến đổi DCT được thực hiện trong phạm vi các khối 8×8 mẫu tín hiệu chói Y và các khối tương ứng của tín hiệu hiệu màu (UV hoặc IQ).
• DCT hai chiều:
Biến đổi DCT hai chiều (2-D) được dùng cho các khối ảnh có kích thước 8×8. Quá trình biến đổi thuận DCT (Forward DCT) dùng trong tiêu chuẩn JPEG được định nghĩa như sau:
F(u,v)=4
)()( vCuC16
)12(cos16
)12(cos),(7
0
7
0
ππ vkujkjfj k
++∑∑= =
(3.3.8)
trong đó:
f(j,k)- các mẫu của ảnh gốc trong block 8×8 pixel.
F(u,v)-các hệ số của khối DCT 8×8.
( ) ( ) 1 / 2 , 0,
1 , 0u vC u C vu v
⎧ =⎪= ⎨≠⎪⎩
Phương trình trên là kết quả liên kết của hai phương trình DCT một chiều, một cho tần số ngang và một cho tần số dọc. Trong ma trận hệ số DCT hai chiều, hệ số thứ nhất ( )0,0F bằng
giá trị trung bình của các điểm ảnh trong block 8x8:
( )7 7
0 0
10,0 ( , )8 j k
F f j k= =
= ∑ ∑ (3.3.9)
Các hệ số nằm ở các dòng dưới thành phần một chiều, đặc trưng cho các tần số cao hơn của tín hiệu theo chiều dọc. Các hệ số nằm ở các cột bên phải của thành phần một chiều đặc trưng cho các tần số cao hơn theo chiều ngang. Hệ số F(0,7) là thành phần có tần số cao nhất theo chiều ngang của block ảnh 8×8, và hệ số F(7,0) đặc trưng cho thành phần có tần số cao nhất theo chiều dọc. Còn các hệ số khác ứng với những phối hợp khác nhau của các tần số theo chiều dọc và chiều ngang.
Phép biến đổi DCT hai chiều là biến đổi đối xứng và biến đổi nghịch cho phép tái tạo lại các giá trị mẫu f(j,k) trên cơ sở các hệ số F(u,v) theo công thức sau:
Chương 3 Kỹ thuật xử lý hình ảnh
186
( ) ( ) ( )7 7
0 0
(2 1) (2 1), ( , )cos cos4 16 16u v
C u C v j u k vf j k F u v π π= =
+ +=∑∑
(3.3.10)
Bản thân phép biến đổi DCT không nén được dữ liệu, từ 64 mẫu ta nhận được 64 hệ số. Trong các hệ số DCT, thành phần DC thường có giá trị lớn nhất, các hệ số nằm kề nó ứng với tần số thấp có giá trị nhỏ hơn, các hệ số còn lại ứng với tần số cao thường có giá trị rất nhỏ.
Trên hình vẽ 3.3.9 là một ví dụ minh họa quá trình biến đổi DCT hai chiều cho một block 8×8 điểm ảnh (chói) được trích ra từ một ảnh thực. Thành phần chói Y sau khi số hóa sẽ có biên độ các mẫu nằm trong khoảng 0-255, các mẫu của thành phần màu CR,CB có biên độ cực đại là ±128. Để có thể sử dụng một bộ mã hóa DCT cho cả tín hiệu chói và màu, tín hiệu Y được dịch mức xuống dưới bằng cách trừ 128 từ mỗi giá trị pixel trong block 8x8. Ở bộ giải mã DCT, giá trị này sẽ được cộng thêm vào các giá trị chói sau khi giải nén. Giá trị hệ số DC của khối DCT dao
động trong khoảng từ 102− đến 102 1− .
3.3.5.4.2 Lượng tử hóa Bước tiếp theo của quá trình nén ảnh là bước lượng tử hóa các hệ số DCT F(u,v) với mục
đích làm giảm số lượng bit cần thiết dùng để mô tả những hệ số đó. Các hệ số tương ứng với tần số thấp thường có giá trị lớn, những hệ số này chứa phần lớn năng lượng của tín hiệu, do đó chúng phải được lượng tử hóa với độ chính xác cao. Riêng hệ số DC cần mã hóa với độ chính xác cao nhất, bởi lẽ hệ số này là giá trị độ chói trung bình của từng block ảnh. Sự thay đổi độ chói trung bình của các block sẽ ảnh hưởng rất nhiều tới chất lượng của ảnh nén.
Để thực hiện quá trình nén dữ liệu, ma trận các hệ số khai triển sau DCT phải được chia cho bảng trọng số Q(u,v) để loại bỏ một phần các hệ số DCT có biên độ nhỏ (thường là các thành phần cao tần).
Hình 3.3.9 Kết quả các bước nén ảnh theo JPEG và bảng lượng tử Q(u,v).
Chương 3 Kỹ thuật xử lý hình ảnh
187
JPEG sử dụng phương pháp lượng tử không đồng đều, các hệ số có tần số thấp được chia cho các giá trị nhỏ, các hệ số ứng với tần số cao được chia cho các giá trị lớn hơn, kết quả sẽ được làm tròn (bỏ đi các phần thập phân):
Fq(u,v)=round ⎥⎦
⎤⎢⎣
⎡),(),(
vuQvuF
(3.3.11)
Trên hình 3.3.9 mô tả quá trình biến đổi DCT: ảnh gốc (a), ma trận hệ số DCT trước (b) và sau khi lượng tử hóa (d) bằng cách chia cho bảng lượng tử Q(u,v) (c).
3.3.5.4.3 Quét zig-zag Để mã hóa entropy các hệ số Fq(u,v), trước hết, cần biến đổi ma trận hệ số Fq(u,v) thành
chuỗi số một chiều. Trong kỹ thuật JPEG sử dụng phương pháp đọc theo đường zig-zag (quét zig-zag). Việc đọc 64 hệ số của khối 8x8 pixel theo đường zig-zag (hình 3.3.10) làm tăng tối đa độ dài của chuỗi các giá trị 0 liên tiếp. Như vậy hiệu quả nén khi dùng mã RLC sẽ tăng.
Hình 3.3.10 Quét zig-zag các hệ số lượng tử hóa DCT
3.3.5.4.4 Mã hóa thành phần DC Các hệ số DC là giá trị trung bình của các khối ảnh 8x8. Độ chói trung bình của các block
ảnh gần nhau thường ít biến đổi, do đó trong chuẩn nén JPEG, các hệ số DC được mã hóa theo phương pháp DPCM. Để tăng hiệu suất nén, kết quả nhận được sau đó được mã hóa tiếp bằng mã Huffman. Trên lý thuyết, dải động của các giá trị nhận được sau khi mã hóa DPCM lớn gấp đôi
dải động của các hệ số DCT, có nghĩa là thành phần này sẽ có giá trị nằm trong khoảng 112− đến 112 1− . Số lượng bits cần thiết để mã hóa thành phần DC có thể lên tới 11.
Sơ đồ khối bộ mã hóa thành phần DC trình bày trên hình 3.3.11.
Hình 3.3.11 Bộ mã hóa thành phần DC Hệ số DC của các block DCT được lần lượt đưa tới bộ DPCM. Thành phần sai số giữa hai
hệ số DC liên tiếp sẽ được mã hóa trong bộ mã hóa Huffman. Quá trình mã hóa Huffman được thực hiện cho thành phần DC như sau: 1- Dò tìm trong bảng phân loại để tìm "loại" của giá trị
Chương 3 Kỹ thuật xử lý hình ảnh
188
DCΔ . ("loại" chính là chiều dài từ mã dùng để mã hóa thành phần DCΔ ); 2- Dùng bảng mã Huffman cho thành phần DC để tìm ra từ mã cho "loại" DCΔ tìm được ở bước 1; 3- Mã hóa nhị phân giá trị DCΔ ; 4- Ghép từ mã Huffman và giá trị nhị phân của DCΔ để có được từ mã cho thành phần DC.
Trên hình 3.3.12 và 3.3.13 là các bảng tra cần thiết để thực hiện mã hóa thành phần DC. Ví dụ: Thành phần DC trong block trên hình 3.3.14 có giá trị DCn=15. Giả sử thành phần
DC của block trước đó là DCn-1=12. Như vậy kết quả mã hóa DPCM sẽ là giá trị
1 3n nDC DC DC −Δ = − = . Trên bảng 3.3.12, ta có 3DCΔ = thuộc "loại" 2.
Hình 3.3.12 Bảng phân loại các hệ số AC và DC
Hình 3.3.13 Bảng mã Huffman cho thành phần DC
Hình 3.3.14 Block hệ số DCT cần được mã hóa
Dựa vào bảng mã huffman ta có từ mã ứng với "loại" 2 là (01) (như vậy 2 chính độ dài của mã).
Giá trị 3DCΔ = được biểu diễn bằng chuỗi nhị phân "11". Như vậy từ mã DC sẽ là 0111.
3.3.5.4.5 Mã hóa thành phần AC Sơ đồ khối của bộ mã hóa thành phần AC được biểu diễn trên hình 3.3.15.
Chương 3 Kỹ thuật xử lý hình ảnh
189
Hình 3.3.15 Bộ mã hóa thành phần AC Chuỗi các hệ số AC được lần lượt đưa vào bộ mã hóa RLC. Ở đầu ra ta nhận được các từ
mã bao gồm hai thành phần: 1) Giá trị chạy – là số lượng bit "0" đứng trước hệ số khác "0" đang được mã hóa; 2) biên độ của hệ số khác "0" nói trên. Từ mã Huffman ứng với cặp giá trị trên được tìm ra trong bảng phân loại 3.3.12 và bảng mã Huffman cho thành phần AC (hình 3.3.16). Từ mã AC sẽ bao gồm từ mã Huffman và giá trị biên độ (nhị phân) của hệ số AC.
Ví dụ: Sau quá trình quét zig-zag, từ block hệ số DCT trên hình 3.3.14 ta nhận được chuỗi hệ số AC sau:
0, -2, -1, -1, -1, 0 , 0,-1, 0 , 0……
Chuỗi bít nhận được sau bộ mã RLC là: (1,-2) (0, -1) (0, -1) (0, -1) (2,-1) (EOB)
Sau hệ số khác "0" cuối cùng, chúng ta đặt từ mã đặc biệt để báo hiệu kết thúc khối, từ mã này có tên là EOB – End Of Block.
Sử dụng bảng phân loại (hình 3.3.12) chúng ta tìm được loại của biên độ các hệ số. Tín hiệu được đưa vào mã hóa Huffman có cấu trúc sau:
(1,2)(-2), (0,1)(-1), (0,1)(-1), (0,1)(-1) (2,1)(-1), (0,0) Ý nghĩa của các giá trị trong chuỗi trên được giải thích trong hình sau:
Hình 3.3.16 Bảng mã Huffman cho thành phần AC Từ mã Hufman cho từng cặp giá trị chạy và loại có thể được tìm ra sau khi tra bảng trên
hình 3.3.16. Kết quả mã hóa các thành phần AC và DC được tập hợp lại thành chuỗi bít có dạng như sau:
Chương 3 Kỹ thuật xử lý hình ảnh
190
0111 11100101 0000 0000 0000 1101100 1010
DC EOB
code Huffman
AC Có thể thấy rằng chỉ cần 35 bits để truyền đi block 64 điểm ảnh, như vậy hiệu quả nén của
phương pháp JPEG trong trường hợp này là 0.5 bit/điểm ảnh.
3.3.5.4.6 Giải nén theo JPEG Sơ đồ khối bộ giải nén ảnh JPEG biểu diễn trên hình 3.3.17. Quá trình giải nén JPEG được
thực hiện với trình tự ngược với quá trình mã hóa. Đầu tiên, bộ giải mã tách các thông tin ghi trong phần Header của ảnh nén: đó là bảng mã và bảng lượng tử.
YUV, YIQ
IDCT Lượng tử ngược
Bảng lượng tử ngược
Giải mãDPCM
Giải mãRLC
Giải mã entropy
Bảng mã
8x8
( ),f i j ( ),F u v ( ),qF u v
DC
AC
HeaderBảng mã
Hình 3.3.17 Sơ đồ khối bộ giải mã tín hiệu JPEG Các bảng này được đưa tới khối giải mã entropy và khối lượng tử ngược. Dữ liệu mang tin
tức về ảnh được lần lượt đưa qua bộ giải mã entropy, giải mã DPCM và RLC. Các hệ số DC và AC sau khi giải mã sau đó sẽ được sắp xếp theo thứ tự để tạo ra block hệ số DCT giống như ở phía coder. Quá trình lượng tử ngược được thực hiện theo công thức:
( , ) ( , ) ( , )qF u v F u v Q u v= ⋅ (3.3.12)
( , )Q u v - là bảng lượng tử giống như bảng lượng tử dùng ở coder.
Tập hệ số DCT ( , )F u v được đưa vào khối biến đổi DCT nghịch theo công thức (3.3.12) để tạo ra block ảnh giải nén.
3.3.5.5 Nén JPEG lũy tiến Phương pháp nén ảnh được phân tích ở phần trên được gọi là phương pháp nén JPEG căn
bản (Baseline Lossy JPEG) hay JPEG tuần tự. Giải pháp nén JPEG lũy tiến được cải tiến từ JPEG tuần tự nên nhìn chung chúng có nhiều điểm tương đồng. Khi ảnh được nén theo chuẩn JPEG tuần tự, ở bộ giải nén, các block ảnh sẽ được khôi phục theo trình tự từ trái sang phải từ trên xuống dưới. Như vậy, toàn bộ ảnh chỉ được hiển thị lên trên màn hình sau khi nhận được tất cả các gói tin từ phía phát. Trong một số trường hợp, đặc biệt khi truyền ảnh số chất lượng cao qua mạng băng thông hẹp, thời gian truyền ảnh có thể tương đối lâu và người xem phải chờ một thời gian dài.
Phương pháp nén JPEG lũy tiến thực hiện ghi dữ liệu theo cách đặc biệt để decoder có thể giải mã toàn bộ ảnh ở "mức thô" ngay mà không cần chờ đến khi quá trình truyền ảnh kết thúc.
Chương 3 Kỹ thuật xử lý hình ảnh
191
Các hệ số DCT ứng với tần số thấp của các block 8x8 được truyền đi trước, ví dụ, tất cả các hệ số (0,0)F của các block được truyền lần lượt theo thứ tự từ trái sang phải, từ trên xuống dưới. Kế
tiếp là chuỗi các hệ số ( )0,1F , ( )1,0F v.v. Phía thu sau khi nhận được các hệ số (0,0)F ,
decoder đã có thể nhanh chóng khôi phục được ảnh thô, với độ phân giải thấp hơn 64 lần ảnh gốc, vì các điểm ảnh trong khối 8x8 điểm đều có giá trị bằng ( )0,0F (tức giá trị trung bình của
block). Với cách khôi phục ảnh như vậy, người quan sát sẽ không thấy khó chịu khi phải ngồi chờ trước màn hình trống trong một thời gian dài. Hơn nữa khi quan sát được nội dung chính của ảnh, người nhận có thể nhanh chóng đưa ra quyết định tải tiếp hay ngừng quá trình tải ảnh. Với cơ chế làm việc như vậy, bộ mã hóa và giải mã JPEG lũy tiến phải có bộ nhớ đệm, kích thước bộ nhớ đệm phải đủ lớn để chứa tất cả các hệ số DCT của ảnh. Trên hình vẽ 3.3.18 là các ảnh cho thấy sự khác nhau trong quá trình giải nén JPEG lũy tiến và JPEG tuần tự.
a) b)
c) d) e)
Hình 3.3.18 So sánh quá trình giải mã JPEG lũy tiến và tuần tự
a- Ảnh gốc. b- Ảnh nén theo JPEG tuần tự đang được giải mã. c, d, e- Các pha giải mã ảnh nén theo JPEG lũy tiến
Nén JPEG lũy tiến có thể thực hiện theo 3 giải thuật sau:
1) Giải thuật lựa chọn phổ (progressive spectral selection algorithm).
2) Giải thuật xấp xỉ thành công (progressive successive approximation algorithm).
3) Giải thuật kết hợp (combined progresssive algorithm).
Giải thuật lựa chọn phổ vừa được mô tả ở trên. Trong giải thuật xấp xỉ, tất cả các hệ số DCT được gởi đi trước có độ chính xác thấp hơn, thí dụ: bước 1 truyền 4 bits, bước hai truyền thêm 4 bits, bước ba truyền nốt 2 bits còn lại của số nhị phân biểu diễn biên độ hệ số AC.
Giải thuật kết hợp dựa trên nguyên tắc kết hợp cả hai giải thuật chia phổ và xấp xỉ. Hệ thống JPEG lũy tiến hiệu quả trong việc truyền các ảnh có kích thước lớn. Hệ thống này hướng đến những ứng dụng yêu cầu truyền nhanh các ảnh có độ phân giải cao qua mạng có băng thông giới hạn: ví dụ truyền ảnh y học, ảnh chụp từ vệ tinh cũng như truyền hình ảnh qua mạng Internet.
Chương 3 Kỹ thuật xử lý hình ảnh
192
3.3.5.6 Các tham số tiêu chuẩn của phương pháp nén JPEG Tiêu chuẩn JPEG xác định các tham số trong bảng sau:
Hình 3.3.19 Các tham số cơ bản của chuẩn JPEG 3.3.5.7 Phương pháp nén ảnh động theo chuẩn M-JPEG
M – JPEG là chuẩn mở rộng của JPEG. Theo chuẩn này, ảnh động được tạo ra từ chuỗi các ảnh tĩnh có thể được nén trong ảnh bằng phương pháp JPEG. M–JPEG chỉ thực hiện nén dữ liệu trong mỗi ảnh nên hiệu quả nén thấp hơn so với các phương pháp nén ảnh động MPEG sẽ được xét sau đây. Hệ số nén đạt được khi nén ảnh động theo phương pháp M – JPEG phụ thuộc vào chất lượng ảnh nén: tín hiệu video nén M-JPEG chất lượng cao (dùng trong studio) thường có tốc độ dòng bits trên 24 Mbit/s. Khi tỷ số nén quá cao, trong ảnh nén sẽ bị "vỡ" thành các ô vuông có kích thước 8x8 pixel còn gọi là artefact. Vì các ảnh được mã hóa độc lập với nhau nên quá trình ghép cảnh khi dàn dựng trong studio sẽ có độ chính xác tới từng ảnh. Đây chính là điểm mạnh của chuẩn nén M – JPEG. Kỹ thuật nén ảnh M – JPEG được sử dụng rộng rãi trong công nghệ sản xuất chương trình truyền hình, tạo kỹ xảo, trong các máy quay video số, các hệ thống dàn dựng video trong gia đình (video home studio).
Các thiết bị sử dụng định dạng nén M – JPEG có nhược điểm sau:
• Các thiết bị sử dụng phương pháp nén theo định dạng M – JPEG không thể sử dụng cho truyền dẫn, phát sóng vì tốc độ dòng bit sau khi nén còn cao.
• Kỹ thuật nén M-JPEG chưa được chuẩn hóa như các định dạng nén khác (JPEG, MPEG-2 v.v.), nên thiết bị nén của các hãng khác nhau thường không có tính tương thích cao, do đó khó có thể trao đổi trực tiếp số liệu cho nhau.
• Các phần mềm giải mã video hỗ trợ định dạng M-JPEG còn chưa phổ biến.
Chương 3 Kỹ thuật xử lý hình ảnh
193
3.3.6 Chuẩn nén ảnh động MPEG Nén tín hiệu video theo chuẩn MPEG (Moving Picture Experts Group) là phương pháp nén
ảnh động không những làm giảm dư thừa trong không gian mà còn làm giảm dư thừa giữa các khung ảnh (frame), đây cũng là khác biệt cơ bản so với JPEG là chuẩn nén ảnh tĩnh chỉ làm giảm dư thừa không gian trong một khung ảnh. Như đã giới thiệu ở phần trước, các kỹ thuật nén được chuẩn hóa bởi MPEG bao gồm MPEG-1, MPEG-2, MPEG-4, MPEG-7. Song song với các định dạng nén cho tín hiệu video, trong các chuẩn MPEG còn xác định các phương pháp nén cho tín hiệu audio. Ví dụ, chuẩn MPEG-1 định nghĩa 3 lớp nén audio như sau:
• MP1 or MPEG-1 Part 3 Layer 1 (MPEG-1 Audio Layer I) • MP2 or MPEG-1 Part 3 Layer 2 (MPEG-1 Audio Layer II) • MP3 or MPEG-1 Part 3 Layer 3 (MPEG-1 Audio Layer III)
Audio Layer 3 là tiêu chuẩn nén audio số được sử dụng rộng rãi hiện nay. Sau đây chúng ta sẽ phân tích các kỹ thuật nén ảnh tiêu biểu được sử dụng trong chuẩn nén ảnh động MPEG.
3.3.6.1 Kỹ thuật xử lý tín hiệu trong MPEG • Kỹ thuật bù chuyển động
Để nâng cao hiệu suất nén ảnh động, trong chuẩn MPEG sử dụng kỹ thuật bù chuyển động. Tín hiệu video được tạo thành từ một chuỗi ảnh tĩnh (frame). Vì tần số ảnh trong tín hiệu video tương đối cao (25 hoặc 30 ảnh/giây) nên trong các frames nằm gần nhau thường có nhiều vùng ảnh tương đối giống nhau. Nguyên lý bù chuyển động là tìm ra các vùng ảnh giống nhau hoặc gần giống nhau giữa hai ảnh kế tiếp (gọi là ảnh tham khảo và ảnh dự đoán). Thông tin về ảnh dự đoán sẽ được truyền đi dưới dạng vector chuyển động tức vector xác định vị trí mới của vùng ảnh thuộc ảnh tham khảo có mặt trong ảnh dự đoán. Quá trình tìm ra vector chuyển động gọi là quá trình xấp xỉ chuyển động (motion estimation), quá trình khôi phục ảnh dựa trên vector này gọi là quá trình bù chuyển động (motion compensation). Trong MPEG, người ta tìm vector chuyển động cho từng khối ảnh có kích thước 16x16. Để hạn chế thời gian xấp xỉ chuyển động, vector chuyển động của một block ảnh được tìm trong một vùng tìm kiếm nhất định. Kỹ thuật xấp xỉ và bù chuyển động được mô tả trên hình 3.3.20.
Hình 3.3.20 Minh họa quá trình xấp xỉ chuyển động Trong MPEG người ta thường chọn block ảnh dùng để xấp xỉ có kích thước 16× 16 điểm
ảnh và được gọi là macroblock (MB). Quá trình xấp xỉ chuyển động chỉ được thực hiện trong ảnh chói, tuy nhiên các vector chuyển động sẽ được sử dụng để mã hóa cho cả các ảnh màu thành phần. Trên hình 3.3.21 là một ảnh trong chuỗi ảnh MPEG sau khi được bù chuyển động dựa trên
Chương 3 Kỹ thuật xử lý hình ảnh
194
các vector chuyển động (các đường thẳng màu xanh). Chỉ tiết ảnh có tốc độ dịch chuyển nhanh (cánh tay vận động viên) sẽ tạo ra các vector chuyển động có độ dài lớn hơn các vector chuyển động trong vùng ảnh nền.
Hình 3.3.21 Các vector chuyển động và ảnh bù chuyển động
• Các loại ảnh nén trong MPEG Tùy theo phương pháp mã hóa, MPEG định nghĩa 4 loại ảnh sau:
1- Ảnh loại I (Intra-picture)
Là ảnh được mã hóa trong ảnh bằng kỹ thuật nén giống JPEG. Ảnh I là ảnh tham khảo để dự đoán các ảnh B,P. Quá trình truy cập tới một vị trí nào đó trong đoạn video được bắt đầu từ frame I. Tỷ lệ nén của ảnh I thấp hơn so với các ảnh P và B.
2- Ảnh loại P (Predicted-picture)
Là ảnh được mã hóa với vector chuyển động, được xấp xỉ từ ảnh I hay P trước nó. Ảnh P cung cấp hệ số nén cao hơn ảnh I và có thể sử dụng như ảnh tham khảo để xấp xỉ chuyển động trong các ảnh P và B khác.
3- Ảnh loại B ( Bi-directional predicted picture)
Là ảnh được mã hóa với vector chuyển động được xấp xỉ dựa trên các ảnh I hoặc P ở phía trước và ở phía sau nó. Ảnh B cho tỷ lệ nén cao nhất. Nguyên tắc bù chuyển động trong ảnh B được mô tả trên hình 3.3.22.
Ảnh 1
Ảnh 2
Ảnh 3
Các chi tiết được dự đoán từ ảnh trước
Chi tiết được dự đoán từ ảnh sau
Hình 3.3.22 Quá trình bù chuyển động trong ảnh B 4- Ảnh loại D ( DC-coded picture)
Chương 3 Kỹ thuật xử lý hình ảnh
195
Là ảnh được sử dụng trong MPEG-1 và MPEG-4 nhưng không được sử dụng trong MPEG-2. Ảnh D được mã hóa giống như ảnh I, tuy nhiên chỉ có thành phần một chiều (DC) được lưu lại. Các ảnh D được sử dụng khi cần tua nhanh video vì tốc độ giải mã ảnh D cao, tuy nhiên, độ phân giải của ảnh D rất thấp.
• Nhóm ảnh (GOP)
Nhóm ảnh (GOP-Group of Picture) là đơn vị mang thông tin độc lập của MPEG. Ảnh P và B trong MPEG không phải là một ảnh hoàn chỉnh mà chỉ chứa sự khác biệt giữa ảnh đó và ảnh tham khảo xuất hiện trước nó (đối với ảnh P) hay sự khác biệt giữa nó và các ảnh tham khảo xuất hiện trước và sau nó (đối với ảnh B). Để khôi phục được ảnh P và B cần có dữ liệu từ các ảnh tham khảo, như vậy khởi đầu một chuỗi ảnh phải là ảnh I. GOP trong MPEG là chuỗi ảnh liên tiếp bắt đầu bằng một ảnh I và tiếp sau nó là các ảnh P và B. Nhóm ảnh có thể mở (Open) hoặc đóng (Closed).
Nhóm ảnh mở luôn bắt đầu từ một ảnh I và kết thúc ở một ảnh trước ảnh trước ảnh I tiếp theo, khi đó ảnh B cuối cùng của GOP sẽ dùng ảnh đầu tiên của GOP tiếp theo làm ảnh tham khảo (hình 3.3.23).
Hình 3.3.23 Cấu trúc GOP mở
Trong hình 3.3.23, ảnh P (ảnh số 4) được dự báo trước trên cơ sở ảnh I. Ảnh B (3 và 4) được dự đoán từ I (1) và P (4). Ảnh B (5 và 6) được dự đoán từ ảnh P (4) và ảnh I của GOP tiếp theo (ảnh 7). Một điều cần chú ý là thứ tự truyền các ảnh trong GOP và thứ tự hiển thị ảnh giải nén lên màn hình không giống nhau. Ví dụ: để có thể giải mã được chuỗi ảnh trên hình 3.3.23, ảnh I(1) và P(4) phải được truyền trước, sau đó là hai ảnh B(3 và 4). Tiếp đến là ảnh ảnh I(7) sau đó là hai ảnh B (6 và 7) còn lại.
Đối với cấu trúc khép kín (đóng), việc dự đoán ảnh không sử dụng thông tin của GOP khác. Trong trường hợp này, theo quy định, ảnh cuối cùng của một GOP bao giờ cũng là ảnh P (hình 3.3.24).
Hình 3.3.24 Cấu trúc GOP đóng
Chương 3 Kỹ thuật xử lý hình ảnh
196
GOP được xác định bởi hai thông số M và N. Thông số M xác định số ảnh có trong một GOP. Số N là khoảng cách giữa hai ảnh P (hay giữa hai ảnh I và P). GOP trong hình 3.3.27, có M=4, N=3.
Tỷ lệ nén video của MPEG phụ thuộc rất nhiều vào độ dài của GOP. GOP càng dài tỷ lệ nén càng lớn. Tuy nhiên, GOP dài sẽ ảnh hưởng tới quá trình tua video, dừng ảnh (freeze-frame), sửa lỗi... Do đó tùy thuộc vào từng ứng dụng cụ thể (sản xuất video, dựng hình, truyền dẫn, phát sóng v..v) cần lựa chọn độ dài GOP thích hợp. Ví dụ, trong kỹ thuật dựng hình, nhu cầu thiết yếu là truy cập ngẫu nhiên tới bất cứ ảnh nào trong đoạn video, vì vậy trong GOP sẽ chỉ có các ảnh I, tất nhiên khi đó tỷ lệ nén sẽ rất thấp.
3.3.6.2 Mã hóa tín hiệu MPEG Sơ đồ khối của bộ mã hóa MPEG được trình bày trên hình 3.3.25. Tín hiệu video trước khi
đưa vào bộ nén được lấy mẫu theo chuẩn 4:2:2 hoặc 4:2:0. Các thành phần chói và màu được mã hóa riêng biệt. Ảnh chói và màu được chia thành các block 8x8. Ba khối DCT, Lượng tử hóa và Mã hóa entropy được sử dụng để nén trong ảnh. Các khối này có chức năng giống các khối tương tự trong bộ mã hóa JPEG (hình 3.3.8). Khác biệt chính giữa JPEG và MPEG là giai đoạn nén liên ảnh (nén trong miền thời gian) và kỹ thuật bù chuyển động. Quá trình nén trong miền thời gian được thực hiện như sau: ảnh đầu tiên trong chuỗi ảnh động ký hiệu là F1 (Frame 1) được mã hóa trong ảnh để tạo ra ảnh I. Trong sơ đồ khối, bộ Lượng tử hóa ngược và IDCT có chức năng giải
nén ảnh vừa được mã hóa tại coder. Ảnh nhận được là 1F . Ảnh này được lưu vào bộ nhớ trong khối ảnh so sánh. Ảnh tiếp theo (F2) không được nén trong hình như F1 mà được chuyển tới bộ xác định vector chuyển động. Quá trình xấp xỉ chuyển động trong ảnh F2 được thực hiện dựa trên
ảnh tham khảo 1F . Quá trình bù chuyển động sẽ tạo ra ảnh dự đoán dựa trên các vector chuyển
động vừa tìm được và ảnh 1F , ảnh dự đoán sẽ được đưa tới bộ trừ tín hiệu để tìm ảnh sai số giữa F2 và ảnh dự đoán. Ảnh sai số sau đó sẽ được mã hóa trong ảnh và đưa tới bộ trộn. Dữ liệu nhận được sau khi nén ảnh F2 bao gồm các vector chuyển động và ảnh sai số sẽ được tổng hợp tại bộ trộn.
Hình 3.3.25 Bộ mã hóa MPEG tiêu biểu
Tốc độ bit của tín hiệu video nén không cố định mà phụ thuộc vào nội dung của ảnh. Khi truyền tín hiệu hình ảnh qua kênh truyền, tốc độ luồng bít phải được hạn chế trong phạm vi cố
Chương 3 Kỹ thuật xử lý hình ảnh
197
định. Vì thế, ở đầu ra bộ mã hóa có bộ nhớ đệm. Luồng dữ liệu ở đầu ra bộ trộn được ghi vào bộ nhớ đệm, khi bộ nhớ đệm gần đầy, tín hiệu điều khiển sẽ được đưa tới khối Lượng tử hóa để điều chỉnh các hệ số trong bảng lượng tử theo chiều hướng tăng lên. Như vậy hệ số nén sẽ tăng, tốc độ luồng video nén sẽ giảm xuống. Một cơ chế điều khiển tốc độ luồng video khác dựa trên nguyên tắc thay đổi cấu trúc GOB cũng có thể được sử dụng. Trong trường hợp này, tín hiệu điều khiển từ bộ nhớ đệm phải được đưa tới khối xác định vector chuyển động.
3.3.6.3 Giải mã tín hiệu MPEG
Hình 3.3.26 Bộ giải mã MPEG Quá trình giải nén được thực hiện tại bộ giải mã MPEG (hình 3.3.26) theo quy trình sau.
Ảnh nén trước hết được giải mã entropy tại khối VLD (Variable-Length Decoder). Nếu ảnh đưa tới bộ giải nén là ảnh I, tập hệ số DCT của từng block ảnh sẽ được đưa tới bộ Giải lượng tử sau đó biến đổi ngược IDCT để khôi phục lại ảnh gốc. Ảnh kết quả được lưu lại trong bộ Tái lập trật tự ảnh và bộ Lưu trữ ảnh tham khảo. Khi ảnh đưa vào giải mã là ảnh P hoặc B, bộ giải mã ước đoán sẽ tách ra từ luồng dữ liệu các hệ số DCT của ảnh sai số và các vector chuyển động. Tập hệ số DCT sẽ được đưa tới IDCT để khôi phục ảnh sai số. Các vector chuyển động được bộ bù chuyển động sử dụng để khôi phục ảnh dự đoán từ ảnh tham khảo. Ảnh dự đoán và ảnh sai số sẽ được tổng hợp lại tại bộ cộng để cho ra ảnh giải nén. Sau cùng, chuỗi ảnh giải nén phải được đảo vị trí cho đúng với trình tự như trong video gốc.
3.3.6.4 Các thành phần cơ bản trong ảnh nén MPEG Cấu trúc luồng video nén theo chuẩn MPEG gồm 6 lớp (hình 3.3.27): lớp chuỗi ảnh
(sequence), lớp nhóm ảnh (GOP), lớp ảnh (picture), lớp cắt lát dòng bit (slice), lớp macroblock, lớp khối (Block):
1. Khối: là block 8x8 điểm ảnh của tín hiệu chói hoặc tín hiệu màu .
2. Lớp macroblock: Ảnh số trong MPEG được chia ra thành các Macroblock kích thước 16x16. Trong một macroblock có thông tin về 4 block Y, 1 block Cr và 1 block Cb (theo chuẩn lấy mẫu 4:2:0).
3. Mảng (Slice): là một chuỗi macroblock kề nhau. Kích thước lớn nhất của mảng có thể bao gồm toàn bộ bức ảnh và kích thước nhỏ nhất của mảng là một macroblock. Slice header chứa đựng vị trí của mảng trong toàn bộ ảnh, và hệ số lượng tử dùng để xác định ma trận lượng tử trong quá trình giải mã slice.
4. Ảnh (Picture): có 3 loại ảnh là ảnh P, I hay ảnh B. Picture header chứa thông tin về: thứ tự ảnh trong nhóm ảnh (thông tin này dùng để sắp xếp các lại thứ tự ảnh ở decoder), loại ảnh, kích thước vùng tìm kiếm vector chuyển động.
5. Nhóm ảnh (GOP): nhóm ảnh là tổ hợp của nhiều ảnh I, P và B. Như đã đề cập ở phần trên, cấu trúc nhóm ảnh được xác định bằng hai tham số M và N. Mỗi một nhóm ảnh bắt đầu bằng một khung I. GOP header chứa mã xác định thời gian của ảnh đầu tiên trong nhóm.
Chương 3 Kỹ thuật xử lý hình ảnh
198
6. Đoạn ảnh (Sequence of pictures): Đoạn ảnh bắt đầu bằng sequence header, sau đó là một hoặc nhiều GOP, cuối cùng là từ mã "end-of-sequence". Sequence header chứa đựng các thông số như: kích thước của ảnh, khổ ảnh, tần số ảnh, tốc độ bit của dòng video số, tần số ảnh và kích thước bộ nhớ đệm.
Hình 3.3.27 Cấu trúc luồng video nén theo chuẩn MPEG-1 3.3.6.5 Tiêu chuẩn nén MPEG-2
MPEG-2 là dự án giai đoạn 2 của ủy ban ISO/IEC MPEG. MPEG-2 là chuẩn nén được phát triển từ MPEG-1, cho phép nén video với tốc độ bit cao hơn 4 Mbps. MPEG-2 hỗ trợ mã hóa video số chất lượng cao, dùng trong các ứng dụng như lưu trữ video và audio số (trên đĩa quang DVD), truyền hình số mặt đất DTTB (digital terrestrial television broadcast), truyền hình số vệ tinh, truyền hình cáp, HDTV (truyền hình có độ phân giải cao) v.v
MPEG-2 là giải pháp mã hóa tín hiệu có tính co dãn (scalability) và tính tương hợp (compatibility). Phương pháp mã hóa có tính "co dãn" (Scalable Coding) trong MPEG-2 dựa trên nguyên tắc nén tín hiệu video ở mức cơ bản và một số mức nâng cao. Khi mức cơ bản được giải mã, chúng ta sẽ nhận được hình ảnh có chất lượng trung bình. Nếu thực hiện giải mã thêm các mức nâng cao, chất lượng hình ảnh sẽ được cải thiện. Với kỹ thuật scalable coding, tín hiệu MPEG-2 có thể được giải mã trên decoder MPEG-1, ngược lại, tín hiệu MPEG-1 cũng có thể được giải mã trên decoder MPEG-2. Như vậy, MPEG-1 và MPEG-2 là hai chuẩn nén có tính tương hợp.
MPEG-2 hỗ trợ 3 dạng scalable coding dựa trên nguyên tắc phân cấp chất lượng theo tỷ lệ SNR, theo độ phân giải trong không gian (spartial scalability) và thời gian (temporal scalability). Trường hợp phân cấp theo SNR, tại mức cơ bản, các hệ số DCT được mã hóa với mức lượng tử thô, do đó lượng dữ liệu nén sẽ có tốc độ thấp. Ở mức nâng cao, tín hiệu được truyền đi là hiệu giữa các hệ số DCT chưa được lượng tử và các hệ số DCT tại mức cơ bản. Như vậy, bộ giải mã có thể sử dụng một hoặc cả hai luồng dữ liệu để khôi phục hình ảnh có hai mức chất lượng cơ bản hoặc nâng cao. Với tín hiệu được phân cấp chất lượng theo độ phân giải trong không gian, decoder có thể tạo ra hình ảnh với các độ phân giải từ thấp đến cao. Tại mức cơ bản, tín hiệu được đưa vào mã hóa được lấy mẫu với tốc độ thấp. Tại mức nâng cao, người ta mã hóa và truyền đi
Chương 3 Kỹ thuật xử lý hình ảnh
199
ảnh sai số giữa ảnh có độ phân giải thấp và ảnh có độ phân giải cao (được lấy mẫu với tốc độ cao hơn). Như vậy, nếu giải mã cả hai luồng dữ liệu chúng ta sẽ nhận được ảnh có độ phân giải cao. Nếu chỉ sự dụng luồng dữ liệu cơ bản, có tốc độ chậm (phù hợp với các đường truyền tốc độ thấp) ảnh khôi phục sẽ có độ phân giải thấp hơn. Cuối cùng, MPEG-2 cho phép mã hóa phân cấp theo thời gian: tín hiệu giải nén có thể có các tần số ảnh khác nhau. Tại mức cơ bản, tín hiệu video đưa vào mã hóa có tần số ảnh thấp. Tại mức nâng cao, thông tin về các vector chuyển động sẽ được truyền sang phía thu, decoder (dựa trên các ảnh được truyền trong mức cơ bản ) thực hiện quá trình nội suy ảnh, làm tăng tần số ảnh của tín hiệu giải nén.
Trên hình 3.3.28 là hai bảng dữ liệu cho thấy 6 profiles và 4 mức nén với các độ phân giải khác nhau trong chuẩn nén MPEG-2.
Hình 3.3.28 Các profiles và levels trong chuẩn nén MPEG-2
Như vậy MPEG-2 cho phép mã hóa tín hiệu với 24 tiêu chuẩn chất lượng khác nhau. Tốc độ truyền của dòng dữ liệu MPEG-2 thay đổi tùy theo các tiêu chuẩn chất lượng được lựa chọn.
3.3.7 Tiêu chuẩn nén MPEG-4 MPEG-4 bắt đầu được nghiên cứu từ năm 1993 và hình thành chuẩn vào tháng 7 năm 1995.
MPEG-4 chính thức trở thành tiêu chuẩn quốc tế ISO/IEC vào năm 1999. Năm 2000 MPEG-4 được bổ xung và nâng cấp lên thành các version 3 và 4.
Đặc điểm chính của MPEG-4 là mã hóa video và audio với tốc độ bit rất thấp. Thực tế tiêu chuẩn đưa ra với 3 dãy tốc độ bit
- dưới 64 kbps
- 64 đến 384 kbps
- 384 Kbps đến 4 Mbps
Đặc điểm quan trọng của chuẩn MPEG-4 là cho phép sửa sai tại phía thu, vì vậy chuẩn nén này đặc biệt thích hợp đối với môi trường dễ xảy ra lỗi như truyền dữ liệu qua kênh wireless đến các thiết bị cầm tay. Mặc dù tập trung vào những ứng dụng tốc độ bit thấp nhưng MPEG-4 cũng cho phép nén video chất lượng cao và có thể được sử dụng trong hệ thống HDTV. Những profile và level khác nhau trong MPEG-4 cho phép sử dụng tốc độ bit lên đến 1.2Gbps. MPEG-4 là
Chương 3 Kỹ thuật xử lý hình ảnh
200
chuẩn quốc tế đầu tiên cho phép mã hoá các đối tượng (object) video. Kỹ thuật mã hoá đối tượng làm tăng hiệu quả nén và tính linh động của MPEG-4.
Trong MPEG-4, các đối tượng của ảnh được tách rời và mã hoá riêng rẽ sau đó truyền tới bộ giải mã. Việc tách rời các đối tượng video như vậy làm tăng tính mềm dẻo khi thực hiện mã hoá thích nghi và đồng thời làm tăng hiệu quả nén tín hiệu. Các đối tượng khác nhau như video object và audio object và được kết hợp tại bộ giải mã. Các loại object khác nhau sẽ được mã hóa với những kỹ thuật khác nhau và với các công cụ phù hợp nhất. Trong MPEG-4, một số object có thể được tạo ra một cách độc lập trên máy tính (ví dụ các nhân vật hoạt hình hay dòng phụ đề) và trong một vài trường hợp một cảnh có thể phân tích riêng thành object nền (background) và object cận cảnh.
Hình 3.3.29 cho thấy quá trình mã hóa và giải mã các đối tượng độc lập trong chuẩn nén MPEG-4.
Hình 3.3.29 Nguyên lý mã hóa tín hiệu hình ảnh trong MPEG-4
Nhìn chung, không có kỹ thuật nén ảnh nào có thể gọi là tối ưu hoàn toàn. DCT và phép lương tử dùng trong MPEG-1 và 2 chỉ tối ưu đối với các ảnh có băng thông giới hạn và các ảnh có mức chói thay đổi chậm nhưng sẽ không tối ưu với ảnh có nhiều chi tiết nhỏ. Ví dụ, khi một cảnh quay có xen các dòng phụ đề (subtitle) thì một hệ thống mã hoá thông thường sẽ xem các chữ như là các chi tiết nhỏ của ảnh. Khi mã hóa bằng MPEG-1 hay MPEG2, các chi tiết nhỏ sau biến đổi DCT sẽ tạo ra các hệ số cao tần với biên độ lớn. Nếu nén ảnh trên với hệ số nén cao, các dòng chữ sẽ bị biến dạng đến mức không thể đọc được. Do đó việc thêm phụ đề hoặc các thành phần đồ họa (có độ nét cao) vào tín hiệu video ảnh hưởng rất lớn đến hiệu quả nén theo chuẩn MPEG. Tuy nhiên có thể mã hóa dòng chữ một cách hiệu quả hơn khi truyền các ký tự bằng mã ASCII, vị trí, font, kích thước, màu, thông tin về vị trí dòng chữ trong ảnh có thể được truyền đi với số bit tương đối nhỏ. Nhưng để làm được điều này bộ giải mã phải có khả năng tạo ra các title từ những thông tin được cung cấp. Quá trình giải mã trong MPEG-4 tương đối phức tạp, bộ giải mã phải có nhiều cơ chế giải mã và khả năng thực hiện các hoạt động đa hợp. Trong MPEG-4 có thể truyền nhiều luồng text hoặc các thông tin phụ khác và việc lựa chọn luồng cụ thể để thực hiện giải mã có thể do người xem quyết định hoặc dựa trên các thông tin được truyền trong luồng bit.
Ba đặc tính rất quan trọng của MPEG-4 là:
1- Nhiều object có thể được mã hóa với các kỹ thuật khác nhau và kết hợp lại ở bộ giải mã. 2- Các object có thể là các cảnh tự nhiên có được từ camera hay các cảnh tạo ra trên máy
tính như text hay cảnh hoạt hình 2 hoặc 3-D. 3- Từ luồng bit MPEG-4, bộ giải mã có thể tách ra các thông tin khác nhau tùy theo lựa
chọn người xem chẳng hạn như ngôn ngữ thuyết minh hay thành phần video được lọc bớt các thông tin không cần thiết (dành riêng cho trẻ em) v.v.
Việc mã hóa độc lập các object trong MPEG-4 sẽ cho hiệu suất nén cao hơn đồng thời cho
Chương 3 Kỹ thuật xử lý hình ảnh
201
phép tương tác các object với nhau đặc biệt trong các chương trình giáo dục và các trò chơi. Khi các object được truyền riêng rẽ, chúng ta có thể thay đổi tỷ lệ nén giữa các thành phần ảnh: chẳng hạn như vẫn duy trì độ phân giải của các object cận cảnh quan trọng nhưng giảm độ phân giải ảnh nền trong trường hợp băng thông kênh truyền bị hạn chế hoặc thiếu tài nguyên ở bộ giải mã (bộ nhớ, tốc độ tính).
Tuy nhiên MPEG-4 có một nhược điểm lớn là bộ giải mã MPEG-4 phức tạp hơn nhiều so với bộ giải mã MPEG-2. Hiện nay tín hiệu nén MPEG-4 thường được xử lý (nén và giải nén) trên PC sử dụng các phần mềm chuyên dụng, các bộ giải mã bằng phần cứng còn chưa phổ biến do giá thành còn tương đối cao và chưa được chuẩn hoá triệt để.
3.3.7.1 Video trong MPEG-4 Trước khi tìm hiểu kỹ thuật nén video trong MPEG-4 chúng ta làm quen với cấu trúc của
một cảnh video theo định nghĩa trong chuẩn MPEG-4. Một cảnh tiêu biểu bao gồm ảnh nền (background) và một hoặc nhiều đối tượng cận ảnh (foreground) chẳng hạn như đồ vật, một hoặc nhiều người, một vài phần tử đồ họa. Trong MPEG-1 và 2 một cảnh được lấy mẫu theo thời gian để tạo ra chuỗi ảnh dạng bitmap, sau đó từng ảnh sẽ được mã hoá. MPEG-4 mã hoá riêng từng đối tượng tách ra được từ các ảnh bitmap. Nếu bỏ qua các chi tiết không quan trọng trong ảnh, cảnh video sẽ bao gồm background và một số objects được xem là foreground. Ví dụ: trong studio, người dự báo thời tiết đứng trước nền màu xanh nước biển hay xanh lá cây, hình ảnh thu từ camera sẽ được xử lý để loại bỏ nền màu để tạo thành “key signal” hay alpha channel diễn tả hình dạng của người cận cảnh. Thông tin về hình dạng người này sẽ được kết hợp với background (ví dụ bản đồ bề mặt trái đất). Nơi có hình người cận cảnh thì cảnh nền được thay thế bằng ảnh người đó còn những nơi khác ảnh nền không thay đổi. Trong MPEG-4, đối tượng video (video object) được mô tả bởi hai phần tử là ảnh trong đối tượng gọi là “texture” và key signal hay alpha channel được xem là hình dạng (shape) của đối tượng.
3.3.7.2 Cấp độ của video MPEG-4 Các object trong MPEG-4 được lấy mẫu theo thời gian. Hầu hết các object được lấy mẫu
trong khoảng thời gian không đổi và sau khi lấy mẫu, ảnh nhận được gọi là video object plane (VOP). Như vậy mỗi object trong một cảnh được mô tả bởi một chuỗi các VOP ngoại trừ các object tĩnh có thể mô tả bằng một VOP.
Dữ liệu được truyền đi bao gồm thông tin về hình dạng và texture của VOP. Shape có thể đơn giản là hình chữ nhật hoặc được tạo từ các đường nét phức tạp. VOP cũng giống như các frame trong MPEG-2, chúng có thể được mã hóa trong ảnh hoặc mã hoá liên ảnh sử dụng phương pháp bù chuyển động.
Lớp trên của VOP là GOV (Group of video object planes). GOV tương tự như GOP (group of pictures) trong MPEG-2. Các nhóm GOV được mã hoá độc lập, do đó nó cung cấp các điểm truy xuất ngẫu nhiên trong luồng bit MPEG-4.
Trong lớp VOL (Video object layer) chúng ta có thể thay đổi tỷ lệ mã hóa chuỗi các VOP hoặc GOV. Mức video object (VO) bao gồm các VOL dùng để dùng để mô tả đối tượng video. Cuối cùng là Video session (VS) là mức cao nhất của cảnh MPEG-4 bao gồm tất cả đối tượng video cả tự nhiên và tự tạo trong một cảnh.
3.3.7.3 Mã hóa đường nét (shape) Có hai loại đường nét dùng để mô tả đối tượng video trong MPEG-4 là chữ nhật và tùy ý.
Chương 3 Kỹ thuật xử lý hình ảnh
202
Dạng chữ nhật chỉ đơn thuần là kích thước vùng ảnh. Trong MPEG-2 kích thước vùng ảnh không thay đổi, thông tin này được mã hóa trong phần header của luồng bit. Trong MPEG-4 có thể có nhiều đối tượng video với kích thước khác nhau. Ví dụ: truyền hình ảnh trong ảnh (picture in picture -PIP) khi ảnh full frame và các ảnh nhỏ được truyền đi cùng lúc.
Trong mặt phẳng ảnh, đường nét của đối tượng video xác định phạm vi hiển thị của đối tượng đó. Đường nét dạng chữ nhật được gọi là mask, kích thước của mask tương đương với kích thước ngang và dọc lớn nhất của đối tượng. Cả hai kích thước ngang và dọc của mask thường được chọn là bội số của 16 pixel.
Đường nét tùy ý có thể được mã hóa như dữ liệu nhị phân hoặc dữ liệu xám. Đường nét nhị phân là dạng đơn giản nhất, nó chỉ ra vùng hiển thị của đối tượng video.
3.3.7.4 Mã hóa texture Thành phần texture của các đối tượng video có thể được mã hóa trong MPEG-4 theo
phương pháp giống như bù chuyển động trong MPEG-2. Có các loại VOP như sau: I-VOP, P-VOP, B-VOP. Hầu hết các profile MPEG-4 đều sử dụng tiêu chuẩn 4:2:0 và YUV để mô tả texture của đối tượng video.
3.3.7.5 Sprites MPEG-4 có một loại đối tượng đặc biệt được dùng làm cảnh nền gọi là sprite. Sprite là đối
tượng video có kích thước lớn hơn màn hình hiển thị. Sprite là đối tượng được sử dụng liên tục trong một cảnh (tương tự như cảnh trên sân khấu diễn kịch). Sprite thường dùng để mã hoá các trò chơi điện tử (video game). Thông thường một cảnh trong game bao gồm ảnh nền và một số đối tượng nhân tạo di chuyển theo kịch bản của game và hành động của người chơi. MPEG-4 cho phép truyền toàn bộ cảnh nền như sprite và ảnh nền tức thời được đọc ra từ sprite dựa trên các thông tin cropping và wraping được truyền tới decoder. Như vậy, ảnh nền tức thời hiển thị trên màn hình chỉ là một vùng nhỏ (bằng kích thước cửa sổ màn hình) trong cảnh nền (hình 3.3.30). Trong video game, các thành phần của một sprite có thể được sử dụng nhiều lần vì thế lượng dữ liệu cần truyền sẽ giảm đáng kể.
Hình 3.3.30 Cảnh nền (sprite) được truyền đi có kích thước lớn hơn khả năng hiển thị của màn hình
Việc truyền toàn bộ sprite ngay khi bắt đầu chương trình có thể rất hiệu quả nhưng sẽ làm tăng băng thông tức thời và quá trình khởi động decoder sẽ kéo dài. Vì vậy, trong MPEG-4 người ta có thể truyền sprite theo từng phần. Phần ảnh nền cần thiết tại thời điểm tức thời sẽ được truyền đi, tất cả các ảnh thu được sẽ ghi nhớ ở bộ giải mã như một phần của sprite. Theo phương pháp khác, sprite có thể được mã hóa và truyền đi toàn bộ với độ phân giải thấp và thành phần tín hiệu dùng để khôi phục ảnh có độ phân giải cao hơn sẽ được truyền sau.
Sprite được mã hóa như tín hiệu chói với hai thành phần màu như trong MPEG-2 và luôn
Chương 3 Kỹ thuật xử lý hình ảnh
203
được mã Intra bởi vì bản chất của sprite là ảnh tĩnh.
3.3.7.6 Scalability MPEG-4 cung cấp chế độ phân cấp chất lượng tức thời và cố định ở mức đối tượng. Trong
cả hai trường hợp, kỹ thuật này được sử dụng để tạo ra lớp cơ sở (base layer), lpưos này cho chất lượng ảnh thấp nhất có thể tái tạo từ luồng bit và một hoặc nhiều lớp tăng cường (enhancement layer). Chất lượng hình ảnh có thể được điều chỉnh bằng hai cách khác nhau. Nếu băng thông bị giới hạn thì luồng bit truyền đi sẽ chỉ bao gồm lớp cơ sở hoặc lớp cơ sở và một vài lớp tăng cường bậc thấp. Một cách khác tất cả các lớp có thể được truyền đi đến bộ giải mã, tại đây sẽ quyết định những lớp nào sẽ được sử dụng để giải mã. Nếu thiết bị hiển thị có độ phân giải thấp hoặc tài nguyên tính toán không đủ thì lớp tăng cường có thể bỏ qua.
Hình 3.3.31 Bộ mã hóa phân cấp chất lượng MPEG-4
Hình 3.3.31 mô tả sơ đồ khối của bộ mã hóa thực hiện quá trình phân cấp chất lượng với 2 mức cố định. Các VOP ngõ vào được biến đổi xuống (down-converted) tới độ phân giải thấp và mã hóa để tạo ra lớp cơ sở. Lớp cơ sở được đưa tới ngõ ra và tới bộ Multiplexer. Lớp cơ sở còn được giải mã tại chỗ và đưa tới bộ up-converted để có cùng độ phân giải như ngõ vào. Tín hiệu có độ phân giải cao này sẽ được so sánh với tín hiệu ngõ vào tại bộ trừ (Subtract), ảnh sai biệt ở đầu ra bộ trừ được mã hóa riêng ở bộ mã hóa lớp tăng cường. Chú ý rằng mỗi luồng VOP sau khi mã hóa tạo thành lớp đối tượng video. Lớp cơ sở sử dụng cả mã hóa Intra và Inter trong khi lớp tăng cường chỉ sử dụng mã hóa dự đoán.
Việc phân cấp chất lượng tạm thời thì đơn giản hơn. Luồng bit đến của VOP được chia thành các luồng nhỏ. Số VOP được yêu cầu sẽ được gửi đến bộ mã hóa lớp cơ sở, phần còn lại được gửi đến một hoặc nhiều bộ mã hóa tăng cường.
Quá trình phân cấp trong MPEG-4 có thể được áp dụng riêng rẽ đối với mỗi đối tượng cơ sở. Điều này làm cho quá trình mã hóa và giải mã trở nên linh động hơn nhưng cũng phức tạp hơn. Chẳng hạn một bộ giải mã trong hệ thống chơi game không có đủ khả năng để giải mã tất cả các đối tượng ở tốc độ cao nhất có thể nên nó chọn phương pháp giải mã cảnh nền với tốc độ thấp và chấp nhận việc chuyển động nền bị giựt, đồng thời giải mã với tốc độ cao đối với các đối tượng cận ảnh làm cho chuyển động của chúng mịn hơn.
3.3.8 Ứng dụng và đánh giá khả năng kinh tế của các tiêu chuẩn nén Trong bảng dưới đây tập hợp các ứng dụng của một số tiêu chuẩn nén.
Ứng dụng của các tiêu chuẩn nén.
Chương 3 Kỹ thuật xử lý hình ảnh
204
Ứng dụng Tiêu chuẩn mã hóa
Độ phân giải cực đại
Tốc độ bit cực đại
Videophone
Hội nghị truyền hình
Truyền hình cáp
Truyền hình
Studio / sản xuất
HDTV / sản xuất
HDTV / truyền dẫn
H.261
H.261
MPEG-2
MPEG-2
MJPEG
MPEG-2(@4:2:2)
MPEG-2
MPEG-2
176x144
352x288
720x576
720x576
720x576
1920x1280
1920x1280
64 ÷128 Kbps
0.384 ÷1.554 Mbps
4…9 Mbps
< 50 Mbps
< 50 Mbps
100 Mbps
20 Mbps
Việc ra đời chuẩn MPEG-2 đã khẳng định ưu thế của MPEG so với MJPEG khi nó đáp ứng được từ khâu sản xuất đến truyền dẫn và phát sóng. Với tiềm năng kinh tế mạnh thì việc đầu tư thiết bị theo chuẩn MPEG cho tất cả các khâu trong lĩnh vực truyền hình là điều tất yếu. Nhưng khả năng đầu tư cho truyền hình Việt Nam còn hạn chế, chúng ta lại đang ở giai đoạn nghiên cứu và thử nghiệm, cho nên việc tìm giải pháp thích hợp đảm bảo điều kiện kinh tế, chất lượng hình ảnh phù hợp cho từng công đoạn là vấn đề cần thiết.
Trong khâu phát sóng, chuẩn MPEG-2 MP@ML (4:2:0) là sự lựa chọn tối ưu. MPEG-2 MP@ML sử dụng các ảnh I, P, B và nén với hệ số nén rất cao, do đó với chuẩn này, người ta có thể tiết kiệm tối đa dải thông của đường truyền, tăng số lượng chương trình.
Khi nén video trong máy ghi hình, vấn đề cần ưu tiên là giữ chất lượng tín hiệu tốt nhất để phục vụ cho quá trình gia công xử lý trong studio sau này. Các phương pháp nén trong máy ghi hình số được thực hiện tại chỗ để giảm vận tốc dòng số ghi lên băng hoặc đĩa quang. Về mặt chất lượng, nếu sử dụng máy ghi công nghệ nén MPEG dùng một loại ảnh I (tương đương M-JPEG) sẽ tạo ra nhiều thuận lợi cho quá trình dàn dựng. Như vậy, ta có thể thấy rằng chuẩn M-JPEG khá tiện dụng cho việc xử lý, làm kỹ xảo trong studio với giá thành hệ thống phù hợp.
TÓM TẮT CHƯƠNG 3 Những vấn đề chính được đề cập tới trong chương 3 là: 1- Khái niệm cơ bản về xử lý tín hiệu hình ảnh: lĩnh vực ứng dụng, các giai đoạn xử lý ảnh,
giới thiệu chung về các thành phần cơ bản của hệ thống xử lý ảnh số. Cũng trong phần này, chúng ta đã nhắc lại một số vấn đề về ánh sáng và màu sắc, đưa ra các thông số cụ thể để đánh giá khách quan chất lượng ảnh đen trắng và ảnh màu. Trên cơ sở phân tích đặc điểm cảm nhận ánh sáng và màu sắc của hệ thống thị giác, chúng ta đã xác định được các thông số chính của tín hiệu hình ảnh tĩnh và ảnh động như: độ phân giải, khổ ảnh, số mức xám, tần số ảnh v.v.
Tín hiệu hình ảnh nhận được sau khi biến đổi quang điện thường có dạng tương tự, hoặc rời rạc do đó cần biến đổi những tín hiệu này thành tín hiệu số trước khi đưa vào các hệ thống xử lý tín hiệu số. Quá trình biến đổi analog-digital cho tín hiệu một chiều và hai chiều được phân tích trong phần 3.1.5.6. Những vấn đề liên quan được giới thiệu trong phần này là: tần số và cấu trúc lấy mẫu tín hiệu hình ảnh; Các tiêu chuẩn lấy mẫu ảnh số theo thành phần; Giới thiệu phương
Chương 3 Kỹ thuật xử lý hình ảnh
205
pháp biểu diễn tín hiệu ảnh số và video số. Tín hiệu video trong hệ thống truyền hình quảng bá. 2- Phần tiếp của chương 3 giới thiệu một số công cụ toán học dùng để phân tích quá trình
xử lý ảnh số và video số trong không gian và trong miền tần số: đó là các phép tính thực hiện với từng điểm ảnh, phép tính với ma trận các điểm ảnh, phép tính tổng chập dùng để mô tả quan hệ vào ra của hệ thống xử lý ảnh số, các phép biến đổi không gian 1 và 2 chiều thông dụng trong lĩnh vực xử lý ảnh như: biến đổi Fourier, biến đổi DCT. Biến đổi DCT rời rạc được sử dụng rất rộng rãi trong các phương pháp nén ảnh tĩnh và ảnh động có tổn thất như JPEG, M-JPEG, MPEG1, 2, 4, 7 v.v.
3- Phần lớn chương ba (3.2) được dành để phân tích một số kỹ thuật xử lý ảnh từ mức thấp đến mức cao: xử lý để nâng cao chất lượng hình ảnh (tăng tương phản, mức chói, cân bằng histogram v.v), khôi phục ảnh bị làm méo hoặc bị ảnh hưởng của nhiễu, các kỹ thuật lọc nhiễu, các phương pháp làm nổi và dự đoán đường biên, phân vùng ảnh. Hầu hết các kỹ thuật xử lý ảnh số trong phần này đều được minh họa bằng hình ảnh, cho phép người đọc quan sát và đánh giá quá trình biến đổi ảnh từ lúc đưa vào hệ thống cho đến khi có ảnh kết quả. Trong từng ví dụ minh họa còn giới thiệu các hàm Matlab dùng để trợ giúp quá trình xử lý ảnh. Ngoài ra, các học viên có thể thực hiện lập trình (trong Matlab hoặc sử dụng các ngôn ngữ lập trình khác như C++, Pascall v.v) để kiểm chứng lại những vấn đề nêu trong tài liệu này.
Phần xử lý ảnh màu được trình bày sau khi phân tích các kỹ thuật xử lý ảnh đen-trắng. Quá trình mô tả ảnh màu có thể được thực hiện trong các không gian màu khác nhau tùy theo mục đích sử dụng: ảnh trong các hệ thống truyền hình màu thường được biểu diễn trong không gian RGB, trong kỹ thuật in ấn - CMYK, trong lĩnh vực xử lý ảnh thì không gian màu HSI được sử dụng nhiều hơn cả. Quá trình xử lý ảnh màu có thể được thực hiện với từng điểm màu: khi mỗi điểm ảnh được biểu diễn như vector trong không gian màu được chọn, hoặc được thực hiện lần lượt với từng ảnh màu đơn sắc. Các phương pháp xử lý ảnh màu cũng được phân loại thành phương pháp biến đổi trong không gian và trong miền tần số. Trong phần này chúng ta nói đến các phương pháp xử lý đã được áp dụng cho ảnh đen trắng (lọc không gian, hiệu chỉnh, xử lý histogram v.v) cũng như một số kỹ thuật biến đổi chỉ áp dụng cho ảnh màu (kỹ thuật tạo màu giả, tách ảnh theo các mức màu, phép biến đổi màu v.v).
4- Phần cuối cùng của chương ba (3.3) giới thiệu về các phương pháp nén ảnh tĩnh và ảnh động. Trong phần này chỉ đề cập tới các phương pháp nén ảnh số tương đối thông dụng. Đó là các kỹ thuật nén không tổn thất như kỹ thuật mã hóa Entropy, mã LZW, mã RLC, mã DPCM không tổn thất v.v. và nén có tổn thất như DCPM, JPEG, MPEG v.v.
Đặc biệt, quá trình nén theo JPEG và MPEG được phân tích tương đối kỹ, vì đấy là các phương pháp nén được sử dụng rộng rãi trong các hệ thống truyền thanh, truyền hình chất lượng cao.
5- Phần cuối chương 3 tập hợp một số bài tập và câu hỏi. Việc thực hiện các bài tập này giúp cho người đọc nắm vững hơn những kiến thức được trình bày trong toàn bộ chương "Kỹ thuật xử lý ảnh".
CÂU HỎI VÀ BÀI TẬP CHƯƠNG 3 Bài 1
Camera được trang bị bộ cảm biến CCD có kích thước 5,4x7,2mm, độ phân giải 2140x1560 điểm. Ống kính camera có tiêu cự 35mm. Ảnh được hội tụ lên CCD nằm cách ống kính 0,5m. Tìm mật độ điểm ảnh (số điểm/mm) trên ảnh nhận được.
Chương 3 Kỹ thuật xử lý hình ảnh
206
Bài 2 Tìm số lượng bits cần thiết để lượng tử hóa tín hiệu truyền hình số khi màn hình máy thu trong hệ thống truyền hình số nói trên có độ chói thay đổi trong khoảng từ Lmin = 2 cd/m2 đến Lmax =150 cd/m2, nguồn sáng bên ngoài chiếu lên bề mặt màn hình có độ chói 5 cd/m2. Giá trị ngưỡng tương phản 0.03σ = .
Bài 3 Bề mặt có hệ số phản chiếu bằng 1, được chiếu sáng bởi nguồn sáng có mật độ phân bố độ sáng như sau:
( ) ( ) ( )2 20 0,
x x y yi x y Ke
⎡ ⎤− − + −⎣ ⎦=
với K=255. Ảnh phản chiếu từ bề mặt nói trên được số hóa. Số bits dùng để lượng tử hóa là k. Xác định k nhỏ nhất sao cho ảnh số nhận được có độ chói biến đổi liên tục trong mắt người quan sát. Được biết mắt người chỉ phân biệt được hai vùng ảnh tách biệt, khi độ chói giữa hai vùng đó chênh lệch trên 10%. Biểu diễn ảnh nhận được khi k=2.
Bài 4 Hệ thống truyền hình chất lượng cao với số dòng z=1080, khổ ảnh 16:9, tần số quét là 60 mành/giây (quét xen kẽ). Tín hiệu video được số hóa với độ phân giải giống nhau theo chiều ngang và chiều dọc. Ảnh được lấy mẫu theo tiêu chuẩn 4:2:2. Mức lượng tử là 256 cho thành phần chói và 128 cho hai thành phần màu. Tìm khối lượng thông tin số nhận được sau khi số hóa chương trình truyền hình có thời gian là 2 giờ.
Bài 5 Cho ma trận điểm ảnh sau:
2 2 1 38 1 3 41 4 2 93 1 7 5
I
⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎣ ⎦
thực hiện phép nhân chập Y I H= ⊗ , khi: 1 11 1
H−⎡ ⎤
= ⎢ ⎥−⎣ ⎦
Bài 6 Xét hai vùng ảnh S1 và S2 trên màn hình:
Cho { }1V , xác định xem S1 và S2 có phải là hai vùng liên kết 4,8 hay m không.
Bài 7
Cho { }0,1V , tìm khoảng cách D4, D8 nhỏ nhất giữa 2 điểm ảnh (p) và (q):
Chương 3 Kỹ thuật xử lý hình ảnh
207
Tìm các khoảng cách trên cho trường hợp { }1,2V .
Bài 8 Biểu diễn tập hàm biến đổi, cho phép tách các mặt phẳng bit từ ảnh đen trắng (với 256 mức xám).
Bài 9 Histogram của ảnh sẽ thay đổi thế nào khi bit nhỏ nhất (LSB) hoặc lớn nhất (MSB) của các điểm ảnh được gán mức 0.
Bài 10 Ảnh gốc được xử lý bằng phương pháp tách mức chói có nền và không nền. Vẽ đặc tuyến hàm biến đổi. Histogram của hai ảnh kết quả sẽ thay đổi thế nào so với ảnh gốc?
Bài 11 Ảnh số được cân bằng mức xám để có được ảnh kết quả. Chứng minh rằng khi cân bằng mức xám cho ảnh kết quả đó một lần nữa, ảnh nhận được sẽ không thay đổi.
Bài 12 Cho hình ảnh có mật độ phân bố xác suất mức xám được biểu diễn bằng hàm:
( )2
2212
r m
rp e σ
πσ
−−
=
Tìm hàm biến đổi ( )k ks T r= cho quá trình cân bằng mức xám ảnh nói trên.
Bài 13
Cho ảnh ( ),f x y , ( ),g x y và histogram fh , gh của chúng. Tìm historam của ảnh
được tạo ra sau các biến đổi sau:
a) ( ) ( ), ,f x y g x y+ , b) ( ) ( ), ,f x y g x y−
c) ( ) ( ), ,f x y g x y⋅ , d) ( ) ( ), / ,f x y g x y
Trong trường hợp nào các biến đổi trên có thể được thực hiện?
Bài 14 Trình bày nguyên lý biến đổi ảnh số bằng phương pháp tra bảng, ưu điểm của phương pháp này.
Bài 16 Chứng minh toán tử thực hiện quá trình lọc trong không gian theo (3.2.30) là toàn tử tuyến tính.
Bài 17 Chứng minh toán tử tìm median là toán tử phi tuyến
Bài 18
Chương 3 Kỹ thuật xử lý hình ảnh
208
Trình bày giải thuật tìm giá trị trung vị cho ma trận nxn điểm ảnh.
Bài 19 Giải thích vì sao quá trình làm mờ ảnh có thể mô tả bằng tích chập ảnh gốc và đáp ứng xung của hệ thống làm mờ, như trong công thức (3.2.36)?
Bài 20 Ảnh gốc được lọc nhiễu bằng kỹ thuật trung bình hóa trong không gian, sau đó dùng mặt nạ Laplacian để tăng cường độ nét. Nếu thứ tự lọc được đổi ngược, ảnh kết quả sẽ thay đổi thế nào?
Bài 21 Tại sao không thể khôi phục chính xác được ảnh gốc trong các hệ thống xử lý ảnh thực tế?
Bài 22 Trong trường hợp nào bộ lọc ngược cho phép khôi phục tín hiệu với độ chính xác cao?
Bài 23 Tại sao bộ lọc Wiener ít nhạy cảm với nhiễu hơn so với bộ lọc ngược?
Bài 24 Chứng minh biến đổi Fourier thuận và nghịch là biến đổi tuyến tính.
Bài 25
Cho hàm đáp ứng xung của hệ thống là ( ),H x y A= , 0A > . Ảnh ( ),f x y sẽ được
biến đổi thế nào khi đưa qua hệ thống nói trên?
Bài 26 Bộ lọc trong miền không gian được thực hiện với ma trận lọc sau:
0 1 0
1 1 0 14
0 1 0h
⎡ ⎤⎢ ⎥= ⎢ ⎥⎢ ⎥⎣ ⎦
Tìm đáp ứng tần số của bộ lọc và chứng tỏ rằng đây là bộ lọc thông thấp.
Bài 27 Đạo hàm của tín hiệu rời rạc thường được tính theo công thức gần đúng sau:
( ) ( )1, ,f f x y f x y
x∂
= + −∂
Tìm đáp ứng tần số H(u,v) của hệ thống thực hiện toán tử trên. Chứng minh đây là bộ lọc thông cao.
Bài 28
Viết chương trình thực hiện toán tử la bàn cho một ảnh bất kỳ. Bài 29
Cho hệ thống xử lý tín hiệu đặc trưng bởi hàm biến đổi sau:
( ) ( ) ( )2 2
,x y
h x y eα β
α β⎡ ⎤− − + −⎣ ⎦− − =
Tín hiệu đưa tới hệ thống có dạng: ( ) ( ),f x y x aδ= − . Tìm đáp ứng của hệ thống
Chương 3 Kỹ thuật xử lý hình ảnh
209
( ),g x y trong trường hợp không có tác động của nhiễu..
Bài 30
Ảnh số sau khi đi qua hệ thống xử lý bị biến đổi theo hàm truyền đạt sau:
( ) ( ) ( )2 2 2 222 2, 2 u vH u v u v e π σπσ − += − +
Tìm hàm biến đổi của bộ lọc Wiener trong trường hợp tỷ lệ năng lượng nhiễu chia cho tín hiệu là hằng số.
Chứng minh nếu đáp ứng xung của hệ thống là ( ) ( ) 2 22 2 4 /2/ rh r r e σσ δ −⎡ ⎤= −⎣ ⎦ ,
2 2 2r x y= + thì hàm truyền đạt của nó là ( ),H u v .
Bài 31
Viết chương trình thực hiện biến đổi Hough cho ảnh nhị phân (gồm các điểm trắng trên nền đen)
Bài 32 Xác định vị trí của màu xám trên tam giác màu đơn vị XYZ (hình 3.2.58).
Bài 33 Tìm các bước sóng trội và độ sạch màu của điểm màu "PINK" trên hình 3.2.58, lấy màu trắng chuẩn là màu "COOL WHITE"
Bài 34
Cho ba màu ( ) ( ) ( )1 1 1 2 2 2 3 3 3, , , , ,c x y c x y c x y nằm trong tam giác màu XYZ (hình
3.2.55). Ba màu trên tạo ra một tam giác màu con. Tìm công thức trộn màu để biểu diễn các màu trong tam giác con thông qua tọa độ của ba màu 1 2 3, ,c c c .
Bài 35 Trong không gian màu RBG, mỗi màu cơ bản được số hóa với 256 mức lượng tử (từ 0 đến 255). Cho biết có bao nhiêu mức xám thể hiện được trong không gian màu này?
Bài 36 Không gian màu RGB được mô tả dưới dạng khối lập phương (hình 3.2.56b). 1- Mô tả quá trình thay đổi độ chói của các điểm màu nằm dọc theo các cạnh phía trước của khối màu.
2- Chúng ta đổi ba màu RGB thành CMY. Ảnh khối màu mới được hiển thị lên màn hình RGB. Xác định các màu nằm ở đỉnh hình khối trên màn hình.
Bài 37 Xác định biểu thức cho phép tìm màu bổ xung trong không gian CMY
Bài 38 Mô tả hàm biến đổi cho phép làm giảm độ tương phản trong không gian màu RGB.
Bài 39 Ảnh màu có nhiễu được biểu diễn trong không gian màu HSI. Mô tả và giải thích hiện tượng biến đổi màu dưới tác động của nhiễu trong các thành phần H và S.
Bài 40
Chương 3 Kỹ thuật xử lý hình ảnh
210
Phân tích ưu và nhược điểm của phương pháp nén ảnh tổn hao và không tổn hao
Bài 41 Viết chương trình nén và giải nén theo phương pháp RLC
Bài 42 Viết thủ tục thực hiện biến đổi DCT thuận.
Bài 43 Viết thủ tục thực hiện biến đổi DCT nghịch.
Bài 44 Chuỗi điểm ảnh 8 bits có giá trị 10, 14, 25, 240, 195, 32 được đưa tới bộ mã hóa DPCM. Thành phần sai số được lượng tử với 32 mức. Tìm tín hiệu nhận được sau khi giải mã DPCM. Không thực hiện mã hóa entropy. Giá trị ban đầu trong bộ dự đoán bằng 0. Tìm sai số RMS giữa chuỗi kết quả và chuỗi điểm ảnh gốc.
Bài 45 Thực hiện quá trình mã hóa hệ số DC theo phương pháp mô tả trong phần 3.3.5.4.4. giá trị DC block hiện tại bằng 32, giá trị DC của block trước là 20.
Bài 46 Chuỗi các hệ số AC của khai triển DCT nhận được sau khi quét zig-zag bằng: 3,1,1,0, 0,1,0,0,0,0,2. Thực hiện quá trình mã hóa chuỗi hệ số AC theo phương pháp mô tả trong phần 3.3.5.4.5. Sử dụng kết quả bài tập 51 để tạo ra chuỗi tín hiệu nén JPEG. Tìm hệ số nén trong trường hợp này.
Bài 47 So sánh sự khác biệt giữa MPEG-2 và MPEG-1.
Bài 48 So sánh sự khác biệt giữa MPEG-4 và MPEG-2.
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
211
CHƯƠNG 4 ỨNG DỤNG KỸ THUẬT XỬ LÝ ÂM THANH VÀ HÌNH ẢNH TRONG VIỄN THÔNG
4.1 CÁC ỨNG DỤNG CỦA XỬ LÝ ÂM THANH VÀ HÌNH ẢNH
4.1.1 Lưu trữ âm thanh và hình ảnh
4.1.1.1 Băng từ Hiện nay, trong lĩnh vực lưu trữ dữ liệu, tương đối nhiều phương tiện lữu trữ trên các vật
liệu có từ tính đang được sử dụng. Ví dụ: trong hệ thống máy tính, đĩa mềm (Floppy disk) được sử dụng tương đối phổ biến, ví dụ: đĩa mềm 5¼ -inch ghi được 1.2 MB, đĩa 3.5-inch HD (high density) có dung lượng 1.44MB.
Trong các hệ thống truyền audio và video thường có nhu cầu lưu trữ dữ liệu với khối lượng rất lớn kể cả sau khi tín hiệu đã được nén. Thật vậy, để lưu trữ 1 phút tín hiệu truyền hình số HDTV 1920x1080/P/50 cần bộ nhớ ~15.5GB. Luồng âm thanh số thường có tốc độ nhỏ hơn rất nhiều so với luồng video số, do đó, sau đây chúng ta chủ yếu đề cập tới khả lưu trữ tín hiệu video số (tích hợp âm thanh) của các thiết bị lưu trữ.
Trước đây, khi chưa có các thiết bị cho phép ghi và lưu trữ hình ảnh động thời gian thực, hệ thống truyền hình luôn truyền trực tiếp tín hiệu nhận được từ camera. Từ năm 1956, sau khi hãng Ampex đưa ra các thiết bị ghi hình trên băng từ theo chuẩn Quadruplex, các chương trình truyền hình có thể được thực hiện từ nguồn video được lưu trên băng. Băng từ đầu tiên của Ampex có bề rộng 2 inch, lưu trữ trong cuộn mở. Tín hiệu video tương tự được ghi trên các đường từ nằm theo chiều ngang của băng. Tốc độ dịch chuyển của băng là 381 mm/s (NTSC). Cuộn băng dài 1500m cho phép lưu trữ gần 1 giờ video chuẩn NTSC. Loại băng từ Quadruplex có nhiều nhược điểm như kích thước lớn kéo theo kích thước của các thiết bị ghi và phát hình cũng lớn, giá thành cao v.v. Vì vậy, nhiều hãng đã nghiên cứu và đưa ra các chuẩn ghi hình mới, cho phép sử dụng nhiều loại băng từ bề rộng hẹp (1, 3/4 và 1/2 inch), đơn giản hóa hệ thống kéo băng, giảm tốc độ dịch chuyển của băng v.v. Sau này, băng từ được bảo quản trong các hộp kín (cassette).
Năm 1976, hãng JVC công bố chuẩn ghi hình VHS (Video Home System) cho phép ghi hình với chất lượng tương đối cao trên băng từ 1/2 inch. VHS cassette có kích thước nhỏ gọn (187mm x 103mm x 25mm), chiều dài băng trong 1 cassette tiêu chuẩn ~430m. Tốc độ di chuyển băng khi ghi hình theo chuẩn NTSC là 3,335cm/s. Thời gian ghi hình tối đa với chất lượng SP (Standard Play) trên một băng hình là 3,5 giờ. Khác với chuẩn Quadruplex, trong VHS tín hiệu video tương tự được ghi trên các đường chéo so với chiều chuyển động của bằng từ (hình 4.1.3). VHS cho phép lưu trữ video trên băng từ với bề rộng phổ ~3Mhz, tương đương với 250 dòng trên ảnh (TVLines). Tín hiệu video được điều chế FM trước khi ghi lên băng.
JVC sản xuất băng hình VHS-C (Compact) có kích thước cassette nhỏ (95x60x25mm) để sử dụng trong các máy quay video cầm tay. Thời gian ghi hình tối đa của băng VHS-C là 2 tiếng.
Năm 1985, xuất hiện chuẩn HiFi VCR (Video Cassette Recoder) cho phép ghi song song tín hiệu hình ảnh và tín hiệu âm thanh stereo chất lượng cao (20-20000Hz, SNR>70dB). Tín hiệu âm thanh được điều chế FM, dải tần sử dụng để ghi âm thanh lên băng từ thấp hơn dải tần dùng cho tín hiệu video, do đó khi ghi lên băng, tín hiệu mang âm thanh sẽ tác động vào lớp từ sâu hơn so với tín hiệu video. Tín hiệu video ghi sau đó sẽ được ghi đè lên tín hiệu âm thanh trên bề mặt của băng từ, nhưng nó không xóa hết được thành phần âm thanh nằm sâu trong băng. Khi phát, tín hiệu âm thanh FM được đọc ra và khôi phục lại với chất lượng cao.
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
212
Năm 1987, JVC đưa ra chuẩn Super VHS cho phép ghi và phát tín hiệu video có bề rộng phổ lên tới 5MHz tương đương 420 TVL (để so sánh video ghi trên đĩa quang DVD có ~500 dòng). Tín hiệu video màu tương tự trong SVHS được xử lý tương tự như tín hiệu màu trong hệ NTSC: thành phần màu được hạn chế phổ tới mức 0.4 MHz, và ghép với tín hiệu chói bằng phương pháp điều chế QAM.
Cạnh tranh với VHS của JVC là chuẩn Betamax (1984) của Sony. Cũng ghi trên băng từ 1/2 inch, tín hiệu Betamax có các thông số gần giống VHS: tốc độ băng 4cm/s, 250TVL. Kích thước băng Betamax nhỏ hơn VHS: 156x96x25mm. Thời gian ghi tối đa 4 giờ. Vì nhiều lý do, chuẩn Betamax không cạnh tranh được với VHS. Tới năm 1986, Sony Betamax chỉ chiếm 7.5% thị phần trên thị trường VCR, do đó Sony đã cải tiến Betamax để sử dụng trong các máy ghi hình gia đình (Camcoders), và đổi tên thành Video-8. Ưu điểm của Video-8 là casette nhỏ gọn (93x60x14mm); trên băng từ 8mm, theo chuẩn Video-8 có thể ghi được 4 tiếng video chất lượng VHS. Để so sánh, băng VHS-C (Compact) của JVC dùng cho camcoders chỉ cho phép ghi 2 tiếng video. Tuy nhiên, nhược điểm của Video-8 là kích cỡ băng không tương thích với các đầu VCR thông dụng (sử dụng băng từ 1/2 inch).
Trong lĩnh vực lưu trữ hình ảnh chuyên nghiệp, chuẩn Betacam của Sony (ghi video tương tự) được sử dụng rất phổ biến. Theo chuẩn Betacam, tín hiệu video thành phần được ghi băng từ 1/2 inch. Thành phần chói Y và hai thành phần màu được ghi trên các đường ghi khác nhau. Chất lượng video vì vậy được cải thiện rất nhiều, hiện tượng nhiễu xuyên kênh màu - chói được loại trừ hoàn toàn. Tín hiệu Y cho phép hiển thị tối đa 500TVL. Chuẩn Betacam SP (Superior Performance) được sử dụng rất rộng rãi trong studio. Băng Betacam cho phép lưu trữ từ 30-90 phút video chất lượng cao (625/50). Cassette Betacam có hai loại là Small Size (156x96x25mm) hoặc Large Size (254x145x25mm).
Các tiêu chuẩn ghi hình nói trên cho phép ghi trực tiếp lên băng tín hiệu video tương tự. Việc lưu trữ tín hiệu dưới dạng analog có nhiều nhược điểm: chất lượng tín hiệu sẽ giảm dần theo thời gian, tỷ lệ SNR cũng giảm dần sau mỗi lần sao chép, không thể thực hiện truy xuất nhanh tới vị trí bất kỳ trên đoạn video v.v. Để khắc phục các nhược điểm nói trên, dữ liệu âm thanh và hình ảnh được chuyển sang lưu trữ dưới dạng số. Tuy nhiên, cần lưu ý rằng, sau khi số hóa, chất lượng tín hiệu số sẽ không còn tốt như tín hiệu gốc (hiệu quả của quá trình lượng tử hóa), hơn thế nữa, dung lượng tín hiệu số thường lớn hơn nhiều lần so với dung lượng tín hiệu analog. Vì vậy, trong các hệ thống truyền dẫn và lưu trữ âm thanh, hình ảnh, vai trò của bộ nén tín hiệu là rất lớn. Như chúng ta đã biết, các chuẩn nén âm thanh và video được sử dụng rộng rãi trong hệ thống truyền hình quảng bá là MPEG1, 2, 4. Tùy theo nhu cầu sử dụng tín hiệu tại từng công đoạn trong quá trình sản xuất và truyền hình, người ta sẽ lựa chọn phương pháp nén phù hợp. Ví dụ, trong studio, khi cần có tín hiệu gốc chất lượng cao nhất và khả năng truy cập ngẫu nhiên để thực hiện dàn dựng chương trình, video sẽ được nén và lưu trữ theo chuẩn MPEG-2 chỉ với các frame I; khi ghi video thành phẩm lên đĩa DVD, người ta chọn phương pháp nén MPEG-2 với các ảnh IPB, chọn chiều dài GOP tương đối lớn để nâng cao hiệu quả nén v.v.
Giai đoạn phát triển tiếp theo của hệ thống lưu trữ dữ liệu âm thanh và hình ảnh là lưu trữ dữ liệu số trên băng từ. Các chuẩn video số cho thiết bị dân dụng xuất hiện từ những năm 90. Chuẩn video số DV được giới thiệu năm 1996. Cassette dùng để lưu trữ DV có 2 loại L-size (120x90x12mm) và M-size (65x48x12) còn được gọi là MiniDV. Băng từ dùng trong chuẩn DV có bề rộng 1/4 inch (6,35mm). Với tốc độ ghi/đọc chuẩn (SP) băng MiniDV cho phép lưu trữ
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
213
~13GB dữ liệu số tương đương với 60 phút video chất lượng cao (720x480). Chuẩn DV sử dụng phương pháp nén ảnh theo MPEG-2 với các ảnh I (tương đương với
chuẩn MJPEG). Chuẩn lấy mẫu tín hiệu hình ảnh trong DV là 4:1:1 hoặc 4:2:0. Tín hiệu hình ảnh được nén với tốc độ không đổi là 25.146 Mbps, âm thanh được mã hóa 2 kênh, 16 bits, tần số lấy mẫu 48 KHz hoặc 4 kênh, 12 bits, tần số lấy mẫu 32KHz, tạo ra luồng số 1.536 Mbps.
Năm 1998, hãng JVC giới thiệu chuẩn D-VHS (Digital VHS). Tiêu chuẩn nén video sử dụng trong D-VHS là MPEG-2. D-VHS cho phép ghi video với chất lượng khác nhau (tương đương với thời lượng khác nhau): HS (Hi Speed), STD (Standard Speed) và LS (Low Speed). D-VHS cho phép ghi chậm hơn STD 3 và 5 lần, hai chế độ ghi này ký hiệu là LS3 và LS5. Độ phân giải của tín hiệu video ghi với STD là 720x480, dòng bits có tốc độ 14.1 Mbps. Máy ghi hình D-VHS (ví dụ JVC HM-DR 10000) cho phép ghi và phát tín hiệu D-VHS lên băng hình tiêu chuẩn SVHS. Trong bảng 4.1 là các thông số của băng ghi hình theo chuẩn D-VHS. Bảng 4.1 Các loại băng từ ghi dữ liệu số theo chuẩn D-VHS
Chuẩn Digital-8 được Sony sử dụng trong các camcoder của hãng có các thông số tương tự
như DV và D-VHS. Băng từ được sử dụng trong Digital-8 có bề rộng truyền thống là 8mm. Thời gian ghi hình tối đa trên 1 cassette ở chế độ standard là 130 phút. Băng cassette Digital-8 có kích thước (95x62x15 mm).
Trong lĩnh vực ghi hình chuyên nghiệp, chuẩn DVCPRO25 và DVCPRO50 do hãng Panasonic nghiên cứu và đề xướng cho phép ghi dữ liệu video nén với tốc độ 25 hoặc 50 Mbps. Tiêu chuẩn lấy mẫu trong DVCPRO 25 là 4:1:1 và DVCPRO 50 là 4:2:2. Chuẩn DVCPRO HD hay DVCPRO 100 được sử dụng để ghi các tín hiệu truyền hình chất lượng cao HDTV: tín hiệu hình ảnh số ghi theo chuẩn này có độ phân giải lên tới 1440x1080 điểm ảnh, 50 mành/giây, quét hình theo phương pháp xen kẽ. Video được lấy mẫu với tần số 74.25MHz cho tín hiệu chói và nén theo tiêu chuẩn MPEG-2 với các ảnh I. Sau khi nén, tốc độ dòng bits sẽ xấp xỉ 100 Mbps. Thành phần âm thanh được ghi với 8 kênh, 16 bits với tần số lấy mẫu 48KHz. Dải tần tín hiệu âm thanh 20-20000Hz.
Băng từ dùng để ghi dữ liệu theo chuẩn DVCPRO có hai cỡ: nhỏ (65x48x12mm) và lớn (120x90x12) với chiều dài băng khác nhau, cho phép lưu trữ từ 12 phút đến 253 phút video số với tốc độ 25Mbps.
Chuẩn HDCAM của Sony được đưa ra vào năm 1997, đây là định dạng ghi tín hiệu HDTV với độ phân giải 1440x1080 điểm ảnh, 24 hình/giây, tốc độ luồng bits lên tới 144 Mbps.
Năm 2003 HDCAM được nâng cấp lên thành chuẩn HDCAM-SR. Tín hiệu video được lượng tử hóa với 10 bits/ mẫu theo phương pháp 4:2:2 hoặc 4:4:4. Tốc độ dòng video số HDCAM-SR có thể lên tới 600 Mbps. Tín hiệu HDCAM-SR sẽ đáp ứng đầy đủ tiêu chuẩn High Definition Serial Digital Interface (HD-SDI) (1920x1080). Trong chuẩn HDCAM-SR có thể sử
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
214
dụng phương pháp nén MPEG-2 hoặc MPEG-4 (Studio profile). Âm thanh trong chuẩn HDCAM-SR bao gồm 12 kênh âm thanh được mã hóa với 48KHz/24bits.
Băng từ HDCAM-SR cho phép ghi từ 6 phút (BCT-6SR) đến 124 phút (BTC-124SRL) video 4:4:4. Như vậy, với tốc độ luồng bits của tín hiệu HDCAM-SR là 600 Mbps, trên một cuốn băng HDCAM-SR dài 693m, rộng 12.65 mm, có thể lưu trữ được ~560GB dữ liệu số. Kích thước cassette HDCAM-SR tương tự như Betacam.
Hiện nay, các hãng truyền hình lớn đều sử dụng hệ thống lưu trữ dữ liệu audio và video số có dung lượng rất lớn. Ví dụ, hãng truyền hình Anh Chanel 4 Television sở hữu hệ thống lưu trữ Isilion có dung lượng 36TB, video được lưuu trữ dưới dạng MPEG-2 ( nén trong ảnh I với tốc độ 50Mbps). Chanel 4 có thể thực hiện tất cả các công đoạn truyền tin thẳng từ thư viện hình ảnh số trong bộ lưu trữ theo thời gian thực. Hệ thống Isilion còn được kết nối với cơ sở dữ liệu Sony Petasite. Hệ thống Sony Petasite ghi dữ liệu lên băng từ theo chuẩn LTO-3 (Linear Tape-Open - LTO) (400GB/ băng dài 680m). Tổng dung lượng của hệ thống Sony Petasite lên tới 1 PB (Peta Byte - 1015 Byte) - đây là hệ thống lưu trữ trên băng từ có dung lượng lớn nhất châu Âu hiện nay.
Băng từ chuyên dùng trong các hệ thống lưu trữ dung lượng lớn ra đời từ năm 1997. Có hai loại băng được sử dụng: Accelis - 8mm và Ultrium- 1/2 inch. Băng Ultrium có các thông số giống băng từ theo chuẩn Digital Linear Tape (DLT) của hãng Quantum được công bố từ năm 1989. Kích thước hộp băng Ultrium là 102x105x21,5 mm. Tốc độ đọc dữ liệu từ băng Ultrium có thể đạt 30-40 MBps, nhanh hơn nhiều loại ổ cứng trên thị trường hiện nay.
Tiêu chuẩn nén dữ liệu được dùng trong các băng LTO là Streaming Lossless Data Compression (SLDC), đây là chuẩn nén dựa trên phương pháp mã LZW (đã phân tích trong phần 3.3.4.2 của tài liệu này). Hệ số nén dữ liệu theo chuẩn SLDC là ~2:1.
Một số thông số của băng được liệt kê trong bảng 4.2. Bảng 4.2 Các thông số cơ bản của họ băng từ trong tiêu chuẩn LTO
Chuẩn DTF (Digital Tape Format) với băng từ 1/2 inch của hãng Sony cũng được sử dụng
tương đối rộng rãi trong các hệ thống lưu trữ dung lượng lớn. Khác với băng LTO, dữ liệu số được ghi lên băng DTF trên các đường chéo so với chiều chuyển động của bằng từ. Tốc độ ghi/đọc dữ liệu trên các băng DTF-2 có thể lên tới 24 MBps. Dung lượng một băng DTF cỡ lớn (Large Size) là 200GB.
4.1.1.2 Đĩa quang Lưu trữ dữ liệu tương tự cũng như số trên băng và đĩa từ có rất nhiều nhược điểm, có thể
liệt kê một số vấn đề chính như sau: - Nhạy cảm với tác động cơ học
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
215
- Để có giữ được chất lượng tín hiệu ghi trên băng từ trong thời gian dài, băng từ phải được bảo quản trong môi trường có nhiệt độ, độ ẩm luôn ở mức tối ưu. Ngay cả trong trường hợp này, tuổi thọ của băng từ cũng không lớn: khoảng 25-30 năm. Như vậy, theo chu kỳ ~25 năm cần phải sao chép lại toàn bộ cơ sở dữ liệu hình ảnh và âm thanh, điều này rất bất tiện và tốn kém.
- Thiết bị ghi và đọc băng từ thường công kềnh và đắt tiền (chủ yếu do hệ thống kéo băng tương đối phức tạp.
- Tốc độ di chuyển của băng từ tương đối cao nên thời gian truy cập tới vị trí cần thiết trong đoạn video lớn.
Những năm gần đây, dữ liệu mutimedia thường được lưu trữ trên đĩa quang. Quá trình ghi và đọc được thực hiện bởi tia laser có các bước sóng khác nhau. Có khá nhiều loại đĩa quang khác nhau, tuy nhiên chúng thường có đường kính 12cm, dầy ~1mm. Loại đĩa mini được dùng trong camcoder có đường kính 8cm. Hệ thống lưu trữ dữ liệu trên đĩa quang cho phép khắc phục các nhược điểm của băng từ đã nêu ở trên, do đó đĩa quang ngày càng được sủ dụng rộng rãi. Hiện có khá nhiều tiêu chuẩn ghi dữ liệu trên nhiều loại đĩa có dung lượng khác nhau. Sau đây chúng ta sẽ đề cập tới một số loại đĩa thông dụng nhất.
4.1.1.2.1 Compact disk (CD) Đĩa quang CD làm từ nhựa tổng hợp, có độ dày ~1.2 mm nặng ~16 grams. Trên bề mặt đĩa
CD phủ một lớp nhôm hoặc vàng mỏng làm lớp phản chiếu. Phủ lên trên lớp phản chiếu là lớp sơn bảo vệ. Mặt trên lớp bảo vệ có thể được dùng để in tên (Label) đĩa. Dữ liệu số (nhị phân) trên CD được lưu dưới dạng chuỗi các điểm "lõm" pits trên bề mặt lớp phản chiếu. Khoảng cách giữa các pits được gọi là "lands". Mỗi pits có kích thước ~500nm (rộng), 850nm -3500nm (dài), và ~100 nm (sâu). Chuỗi pits phân bố trên bề mặt đĩa theo đường spiral. Dữ liệu trên CD được đọc bằng tia laser 780nm, hội tụ lên trên bề mặt phản chiếu của đĩa. Ánh sáng phản chiếu từ bề mặt CD sẽ thay đổi khi tia laser chạy qua pits hay lands, như vậy sử dụng photodiode để thu nhận chùm ánh sáng phản chiếu nói trên, ta sẽ "đọc ra" lại được chuỗi bít nhị phân ghi trên CD. Tốc độ đọc/ghi dữ liệu trên CD lên tới 52X (1X = 150KB/s).
Dữ liệu được ghi trên CD từ tâm đĩa ra ngoài. Hai loại CD chuẩn có (1) - đường kính 120mm, đủ ghi 74-80 phút nhạc chất lượng cao, hoặc 650-700 MB dữ liệu và (2) - đường kính 80mm Mini CD, ghi được 21 phút nhạc hay 184 MB.
4.1.1.2.2 Digital Versatile Disc (DVD) Trong thời gian gần đây, đĩa DVD được sử dụng rộng rãi trong lĩnh vực lưu trữ dữ liệu số.
Đĩa DVD có kích thước tương tự đĩa CD nhưng có dung lượng lưu trữ lớn gấp 6 lần. Đĩa DVD có hai kích cỡ: DVD Standard size có đường kính 12cm, Mini DVD có đường kính 8cm. Mini DVD được sử dụng cho các máy quay video số ghi trực tiếp lên đĩa.
Định dạng DVD cho phép ghi dữ liệu lên một mặt đĩa (SS- Single Sided) hoặc lên cả hai mặt (DS- Double Sided), ngoài ra trên một mặt đĩa có thể ghi được một hoặc hai lớp dữ liệu (SL- Single layer hoặc DL- Dual/Double layer). Kỹ thuật ghi hai lớp dữ liệu lên một mặt của đĩa được mô tả trong hình 4.1.1. Giữa hai lớp ghi (Recording Layer 0 và Recording Layer 1) được ngăn cách bởi lớp phản chiếu "gần trong suốt" (Semi-transparent REFLECTIVE Layer) và lớp nhựa polycarbonate trong suốt.
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
216
Hình 4.1.1 Cấu tạo đĩa quang ghi hai lớp Semi-transparent REFLECTIVE Layer phản chiếu ~18% năng lượng tia laser. Khi đọc dữ
liệu từ lớp Recording Layer 1, một phần năng lượng tia laser bị phản chiếu lại ở lớp Semi-transparent REFLECTIVE, một phần năng lượng bị hấp thụ bởi lớp nhựa ngăn cách hai recording layers, do đó, lớp REFLECTIVE Layer (hình 4.1.1) được thiết kế có khả năng phản chiếu 50% năng lượng tia laser. Trong trường hợp này, công suất tia phản chiếu từ cả hai lớp ghi sẽ như nhau. Nhiều công trình nghiên cứu đang được thực hiện theo hướng nâng cao dung lượng đĩa quang bằng cách tăng số lớp ghi trên một mặt đĩa. Theo tính toán, có thể chế tạo ra đĩa quang có tới 1000 lớp. Khó khăn cần khắc phục là công suất tia phản xạ từ các lớp trong giảm đi rất nhanh, ví dụ, chỉ có 5% năng lượng của tia laser tia phản xạ lại từ lớp thứ 11, từ lớp 17 con số này là 3%. Vì lý do nói trên, hiện nay, trong các phòng thí nghiệm mới thực hiện được đĩa quang có 10 lớp. Các loại đĩa đã được thương mại hóa chỉ có từ 1 đến 3 lớp ghi.
Dung lượng của một số loại đĩa DVD thông dụng được liệt kê trong bảng 4.3 Bảng 4.3 Dung lượng các loại đĩa DVD
Lưu ý rằng đơn vị GB và GiB có sự khác biệt: 1GB= 109 bytes, 1GiB = 230 =
1,073,741,824 bytes.
Trong DVD-DL thông tin được đọc và ghi từ 2 lớp bằng laser có bước sóng 450nm, nhỏ hơn bước sóng dùng trong CD và DVD SL. Quá trình ghi/đọc dữ liệu trên đĩa DVD SL được thực hiện bởi tia laser 650nm, tiết diện tia laser trên bề mặt đĩa DVD là 1,32 μm (so với CD là 2,11 μm). Tốc độ ghi/đọc dữ liệu từ đĩa DVD có thể lên tới 20X (với chuẩn DVD, 1X = 1350KB/s).
DVD có thể được phân loại theo đặc tính không ghi được - DVD-ROM (Read-Only Memory, ghi được một lần (DVD Recordable) và ghi được nhiều lần (DVD Rewritable).
Chuẩn ghi DVD-R (ghi một lần) ra đời năm 1996, cho phép ghi 4,7GB dữ liệu trên DVD single side, single layer. Tới năm 2002, DVD-R được cải tiến thành chuẩn DVD+R (Plus R). DVD+R sử dụng một số biện pháp kỹ thuật mới, cho phép tăng độ tin cậy của đĩa trong quá trình
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
217
ghi dữ liệu. Chuẩn đĩa DVD-RW (ghi nhiều lần) được hãng Pioneer phát triển và công bố năm 1999,
được sử dụng trong 75% DVD Player. DVD-RW có thể ghi được tới 1000 lần, dung lượng đĩa DVD-RW SL, SS là 4.7 GB. Đặc điểm DVD-RW là trước khi ghi dữ liệu mới, cần phải thực hiện quá trình xóa hết dữ liệu cũ.
Chuẩn ghi DVD+RW (ra đời năm 1997) được cải tiến để khi ghi dữ liệu không cần phải format lại đĩa như DVD-RW. Hiện nay, hầu hết các đầu đọc đĩa quang đều nhận dạng được cả hai loại đĩa trên.
Hai chuẩn đĩa quang thế hệ cuối cùng, có mật độ ghi dữ liệu cao đang cạnh tranh trên thị trường là High-Definition DVD (HD DVD) và Blu-ray Disc.
Đĩa HD DVD được đề xuất bởi hai hãng sản xuất thiết bị điện tử Toshiba and NEC năm 2003. HD DVD ROM có thể có 1 đến 3 lớp ghi, dữ liệu có thể được ghi trên một hoặc cả hai mặt đĩa. Dung lượng của các loại đĩa HD DVD được nêu trên bảng 4.4.
Bảng 4.4 Dung lượng đĩa HD DVD
Để có thể ghi dữ liệu với mật độ cao hơn đĩa DVD, tia laser sử dụng trong HD DVD có
bước sóng nằm trong vùng "Blue violet" ~405nm. Tốc độ đọc dữ liệu có thể đạt được là 36.55 Mbps. Đĩa HD DVD có thể được sử dụng để ghi các chuẩn video số khác nhau, từ DVD-Video đến HDTV 720p, 1080i và 1080p. HD-DVD hỗ trợ chuẩn nén video thông dụng là MPEG-2 và MPEG-4.
Công nghệ lưu trữ cạnh tranh với HD DVD hiện nay là Blue-Ray. Đĩa quang có tên Blue-Ray bởi vì tia laser "Blue violet" ~405nm được sử dụng để ghi thông tin lên đĩa. Chuẩn này do các nhà chế tạo thiết bị điện tử dân dụng như: Sony, Philips Electronics và Matsushita thống nhất và công bố. Những công ty cùng tham gia phát triển chuẩn DVD này là Hitachi, Pioneer, Sharp, LG và hãng Thomson Multimedia của Pháp.
Đĩa Blue-Ray Single Layer có dung lượng 25GB, Dual Layer chứa được 50GB dữ liệu số. Như vậy, trên một đĩa Blue-Ray có thể lưu trữ được trên 20 giờ video chất lượng DVD hay khoảng 4.5 giờ video chất lượng cao (HDTV). Tốc độ đọc dữ liệu từ đĩa Blue-Ray Dual Layer có thể lên tới 72Mbps. Blue-Ray Disc hổ trợ các tiêu chuẩn nén hình MPEG-2, MPEG-4 AVC (H.264), và VC-1 (Windows Media Video codec).
Tháng 8 năm 2006, hãng TDK công bố đã chế tạo thành công Blu-Ray Disc Single Side có dung lượng 200 GB với sáu lớp ghi, mỗi lớp chứa 33 GB.
Hai định dạng HD DVD và Blue-Ray disc đang cạnh tranh khốc liệt trên thị trường đĩa quang. Tuy nhiên, với sự hậu thuẫn mạnh mẽ của Sony và một loạt hãng sản xuất phim lớn, định dạng Blue-Ray đang dần chiếm ưu thế trước HD DVD. Hãng Sony khẳng định đến cuối tháng
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
218
8/2007, họ đã dẫn đầu thị trường với 1 triệu đĩa Blu-ray được tiêu thụ ở Mỹ và 250.000 ở châu Âu, chiếm thị phần 69%.
Trong những năm gần đây, với mục đích đưa đĩa quang dung lượng cao đến người tiêu dùng, các hãng sản xuất đã nỗ lực không ngừng để giảm giá thành các thiết bị đọc/ghi đĩa quang có dung lượng cao cũng như giá thành các loại đĩa HD-DVD hay Blue-Ray. Đầu năm 2006, Toshiba tung ra thị trường Mỹ đầu đĩa HD DVD HD-A1 có chi phí sản xuất ~700 USD (để phát triển định dạng HD DVD, Toshiba đã bán sản phẩm này với giá rẻ hơn chi phí gần 200USD). Đầu đĩa Blu-ray được Sony bán ra cùng thời điểm tại Mỹ có giá 1.000 USD. Đến năm 2007, giá bán lẻ đầu đọc đĩa HD DVD mã hiệu HDA2-W của Toshiba đã hạ xuống còn 198 USD.
So với băng từ, lưu trữ dữ liệu trên đĩa quang có nhiều ưu điểm vượt trội:
- Độ bền cơ khí cao, dễ sử dụng - Bảo quản dễ dàng hơn băng từ
- Tuổi thọ đĩa quang theo dự đoán lên tới 100 năm (cao hơn nhiều so với băng từ) - Thiết bị ghi/đọc đĩa quang đơn giản, gọn nhẹ và có giá thành thấp. - Hệ thống lưu trữ dữ liệu tự động lên đĩa quang có cấu tạo đơn giản hơn và giá thành rẻ
hơn hệ thống băng từ. - Hệ thống lưu trữ trên đĩa quang cho phép truy cập dữ liệu theo bất kỳ thứ tự nào với tốc độ
cao.
- Giá thành đĩa quang ngày càng giảm vì lượng đĩa được sản xuất và tiêu thụ ngày càng tăng.
4.1.1.3 Lưu trữ dữ liệu trên hệ thống đĩa từ (hard disk) Hiện nay, đa số các hãng truyền hình sử dụng hệ thống điều khiển tự động quá trình truyền
phát chương trình mutimedia dựa trên cơ sở dữ liệu được lưu trong các server đĩa cứng dung lượng cao. Tất cả các khâu xử lý tín hiệu trong quá trình thu phát, từ lúc dàn dựng, xem duyệt chương trình, lập trình thời gian phát và lưu trữ dữ liệu đều được thực hiện dưới sự điều khiển của hệ thống quản lý chung.
Hệ thống lưu trữ trên ổ cứng hiện nay có kích thước nhỏ gọn, tốc độ ghi/đọc cao. Tuy nhiên, do giá thành (giá thành lưu trữ 1 GB dữ liệu) so với băng từ còn tương đối cao, nên hệ thống lưu trữ trên ổ cứng thường có dung lượng vừa phải và được sử dụng như bộ nhớ đệm giữa hệ thống lưu trữ dài hạn (băng từ dung lượng cao) và hệ thống xử lý video. Các ổ đĩa cứng (Hard Disk Drive- HDD) hiện đại cho phép ghi luồng dữ liệu có tốc độ lên tới 300MBps qua giao thức SATA-II, tốc độ ghi này cho phép lưu trực tiếp video số lên ổ cứng không qua giai đoạn nén dữ liệu (làm mất chất lượng video gốc). Để có thể thiết lập được hệ thống lưu trữ với các thông số cần thiết về dung lượng, độ tin cậy và tốc độ truy cập dữ liệu, người ta thường sử dụng công nghệ RAID (Redundant Array of Independent Disks). RAID là hệ thống bao gồm 8, 16 hoặc nhiều hơn nữa các ổ cứng. Ví dụ, hãng Seagate đã sản xuất các ổ cứng SATA-2 có dung lượng 750 GB với giá bán lẻ ~250$. Như vậy, hệ thống 16 đĩa sẽ có dung lượng 12 TB, hệ thống này cho phép ghi tới ~2700 giờ video chất lượng DVD (9.8Mbps) hoặc ~125 giờ video số (PAL) không nén (216Mbps). Có thể thấy rằng, giá thành ổ cứng hiện nay chỉ khoảng ~0.3$/GB. Để so sánh, vào năm 2005, giá thành ổ cũng khoảng 1.2$/GB, tốc độ ghi chỉ đạt ~6Mbps.
Hệ thống RAID cho phép tăng tốc quá trình chuyển tài dữ liệu của đĩa cứng theo nguyên tắc đổi dung lượng lấy tốc độ: nghĩa là tốc độ chuyển tải dữ liệu sẽ tăng nếu luồng dữ liệu được chia
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
219
đều cho các đĩa cứng hoạt động đồng thời. Mặt khác, nếu cần nâng cao độ tin cậy của hệ thống lưu trữ, dữ liệu cũng có thể được ghi cùng một lúc lên 2 hay nhiều ổ cứng. Để tạo ra các hệ thống lưu trữ với đặc tính cần thiết về độ an toàn, tốc độ truy cập và dung lượng, RAID cho phép cấu hình theo các mức khác nhau.
RAID-0 (hình 4.1.8): Trong chuẩn RAID-0, các đĩa cứng được xếp thành các dãy (arrays). Dữ liệu được bộ điều khiển (RAID controller) phân bổ đều trên các đĩa trên dãy theo hàng ngang (data stripping). Dung lượng của một hệ thống RAID sẽ bằng tổng dung lượng các đĩa cứng. Như vậy RAID-0 không có cơ chế bảo vệ dữ liệu. Ưu điểm của RAID-0 là dữ liệu được chuyển tải rất nhanh nhưng nhược điểm của nó là chỉ cần một trong các đĩa của hệ thống bị trục trặc thì dư liệu sẽ bị mất. RAID-0 được sử dụng nhiều ở các ứng dụng máy tính để bàn.
Hình 4.1.2 Cấu hình bộ lưu trữ theo chuẩn RAID-0 RAID-1: Trong RAID-1, dữ liệu được ghi cùng một lúc lên cả hai dãy đĩa.Như vậy, nếu
một đĩa bị hỏng thì đĩa dãy đĩa thứ hai vẫn có thể tiếp tục hoạt động, nên dữ liệu sẽ không bị mất mát. Ở mức RAID-1, số lượng đĩa sử dụng gấp đôi so với RAID-0 nhưng bù lại độ tin cậy của hệ thống cao hơn.
RAID-2, RAID-3: tại hai mức này, dữ liệu vào được phân bố để ghi đều lên hai dãy đĩa như trong mức RAID-0, trên dãy đĩa thứ ba sẽ ghi lại dữ liệu dùng để phát hiện lỗi và sửa lỗi (Error Checking and Correction) để khôi phục lại dữ liệu nếu các đĩa trong dãy 1 và 2 bị sự cố (RAID-2 sử dụng Hamming error correction codes). Như vậy tốc độ ghi của RAID-3 sẽ tương đương với RAID-0 nhưng độ tin cậy của hệ thống sẽ cao hơn.
RAID-4, RAID-5: Nhược điểm của RAID 2, 3 là quá trình khôi phục thông tin có thể bị chậm đi khi toàn bộ thông tin để sửa lỗi được ghi trên 1 đĩa. Trong mức RAID-4 và 5, thông tin về lỗi được ghi trên các đĩa thành viên của các dãy như mô tả trên hình 4.1.3.
Hình 4.1.3 Cấu hình bộ lưu trữ theo chuẩn RAID-5 Các bộ điều khiển RAID mới nhất hiện nay được thực hiện trên bộ vi xử lý Intel i80331 cho
phép cấu hình hệ thống ở cứng ở mức 6 và 6 Plus. Hai mức này thực hiện mã hóa phức tạp hơn, cho phép khôi phục lại dữ liệu ngay cả khi 2 hoặc 3 đĩa cứng bị sự cố cùng một lúc. Tuy nhiên, tốc độ xử lý dữ liệu của RAID-6 thường không cao, nên mức RAID-6 ít khi được sử dụng trong các hệ thống lưu trữ dữ liệu đòi hỏi tốc độ truy cập cao như tín hiệu video số.
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
220
Trong phần này, chúng ta đã tìm hiểu sơ bộ về các hệ thống lưu trữ dữ liệu trên băng từ, đĩa từ và đĩa quang. Tại mỗi thời điểm lịch sử, mỗi loại vật liệu dùng để ghi dữ liệu có những ưu điểm riêng. Xét trên khía cạnh giá thành (chi phí để lưu trữ một đơn vị dữ liệu), hệ thống lưu trữ dữ liệu trên đĩa quang đang có ưu thế vì giá đĩa quang ngày càng hạ (do sức ép cạnh tranh và do số lượng đĩa được sản xuất ngày càng lớn), đồng thời các chuẩn đĩa mới ra đời có dung lượng ngày càng cao. Tuy nhiên, để tạo ra các "kho" dữ liệu có kích thước rất lớn với mục đích lưu trữ khối lượng thông tin audio và video số khổng lồ cho các hãng truyền thông, băng từ vẫn được được sử dụng rộng rãi. Các hệ thống lưu trữ trên băng từ hiện hữu sử dụng băng ghi chuyên nghiệp theo tiêu chuẩn DFT và DLT có dung lượng lên tới nhiều PB ((Peta Byte). Nhược điểm chính của hệ thống ghi dữ liệu trên băng từ, hạn chế khả năng sử dụng trực tiếp chúng trong các hệ thống truyền thông, là thời gian tìm dữ liệu lớn, bảo quản khó và thời hạn sử dụng ngắn. Hệ thống lưu trữ tự động trên đĩa cứng được thiết lập theo công nghệ RAID thường được sử dụng để lưu các thông tin cần truy cập nhanh khi dàn dựng chương trình hoặc các chương trình được chuẩn bị để phát sóng. Ưu điểm quan trọng của hệ thống này là tốc độ truy cập nhanh, nguồn dữ liệu có thể thay đổi linh hoạt với độ tin cậy cao (điều này rất quan trọng khi dữ liệu được lưu với mục đích đưa vào kênh truyền). Các nhà phân tích dự đoán rằng, trong tương lai không xa, đĩa ghi quang học sẽ được sử dụng chủ yếu trong các hệ thống lưu trữ dung lượng lớn, vì xét trên góc độ kinh tế, hệ thống lưu trữ quang (bao gồm các thiết bị ghi/đọc tự động và đĩa trắng) có giá thành lưu trữ trên một GB dữ liệu thấp nhất, hơn thế nữa, đĩa quang là mặt hàng dân dụng, được sản xuất với số lượng nhiều nên giá thành của chúng cũng sẽ hạ xuống chóng.
4.1.2 Phân phối nội dung qua mạng viễn thông
Trong mạng viễn thông hiện nay, thông tin về âm thanh và hình ảnh có thể được phân phối tới người sử dụng qua nhiều môi trường truyền dẫn khác nhau. Phần này sẽ giới thiệu về các kênh phân phối tiêu biểu đang được sử dụng trên thực tế.
4.1.2.1 Phân phối nội dung qua kênh vô tuyến
Hình 4.1.4 Phân chia băng tần cho theo bước sóng Dải tần số được sử dụng để truyền thông tin có bề rộng hữu hạn và được phân chia cho các
dịch vụ truyền dữ liệu khác nhau. Mỗi băng tần được đặt tên như trên hình.. Những dải tần sau đây được quy định để truyền tín hiệu viễn thông:
Dải sóng trung tần MF (Medium Frequency) tần số từ 300 - 3000 kHz. Tại đây thực hiện phát thanh vô tuyến điều biên (AM)
Dải sóng cao tần HF (High Frequency) có tần số từ 3 đến 30MHz. Ứng dụng của dải tần này là vô tuyến truyền thanh nghiệp dư, dân dụng, các loại thông tin vô tuyến di động.
Dải sóng cực ngắn VHF (Very High Frequency) có tần số từ 30 đến 300MHz. Ứng dụng trong vô tuyến nghiệp dư, thông tin di động, đài phát FM thương mại (88MHz đến 108MHz), vô tuyến truyền hình.
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
221
Dải sóng siêu ngắn UHF (Ultra High Fequency) có tần số từ 300 đến 3GHz. Dải tần này sử dụng trong vô tuyến truyền hình (470-806 MHz), viba, mạng không dây WLAN v.v.
Dải sóng SHF (Super high frequency) 3Ghz-30 Ghz được sử dụng để truyền tín hiệu truyền hình quảng bá qua vệ tinh, vi ba..
4.1.2.2 Truyền thanh quảng bá Phát thanh là quá trình tổ chức và chuyển tới khán giả các chương trình phát thanh thông
qua các phương tiện viễn thông. Tại các trung tâm phát thanh người ta thực hiện việc dàn dựng chương trình trong các phòng thu (studio) và chuyển chúng vào mạng truyền thanh. Mạng truyền thanh bao gồm các thiết bị truyền và phân phối chương trình phát thanh trong phạm vi khu vực phục vụ.
Tín hiệu âm thanh trong hệ thống phát thanh quảng bá có thể được truyền theo mạng cáp truyền thanh (hữu tuyến) hoặc qua sóng vô tuyến. Thời gian gần đây, dịch vụ này được thực hiện chủ yếu qua đường truyền vô tuyến. Sơ đồ tổng quát một hệ thống phân phối âm thanh được mô tả trên hình
Phoøng thu(Studio)
M
Khueáchñaïi
Trung taâm phaùt thanh
Heä thoángtruyeànthanhcaùp
Heä thoángvoâ tuyeántruyeànthanh
Maùy thu
Ñöôøng truyeànÑöôøng truyeàn
Thueâ bao
Hình 4.1.5 Hệ thống phân phối tín hiệu âm thanh
4.1.2.2.1 Các dải sóng vô tuyến dùng để phát thanh Dưới đây là các dải tần dùng để truyền phát âm thanh đã được phân chia theo tiêu chuẩn
CCIR. Dải VLF (Very Low Frequency) có tần số từ 3 kHz đến 30 kHz. Dải VLF được sử dụng
trong thông tin nội bộ tại các cơ quan nhà nước, trong quân đội, ví dụ như thông tin giữa các tàu ngầm, thông tin di động hàng hải.
Dải LF (Low Frequency) có tần số từ 30 kHz đến 300 kHz Dải LF dùng trong thông tin di động hàng hải, định vị vô tuyến, đèn hiệu hàng không, vô tuyến hàng hải.
Dải MF (Medium Frequency) tần số trung bình. Dải MF có tần số từ 300 kHz đến 3000 kHz. Các đài phát thanh vô tuyến điều biên (AM) làm việc trong dải tần này.
Dải HF (High Frequency) tần số cao hay còn gọi là sóng ngắn. Dải HF có tần số từ 3MHz đến 30MHz. Ứng dụng của dải tần này là vô tuyến truyền thanh nghiệp dư, dân dụng, các loại thông tin vô tuyến di động. Riêng trong thông tin công cộng dải tần này dùng thông tin vô tuyến thuê kênh, điện báo vô tuyến, thiết bị đo mức thiệt hại thảm hoạ thiên tai v.v.
Dải VHF (Very High Frequency) gọi là sóng cực ngắn có tần số từ 30MHz đến 300MHz. Ứng dụng trong vô tuyến nghiệp dư, thông tin di động, đài phát FM thương mại (88MHz đến 108MHz), vô tuyến truyền hình.
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
222
4.1.2.2.2 Hệ thống phân phối tín hiệu âm thanh stereo Tín hiệu âm thanh stereo được truyền đi trên dải tần 66-74 MHz (tại các nước Đông Âu) và
88-108 (theo chuẩn FCC) bằng phương pháp điều chế FM. Hệ thống phát thanh FM stereo phải mang tính tương hợp với hệ thống phát thanh mono. Hiện nay tồn tại ba hệ thống mã hóa tín hiệu FM stereo: hệ thống sử dụng phương pháp điều chế AM phân cực, hệ thống sử dụng tín hiệu pilot và hệ thống sử dụng phương pháp điều tần hai lần.
Hệ thống phát thanh stereo với tín hiệu pilot ra đời tại Mỹ áp dụng nguyên lý ghép kênh theo tần số, hệ thống này hoàn toàn tương thích với hệ thống truyền thanh FM mono đã được sử dụng từ năm 1940 tại đây. Sơ đồ khối máy phát và máy thu được biểu diễn trên hình 4.1.6.
Để thỏa mãn yêu cầu tương hợp, tín hiệu được mã hoá và truyền đi là tín hiệu tổng (L+R) và hiệu (L-R). Tín hiệu L+R nhận được sau bộ cộng chính là tín hiệu dành cho máy thu thanh mono. Tín hiệu L-R được điều chế bằng phương pháp AM DSB SC (điều biên hai dải bên triệt sóng mang). Để có thể khôi phục chính xác tín hiệu sóng mang, trong thành phần tín hiệu FM stereo còn có tín hiệu pilot – dao động tần số 19 kHz. Cấu trúc phổ tín hiệu FM stereo với tín hiệu
pilot được vẽ trên hình 4.1.6b. Trong máy thu, tín hiệu âm thanh stereo trung tần ( )sm t nhận
được sau bộ tách sóng sẽ được đưa qua các mạch lọc thông thấp và thông dải để phân tích thành tín hiệu mono R+L và tín hiệu AM SC mang tin tức về kênh R-L. Tín hiệu R-L được khôi phục ra bởi mạch tách sóng đồng bộ (TSĐB). Tần số sóng mang phụ 38 MHz được tái tạo và ổn định nhờ mạch khoá pha vòng bao gồm mạch tạo sóng, mạch chia tần, mạch nhân và bộ lọc thông thấp (hình 4.1.6c).
Tín hiệu âm thanh được truyền đi trong hệ thống FM stereo có bề rộng dải tần từ 50 dền 15000 Hz, phổ tín hiệu FM nằm trong dải 50-53000 Hz. Theo tiêu chuẩn của FCC, Băng tần dùng để pháp tín hiệu FM stereo 88-108 MHz, một kênh FM chiếm 200 kHz. Độ lệch tần số cực đại là 75 kHz.
Hệ thống FM stereo sử dụng phương pháp điều tần hai lần khác với hệ thống trên ở chỗ tín hiệu R-L được điều chế bằng phương pháp điều tần, tần số sóng mang 33.5 MHz.
Song song với tín hiệu âm thanh FM stereo người ta còn có thể truyền đi dữ liệu số trên sóng mang phụ 57 kHz (hoặc 67 kHz). Hệ thống thu phát tín hiệu phụ RDS (Radio Data System) thường được sử dụng để truyền đi các thông tin ngắn .
Ngoài các hệ thống truyền thanh stereo 2 kênh còn tồn tại hệ thống truyền thanh 4 kênh. Microphone và loa trong hệ thống này được phân bố theo chu vi của phòng thu âm. Tín hiệu từ 4 kênh riêng biệt mang lại cảm giác âm thanh vòng (hiệu ứng hiện diện), tuy nhiên hệ thống truyền thanh 4 kênh có giá thành tương đối cao nên chưa được phổ biến.
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
223
∑
∑ Boä ñieàu cheá DSB-SCfsc= 38 kHz
Boä taïo soùngfsc= 38 kHz
Chia taàn1:2
∑ Maùyphaùt FM
Keânh traùiL
Keânh phaûiR
L R mono audio+ =
L R−
Pilot tone
( )Sm t
( )FMS t
Tín hieäu FM stereo
Maùy thuFM
LTT0-15 kHz
LTD23-53 kHz
LTT
1:2 MTS
∑
∑LTT0-15 kHz
TSÑB
( )FMS t
( )Sm t L R+
Keânh phaûi(2R)
Keânh traùi(2L)
Tín hieäu mono
0 15kHz
19kHz
38kHz
Phoå tín hieäuaudi mono
Phoå tín hieäuDSB-SC
f
a) Maùy phaùt FM stereo
b) Phoå tín hieäu FM stereo
c) Maùy thu FM stereo
L R−
38 MHz19 MHz
Hình 4.1.6 Sơ đồ khối hệ thống truyền thanh FM stereo với tín hiệu pilot
Pilot signal
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
224
4.1.2.3 Truyền hình quảng bá Hệ thống truyền hình quảng bá bao gồm nhiều trung tâm truyền hình và mạng lưới chuyển
tải chương trình giữa các trung tâm đó (hình 4.1.15). Trung tâm truyền hình có nhiệm vụ xây dựng các chương trình truyền hình và truyền tới người xem.
Truyền hình qua kênh vô tuyến (mặt đất)
Hình 4.1.7 Mô hình trung tâm truyền hình và mạng lưới phân phối tín hiệu Các trung tâm truyền hình lớn có khả năng tự sản xuất chương trình:
- Ca nhạc, kịch tại phim trường dựng cảnh - Các chương trình tin tức tại phim trường ảo - Chương trình có khán giả tại phim trường Các trung tâm truyền hình nhỏ chỉ có khả năng tiếp nhận và phát lại tín hiệu để phục vụ cho
một vùng nhất định. Việc thực hiện chuyển tiếp cũng như phân phối các chương trình truyền hình giữa các trung
tâm hay trực tiếp đến khán giả có thể sử dụng đường truyền radio, đường truyền vệ tinh, vi ba, hoặc cáp quang, hệ thống cáp đồng trục. Hiện nay, ở nước ta các chương trình truyền hình trong nước và quốc tế có thể thu qua hệ thống truyền hình mặt đất, truyền hình số vệ tinh (DTH- Direct To Home), truyền hình số mặt đất DVB-T (VTC), truyền hình MMDS (Multimedia Microwave Distribution System), hệ thống truyền hình cáp thành phố CATV (Community Access Television) và truyền hình qua internet (IPTV).
Hệ truyền hình dân dụng sử dụng dải tần từ 47 MHz đến khoảng 960 MHz. Trong các tiêu chuẩn truyền hình khác nhau, băng tần trên được phân chia cho các kênh truyền hình một cách khác nhau. Dải tần trên được chia thành băng tần VHF, và băng tần UHF (dải tần VHF nằm trong khoảng 30÷300 MHz, dải tần UHF – 300÷3000 MHz).
Dải tần quy định dành cho hệ thống truyền hình đại chúng theo tiêu chuẩn FCC được phân chia như sau:
VHF -L: 54-88 MHz (5 kênh)
VHF -H: 174-216 MHz (6 kênh)
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
225
UHF: 470-806 MHz (56 kênh) Dải tần quy định dành cho hệ thống truyền hình đại chúng theo tiêu chuẩn OIRT được phân
chia như sau: 48-64 MHz (2 kênh) (VHF)
76-100 MHz (3 kênh) (VHF) 174-230 MHz (7 kênh) (VHF) 470-606 MHz (56 kênh) (UHF) 606-958 MHz (44 kênh) (UHF)
4.1.2.3.1 Đặc điểm kênh truyền hình tương tự Phân bố kênh truyền hình trong các băng tần nêu trên phụ thuộc vào tiêu chuẩn của các hệ
truyền hình. Dải thông của mỗi kênh theo tiêu chuẩn OIRT là 8 MHz, theo CCIR (Ủy ban tư vấn quốc tế về thông tin vô tuyến) là 7 MHz, còn theo FCC là 6 MHz. Trên hình 4.1.8 trình bày phân bố phổ của tín hiệu truyền hình màu đầy đủ trong một kênh truyền hình theo ba tiêu chuẩn FFC, CCIR, OIRT.
Tín hiệu âm thanh được điều chế tần số và truyền đi cùng một lúc với tín hiệu hình ảnh. Trong một kênh truyền (theo chuẩn OIRT) có bề rộng băng thông 8 MHz, phổ của tín hiệu âm thanh FM nằm phía trên phổ của tín hiệu hình và chiếm khoảng 0.25 MHz. Khoảng cách giữa tần số sóng mang hình và sóng mang âm thanh là 6.5 MHz ( 0 0S Vf f> ), giá trị này được duy trì rất
chính xác từ phía phát. Tín hiệu âm thanh được điều tần dải rộng, có khả năng chống nhiễu cao, do đó để giảm ảnh hưởng của tín hiệu này tới kênh hình, công suất tín hiệu âm thanh phát đi được giảm nhỏ hơn công suất tín hiệu hình 10 lần.
Tín hiệu video tần cao được tạo ra bằng phương pháp điều chế biên độ sóng mang bởi tín hiệu hình màu. Tín hiệu hình ảnh và âm thanh được điều chế theo các phương pháp khác nhau để đơn giản hoá việc tách chúng tại mày thu.
Hình 4.1.8 Cấu trúc một kênh truyền hình màu (bao gồm kênh âm thanh) theo ba tiêu
chuẩn FFC, CCIR, OIRT Trong hệ thống truyền hình, do bề rộng dải phổ tín hiệu hình rất lớn và để tiết kiệm băng
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
226
thông kênh truyền người ta chỉ truyền đi toàn bộ dải trên của tín hiệu hình AM (nơi chứa toàn bộ thông tin về tín hiệu hình ảnh) và một phần nhỏ (0.75 MHz) dải biên dưới để giảm hiện tượng méo do “thành phần vuông góc” cho các thành phần phổ thấp của tín hiệu hình ảnh. Các thành phần phổ thấp tương ứng với các chi tiết lớn trong ảnh truyền hình nên ảnh hưởng nhiều tới chất lượng hình ảnh.
4.1.2.3.2 Truyền hình qua kênh vệ tinh Hệ thống truyền tín hiệu qua vệ tinh có các ưu điểm sau: - Đường truyền vệ tinh không bị ảnh hưởng bởi điều kiện địa hình, địa vật.
- Việc thiết lập một đường vệ tinh có thể thực hiện trong thời gian tương đối ngắn. Vệ tinh có thể sử dụng trong hệ thống điểm - đa điểm, phủ sóng trên diện rộng, thuận tiện
cho việc thiết lập các mạng truyền hình cáp (CATV), cũng như cung cấp dịch vụ truyền hình trực tiếp đến từng nhà (DTH - Direct To Home).
Thành phần hệ thống truyền tin vệ tinh bao gồm: Trạm phát sóng mặt đất: truyền tín hiệu về hướng vệ tinh (uplink). Anten phát phải có tính
định hướng rất cao (búp chính rất hẹp ~0.10- để tránh nhiễu loạn giữa các vệ tinh) nên kích thước thường rất lớn (hàng chục mét). Các búp phụ của anten phải cực tiểu. Anten hướng thường trực tới vệ tinh với độ chính xác đến vài phút. Cần có hệ thống điều chỉnh góc độ anten. Độ lợi anten khoảng 60 dB. Anten thường được dùng là loại "Cassegrain", có bề mặt bức xạ chính là parabol, nguồn sóng phát ra từ mặt phản xạ thứ cấp dạng hyperbol. Hướng phát của anten có thể được thay đổi bằng cách điều chỉnh mặt phản xạ thứ cấp. Công suất máy phát khoảng 50 watt (tại tần số 14 - 14.5GHz).
Vệ tinh: có nhiệm vụ nhận tín hiệu, khuyếch đại và dịch chuyển tần số tín hiệu xuống dải tần số phát xuống qua bộ chuyển đổi (transponder) . Trên vệ tinh tín hiệu không được giải điều chế tới băng tần gốc. Vệ tinh có chức năng giống trạm trung chuyển trong hệ thống viba.
Trạm thu mặt đất: tiếp nhận tín hiệu theo đường truyền xuống (downlink)
Hệ thống truyền hình vệ tinh quảng bá sử dụng các dải tần sau để truyền tín hiệu:
Băng tần Phát lên (GHz) Băng thông (MHz)
Phát xuống (GHz)
C 5.925-6.425 500 3.7 – 4.2
Ku 14.0 – 14.5 500 11.7 – 12.2
K 17.3 – 17.8 500 12.2- 12.7
Tần số được dùng để phát tín hiệu từ trạm mặt đất lên vệ tinh có tần số cao hơn tín hiệu phát ngược từ vệ tinh. Băng tần C có tần số thấp nên suy hao do mưa và trong không khí nhỏ hơn. Độ rộng băng tần 500 MHz. Nhược điểm của dải tần C là kích thước anten thu phát lớn: 3 - 5m. Thiết bị trên vệ tinh cồng kềnh, phức tạp. Tuy nhiên chỉ có băng C mới có thể đáp ứng yêu cấu phủ sóng trên diện rộng, trong các hệ thống vệ tinh toàn cầu.
Đặc điểm của kênh truyền vệ tinh: - Khoảng cách giữa vệ tinh và trạm mặt đất rất xa (36000 - 41000km vì vậy tín hiệu bị suy
hao nhiều, ảnh hưởng của nhiễu tới tín hiệu lớn. - Công suất phát từ vệ tinh bị giới hạn do nguồn nuôi được cung cấp từ ắc quy và pin mặt
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
227
trời có công suất hạn chế. - Anten thu phát trên vệ tinh có kích thước và độ lợi giới hạn - Mức tín hiệu thu được tại các trạm mặt đất rất nhỏ vì tín hiệu từ vệ tinh được phân bố trên
diện tích rất rộng. - Tuổi thọ của vệ tinh không cao (5-7 năm) vì các lý do sau: + Vệ tinh làm việc trong điều kiện khắc nghiệt; nhiệt độ thay đổi đột ngột, chịu các bức xạ không gian, va chạm của các thiên thạch. + Các bộ phận hư hỏng của vệ tinh không thể sửa chữa được. + Tuổi thọ của pin mặt trời và hệ thống ắc quy ngắn. Các dịch vụ được cung cấp trong hệ thống thông tin vệ tinh là: Dịch vụ truyền thông cố định (FSS- Fixed Satellite Service): truyền tín hiệu thoại hay
truyền hình tới mạng CATV
Dịch vụ truyền thông quảng bá (BSS- Broadcasting Satellite Service) (DTH) Dịch vụ thông tin di động (Mobile Satellite Service)
Dịch vụ định vị vệ tinh (Navigational Satellite Service) Dịch vụ dự bảo thủy văn (Meteorological Satellite Service)
4.1.2.3.3 Dịch vụ truyền hình DTH tại Việt Nam DTH (Direct to home) là phương thức truyền dẫn Truyền hình trả tiền qua vệ tinh sử dụng
băng tần Ku (dải tần 12 GHz) trên vệ tinh Measat-2. So với các phương thức truyền dẫn tín hiệu khác truyền hình qua vệ tinh DTH là một phương thức phủ sóng rất hiệu quả, đặc biệt với địa hình có nhiều đồi núi như VN.
Hiện nay, đài truyền hình Việt Nam thuê vệ tinh địa tĩnh Measat-2 để truyền trực tiếp tín hiệu 17 kênh truyền hình trong nước và quốc tế. Công suất tín hiệu thu được trong địa phận Việt Nam là -50 -60 dBW. Đường kính anten thu là 90 cm. Vệ tinh làm việc trên dải tần Ku. Hệ thống DTH của Đài THVN sử dụng hệ khóa mã CA của hãng Viaccess –Pháp, đây là hệ thống được nhiều nhà cung cấp sử dụng, có độ an toàn cao và có khả năng tương thích với nhiều dịch vụ gia tăng sau này.
Hình 4.1.9 Vệ tinh Measat dùng để truyền tín hiệu DTH cho lãnh thổ VN
Truyền hình vệ tinh DTH có những ưu điểm sau: - Vùng phủ sóng rộng, không phụ thuộc vào địa hình, chất lượng cao - cường độ trường tại
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
228
điểm thu ổn định, đồng đều trên toàn quốc- và có khả năng thông tin băng rộng. - Sử dụng ở băng tần Ku, kích thước anten thu nhỏ gọn (khoảng 0.6m), phù hợp với điều
kiện thu tại các hộ gia đình. - DTH sử dụng công nghệ truyền dẫn số (nén theo chuẩn MPEG-2) nên đảm bảo chất
lượng tín hiệu hình ảnh cũng như âm thanh, có thể truyền nhiều chương trình truyền hình có độ phân giải cao cùng một lúc, hệ thống âm thanh stereo hay âm thanh lập thể AC3.
- Hệ thống DTH tương thích với nhiều loại hình dịch vụ khác như truyền dữ liệu, Internet, truyền hình tương tác sẽ được phát triển sau này.
4.1.2.4 Phân phối nội dung qua kênh hữu tuyến 4.1.2.4.1 Hệ thống truyền hình cáp
Phần này sẽ giới thiệu hệ thống phân phối tín hiệu truyền hình qua mạng cáp.Truyền hình cáp hữu tuyến CATV (Community Antenna Television) là phương thức truyền hình thiết lập trên cơ sở hệ thống thiết bị truyền dẫn cố định bằng đường dây cáp. Nhà cung cấp CATV cùng một lúc nhận tín hiệu của nhiều hãng truyền hình trên thế giới qua vệ tinh, khuếch đại những tín hiệu thu được và phân phối đến khách hàng qua mạng cáp quang hoặc cáp đồng trục.
Hệ thống truyền hình cáp đang được phát triển rất mạnh mẽ trong các khu đô thị có mật độ dân cao. Ưu điểm của hệ thống CATV là:
- Chất lượng hình ảnh cao trong môi trường đô thị với các tòa nhà cao tầng, gây nhiễu fading. Có thể chuyển tải tín hiệu tới những địa điểm không thể thu được sóng của đài truyền hình có chướng ngại vật
- Chất lượng tín hiệu ổn định, không phụ thuộc vào nhiễu bầu khí quyển và nhiễu công nghiệp.
- Kết hợp kỹ thuật mã hóa tín hiệu để thực hiện thu phí các thuê bao - Tái sử dụng dải tần số, vốn đã được sử dụng triệt để.
Hình 4.1.10 Sơ đồ khối mô tả hệ thống truyền hình cáp tiêu biểu Hệ thống truyền hình cáp tiêu biểu bao gồm các thành phần chính sau (hình 4.1.10): - HeadEnd Station - Tổng đài trung tâm
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
229
- Cáp đường trục (Trunk cable) - Hệ thống cáp nhánh, cáp thuê bao - Thiết bị khuyếch đại đường trục (Trunk amplifier) - Mạch khuyếch đại thuê bao (Distributor amplifier) - Các thiết bị chia tín hiệu (Splitter) HeadEnd Station có nhiệm vụ: - Thu các kênh TH từ đài phát mặt đất, trạm vệ tinh hoặc các chương trình được truyền từ
các trung tâm truyền hình khác qua đường viba, cáp quang v.v. - Biến đổi các tín hiệu cao tần thu được thành tín hiệu băng tần gốc - Thực hiện phân kênh theo tần số (FDM) trên toàn bộ băng thông cáp đồng trục. Mỗi kênh trong headend có mạch khuyếch đại riêng để điều chỉnh mức các kênh đồng đều
trên toàn bộ dải tần tín hiệu CATV, tránh xảy ra hiện tượng nhiễu xuyên giữa các kênh truyền hình.
Tín hiệu truyền hình phải được mã hóa trước khi đưa vào kênh truyền để có thể xác định quyền truy cập kênh truyền hình đối với từng thuê bao (PayTV). Cơ chế Pay TV có thể được thực hiện bằng cách đặt các mạch lọc chặn dải, ngăn các kênh mà thuê bao không có quyền truy cập, hoặc các phương thức mã hóa khác nhau (scrambling mechanisms)
Đường truyền cáp đồng trục cho phép tái sử dụng dải tần số vì tín hiệu được truyền đi độc lập phía bên trong sợi cáp. Nhược điểm chính của cáp đồng trục là mức độ suy hao cao. Suy hao của cáp phụ thuộc vào đường kính cáp, chiều dài cáp và tần số tín hiệu. Tùy theo số lượng kênh truyền hình được truyền theo đường cáp, có thể phân biệt 3 hệ thống truyền hình cáp (bảng 4.5).
Bảng 4.5
Hệ thống cỡ nhỏ sử dụng dải tần 50-220 MHz có từ 12-22 kênh truyền hình, đường cáp trục
dài trên 30 Km, với khoảng 50 bộ khuyếch đại đường trục. Số thuê bao có thể lên tới 10000 máy. Hệ thống cỡ trung (ví dụ: thành phố San Antonio ở Mỹ) sử dụng dải tần 50-330 MHz có 40
kênh, tổng chiều dài đường cáp lên tới 6000 Km, với trên 2000 bộ khuyếch đại đường trục, 11000 bộ khuyếch đại thuê bao. Số thuê bao có thể lên tới 420000 máy.
Hệ thống cỡ lớn có thể truyền tải tới 150 kênh truyền hình trên đường trục có băng thông 950 MHz.
Mạng cáp trong CATV thường có cấu trúc dạng "cây" sử dụng cáp đồng trục hoặc dạng
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
230
hỗn hợp, sử dụng cáp quang và cáp đồng trục (Hybrid Fiber Coaxial system). Trong mạng HFC, cáp quang được sử dụng thay cho cáp đồng trục trên đường trục. Việc sử dụng cáp quang cho phép nâng cao dung lượng đường truyền, nâng cao chất lượng tín hiệu, giảm chi phí lắp đặt.
Hình 4.1.11 Sơ đồ khối mạng CATV tiêu biểu, sử dụng cáp quang và cáp đồng trục (Hybrid Fiber Coaxial system). Hiện nay, ở nước ta có 16 đơn vị ứng dụng triển khai truyền hình cáp tại các địa phương
như: Hà Nội, Hải Phòng,Thái Bình, TPHCM, Đà Nẵng, Cần Thơ... Theo số liệu của Bộ VHTT, hệ thống truyền hình cáp phục vụ khoảng 350000 thuê bao trên cả nước. Các nhà cung cấp dịch vụ CATV ở Việt Nam đang dùng công nghệ tương tự (analog) để cung cấp các chương trình truyền hình qua đường cáp đồng trục.
Tín hiệu trong các hệ thống CATV hiện nay thường không bị mã hóa, do đó các thuê bao có thể chia sẻ chương trình cho nhiều máy thu trong nhà. Tại Tp HCM, SCTV là công ty đầu tiên phát triển hệ thống truyền hình cáp qua mạng cáp quang và cáp đồng trục hỗn hợp CATV. Truyền hình cáp SCTV cho phép tiếp nhận ~50 kênh quốc tế và kênh trong nước, phát sóng liên tục 24/24 giờ hàng ngày.
Ngoài công nghệ CATV, hiện nay tại nước ta, các chương trình truyền hình còn được chuyển tải bằng nhiều công nghệ khác như vi ba nhiều kênh (MMDS), DTH, truyền hình số mặt đất DVB-T và truyền hình qua mạng Internet. Truyền hình cáp MMDS (Multi-media Microwave Distribution System) là một hệ thống dịch vụ truyền hình qua hệ thống viba nhiều kênh, làm việc trên dải tần 2.7 GHz. Năm 1995 dịch vụ MMDS được Đài THVN đưa vào sử dụng. Đây là hệ thống dịch vụ truyền hình sử dụng công nghệ analog tương đối lạc hậu. Một kênh truyền hình MMDS chiếm dải tần khoảng 8 Mhz. Hiện nay hệ thống MMDS không còn được phát triển, thay vào đó là các hệ thống phân phối tiên tiến hơn như truyền hình cáp hay truyền hình qua vệ tinh.
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
231
4.1.2.4.2 Công nghệ IPTV Ngày nay, công nghệ đường dây thuê bao số (DSL – Digital Subcriber Line) cho phép các
nhà cung cấp dịch vụ viễn thông cung cấp băng thông rộng đến khách hàng: 20 Mbps (ADSL2+) và 50Mbps(VDSL). Sự phát triển của công nghệ Video, các chuẩn nén mới ra đời như: H.264, MPEG-4 và Windows Media Video cho phép nén video hiệu quả hơn chuẩn MPEG-2; Cùng với sự ra đời của bộ định tuyến (Router), chuyển mạch (Switch), định hướng dịch vụ (Service Oreinted) có hiệu suất hoạt động cao, cổng giao tiếp lớn (10 Gbps) đảm bảo chất lượng dịch vụ (QoS) ở lớp 2, lớp 3. Tất cả các yếu tố nêu trên tạo điều kiện cho các nhà cung cấp dịch vụ viễn thông nhanh chóng, dễ dàng xây dựng và triển khai cung cấp đa dịch vụ (Triple Play: Thoại-Video-Data) có tính cạnh tranh cao trên một cơ sở hạ tầng mạng chung với chi phí thấp.
Ứng dụng truyền thông đa phương tiện qua mạng Internet đã trở thành mục tiêu quan trọng đối với các nhà nghiên cứu và thiết kế hệ thống. Thông tin liên lạc giữa con người được nâng lên tầm cao mới qua việc truyền hình ảnh chất lượng cao trong các mạng Internet thế hệ mới. Mục tiêu đề ra là hỗ trợ các ứng dụng phát triển đa dịch vụ trên mạng, đồng thời phải tối ưu hoá được năng lực mạng lưới của nhà cung cấp dịch vụ và đảm bảo tối đa về chất lượng cho khách hàng. Như vậy vấn đề đặt ra là giảm tốc độ truyền dữ liệu, đảm bảo chất lượng dịch vụ (QoS), nâng cao khả năng bảo mật, phát công suất hiệu quả và tăng khả năng chống lỗi trong môi trường có nhiễu. Tại Việt Nam, dịch vụ truyền tín hiệu video IPTV được thực hiện trên mạng DSL (Digital Subscriber Line - đường dây thuê bao số). DSL là công nghệ truyền dẫn dữ liệu tốc độ cao trên đôi dây cáp đồng truyền thống. DSL tận dụng khoảng băng thông rộng chưa sử dụng đến trên đôi dây cáp đồng (từ 4Khz đến 1Mhz) để truyền dữ liệu với tốc độ cao.
Một số ưu điểm nổi bật của mạng DSL:
• Có thể kết nối Internet và sử dụng điện thoại đồng thời trên cùng một đường dây. • Khả năng truyền tải dữ liệu với tốc độ cao hơn modem tương tự rất nhiều: ADSL có tốc
độ tải dữ liệu xuống (download) từ 1,5 -8 Mb/s nhanh hơn modem 56K 140 lần và ISDN 128K 60 lần.
• Kết nối dành riêng cho mỗi thuê bao DSL nên hạn chế được tình trạng nghẽn mạch. • Với các ưu điểm trên, DSL được sử dụng rộng rãi để cung cấp các dịch vụ thoại, truyền dữ
liệu, hình ảnh, âm thanh, truy cập Internet, hội nghị truyền hình, trò chơi trực tuyến (Games on Line), xem phim theo yêu cầu(VoD), xem tivi trực tuyến (tương tự như truyền hình cáp) và các loại dịch vụ băng thông rộng khác.
• Tốc độ xDSL sẽ phụ thuộc phần lớn vào công nghệ sử dụng, ví dụ công nghệ IDSL đạt tốc độ tối đa 144 Kb/s trong khi VDSL đạt tốc độ lớn hơn 10 Mb/s (max 52Mb/s).
Để sử dụng các dịch vụ xDSL, thuê bao cần lắp đặt modem hoặc router xDSL, thường được gọi là ATU-R (ADSL Transceiver Unit - Remote terminal) có ý nghĩa chung là thiết bị đầu cuối. Trong khi nhà cung cấp dịch vụ (ví dụ như Ngành Bưu Điện) cần có DSLAM hoặc đơn vị đường dây băng rộng (theo thiết bị tổng đài) hoặc tủ tiếp cận thuê bao băng rộng (độc lập với thiết bị tổng đài), tất cả gọi chung là thiết bị trung tâm kết nối xDSL (ATU - C hay ADSL Transceiver Unit Central).
Thông thường, các thiết bị đầu cuối có thể kết nối với thiết bị khách hàng qua cổng USB, cổng Ethernet 10 Base T hay qua giao tiếp PCI bên trong máy tính. Đối với nhà cung cấp dịch vụ DSL, hệ thống DSLAM thực hiện tiếp nhận và tích hợp các kết nối DSL, đưa vào đường truyền chung dung lượng cao đến mạng diện rộng (WAN) hay Internet. Hệ thống ATU-C có thể hỗ trợ
Chươn
nhiều gồm mcủa nhBox). T4 pair kết nối
Vdụng cxuất hData -định d
Nnhu cầgiá ngo
H
(VNPT
Pnền bă
Knăng p
Ttruyền
Cqua mạ
Dtrong t-> 5km
ng 4 Ứng dụ
loại công ngmột cổng vàohà cung cấp cThiết bị đầu hoặc đường
i vào Home gVới tốc độ pcác dịch vụ giện ở Việt N Voice - Vidịch vụ này sẽNgoài các tiệầu thiết thực oại tệ, dự báo
HìnHiện nay ở VT đang thử ng
Phương thứcăng rộng.
Kỹ thuật: Viphát triển lên Thiết bị đầu
n hình qua TVCác dịch vụ:ạng. Dịch vụ IPTthành phố vớm). Nhận xét
• Đây dạng
ụng kỹ thuật
ghệ, giao thứo (Home gatecó nhiệm vụ cuối (End po
g truyền vô tugateway. phát triển củagia tăng trên
Nam. Dịch vụdeo) của ngàẽ thật sự “bùnện ích về nhucủa khách ho thời tiết, tra
nh 4.1.12 MộVN có hai nhghiệm) , 100
c truyền: Bro
ideo số nén tđộ phân giảicuối: Khi x
V thì cần phả: IPTV, inter
TV đã được Bới khoảng 300
chung về dịc
là dịch vụ mg như: phim c
t xử lý âm th
ức và phươneway – có thể
nhận nguồnoint) : STB, Puyến (WiFi
a mạng Intermạng là xu
ụ này không ành công nghng nổ” trong u cầu giải trí àng cũng sẽao đổi thông
ột số dịch vụhà cung cấp d00 (FPT).
oadcast và un
theo chuẩn Mi 1920x1280p
xem truyền hải có STB. rnet, VoD, M
Bưu điện Thà0 điểm với nhch vụ như sau
mới gây chú chất lượng c
hanh và hình
g pháp điều ể là modem A
n hình IPTV, Phone, Mobi, Digital Enh
rnet băng thôhướng tất yếnằm ngoài xhệ truyền thômột vài nămtrực tuyến thđược triển ktin giữa khác
được triển khdịch vụ IPTV
nicast qua mạ
MPEG-2, độpixels (chuẩnình trên PC
MoD, VPN, W
ành phố Hồhiều cự ly khu:
ý với khách cao, xem các
ảnh trong v
chế xDSL kADSL, bộ địVoD và phâ
ile….có thể dhanced Cord
ông rộng (ADếu. IPTV và
xu hướng tíchông trong tươ
m tới. hì trong tươn
khai như : much hàng với n
hai trên mạnV là: FPT và
ạng IP sử dụn
phân giải can HDTV) thì không cầ
WAN và các
Chí Minh thhác nhau (tro
hàng, tuy nh chương trìn
viễn thông
khác nhau. Mịnh tuyến), gân phát đến cdùng cáp đồndless Telecom
DSL) hiện naVoD là dịch
h hợp công nơng lai. Các
ng lai các tiệnua sắm trực nhau thông q
g ADSL VNPT với s
ng cáp đồng v
ao nhất 720x5
ần thiết bị đầ
dịch vụ mua
hử nghiệm tạng khoảng cá
hiên còn thiếnh truyền hìn
Mạng người iao tiếp với mcác STB (Setng CAT5e – Ummunication
ay, thì nhu cầh vụ gia tăngnghệ (Triple
chuyên gia
n ích đáp ứngtuyến , dự b
qua giao diện
số thuê bao là
và cáp quang
576 pixels có
ầu cuối, Nếu
a, bán, thanh
ại một số khuách cáp từ 0.
ếu các dịch vnh, ca nhạc
232
dùng mạng t Top UTP-
ns) để
ầu sử g mới Play: nhận
g cho báo tỷ n TV.
à 300
g trên
ó khả
u xem
h toán
u vực 5 km
vụ đa theo
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
233
yêu cầu chơi game trên TV, chat trên TV…v.v • Chưa xác định được giá thành lắp đặt và thuê bao hợp lý (không quá cao so với
truyền hình cáp), nên có nhiều mức phí theo các nhóm chương trình tự chọn. • Nhà cung cấp nên hỗ trợ một phần chi phí thiết bị STB cho khách hàng do giá thiết
bị STB hiện nay còn khá cao. • Chất lượng hình ảnh và âm thanh thỏa mãn nhu cầu 90% mẫu thử. • Chất lượng dịch vụ chỉ ổn định trong phạm vi khoảng cách cáp đồng nhỏ hơn 3.5
km. • Đối với các khu vực chưa có ADSL2+ thì chưa thể triển khai dịch vụ được vì băng
thông đường truyền không đảm bảo. • Độ ổn định : cao.
Khả năng đáp ứng nhu cầu dịch vụ IPTVcủa mạng viễn thông Việt Nam Hiện nay, với mạng ADSL có tốc độ truyền tương đối chậm, nên chỉ triển khai được một số
dịch vụ đơn giản tích hợp trong IPTV. Để có thể triển khai thành công dịch vụ IPTV với nhiều tiện ích mới thì mạng băng rộng đóng vai trò tiên quyết, bởi vì chỉ có mạng băng rộng mới có thể bảo đảm cung cấp đầy đủ băng thông theo yêu cầu cho các dịch vụ IPTV (như truyền hình, video, Games,v.v..).
Thị trường băng rộng tại Việt Nam đang trong giai đoạn phát triển bùng nổ nhu cầu và còn rất nhiều tiềm năng. Số lượng thuê bao băng rộng Việt nam đã đạt xấp xỉ 200.000 với sự tham gia của các nhà cung cấp dịch vụ VNPT, FPT Telecom, Viettel, SPT,.. Dự kiến đến cuối năm 2006, số lượng thuê bao băng rộng của Việt Nam sẽ đạt khoảng 300.000 và đến 2008 số lượng này sẽ phát triển lên tới 800.000 ÷1.000.000 thuê bao. Đồng thời với việc triển khai các công nghệ hữu tuyến xDSL/PON và công nghệ vô tuyến băng rộng (WiFi/WiMAX, CDMA,…) của các nhà cung cấp dịch vụ ở Việt Nam, thì IPTV lại càng có cơ hội phát triển mạnh mẽ và bảo đảm cho sự thành công của loại hình dịch vụ mới này.
4.2 CÁC TIÊU CHUẨN MÃ HOÁ ÂM THANH VÀ HÌNH ẢNH TRONG TRUYỀN THÔNG ĐA PHƯƠNG TIỆN
4.2.1 Các tiêu chuẩn của ITU- T cho âm thanh
Các tiêu chuẩn ITU-T cho âm thanh bao gồm G.711 • G.722 • G.722.1 • G.722.2 • G.723 • G.723.1 • G.726 • G.728 • G.729 • G.729.1 • G.729a
G.711 là chuẩn ITU-T dùng cho thoại chủ yếu trong các hệ thống tổng đài, đựơc phát hành chính thức vào năm 1972.
G.711 trình bày các mẫu điều chế xung mũ logarit cho tín hiệu ở băng tần thoại, tần số lấy mẫu là 8000 mẫu trong một giây.
Có hai giải thuật chính được định nghĩa trong chuẩn này, giải thuật µ-law dùng ở khu vực Bắc Mỹ, Nhật và giải thuật A-law dùng ở khu vực Châu Âu và những nước còn lại. Cả hai giải thuật đều tính toán trên hàm mũ logarit, nhưng giải thuật A-law được thiết kế đặc biệt với mục đích đơn giản hóa quá trình tính toán. Hai giải thuật µ-law được mã hóa ở dạng các mẫu PCM tuyến tính 14-bit và A-Law là 13-bit với mẫu 8-bit. Như vậy, bộ mã hóa G.711 sẽ tạo được luồng dữ liệu bit có tốc độ 64kbit/giây với tần số lấy mẫu là 8kHz.
G.722 là chuẩn ITU-T dùng cho mã hóa tiếng nói băng tần rộng hoạt động với tốc độ truyền 32-64 kbit/giây. Công nghệ mã hóa dựa trên việc phân chia băng tần ADPCM.
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
234
G.722.1 cho phép nén dữ liệu với tốt độ bit thấp. Một biến thể mới của G722.1 là G.722.2, được biết dưới tên là AMR-WB (Adaptive Multirate Wideband), cho phép nén với tốc độ thấp hơn nữa, có thể đáp ứng tốt với các kiểu nén khác nhau cũng như thích nghi với tính chất của mạng. Trong trường hợp sau, khi mạng bị nghẽn, coder sẽ tăng hệ số nén để tạo ra dòng bits có tốc độ thấp, khi mạng hết nghẽn sẽ quay trở về trạng thái bình thường,khi đó chế độ tốc độ bit cao và mức nén thấp hơn được phục hồi.
Chuẩn G.722 xử lý dữ liệu âm thanh tại tốc độ lấy mẫu 16kHz, gấp đôi tốc độ xử lý tại các giao tiếp thoại truyền thống, kết quả là chất lượng thoại tốt hơn.
Chuẩn G.722.1, được biết qua tên khác là “Siren™”, là một chuẩn quốc tế cho mã hóa âm thanh băng rộng ở tốc độ 24 và 32 kbps (băng thông thoại 50Hz-7kHz, tần số lấy mẫu là 16 kHz), sử dụng trong các hệ thống hội nghị truyền hình được phê chuẩn vào 30 tháng 09 năm 1999.
Chuẩn G.722.1 là bộ nén dựa trên sự biến đổi tối ưu hóa cho cả âm thoại lẫn nhạc. Độ phức tạp tính toán tương đối thấp đối với bộ nén chất lượng cao, độ trễ của giải thuật tại hai điểm đầu cuối là 40ms.
Phiên bản G.722.1/Annex C, được phê chuẩn bởi ITU-T vào 14 tháng 05 năm 2005, còn được biết thông qua tên Siren14™, được phát triển bởi Polycom cho phép truyền không cần bản quyền với tần số lấy mẫu 14kHz.
Thực tế, có ba loại mã hóa ITU đều có chung một tên là G.722. Đầu tiên, G.722 là mã hóa với tần số 7kHz, sử dụng ADPCM hoạt động với tốc độ truyền 48-64kbps. Một phiên bản khác G.722.1 hoạt động với tốc độ dữ liệu bằng một nửa nhưng có chất lượng tốt như G.722 với phương pháp mã hóa dựa vào nền tảng chuyển đổi. Và chuẩn G.722.2, hoạt động với âm thoại băng tần rộng với tốc độ bit truyền rất thấp, sử dụng giải thuật CELP-based.
Về vấn đề bản quuyền, đến thời điểm này, giấy đăng ký bản quyền cho G.722 đã hết hạn, cho nên hiện tại chuẩn này được xem như là chuẩn miễn phí. G.722.1 thuộc bản quyền của tập đoàn Polycom và chuẩn G.722.2 còn có tên là AMR-WB, thuộc quyền sở hữu của tập đoàn VoiceAge.
G.722.2 (GSM AMR WB) Adaptive Multi Rate - WideBand hay AMR-WB là một chuẩn mã hóa tiếng nói được phát
triển sau khi AMR sử dụng cùng công nghệ tương tự như ACELP. Mã cung cấp chất lượng âm thoại tốt vì sử dụng băng tần thoại rộng hơn 50-7000 Hz khi so với các mã âm thoại băng hẹp hiện đang dùng rộng rãi trong các POTS với 300-3400Hz. AMR-WB được hệ thống hóa thành G.722.2, là một chuẩn mã hóa âm thoại chuẩn ITU-T.
Các trạng thái hoạt động của ẢM: AMR-WB hoạt động tương tự AMR với nhiều tốc độ bit khác nhau gồm: 6.60; 8.85; 12.65; 14.25; 15.85; 18.25; 19.85; 23.05 và 23.85 kbps. Tín hiệu truyền với tốc độ thấp nhất cho chất lượng thoại tốt nhất ứng với môi trường không nhiễu là 12.65 kbps. Tốc độ bit cao rất hữu dụng trong môi trường có nhiễu và trong trường hợp tín hiệu truyền là âm nhạc. Tốc độ bit 6.60 và 8.85 cung cấp chất lượng chấp nhận được so với mã hóa băng tần hẹp.
AMR-WB được chuẩn hóa cho việc sử dụng trong tương lai trong các hệ thống mạng như UMTS. Chuẩn này cung cấp chất lượng thoại tốt hơn rất nhiều và được chọn dùng cho nhiều mạng cũ hỗ trợ cho băng rộng. Tháng 10 năm 2006, kiểm nghiệm AMR-WB lần đầu tiên được thực hiện trên hệ thống mạng thực do T-Mobile và Ericssion phối hợp tại Đức.
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
235
G.723 là một chuẩn ITU-T mã hóa âm thoại băng tần rộng, là chuẩn mở rộng của G.721 điều chế xung sai phân tương thích với tốc độ truyền 24 và 40 kbps. Hiện nay G.723 được thay thế bởi chuẩn G.276, do đó hiện tại chuẩn này là lỗi thời.
Chuẩn G.723.1 là chuẩn mã hóa âm thanh cho thoại với tính năng nén thoại trong khung 30 ms hoặc 7.5ms. Chuẩn G.723.1 chủ yếu dùng trong các ứng dụng Voice over IP (VoIP) vì yêu cầu băng thông thấp.
Có hai tốc độ bit mà G.723.1 có thể hoạt động: 6.3 kbit/s (sử dụng khung 24 byte), dùng giải thuật MPC-MLQ (MOS 3.9) 5.3 kbit/s (sử dụng khung 20 byte) dùng giải thuật ACELP (MOS 3.62) G.726 là chuẩn mã hóa tiếng nói ITU-T ADPCM truyền âm thanh với các tốc độ 16, 24,
32, và 40 kbps. Là chuẩn thay thế cho cả G.721 (ADPCM tốc độ 32kbps) và chuẩn G.723 (ADPCM với tốc độ 24 và 40 kbps). G.726 hoạt động với tần số là 16 kbps. Bốn tốc độ bit thường sử dụng cho chuẩn G.726 tương ứng với kích thước của một mẫu theo thứ tự là 2-bits, 3-bits, 4-bits, và 5-bits. Tốc độ thường dùng là 32 kbps, bằng một nửa so với chuẩn G.711, như vậy,dung lượng của mạng sẽ tăng lên 50%. Thông thường chuẩn này được dùng trong các mạng điện thoại quốc tế cũng như hệ thống điện thoại không dây DECT.
G.721 được giới thiệu lần đầu tiên vào năm 1984, trong khi chuẩn G.723 được giới thiệu vào năm 1988. Cả hai được gộp chung thành chuẩn G.726 vào năm 1990.
G.727 được giới thiệu cùng thời điểm với G.726, cùng tốc độ bít nhưng tối ưu hơn cho môi trường PCME Packet Circuit Multiplex Equipment. Điều này đạt được bằng cách nhúng bộ lượng tử hóa 2 bit vào bộ lượng tử hóa 3 bit, cho phép hủy bỏ bit có trọng số nhỏ nhất trong chuỗi bit truyền mà không có ảnh hưởng xấu đến tín hiệu âm thoại.
G.728 là chuẩn ITU-T mã hóa âm thoại với tốc độ 16kbps. Công nghệ sử dụng là LD-CELP, Low Delay Code Excited Linear Prediction. Độ trễ của mã chỉ 5 mẫu ( 0.625 ms). Dự đoán tuyến tính được thực hiện tính toán với bộ lọc LPC ngược bậc 50. Ngõ vào kích thích được tạo ra để đảm bảo nhận được độ lợi VQ. Chuẩn được đưa ra vào năm 1992 dưới dạng giải thuật mã dấu chấm động. Năm 1994, bản dùng cho dấu chấm tĩnh được phát hành. G.728 có tốc độ lên đến 2400 bps.
G.729 là một giải thuật nén dữ liệu âm thanh dùng cho tín hiệu thoại, nén tín hiệu âm thanh với khung 10 ms. G.729 đa số dùng trong các ứng dụng Voice over IP (VoIP) với yêu cầu băng tần thấp. Chuẩn G.729 hoạt động ở tốc độ 8 kbps, nhưng các phiên bản mở rộng có thể hoạt động tại 6.4 kbps đối với môi trường truyền xấu và 11.8 kbps với yêu cầu chất lượng thoại tốt hơn. Trong thực tế, người ta thường dùng chuẩn G.729a, tương tự như G.729 nhưng có độ tính toán đơn giản hơn, tuy nhiên chuẩn này có chất lượng thoại kém hơn.
Phiên bản G.729b là một chuẩn có bản quyền, sử dụng module VAD để phát hiện tín hiệu thoại hay phi thoại. Nó cũng bao gồm một module DTX dùng để quyết định nâng cấp các thông số nhiễu nền cho tín hiệu phi thoại (các khung nhiễu). Các khung này được truyền để thực hiện việc nâng cấp này được gọi là các khung SID. Một bộ tạo nhiễu (CNG) cũng được tích hợp trong chuẩn này, bởi vì trong một kênh truyền, nếu việc truyền bị dừng lại vì lý do tín hiệu là tín hiệu phi thoại, thì site còn lại sẽ xem như đường kết nối này bị đứt. Vì thế khi sử dụng chuẩn này cần phải thận trọng.
Những năm gần đây, chuẩn G.729 đã được nghiên cứu mở rộng để hỗ trợ cho tín hiệu âm
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
236
thoại băng tần rộng và mã hóa âm thanh thành chuẩn G.729.1. Bộ mã hóa G.729.1 được thiết kế theo mô hình phân cấp, tốc độ bit và chất lượng điều hiệu chỉnh đơn giản bằng cách thức cắt giảm chuỗi bit truyền.
G.729.1 thêm chức năng băng tần rộng so với G.729 thông qua các lớp được nhúng vào. Lớp đầu tiên trên cùng G.729 (12kps) vẫn là dạng băng tần hẹp. Lớp kế tiếp có tốc độ 14 kbps (tốc độ truyền tăng lên 2kbps). Các lớp khác sẽ có tốc độ tăng dần từng bước 2 kbps làm gia tăng chất lượng tín hiệu.
Các mã được phát triển bởi sự phối hợp của các tổ chức: France Telecom, tập đoàn Mitsubishi Electric, tập đoàn Nippon Telegraph và Telephone (NTT), và Université de Sherbrooke.
4.2.2 Các tiêu chuẩn của ITU- T cho ảnh tĩnh và video.
4.2.2.1 Chuẩn H261 Chuẩn H.261 là chuẩn ITU mã hóa tín hiệu video năm 1990 được đưa ra để truyền trên hệ
thống đường dây ISDN với các tốc độ dữ liệu là số nhân của 64 kbps. Tốc độ dữ liệu của giải thuật mã hóa được đưa ra để có thể hoạt động được giữa 40 kbps và 2 Mbps. Chuẩn hỗ trợ các khung video CIF và QCIF với độ phân giải 352x288 và 176x144 theo thứ tự tương ứng (và 4:2:0 mẫu với độ phân giải màu là 176x144 và 88x72 theo thứ tự tương ứng). Chuẩn này được hiệu chỉnh năm 1994, cho phép nâng chất lượng tín hiệu video nén lên tới độ phân giải 704x576.
Chuẩn H.261 là chuẩn mã hóa tín hiệu video số đầu tiên được áp dụng trong thực tế. Việc thiết kế chuẩn H.261 là một nỗ lực tiên phong, các chuẩn mã hóa video toàn cầu sau này (MPEG-1, MPEG-2/H.262, H.263, và ngay cả H.264) cũng chủ yếu dựa trên chuẩn này. Ngoài ra, cac phương pháp được sử dụng bởi hội đồng phát triển H.261 (đứng đầu là Sakae Okubo) cộng tác phát triển chuẩn vẫn được ứng dụng trong các việc mã hóa theo các chuẩn sau này: đó là giải thuật mã hóa dùng kỹ thuật bù chuyển động và mã hóa trong không gian ảnh (được ứng dụng trong chuẩn JPEG).
Trong H261, dự đoán hình ảnh nội tại sẽ được thực hiện với cơ chế để loại bỏ dư thừa trong thời gian dựa trên các vector chuyển động. Khi mã hóa trong ảnh, các block 8x8 điểm ảnh sẽ được chuyển đổi cosin rời rạc 8x8 (DCT) dùng để loại bỏ các dư thừa không gian, các hệ số biến đổi lượng tử được đọc ra theo đường zig-zag và mã hóa entropy để loại bỏ các dư thừa thống kê. Chuẩn H.261 không chỉ định rõ phương pháp mã hóa video (ví dụ: phương pháp dò tìm vector chuyển động). Các nhà thiết kế bộ mã hóa được tự do trong việc đưa ra các giải thuật mã hóa của riêng họ.
4.2.2.2 Chuẩn H.262 Chuẩn H.262 là một chuẩn mã hóa video số ITU-T. Chuẩn này liên quan đến phần video
của chuẩn ISO/IEC MPEG-2 (được biết dưới cái tên ISO/IEC 13818-2). Chuẩn này được phát triển do sự hợp tác của ITU-T và các tổ chức ISO/IEC JTC 1, và trở thành chuẩn chung cho cả hai tổ chức này. ITU-T Recommendation H.262 và ISO/IEC 13818-2 được phát triển và phát hành dưới dạng là chuẩn quốc tế. Hai tài liệu này mô tả hầu hết tất cả các khía cạnh của chuẩn.
4.2.2.3 Chuẩn H263 Chuẩn H.263 là chuẩn mã hóa ITU-T thiết kế vào năm 1995/1996 dùng cho giải pháp mã
hóa nén tốc độ truyền thấp cho các dịch vụ hội nghị truyền hình.
Mã đầu tiên được thiết kế trong các hệ thống H.324 (PSTN hoặc các mạch chuyển mạch
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
237
mạch khác truyền dịch vụ hội nghị truyền hình và điện thoại truyền hình), cũng như trong các hệ thốgn dùng mã H.323 (hội nghị truyền hình RTP/IP-based), H.320 (hội nghị truyền hình ISDN-based), RTSP (phương tiện truyền thông dạng streaming) và SIP (hội nghị Internet). Hầu hết nội dung Flash Video( dùng trên các site như YouTube, Google Video, MySpace, v.v….) được mã hóa dưới dạng định dạng này, tuy vẫn có site sử dụng mã hóa VP6, hỗ trợ phiên bản Flash 8. Tín hiệu video H.263 có thể được giải mã bằng thư viện phi bản quyền LGPL-licensed dùng trong các chương trình như VLC media player và MPlayer.
Chuẩn H.263 được phát triển như là một phiên bản nâng cấp dựa trên chuẩn H.261, và chuẩn MPEG-1, MPEG-2. Phiên bản đầu tiên được hoàn thành vào năm 1995 và hoàn toàn có thể thay thế cho H.261 với tất cả các tốc độ truyền. Hiện tại có thêm các phiên bản H.263v2 (còn gọi là chuẩn H.263+ 1998) và chuẩn H.263v3 (H.263++ 2000).
4.2.2.4 Chuẩn H264 Chuẩn H.264, MPEG-4 Part 10, hay AVC (dùng cho Advanced Video Coding), là một
chuẩn mã hóa video số với độ nén cực cao, là kết quả của ITU-T Video Coding Experts Group (VCEG) kết hợp với ISO/IEC Moving Picture Experts Group (MPEG), được xem là sản phẩm thương mại Joint Video Team (JVT). Chuẩn ITU-T H.264 và ISO/IEC MPEG-4 Part 10(ISO/IEC 14496-10) ứng dụng các công nghệ nén ảnh tiên tiến. Phiên bản nháp đầu tiên được hoàn thành vào tháng 05 năm 2003.
Chuẩn H.264 được đặt tên theo cùng dòng ITU-T H.26x của các chuẩn video, trong khi tên AVC được đặt tên dựa theo tên dự án hợp tác, với tên của dự án là H.26L. Chuẩn còn được gọi bằng các tên khác H.264/AVC, AVC/H.264, H.264/MPEG-4 AVC, MPEG-4/H.264 AVC nhằm nhấn mạnh tính kế thừa. Đôi khi, còn được gọi là “mã hóa JVT” với lý do là tổ chức JVT phát triển.
Mục đích của dự án H.264/AVC là tạo ra một chuẩn có khả năng cung cấp tín hiệu video chất lượng cao với các tốc độ bit truyền thấp, nhỏ hơn hay bằng một nửa so với tốc độ của các chuẩn trước ( như MPEG-2, H.263, hay MPEG-4 Part 2) với tính ứng dụng cao trong thực tế. Ngoài ra, chuẩn phải đáp ứng yêu cầu cung cấp cách thức linh động cho phép chuẩn được ứng dụng rộng rãi trong nhiều trình ứng dụng ( ví dụ cho cả tốc độ bit cao và thấp hoặc độ phân giải cao hoặc thấp, và chạy ổn định trong nhiều hệ thống cũng như mạng (mục đích broadcast, lưu trữ DVD, truyền qua mạng gói RTP/IP, và các hệ thống tổng đài)
4.2.2.5 Chuẩn JVT Chuẩn JVT đã hoàn thành việc nâng cấp, phát triển một số tính năng mở rộng so với chuẩn
nguyên thuỷ, được biết dưới tên là Fidelity Range Extensions (FRExt). Các phiên bản mở rộng hỗ trợ mã hóa video với độ trung thực cao bằng cách thức gia tăng độ chính xác lấy mẫu (bao gồm mã hóa 10-bit và 12-bit) với thông tin màu độ phân gải cao (gồm các cấu trúc lấy mẫu như YUV 4:2:2 và YUV 4:4:4). Một số tính năng khác trong dự án Fidelity Range Extensions ( như phép biến đổi số nguyên chuyển mạch tương thích 4×4 và 8×8, các ma trận trọng số lượng tử hóa dựa trên giác quan, mã hóa không mất mát hình nội tại hiệu quả, hỗ trợ các không gian màu cộng thêm và phép biến đổi màu số dư). Công việc thiết kế trong dự án được hoàn thành vào tháng 7 năm 2004 và phiên bản nháp được ra mắt vào tháng 09 năm 2004.
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
238
TÓM TẮT CHƯƠNG 4 Trong chương bốn chúng ta đã đề cập tới một vấn đề quan trọng trong hệ thống truyền dẫn
tín hiệu âm thanh và hình ảnh đó là lưu trữ dữ liệu. Trong đài truyền hình luôn tồn tại các hệ thống lưu trữ dữ liệu khổng lồ được sử dụng để lưu trữ những thước phim tư liệu quí giá. Số lượng phim ảnh cần lưu trữ tăng liên tục. Các định dạng video số chất lượng cao (HDTV) cũng đòi hỏi không gian lưu trữ tăng đáng kể so với tín hiệu video analog trước đây. Tại phần này, chúng ta đã lần lượt nhắc lại các công nghệ lưu trữ dữ liệu tương tự, ứng dụng trong kỹ thuật ghi hình nghiệp dư (VHS, SVHS, Video-8) cũng như chuyên nghiệp (Quadruplex Ampex) đến các công nghệ ghi tín hiệu số hiện đại trên đĩa quang (CD, DVD, HD-DVD, Blue-Ray). Trong phần này, không thể không nhắc đến các hệ thống lưu trữ chuyên dụng có dung lượng lớn và thời gian truy cập nhanh dựa trên hệ thống ổ cứng được cấu hình theo nguyên lý RAID-0...6. Cuối cùng, tài liệu này cũng giới thiệu sơ bộ về các hệ thống lưu trữ dữ liệu lâu dài trên các băng từ chuyên dụng LTO và DTF.
Hệ thống lưu trữ là một hệ thống thiết bị phức tạp, cho phép tìm dữ liệu, ghi/đọc dữ liệu tự động có thể lập trình trước, thiết bị lưu trữ dự phòng tự động, vật liệu lưu trữ (băng từ, CD, DVD v.v.) và các thiết bị hỗ trợ như hệ thống điều hòa, hệ thống duy trì độ ẩm, chống cháy v.v. Các hệ thống lưu trữ trên băng từ, đĩa quang và đĩa cứng có đặc tính sử dụng khác nhau, bao gồm cả ưu điểm và nhược điểm. Tùy theo ứng dụng cụ thể, dựa trên các kết quả phân tích ở trên, chúng ta có thể lựa chọn cấu hình hệ thống lưu trữ phù hợp, để đạt hiệu quả kinh tế cao nhất.
Phần tiếp theo của chương 4 giới thiệu với bạn đọc một số phương pháp phân phối tín hiệu âm thanh và hình ảnh qua mạng viễn thông. Tín hiệu âm thanh cũng như hình ảnh hiện nay được đưa tới người dùng thông qua các kênh truyền vô tuyến cũng như hữu tuyến. Trong phần này có đề cập tới giải pháp truyền tín hiệu âm thanh quảng bá qua đường vô tuyến, trong đó, chủ yếu dành thời gian giới thiệu về phương pháp hình thành và phân phối tín hiệu âm thanh lập thể (stereo) FM.
Các hệ thống truyền hình được nhắc đến trong phần này bao gồm: - Hệ thống truyền hình quảng bá (dùng kênh vô tuyến trên mặt đất) - Hệ thống truyền hình số mặt đất - Hệ thống truyền hình vệ tinh DTH - Hệ thống truyền hình cáp (CATV) - Hệ thống truyền hình qua mạng (IPTV) Sau cùng, trong chương 4 có giới thiệu một số tiêu chuẩn mã hoá âm thanh và hình ảnh ứng
dụng trong truyền thông đa phương tiện. Toàn bộ các tiêu chuẩn ITU-T cho âm thanh và hình ảnh, nếu cần, bạn đọc có thể tìm được trong các trang web có liệt kê trong các tài liệu tham khảo.
CÂU HỎI VÀ BÀI TẬP CHƯƠNG 4 1. Tìm dung lượng bộ nhớ cần thiết để lưu trữ 10 phút dữ liệu video số HDTV
1920x1080/P/50, lấy mẫu theo tiêu chuẩn 4:2:2, lượng tử hóa với 10 bits/mẫu.
2. Phân tích ưu điểm và nhược điểm của hệ thống lưu trữ dữ liệu lên băng từ. 3. Cho biết khác biệt giữa băng ghi hình VHS và VHS-C 5. So sánh hai tiêu chuẩn ghi hình VHS và SVHS. Hai chuẩn này có tương thích với nhau
hay không?
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
239
6. Nêu ra các ưu điểm và các nhược điểm của chuẩn ghi hình Video-8 của Sony. 7. Cho biết sự khác biệt giữa các chuẩn ghi hình DVCPRO-25, DVCPRO-50 và DVCPRO-
100. 8. Tín hiệu video 1920x1080i/60 4:4:4, 10 bits/mẫu dài 15 phút được ghi lên băng hình
HDCAM-SR. Tín hiệu video nói trên được nén theo chuẩn MPEG-4 với tỷ lệ nén 2:1. Thành phần âm thanh bao gồm 12 kênh được mã hóa với 48kHz/24 bits. Tính khối lượng dữ liệu được lưu trên băng hình trên.
9. Phân tích ưu điểm và nhược điểm của hệ thống lưu trữ dữ liệu lên đĩa quang. 10. Trình bày nguyên lý ghi đĩa quang nhiều lớp. Cho biết nguyên nhân chính hạn chế số
lượng lớp ghi trên một mặt đĩa quang?
11. So sánh khác biệt của các loại đĩa quang CD, DVD, HD DVD, Blue-Ray. 12. Phân tích ưu điểm và nhược điểm của hệ thống lưu trữ dữ liệu trên hệ thống ổ cứng
13. Trình bày cơ chế làm việc của hệ thống RAID-0 ...5. So sánh ưu và nhược điểm của từng cấu hình. Cấu hình RAID nào thường được sử dụng trong hệ thống lưu trữ thông tin hình ảnh?
15. Phân tích phương pháp mã hóa tín hiệu FM stereo sử dụng tín hiệu pilot. 16. Cho biết phương pháp điều chế tín hiệu video trong hệ thống truyền hình quảng bá
(truyền hình analog, phát sóng trên mặt đất).
17. Phân tích ưu điểm và nhược điểm của hệ thống phân phối chương trình sử dụng kênh truyền vô tuyến.
18. Phân tích chức năng các thành phần trong hệ thống truyền thông tin qua vệ tinh. 19.Tổng hợp các đặc điểm chính của hệ thống truyền tin qua vệ tinh. So sánh với hệ thống
truyền tin viba. 20. Trình bày cấu trúc hệ thống truyền hình cáp CATV. Phân tích ưu điểm và nhược điểm
của hệ thống truyền hình cáp. 21. Trong trường hợp nào nên sử dụng cấu trúc mạng cáp quang và cáp đồng trục hỗn hợp
(Hybrid Fiber Coaxial system) cho hệ thống CATV? 22. Những dịch vụ nào có thể tích hợp trong mạng xDSL.
23. Cho biết những phương pháp nén tín hiệu được sử dụng trong hệ thống IPTV. Yếu tố nào quyết định chất lượng dịch vụ truyền hình IPTV?
TÀI LIỆU THAM KHẢO
[1.] John Watkinson, “An Introduction To Digital Audio”, Focall Fress, 1994.
[2.] Mark Kahrs, “Applications of Digital Signal Processing to Audio and Acoustics”, Kluwer
Academic Publisher, 2002.
[3.] L. R. Rabiner, R. W. Schafer, “Digital Processing of Speech Signals“, Prentice-Hall, Inc.,
Englewood Cliffs, New Jersey, 1978.
[4.] Yiteng (Arden) Huang Jacob Benesty, “Audio Signal Processing for Next-Generation
Multimedia Communication System”, Kluwer Academic Publisher.
[5.] Davide Rocchesso, “Introduction to Sound Processing”. http://www.sci.univr.it/~rocchess
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
240
[6.] Giáo trình xử lý tín hiệu số - Đại Học Bách Khoa TP. HCM.
[7.] Wai C. Chu, “Speech coding Algorithms”, Wiley-Interscience, 2003
[8.] Website: http://www.dcs.shef.ac.uk/~stu/com326/index.html
[9.] Website: http://www.generation5.org/content/2001/markov.asp
[10.] Anil K. Jain, Fundamentals of Digital Image Processing, Prentice Hall, 1988.
[11.] J. R. Parker, Algorithms for Image Processing and Computer Vision, Wiley, 1996.
[12.] Alan C. Bovik , Handbook of Image and Video Processing, Academic Press, 2000.
[13.] John R. Deller, John H. L. Hansen, John G. Proakis, Discrete-Time Processing of Speech
Signals, Wiley-IEEE Press, 1999.
[14.] R. C. Gonzalez, R. E. Woods, Steven L. Eddins, Digital Image Processing Using
MATLAB, Prentice Hall, 2003.
[15.] R. C. Gonzalez, R. E. Woods Digital Image Processing , Prentice Hall, 2002.
[16.] William K. Pratt, Digital Image Processing: PIKS Inside, Third Edition © 2001 John
Wiley & Sons, Inc.
[17.] Michael Robin & Michel Poulin, Digital Television Fundamental, McCraw-Hill
Companies. Inc.
[18.] Đỗ Hoàng Tiến, Dương Thanh Phương Truyền hình kỹ thuật số. NXB Khoa học và kỹ
thuật, 2004.
[19.] Lương Mạnh Bá, Nguyễn Thanh Thủy, Nhập môn xử lý ảnh số, NXB Khoa học và kỹ
thuật, 1999.
MỤC LỤC CHƯƠNG 1 GIỚI THIỆU CHUNG VỀ XỬ LÝ TÍN HIỆU 1.1 CÁC KHÁI NIỆM VÀ LÝ THUYẾT CƠ BẢN ......................................................... 3 1.1.1 Tín hiệu và phân loại tín hiệu ................................................................................... 4 1.1.2 Tín hiệu rời rạc ......................................................................................................... 4 1.1.2.1 Biểu diễn tín hiệu rời rạc ....................................................................................... 5 1.1.2.2 Các phép biến đổi tín hiệu rời rạc .......................................................................... 5 1.1.3 Phân loại hệ thống .................................................................................................... 6 1.1.3.1 Hệ thống tương tự .................................................................................................. 6 1.1.3.2 Hệ thống rời rạc ..................................................................................................... 8 1.2 ỨNG DỤNG KỸ THUẬT XỬ LÝ ÂM THANH VÀ HÌNH ẢNH VÀO MẠNG BĂNG
THÔNG ĐA DỊCH VỤ ............................................................................................................... 11 1.2.1 Đặc điểm của multimedia ......................................................................................... 11 1.2.2 Nén tín hiệu trong mạng đa dịch vụ ......................................................................... 12 1.2.3 Lưu trữ ...................................................................................................................... 12
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
241
1.2.4 Băng thông ................................................................................................................ 13 1.2.5 Chất lượng dịch vụ (Quality of Service) .................................................................. 13 1.2.6 Tương tác .................................................................................................................. 14 Tóm tắt chương 1……………………………………………………………………. ...15 Câu hỏi và bài tập chương 1 .............................................................................................. 16
CHƯƠNG 2 KỸ THUẬT XỬ LÝ ÂM THANH 2.1 TỔNG QUAN VỀ XỬ LÝ ÂM THANH ................................................................... 16 2.1.1 Giới thiệu sơ lược về âm thanh và hệ thống xử lý âm thanh .................................... 16 2.1.1.1 Đặc tính của âm thanh tương tự ............................................................................. 16 2.1.1.2 Khái niệm tín hiệu ................................................................................................. 17 2.1.1.3 Phân loại tín hiệu ................................................................................................... 17 2.1.1.4 Phân loại hệ thống xử lý ........................................................................................ 19
2.1.1.5 Hệ thống số xử lý âm thanh ................................................................................... 20 2.1.1.6 Mô hình hóa tín hiệu âm thanh .............................................................................. 20
2.1.1.7 Kiến trúc hệ thống số xử lý âm thanh .................................................................... 21 2.1.1.8 Tần số lấy mẫu ....................................................................................................... 23 2.1.2 Nhắc lại một số khái niệm toán học trong xử lý âm thanh ....................................... 23 2.1.2.1 Phép biến đổi z ...................................................................................................... 23 2.1.2.2 Phép biến đổi Fourier ............................................................................................ 24 2.1.2.3 Phép biến đổi Fourier rời rạc ................................................................................. 25 2.2 MÔ HÌNH XỬ LÝ ÂM THANH ................................................................................ 26 2.2.1 Các mô hình lấy mẫu và mã hoá thoại ...................................................................... 26
2.2.1.1 Lấy mẫu tín hiệu ở miền thời gian và tái tạo tín hiệu liên tục ............................... 26 2.2.1.2 Lấy mẫu tín hiệu ở miền tần số và tái tạo tín hiệu liên tục .................................... 27
2.2.1.3 Lấy mẫu tín hiệu ở miền tần số và tái tạo tín hiệu rời rạc ..................................... 27 2.2.1.4 Các chuẩn mã hóa âm thoại trong các hệ thống xử lý thoại .................................. 28 2.2.1.5 Kiến trúc của hệ thống mã hóa âm thoại ............................................................... 29 2.2.1.6 Kiến trúc tổng quát của bộ mã hóa – giải mã âm thoại ......................................... 31 2.2.1.7 Các yêu cầu cần có của một bộ mã hóa âm thoại .................................................. 32 2.2.2 Các mô hình dùng trong xử lý âm thanh .................................................................. 33 2.2.2.1 Mô hình quang phổ ................................................................................................ 33 2.2.2.2 Mô hình miền thời gian ......................................................................................... 36 2.2.2.3 Các mô hình phi tuyến ........................................................................................... 39 2.2.2.4 Mô hình thời gian rời rạc ....................................................................................... 41 2.3 LÝ THUYẾT VÀ CÁC BÀI TOÁN CƠ BẢN ........................................................... 44 2.3.1 Phân tích dự đoán tuyến tính .................................................................................... 44 2.3.1.1 Bài toán dự đoán tuyến tính ................................................................................... 44
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
242
2.3.1.2 Phân tích dự đoán tuyến tính cho tín hiệu động .................................................... 46 2.3.1.3 Giải thuật Levison-Durbin ..................................................................................... 48 2.3.1.4 Giải thuật Leroux-Gueguen ................................................................................... 48 2.3.1.5 So sánh giải thuật Levison-Durbin và Leroux-Gueguen ....................................... 49 2.3.2 Dự đoán tuyến tính trong xử lý thoại ........................................................................ 50 2.3.2.1 Mô hình xử lý tín hiệu thoại .................................................................................. 50 2.3.2.2 Cấu trúc của giải thuật dùng mô hình LPC ........................................................... 53 2.4 PHÂN TÍCH CHẤT LƯỢNG XỬ LÝ THOẠI .......................................................... 54 2.4.1 Các phương pháp mã hoá ......................................................................................... 54 2.4.2 Các tham số liên quan đến chất lượng thoại ............................................................. 55 2.4.3 Các phương pháp đánh giá chất lượng thoại cơ bản ................................................. 55 2.4.3.1 Phương pháp đánh giá chủ quan (MOS) ............................................................... 57
2.4.3.2 Các phương pháp so sánh dựa trên mô hình giác quan ......................................... 58 2.5 MÔ HÌNH ỨNG DỤNG XỬ LÝ THOẠI ................................................................... 62
2.5.1 Mô hình thời gian động ............................................................................................ 62 2.5.1.1 Tổng quan .............................................................................................................. 62 2.5.1.2 Giải thuật DTW đối xứng ...................................................................................... 63 2.5.1.3 Giải thuật DTW bất đối xứng ................................................................................ 65 2.5.2 Mô hình chuỗi markov ẩn ......................................................................................... 67 2.5.2.1 Tổng quan .............................................................................................................. 67 2.5.2.2 Định nghĩa mô hình Markov ẩn ............................................................................. 67 2.5.2.3 Ứng dụng HMM trong việc nhận dạng âm thoại liên tục ...................................... 68
2.5.3 Mạng nơron .............................................................................................................. 69 2.5.3.1 Tổng quan .............................................................................................................. 69
2.5.3.2 Phương pháp học của não người ........................................................................... 69 2.5.3.3 Từ neuron người đến neuron nhân tạo ................................................................... 70 2.5.3.4 Ứng dụng mạng neuron trong nhận dạng tiếng nói ............................................... 71 CHƯƠNG 3 KỸ THUẬT XỬ LÝ HÌNH ẢNH ......................................................... 80 3.1 TỔNG QUAN VỀ XỬ LÝ ẢNH SỐ .......................................................................... 80 3.1.1 Khái niệm cơ bản về xử lý ảnh ................................................................................. 80 3.1.2 Lĩnh vực ứng dụng kỹ thuật xử lý ảnh...................................................................... 80 3.1.3 Các giai đoạn chính trong xử lý ảnh ......................................................................... 82 3.1.4 Các phần tử của hệ thống xử lý ảnh số ..................................................................... 83 3.1.5 Biểu diễn ảnh số ....................................................................................................... 85 3.1.5.1 Ánh sáng, màu sắc và hình ảnh ............................................................................. 85 3.1.5.2 Màu sắc và các thông số đặc trưng ........................................................................ 88 3.1.5.3 Các định luật trộn màu cơ bản ............................................................................... 89
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
243
3.1.5.4 Không gian màu RGB ........................................................................................... 90 3.1.5.5 Hệ thống thị giác .................................................................................................... 93 3.1.5.6 Biểu diễn tín hiệu hình ảnh trong không gian và thời gian .................................... 96 3.1.5.7 Tín hiệu video ........................................................................................................ 97 3.1.5.8 Biểu diễn tín hiệu ảnh số ....................................................................................... 101 3.1.6 Lý thuyết toán ứng dụng trong xử lý ảnh và video số .............................................. 102 3.1.6.1 Các toán tử không gian .......................................................................................... 103 3.1.6.2 Các phép tính với vector và ma trận ...................................................................... 104 3.1.6.3 Biểu diễn hệ thống tuyến tính bằng ma trận .......................................................... 108 3.1.6.4 Biến đổi không gian tín hiệu .................................................................................. 111 3.2 PHÂN TÍCH CÁC KỸ THUẬT XỬ LÝ ẢNH VÀ VIDEO ...................................... 115 3.2.1 Khái niệm về quan hệ giữa các điểm ảnh ................................................................. 115
3.2.1.1 Các điểm ảnh lân cận ............................................................................................. 115 3.2.1.2 Mối liên kết (connectivity) .................................................................................... 115
3.2.1.3 Toán tử xử lý điểm ảnh .......................................................................................... 116 3.2.2 Các phương pháp nâng cao chất lượng ảnh .............................................................. 117 3.2.2.1 Nâng cao chất lượng ảnh bằng toán tử điểm ......................................................... 117 3.2.2.2 Nâng cao chất lượng ảnh bằng toán tử không gian ............................................... 128 3.2.3 Khôi phục ảnh ........................................................................................................... 133 3.2.3.1 Mô hình hóa quá trình gây méo và khôi phục ảnh ................................................ 133 3.2.3.2 Mô hình nhiễu ........................................................................................................ 134 3.2.3.3 Triệt nhiễu bằng phương pháp lọc không gian ...................................................... 136
3.2.3.4 Triệt nhiễu trong miền tần số ................................................................................. 137 3.2.3.5 Kỹ thuật lọc ngược (inverse filter) ....................................................................... 139
3.2.3.6 Lọc Wiener ............................................................................................................ 140 3.2.4 Các phương pháp xác định và dự đoán biên ảnh ...................................................... 142 3.2.4.1 Cơ sở phát hiện đường biên ảnh ............................................................................ 142 3.2.4.2 Phương pháp Gradient ........................................................................................... 143 3.2.4.3 Làm nổi biên bằng toán tử la bàn .......................................................................... 147 3.2.4.4 Kỹ thuật Laplace .................................................................................................... 148 3.2.5 Phân vùng ảnh .......................................................................................................... 152 3.2.5.1 Tổng quan về phân vùng ảnh ................................................................................. 152 3.2.5.2 Phân vùng ảnh dựa theo đường biên ..................................................................... 152 3.2.5.3 Phân vùng dựa trên xử lý ngưỡng (biên độ) (Thresholding) ................................. 156 3.2.6 Xử lý ảnh màu .......................................................................................................... 160 3.2.6.1 Các hệ màu cơ bản ................................................................................................. 160 3.2.6.2 Một số kỹ thuật xử lý ảnh màu căn bản ................................................................. 164
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
244
3.2.6.3 Nhiễu trong ảnh màu ............................................................................................. 175 3.3 CÁC KỸ THUẬT NÉN ẢNH ..................................................................................... 176 3.3.1 Giới thiệu chung về kỹ thuật nén ảnh ....................................................................... 176 3.3.2 Dư thừa trong tín hiệu ............................................................................................... 176 3.3.2.1 Độ dư thừa số liệu.................................................................................................. 176 3.3.2.2 Tiêu chí đánh giá chất lượng hình ảnh .................................................................. 177 3.3.3 Mô hình hệ thống nén tín hiệu .................................................................................. 178 3.3.4 Các phương pháp nén không tổn hao (lossless data reduction) ................................ 179 3.3.4.1 Phương pháp mã hóa Huffman .............................................................................. 179 3.3.4.2 Phương pháp mã LZW (Lempel-Ziv-Welch) ........................................................ 179 3.3.4.3 Phương pháp mã hóa loạt dài (RLC - Run Length Coding) .................................. 180 3.3.4.4 Phương pháp mã hóa theo vùng đồng trị ............................................................... 180
3.3.4.5 Phương pháp mã dự đoán không tổn thất .............................................................. 180 3.3.5 Các phương pháp nén tổn hao (loss data reduction) ................................................. 181
3.3.5.1 Phương pháp mã dự đoán có tổn hao .................................................................... 181 3.3.5.2 Các phương pháp nén sử dụng phép biến đổi không gian tín hiệu ........................ 182 3.3.5.3 Các chuẩn nén ảnh tính và ảnh động ..................................................................... 183 3.3.5.4 Phương pháp nén ảnh tĩnh theo chuẩn JPEG ......................................................... 184 3.3.5.5 Nén JPEG lũy tiến ................................................................................................. 190 3.3.5.6 Các tham số tiêu chuẩn của phương pháp nén JPEG ............................................ 192 3.3.5.7 Phương pháp nén ảnh động theo chuẩn M-JPEG .................................................. 192 3.3.6 Chuẩn nén ảnh động MPEG .................................................................................... 193
3.3.6.1 Kỹ thuật xử lý tín hiệu trong MPEG ..................................................................... 193 3.3.6.2 Mã hóa tín hiệu MPEG .......................................................................................... 196
3.3.6.3 Giải mã tín hiệu MPEG ......................................................................................... 197 3.3.6.4 Các thành phần cơ bản trong ảnh nén MPEG ........................................................ 197 3.3.6.5 Tiêu chuẩn nén MPEG-2 ....................................................................................... 198 3.3.7 Tiêu chuẩn nén MPEG-4 .......................................................................................... 199 3.3.7.1 Video trong MPEG-4 ............................................................................................. 201 3.3.7.2 Cấp độ của video MPEG-4 .................................................................................... 201 3.3.7.3 Mã hóa đường nét (shape) ..................................................................................... 201 3.3.7.4 Mã hóa texture ....................................................................................................... 202 3.3.7.5 Sprites .................................................................................................................... 202 3.3.7.6 Scalability .............................................................................................................. 203 3.3.8 Ứng dụng và đánh giá khả năng kinh tế của các tiêu chuẩn nén .............................. 203
Chương 4 Ứng dụng kỹ thuật xử lý âm thanh và hình ảnh trong viễn thông
245
CHƯƠNG 4 ỨNG DỤNG KỸ THUẬT XỬ LÝ ÂM THANH VÀ HÌNH ẢNH TRONG VIỄN THÔNG 4.1 CÁC ỨNG DỤNG CỦA XỬ LÝ ÂM THANH VÀ HÌNH ẢNH .............................. 211 4.1.1 Lưu trữ âm thanh và hình ảnh ................................................................................... 211 4.1.1.1 Băng từ .................................................................................................................. 211 4.1.1.2 Đĩa quang ............................................................................................................... 214 4.1.1.3 Lưu trữ dữ liệu trên hệ thống đĩa từ (hard disk) .................................................... 218 4.1.2 Phân phối nội dung qua mạng viễn thông ................................................................ 220 4.1.2.1 Phân phối nội dung qua kênh vô tuyến .................................................................. 220 4.1.2.2 Truyền thanh quảng bá .......................................................................................... 221 4.1.2.3 Truyền hình quảng bá ............................................................................................ 224 4.1.2.4 Phân phối nội dung qua kênh hữu tuyến ............................................................... 228
4.2 CÁC TIÊU CHUẨN MÃ HÓA ÂM THANHVÀ HÌNH ẢNH TRONG TRUYỀN THÔNG ĐA PHƯƠNG TIỆN..................................................... 233
4.2.1 Các tiêu chuẩn của ITU- T cho âm thanh ................................................................. 233 4.2.2 Các tiêu chuẩn của ITU- T cho ảnh tĩnh và video. ................................................... 236 4.2.2.1 Chuẩn H261 ........................................................................................................... 236 4.2.2.2 Chuẩn H.262 .......................................................................................................... 236 4.2.2.3 Chuẩn H263 ........................................................................................................... 236 4.2.2.4 Chuẩn H264 ........................................................................................................... 237 4.2.2.5 Chuẩn JVT ............................................................................................................. 237