KHẢO SÁT MỘT SỐ PHƯƠNG PHÁP PHÁT HIỆN TIỀN CẢNH BẰNG MÔ HÌNH NỀN THỐNG KÊ

32
Kỷ yếu Hội nghị Quốc gia lần thứ 7 về Nghiên cứu cơ bản và ứng dụng Công Nghệ thông tin (FAIR);Thái Nguyên, ngày 20/06/2014 KHẢO SÁT MỘT SỐ PHƯƠNG PHÁP PHÁT HIỆN TIỀN CẢNH BẰNG MÔ HÌNH NỀN THỐNG KÊ Nguyễn Văn Căn Trường Đại học Kỹ thuật - Hậu cần CAND [email protected] TÓM TẮT - Mô hình nền hiện đang được sử dụng để phát hiện các đối tượng chuyển động trong video thu từ máy camera. Nhiều phương pháp đã được phát triển trong những năm gần đây. Mục đích của bài viết này cung cấp một cuộc khảo sát mở rộng và cập nhật của các nghiên cứu gần đây, các sáng chế liên quan đến mô hình nền thống kê; đưa ra sự đánh giá so sánh giữa các phương pháp. Trước hết phân loại các phương pháp thống kê thành các chuyên mục. Sau đó, các phân tích các phương pháp ban đầu và thảo luận những thách thức tiềm ẩn trong chuỗi video. Phân loại những cải tiến tương ứng của chúng trong các chiến lược sử dụng. Đưa ra những tình huống quan trọng của chúng yêu cầu cần xử lý. Đưa ra một số hướng nghiên cứu hứa hẹn cho tương lai. Từ khóa - 1. GIỚI THIỆU Các ứng dụng khác nhau như giám sát video[1], thu nhận chuyển động quang học [2-4] và đa phương tiện [5-7] điều đầu tiên cần đến là mô hình nền và sau đó là phát hiện các đối tượng chuyển động. Cách tốt nhất để thu nhận nền là lưu trữ ảnh nền là khi không có bất kỳ đối tượng chuyển động nào, nhưng trong môi trường thực thì khó có thể như vậy. Hơn nữa, nó cũng luôn luôn thay đổi dưới điều kiện thực tế như thay đổi ánh sáng, các đối tượng đến hoặc rời khỏi cảnh. Để giải quyết vấn đề này, nhiều phương pháp mô hình nền đã được phát triển [8,9] và được phân loại thành các loại sau: Mô hình nền cơ bản: sử dụng giá trị trung bình [10] hoặc bình quân [11] hoặc phân tích lược đồ xám cho toàn thời gian [12]. Mô hình nền thống kê: sử dụng một Gauss đơn[13] hoặc một hỗn hợp Gauss[14] hoặc một tính toán mật độ lõi [15]. Các biến thống kê được sử dụng để phân loại các điểm ảnh là điểm tiền cảnh hay là nền. Mô hình nền mờ: sử dụng một giá trị trung bình mờ[16] hoặc hỗn hợp mờ loại 2 của Gauss[17]. Phát hiện tiền cảnh được sử dụng tích hợp Sugeno [18] hoặc tích hợp Choquet[19]. Phát hiện tiền cảnh có thể thực hiện bằng logic mờ tham khảo trong [335]. Phân cụm nền: mỗi điểm ảnh trong khung hình có thể được phân cụm theo thời gian xuất hiện. Các điểm ảnh đang xem xét được xếp loại và ghép vào cụm theo một tiêu chí đặt ra. Cách tiếp cận phân cụm có sử dụng thuật toán K-mean [361] hoặc sử dụng Codebook [362]. Mô hình nền mạng nơ ron: Mô hình nền được biểu diễn bằng trị trung bình của các hệ số của một mạng nơ ron được đào tạo trên N khung sạch. Mạng huấn luyện như thế nào để phân loại mỗi điểm ảnh là nền hoặc tiền cảnh. Mô hình nền Wavelet: Mô hình nền được định nghĩa trong vùng thời gian, sử dụng hệ số biến đổi wavelet rời rạc (DWT) [336]. Ước tính nền: Nền được ước tính bằng cách sử dụng bộ lọc. Mỗi điểm ảnh của ảnh hiện tại lệch đáng kể so với giá trị dự đoán được khai báo là nổi trên nền. Bộ lọc này có thể là lọc Wiener [20], lọc Kalman[21] hoặc lọc Tchebychev [22]. Bảng 1. Tổng quan các phương pháp mô hình nền

Transcript of KHẢO SÁT MỘT SỐ PHƯƠNG PHÁP PHÁT HIỆN TIỀN CẢNH BẰNG MÔ HÌNH NỀN THỐNG KÊ

Kỷ yếu Hội nghị Quốc gia lần thứ 7 về Nghiên cứu cơ bản và ứng dụng Công Nghệ thông tin (FAIR);Thái Nguyên, ngày 20/06/2014

KHẢO SÁT MỘT SỐ PHƯƠNG PHÁP PHÁT HIỆN TIỀN CẢNH BẰNG MÔHÌNH NỀN THỐNG KÊ

Nguyễn Văn CănTrường Đại học Kỹ thuật - Hậu cần CAND

[email protected]

TÓM TẮT - Mô hình nền hiện đang được sử dụng để phát hiện các đối tượng chuyển động trong video thu từ máycamera. Nhiều phương pháp đã được phát triển trong những năm gần đây. Mục đích của bài viết này cung cấp mộtcuộc khảo sát mở rộng và cập nhật của các nghiên cứu gần đây, các sáng chế liên quan đến mô hình nền thống kê; đưara sự đánh giá so sánh giữa các phương pháp. Trước hết phân loại các phương pháp thống kê thành các chuyên mục.Sau đó, các phân tích các phương pháp ban đầu và thảo luận những thách thức tiềm ẩn trong chuỗi video. Phân loạinhững cải tiến tương ứng của chúng trong các chiến lược sử dụng. Đưa ra những tình huống quan trọng của chúngyêu cầu cần xử lý. Đưa ra một số hướng nghiên cứu hứa hẹn cho tương lai.

Từ khóa -

1. GIỚI THIỆUCác ứng dụng khác nhau như giám sát video[1], thu nhận chuyển động quang học

[2-4] và đa phương tiện [5-7] điều đầu tiên cần đến là mô hình nền và sau đó làphát hiện các đối tượng chuyển động. Cách tốt nhất để thu nhận nền là lưu trữảnh nền là khi không có bất kỳ đối tượng chuyển động nào, nhưng trong môitrường thực thì khó có thể như vậy. Hơn nữa, nó cũng luôn luôn thay đổi dướiđiều kiện thực tế như thay đổi ánh sáng, các đối tượng đến hoặc rời khỏi cảnh.Để giải quyết vấn đề này, nhiều phương pháp mô hình nền đã được phát triển[8,9] và được phân loại thành các loại sau:

Mô hình nền cơ bản: sử dụng giá trị trung bình [10] hoặc bình quân [11] hoặcphân tích lược đồ xám cho toàn thời gian [12].

Mô hình nền thống kê: sử dụng một Gauss đơn[13] hoặc một hỗn hợp Gauss[14]hoặc một tính toán mật độ lõi [15]. Các biến thống kê được sử dụng để phân loạicác điểm ảnh là điểm tiền cảnh hay là nền.

Mô hình nền mờ: sử dụng một giá trị trung bình mờ[16] hoặc hỗn hợp mờ loại 2của Gauss[17]. Phát hiện tiền cảnh được sử dụng tích hợp Sugeno [18] hoặc tíchhợp Choquet[19]. Phát hiện tiền cảnh có thể thực hiện bằng logic mờ tham khảotrong [335].

Phân cụm nền: mỗi điểm ảnh trong khung hình có thể được phân cụm theo thờigian xuất hiện. Các điểm ảnh đang xem xét được xếp loại và ghép vào cụm theomột tiêu chí đặt ra. Cách tiếp cận phân cụm có sử dụng thuật toán K-mean [361]hoặc sử dụng Codebook [362].

Mô hình nền mạng nơ ron: Mô hình nền được biểu diễn bằng trị trung bình củacác hệ số của một mạng nơ ron được đào tạo trên N khung sạch. Mạng huấn luyệnnhư thế nào để phân loại mỗi điểm ảnh là nền hoặc tiền cảnh.

Mô hình nền Wavelet: Mô hình nền được định nghĩa trong vùng thời gian, sửdụng hệ số biến đổi wavelet rời rạc (DWT) [336].

Ước tính nền: Nền được ước tính bằng cách sử dụng bộ lọc. Mỗi điểm ảnh củaảnh hiện tại lệch đáng kể so với giá trị dự đoán được khai báo là nổi trên nền.Bộ lọc này có thể là lọc Wiener [20], lọc Kalman[21] hoặc lọc Tchebychev [22].

Bảng 1. Tổng quan các phương pháp mô hình nền

2 KHẢO SÁT TỔNG QUAN VỀ PHƯƠNG PHÁP TRỪ NỀN ĐỂ PHÁT HIỆN ĐỐI TƯỢNG TRONG VIDIEO

Loại Phương pháp Tác giả - năm xuất bản Mô hình nền cơ bản Trung bình (11)

Trung vị (13)Lược đồ xám toàn thờigian (13)

Lee và cộng sự (2002) [10]Mac Farlane và cộng sự(1995) [11]Zheng và cộng sự (2006)[12]

Mô hình nền thốngkê

Gauss đơn (33)Hỗn hợp Gauss (217)Ước tính mật độ lõi (5)

Wren và cộng sự (1997) [13]Stauffer và Grimson (1999)[14]Elgammal và cộng sự (2000)[15]

Mô hình nền logicmờ

Giá trị trung bình chạymờ (5)Hỗn hợp Gauss mờ loại 2(3)

Sigari và cộng sự (2008)[16]El Baf và cộng sự (2008)[17]

Sự phân cụm nền K trung bình (11)CodeBook (35)

Bultler và cộng sự (2003)[361]Kim và cộng sự (2005) [362]

Mô hình nền mạngnơ ron

Mạng nơ ron hồi quy tổnghợp (1)Mạng nơ ron tự tổ chức(9)

Culibrk và cộng sự. (2006)[332]Maddalena và Petrosino(2007) [333]

Mô hình nềnWavelet

Biến đổi Wavelet rời rạc Biswas và cộng sự [336]

Tính toán nền Lọc Wiener (1)Lọc Kalman (19)Lọc Tchebychev (3)

Toyama và cộng sự (1999)[20]Messelodi và cộng sự (2005)[21]Change và cộng sự (2004)[22]

Cột đầu tiên chỉ tên loại và cột thứ hai chỉ ra tên các phương pháp tương ứngvới loại, kèm theo số lượng các bài báo ứng với mỗi phương pháp ghi trongngoặc(). Cột thứ ba chỉ ra tên tác giả và ngày tháng xuất bản. Các phân loạikhác có thể được tìm thấy trong các chủ đề dự đoán [23], lặp [1], thích nghi[24], hoặc phương thức [25].

Tất cả các phương pháp tiếp cận này đều sử dụng cách trừ nền và thông qua cácbước và trường hợp sau: Mô hình hóa nền, khởi tạo nền, duy trì nền, phát hiệntiền cảnh, chọn kích thước các đặc trưng (điểm ảnh, một khối hoặc một cụm),chọn các kiểu đặc trưng (đặc trưng màu sắc, đặc trưng đường biên, đặc trưngstereo, đặc trưng chuyển động và đặc trưng đường vân). Phát triển phương pháptrừ nền, tất cả các lựa chọn này xác định là phương pháp mạnh mẽ tới các tìnhhuống quan trọng trong dãy video [5,20]: nhiễu ảnh làm chất lượng ảnh nguồn kém(NI), Camera jitter(CJ), camera tự dịch chuyển (CA), ngụy trang (C), khẩu độnổi trên nền (FA), các đối tượng chuyển động trên nền (MO), chèn thêm vào nền(IB), đối tượng đi bộ (WFO), đối tượng ngủ (SFO) và bóng (S). Khác nhau chínhđến từ các nền động và sự thay đổi ánh sáng.

- Các nền động thường xuất hiện ở các cảnh ngoài trời. Hình 1 chỉ ra bốn kiểuví dụ: Camera jitter, cây cối cử động, nước gợn sóng và bề mặt nước. Cột bêntrái chứa ảnh gốc và cột bên phải chứa mặt nạ nền thu được bằng MOG[14]. Trongmỗi trường hợp có một số lượng lớn các phát hiện sai.

Nguyễn Văn Căn 3

- Ánh sáng thay đổi xuất hiện trong các cảnh trong nhà và ngoài trời. Hình 2,chỉ ra một cảnh trong nhà mà trong đó chúng ta có thể quan sát sự thay đổi ánhsáng dần dần. Điều này gây ra các phát hiện sai trong MOG[14]. Hình 3, ánh sángtrong trường hợp thay đổi đột ngột tương ứng với đèn on/off. Mỗi điểm ảnh trongảnh bị ảnh hưởng bởi sự thay đổi này có thể dẫn đến phát hiện sai (xem hình3c).

a) Dãy ảnh camerarung [229]

b) Dãy cây cối [34]

c) Dãy nước phun[34]

d) Dãy sóng nước[34]

Hình 1. Minh họa nền động cảnh ngoài trời

Cột đầu tiên chứa cảnh gốc bao gồm các nền động. Cột thứ hai chứa mặt nạtiền cảnh thu được bởi MOG[14].

Hình 2. Minh họa nền theo ánh sáng dần dần

Từ trái qua phải: ảnh đầu tiên diễn tả cảnh trong nhà với ánh sáng thấp. Ảnhthứ hai diễn tả cùng cảnh với ánh sáng trung bình trong khi đó ảnh thứ ba diễn

4 KHẢO SÁT TỔNG QUAN VỀ PHƯƠNG PHÁP TRỪ NỀN ĐỂ PHÁT HIỆN ĐỐI TƯỢNG TRONG VIDIEO

tả cảnh với ánh sáng cao. Ánh thứ tư chỉ ra mặt nạ điểm nổi trên nền thu đượcvới MOG[14]. Dãy này được gọi là "Time of Day" lấy từ tập dữ liệu Wallflower[20].

Hình 3. Minh họa nền thay đổi ánh sáng đột ngột

Trong hình 3. Từ trái qua phải: ảnh thứ nhất diễn tả cảnh trong nhà với ánhsáng bật đèn. Ảnh thứ hai chỉ ra cùng cảnh đó nhưng với ánh sáng tắt. Ảnh thứba chỉ ra mặt nạ tiền cảnh thu được với MOG[14]. Dãy này được gọi là "Chuyểnđổi ánh sáng" lấy từ tập dữ liệu Wallflower[20].

Các tiêu chuẩn khác nhau của tập dữ liệu [26-31] nhằm để đánh giá sức mạnhcủa các phương pháp giảm trừ nền giải quyết các tình huống quan trọng với cácđặc tính không gian, thời gian khác nhau nhằm mục đích thu được sự phân đoạntốt. Thách thức này phải được thực hiện trong bối cảnh của ứng dụng thời gianthực chạy trên máy tính và do vậy hai thông số cần phải tính đến: thời giantính toán nhỏ (CT) và yêu cầu bộ nhớ nhỏ (MR). Thực hiện là tính toán sử dụngphân tích ROC[32] hoặc PDR[33] hoặc đo tương tự[34]. Các phương pháp đánh giáthực hiện khác được giả thiết và so sánh trong[35, 36]. Cần chú ý 2 điểm sau:(1) Mô hình thường sử dụng là thống kê với sức mạnh giải quyết các tình huốngquan trọng. (2) Có nhiều phát triển gần đây liên quan đến mô hình thống kê nhưmô hình MOG và phát triển của nó: GMM[37], TLGMM[38], STGMM[39], SKMGM[40],TAPPMOG[41], và S-TAPPMOG[42]. Tiếp theo phân loại theo mô hình thống kê vàphân loại các cải tiến theo chiến lược sử dụng. Những thách thức gặp phải trongdãy video và đánh giá một vài lĩnh vực của chúng cảnh báo sai sót khi sử dụngtập dữ liệu Walflower [20].

Bài báo này là sự mở rộng và cập nhật sự khảo sát hỗn hợp Gauss đối với môhình nền [48] và học không gian con đối với mô hình nền [334]. Phần 2, mô hìnhnền thống kê và phân loại. Phần 3, khảo sát các mô hình tổng hợp đầu tiên vànhững cải tiến liên quan. Phần 4, khảo sát phân loại mô hình thứ 2. Phần 5,khảo sát phân loại thứ ba. Phần 6, khảo sát sự thực hiện trong môi trường nềnđộng và ánh sáng thay đổi kèm với sự phức hợp điểm ảnh. Sau đó, so sánh đánhgiá được trình bày trong phần 7. Cuối cùng, kết luận và những phát triển trongtương lai.

2. TỔNG QUAN VỀ MÔ HÌNH NỀN THỐNG KÊCác công cụ thống kê cung cấp một khung làm việc tốt đối với mô hình nền và

nhiều phương pháp đã được phát triển theo hướng này. Chúng được phân loại thànhcác nhóm sau:

- Nhóm thứ nhất: giả thiết là quá trình diễn biến theo thời gian của các giátrị mật độ điểm ảnh có thể được mô hình bởi một Gauss đơn[13]. Tuy nhiên, khôngthể thực hiện mô hình hóa đối với các nền động khi mà ở đó có cây cối rung,nước gợn sóng. Để giải quyết vấn đề này, hỗn hợp Gauss (MOG) đã được sử dụng để

Nguyễn Văn Căn 5

mô hình hóa nền động[14]. Mô hình này có một vài bất lợi. Nền có sự biến đổinhanh không thể tính toán mô hình được với một số ít Gauss (thường là 3 đến 5),gây ra vấn đề đối với phát hiện sự nhạy cảm. Do vậy, kỹ thuật không tham số đãđược phát triển để ước tính xác suất nền ở mỗi điểm ảnh từ nhiều ví dụ sử dụngước tính mật độ lõi (KDE) [15] nhưng nó tiêu tốn nhiều thời gian. Trong [165],học không gian con sử dụng phân tích thành phần chính (SL-PCA) được áp dụngtrên N ảnh để xây dựng mô hình nền, với việc diễn tả bằng ảnh trung bình và matrận chiếu bao gồm các p vector riêng quan trọng đầu tiên của PCA. Bằng cáchnày, phân khúc nền trước được thực hiện bằng cách tính toán sự khác biệt giữacác hình ảnh đầu vào và tái thiết của nó.

Bảng 2. Tổng quan về mô hình nền thống kê tiên tiến

Loại Phương pháp Tác giả - Thời gianPhân loại thứ nhất

Gauss đơn ( SG) (33)Hỗn hợp Gauss (MOG) (217)

Wren (1997) [13]Stauffer, Grimson (1999) [14]

- Nhóm thứ hai: sử dụng mô hình hỗ trợ vector theo nhiều cách khác nhau: Linvà cộng sự [180] sử dụng thuật toán SVM để khởi tạo nền trong khung cảnh ngoàitrời. Wang và cộng sự [183, 184] sử dụng SVR trong trường hợp cảnh sát giaothông, nơi thay đổi chiếu sáng (TD) xuất hiện. Tavakkoli và cộng sự [186-189]áp dụng SVDD để đối phó với nền động (MB).

- Nhóm thứ ba: Tổng hợp và phát triển các mô hình thuộc nhóm thứ nhất như làtổng hợp Gaussian đơn (SGG) [190-192], hỗn hợp chung Gaussian (MOGG) [193-195]và học không gian con sử dụng phân tích thành phần độc lập (SL-ICA) [198, 200],gia tăng ma trận hệ số không âm (SL-INMF) [202, 203] hoặc gia tăng thứ hạngTensor-(R1, R2, R3) (SL-IRT) [204, 205]. Tổng hợp Gauss đơn (SGG) giảm bớt hạnchế của Gauss đơn và sau đó cho hiệu suất tốt hơn trong trường hợp thay đổinguồn sáng (TD) và bóng tối (S). Các MOGG được phát triển để mạnh mẽ hơn đốivới hình nền động (MB). Phương pháp học không gian con là mạnh mẽ hơn đối vớithay đổi chiếu sáng (LS).

Bảng 2 cho thấy một tổng quan về các mô hình nền thống kê. Cột đầu tiên biểuthị tổng quan, cột thứ hai là tên của từng phương pháp. Từ viết tắt tương ứngcủa họ được ghi trong ngoặc đơn đầu tiên và số lượng giấy tờ được tính cho mỗiphương pháp trong ngoặc đơn thứ hai. Cột thứ ba cung cấp cho các tên của tácgiả đã thực hiện các ấn phẩm chính của phương pháp tương ứng và ngày công bố có

6 KHẢO SÁT TỔNG QUAN VỀ PHƯƠNG PHÁP TRỪ NỀN ĐỂ PHÁT HIỆN ĐỐI TƯỢNG TRONG VIDIEO

liên quan. Có thể thấy rằng MOG với 217 bài báo liên quan bởi vì nó là cơ sởphát triển thuật toán mạnh mẽ nhất.

Nội dung của các phương pháp ban đầu cho mỗi nhóm đã phân loại được trình bàycơ bản, những cải tiến liên quan của chúng được nhóm thành: cải tiến nội tại(khởi tạo, duy trì và phát hiện tiền cảnh) và những cải tiến bên ngoài(sử dụngcông cụ bên ngoài để thực hiện).

3. LOẠI THỨ NHẤT3.1. Gauss đơn (SG)

Wren và cộng sự [l3] đề xuất mô hình nền độc lập tại mỗi vị trí pixel (i,j).Mô hình này dựa trên lý tưởng lắp đặt một hàm mật độ xác suất Gauss trên cácgiá trị điểm ảnh cuối cùng n. Để tránh lắp đặt pdf từ đầu ở mỗi khung thời gianmới t +1, trung bình và phương sai được cập nhật như sau:

µt+1=(1-α)µt + αXt+1

σt+12 =(1−α)σt

2+α(Xt+1−μt+1)(Xt+1−μt+1 )T

với Xt+1 là giá trị điểm ảnh hiện tại, µt là giá trị trung bình trước đó, t làbiến trước đó và α là tỷ lệ học. Phát hiện tiền cảnh được thực hiện: nếu |µt+1-Xt+1|<T, điểm ảnh được phân loại là nền, ngược lại điểm ảnh được phân loại làtiền cảnh.

Cải tiến: Mdeioni và cộng sự [43] thực hiện trong không gian màu HSV (HueSaturation Value) thay vì RGB. Lợi thế mô hình không gian mà HSV là mạnh hơnđối với sự thay đổi ánh sáng dần dần (TD) bởi vì nó phân tách cường độ và thôngtin màu sắc. Hơn nữa, HSV cho phép loại bỏ một phần ngụy trang. Zhao và cộng sự[44] cũng sử dụng HSV đánh dấu các bản phân phối tương ứng với H và S khác nhaumột cách tự nhiên rất nhiều và sự phân bố của V là ổn định nhất. Vì vậy, cácthành phần H và S chỉ được sử dụng khi chúng được ổn định. Kết quả [44] chothấy hiệu suất tốt hơn trong sự hiện diện của những thay đổi dần dần chiếu sáng(TD) và bóng tối (S).

Bàn luận: Gauss đơn (SG) là phù hợp với cảnh trong nhà, nơi có sự thay đổiánh sáng vừa phải.3.2. Hỗn hợp Gauss (MOG)

Trong bối cảnh của hệ thống giám sát giao thông, Friedman và Russel [45] đềxuất mô hình mỗi điểm ảnh nền sử dụng một hỗn hợp ba Gaussian tương ứng vớiđường, xe và bóng. Mô hình này được khởi tạo bằng cách sử dụng thuật toán EM.Sau đó, Gauss được thực hiện dán nhãn một cách phỏng đoán như sau: các thànhphần đen nhất được dán nhãn là bóng tối, thành phần có phương sai lớn nhất đượcdán nhãn là xe và còn lại là đường. Điều này vẫn đúng đối với tất cả các quátrình thiếu thích ứng với những thay đổi theo thời gian. Để phát hiện tiềncảnh, mỗi điểm ảnh được so sánh với Gauss và được phân loại theo tương ứngGaussian. Việc duy trì được thực hiện bằng cách sử dụng thuật toán EM gia tăngđể xem xét thời gian thực. Stauffer và Grimson [14] khái quát ý tưởng này bằngcách mô hình các đặc trưng màu mỗi điểm ảnh {X1,..., Xt} bởi một hỗn hợp KGauss.

Nguyên tắc:Đầu tiên, mỗi điểm ảnh được đặc tả bằng cường độ của nó trong không gian màu

RGB. Tiếp theo, xác suất quan sát của giá trị điểm ảnh được xem xét bởi côngthức trong trường hợp đa chiều:

Nguyễn Văn Căn 7

P (Xt)=∑i=1

Kωi,tη (Xt,μi,t,Σi,t)

(1)với các tham số: K là số lượng phân bố, i,t là trọng số tương ứng với Gauss

thứ ith ở thời điểm t với trị trung bình µi,t và độ lệch chuẩn i,t, là hàm mậtđộ xác xuất Gauss:

η (Xt,μ,Σ )= 1(2π )n/2

|Σ|1/2e

−12 (Xt−μ)Σ−1 (Xt−μ)

(2)Vì lý do tính toán, Stauffer and Grimson [14] giả thiết rằng các thành phần

màu RGB là độc lập và có cùng sự biến đổi. Do vậy, ma trận hệ số có dạng:

Σi,t=σi,t2 I

(3)Như vậy, mỗi điểm ảnh đặc tả bằng một hỗn hợp K Gauss. Mỗi mô hình nền được

xác định, các tham số khác nhau của hỗn hợp Gauss phải được khởi tạo. Các thamsố của mô hình MOG là số lượng K Gauss, trọng số i,t tương ứng với Gauss thứ ith

ở thời điểm t, trị trung bình µi,t và ma trận hiệp phương sai i,t.Nhận xét:

- K xác định đa phương thức của nền và bằng bộ nhớ khả dụng và sức mạnh tínhtoán. Stauffer và Grimson [14] đề xuất K từ 3 đến 5.

- Việc khởi tạo trọng số, trung bình và ma trận hiệp biến được thực hiện bằngcách sử dụng thuật toán EM. Stauffer và Grimson [14] sử dụng thuật toán K-meanxem xét đối với thời gian thực.

Một khi các tham số khởi được khởi tạo, phát hiện tiền cảnh đầu tiên có thểđược thực hiện và sau đó các tham số được cập nhật. Thứ nhất, Stauffer vàGrimson [14] đã sử dụng như tiêu chí tỷ lệ rj=j/j và thế cho Gaussian K theotỷ lệ này. Để hỗ trợ một điểm ảnh nền tương ứng với trọng số cao với một biếnyếu do thực tế nền tăng hơn các đối tượng di chuyển và giá trị của nó là thựctế không đổi. Các bản phân phối Gaussian B đầu tiên vượt quá ngưỡng nhất định Tđược giữ lại cho phân phối nền:

B=argminb (∑i=1b ωi,t>T)

(4)Các phân bố khác được xem xét để diễn tả một phân bố tiền cảnh. Theo đó, khi

một khung hình mới xuất hiện ở thời điểm t+1, kiểm tra sự phù hợp được thựchiện cho mỗi điểm ảnh. Điểm ảnh phù hợp với phân bố Gauss nếu như

sqrt((Xt+1−μi,t)T.∑i,t

−1(Xt+1−μi,t ))<kσi,t

(5)với k là hằng ngưỡng theo phương trình 2.5. Tiếp theo, hai trường hợp có thể

xảy ra:- Trường hợp 1: Một sự phù hợp được tìm thấy với một K Gauss. Trong trường

hợp này, phân bố Gauss được xác định thì nó là nền, điểm ảnh được phân loại lànền, ngược lại điểm ảnh được phân loại tiền cảnh.

8 KHẢO SÁT TỔNG QUAN VỀ PHƯƠNG PHÁP TRỪ NỀN ĐỂ PHÁT HIỆN ĐỐI TƯỢNG TRONG VIDIEO

- Trường hợp 2: Không có sự phù hợp được chỉ ra với bất kỳ K Gauss. Trongtrường hợp này, điểm ảnh được phân loại là tiền cảnh.

Ở bước này, mặt nạ nhị phân được thiết lập. Vì đó, để tạo sự phát hiện tiềncảnh tiếp theo, các tham số phải được cập nhật. Sử dụng kiểm tra phù hợp (5),hai trường hợp có thể xảy ra trong khi phát hiện tiền cảnh:

Trường hợp 1: Sự phù hợp được tìm thấy một K Gauss.- Đối với thành phần phù hợp, cập nhật được thực hiện như sau:

i,t+1 = (1-α)i,t + α (6)với α là hằng tốc độ học.

µi, t+1 = (1-)µi,t + .Xt+1 (7)

σi,t+12 =(1−ρ)σi,t

2 +ρ(Xt+1−μi,t+1).(Xt+1−μi,t+1)T

(8)với = α(Xt+1, µi, i)- Đối với các thành phần không phù hợp, µ và không thay dổi, chỉ trọng số

được thay thế bằng:j,t+1 = (1-α)j,t (9)

Trường hợp 2: Không có sự phù hợp được tìm thấy với bất kỳ K Gauss nào. Trongtrường hợp này một phân bố xác suất bé nhất k được thay thế bởi một tham sốmới:

k,t+1 = trọng số thấp trước (10)µk,t+1 = Xt+1 (11)

σk,t+12 =

biến khởi tạo lớn (12)Một khi việc duy trì các thông số được thực hiện, phát hiện tiền cảnh có thể

được thực hiện và tiếp tục. Nghiên cứu đầy đủ về ý nghĩa và thiết lập các thôngsố có thể được tìm thấy trong [46, 47] [218] [289].

Cải tiến: Các MOG ban đầu thể hiện một số lợi thế. Chẳng hạn, nó có thể làmviệc mà không cần phải lưu trữ một bộ quan trọng của dữ liệu đầu vào trong quátrình chạy. Sự đa dạng của mô hình cho phép đối phó với nền đa phương thức vàthay đổi dần dần chiếu sáng. Mặc dù mô hình này còn có một số nhược điểm: sốGauss phải được xác định trước, cần thiết phải khởi tạo tốt, sự phụ thuộc củakết quả trên quy luật phân bố thực sự có thể là không Gauss và phục hồi lỗichậm. Những hạn chế khác như cần một loạt các bức ảnh đào tạo vắng mặt của đốitượng chuyển động và số lượng bộ nhớ cần thiết trong bước này. Để giảm bớtnhững hạn chế, nhiều cải tiến (217 bài báo) đã được đề xuất trong những năm gầnđây. Tất cả những cải tiến phát triển có thể được phân loại theo các chiến lượcvà một cuộc điều tra đầy đủ hơn 100 bài báo trong giai đoạn 1999-2007 có thểđược tìm thấy trong [48]. Sự cải tiến các phương pháp được phân loại thành:

- Cải tiến nội tại: Những chiến lược (Bảng 3) bao gồm được chặt chẽ hơn trongý nghĩa thống kê hoặc để giới thiệu hạn chế về không gian và / hoặc thời giantrong các bước khác nhau của mô hình. Ví dụ, một số tác giả [49-53] đề xuất đểxác định tự động và số lượng Gaussian động được mạnh mẽ hơn đối với nền động.Cách tiếp cận khác sử dụng thuật toán khác cho việc khởi tạo [54, 55] và chophép sự hiện diện của các đối tượng tiền cảnh trong chuỗi đào tạo [56, 57, 58].

Nguyễn Văn Căn 9

Để duy trì, tỷ lệ học là tập hợp tốt hơn [66, 67] hoặc thích ứng theo thời gian[60-62, 68-78]. Để phát hiện tiền cảnh, cải tiến tìm thấy trong tài liệu đượcthực hiện bằng cách sử dụng một biện pháp khác nhau cho các kiểm tra sự phù hợp[53, 79-82], sử dụng Bản đồ bền bỉ điểm ảnh (PPM) [75, 76, 83], bằng cách sửdụng xác suất [84, 85], sử dụng mô hình tiền cảnh [61,63,86], sử dụng một sốkiểm tra so khớp[39,60] và sử dụng mô hình nền chiếm ưu thế nhất [87, 88, 89].Đối với kích thước đặc trưng, độ rộng khối [90, 91] hoặc dộ rộng cụm [92] thìphương pháp tiếp cận mạnh mẽ hơn một điểm ảnh. Đối với các loại đặc trưng, mộtsố đặc trưng được sử dụng thay vì không gian RGB như đặc trưng màu sắc khácnhau [93-99], đặc trưng biên[100,101], đặc trưng kết cấu [102], đặc trưng âmthanh [103,104], đặc trưng không gian [105], đặc trưng chuyển động [40] và đặctrưng video [106]. Zheng và cộng sự [267, 268] kết hợp nhiều đặc tính như độsáng, độ kết tủa màu và thông tin lân cận. Các sáng chế gần đây tiếp cận khốiquan tâm khôn ngoan [352], đặc trưng kết cấu [353], đặc trưng chuyển động [354]và đặc trưng không gian[355]. Tổng quan về các đặc trưng khác nhau được sử dụngtrong tài liệu được thể hiện trong Bảng 5.

- Cải tiến bên ngoài: Một cách khác để nâng cao hiệu quả và mạnh mẽ của GMMban đầu bao gồm việc sử dụng các chiến lược bên ngoài (Bảng 4). Một số tác giảsử dụng trường ngẫu nhiên Markov (Markov Random Fields) [107-109], phương pháptiếp cận phân cấp [110-113], phương pháp tiếp cận đa cấp [100, 114-118], nềnphức hợp[119, 121], cắt giảm đồ thị[81], phương pháp tiếp cận nhiều lớp [122,123], theo dõi thông tin phản hồi [128, 129] hoặc đặc tả sau xử lý [130-131].Gần đây các sáng chế quan tâm đến cách tiếp cận cắt giảm đồ thị [3576, 357].

- Giảm thời gian tính toán: Tất cả các cải tiến bên trong và bên ngoài liênquan đến chất lượng của các phát hiện tiền cảnh nhưng có một cách để cải thiệnMOG ban đầu bao gồm trong việc giảm thời gian tính toán. Nó được thực hiện bằngcách sử dụng vùng quan tâm [132] [287], sử dụng một tỷ lệ biến đổi thíchứng[133], chuyển đổi mô hình nền[134] [271], sử dụng các chiến lược lấy mẫukhông gian [135] [216] [238] [272] hoặc sử dụng thực hiện phần cứng [136, 137][271].

- Tăng cường phát hiện tiền cảnh: Tất cả những cải tiến trước đây quan tâmtrực tiếp MOG ban đầu và kết quả phát hiện tiền cảnh chỉ từ nó. Nói cách kháccác phương pháp cải thiện nhằm nâng cao kết quả của việc phát hiện tiền cảnhbằng cách sử dụng phối hợp với một phương pháp phân đoạn. Nó đạt được bằng cáchhợp tác với kỹ thuật nền thống kê[138], với phân đoạn màu [139], và với pháthiện chuyển động dựa trên vùng[140]. Các tác giả khác sử dụng hợp tác với luồngquang học[217], so khớp khối [247-248], mô hình dự báo [249], các mô hình kếtcấu [251] [303], sự khác biệt khung liên tiếp [258] [261-262] [279-280] [282]và trừ nền cơ bản [304-305] [330]. Một sáng chế gần đây quan tâm đây hợp tácvới các số liệu thống kê lược đồ xám [358].

Bảng 6 và Bảng 7 chỉ ra tương ứng tổng quan về các tình huống quan trọngvà hạn chế thời gian thực đối với các phiên bản khác nhau của MOG có thể giảiquyết chúng tốt hơn so với bản gốc.

Bảng 3. Cải tiến nội tại của MOG)

10 KHẢO SÁT TỔNG QUAN VỀ PHƯƠNG PHÁP TRỪ NỀN ĐỂ PHÁT HIỆN ĐỐI TƯỢNG TRONG VIDIEO

Bảng 4. Cải tiến bên ngoài của MOG

Bảng 5. Cải tiến đặc trưng của MOG

Nguyễn Văn Căn 11

Bảng 6. Những thách thức và các phiên bản của MOG

Bảng 7. Những hạn chế thời gian thực và các phiên bản MOG

12 KHẢO SÁT TỔNG QUAN VỀ PHƯƠNG PHÁP TRỪ NỀN ĐỂ PHÁT HIỆN ĐỐI TƯỢNG TRONG VIDIEO

Bàn luận: Các hỗn hợp của Gaussian (MOG) thích nghi với cảnh ngoài trời, nơicó những biến đổi đa phương thức chậm trong nền. Đối với các nền động như máyảnh rung, cây vẫy tay và gợn sóng nước, mô hình này gây ra phát hiện sai.3.3. Ước tính mật độ lõi (KDE)

Để đối phó với các nền động như máy ảnh bị rung, cây đung đưa và mặt nước gợnsóng, Elgammal và cộng sự [15] đề xuất ước tính hàm mật độ xác suất cho mỗiđiểm ảnh bằng cách sử dụng ước lượng lõi K đối với N mẫu gần nhất của giá trịcường độ {x1, x2,..., xN} thực hiện liên tục trong một cửa sổ kích thước thờigian W như sau:

P (xt )=1N∑i=1

NK(xt−xi)

(13)với K() là hàm ước tính lõi sử dụng hàm Normal Gauss N(0,). Hàm xác suất mật

độ được xác định như sau:

p (xt )=1N∑i=1

N 1(2π )d /2

|Σ|1 /2e−1/2∗(xt−xi )

TΣ−1 (xt−xi )

(14)Elgammal và cộng sự [15] giả thiết rằng các kênh màu khác nhau là độc lập với độ

rộng băng thông, hàm mật độ lõi là:

Σ=(σ12 0 00 σ2

2 00 0 σ3

2)(15)

Hàm phân xác xuất mật độ có thể viết lại là:

P (xt )=1N∑i=1

N

∏j=1

d 1

√2πσj2e

−1/2∗(xt,j−xi,j)T /σj2

(16)Elgammal và cộng sự [15] phát hiện tiền cảnh sử dụng xác xuất và ngưỡng T

như sau:Nếu P(x) < T thì điểm ảnh được phần loại là tiền cảnh, ngược lại là nền

(17).Trong bước này, một mặt nạ nhị phân sẽ thu được. Theo đó, tạo phát hiện tiền

cảnh tiếp theo, các tham số phải được cập nhật. Đối với điều này, Elgammal vàcộng sự [15] sử dụng hai mô hình nền: ngắn hạn và dài hạn. Hai mô hình đạt đượcmục tiêu khác nhau:

- Mô hình ngắn hạn thích nghi một cách nhanh chóng cho phép phát hiện rấtnhạy cảm. Mô hình này bao gồm các nền N giá trị mẫu gần đây nhất. Các mẫu đượccập nhật bằng cách sử dụng một cơ chế duy trì có chọn lọc, nơi mà các quyếtđịnh dựa trên việc phân loại tiền cảnh.

- Mô hình dài hạn bắt một đại diện ổn định hơn của cảnh nền và thích nghi vớinhững thay đổi từ từ. Mô hình này bao gồm N mẫu ảnh lấy từ một cửa sổ lớn hơnnhiều trong thời gian. Các mẫu được cập nhật bằng cách sử dụng một cơ chế bảotrì không chọn lọc.

Nguyễn Văn Căn 13

Vì vậy, để kết hợp những lợi thế của mỗi mô hình và loại bỏ nhược điểm củanó, phát hiện tiền cảnh tiếp theo là thu được bằng cách lấy giao điểm của việcphát hiện hai tiền cảnh đến từ các mô hình ngắn hạn và mô hình dài hạn. Giaođiểm này giúp loại bỏ sự tồn tại sai tích cực phát hiện từ mô hình ngắn hạn vàthêm phát hiện sai tích cực xảy ra trong các kết quả mô hình dài hạn.

Chỉ tích cực phát hiện sai rằng sẽ vẫn sẽ là sự kiện hiếm hoi không đại diệncho một trong hai mô hình. Nếu sự kiện hiếm hoi này vẫn còn thời gian trongcảnh sau đó mô hình lâu dài sẽ thích nghi với nó, và nó sẽ bị dập tắt từ kếtquả sau đó. Tham gia các giao lộ, không may, ngăn chặn tích cực thực sự trongmô hình kết quả đầu tiên có âm tính giả trong lần thứ hai, bởi vì mô hình dàihạn thích nghi với tiền cảnh cũng như nếu họ cố định hoặc di chuyển chậm. Đểgiải quyết vấn đề này, tất cả các điểm phát hiện bởi các mô hình ngắn hạn màtiếp giáp với điểm ảnh phát hiện bởi sự kết hợp được bao gồm trong việc pháthiện tiền cảnh.

Cải tiến: KDE ban đầu có một số lợi thế. Các mở rộng của mô hình cho phép đốiphó với nền đa phương thức đặc biệt trong những thay đổi nhanh (cây đung đưa,nước gợn sóng...). Mặc dù, mô hình này còn bộc lộ một số nhược điểm: N khunghình cần phải được lưu giữ trong bộ nhớ trong suốt quá trình phát hiện đó làchi phí bộ nhớ lớn khi N lớn. Thuật toán tiêu thụ quá nhiều thời gian do sựphức tạp ở mức O(N*N). Để giải quyết vấn đề này, những cải tiến khác nhau đãđược đề xuất:

- Cải tiến bên trong: Những chiến lược này bao gồm việc thay đổi hàm hạt nhân[141-149] như thể hiện trong Bảng 8. Để huấn luyện, một số tác giả đề xuất giảmsố lượng các mẫu bằng cách xác định một kích thước thích hợp của bộ đệm khung[143], bằng cách sử dụng một chương trình lấy mẫu đa dạng [150,151] hoặc bằngcách sử dụng một trình tự lấy mẫu lược đồ Monte Carlo [152]. Một sáng kiến gầnđây quan tâm đến liên tiếp xấp xỉ mật độ hạt nhân thông qua chế độ truyềnthẳng[359]. Hơn nữa, duy trì đệ quy [143-145,153,154,159] có thể được áp dụngđể giảm thời gian tính toán. Để phát hiện tiền cảnh, các lược đồ khác nhau cóthể được sử dụng như trong [143, 146, 147, 153-155]. Đối với kiểu đặc trưng,một số đặc trưng được sử dụng thay thế không gian RGB như các đặc trưngbiên[156] và đặc trưng chuyển động[157]. Để lựa chọn đặc trưng sử dụng, Paragvà cộng sự [158] đề xuất một khung làm việc để chọn đặc trưng.

- Cải tiến bên ngoài: Một vài tác giả (bảng 9) sử dụng trường ngẫu nhiênMarkov[155,159], cách tiếp cận phân cấp[160], nền phức hợp[161] và cắtkhối[162].

- Tăng cường phát hiện tiền cảnh: Cách khác để cải tiến phương pháp này là tăngcường kết quả của phát hiện tiền cảnh bằng việc sử dụng hợp tác với phương phápphân đoạn khác. Nó thực hiện được bằng việc kết hợp với sự khác nhau các khungliên tục[ơ163] hoặc sử dụng cách tiếp cận học không gian con sử dụng PCA [164].

Bảng 8 và cho biết tồng quan về cải tiến nội tại và cải tiến bên ngoài. Bảng10 và bảng 11 chỉ ra một tổng quan về tình huống quan trọng và hạn chế thờigian thực đối với các phiên bản KDE khác nhau mà có thể làm cho chúng tốt hơnphiên bản gốc.

Bảng 8. Cải tiến nội tại của KDE

14 KHẢO SÁT TỔNG QUAN VỀ PHƯƠNG PHÁP TRỪ NỀN ĐỂ PHÁT HIỆN ĐỐI TƯỢNG TRONG VIDIEO

Bảng 9. Cải tiến bên ngoài KDE

Phương pháp Tác giả - tài liệuTrường ngẫu nhiên Markov

Pahalawatta [159]

Cách tiếp cận phân cấp

Orten [160]

Nền đa phương thức Tanaka [161]Cắt đồ thị Mahamud [162]

Bảng 10. Thách thức và các phiên bản của KDE

Tình huống quan trọng Tác giả - Tham khảo1. Nhiễu ảnh Mao và Shi [150, 151]2-1. Camera rung (jitter)

Sheihk và Shah [155]

2-2. Camera thay đổi phùhợp

Cvetkovic [147], Sung [347], Hwang [348]

3. Thay đổi ánh sáng dần dần

Sheihk và Shah [155]

4. Thay đổi ánh sáng độtngột

Sung [48], Hwang và cs. [49]

5-1. Chương trình mồi khi khởi tạo

Martel-Brisson và Zaccarin [346]

5-2. Chương trình mồi khi duy trì

Sheihk và Shah [155]

6. Sự ngụy trang Tavakkoli [142], Gu [345]7. Bắt giữ tiền cảnh8. Đối tượng nền chuyển động

Elgammal [15], Cvetkovic [147]

9. Đối tượng nền thêm vào

Nguyễn Văn Căn 15

10. Nền đa phương thức11. Đối tượng tiền cảnh đi bộ12. Đối tượng tiền cảnh ngủ13. Phát hiện bóng hình Elgammal [15], Cvetkovic

[147], Mao và Shi [150, 151]

Bảng 11. Làm giảm thời gian thực và các phiên bản KDE

Làm giảm thời gian thực

Tác giả - Tham khảo

Thời gian tính toán Elgammal [349], Sadeghi và CS. [350]

Yêu cầu bộ nhớ Elgammal [349], Sadeghi và CS [350]

Bàn luận: KDE thích hợp hơn đối với cảnh ngoài trời khi mà các nền động xuất hiện, nhưng ít phù hợp hơn với sự thay đổi ánh sáng3.4 Học không gian con sử dụng PCA (SL-PCA)

Học không gian con cung cấp một khung làm việc tốt để đối phó với những thayđổi ánh sáng vì nó cho phép tính thông tin không gian. Oliver và cộng sự [165]đề xuất mô hình cho mỗi điểm ảnh nền bằng cách sử dụng một mô hình nền đặctrưng (eigenbackground).

Mô hình này bao gồm việc lấy mẫu N ảnh {I1, I2, IN) và tính toán ảnh nền trungbình µB và ma trận hiệp phương sai CB.

Ma trận hiệp biến này sau đó được chéo hóa bằng cách sử dụng phân hủy giá trịđặc trưng (eigenvalue) như sau:

LB=ΦBCBΦBT

(18)với là ma trận véc tơ đặc trưng của hiệp phương sai dữ liệu và LB là ma

trận chéo hóa của giá trị đặc trưng.Để giảm bớt, số chiều của không gian, chỉ có M vector đặc trưng (M <N) được

lưu giữ trong phân tích thành phần chính (PCA). Giá trị đặc trưng lớn nhất M cóchứa trong ma trận ML và các vectơ M tương ứng với các giá trị đặc trưng lớnnhất M trong ma trận .

Mỗi khi những hình ảnh nền đặc trưng được lưu trữ trong ma trận M thu đượcvà cũng thu được giá trị trung bình B, ảnh đầu vào It có thể được xấp xỉ bằngnền trung bình và tổng trọng số của các đặc trưng nền M.

Trong trục tọa độ không gian nền đặc trưng ảnh đầu vào It có thể được tínhnhư sau:

wt=(It−μB)TΦM

(19)với w là hình chiếu sau trên không gian hình, một ảnh nền được xây dựng lại

tạo ra như sau:

16 KHẢO SÁT TỔNG QUAN VỀ PHƯƠNG PHÁP TRỪ NỀN ĐỂ PHÁT HIỆN ĐỐI TƯỢNG TRONG VIDIEO

Bt=ΦMwtT+μB (20)

Theo đó, phát hiện đối tượng tiền cảnh được thiết lập như sau:

|It−Bt|>T(21)

với T là hằng số ngưỡng.Cải tiến: Mô hình nền eigen (SL- PCA) cung cấp một mô hình hàm phân bố xác

suất nền, nhưng không phải của các đối tượng di chuyển trong khi chúng không cóđóng góp đáng kể cho mô hình. Vì vậy, hạn chế đầu tiên của mô hình này là kíchthước của đối tượng tiền cảnh phải nhỏ và không xuất hiện trong cùng một vị trítrong một thời gian dài trong chuỗi huấn luyện. Hạn chế thứ hai xuất hiện đểduy trì nền. Thật vậy, đó là tính toán chuyên sâu để thực hiện mô hình cập nhậtbằng cách sử dụng chế độ hàng loạt PCA. Hơn nữa không có một cơ chế phân tíchmạnh mẽ, các giá trị ngoại lai hoặc đối tượng bề mặt có thể được hấp thu vào môhình nền. Hạn chế thứ ba là việc áp dụng mô hình này chủ yếu giới hạn ở nhữnghình ảnh màu xám quy mô kể từ khi tích hợp dữ liệu đa kênh là không đơn giản.Nó liên quan đến không gian chiều cao hơn nhiều và gây khó khăn thêm để quản lýdữ liệu nói chung. Một hạn chế khác là các đại diện không được thay đổi đaphương thức chiếu sáng khác nhau nên không thể được xử lý một cách chính xác.Để giảm bớt những hạn chế, nhiều cải tiến (25 bài báo) đã được đề xuất trongnhững năm gần đây. Một cuộc khảo sát trên 15 bài báo trong giai đoạn 1999-2009có thể được tìm thấy trong [334]. Do đó, những cải tiến khác nhau mà cố gắng đểgiải quyết bốn hạn chế được tóm tắt trong việc phân loại sau đây với những tiếnbộ gần đây:

- Giảm giới hạn về kích thước của các đối tượng tiền cảnh: Xu và cộng sự[166, 167] đề xuất áp dụng một quy trình đệ quy bù lỗi làm giảm ảnh hưởng củacác đối tượng di chuyển trên mô hình nền eigen. Một phương pháp ngưỡng thíchnghi cũng được giới thiệu cho phép trừ nền, ngưỡng được xác định bằng cách kếthợp ngưỡng toàn cục cố định và ngưỡng cục bộ biến đổi. Kết quả thấy tốt hơntrong sự hiện diện của các đối tượng di chuyển. Một cách tiếp cận phát triểnbởi Kawabata và cộng sự [168] bao gồm phương pháp lặp tối ưu hình chiếu để ướctính nền trong thời gian thực từ một cảnh động với tiền cảnh. Thứ nhất, hìnhảnh nền được thu thập trong một thời gian và sau đó là hình ảnh nền được nénbằng cách sử dụng phương pháp không gian riêng để tạo thành một cơ sở dữ liệu.Sau khi khởi tạo này, một hình ảnh mới được thực hiện và chiếu lên không gianriêng để ước tính nền. Như hình ảnh ước tính là nhiều bị ảnh hưởng bởi nềntrước, khu vực phía trước được tính bằng cách sử dụng nền trừ với cựu nền ướctính để loại trừ khu vực từ chiếu. Do đó, hình ảnh mà khu vực phía trước đượcthay thế bởi nền cũ được dự eigenspace và sau đó nền được cập nhật.

Kawabata và cộng sự [25] đã chứng minh rằng chu kỳ hội tụ đến một hình nềnchính xác. Gần đây, Quivy và Kumazawa [351] đề xuất để tạo ra các hình ảnh nềnbằng cách sử dụng Nelder - Mead Simplex thuật toán và một thủ tục mặt nạ năngđộng. Bài viết này trình bày một phương pháp ban đầu có thể thay thế bước chiếu/ tái thiết của SL- PCA bởi một thế hệ trực tiếp hình ảnh nền. Các thí nghiệmđã chứng minh rằng phương pháp đề xuất thực hiện tốt hơn sau đó so với SL-PCA[165], SL-REC[166,167], và SL-IOP[168] cho các đối tượng lớn và di chuyểnnhanh.

- Đối phó với yêu cầu thời gian và tốc độ: Đối với việc cải tiến, một số tácgiả [169-177] đề xuất các thuật toán khác là PCA gia tăng. PCA gia tăng [169]

Nguyễn Văn Căn 17

cần ít tính toán nhưng hình ảnh nền được gây nhiễu bởi các đối tượng tiền cảnh.Để giải quyết điều này, Li và cộng sự [170, 171] đề xuất một PCA gia tăng khắcphục sự hiện diện của bên ngoài. Tuy nhiên, khi duy trì mô hình nền được cậpnhật từng bước, nó xác định cùng trọng số với các khung hình khác nhau. Nhưvậy, khung sạch và khung có chứa đối tượng bề mặt có đóng góp như nhau. Hậu quảlà tình trạng ô nhiễm tương đối của các mô hình nền. Trong bối cảnh này, Skocajvà cộng sự [172, 173] được sử dụng một trọng số gia tăng và mạnh mẽ. Trọng sốkhác nhau đối với các khung và phương pháp này đạt được mô hình nền tốt hơn.Tuy nhiên, trọng số được áp dụng cho toàn bộ khung mà không xem xét sự đóng gópcủa các bộ phận hình ảnh khác nhau để xây dựng mô hình nền. Để đạt được độchính xác pixel khôn ngoan đối với khối lượng, Zhang và Zhuang [174] đề xuấtmột lựa chọn trọng thích nghi cho một PCA gia tăng. Phương pháp này thực hiệnmột mô hình tốt hơn bằng cách chỉ định một trọng số cho mỗi điểm ảnh tại mỗikhung hình mới trong bản cập nhật. Thí nghiệm [174] cho thấy phương pháp nàyđạt được kết quả tốt hơn so với SL- IRPCA [170, 171]. Wang và cộng sự [175,176] được sử dụng một cách tiếp cận tương tự bằng cách sử dụng thuật toánKarhunen - Loeve tuần tự. Gần đây, Zhang và cộng sự [209] cải thiện phương phápnày với một chương trình thích ứng. Tất cả những phương pháp gia tăng tránhphân hủy riêng của ma trận hiệp phương sai chiều cao sử dụng xấp xỉ của nó vàdo đó, một phân hủy thấp được cho phép ở bước bảo trì có tải trọng ít hơn tínhtoán. Tuy nhiên, các phương pháp gia tăng duy trì toàn bộ cấu trúc riêng(eigenstructure) bao gồm cả giá trị riêng và chính xác ma trận M. Để giảiquyết vấn đề này, Li và cộng sự [177] đề xuất một đệ quy và mạnh mẽ duy trì nềnriêng nhanh tránh phân hủy riêng. Phương pháp này đạt được kết quả tương tự sovới SL-IPCA [169] và SL-IRPCA [170, 171] tại tỷ lệ khung tốt hơn. Hình 4 chothấy một phân loại các thuật toán mạnh mẽ và thích nghi.

- Đối phó với các quy mô mức xám và những hạn chế pixel khôn ngoan: Gần đây,Wu và cộng sự [207] đề xuất để kết hợp mô hình PCA với mô hình Gaussian đơn.PCA cho phép sự vững mạnh để thay đổi chiếu sáng và Gaussian đơn để mô tả thôngtin màu sắc cho mỗi điểm ảnh. Vì vậy, nó có thể phát hiện những thay đổi sắc độvà loại bỏ bóng pixel. Một chiến lược thích nghi được sử dụng để tích hợp haimô hình. Cắt biểu đồ nhị phân được sử dụng để thực hiện phân đoạn tiềncảnh/nền. Theo cách khác, Han và Jain [178] đề xuất một thuật toán hiệu quả sửdụng gia tăng trọng số 2-D phân tích thành phần chính. Nó chỉ ra rằng thànhphần chủ yếu trong 2DPCA được tính hiệu quả bằng cách chuyển đổi tiêu chuẩnPCA. Thực hiện thời gian tính toán, Han và Jain [178] được sử dụng thuật toángia tăng để cập nhật vector riêng để xử lý các biến thời gian của nền. Đề xuấtthuật toán áp dụng cho dữ liệu 3 kênh (RGB) và 4 kênh (RGB + IR).

Hình 4. Sự thích nghi của thuật toán SL-PCA

Kết quả cho thấy những cải tiến đáng chú ý trong sự hiện diện của nền đaphương thức (MB) và bóng tối (S). Để giải quyết những hạn chế pixel khôn ngoan,Zhao và cộng sự [206] được sử dụng khối không-thời gian thay vì pixel. Hơn nữa,phương pháp của họ bao gồm trong việc áp dụng thuật toán gia tăng phân tíchthành phần chính hiệp phương sai tự do (CCIPCA) tốc độ hội tụ nhanh và tính

18 KHẢO SÁT TỔNG QUAN VỀ PHƯƠNG PHÁP TRỪ NỀN ĐỂ PHÁT HIỆN ĐỐI TƯỢNG TRONG VIDIEO

toán phức tạp ít hơn các thuật toán IPCA cổ điển. Kết quả cho thấy hơn mạnh mẽvới nhiễu và sự thay đổi ánh sáng nhanh chóng.

- Đối phó với những thay đổi ánh sáng đa phương thức: Gần đây, Dong và cộng sự [211]đề xuất sử dụng một đa không gian con huấn luyện để xử lý thay đổi chiếu sángkhác nhau. Không gian đặc trưng được tổ chức thành các cụm đại diện cho cácđiều kiện ánh sáng khác nhau. Chuyển đổi phân tích thành phần cục bộ (LPCA)được sử dụng để huấn luyện phân tách không gian con riêng cho mỗi cụm. Khi mộthình ảnh hiện tại đến, các thuật toán lựa chọn không gian con học với sự chiasẻ điều kiện ánh sáng gần nhất. Kết quả [211] cho thấy thuật toán LPCA nhanhhơn so với thuật toán ban đầu PCA[165] và MOG [14] đặc biệt là dưới ánh sángthay đổi đột ngột. Một cách tương tự, Kawanishi và cộng sự [213-214] tạo ra ảnhnền mà cũng thể hiện thời tiết và các điều kiện ánh sáng của cảnh. Phương phápnày thu thập một số lượng lớn các hình ảnh bằng cách giám sát hạn siêu dài,phân loại chúng theo thời gian trong ngày, và áp dụng PCA để tái tạo lại hìnhảnh nền. Một mối quan tâm bằng sáng chế gần đây, một phương pháp dựa trên khônggian - thời gian khối video và không gian con học tập trực tuyến [360]. Phươngpháp này cho phép một cập nhật gia tăng mạnh mẽ và làm giảm bớt những hạn chếpixel khôn ngoan. Bảng 12, Bảng 13, Bảng 14 và Bảng 15 nhóm theo loại những cảitiến khác nhau của SL- PCA.

Bảng 12. Ảnh hưởng của các đối tượng trên nền

Phương pháp Tác giả - ngàyBù lỗi đệ quy (SL-REC) Xu và cộng sự. (2006)

[166, 167]Chiếu tương tác tối ưu (SL-IOP) Kawabata và cộng sự.

(2006) [168]Thuật toán Simplex (SL-SA) Quivy và Kumazawa (2011)

[351]Bảng 13. Yêu cầu về thời gian và mức độ mạnh mẽ

Phương pháp Tác giả - ngàyGia tăng PCA (SL-IPCA) Rymel và cộng sự. (2004)

[169]Gia tăng và mạnh mẽ PCA (SL-IRPCA) Li và cộng sự. (2003)

[170,171]Gia tăng trọng số và mạnh mẽ PCA (SL-AWIRPCA)

Skocaj và cộng sự. (2003)[172, 173]

Thuật toán chuỗi Karrhunen-Loeve (SL-ASKL)

Zhang và Zhuang (2007) [174]

Thuật toán chuỗi Karrhunen-Loeve thích ứng (SL-ASKL)

Zhang và cộng sự. [209]

Duy trì đệ quy nhanh (SL-FRM) Li và cộng sự. (2006) [177]

Bảng 14. Giải quyết với mức xám và hạn chế điểm ảnh

Phương pháp Tác giả - ngàyGauss đơn PCA (SL-PCA-SG) Wu và cộng sự. (2009)

[207, 208]Gia tăng trọng số 2PCA (SL-WI2DPCA)

Han và Jain (2007) [178]

Nguyễn Văn Căn 19

Hiệp biến gia tăng thẳng (SL-CCIPCA)

Zhao và cộng sự. (2008) [206]

Bảng 15. Đối phó với các thay đổi ánh sáng nhiều mức

Phương pháp Tác giả - NgàyPhân tích thành phần chính cục bộ trêncụm (LPCA-C)

Dong và cộng sự. (2010) [211,212]

Phân tích thành phần chính cục bộ trêndãy phân tách (LPCA-SS)

Kawanishi và cộng sự. (2009) [213-214]

3.5. Bàn luậnTrong phần 3, khảo sát các mô hình của loại thứ nhất và cải tiến liên quan

của chúng. Những cải tiến thực hiện mỗi thuật toán ban đầu cho các tình huốngquan trọng quy định. Tuy nhiên, một số tác giả gần đây đã đề xuất sử dụng môhình thống kê tiên tiến hơn như mô hình hỗ trợ véc tơ để giải quyết chính xáchơn với nền động.

4. LOẠI THỨ HAICác mô hình thể loại thứ hai sử dụng mô hình thống kê phức tạp hơn như máy hỗ

trợ vector (SVM), hỗ trợ vector hồi quy (SVR) và vector hỗ trợ mô tả dữ liệu(SVDD).4.1. Máy hỗ trợ véc tơ (SVM)

Máy hỗ trợ vector đã được giới thiệu bởi Vapnik và cộng sự [179]. Để phânloại, các SVM làm việc bằng cách xác định một siêu phẳng trong không gian đặctrưng kích thước cao để tách các dữ liệu huấn luyện thành hai lớp. Các siêuphẳng tốt nhất có thể được dẫn suất bằng cách cực tiểu mép thẻ hiện là khoảngcách bé nhất là từ siêu phẳng tới dữ liệu. Sử dụng khía cạnh phân loại này, Linvà cộng sự [180] đề xuất sử dụng SVM cho mô hình nền. Đặc biệt, Lin và cộng sự[180] sử dụng PSVM với kết quả đầu ra theo xác suất vì SVM chỉ cho phép đầu ranhị phân. Mô hình sigmoid được sử dụng để chuyển đổi điểm số nhị phân SVM sangxác suất hậu:

p (y=1|f)= 11+exp(Af+B)

(22)trong đó y là nhãn lớp nhị phân và f là một điểm đầu ra của hàm quyết định

SVM. Hai tham số A và B được trang bị sử dụng ước tính khả năng tối đa từ tậphuấn luyện (fi, yi), và dẫn suất bằng cách cực tiểu hàm log khả năng tiêu cực:

min−∑ttilog(pi)+(1−ti)log(1−pi)

(23)

ti=yi+12

, pi=1

1+exp (Afi+B )(24)

Để tránh sự đồng điệu và huấn luyện không lệch, một tập hold-out được tổnghợp từ tập dữ liệu bằng cách chia tập huấn luyện thành 2 phần 80% và 20%. Tậpcon lớn sử dụng SVM huấn luyện, tập nhỏ sử dụng cho cực tiểu hai tham số. Trongbối cảnh này, Lin và cộng sự [180] sử dụng 100 hình ảnh có kích thước 160*120với nền đã biết. Mỗi ảnh được chia thành khối kích thước 4*4 và xem xét hai đặctrưng cho mỗi khối: giá trị quang và sự khác biệt hình ảnh liên tiếp. Mỗi khối,

20 KHẢO SÁT TỔNG QUAN VỀ PHƯƠNG PHÁP TRỪ NỀN ĐỂ PHÁT HIỆN ĐỐI TƯỢNG TRONG VIDIEO

được gan nhãn là 1 cho nền và -1 ngược lại. Khởi tạo nền bắt đầu với ảnh đầutiên và mỗi khối được kiểm tra bởi PSVM. Một khối hình được phân loại là nềnnếu đầu ra xác suất của nó lớn hơn một ngưỡng T:

p (bi )>T(25)

Khi khối ảnh p(bi)>T thì được phân loại là nền đối với việc lặp M lần, khoảngcách tuyến tính Fisher được sử dụng:

d (bi,bback )=(μi−μback )2

(σi2−σback2 )(26)

với µ và 2 là trung bình và phương sai của phân bố cường độ của một khối.Khi khoảng cách giữa hai khối là lớn, hai điều kiện có thể xuất hiện. Khối

hiện nay có thể là một phần của một khu vực thống nhất của một đối tượng dichuyển hoặc là nền mới xuất hiện. Xác suất trung bình PSVM khối hiện so với Mkhung hình trước được so sánh với xác suất PSVM của nền. Nếu xác suất trungbình mới PSVM lớn hơn, thì nền được thay thế bằng khối hiện tại.

Tiếp tục theo cách này, quá trình khởi tạo sẽ được chấm dứt khi các sự kiệnthay thế không xảy ra đối với một dãy M khung hình liên tiếp. Khi khởi tạoxong, phát hiện tiền cảnh được thực hiện bởi ngưỡng sự khác biệt giữa mô hìnhnền và hình ảnh hiện tại.4.2. Hỗ trợ véc tơ hồi quy (SVR)

Cho một tập hợp các dữ liệu huấn luyện, SVR phù hợp hàm bằng cách xác địnhmột ràng buộc trên một phần nhỏ của dữ liệu huấn luyện được phép nằm ngoài mộtkhoảng cách ε từ ước tính hồi quy. Đây là loại SVR là thường được gọi là ε-SVRkhông nhạy cảm[181]. Đối với mỗi điểm ảnh thuộc nền, một SVR riêng biệt được sửdụng để mô hình nó như là một hàm cường độ. Để phân loại một điểm ảnh là nềnhay không, Wang và cộng sự [183] [184] nạp giá trị cường độ của nó cho SVR liênquan và ngưỡng đầu ra của SVR. Hãy giả sử một tập hợp các dữ liệu huấn luyệncho một số điểm ảnh p thu được từ một số bức hình {(x1, y1),..., (xN, yN)}, trongđó xi tương ứng với giá trị cường độ của điểm ảnh p tại khung i, và yi tương ứngsự tự tin của điểm ảnh p là một điểm ảnh nền. Một khi SVR đã được học, sự tựtin f (xi) của các điểm ảnh p trong một khung mới i, được tính bằng cách sử dụnghàm hồi quy tuyến tính:

f (xi)=∑j=1

N

(ai−aj¿ )k (xi,xj)+ξ(27)

k(xi, xj) là một hàm hạt nhân. Các tham số a, a* và ξ, được gọi là nhân tửLagrange, thu được bằng cách giải bài toán tối ưu sử dụng phương pháp nhân tửLagrange. Với mô hình nền dựa trên SVR, cường độ của mỗi điểm ảnh trong mộtkhung hình mới làm đầu vào cho SVR. Đầu ra của SVR cho một sự khẳng định điểmảnh thuộc về nền hay không. Điểm ảnh được dán nhãn là nền nếu đầu ra của SVR làgiữa ngưỡng thấp và ngưỡng cao (Sl và Sh). Đặc biệt một bản đồ phát hiện tiềncảnh nhị phân được hình thành ở khung t như sau:

Mxit =0 khi Sl ¿f(xi)<Sb

Mxit =1 ngoài ra

(28)

Nguyễn Văn Căn 21

Với f(xi) là đầu ra của SVR và {Sl,Sb} là ngưỡng khởi tạo. Đối với mỗi vùngtrong bản đồ nhị phân, mô hình nền dựa trên SVR được cập nhật bằng cách sử dụngthuật toán học SVR online [182].4.3. Mô tả dữ liệu hỗ trợ véc tơ (SVDD)

Tavakkoli và cộng sự [186] đề xuất mô hình nền bằng cách sử dụng mô tả dữliệu hỗ trợ vector (SVDD) trong video với nền tĩnh gần như đứng yên. Mô tả miềndữ liệu liên quan đến đặc tính của tập dữ liệu [185]. Bao của bộ dữ liệu có thểđược sử dụng để phát hiện dữ liệu mới hoặc giá trị ngoại lai. Mô tả dữ liệuthông thường có một ranh giới khép kín xung quanh các dữ liệu. Ranh giới đơngiản nhất có thể được diễn tả bởi một siêu hình cầu. Thể tích của siêu hình cầuvới trung tâm là a và bán kính R là cực tiểu trong khi chứa tất cả các mẫu huấnluyện xi. Để cho phép khả năng xuất kết quả trong tập huấn luyện, biến εi đượcgiới thiệu. Hàm lỗi là cực tiểu thiểu được định nghĩa là:

F(R,a) =R2 + C εi (29)với ràng buộc:

‖xi−a‖2≤R2+εi ∀i(30)

Nhân tử Lagrange:

L (R,a,αi,γi,εi)=R2+C∑iεi−∑ αi(R2+εi−(‖xi−a‖2))−∑

iγiεi

(31)L là đạt max đối với nhân tử Lagrange αi>=0 và γi >=0 và min đối với R, a và

εi. Nhân tử Lagrange γi có thể được loại bỏ nếu các hạn chế 0 ≤ αi ≤ C được ápdụng. Sau khi giải quyết vấn đề tối ưu hóa chúng ta có:

L=∑iαi (xi.xi)−∑

i,jαiαj (xi.xj ), ∀αi:0≤αi≤C

(32)Khi một mẫu mới đáp ứng sự bất bình đẳng trong (30), sau đó nhân tử Lagrange

tương ứng của nó là αi 0, nếu không thì bằng không. Do đó chúng ta có:

‖xi−a‖2<R2→αi=0,γi=0‖xi−a‖2>R2→αi=C,γi>0

(33)Ở trên, chúng ta có thể nhận xét rằng chỉ có các mẫu với giá trị αi không âm

là cần thiết trong mô tả của bộ dữ liệu, do đó chúng được gọi là vectơ hỗ trợcủa mô tả. Để kiểm tra một mẫu y mới, khoảng cách của nó đến trung tâm của siêuhình cầu được tính toán và kiểm tra đối với R. Tavakkoli và cộng sự [186] sửdụng phương pháp này để xây dựng một đường biên giới mô tả cho mỗi điểm ảnhtrong khung đào tạo nền tảng để tạo ra mô hình của nó cho nền. Sau đó, nhữngranh giới này được sử dụng để phân loại các điểm ảnh tương ứng của họ trongkhung hình mới như nền và ảnh nền trước. Trong thực tế, đối với mỗi điểm ảnhtrong khung cảnh một lớp phân loại duy nhất được đào tạo bằng cách sử dụng cácgiá trị của nó trong khung đào tạo nền. Phân loại này bao gồm ranh giới mô tảvà vectơ hỗ trợ, cũng như một ngưỡng được sử dụng để mô tả dữ liệu. Để pháthiện tiền cảnh, mỗi điểm ảnh trong khung hình mới được phân loại là nền hoặc

22 KHẢO SÁT TỔNG QUAN VỀ PHƯƠNG PHÁP TRỪ NỀN ĐỂ PHÁT HIỆN ĐỐI TƯỢNG TRONG VIDIEO

tiền cảnh sử dụng giá trị của nó và phân loại tương ứng của nó từ giai đoạn đàotạo. Vector xij được sử dụng trong việc thực hiện hiện nay là xij=[Cr;Cg], trongđó Cr và Cg là những giá trị sắc tố màu đỏ và màu xanh lá cây cho điểm ảnh (i,j).

Cải tiến: Mô hình này trình bày một số ưu điểm: Độ chính xác không bị giớihạn về tính chính xác của hàm mật độ xác suất ước tính và yêu cầu bộ nhớ ít hơncác kỹ thuật phi tham số. Vì vector hỗ trợ mô tả dữ liệu một cách rõ ràng môhình đường biên quyết định của lớp được biết đến, nó phù hợp cho phát hiện mớilạ mà không cần phải sử dụng ngưỡng. Hơn nữa, việc thực hiện phân loại về dươngtính giả được điều khiển một cách rõ ràng. Những bất lợi chính là việc đào tạoSVDD đòi hỏi một tối ưu hóa Lagrange đó là tính toán chuyên sâu. Để duy trì,tất cả các SVDD phải được tính toán lại. Để thực hiện việc đào tạo, Tavakkolivà cộng sự [187] đề xuất sử dụng một phương pháp di truyền để giải quyết tối ưuhóa vấn đề Lagrange. Các thuật toán di truyền (GA) bắt đầu với dự đoán ban đầuvà giải quyết vấn đề tối ưu hóa lặp. Trong [188] [189], Tavakkoli và cộng sự đềxuất sử dụng một SVDD gia tăng. Bằng cách này, việc quá trình duy trì được thựchiện.4.4. Bàn luận

Mô hình hỗ trợ vector cung cấp một khung làm việc tốt cho mô hình nền đặcbiệt trong sự hiện diện của những thay đổi ánh sáng và hình nền động. Một cáchkhác để mô hình nền là để thực hiện các hạng mục đầu tiên bằng cách sử dụng mộtmô hình thích nghi hơn.

5. PHÂN NHÓM THỨ BACác mô hình loại thứ ba tổng hợp mô hình loại đầu tiên là Gauss đơn tổng hợp

(SGG), hỗn hợp Gauss tổng hợp (MOGG) và học không gian con sử dụng gia tăngphân tích thành phần (SL-ICA), gia tăng ma trận hệ số không âm (SL-INMF) hoặcgia tăng thứ hạng Tensor-(R1, R2, R3) (SL-IRT).5.1 Tổng hợp Gauss đơn (SGG)

Kim và cộng sự [190-192] đề xuất mô hình nền bằng cách sử dụng một họ mô hìnhGauss tổng quát (GGF) phân phối để đối phó với các vấn đề từ những thay đổikhác nhau trong nền và bóng tối. Ý tưởng là điểm ảnh thay đổi phù hợp khi vớiLaplace khi với Gauss. Thật vậy, điểm ảnh biến đổi trong một cảnh tĩnh theothời gian trong những cảnh trong nhà được chụp bằng máy ảnh mới nhất là gần gũihơn với một phân phối Laplace hơn một Gaussian, nhưng mô hình Laplace có hạnchế khi sử dụng trong các môi trường khác nhau. Sự thay đổi điểm ảnh trong mộtkhung cảnh tĩnh theo thời gian được định nghĩa là:

P (Xt)=ργ

2Γ (1/ρ )e−(γp|x−μ|p ) , γ=

1σ (Γ (3 /ρ)

Γ (1 /ρ) )(34)

với () là hàm gamma và 2 là biến phân bố. Trong phương trình (1) 1 diễn tảmột phân bố Laplace trong khi đó 2 diễn tả một phân bố Gauss. Các mô hìnhđược mô tả đối với mỗi điểm ảnh bằng việc tính toán chính xác độ nhọn dư thừa g2

của m khung đầu tiên. Độ nhọn của phân bố Laplace và Gauss tương ứng với 3 và0. Các tham số tối ưu của mô hình nền được tính toán bằng max của hàm quan sátgiá trị:

Nguyễn Văn Căn 23

g2=N∑i=1

N

(xi−μ )4

(∑i=1

N

(xi−μ)2)−3

(35)Trong thực tế, Kim và cộng sự [190-192] mô hình nền trong hai phần: một thành

phần độ sáng thu được bằng trung bình có trọng số của các kênh RGB và một thànhphần màu trong không gian màu HSI. Việc duy trì được thực hiện bằng cách sửdụng trung bình chạy chọn lọc như trong [13]. Phát hiện tiền cảnh lần đầu tiênđược thực hiện bằng cách trừ đi các thành phần cường độ của khung hình hiện tạitừ mô hình nền:

D(x,y) = |I(x,y)-B(x,y)| (36)với I(x, y) and B(x, y) tương ứng với nhau độ sáng của khung hình hiện tại và

mô hình nền. Sau đó, điểm ảnh được phân loại thành ba loại sử dụng hai ngưỡngnhư sau:

Điểm ảnh nền nếu D(X,y)< T1k(x,y)Điểm ảnh đáng ngờ nếu T1k(x,y) ≤ D(X,y)< T2k(x,y)Điểm ảnh tiền cảnh nếu T2k(x,y) ≤ D(X,y) (37)với k(x,y) là tham số tỷ lệ. Các ngưỡng T1, T2, T3 được xác định bằng cách sử

dụng khung huấn luyện. SGG chỉ ra sự thực hiện tốt hơn MOG và KDE trong cảnhmôi trường trong nhà và ngoài trời.5.2. Hỗn hợp Gauss tổng quát (MOGG)

Allili và cộng sự. [193-195] đề xuất một mô hình hỗn hợp hữu hạn các Gaussianchung của phân khúc mạnh mẽ trong sự hiện diện của nhiễu và sự chênh lệch. Môhình này có tính linh hoạt hơn để thích ứng với hình dạng của dữ liệu và ítnhạy cảm hơn-phù hợp số lớp so với hỗn hợp Gaussian. Mỗi điểm ảnh được đặctrưng bởi cường độ của nó trong không gian màu RGB. Sau đó, xác suất quan sátcác giá trị điểm ảnh hiện tại được coi cho bởi công thức sau đây trong trườnghợp đa chiều:

P (Xt)=∑i=1

Kωi,t.η (Xt,μi,t,σi,t,λi)

(38)với các tham số: K là số lượng phân phối, i,t là trọng số liên quan đến các

Gauss thứ i tại thời điểm t với trung bình µi,t và độ lệch chuẩn i,t. =0 nếuphân phối là một trong những Gauss và =3 nếu phân phối là một trong nhữngLaplace. là một hàm mật độ xác suất Gauss:

η (Xt,μi,t,σi,t,λi)=∏j=1

dA (λj)exp(−B (λj)|

Xj−μjσj

|λj)

A (λ )= (Γ (3 /λ )/Γ (1/λ ) )1/λ

2σΓ (1 /λ ), B (λ )=(Γ (3 /λ )

Γ (1 /λ ))(39)

24 KHẢO SÁT TỔNG QUAN VỀ PHƯƠNG PHÁP TRỪ NỀN ĐỂ PHÁT HIỆN ĐỐI TƯỢNG TRONG VIDIEO

Số lượng tối ưu của Gaussian được tính toán tại mỗi thời điểm t bằng độ dàithông điệp cực tiểu (MML). Nếu số Gaussian tại thời điểm t +1 là nhỏ hơn so vớitại thời điểm t, các thông số được cập nhật tương tự trong[14]. Các kiểm traphù hợp giống như trong [14] được sử dụng để kiểm tra xem một điểm ảnh phù hợpvới một Gaussian. Đối với việc ghi nhãn, các lược đồ tương tự như Stauffer vàGrimson [14] được sử dụng. Các MOGG cho thấy hiệu suất tốt hơn so với MOG trongsự hiện diện của bóng tối (S).5.3. Học không gian con

Học không gian con có thể được thực hiện bằng cách sử dụng PCA như đã thấytrong Phần 3.4. Trong tài liệu [196], có những phương pháp khác để giảm khônggian và các phương pháp khác nhau đã được phân loại theo Skocaj và Leonardis[197] như phương pháp tái tạo và các phương pháp phân biệt đối xử:

- Huấn luyện không gian con tái tạo: Các phương pháp tái tạo cho phép một xấp xỉ dữliệu tốt và do đó cung cấp sự tái tạo tốt. Một lợi thế của phương pháp tái tạolà kỹ thuật không giám sát. Hơn nữa, phương pháp tái tạo cho phép cập nhật giatăng mà là rất thích hợp cho các ứng dụng thời gian thực. Những phương pháp nàylà nhiệm vụ độc lập. Các phương pháp tái tạo phổ biến nhất như: phân tích thànhphần chính (PCA) [51], phân tích thành phần độc lập (ICA) [52] và ma trận phầntử không âm (NMF) [53]. PCA biến đổi một số dữ liệu có thể liên quan thành mộtsố lượng nhỏ dữ liệu không tương quan gọi là thành phần chủ yếu. ICA là mộtbiến thể của PCA trong đó các thành phần được giả định là thống kê độc lập thayvì chỉ đơn thuần là không tương quan. Điều kiện mạnh mẽ cho phép loại bỏ cácbất biến quay của PCA,... ICA cung cấp một phân hủy nửa tuyến tính có ý nghĩađộc đáo của hai chiều dữ liệu có thể được coi là một hỗn hợp tuyến tính của mộtsố nguồn tín hiệu độc lập. Ma trận phần tử không âm (NMF) tìm thấy biểu diễntuyến tính của dữ liệu không âm. Cho một ma trận dữ liệu không âm V, NMF tìmphần tử xấp xỉ V=WH với yếu tố không âm W và H. Những hạn chế không tiêu cựclàm cho biểu diễn hoàn toàn phụ, tức là sự cho phép không trừ, trái ngược vớiphân tích thành phần chính (PCA) và phân tích thành phần độc lập (ICA).

- Học không gian con phán đoán: Các phương pháp phán đoán là kỹ thuật giám sát vàcho phép tách biệt tốt dữ liệu và do đó cung cấp phân loại tốt. Hơn nữa, phươngpháp phán đoán là phân tách và tính toán hiệu quả. Nhiệm vụ của những phươngpháp này là độc lập. Các phương pháp phán đoán phổ biến như: Phán đoán phântích tuyến tính (LDA)[54] và phân tích tương quan kinh điển (CCA) [55]. LDAchiếu dữ liệu trên một không gian vector thấp chiều như là tỷ lệ khoảng cáchgiữa khoảng cách lớp với khooảng cách trong lớp là tối đa. Mục đích là để đạtđược phán đoán tốt. Phân tích tương quan kinh điển (CCA) là một mô hình thốngkê đa biến tạo điều kiện cho các nghiên cứu về mối tương quan giữa tập nhiềubiến phụ thuộc và nhiều biến độc lập. Tương quan kinh điển đồng thời dự đoánnhiều biến phụ thuộc từ nhiều biến độc lập.

Tất cả những phương pháp này ban đầu được thực hiện với các thuật toán thựcthi mà yêu cầu dữ liệu phải có sẵn trong tính toán trong thời gian thực cáckhông gian con thích nghi cho các dữ liệu đến tuần tự. Sau những khó khăn này,các phương pháp tái tạo là phù hợp nhất cho mô hình nền. Hơn nữa, khía cạnhkhông có giám sát của họ cho phép tránh can thiệp bằng tay ở bước học tập. Sauđây, chúng tôi khảo sát phương pháp không gian con được áp dụng gần đây để môhình nền: phân tích thành phần độc lập (ICA), ma trận thành phần không âm (NMF)và gia tăng thứ hạng-(R1, R2, R3) Tensor.5.3.1. Học không gian con sử dụng ICA (SL-ICA)

Nguyễn Văn Căn 25

ICA tổng hợp kỹ thuật của PCA. Khi một số hỗn hợp các nguồn tín hiệu xác suấtđộc lập được quan sát, ICA phục hồi các tín hiệu nguồn gốc từ hỗn hợp quan sátmà không biết làm thế nào các nguồn được trộn lẫn. Giả định vector quan sátX=(x1, x2,..., xM) có thể được biểu diễn thông qua sự chồng chất tuyến tính củacác vector độc lập chưa biết S=(S1, S2,..., SM)T.

X = AS (40)với A là ma trận hỗn hợp chưa biết. ICA tìm một ma trận W, do vậy vector kết

quả là:Y=WX (41)

phục hồi các vectơ S độc lập, xác suất hoán vị và sửa lại. W là khoảng matrận nghịch đảo của A. Áp dụng nó để mô hình nền, mô hình ICA được cho bởi:

Y=WXt (42)Xt (xB,xF)T là ma trận hỗn hợp dữ liệu kích thước 2*K trong đó K=M*N,

x1=(x11,x12,...,x1K) là khung đầu tiên có thể chứa hoặc không chúa các đối tượng tiềncảnh và x2(x21,x22,...,x2K) là khung thứ hai có chứa đối tượng tiền cảnh. W=(w1,w2)T là matrận không trộn, với wi = (wi1,wi2), i=1,2. Y (y1, y2)T là tín hiệu nguồn ước tính trongđó yi(yi1,yi2,...,yik). Một số thuật toán ICA có thể được sử dụng để xác định: W.Yamazaki và cộng sự [198] sử dụng thuật toán mạng nơ ron [199].Tsai và Lai[200] sử dụng thuật toán Particle Swarm (PSO) [201]. W được xác định một lần,có hai cách trong tài liệu để tổng hợp nền và mặt nạ tiền cảnh của ảnh:

- Trường hợp đầu tiên mà x1 chứa đối tượng tiền cảnh như trong Yamazaki vàcộng sự [198]. Sau đó, mặt nạ tiền cảnh cho các khung x1 và x2 thu được bằngcách ngưỡng tương ứng y1 và y2. Hình nền thu được bằng cách thay thế các khu vựcbiểu diễn các đối tượng tiền cảnh trong x1 bởi các khu vực tương ứng đại diệncho nền trong x2.

- Trường hợp thứ hai mà x1 không chứa đối tượng tiền cảnh như trong Tsai vàLai [200]. Sau đó, mặt nạ tiền cảnh đối với các khung x2 thu được bằng ngưỡngy2. Hình nền là y1.

Mô hình ICA đã được thử nghiệm trên cảnh giao thông bởi Yamazaki và cộng sự[198] và cho thấy sự mạnh mẽ trong việc thay đổi nền như thay đổi ánh sáng.Trong [200], các thuật toán đã được thử nghiệm trên những cảnh trong nhà, nơinhững thay đổi đột ngột xuất hiện chiếu sáng.5.3.2 Học không gian con sử dụng INMF (SL-INMF)

Ma trận thừa số không âm (NMF), với xếp hạng r, phân rã ma trận dữ liệuVpxqthành 2 ma trận W Rpxq được gọi là ma trận trộn, và HRrxq gọi là ma trậnmã hóa:

V WH (43) Vì vậy, NMF nhằm tìm một thừa số gần đúng là giảm thiểu các lỗi tái thiết.

Hàm chi phí khác nhau dựa trên các lỗi tái thiết đã được xác định trong các tàiliệu, nhưng do tính đơn giản và hiệu quả của nó, là lỗi bình phương là sử dụngnhiều nhất:

F=‖V−ƯWH‖2=∑i=1

p∑j=1

q

(Vij−(ƯH )ij)2(44)

26 KHẢO SÁT TỔNG QUAN VỀ PHƯƠNG PHÁP TRỪ NỀN ĐỂ PHÁT HIỆN ĐỐI TƯỢNG TRONG VIDIEO

với ij là giải thích mục vào của ma trận thứ ijth. Áp dụng nó vào mô hình nền,Bucak và cộng sự [202, 203] đề xuất một thuật toán gia tăng NMF. Việc khởi tạonền được thực hiện bằng cách sử dụng N khung huấn luyện. Vì vậy, V là vectorcột tương ứng với ma trận kích thước (p x q) x N. Các ma trận W và H được cậpnhật từng bước. Phát hiện tiền cảnh được thực hiện bởi ngưỡng các lỗi còn lạitương ứng với các độ lệch giữa mô hình nền và hình chiếu của khung hình hiệntại vào mô hình nền. Các INMF có hiệu suất tương tự như nền động và thay đổiánh sáng hơn so với IRPCA do Li và cộng sự đề xuất. [170].5.3.3. Học không gian con sử dụng gia tăng thứ hạng Tensor(R1,R2,R3)

Các trường hợp khác nhau của học không gian con trước đây xem xét ảnh là mộtvector. Do vậy, thông tin không gian cục bộ là dường như bị mất.

Li và cộng sự [204, 205] đề nghị sử dụng thuật toán học tensor thứ tự cao tensorđược gọi là gia thứ hạng (R1,R2,R3) dựa trên học không gian con để can thiệp vàothông tin không gian. Thuật toán online này xây dựng một mô hình không gian đặctrưng tensor thứ tự thấp với trung bình mẫu và đặc trưng cơ bản được cập nhậtthích nghi. Biểu diễn G={BMqRMxN }q=1,2,...,t là dãy quang cảnh nền với khung qth làBMq. Biểu diễn Pxy là điểm ảnh thứ x và y của cảnh. Mô hình không gian đặc trưng

dựa trên tensor A={BMqxy∈RI1×I2×t}q=1,2,...,t

(I1=I2=5 tương ứng K lân cận của pm vớiK=I1I2-1=24) bao gồm kích thước không gian riêng duy trì (R1,R2,R3) liên quan tới

3 chế độ tensor diễn ra, ma trận chiếu mode-n cột U(n)∈ RIn×Rn

, cột có nghĩa làL(1)

và L(2)

của mode-(1,2) mở ra ma trận A(1) và A(2). và dòng có nghĩa là L(3)

của

mở ra ma trận A(3). Cho vùng ảnh K-láng giềng It+1m ∈RI1×I2×t

trung tâm của điểm ảnh

thứ x và thứ y, pxy của khung hiện tại It+1∈R

M×N×1

, khoảng cách RMxy (xác định bởi

3 dạng lỗi xây dựng lại của 3 chế độ) giữa It+1xy

và mô hình học không gian riêngdựa trên tensor được tính toán. Phát hiện tiền cảnh được định nghĩa như sau:

Pxy được phân loại là nền nếu

exp(−RMxy2

2σ2 )>T , ngược lại là tiền cảnh. (45)

với là yếu tố nhân rộng và T biểu thị ngưỡng. Như vậy, mô hình nền mớiBMt+1(x,y) tại thời điểm t+1 được xác định là:

BMt+1(x,y) = Hxy Nếu Pxy được phân loại là tiền cảnhBMt+1(x,y) = It+1(x,y) ngược lại. (46)với Hxy = (1-α)MB1:t ở thời điểm t và α là yếu tố tốc độ học. Tiếp đến, mô hình

không gian riêng tensor được cập nhật từng bước và cứ thế tiếp tục. IRT chothấy mạnh mẽ hơn với việc nhiễu so với IRPCA đề xuất bởi Li và cộng sự [170].

Bảng 16. Đánh giá sự thực hiện trên nền động và thay đổi độ sáng

Nguyễn Văn Căn 27

Bảng 17. Độ phức tạp tính toán

6. ĐÁNH GIÁ SỰ THỰC HIỆNTrước hết đánh giá từng phương pháp để đối phó với nền động và thay đổi chiếu

sáng. Sau đó, đánh giá thực hiện các tính toán phức tạp và yêu cầu bộ nhớ chomỗi điểm ảnh.6.1. Những thách thức

Bảng 16 nhóm khả năng của từng phương pháp để đối phó với nền động và thayđổi chiếu sáng. Cột thứ ba cho biết thể hiện thích hợp với sự thay đổi ánhsáng. Các ứng dụng có liên quan được nêu trong cột thứ tư.6.2. Độ phức tạp tính toán

SG là phương pháp nhanh nhất vì phân loại chỉ thực hiện bằng cách sử dụngngưỡng và duy trì nền thích nghi trung bình và phương sai. Độ phức tạp của nóphụ thuộc vào N khi khởi tạo. Phương pháp MOG có độ phức tạp O(NK) với K sốlượng phân phối Gauss sử dụng, thường từ 3 đến 5. Để duy trì, KDE tính giá trịhạt nhân Gaussian tập trung vào n khung quá khứ, do đó độ phức tạp là O(n), vớin thường là 100. Đối với học không gian con tái tạo, độ phức tạp tính toán liênquan đến các hoạt động cần thiết để tính toán các yếu tố được lưu trữ và cậpnhật, tức là ma trận chính hoặc các cấu trúc riêng. Ví dụ, học không gian congia tăng tensor yêu cầu thực hiện độ phức tạp O(I1I2(R1+R2+R3))[205]. Để pháthiện tiền cảnh, phương pháp học tập không gian con tái tạo có độ phức tạp ướctính cho mỗi điểm ảnh của O(P), trong đó P là số các vector riêng tốt nhất. Đểduy trì nền, độ phức tạp của chúng có liên quan đến M là số mẫu được sử dụng đểcập nhật các mô hình. M = 1 nếu mô hình là cập nhật mỗi khung. Bảng 17 cho thấysự phức tạp tính toán cho mỗi điểm ảnh của mỗi thuật toán ở từng giai đoạn. Xem

28 KHẢO SÁT TỔNG QUAN VỀ PHƯƠNG PHÁP TRỪ NỀN ĐỂ PHÁT HIỆN ĐỐI TƯỢNG TRONG VIDIEO

chi tiết thêm về sự phức tạp của mỗi thuật toán được tìm thấy trong các bài báotương ứng.6.3. Yêu cầu bộ nhớ

Đối với phương pháp thống kê, sự phức tạp bộ nhớ cho mỗi điểm ảnh cũng giốngnhư độ phức tạp tính toán. Vào thời điểm phân loại, phương pháp tiếp cận táitạo phức tạp đòi hỏi phải có bộ nhớ cho mỗi điểm ảnh O(P), với P là số cácvector riêng tốt nhất. Tuy nhiên, ở thời điểm huấn luyện, các phương pháp yêucầu cấp phát cho tất cả N ảnh huấn luyện, với độ phức tạp O(N). Đối với họckhông gian con tái tạo, các yêu cầu bộ nhớ có liên quan đến yếu tố lưu trữ vàcập nhật, tức là ma trận thành phần chính hoặc các cấu trúc riêng. Ví dụ, họckhông gian con gia tăng tensor yêu cầu O(I1R1+I2R2+(I1I2)R3) đơn vị bộ nhớ [205].

7. SO SÁNHLựa chọn để so sánh những cải tiến khác nhau của MOG cho hình nền động và các

mô hình học tập không gian con (SL-PCA, ICA SL, SL-INMF và SL-IRT) cho thay đổichiếu sáng. Kết quả trên bộ dữ liệu được cung cấp bởi Wallflower Toyama và cộngsự [20] được trình bày. Chúng tôi thu thập kết quả tổng hợp bởi vì chúng thườngxuyên sử dụng trong lĩnh vực này, đặc biệt là lĩnh vực giám sát video thời gianthực. Hơn thế nữa, nó bao gồm 7 chuỗi video, trong mỗi chuỗi trình bày mộttrong những khó khăn thực tế có thể gặp phải (ví dụ, thay đổi ánh sáng, hìnhnền động). Kích thước của hình ảnh là 160*120 pixel. Một mô tả ngắn gọn về cácchuỗi hình ảnh Wallflower có thể được thực hiện như sau:

- Đối tượng chuyển (MO): Một người đi vào một căn phòng, gọi một cuộc điệnthoại và rời khỏi. Điện thoại và ghế còn lại ở một vị trí khác nhau. Video nàychứa 1747 hình ảnh.

- Thời gian trong ngày (TOD): Ánh sáng trong phòng dần dần thay đổi từ tốisang sáng. Sau đó, một người bước vào phòng và ngồi xuống. Video này chứa 5890hình ảnh.

- Chuyển đổi nhẹ (LS): Một cảnh phòng bắt đầu với đèn sáng. Sau đó, một ngườibước vào phòng và tắt đèn trong một thời gian dài. Sau đó, một người bước vàophòng, thiết bị chuyển mạch ánh sáng, và di chuyển ghế, trong khi cánh cửa đượcđóng lại. Video này chứa 2.715 hình ảnh.

- Cây đung đưa (WT): Một cây lắc lư và một người đi bộ ở phía trước của cây.Video này chứa 287 hình ảnh.

- Ngụy trang (C): Một người đi bộ ở phía trước của một màn hình, trong đó cócuốn thanh can thiệp trên màn hình. Bao gồm các thanh màu sắc tương tự như quầnáo của người đó. Video này chứa 353 hình ảnh.

- Bootstrap (B): Các chuỗi hình ảnh cho thấy một quán cà phê bận rộn và mỗikhung chứa người. Video này chứa 3055 hình ảnh.

- Foreground Aperture (FA): Một người với áo sơ mi đồng phục màu tỉnh dậy vàbắt đầu di chuyển từ từ. Video này chứa 2.113 hình ảnh.

Đối với mỗi dãy, nền thực được cung cấp hình ảnh khi các thuật toán chậm chạpvới sự thay đổi mạnh mẽ trong cảnh. Như vậy, việc thực hiện được đánh giá phânđoạn tay nền thực. Ba thuật ngữ được sử dụng trong đánh giá: Sai tích cực (FP)là số các điểm nền được đánh dấu sai là tiền cảnh; Lỗi tiêu cực (FN) là sốlượng điểm ảnh tiền cảnh đánh dấu sai là nền; Tổng lỗi (TE) là tổng của FP vàFN.

Nguyễn Văn Căn 29

7.1. MOG và cải tiến của nóĐối với nhóm thứ nhất, chúng ta so sánh MOG với những cải tiến chính của nó.

Bảng 18 và Hình (5) nhóm các kết quả thự nghiệm tìm thấy trong các tài liệu đốivới các thuật toán lựa chọn là:

1/ Các thuật toán gốc ban đầu: Stauffer và Grimson [14]. 2/ Ba cải tiến nội tại: White và cộng sự [67] sử dụng một thiết lập tốt hơn

cho tỷ lệ học sử dụng Partical Swarm tối ưu, Wang và cộng sự [60] sửa đổi cácbước phát hiện tiền cảnh sử dụng một không gian màu sắc hỗn hợp tức là khônggian màu RGB chuẩn hóa cho các điểm ảnh với cường độ cao và không gian màu RGBcho các điểm ảnh với cường độ thấp, Setiawan và các cộng sự. [97] sử dụng khônggian IHLS.

3/ Ba cải tiến bên ngoài: Schindler và cộng sự [109] sử dụng MRFS làm trơnkết quả về không gian, Cristani và cộng sự [117] đề xuất hỗn hợp điểm ảnh thíchứng không gian thời gian của Gaussian gọi là STAPPMOG; Cristani và cộng sự[118] sử dụng phân tích lân cận không gian-thời gian thích ứng gọi là ASTNA.Đối với hai thuật toán cuối này, các tác giả không cho kết quả cho chuỗi hìnhảnh sau đây: đối tượng di chuyển, thời gian của ngày và chuyển đổi ánh sáng. Dovậy, chúng tôi chỉ ra cho sự tổng hợp không có trong dãy ảnh.

Từ bảng 18, chúng ta có thể thấy rằng MOG gốc gây nhiều lỗi hơn. Sự cài đặttốt nhất cho tỷ lệ học và ngưỡng T sử dụng PSO[67] chia nửa tổng số lỗi. Sửdụng không gian màu IHLS [97] giảm số lượng lớn TE xuống dưới 10000. Sự cảitiến đề xuất bởi Wang [60] mang đến kết quả tốt hơn đối với các cải tiến nộitại. Đối với các cải tiến ngoại, các kết quả tốt nhất thu được bởi MOG sử dụngMRF đề xuất bởi Schindler [109], tiếp theo bởi S-TAPPMOG[117] và ASTNA[118].Đối với tất cả các phương pháp, dãy ảnh Light SSwitch (LS) mang lại số lượnglớn hơn các lỗi sai có thể. Ở đây, kết quả tốt nhất thu được bởi phương pháp đềnghị bởi Schindler[109]. Sự sử dụng IHLS[97] mang đến sự cải tiến tốt nhất đốivới dãy ảnh Camouflage (C) và đối với phương pháp đề nghị bởi Wang và cộng sự[30], nó là dãy ảnh về cây đung đưa (WT). Trong phần kết luận, đánh giá sự thựchiện chỉ ra rằng tính thống nhất giữa không gian và thời gian cải tiến kết quảmột cách đáng kể. Hình (6) giới thiệu hiệu suất tổng thể đối với 5 thuật toánđầu tiên. Nó không thể dự định được thứ hạng xác định của các thuật toán. Nhưlà xếp hạng về sự cần thiết, về quy trình, và về ứng dụng độc lập.

30 KHẢO SÁT TỔNG QUAN VỀ PHƯƠNG PHÁP TRỪ NỀN ĐỂ PHÁT HIỆN ĐỐI TƯỢNG TRONG VIDIEO

Hình 5. Kết quả trên bộ dữ liệu Wallflower [26] cho MOG và cải tiến của nó.

Bảng 18. So sánh trên bộ dữ liệu Wallflower [26] cho MOG và cải tiến của nó.

Bảng 19. So sánh trên bộ dữ liệu Wallflower [26] cho các mô hình học tập khônggian con

7.2. Mô hình huấn luyện không gian con SL- PCA là từ các loại đầu tiên được so sánh với các mô hình học tập không

gian con từ loại thứ ba: IRT, SL- PCA và SL- INMF. Bảng 19 kết quả thí nghiệm

Nguyễn Văn Căn 31

tìm thấy trong các tài liệu cho các thuật toán học. Từ Bảng 19, chúng ta có thểthấy SL cung cấp cho TE nhỏ nhất tiếp theo SL INMF. Hình 8 cho thấy hiệu suấttổng thể. phải được thực hiện với đề phòng vì một hiệu suất kém trên một videoảnh hưởng đến TE và sau đó sửa đổi các xếp hạng. Việc giải thích chính là tấtcả các mô hình được mạnh mẽ để thay đổi chiếu sáng như có thể được nhìn thấytrên các trình tự gọi là "Thời gian của ngày " (TD) và "Ánh sáng Switch" cácthuật toán học không gian con ít nhiều phù hợp cho các tình huống cụ thể. Vídụ, chỉ trình tự gọi là "đối tượng chuyển" (MO) mô hình được cập nhật không làmthêm giờ. Trong cùng một cách, SL INMF cho tổng số lỗi lớn nhất do kết quả củanó về trình tự gọi là " Ngụy trang " (C). Điều này được xác nhận bởi hình 9.trong đó cho thấy việc thực hiện mà không cần trình tự này. Trong trường hợpnày, SL- INMF là lần thứ hai trong thời hạn SL- ICA có hiệu suất trên toàn cầutốt, ngoại trừ các trình tự gọi là "Bootstrap" (B) bằng cách cho phát hiệnkhông đúng.

SL- IRT dường như có hiệu quả hơn trong trường hợp ngụy trang.SL- PCA cho ít FN hơn FP. Cho SL- IRT, nó là ngược lại. Có thể nhận xét rằng

cung cấp rất ít FP hơn FN. Nó là thú vị trong video giám sát bởi vì nó làm giảmbáo động sai.

Hình 6. Hiệu suất tổng thể trên bộ dữ liệu Wallflower [26] cho MOG và cải tiếncủa nó.

Hình 7. Kết quả trên bộ dữ liệu Wallflower [26] cho các mô hình học tập khônggian con.

8. HIỆN TẠI VÀ PHÁT TRIỂNBài viết này nhằm cung cấp một cuộc khảo sát toàn diện về mô hình nền thống

kê để phát hiện tiền cảnh và cung cấp một số loại cấu trúc cho các chiến lược

32 KHẢO SÁT TỔNG QUAN VỀ PHƯƠNG PHÁP TRỪ NỀN ĐỂ PHÁT HIỆN ĐỐI TƯỢNG TRONG VIDIEO

phát triển trong 300 bài báo và 10 sáng chế gần đây. Vì vậy, chúng tôi đề xuấtmột phân loại về mặt thể loại. Đối với MOG và KDE, chúng tôi đề xuất một phânloại cho các cải tiến liên quan của chúng trong hai lớp tương ứng được gọi làcải tiến bên trong và bên ngoài. Chiến lược bổ sung thêm thông tin không gianvà thời gian trong các bước khác nhau hoặc trong quá trình bổ sung chứng minhkhả năng của mô hình để cải thiện sức mạnh của các mô hình ban đầu với các tìnhhuống quan trọng. Kết hợp với các phân đoạn khác đã cho thấy lợi ích của chúng.Phương pháp đó làm giảm thời gian tính toán để phù hợp với các ứng dụng thờigian thực. Mặc dù tiến có những tiến bộ đáng kể nhưng vẫn còn việc phải làm vàchúng tôi tin rằng một đánh giá so sánh hệ thống phải được thực hiện và do đóxác định sự kết hợp tốt nhất của chiến lược.

Trong bối cảnh này, chúng tôi khuyến khích việc đánh giá bằng cách sử dụng dữliệu Wallflower như trong [60, 67, 97, 109]. Hơn nữa, hai cuộc điều tra chínhdường như rất hứa hẹn:

- Đối với nền động, kết hợp giữa SG, MOG và KDE [337-339] cho phép cung cấpthêm mạnh mẽ khi có cây rung, mặt nước, mặt nước gợn sóng trong cảnh.

- Đối với thay đổi ánh sáng, sức mạnh của PCA [340-344] trong đó nền được môhình hóa bởi một không gian con thứ hạng thấp mà dần dần có thể thay đổi theothời gian, trong khi các đối tượng tiền cảnh di chuyển được coi là giá trịngoại lai thưa thớt liên quan.

Bài viết này cho phép người đọc khảo sát tiến bộ gần đây về mô hình nền thốngkê và hiệu quả của nó, có thể hướng dẫn chọn những cải tiến tốt nhất cho ứngdụng cụ thể của mình. Đặc biệt, tài liệu khảo sát này: 1) phát triển để lựachọn các cải tiến phù hợp để giải quyết những tình huống quan trọng gặp trongứng dụng. 2) Các nhà nghiên cứu để có một cách nhìn tình trạng liên quan đếnvấn đề và do đó dễ dàng xác định những ý tưởng mới gần đây. 3) phản biện để xácminh một cách nhanh chóng độc đáo của bài báo.