KIẾN TRÚC NHIỀU TẦNG CHO PHÁT HIỆN VÀ NGĂN CHẶN ...
-
Upload
khangminh22 -
Category
Documents
-
view
5 -
download
0
Transcript of KIẾN TRÚC NHIỀU TẦNG CHO PHÁT HIỆN VÀ NGĂN CHẶN ...
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
PHẠM NGỌC THỌ
KIẾN TRÚC NHIỀU TẦNG CHO PHÁT HIỆN VÀ
NGĂN CHẶN TRANG WEB LỪA ĐẢO
LUẬN VĂN THẠC SĨ AN TOÀN THÔNG TIN
Hà Nội - 2019
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
PHẠM NGỌC THỌ
KIẾN TRÚC NHIỀU TẦNG CHO PHÁT HIỆN VÀ
NGĂN CHẶN TRANG WEB LỪA ĐẢO
Chuyên ngành: An toàn thông tin
Mã số: 8480102.01
LUẬN VĂN THẠC SĨ AN TOÀN THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. LÊ ĐÌNH THANH
Hà Nội - 2019
1
LỜI CAM ĐOAN
Toi xin cam đoan cac kêt qua nghien cưu trong luạn van nay la san phâm
cua ca nhan toi duơi sư huơng dân cua thây giáo TS. Le Đình Thanh. Cac sô
liẹu, kêt qua đuơc cong bô la hoan toan trung thưc. Nhưng điêu đuơc trình bay
trong toan bọ luạn van nay la nhưng gì do toi tư nghien cưu hoạc la đuơc tông
hơp tư nhiêu nguôn tai liẹu khac nhau. Cac tai liẹu tham khao co xuât xư ro rang
va đuơc trich dân đây đu, hơp phap.
Toi xin hoan toan chiu trach nhiẹm truơc lơi cam đoan cua mình.
Hà Nội, ngày 18 tháng 11 năm 2019
Người cam đoan
Phạm Ngọc Thọ
2
LỜI CẢM ƠN
Lơi đâu tien toi xin đuơc gưi lơi biêt on sau săc tơi thây giao TS. Le Đình
Thanh, Phòng Thí nghiẹm An toàn Thông tin, Khoa Công nghẹ Thông tin,
Truơng Đại học Công nghẹ, Đại học Quôc gia Hà Nọi, nguơi thây đa luon tạn
tình chi bao, giup đơ và huơng dân toi trong suôt qua trình nghien cưu luạn van.
Toi xin chan thanh cam on cac thây, co giao trong Khoa Cong nghẹ Thong
tin, Truơng Đại học Cong nghẹ, Đại học Quôc gia Ha Nọi đa luon tạn tam
truyên dạy cho toi nhưng kiên thưc bô ich trong thơi gian toi tham gia học tạp va
nghien cưu tại nha truơng.
Toi cung xin gưi lơi cam on tơi Ban Lanh đạo va cac đông nghiẹp Bọ mon
Toán - Tin học, Học viẹn Canh sát Nhân dân, noi toi cong tac đa tạo điêu kiẹn
giup đơ toi trong qua trình học tạp.
Học viên
Phạm Ngọc Thọ
3
MỤC LỤC
LỜI CAM ĐOAN ................................................................................................. 1
LỜI CẢM ƠN ....................................................................................................... 2
MỤC LỤC ............................................................................................................ 3
DANH MỤC CÁC KÍ HIỆU VÀ CHỮ VIẾT TẮT ............................................ 5
DANH MỤC CÁC BẢNG ................................................................................... 7
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ ............................................................... 8
MỞ ĐẦU ............................................................................................................ 10
CHƯƠNG 1. GIỚI THIỆU ................................................................................ 12
1.1. Thưc trạng đang bao đọng cua các trang web lưa đao ............................ 12
1.2. Các giai phap đa co nhằm ngan chạn trang web lưa đao ......................... 15
1.2.1. Giai pháp dưa vào cọng đông ........................................................... 15
1.2.2. Giai pháp dưa vào học máy .............................................................. 18
1.3. Tiêp cạn cua chúng tôi ............................................................................. 22
1.4. Kêt qua đạt đuơc và kha nang ưng dụng ................................................. 23
CHƯƠNG 2. THIẾT KẾ KIẾN TRÚC NHIỀU TẦNG CHO PHÁT HIỆN VÀ
NGĂN CHẶN TRANG WEB LỪA ĐẢO ......................................................... 24
2.1. Tông quan ................................................................................................ 24
2.2. Tâng mọt và tâng hai ............................................................................... 26
2.2.1. Nhiẹm vụ sàng lọc ............................................................................ 26
2.2.2. Phuong pháp phát hiẹn dưa vào học máy ......................................... 27
2.2.3. Kiểm soát ti lẹ duong tính gia .......................................................... 35
2.3. Tâng ba và tâng bôn ................................................................................. 35
2.3.1. Nhiẹm vụ chuân đoan ....................................................................... 35
2.3.2. Tư đọng cạp nhạt Blacklist ............................................................... 37
2.3.3. Tham vân dich vụ PhishTank ........................................................... 38
2.3.4. Tham vân dich vụ Google Safe Browsing ........................................ 40
CHƯƠNG 3. CÀI ĐẶT THỬ NGHIỆM ........................................................... 42
3.1. Cai đạt ...................................................................................................... 42
3.1.1. Kỹ thuạt xây dưng chuong trình ....................................................... 42
3.1.2. Tâng mọt và tâng hai ........................................................................ 43
3.1.3. Tâng ba ............................................................................................. 51
3.1.4. Tâng bôn ........................................................................................... 52
3.2. Đanh gia ................................................................................................... 53
4
3.2.1. Phuong phap đanh gia ...................................................................... 53
3.2.2. Kêt qua so sánh ................................................................................. 55
3.3. Triển khai thư nghiẹm ............................................................................. 56
KẾT LUẬN ........................................................................................................ 59
TÀI LIỆU THAM KHẢO .................................................................................. 60
5
DANH MỤC CÁC KÍ HIỆU VÀ CHỮ VIẾT TẮT
Ký hiệu Chữ viết tắt Ý nghĩa
OTP One Time Password Mạt khâu sư dụng mọt lân
RF Random Forest Thuạt toán Random Forest
APWG Anti Phishing Working Group Tô chưc làm viẹc chông tọi
phạm mạng lưa đao
URL Universal Resource Locator Đinh vi tài tuyên hơp nhât
API Application Programming
Interface Giao diẹn lạp trình ưng dụng
TLD Top Level Domain Tên miên câp cao
IP Internet Protocol Giao thưc Internet
DNS Domain Name System Hẹ thông phân giai tên miên
CSS Cascading Style Sheet Ngôn ngư đinh kiểu tài liẹu
web
LR Decision Tree Thuạt toán cây quyêt đinh
NB Naive Bayes Thuạt toán Naive Bayes
SVM Support Vector Machine Thuạt toán máy hỗ trơ vector
UCI University of California, Irvine Truơng đại học Irvine cua
California
HTML Hyper Text Markup Language Ngôn ngư đanh dâu sieu van
ban
PHP Personal Home Page Ngôn ngư lạp trình web đọng
PHP
HTTP HyperText Transfer Protocol Giao thưc truyên tai sieu van
ban
HTTPS HyperText Transfer Protocol
Secure
Giao thưc truyên tai sieu van
ban kêt hơp vơi giao thưc bao
mạt TLS và SSL
WWW World Wide Web Không gian thông tin toàn câu
CSDL Co sở dư liẹu
TP True Positive Duong tinh thạt
FP False Positive Duong tinh gia
6
TN True Negative Âm tính thạt
FN False Negative Âm tính gia
TPR True Positive Rate Ti lẹ duong tinh thạt
FPR False Positive Rate Ti lẹ duong tinh gia
7
DANH MỤC CÁC BẢNG
Bảng 1.1. Thông kê sô luơng trang web lưa đao tư quý IV nam 2018 đên quý II
nam 2019 ............................................................................................................ 12
Bảng 1.2. Bang mô ta uu/ nhuơc điểm các giai phap đa co cho phat hiẹn trang
web lưa đao ......................................................................................................... 22
Bảng 2.1.Cac đạc trung đuơc trích chọn sư dụng để xây dưng mô hình ........... 27
Bảng 3.1.Thông tin kỹ thuạt sư dụng trong chuong trình thưc nghiẹm ............. 42
Bảng 3.2. Bang đanh gia dưa trên phuong phap Confusion Matrix .................. 54
Bảng 3.3. Kêt qua thưc nghiẹm tren cac mo hình đôi vơi tâng mọt................... 55
Bảng 3.4. Kêt qua thưc nghiẹm tren cac mo hình đôi vơi tâng hai .................... 55
8
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1.1. Biểu đô thông kê sô luơng trang web lưa đao tư 10/2018 đên
06/2019 (13)
Hình 1.2. Biểu đô ti lẹ phân tram cac lĩnh vưc là mục tiêu cua tân công
lưa đao (13)
Hình 1.3. Tiên trình tân công lưa đao (14)
Hình 1.4. Mô phỏng siêu phẳng trong không gian hai chiêu và ba chiêu (20)
Hình 1.5. So đô giai thuạt rưng ngâu nhiên (21)
Hình 2.1. Mô hình kiên truc đa tâng cho phát hiẹn va ngan chạn trang
web lưa đao (24)
Hình 2.2. Giai thuạt Rưng ngâu nhiên (34)
Hình 2.3.
Luạt bình chọn sô đong cho gan nhan ở nút lá cua cây quyêt
đinh, nut la co nhan lavuong, nen điểm p va q đêu đuơc phân
lơp vuông
(35)
Hình 2.4. Giao diẹn website cua PhishTank (38)
Hình 2.5. Chưc nang bao cao trang web lưa đao cua PhishTank (39)
Hình 2.6. Chưc nang bỏ phiêu trang web lưa đao cua PhishTank (40)
Hình 2.7. Chưc nang kiểm tra trạng thái trang web cua Google Safe
Browsing (41)
Hình 2.8. Trang web chưa tạp API cua Google Safe Browsing (41)
Hình 3.1. Tam đạc trung đuơc lưa chọn để huân luyẹn và xây dưng mô
hình phát hiẹn trên tâng mọt (43)
Hình 3.2. Chín đạc trung đuơc lưa chọn để huân luyẹn và xây dưng mô
hình phát hiẹn trên tâng hai (44)
Hình 3.3. Chuong trình huân luyẹn và xây dưng mô hình phát hiẹn trên
tâng mọt (45)
Hình 3.4. Chuong trình huân luyẹn và xây dưng mô hình phát hiẹn trên
tâng hai (46)
9
Hình 3.5. Kiên truc extension cua Chrome (47)
Hình 3.6. Câu trúc tạp tin cua extension đuơc lạp trình, cai đạt trên
trình duyẹt (47)
Hình 3.7. Extension thưc hiẹn trích xuât đạc trung tren trang web (47)
Hình 3.8. Extension gưi vector đạc trung cua URL mọt lên máy chu
web (48)
Hình 3.9. Extension gưi vector đạc trung cua Content lên máy chu web (49)
Hình 3.10. Máy chu web đua dư liẹu đa nhạn đuơc qua mô hình phát
hiẹn (49)
Hình 3.11. So sánh kêt qua tra vê vơi giá tri nguơng cua tâng mọt (50)
Hình 3.12. Tiên trình ngan chạn trang web khi phát hiẹn có lưa đao (50)
Hình 3.13. Luu URL cua trang web lưa đao vào Blacklist (50)
Hình 3.14. Gưi URL lên máy chu web phát hiẹn trên tâng ba (51)
Hình 3.15. Thưc hiẹn kiểm tra URL trong CSDL cua Blacklist (51)
Hình 3.16. API key đuơc đang ký tư Google Cloud Platform (52)
Hình 3.17. API key đuơc đang ký tư PhishTank (52)
Hình 3.18. Kiểm tra URL trên API cua Google Safe Browsing (53)
Hình 3.19. Kiểm tra URL trên API cua PhishTank (53)
Hình 3.20. Cai đạt Extension vào trình duyẹt (56)
Hình 3.21. Cai đạt máy chu web trên Server (56)
Hình 3.22. Dư liẹu cho tiên hành thư nghiẹm (57)
Hình 3.23. Trang web cho nguơi dùng truy vân URL trưc tuyên (58)
10
MỞ ĐẦU
Ngày nay, mạng Internet đa va đang mang đên mọt sư thay đôi to lơn trên
mọi phuong diẹn cua cuọc sông, giup con nguơi có thể kêt nôi nhau và kêt nôi
vơi thê giơi trong mọi lĩnh vưc: Kinh tê, chính tri, van hoa, giao dục, .... nhằm
trao đôi, chia sẻ thông tin mọt cach nhanh chong. Đạc biẹt, trong kỷ nguyên
công nghẹ sô - thơi kỳ cua nên công nghiẹp 4.0 huơng tơi mọi hẹ thông, thiêt bi,
phuong tiẹn va con nguơi có thể giao tiêp vơi nhau mọt cách dễ dàng.
Tuy nhien, kéo theo đo la nhưng nguy co mât toàn thông tin có thể xay ra
bât cư lúc nào. Mọt trong nhưng môi đe dọa hiẹn hưu, đa tac đọng trưc tiêp tơi
con nguơi chính là vân đê lưa đao. Lưa đao là mọt hình thưc tân công cua các
đôi tuơng tọi phạm mạng nhằm chiêm đoạt thông tin nhạy cam cua nguơi dùng
nhu: Ten đang nhạp, mạt khâu, mã sô thẻ tín dụng, thông tin tài khoan ngân
hàng, mã xác thưc mọt lân (One Time Password - OTP) duơi hình thưc tạo lạp
nhưng trang web gia mạo vơi trang web cua các tô chưc hơp pháp.
Do đo, viẹc nghiên cưu phát hiẹn va ngan chạn các trang web lưa đao luôn
là mọt chu đê đuơc các tô chưc và cọng đông nguơi dùng Internet đạc biẹt quan
tâm. Đông thơi, cung đa co nhiêu giai phap đuơc đê xuât bởi mọt sô nhà nghiên
cưu nhằm ngan chạn tôi đa cac cuọc tân công lưa đao; song nhưng kẻ tân công
lưa đao luon tìm cach thay đôi phuong thưc hoạt đọng nhằm ngan can sư phát
hiẹn. Vì vạy, đê xuât mọt giai pháp có sư tiên hoa đuơc xem là mọt phuong
pháp hiẹu qua trong viẹc phát hiẹn va ngan chạn trang web lưa đao.
Luạn van “Kiên trúc nhiêu tâng cho phát hiẹn va ngan chạn trang web lưa
đao” đuơc thưc hiẹn nhằm đê xuât và thư nghiẹm mọt giai pháp hiẹu qua trong
viẹc phát hiẹn va ngan chạn trang web lưa đao. Ngoài các phân mở đâu và kêt
luạn, luạn van bao gôm 3 chuong:
Chương 1. Giới thiệu
Chuong nay trình bay thưc trạng đang bao đọng cua các trang web lưa đao
trên thê giơi nói chung và tại Viẹt Nam nói riêng. Trình bày các giai pháp phát
hiẹn đa co dưa vào cọng đông va phuong phap học máy trong phát hiẹn trang
web lưa đao. Chuong 1 cung trình bày tóm tăt cách tiêp cạn cua luạn van; tom
tăt kêt qua đạt đuơc và kha nang ưng dụng cua nghiên cưu.
11
Chương 2. Thiết kế kiến trúc nhiều tầng cho phát hiện và ngăn chặn
trang web lừa đảo
Trình bày tông quan kiên trúc nhiêu tâng cho phát hiẹn va ngan chạn trang
web lưa đao. Sau phân tông quan la trình bay phuong phap học máy sư dụng
trên thuạt toán rưng ngâu nhiên (Random Forest - RF) tùy biên tham sô, tư điêu
chinh ti lẹ duong tinh gia trong phát hiẹn trang web lưa đao, thưc hiẹn nhiẹm vụ
sàng lọc cho tâng mọt và tâng hai cua kiên trúc. Cuôi chuong nay trình bay các
phuong phap phat hiẹn dưa trên hẹ chuyen gia, danh sach đen (blacklist) tren
tâng ba và gọi API cua PhishTank, Google Safe Browsing trên tâng bôn.
Chương 3. Cài đặt thử nghiệm
La chuong kêt thúc cua luạn van, trình bay kỹ thuạt cai đạt thư nghiẹm và
cac buơc đuơc triển khai trên mỗi tâng. Lưa chọn phuong phap va tiên hành
đanh gia, so sanh kêt qua thư nghiẹm. Đông thơi, nghiên cưu và triển khai thư
nghiẹm tích hơp kêt qua nghiên cưu vào mọt tiẹn ích mở rọng (extension) cài
đạt vào trình duyẹt cua nguơi dùng.
Trong quá trình thưc hiẹn luạn van không tránh khỏi nhưng thiêu sót trong
nọi dung cung nhu trong trình bày. Vơi mong muôn đuơc phát triển hon nưa
trong lĩnh vưc đang nghien cưu, tác gia cua luạn van rât mong nhạn đuơc sư
đong gop ý kiên cua các thây cô giáo và cua các anh/chi học viên.
12
CHƯƠNG 1. GIỚI THIỆU
1.1. Thực trạng đáng báo động của các trang web lừa đảo
Trang web lưa đao đuơc tạo ra bởi cac đôi tuơng tọi phạm nhằm mục đich
chiêm đoạt nhưng thông tin nhạy cam cua nguơi dùng nhu ten đang nhạp, mạt
khâu, mã sô thẻ tín dụng, mã xác thưc OTP và các thông tin liên quan tơi tài
khoan ngân hàng, ...Vơi sư kêt hơp giưa hai yêu tô chính, đo là: Sư dụng kỹ
thuạt tạo trang web gia mạo vơi trang web cua các tô chưc hơp pháp và yêu tô
tac đọng tâm lý cua nguơi dùng (hay còn đuơc biêt đên là Social Engineering -
Kỹ nghẹ xã họi) đa góp phân thành công giúp cac đôi tuơng tọi phạm thưc hiẹn
hành vi lưa đao.
Trên thê giơi, theo sô liẹu báo cáo cua tô chưc APWG [1] (Anti Phishing
Working Group), trong quý II nam 2019 đa phat hiẹn có tông sô 182.465 trang
web lưa đao. Con sô nay tang len đang kể so vơi quý I nam 2019 phat hiẹn là
180.768 va quý IV nam 2018 la 138.328 trang web lưa đao.
Bảng 1.1. Thống kê số lượng trang web lừa đảo từ quý IV năm 2018 đến quý II
năm 201
Quý IV - Năm 2018 Quý I - Năm 2019 Quý II - Năm 2019
Tháng
10
Tháng
11
Tháng
12
Tháng
1
Tháng
2
Tháng
3
Tháng
4
Tháng
5
Tháng
6
56.815 35.719 45.794 48.663 50.983 81.122 59.756 61.820 60.889
(Tổng hợp số liệu trích từ nguồn của APWG)
Tuy nhiên, khi mọt trang web lưa đao đuơc tạo ra, cac đôi tuơng tọi phạm
lạp tưc tiên hanh thay đôi thành hàng nghìn các biên thể đia chi URL cua nhưng
trang web đo truơc khi phát tán tơi nguơi dùng. Do đo, khi nguơi dùng truy cạp
vào nhưng đia chi này thì sẽ đêu đuơc điêu huơng tơi cùng mọt trang đich lưa
đao. Sô liẹu ma APWG đa tiên hành thông kê sô luơng đuơc dưa vào tính duy
nhât cua các trang web lưa đao (khong tinh đên nhưng URL biên thể cua cùng
mọt trang web).
Qua sô liẹu đuơc báo cáo tư APWG có thể dễ dàng nhạn thây, sô luơng các
trang web lưa đao xuât hiẹn trong nhưng nam trở lại đay ngay cang co xu huơng
13
gia tang mà không có dâu hiẹu giam xuông. Điêu này gây ra nhưng tôn thât
nạng nê cho nên kinh tê thê giơi nói chung và nhưng nguy co mât an toàn thông
tin noi rieng đôi vơi các tô chưc, doanh nghiẹp va đạc biẹt là vơi cá nhân.
Hình 1.1. Biểu đô thông kê sô luơng trang web lưa đao tư 10/2018 đên 06/2019
Mục tiêu cua các cuọc tân công lưa đao đuơc cac đôi tuơng huơng tơi chu
yêu tạp trung vào mọt sô lĩnh vưc nhu: Phân mêm duơi dạng dich vụ, dich vụ
webmail, dich vụ thanh toán, dich vụ cua các tô chưc tai chinh, thuong mại điẹn
tư, dich vụ luu trư trưc tuyên, ...
Hình 1.2. Biểu đô ti lẹ phân tram cac lĩnh vưc là mục tiêu cua tân công lưa đao
0
10,000
20,000
30,000
40,000
50,000
60,000
70,000
80,000
90,000
Tháng
10/2018
Tháng
11/2018
Tháng
12/2018
Tháng
1/2019
Tháng
2/2019
Tháng
3/2019
Tháng
4/2019
Tháng
5/2019
Tháng
6/2019
Số lượng trang web lừa đảo từ Quý IV - 2018 đến Quý II - 2019
14
Tại Viẹt Nam, theo sô liẹu thông kê cua Bọ Thông tin và Truyên thông tại
thơi điểm 6 thang đâu nam 2019, trong tông sô 3.159 cuọc tân công mạng vào
hẹ thông thông tin, có 968 cuọc tân cong thay đôi giao diẹn (Deface), 635 cuọc
tân công cài căm ma đọc (Malware) va đạc biẹt đôi vơi loại hình tân công lưa
đao (Phishing) có tơi 1.556. Trong đo, cac cuọc tân công lưa đao chu yêu đuơc
tiên hành thông qua viẹc xây dưng các trang web gia mạo vơi các tô chưc hơp
pháp hoạt đọng trong cac lĩnh vưc tài chính, ngân hàng, mạng xã họi, ... nhằm
lưa gạt nguơi dùng cung câp thông tin nhạy cam cá nhân hòng chiêm đoạt
chúng.
Để thưc hiẹn thành công hành vi lưa đao, đôi tuơng tân công sẽ tiên hành
nhưng cách thưc nhu sau:
Hình 1.3. Tiên trình tân công lưa đao
- Tạo một trang web giả mạo: Là mọt phân kê hoạch cua cuọc tân công
lưa đao, nhưng đôi tuơng tân công tạo ra mọt trang web gia mạo có giao diẹn và
tuong tác tuong tư vơi trang web gôc. Chúng sư dụng nhưng tinh nang chinh
cua trang web gôc nhu logo, bô cục và nọi dung cua trang web để nguơi dùng
không phát hiẹn đây là trang web gia mạo.
- Liên kết một trang web giả mạo qua email: Sau khi tạo ra trang web
gia mạo, đôi tuơng tân công tạo ra nhưng email vơi nhiêu nọi dung khác nhau
nhu gay tinh tò mò, sư kích thích vê tâm lý cua nguơi dùng nhu: cạp nhạt thông
15
tin tài khoan trong các dich vụ tài chính - ngân hàng, khai báo thông tin cá nhân
tham gia chuong trình trung thuởng, ...Sau đo, chung gưi hàng nghìn email kiểu
này đên nguơi dùng va lam cho nguơi nhạn (nguơi dùng) kích vào mọt URL để
chuyển huơng đên trang web gia mạo.
- Kích chuột vào một URL độc hại: Nguơi dùng không biêt URL đọc hại
đuơc cung câp trong email, lạp tưc kích chuọt vào và dễ dàng bi chuyển huơng
đên trang web gia mạo do đôi tuơng lưa đao đa tạo ra. Tại đay, mọt cuọc tân
công lưa đao băt đâu diễn ra.
- Nhập thông tin nhạy cảm: Khi nguơi dùng đuơc chuyển huơng đên
trang web gia mạo, các thông tin nhạy cam nhu ten đang nhạp, mạt khâu, mã sô
thẻ tín dụng va cac thong tin khac đuơc nguơi dùng lân luơt nhạp trên trang web
do nhưng đôi tuơng lưa đao đa tạo ra.
- Tập hợp dữ liệu sau khi đánh cắp và sử dụng nó: Khi nguơi dùng đa
nhạp nhưng thông tin nhạy cam, tât ca nhưng dư liẹu này sẽ đuơc nhưng đôi
tuơng lưa đao thu thạp, tông hơp để thưc hiẹn nhưng mục đich rieng nhu: Ban
dư liẹu nguơi dùng, giao dich bât hơp pháp, thưc hiẹn hoạt đọng rưa tiên.
1.2. Các giải pháp đã có nhằm ngăn chặn trang web lừa đảo
1.2.1. Giải pháp dựa vào cộng đồng
Hiẹn nay, có nhiêu giai pháp dưa trên cọng đông đuơc đê xuât để phát hiẹn
va ngan chạn trang web lưa đao. Mọt sô giai pháp đuơc tiêp cạn bao gôm:
PhishTank, Google Safe Browsing, PhishNet, PhishGuard, SpoofGuard,
BaitAlarm.
- PhishTank: Là mọt giai pháp giúp cọng đông nguơi dùng có thể dễ dàng
phát hiẹn nhưng trang web nghi ngơ có dâu hiẹu lưa đao. PhishTank đuơc xây
dưng và phát triển bởi tô chưc OpenDNS [2], nó cung câp mọt hẹ thông xác
minh lưa đao dưa vào cọng đông noi nguơi dùng gưi URL cua nhưng trang web
bi nghi ngơ lưa đao và nhưng nguơi dùng khác “bỏ phiêu”cho URL đo co hay
khôg sư lưa đao. Thưc chât, giai pháp cua PhishTank chính là viẹc duy trì mọt
danh sach đen (blacklist) bởi nguơi sư dụng. Dư liẹu tại đay đuơc cung câp miễn
phí để tai xuông hoạc truy cạp thông qua lẹnh gọi API, gôm ca cho mục đich
thuong mại.
16
- Google Safe Browsing: Đay la gia pháp sư dụng các URL trong danh
sach đen để khám phá các cuọc tân công lưa đao [3]. Mỗi URL cân kiểm tra
đuơc sư dụng làm dư liẹu đâu vào và thưc hiẹn kiểm tra URL đo trong kho danh
sach đen. Nêu URL co trong kho danh sach đen thì xac đinh đay la trang web
lưa đao; nguơc lại, trang web là lành tính. Vơi giai phap nay, điểm hạn chê
chính là không có kha phát hiẹn nhưng trang web có URL không tôn tại trong
danh sach đen, điểm này sẽ lam tang ti lẹ duong tinh gia trong phát hiẹn trang
web lưa đao.
- PhishNet: Giai pháp này có thể khăc phục các vân đê lien quan đên danh
sach đen. Giai pháp bao gôm hai buơc chính: Tạo ra các biên thể URL so vơi
các biên thể ban đâu để phát triển danh sach đen va câu trúc dư liẹu gán tưng
điểm sô cho URL dưa trên sư tuong đông cua URL hiẹn có [4]. Trong buơc thư
nhât, nó sư dụng cac phuong pháp phỏng đoan khac nhau để tạo các URL mơi
thay thê tên miên câp cao nhât (TLD - Top level domain), tuong đuong đia chi
IP, tuong tư câu truc thu mục, thay thê chuỗi truy vân, tuong đuong vơi tên
thuong hiẹu. Trong buơc thưc hai gôm, kỹ thuạt đôi sách giúp kiểm tra đia chi
IP, tên máy chu, ...
- PhishGuard: Đay la giai pháp thưc hiẹn trên thuạt toán ObURL để đanh
gia cac trang web đang ngơ dưa trên sư xuât hiẹn trưc quan cua các trang web
[5]. Thuạt toan nay đuơc xac đinh bằng cách: Kiểm tra danh sach đen và danh
sách trăng (whitelist), kiểm tra đia chi IP, kiểm tra sư dụng dich vụ rút gọn
URL, kiểm tra DNS và kiểm tra trên khuôn mâu.
+ Kiểm tra danh sách đen và danh sách trắng: Trong thư nghiẹm này, tât
ca các URL lân luơt đuơc xac minh trong danh sach đen va danh sach trăng.
Nguơi dùng an toan khi URL đuơc tìm thây trong sách trăng; đông thơi, nguơi
dùng sẽ đuơc canh báo nêu URL mà họ truy cạp đuơc tìm thây trong danh sách
đen.
+ Kiểm tra sử dụng dịch vụ rút gọn URL: Vơi thư nghiẹm này, nêu đôi
tuơng tân công sư dụng dich vụ rút gọn URL thì nguơi dùng sẽ nhạn đuơc thông
bao giup đua ra canh bao truơc nguy co cua cuọc tân công lưa đao.
17
+ Kiểm tra DNS: Trong thư nghiẹm nay, đuơc thưc hiẹn trích xuât và kiểm
tra giá tri cua neo (anchor) và các liên kêt. Nêu ca hai giá tri không giông nhau,
nguơi dùng sẽ nhạn đuơc thông báo rằng ca hai DNS la đêu khác nhau.
+ Kiểm tra trên khuôn mẫu: Trong thư nghiẹm này, siêu liên kêt và neo
đuơc xác minh cho tưng URL, nêu ca hai giông hẹt nhau, nguơi dùng sẽ không
đuơc thông báo; trong khi canh bao đuơc hiển thi cho nguơi dùng nêu ca hai
không giông nhau.
- SpoofGuard: Trong giai pháp này [6], các đạc tính lưa đao đuơc kiểm tra
đôi vơi cac trang web đang ngơ để phân loại xem mọt trang web là trang web
hơp pháp hay lưa đao. Mọt sô phuong phap phỏng đoan bao gôm: Kiểm tra hình
anh; kiểm tra liên kêt; kiểm tra URL và kiểm tra truơng mạt khâu. Tât ca các
dâu hiẹu nay đuơc đua ra mọt trọng sô, dưa tren đo trang web đuơc phân loại
phù hơp. Nêu tông sô điểm cua các dâu hiẹu lưa đao đuơc liẹt kê ở tren vuơt quá
nguơng, thì no đuơc phân loại là trang web lưa đao; nguơc lại đuơc phân loại là
mọt trang web hơp pháp. Cách tiêp cạn này có thể phát hiẹn cuọc tân công zero-
day. Tuy nhien, phuong phap nay cung co nhuơc điểm là cho ra tỷ lẹ duong tinh
gia cao trong phát hiẹn. Giai phap đuơc mô ta nhu sau:
+ Kiểm tra tên miền: Đạc tính nay đuơc sư dụng để xác minh tên miên cua
URL đa thư trong lich sư trình duyẹt. Sư giông nhau đuơc đanh gia bởi khoang
cách chinh sưa cua hai miên. Khoang cách chinh sưa đuơc đinh nghĩa la sô
luơng ký tư đuơc thêm hoạc xoa để chuyển đôi tư tên miên này sang tên miên
khác.
+Kiểm tra URL: Kiểm tra URL sẽ đuơc kích hoạt nêu có bât kỳ vân đê nào
lien quan đên tên miên, tên đang nhạp và sô công cua mọt URL cụ thể.
+ Kiểm tra hình ảnh: Đạc tính nay đuơc sư dụng để so sánh các hình anh
trong mọt trang web mơi vơi hình anh tren cac trang web truơc đo. Qua trình
nay đuơc thưc hiẹn bằng cách thu thạp mọi hình anh, tinh toan ham bam va so
sánh giá tri bam vơi các giá tri truơc đo. Sau khi tât ca các kiểm tra đuơc thưc
hiẹn, các trọng sô tư mỗi vòng đuơc tinh toan để so sánh vơi giá tri nguơng để
xac đinh xem có nên hiển thi canh bao cho nguơi dùng hay không.
- BaitAlarm: Giai pháp này sư dụng để phát hiẹn trang web lưa đao dưa
trên hình anh, trong đo đôi tuơng tân công sư dụng cùng mọt kiểu CSS
18
(Cascading Style Sheet) để gia mạo các trang web gôc [7]. Trong phuong phap
này, viẹc so sánh kiểu CSS đa đuơc thưc hiẹn vơi các trang web trong danh sách
trăng vơi cac trang web đang ngơ để phát hiẹn các cuọc tân công lưa đao.
1.2.2. Giải pháp dựa vào học máy
Vơi giai pháp dưa vào học máy, có nhiêu thuạt toán phân lơp đuơc áp dụng
để huân luyẹn mô hình dư đoan cho bai toan phat hiẹn trang web lưa đao. Trong
phân này, luạn van tìm hiểu mọt sô thuạt toán học máy phô biên nhu: Hôi quy
Logistic (Logistic Regression - LR), cây quyêt đinh (Decision Tree - DT), Naive
Bayes (NB), máy vector hỗ trơ (Support Vector Machine - SVM), rưng ngâu
nhiên (Random Forest - RF).
1.2.2.1. Hồi quy Logistic (Logistic Regression -LR)
Phuong phap Hôi quy Logistic là mọt phuong phap sư dụng mô hình hôi
quy nhằm dư đoan gia tri đâu ra rơi rạc y ưng vơi mọt véc-to đâu vào x. Phuong
phap nay thuơng đuơc sư dụng để dư báo sư có hay không có mạt cua biên phụ
thuọc y dưa vào giá tri cua biên đọc lạp x.
Theo mô hình Hôi quy Logistic, quan hẹ giưa xác suât trang web lưa đao
(y=1) và các yêu tô anh huởng đuơc thể hiẹn:
𝑃(𝑦 = 1|𝑥; 𝑤, 𝑏) = 𝜎(𝑤𝑇𝑥 + 𝑏) = 1
1 + 𝑒−(𝑤𝑇𝑥+𝑏) (1)
Tôi uu ham Hôi quy Logistic có thể đuơc tính toán theo công thưc:
(𝑤, 𝑏) ← 𝑎𝑟𝑔𝑤,𝑏𝑚𝑖𝑛1
𝑇∑ − (𝑦𝑡 log 𝜎𝑡
𝑇
𝑡=1
+ (1 − 𝑦𝑡) log(1 − 𝜎𝑡) (2)
Trong đo, T là kích cơ tạp dư liẹu trang web lưa đao, yt là lơp tuong ưng
cua dư liẹu thư t trong tạp dư liẹu 𝜎(𝑤𝑇𝑥 + 𝑏).
1.2.2.2. Cây quyết định (Decision Tree - DT)
Cây quyêt đinh là mọt dạng đạc biẹt cua câu truc cay đuơc xây dưng để trơ
giúp viẹc ra quyêt đinh dưa trên các câu hỏi. Kỹ thuạt học máy sư dụng viẹc xây
dưng cây quyêt đinh trên tạp dư liẹu đuơc gọi là học bằng cây quyêt đinh hay
đon gian chi là cây quyêt đinh. Mỗi nút bên trong cua cay tuong ưng vơi mọt
19
đạc trung, cac nut la đại diẹn cho các phân loại va cac canh đại diẹn cho các kêt
hơp cua cac đạc trung dân tơi phân loại đo. Cac canh đuơc phân tách dưa trên
giá tri cua cac đạc trung.
Quá trình học cây quyêt đinh gôm 3 giai đoạn:
1- Tạo cây: Sư dụng thuạt toán phân lơp để phân chia dư liẹu sao cho mọi
nut la đêu có cùng mọt giá tri trên thuọc tính quyêt đinh. Viẹc lưa chọn đạc
trung cho mỗi nut đuơc dưa tren đọ lơi thông tin cua cac đạc trung tren bọ huân
luyẹn. Có rât nhiêu thuạt toán phân lơp dưa trên cây quyêt đinh nhu: C4.5 [8],
CART [9], ...
2 - Căt tia cây: Là viẹc làm nhằm khăc phục nhưng khuyêt điểm cua cây
nhu loại bỏ nhánh không phù hơp (nhánh lỗi).
3 - Kiểm đinh kêt qua: Đanh gia đọ chinh xac truơc khi sư dụng.
1.2.2.3. Naive Bayes (NB)
Naive Bayes là mọt thuạt toán dưa tren đinh lý Bayes vê lý thuyêt xác suât
để đua ra cac phan đoan cung nhu phan loại dư liẹu. Naive Bayes gia đinh rằng
tât ca cac đạc trung cua x la đọc lạp vơi nhau. P(x|y) biểu thi xác suât co điêu
kiẹn cua véc-to đạc trung cho mọt lơp, gia đinh đọc lạp ngụ ý rằng 𝑃(𝑥|𝑦) =
∏𝑖=1𝑑 𝑃(𝑥𝑖|𝑦) vơi d là sô luơng đạc trung. Bằng cách áp dụng lý thuyêt Bayes, ta
có thể tính xác suât để mọt véc-to đạc trung x là mọt trang lưa đao bằng cách:
𝑃(𝑦 = 1|𝑥) =𝑃(𝑥|𝑦 = 1)
𝑃(𝑥|𝑦 = 1) + 𝑃(𝑥|𝑦 = −1) (3)
Thuạt toán Naive Bayes phân loại dễ dàng nhât bằng cách tính xác suât có
điêu kiẹn P(xi|y) tư uơc luơng hơp lý cưc đại (Maximum Likehood Estimation)
[10].
1.2.2.4. Máy vector hỗ trợ (Support Vector Machine - SVM)
Máy vector hỗ trơ (SVM) là mọt thuạt toán học máy có giám sát phô biên
dùng để phân chia dư liẹu thành các nhóm riêng biẹt. Thuạt toán sẽ tìm mọt
đuơng thẳng (trong không hai chiêu) hoạc mạt phẳng (trong khong gian đa
chiêu) cung đuơc gọi là siêu phẳng sẽ phân tách hiẹu qua nhât hai lơp. Siêu
20
phẳng nay sau đo đuơc dùng để phân lơp cho các dư liẹu chua biêt cân tiên
đoan.
Hình 1.4. Mô phỏng siêu phẳng trong không gian hai chiêu và ba chiêu
Siêu phẳng tôi uu la sieu phẳng có khoang cách vơi hai điểm dư liẹu gân
nhât tuong ưng vơi hai lơp là lơn nhât. Phuong trình chưa cac điểm dư liẹu này
gọi là các lê (margin). Do đo, sieu phẳng tôi uu la sieu phẳng có khoang cách
giưa nó và lê là xa nhât.
Siêu phẳng trong không gian d chiêu đuơc biểu diễn bằng công thưc:
WTx + b = 0
Khi đo khoang cach đuơc tính bằng công thưc:
ℎ =|𝑊𝑇𝑥0 + 𝑏|
√∑ 𝑤𝑖2𝑑
𝑖=1
(4)
SVM luôn cô găng cưc đại hoá khoang cách này, tư đo thu đuơc mọt siêu
phẳng tạo khoang cách xa nhât. Bài toán tôi uu la bai toan tìm w và b sao cho:
(𝑤, 𝑏) ← 𝑎𝑟𝑔𝑤,𝑏𝑚𝑖𝑛1
𝑇∑ max(0,1 − 𝑦𝑡(𝑤. 𝑥𝑡 + 𝑏)) + 𝜆||𝑤||2
2
𝑇
𝑡=1
(5)
Nhơ đo ma SVM co thể giam thiểu viẹc phân lơp sai đôi vơi dư liẹu mơi
đua vao.
1.2.2.5. Rừng ngẫu nhiên (Random Forest - RF)
Rưng ngâu nhiên [11] tạo ra mọt tạp hơp các cây quyêt đinh không căt
nhánh, mỗi cay đuơc xây dưng dưa trên tạp mâu ngâu nhiên có hoàn lại
21
(bootstrap). Các thuọc tính tại mỗi nut con đuơc chọn ngâu nhiên tư không gian
thuọc tinh ban đâu.
Thu tục xây dưng rưng ngâu nhiên gôm ba pha: Tạo dư liẹu (tạo vector
ngâu nhiên); Xây dưng cac cay co sở; Kêt hơp cac cay co sở theo phuong thưc
bỏ phiêu.
Hình 1.5. So đô giai thuạt rưng ngâu nhiên
Thuạt toán xây dưng rưng ngâu nhiên:
Đâu ra cua hẹ cho đôi tuơng x sẽ là:
- Đôi vơi bài toán hôi quy: 𝐶(𝑥) =1
𝐿∑ 𝐶𝑘(𝑥)𝐿
𝑘=1
- Đôi vơi bài toán phân lơp: 𝐶(𝑥) = [1
𝐿∑ 𝐶𝑘(𝑥)𝐿
𝑘=1 ]
22
1.3. Tiếp cận của chúng tôi
Hiẹn nay, trên thê giơi có nhiêu giai pháp khác nhau trong cách thưc tiêp
cạn cho phát hiẹn, ngan chạn trang web lưa đao va đa đuơc công bô tren phuong
diẹn nghiên cưu khoa học và đa đuơc triển khai thưc nghiẹm. Điển hình trong sô
đo la hai nhom giai pháp: Phát hiẹn trang web lưa đao dưa vào cọng đông và
phát hiẹn bằng phuong phap học máy.
Tuy nhiên, ở mỗi nhóm giai pháp, bên cạnh nhưng uu điểm đa đạt đuơc thì
vân còn tôn tại nhưng hạn chê nhât đinh. Cụ thể, uu/nhuơc điểm cua hai phuong
pháp đuơc tóm tăt trong bang sau:
Bảng 1.2. Bảng mô tả ưu/ nhược điểm các giải pháp đã có cho phát hiện trang
web lừa đảo
Giải
pháp
Ưu/
Nhược
điểm
Dựa vào cộng đồng Dựa vào phương pháp học máy
Ưu điểm
- Phát hiẹn chính xác
trang web lưa đao.
- Dễ dàng sư dụng và có
thể tích hơp vào nhưng
công cụ đuơc phát triển
riêng biẹt bởi các tô
chưc và cá nhân.
- Là mọt phuong phap tiêp cạn hiẹn đại
dưa trên nên tang cua trí tuẹ nhân tạo.
- Có thể dễ dàng tuỳ biên các thuạt toán
học máy trong quá trình nghiên cưu và
mở rọng.
- Có thể phát hiẹn nhưng trang web lưa
đao mơi đuơc tạo ra.
Nhược
điểm
- Kha nang cạp nhạt co
sở dư liẹu chạm.
- Không thể phát hiẹn
nhưng trang web lưa
đao mơi đuơc tạo ra.
- Khó tiêp cạn đôi nhưng nguơi mơi
nghiên cưu phuong phap học máy.
- Kêt qua phát hiẹn có ti lẹ sai sót
(duong tính gia và âm tính gia) nhât
đinh
Xuât phát tư nhưng uu va nhuơc điểm cua hai nhóm giai phap đa neu ở
trên, chúng tôi tiên hành kêt hơp nhưng uu điểm cua ca hai giai phap; đông thơi,
đê xuât tạo nên kiên trúc nhiêu tâng cho phát hiẹn va ngan chạn trang web lưa
đao. Kiên truc ma chung toi đê xuât đuơc chia thành bôn tâng. Cụ thể:
23
- Tầng một và tầng hai: Cai đạt mô hình học may đa đuơc thiên vi hoá,
thưc hiẹn nhiẹm vụ sàng lọc nhanh trang web lưa đao.
- Tầng ba và tầng bốn: Thưc hiẹn tham vân dich vụ blacklist và hỏi
chuyên gia nhằm tiên hành chuân đoan trang web lưa đao.
1.4. Kết quả đạt được và khả năng ứng dụng
- Sư dụng thuạt toán học máy trên tâng mọt và tâng hai cua kiên truc đê
xuât, thiên vi hóa thuạt toán học máy nhằm đam bao ti lẹ duong tinh gia rât thâp
(gân nhu bằng 0) giúp cho viẹc sàng lọc chính xác.
- Xây dưng kho blacklist chưa URL cua các trang web lưa đao, cung câp
giai phap website cho nguơi dùng tại Viẹt Nam có thể dễ dàng tra cưu và sư
dụng trong phát hiẹn, ngan chạn trang web lưa đao.
- Kêt nôi thành công, sư dụng API (Application Programming Interface)
cua các hẹ chuyen gia PhishTank va Google Safe Browsing, đuơc thưc hiẹn trên
tâng bôn cua kiên trúc.
- Đanh gia va so sanh kêt qua thư nghiẹm cua nghiên cưu.
- Sư dụng kêt qua cua nghiên cưu, tiên hanh cai đạt, tích hơp thành công
công cụ phát hiẹn va ngan chạn trang web lưa đao vào trình duyẹt web cua
nguơi dùng.
24
CHƯƠNG 2. THIẾT KẾ KIẾN TRÚC NHIỀU TẦNG CHO PHÁT HIỆN
VÀ NGĂN CHẶN TRANG WEB LỪA ĐẢO
2.1. Tổng quan
Viẹc xây dưng kiên trúc nhiêu tâng cho phát hiẹn va ngan chạn trang web
lưa đao nhằm phân tách nhiẹm vụ cụ thể trên mỗi tâng khác nhau, giúp giam
thiểu quá trình xư lý dư liẹu, tang hiẹu xuât cho phát hiẹn trang web lưa đao.
Trong đo, tâng mọt và tâng hai có nhiẹm vụ sàng lọc nhưng dâu hiẹu lưa đao
dưa vao cac đạc trung đuơc trích xuât tư URL và Content cua trang web. Tâng
ba và tâng bôn có nhiẹm vụ chuân đoan thong qua kỹ thuạt sư dụng Blacklist và
tham vân dich vụ tư các chuyên gia PhishTank và Safe Browsing cua Google.
Hình 2.1. Mô hình kiên truc đa tâng cho phát hiẹn va ngan chạn
trang web lưa đao
Quy trình hoạt đọng cua kiên trúc nhiêu tâng cho phát hiẹn va ngan chạn
trang web lưa đao đuơc tích hơp vào mọt Plug-in trên phân mêm trình duyẹt,
25
hay còn đuơc biêt đên là mọt extension. Trong đo, tâng mọt và tâng hai đuơc
hoạt đọng nhu sau:
Khi nguơi dùng truy cạp tơi mọt URL cua trang web bât kỳ, extension sẽ
trích xuât cac đạc trung có trên URL, kêt qua sau khi trích xuât đuơc tạp hơp
thành mọt vector đạc trung. Tiêp theo, extension gưi vector đạc trung len may
chu PhishSer. Ngay khi nhạn đuơc dư liẹu cân xư lý, máy chu PhishSer sẽ đua
qua mô hình phát hiẹn đa đuơc huân luyẹn bằng thuạt toán Random Forest
(đuơc tùy biên) trên tạp dư liẹu (dataset) gôm 11.055 ban ghi dư liẹu tư nguôn
UCI[12][13][14][15]. Kêt qua cua quá trình phát hiẹn sẽ đuơc tra vê, xac đinh
URL đo co hay khong lưa đao; nêu đo la URL lưa đao, extension trên trình
duyẹt cua nguơi dùng sẽ kích hoạt chưc nang ngan chạn khong cho nguơi dùng
truy cạp tơi nó và hiển thi thông báo cho nguơi dùng biêt. Đông thơi, cạp nhạt
URL lưa đao này vào Blacklist (danh sach đen). Trong giai đoạn này, tâng mọt
và tâng hai cua kiên truc co chê hoạt đọng la nhu nhau. Điểm khác biẹt giưa hai
tâng trong kiên truc ma chung toi đê xuât là nhóm đạc trung đuơc trích xuât dưa
vào giá tri cua URL tôn tại trên thanh đia chi cua trình duyẹt (Address bar) là 8
đuơc thưc hiẹn trên tâng mọt và nhom đạc trung dưa trên sư bât thuơng cua mã
HTML, JavaScript (gọi la đạc trung dưa trên Content) là 9 (cụ thể sẽ đuơc đạc ta
trong mục 2.2 cua chuong nay) đuơc thưc hiẹn trên tâng hai. Nguơc lại, nêu
không phát hiẹn đuơc URL là lưa đao sẽ chuyển tiêp URL sang tâng ba và tâng
bôn để kiểm tra.
Trong tâng ba, vơi URL cân kiểm tra, máy chu PhishSer sẽ thưc hiẹn tham
chiêu trong co sở dư liẹu PhishSer blacklist (kho dư liẹu chưa các URL lưa đao
đuơc chúng tôi xây dưng bằng công nghẹ PHP và MySQL). Máy chu web tra vê
kêt qua, nêu URL nay đa tôn tại trong Blacklist, extension sẽ tiên hành chạn
URL này và thông báo tơi nguơi dùng nhu tren tâng mọt và tâng hai. Nguơc lại,
tiêp tục chuyển tiêp URL sang tâng bôn để kiểm tra.
Tại tâng bôn, URL sẽ đuơc tham vân vơi các dich vụ cua cua các hẹ
chuyên gia PhishTank và Google Safe Browsing. Hai dich vụ nay đêu cung câp
cho nguơi dùng tạp thu viẹn hàm API (Application Programming Interface) có
thể tham vân nhanh và dễ dàng bằng nhiêu ngôn ngư lạp trình khác nhau. Kêt
qua ngay sau khi hẹ chuyên gia tra vê sẽ đuơc kiểm tra, nêu URL là lưa đao,
extension sẽ chạn URL này và thông báo tơi nguơi dùng và cạp nhạt URL này
26
vào PhishSer blacklist. Nguơc lại, nêu khong xac đinh đuơc URL là lưa đao, sẽ
cho phép nguơi dùng truy cạp tơi URL mà họ mong muôn.
2.2. Tầng một và tầng hai
2.2.1. Nhiệm vụ sàng lọc
Đuơc thưc hiẹn trên tâng mọt và tâng hai, nhiẹm vụ sàng lọc là hoạt đọng
giúp hẹ thông có thể phát hiẹn nhanh và chính xác mọt sô trang web lưa đao.
Chưc nang sang lọc đuơc phép “bỏ sot” cac trang lưa đao nhung khong đuơc
“băt nhâm” cac trang lanh tinh. Nói cách khác, mọt trang web đa bi phát hiẹn ở
tâng mọt và tâng hai chăc chăn là trang lưa đao, trong khi trang web khong đuơc
phát hiẹn ở tâng mọt và tâng hai có thể là trang lưa đao hoạc lành tính. Nhưng
trang lưa đao đa đuơc phát hiẹn ở tâng mọt và tâng hai sẽ không phai xư lý thêm
ở các tâng ba, tâng bôn mât nhiêu thơi gian, do vạy hiẹu nang cua tông thể hẹ
thông đuơc nâng lên. Nhưng trang lưa đao không bi phát hiẹn ở tâng mọt và
tâng hai sẽ đuơc xư lý tiêp và phát hiẹn ở tâng ba và tâng bôn.
Quá trình sàng lọc đuơc chia làm hai pha: Pha huân luyẹn thưc hiẹn trên
tạp dư liẹu (dataset) đuơc tai vê tư kho dư liẹu học máy UCI để xây dưng mô
hình phát hiẹn và pha phát hiẹn đuơc tích hơp trên mọt Plug-in (extension) cua
trình duyẹt nguơi dùng.
Tại pha huấn luyện, luận văn thực hiện các công việc sau:
- Lưa chọn cac đạc trung phù hơp trên tạp dư liẹu đuơc tai tư UCI để xây
dưng mô hình phát hiẹn.
- Sư dụng ngôn ngư Python huân luyẹn dư liẹu bằng thuạt toán Random
Forest tiên hành xây dưng mô hình phát hiẹn.
- Kiểm soát ti lẹ duong tinh gia (trang web là lành tính nhung phat hiẹn là
lưa đao) để đua ra gia tri nguơng lam can cư cho viẹc phát hiẹn lưa đao.
- Luu trư mô hình phát hiẹn trên máy chu PhishSer phục vụ viẹc đôi chiêu
và so sánh khi có yêu câu tư extension tren may nguơi dùng.
Tại pha phát hiện trên extension của trình duyệt:
27
- Sư dụng ngôn ngư JavaScript trích xuât cac đạc trung co tren URL va tư
mã HTML, mã JavaScript cua trang web cân kiểm tra. Tạp hơp kêt qua thành
mọt vector đạc trung gưi lên máy chu PhishSer.
- Máy chu PhishSer tiên hành đua vector đạc trung qua mô hình phát hiẹn
đa đuơc huân luyẹn tại pha truơc.
- Thưc hiẹn so sánh kêt qua tra vê tư mô hình phát hiẹn vơi giá tri nguơng
đuơc sinh ra trên mô hình phát hiẹn, nêu vuơt qua nguơng cho phép thì kêt luạn
trang web đo la lưa đao, đông thơi kích extenstion kích hoạt tinh nang ngan chạn
và canh báo tơi nguơi dùng. Nguơc lại, chuyển tiêp để phát hiẹn trên các tâng
tiêp theo.
2.2.2. Phương pháp phát hiện dựa vào học máy
2.2.2.1. Trích chọn đặc trưng
Hoạt đọng trích chọn đạc trung tiên hành trên URL va Content can cư theo
30 đạc trung cua tạp dư liẹu (dataset) đuơc tai tư kho luu trư UCI . Tạp dư liẹu
tư UCI gôm 11.055 ban ghi dư liẹu, trong đo co 7.262 ban ghi dư liẹu đuơc gán
nhãn lưa đao và 3.793 ban ghi dư liẹu gán nhãn lành tính. Sô luơng đạc trung
đuơc chúng tôi đê xuât trong luạn van sau khi trích chọn lại la 17, đay la cac đạc
trung chăc chăn sẽ trích xuât đuơc tư trình duyẹt web. Mỗi đạc trung đuơc thư
nghiẹm trên trình duyẹt để có thể trích xuât nó mà không cân sư dụng bât kỳ
dich vụ web tư bên ngoài hoạc tư bên thư ba nào. Tuy nhiên, sô luơng đạc trung
càng nhiêu sẽ lam tang đọ chính xác trong viẹc phát hiẹn. Nguơc lại, sẽ làm
chạm quá trình xư lý do sô luơng đạc trung cân trích chọn là nhiêu hon.
Cac đạc trung cân trích chọn đuơc phân loại thành hai nhom: Đạc trung có
trong giá tri cua URL tôn tại tren thanh đia chi (Address bar), đạc trung bât
thuơng có trong mã HTML và mã JavaScript cua trang web. Duơi đay la danh
sach cac đạc trung đuơc trích chọn:
Bảng 2.1.Các đặc trưng được trích chọn sử dụng để xây dựng mô hình
TT Đặc trưng được trích chọn
từ Dataset Mô tả tóm tắt
Nhóm đặc
trưng
1 Having_IP_Address Co đia chi IP trong URL Address
bar 2 URL_Length URL co đọ dài bài bât
28
thuơng
3 Shortining_Service Sư dụng dich vụ rút gọn
URL
4 Having_At_Symbol Có biểu tuơng “@”
5 Double_Slash_Redirecting Điêu huơng vơi kí tư “//”
6 Prefix_Suffix Có kí tư “-” trong ten
miên
7 Having_Sub_Domain Vuơt quá sô luơng sub
domain theo quy đinh
8 HTTPS_token Thêm HTTPS vào domain
cua URL
9 Favicon Favicon đuơc liên kêt tư
domain khác
Bất thường
trong mã
HTML và
JavaScript
10 Request_URL Hình anh, video đuơc tai
tư domain khác
11 URL_of_Anchor
Có nhiêu liên kêt bằng thẻ
<a> tơi domain khác hoạc
không có giá tri cua thuọc
tính href
12 Links_in_tags
Sư dụng nguôn trong các
thẻ <meta>, <script>,
<link> tư domain khác
13 SFH (Server Form Handler) Thuọc tính action trong
các <form> có giá tri rỗng
14 Submitting_to_email Có chưc nang gưi email
trên trang web (mailto)
15 On_mouseover
Tăt tinh nang tren thanh
trạng thái trình duyẹt khi
đua chuọt qua liên kêt
16 RightClick Tăt tinh nang kich chuọt
phai
17 Iframe Sư dụng Iframe thu thạp
dư liẹu
29
Vơi mỗi đạc trung đuơc trích chọn trong Bang 2.1, chúng tôi sẽ sư dụng
chúng cho viẹc đê xuât quy tăc tuong ưng đuơc sư dụng trong giai đoạn thư
nghiẹm. Cac đạc trung [16] trong tạp dư liẹu cua UCI đuơc mô ta cụ thể nhu sau
(vơi tât ca các quy tăc có thể quy uơc thành: Lưa đao là 1; Lành tính là -1; Nghi
ngơ là 0):
- Địa chỉ IP: Đia chi IP là mọt ma đinh danh duy nhât đuơc găn vơi mọt
thiêt bi hoạt đọng tren moi truơng mạng. Đôi tuơng lưa đao sư dụng đia chi IP
thay vì tên miên để lưa nguơi dùng web. Bât kỳ URL hơp phap nao cung đuơc
hình thành bằng cách sư dụng tên máy chu (host name) va ten đuơng dân (path
name) nhung khong sư dụng đia chi IP.
Quy tắc: Nêu {IP tồn tại trong URL → 1
Không tồn tại → −1
- Độ dài của URL: URL là mọt chuỗi ký tư chư và sô đuơc sư dụng để
truy cạp tài nguyên mạng trên World Wide Web (WWW). URL là sư kêt hơp
cua giao thưc mạng, tên máy chu va đuơng dân. Đọ dài cua URL là mọt trong
nhưng tinh nang chinh đuơc trích xuât trong khi phát hiẹn các URL lưa đao. Đôi
tuơng lưa đao lơi dụng đọ dài cua URL để che dâu nhưng nọi dung nghi ngơ mà
nguơi dùng web khó có thể phát hiẹn.
Quy tắc: Nêu {
Độ 𝑑à𝑖 𝑈𝑅𝐿 < 54 → −1 𝑁𝑔ượ𝑐 𝑙ạ𝑖 𝑛ế𝑢 Độ 𝑑à𝑖 𝑈𝑅𝐿 ≥ 54 𝑣à ≤ 75 → 0
𝑁𝑔ượ𝑐 𝑙ạ𝑖 → 1
- Sử dụng dịch vụ rút gọn URL “TinyURL”: Rút gọn URL là mọt
phuong phap tren Web World Wide Web, trong đo mọt URL có thể đuơc làm
gọn hon đang kể vê chiêu dài và vân dân đên trang web băt buọc. Phuong phap
này đuơc thưc hiẹn bằng “HTTP Redirect” trên mọt tên miên ngăn, liên kêt đên
trang web có URL dài. Ví dụ: URL là http://portal.hud.ac.uk/ có thể rút ngăn
thành bit.ly/19DXSk4.
Quy tắc: Nêu {TinyURL → 1
Ngược lại → −1
- Biểu tượng “@”: Biểu tuơng “@” đuơc sư dụng bởi nhưng kẻ tân công
để làm cho trình duyẹt web bỏ qua mọi thư truơc nó và chuyển huơng nguơi
dùng đên liên kêt đuơc nhạp sau nó.
30
Quy tắc: Nêu {Url có kí tự @ → 1
Ngược lại → −1
- Ký tự “//”: Sư tôn tại cua ký tư “//” trong URL co nghĩa la nguơi dùng sẽ
đuơc chuyển huơng đên mọt trang web khác. Mọt ví dụ vê URL nhu vạy là:
http://www.legitimate.com//http://www.phishing.com. Chúng tôi kiểm tra vi trí
xuât hiẹn cua “//” va thây rằng nêu URL băt đâu vơi HTTP, điêu nay co nghĩa la
“//” sẽ xuât hiẹn ở vi trí thư sáu. Tuy nhiên, nêu URL sư dụng HTTPS thì “//” sẽ
xuât hiẹn ở vi trí thư bay.
Quy tắc: Nêu {Vị trí cuối cùng xuất hiện “//”trong URL > 7 → 1
Ngược lại → −1
- Ký tự “-”: Kí tư dâu “-” thuơng không đuơc sư dụng trong các URL hơp
pháp. Nhưng đôi tuơng lưa đao co xu huơng thêm tiên tô hoạc hạu tô đuơc phân
tách bằng (-) vào tên miên để nguơi dùng nhâm tuởng họ đang xư lý mọt trang
web hơp pháp. Ví dụ: http://www.confirme-paypal.com/.
Quy tắc: Nêu {Trong tên miền chứa kí tự (−) → 1
Ngược lại → −1
-Số lượng tên miền phụ vượt quá quy định: Gia sư có liên kêt sau:
“https://www.bidv.com.vn/doanh-nghiep”. Mọt tên miên có thể bao gôm các tên
miên câp cao nhât theo mã quôc gia (ccTLD - country-code Top-level
Domains), trong liên kêt tren la “vn”. Phân “com” giup xac đinh tô chưc hoạc cá
nhân hoạt đọng trong lĩnh vưc thuong mại, sư kêt hơp cua “.com.vn” đuơc gọi là
tên miên câp hai (SLD - Second Level Domain); “bidv” la ten thưc tê cua tên
miên. Để tạo quy tăc trích xuât tinh nang nay, truơc tiên chúng ta phai bỏ qua
(www.) Tư URL thưc tê là mọt tên miên phụ (Sub domain); sau đo, chung ta
phai loại bỏ (ccTLD) nêu nó tôn tại; cuôi cùng, chung toi đêm các châm “.” còn
lại.
Quy tắc: Nêu {
Dấu (. ) trong phần tên miền = 1 → −1
Dấu (. ) trong phần tên miền = 2 → 0
Dấu (. ) trong phần tên miền > 2 → 1
- HTTPS token: Đôi tuơng lưa đao có thể thêm giao thưc HTTPS vào
phân tên miên cua URL để lưa nguơi dùng. Ví dụ: “http://https-www-paypal-it-
webapps-mpp-home.soft-hair.com/”.
31
Quy tắc: Nêu {Sử dụng HTTPS trong tên miền của URL → 1
Ngược lại → −1
- Favicon: Favicon là mọt hình anh đô hoạ đuơc kêt hơp vơi mọt trang web
cụ thể. Hay favicon còn gọi là biểu tuơng cua trang web, là mọt hình icon đuơc
hiển thi phía góc trên cùng cua tab trình duyẹt. Khi nguơi dùng truy cạp vào
trang web bât kỳ sẽ nhìn thây biểu tuơng này nhu mọt logo đại diẹn cho chính
trang web đo. Do đo, nêu favicon đuơc tai tư tên miên khác vơi tên miên đuơc
hiển thi tren thanh đia chi thì có thể xac đinh là lưa đao.
Quy tắc: Nêu {Favicon được tải từ tên miền khác → 1
Ngược lại → −1
- Request URL: Đôi vơi hâu hêt các trang web hơp phap thuơng sư dụng
cac đôi tuơng hình anh, am thanh va video đuơc liên kêt tư bên ngoài trang. Tuy
nhiên, nhưng đôi tuơng liên kêt ngoai nay luon đam bao đuơc nằm trên cùng
mọt tên miên. Tư tính chât này cua Request URL, có thể sư dụng đạc trung nay
để phân loại các trang web.
Quy tắc: Nêu {Tỉ lệ yêu cầu liên kết tới tên miền khác < 22% → −1
Tỉ lệ % ≥ 22% và ≤ 61% → 0Ngược lại tỉ lệ % > 61% → 1
- Anchor (neo) trong thẻ <a>: Thẻ <a> trong HTML giúp tạo ra các liên
kêt giưa các trang trong cùng website. Do đo, nêu:
Giá tri cua thuọc tinh “href” trong thẻ <a> khác vơi tên miên cua website
thì truơng hơp nay cung giông nhu đạc trung Request URL;
Neo không liên kêt đên bât kỳ trang web nào. Ví dụ: <a href=“#”> hoạc <a
href=“#content”> hoạc <a href=“#skip”> hoạc <a href=“JavaScript::void(0)”>
Quy tắc: Nêu {Tỉ lệ % Anchor < 31% → −1
Tỉ lệ % Anchor ≥ 31% và ≤ 67% → 0 Ngược lại → 1
- Sử dụng tài nguyên <script>, <link>, <meta> từ tên miền khác: Vơi
trang web hơp pháp, sư dụng thẻ <meta> để cung câp siêu dư liẹu (metadata)
cho trang web, thẻ <script> để tạo tạp lẹnh JavaScript phía máy khách hoạc liên
kêt tơi tạp tin script, thẻ <link> để liên kêt tơi tạp tin “.css” trong cùng ten miên.
32
Quy tắc:
Nêu
{
Tỉ lệ % của liên kết trong(< 𝑀𝑒𝑡𝑎 >, < 𝑆𝑐𝑟𝑖𝑝𝑡 > 𝑣à < Link>) < 17% → −1
Tỉ lệ % của liên kết trong(< 𝑀𝑒𝑡𝑎 >, < 𝑆𝑐𝑟𝑖𝑝𝑡 > 𝑣à < Link>) ≥ 17% và ≤ 81% → 0 Ngược lại → 1
- SFH (Server Form Handler): Thẻ <form> giúp tạo ra mọt biểu mâu
cung câp cho nguơi dùng web không gian nhạp thong tin để gưi vê máy chu
web. Trong thẻ <form> có thuọc tinh “action” nhằm xac đinh trang web đich ma
dư liẹu cua nguơi dùng sẽ đuơc gưi tơi. Vơi trang web hơp phap trang web đich
sẽ nằm trong cùng tên miên. Tuy nhiên, vơi trang web lưa đao cac đôi tuơng đa
thay đôi giá tri cua thuọc tinh “action” la mọt chuỗi rỗng hoạc “about:blank”
hoạc trang đich là tư mọt tên miên khác.
Quy tắc: Nêu {
SFH là “about: blank” hoặc Is Empty → 1
SFH tham chiêu đên mọt ten miên khac → 0Ngoài ra → −1
- Gửi thông tin qua email (mailto): Biểu mâu (form) trong trang web cho
phép nguơi dùng gưi thông tin cá nhân tơi mọt máy chu để xư lý. Tuy nhien, đôi
tuơng lưa đao có thể chuyển huơng thông tin cua nguơi dùng tơi đia chi email
cá nhân cua chúng bằng phuong phap sư dụng chưc nang “mailto:” trong trang
web và sư dụng hàm mail() ở phía máy chu để kích hoạt chưc nang gưi mail.
Quy tắc: Nêu {Sử dụng “mail()”hoạc“mailto:”để gưi thong tin → 1
Ngoài ra → −1
- Tắt sự kiện onMouseOver: Đôi tuơng lưa đao có thể sư dụng JavaScript
để hiển thi URL gia mạo trong thanh trạng thai cho nguơi dùng. Để trích xuât
đạc trung nay chung ta khai thac trong ma nguôn cua trang web, đạc biẹt là sư
kiẹn onMouseOver và kiểm tra xem nó có thưc hiẹn bât kỳ thay đôi nào trong
thanh trạng thái hay không.
Quy tắc: Nêu {Sự kiện onMouseOver thay đổi thanh trạng thái → 1
Không thay đổi thanh trạng thái → −1
- Vô hiệu hoá chức năng chuột phải: Nhằm che dâu hanh đọng kiểm tra
mã nguôn cua nguơi dùng, đôi tuơng lưa đao tiên hành vô hiẹu hoa tinh nang
33
kích chuọt phai trên trang web thông qua bằng sư kiẹn onMouseOver để ân liên
kêt hoạc thêm sư kiẹn “event.button==2” vào mã nguôn cua trang web.
Quy tắc: Nêu {Tính năng chuột phải bị vô hiệu hoá → 1
Ngoài ra → −1
- Sử dụng IFrame thu thập dữ liệu: IFrame là mọt thẻ trong HTML,
đuơc sư dụng để hiển thi mọt trang web bô sung vào trong trang web hiẹn tại.
Đôi tuơng lưa đao sư dụng IFrame vơi tùy biên khung viên cua nó nhằm che dâu
sư quan sát trưc quan va lam cho nguơi dùng khó có thể phát hiẹn.
Quy tắc: Nêu {Sử dụng iframe → 1
Ngoài ra → −1
2.2.2.2. Thuật toán Random Forest
Giai thuạt học máy rưng ngâu nhiên (Random Forests - RF[11]) thưc hiẹn
huân luyẹn mô hình phân lơp (Hình 2.2) qua cac buơc chinh nhu sau:
- Tư tạp dư liẹu huân luyẹn có m phân tư và n biên (thuọc tính), xây dưng T
cây quyêt đinh mọt cach đọc lạp nhau.
- Mô hình cây quyêt đinh thư T đuơc xây dưng trên tạp mâu Bootstrap thư
T. Mâu Bootstrap thư T gôm m phân tư đuơc lây ngâu nhiên có hoàn lại tư tạp
huân luyẹn (tưc là mỗi cây quyêt đinh khong đuơc xây dưng trên cùng mọt tạp
dư liẹu).
- Tại nút trong, chọn ngâu nhiên n’ biên (n’<<n) và tính toán phân hoạch
tôt nhât dưa trên n’ biên này.
- Cay đuơc xây dưng đên đọ sâu tôi đa khong căt nhánh.
- Kêt thúc quá trình xây dưng T mo hình co sở. Mọt phân tư mơi đên x
đuơc phân lơp dưa vào bình chọn sô đong cua T mo hình co sở phân lơp phân tư
x.
34
Hình 2.2. Giai thuạt Rưng ngâu nhiên
Tuy nhiên, nêu chúng ta trở lại luạt gán nhãn ở nút lá cua các cây quyêt
đinh trong rưng ngâu nhiên, hai giai thuạt cây quyêt đinh phô biên là CART [17]
và C4.5 [18] thuơng dùng chiên luơc bình chọn sô đong. Thơi điểm xây dưng
cây quyêt đinh, nêu nút lá có chưa các phân tư dư liẹu cua các lơp không thuân
nhât, viẹc gan nhan cho nut la đuơc tính cho nhãn cua lơp có sô luơng phân tư
lơn nhât chưa trong nút lá. Xét ví dụ nhu hình 2.3, nút lá có chưa 14 phân tư
trong đo lơp hình vuông có 9 phân tư và lơp hình tròn có 5 phân tư. Nút lá sẽ
đuơc gán nhãn là hình vuông do sô phân tư lơp hình vuông nhiêu hon hình tròn.
Chiên luơc gán nhãn này làm cho luạt quyêt đinh khong đuơc chính xác. Khi
phân lơp, phân tư nao roi vao nut la đêu đuơc gán nhãn cua nút lá. Vì vạy, phân
tư p, q đuơc gán nhãn là vuông. Hiẹu qua phân lơp không cao (phân tư p có thể
sai).
35
Hình 2.3. Luạt bình chọn sô đong cho gán nhãn ở nút lá cua cây quyêt đinh, nút
lá có nhãn là vuong, nen điểm p và q đêu đuơc phân lơp vuông
2.2.3. Kiểm soát tỉ lệ dương tính giả
Mục đich cua tâng mọt và tâng hai la để sàng lọc, đuơc phép “bỏ sót” các
trang web lưa đao nhung không đuơc “băt nhâm” các trang lành tính. Do đo
chúng tôi mong muôn ti lẹ duong tinh gia thạt thâp (tưc là ti lẹ mọt trang web
lành tính bi gán nhâm là lưa đao thạt thâp) ở các tâng này. Để kiểm soat đuơc ti
lẹ duong tinh gia thay vì chọn ra sô đong nhu thuạt toán rưng ngâu nhien đuơc
nêu ở mục 2.2.2.2, chúng tôi sư dụng các xác suât lưa đao cho mỗi dư liẹu (mỗi
trang web sẽ có mọt xác suât lưa đao trong đoạn [0,1], xác suât càng lơn thì kha
nang lưa đao cang cao va nguơc lại). Cách phát hiẹn đuơc tiên hành nhu sau:
- Nêu xác suât lưa đao đu lơn hon mọt nguơng thì chúng tôi mơi coi đo la
lưa đao thưc sư, nguơc lại là lành tính.
- Nêu chọn nguơng quá bé thì tât ca các dư liẹu đua vao sẽ bi dư đoan la
lưa đao hêt. Nguơc lại, nêu chọn nguơng quá lơn thì sẽ bỏ sót tât ca các trang
web lưa đao. Nhu vạy mô hình sẽ khong co ý nghĩa gì nưa. Ở đay chung toi
kiểm soat nguơng để đam bao ti lẹ duong tinh gia đu thâp ở mọt mưc kỳ vọng
đa đạt ra, trong khi vân có kha nang phat hiẹn đuơc mọt sô trang web lưa đao
thưc sư.
2.3. Tầng ba và tầng bốn
2.3.1. Nhiệm vụ chuẩn đoán
Quá trình sàng lọc trang web lưa đao đuơc diễn ra tại tâng mọt và tâng hai.
Tuy nhiên, cac đôi tuơng tân công sư dụng nhiêu biẹn pháp khác nhau vơi
nhưng kỹ thuạt che dâu lưa đao ngày càng tinh vi. Trong khi tại tâng mọt và
36
tâng hai chi đong vai trò sang lọc trong kiên trúc cua hẹ thông; bên cạnh viẹc
mang lại đọ chính xác cao trong phát hiẹn lưa đao thì ti lẹ phát hiẹn vân chua đạt
đuơc nhu kỳ vọng. Do vạy, tại tâng ba và tâng bôn cua kiên trúc có nhiẹm vụ
chuân đoan URL cua trang web dưa vao Blacklist (danh sach đen) va tham vân
dich vụ PhishTank. Cụ thể, co chê hoạt đọng tại hai tâng nay đuơc thưc hiẹn
nhu sau:
Co chê hoạt đọng cua tâng ba:
- Khi có yêu câu cua nguơi dùng gưi URL cua trang web để kiểm tra có
hay không lưa đao, tâng mọt và tâng hai sư dụng kỹ thuạt học máy tiên hành
phát hiẹn. Nêu quá trình phát hiẹn cho rằng trang web cân kiểm tra không phai
là trang web lưa đao, URL cua trang web đo sẽ đuơc chuyển tiêp sang tâng thư
ba để phát hiẹn.
- Tại tâng ba cua kiên trúc, URL sẽ đuơc tiên hành truy vân trong danh
sach đen (đay la mọt tạp dư liẹu chưa các URL cua trang web lưa đao do chúng
tôi xây dưng va đuơc tư đọng cạp nhạt trên máy chu PhishSer cua chúng tôi).
Nêu kêt qua tra vê URL nay đa tôn tại trong danh sach đen, kêt luạn đay la trang
web lưa đao; đông thơi, extension tại trình duyẹt cua nguơi dùng tiên hanh ngan
chạn va đua ra canh bao cho nguơi dùng.
Co chê hoạt đọng cua tâng bôn:
- Quá trình phát hiẹn trang web lưa đao trong tâng bôn đuơc thưc hiẹn khi
tâng ba cua kiên trúc không phát hiẹn đuơc, URL cua trang web tiêp tục đuơc
gưi lên tâng bôn để kiểm tra.
- Tại đay, chung toi tiên hành mở kêt nôi tơi hẹ chuyên gia cua PhishTank
và Google Safe Browsing thông qua tạp API mà họ đa cung câp miễn phi; đông
thơi, gưi URL thưc hiẹn tham vân tư hẹ chuyên gia này. Nêu kêt qua tra vê cho
extension cua nguơi dùng đuơc xác minh là có lưa đao, lạp tưc sẽ ngan chạn,
đua ra canh bao cho nguơi dùng và cạp nhạt URL đo vao danh sach đen đuơc
triển khai trong tâng ba. Nguơc lại, truơng hơp xác đinh đo trang web lanh tinh
thì cho phép nguơi dùng truy cạp tơi trang web nhu viẹc truy cạp tơi mọt trang
web hơp pháp.
37
2.3.2. Tự động cập nhật Blacklist
Danh sach đen là tạp hơp dư liẹu đuơc tạo ra duơi hình thưc lạp chi mục
cac URL, domain va đia chi IP đa đuơc xac đinh là lưa đao. Các phân tư cua
danh sach đen đuơc luu trư trong mọt co sở dư liẹu và nó cung câp mọt co chê
cho các ưng dụng hoạc nguơi dùng muôn truy cạp để kiểm tra.
Danh sach đen cua trang web lưa đao đuơc xem là mọt nguôn dư liẹu quan
trọng đuơc các công cụ (Toolbar) phòng chông lưa đao sư dụng để tham vân và
đua ra thong bao cho nguơi dùng; đông thơi, ngan chạn quyên truy cạp cua họ
vào các trang web lưa đao. Ngay nay, phuong phap sư dụng danh sach đen đuơc
áp dụng hâu hêt trên các trình duyẹt nhu: Internet Explorer, Netscape, Chrome,
FireFox (đuơc tích hơp Toolbar cua Google Safe Browsing) nhằm phát hiẹn các
trang web lưa đao truơc khi nguơi dùng bi điêu huơng tơi nó. Phuong phap nay
rât dễ triển khai và dễ sư dụng, nhung danh sach đen chi có hiẹu qua nêu co sở
dư liẹu đuơc cạp nhạt thuơng xuyên và kip thơi.
Tuy nhiên, trên thưc tê để có thể duy trì mọt co sở dư liẹu đuơc cạp nhạt
liên tục cân đòi hỏi phai co đọi ngu nhan sư làm viẹc thuơng xuyên, kéo theo sư
tôn kém vê chi phí hoạt đọng. Mạt khac, cung tren thưc tê, để lam đuơc nhu vạy
là không kha thi bởi nhiêu trang web lưa đao mơi ngày càng gia tang nhanh
chong. Hon nưa, nhưng kẻ tân công có thể loại bỏ trang web lưa đao khỏi danh
sach đen mọt cách dễ dàng bằng cach đang ký nhưng tên miên mơi, thay đôi noi
luu trư cua mã nguôn web; do đo, cac URL va đia chi IP cung co thể thay đôi
theo.
Xuât phát tư viẹc khó có thể cạp nhạt tưc thơi danh sach đen cua các nhà
cung câp (PhishTank1, OpenPhish2, Safe Browsing3), tại tâng thư ba cua kiên
truc đa tâng cho phát hiẹn va ngan chạn trang web lưa đao, chúng tôi đê xuât
giai pháp xây dưng mọt danh sach đen rieng biẹt, giúp tư đọng cạp nhạt danh
sach đen khi phát hiẹn có trang web lưa đao diễn ra tại tâng mọt và tâng hai cua
kiên trúc. Ngoài ra, quá trình tư đọng cạp nhạt danh sach đen cua chúng tôi còn
tiêp tục đuơc diễn ra trên tâng thư tu cua hẹ thông ngay sau khi có kêt qua tra vê
tư hẹ chuyên gia nêu trang web nguơi dùng đang truy cạp là lưa đao.
1https://www.phishtank.com/
2https://openphish.com/
3https://safebrowsing.google.com/
38
2.3.3. Tham vấn dịch vụ PhishTank
PhishTank là mọt dư án tư OpenDNS hỗ trơ viẹc xác thưc, kiểm tra và gưi
báo cáo vê các trang web lưa đao. OpenDNS là mọt dich vụ cung câp dich vụ
phân giai tên miên, cung nhu ngan chạn các trang web bi nghi ngơ có tên miên
là lưa đao. PhishTank là mọt dich vụ hoạt đọng đọc lạp cua cùng mọt công ty.
OpenDNS tuyên bô đay la mọt co sở dư liẹu riêng biẹt va no khong đuơc sư
dụng vơi co sở dư liẹu cua PhishTank khi giai quyêt các tên miên trang web.
Điêu đo co nghĩa la hai co sở dư liẹu - mọt cho OpenDNS và mọt cho
PhishTank. Vê co ban PhishTank là mọt dich vụ cung câp cho nguơi dùng dễ
dàng kiểm tra mọt trang web bât kỳ thông qua URL có phai là lưa đao hay
không.
Hình 2.4. Giao diẹn website cua PhishTank
PhishTank đuơc ra măt vao thang 10 nam 2006 bởi David Ulevitch vơi tu
cách là mọt nhánh cua OpenDNS. Công ty cung câp mọt hẹ thông xác minh lưa
đao dưa vào cọng đông, noi nguơi dùng gưi nhưng URL cua trang web nghi ngơ
lưa đao và nhưng nguơi dùng khác “bỏ phiêu” nêu đo la lưa đao hay không.
PhishTank cung câp các dich vụ bao gôm:
- Tìm kiếm trang web lừa đảo: Nguơi dùng có thể tìm kiêm trưc tiêp
thông qua chưc nang tìm kiêm cua website bằng cách nhạp URL cua trang web
cân kiểm tra vào họp tìm kiêm. Hoạc trong truơng hơp các cá nhân, doanh
39
nghiẹp muôn xây dưng riêng mọt công cụ bao mạt có thể sư dụng dư liẹu cua
PhishTank thông qua API cua nó, bằng cach đang ký mọt tài khoan dành cho
nhà phát triển tren website. Đạc biẹt, vơi hai phuong thưc này PhishTank cung
câp dich vụ là hoàn toàn miễn phi cho nguơi dùng.
- Báo cáo trang web lừa đảo cho PhishTank: Để thưc hiẹn báo cáo trang
web lưa đao (thêm trang web lưa đao vao co sở dư liẹu cua PhishTank), nguơi
dùng cân phai đang ký tai khoan để trở thành thành viên nêu chua co. Qua trình
đang ký tai khoan không quá phưc tạp, điêu cân nhât mà PhishTank yêu câu
nguơi dùng là cung câp mọt đia chi email cho viẹc kích hoạt tài khoan và hẹ
thông đam bao rằng đây là mọt nguơi dùng cụ thể. Sau khi đang ký thanh cong,
nguơi dùng tiên hanh đang nhạp vào website và cung câp thông tin vê trang web
lưa đao hoạc trang web ma nguơi dùng nghi ngơ là lưa đao; đạc biẹt, băt buọc
phai nhạp đia chi URL cua cac trang web đo để PhishTank tiên hành phân tích.
Hình 2.5. Chưc nang bao cao trang web lưa đao cua PhishTank
Sau khi nguơi dùng gưi báo cáo vê trang web đuơc nghi ngơ là lưa đao,
hẹ thông sẽ cung câp danh sách cho phép nhưng thành viên khác vào xác minh
va “bỏ phiêu” vê tính chât lưa đao cua trang web.
40
Hình 2.6. Chưc nang bỏ phiêu trang web lưa đao cua PhishTank
2.3.4. Tham vấn dịch vụ Google Safe Browsing
Google Safe Browsing là mọt dich vụ cua Google cho phép nguơi dùng
hoạc các ưng dụng tư phía máy khách (may nguơi dùng) kiểm tra đia chi URL
cua trang web nghi ngơ lưa đao dưa trên danh sách các tài nguyên web không an
toan đuơc cạp nhạt bởi Google. Các tài nguyên không an toàn có thể bao gôm:
Các trang web lưa đao; trang web chưa phân mêm ma đọc; trang web chưa các
phân mêm không mong.
Vơi nguơi dùng, Google Safe Browsing cung câp mọt dich vụ kiểm tra
trạng thái cua trang web. Cho phép nguơi dùng nhạp đia chi URL cua trang web
cân kiểm tra trưc tiêp tren trang web co đia chi
“https://transparencyreport.google.com/safe-browsing/search”, cụ thể giao diẹn
nhu sau:
41
Hình 2.7. Chưc nang kiểm tra trạng thái trang web cua Google Safe Browsing
Vơi các ưng dụng đuơc cai đạt tại may nguơi dùng, Google Safe Browsing
cung câp mọt tạp API cho phép ưng dụng mở kêt nôi; đông thơi, gưi URL thưc
hiẹn tham vân tư hẹ chuyên gia này.
Hình 2.8. Trang web chưa tạp API cua Google Safe Browsing
42
CHƯƠNG 3. CÀI ĐẶT THỬ NGHIỆM
3.1. Cài đặt
3.1.1. Kỹ thuật xây dựng chương trình
Chuong trình thưc nghiẹm đuơc lạp trình trên các ngôn ngư chính là
Python, JavaScript, PHP vơi co sở dư liẹu MySQL. Trong đo:
- Python đong vai trò chạy thuạt toán học máy Random Forest xây dưng
mô hình phát hiẹn;
- JavaScript để xây dưng extension căm vào trình duyẹt web, có nhiẹm vụ
trích xuât cac đạc trung tren trang web cân kiểm tra và gưi các tạp kêt qua lên
máy chu web;
- PHP nhạn tạp giá tri cua cac đạc trung tư extension, đua qua mo hình phat
hiẹn. Nêu phát hiẹn có lưa đao, gưi yêu câu vê extension để ngan chạn, thông
bao nguơi dùng và cạp nhạt vao Blacklist đuơc tô chưc trong co sở dư liẹu
MySQL. Nguơc lại, gưi URL để truy vân trong Blacklist và hỏi chuyên gia.
Bảng 3.1.Thông tin kỹ thuật sử dụng trong chương trình thực nghiệm
Moi truơng thưc nghiẹm
- Processor: Intel(R) Core(TM) i5-5257U CPU @
2.70GHz
- Memory (Ram): 4 GB
- System type: 64-bit Operating System, x64-
basedprocessor
- OS: Windows 10 Pro N
Ngôn ngư sư dụng Python, JavaScript, PHP, HTML, CSS, Jquery
Máy chu web Apache
Hẹ quan tri CSDL MySQL
Công cụ lạp trình (IDE) Sublime Text
Thu viẹn va cac goi cai
đạt chinh scikit-learn, numpy, pickle
43
3.1.2. Tầng một và tầng hai
- Tai tạp dư liẹu trang web lưa đao đa đuơc phân lơp tư kho dư liẹu học
máy cua UCI [16]. Trên tông sô 11.055 dư liẹu cua trang web có trong tạp dư
liẹu, tiên hành chia làm hai phân, phân mọt gôm 9.055 dư liẹu (trong đo 5.488
dư liẹu đuơc gán nhãn lưa đao và 3.567 dư liẹu đuơc gán nhãn lành tính) đuơc
sư dụng làm dư liẹu huân luyẹn, phân còn lại là 2000 dư liẹu (trong đo 1.774 dư
liẹu đuơc gán nhãn lưa đao và 226 dư liẹu gán nhãn lành tính) đọc lạp vơi dư
liẹu sư dụng huân luyẹn để đanh gia mô hình.
- Vơi giai phap đuơc chung toi đê xuât để phát hiẹn trang web lưa đao trên
tâng mọt chi trích xuât dư liẹu phục vụ huân luyẹn để xây dưng mô hình vơi 8
đạc trung và trên tâng hai là 9 đạc trung trên tông sô 30 đạc trung cua tạp dư
liẹu ban đâu.
Hình 3.1.Tam đạc trung đuơc lưa chọn để huân luyẹn và xây dưng mô hình phát
hiẹn trên tâng mọt
45
- Thưc hiẹn huân luyẹn và xây dưng mô hình phát hiẹn trang web lưa đao
bằng thuạt toán Random Forest cho tâng mọt:
Hình 3.3. Chuong trình huân luyẹn và xây dưng mô hình phát hiẹn
trên tâng mọt
46
- Thưc hiẹn huân luyẹn và xây dưng mô hình phát hiẹn trang web lưa đao
bằng thuạt toán Random Forest cho tâng hai:
Hình 3.4. Chuong trình huân luyẹn và xây dưng mô hình phát hiẹn
trên tâng hai
- Sư dụng ngôn ngư JavaScript lạp trình extension tích hơp vào trình duyẹt
cua nguơi dùng.
47
Hình 3.5. Kiên truc extension cua Chrome
Hình 3.6. Câu trúc tạp tin cua extension đuơc lạp trình, cai đạt trên trình duyẹt
- Extension tiên hành trích xuât cac đạc trung cua URL khi nguơi dùng gưi
yêu câu truy cạp vào mọt trang web bât kỳ, bằng cách tạo ra các hàm trong
JavaScript truy cạp vào câu trúc DOM cua trang web để kiểm tra:
Hình 3.7. Extension thưc hiẹn trích xuât đạc trung tren trang web
48
- Tạp hơp kêt qua đuơc tra vê tư các hàm ở trên thành mọt vector kêt qua
cua cac đạc trung (vơi ý nghĩa cua giá tri “1” la lưa đao; “0” la nghi ngơ va “-1”
là lành tính). Ví dụ: feature_url = [1, -1, 1, 1, 1, -1, 0, 1]. Đông thơi, gưi vector
đạc trung nay len may chu web để đua qua mo hình phat hiẹn dưa trên URL,
tiên hành kiểm tra.
- Kêt qua tư máy chu web tra vê cho extension chính là giá tri cua xác suât
phát hiẹn cua chinh vector đạc trung vưa đuơc gưi lên. Sư dụng giá tri này thưc
hiẹn so sánh vơi giá tri nguơng (threshold) đuơc lưa chọn trong pha xây dưng
mô hình phát hiẹn. Nêu lơn hon gia tri nguơng (tưc đay la trang web lưa đao) thì
sẽ gưi yêu câu cho “background.js” cua extension xư lý ngan chạn, thông báo
cho nguơi dùng không nên truy cạp và dưng tiên trình phát hiẹn ngay trên tâng
mọt. Nguơc lại, thưc hiẹn tuong tư đôi cac đạc trung đuơc trích xuât trong
content cua trang web (chu yêu cac đạc trung bât thuơng trong mã HTML và
JavaScript).
Hình 3.8. Extension gưi vector đạc trung cua URL mọt lên máy chu web
49
Hình 3.9. Extension gưi vector đạc trung cua Content lên máy chu web
Hình 3.10. Máy chu web đua dư liẹu đa nhạn đuơc qua mô hình phát hiẹn
- Xư lý kêt qua tra vê sau khi đua qua mo hình phat hiẹn: Nêu URL cân
kiểm tra là cua mọt trang web lưa đao, thưc hiẹn ngan chạn va luu URL trang
web đo vao Blacklist. Nguơc lại, chuyển tiêp sang tâng ba để tiêp tục phát hiẹn:
50
Hình 3.11. So sánh kêt qua tra vê vơi giá tri nguơng cua tâng mọt
Hình 3.12. Tiên trình ngan chạn trang web khi phát hiẹn có lưa đao
Hình 3.13. Luu URL cua trang web lưa đao vào Blacklist
51
3.1.3. Tầng ba
Ngay khi hoạt đọng phát hiẹn va ngan chạn trang web lưa đao lân luơt diễn
ra ở tâng mọt và tâng hai không thành công, URL cua trang web cân kiểm tra
đuơc gưi lên tâng ba để tiêp tục phát hiẹn. Tâng ba đuơc chúng tôi xây dưng
mọt Blacklist chưa các trang web lưa đao, giúp cung câp cho nguơi dùng mọt
kenh để tham chiêu, truy vân và kiểm tra thông qua phân mêm ưng dụng hoạc
tra cưu trưc tiêp trên website cua chúng tôi.
Hình 3.14. Gưi URL lên máy chu web phát hiẹn trên tâng ba
Hình 3.15.Thưc hiẹn kiểm tra URL trong CSDL cua Blacklist
Kêt qua đuơc tra vê tại tâng ba, nêu URL đa tôn tại trong Blacklist,
extension tiên hành xư lý ngan chạn khong cho nguơi dùng truy cạp tơi URL
cua trang web hiẹn tại. Nguơc lại, tiêp tục thưc hiẹn kiểm tra URL này trên tâng
bôn.
52
3.1.4. Tầng bốn
Tại tâng bôn, chúng tôi lân luơt sư dụng API cua PhishTank và Google
Safe Browsing để kiểm tra URL đuơc gưi lên tư tâng ba.
- Đang ký mọt project để sư dụng API key trên Google Cloud Platform
truơc khi kiểm tra bằng Google Safe Browsing:
Hình 3.16. API key đuơc đang ký tư Google Cloud Platform
- Đang ký mọt project để sư dụng API key truơc khi kiểm tra trên
PhishTank:
Hình 3.17. API key đuơc đang ký tư PhishTank
53
- Sư dụng API cua Google Safe Browsing tiên hành kiểm tra:
Hình 3.18. Kiểm tra URL trên API cua Google Safe Browsing
Hình 3.19. Kiểm tra URL trên API cua PhishTank
3.2. Đánh giá
3.2.1. Phương pháp đánh giá
Phuong phap đanh gia cua luạn van đuơc dưa tren phuong phap ma trạn
nhâm lân (Confusion Matrix).
54
Mọt mô hình phát hiẹn đuơc đanh gia la tôt nêu ti lẹ TP (True Positive) và
TN (True Negative) lơn; đông thơi, ti lẹ FP (False Positive) và FN (False
Negative) nhỏ (tưc là ti lẹ TP, TN ti lẹ nghich vơi FP, FN). Trong đo:
- TP: Sô luơng cac mâu thuọc lơp duong đuơc phan loại chinh xac vao lơp
duong.
- FP: Sô luơng cac mâu không thuọc lơp duong bi phan loại nhâm vao lơp
duong.
- TN: Sô luơng cac mâu không thuọc lơp duong đuơc phan loại đung.
- FN: Sô luơng các mâu thuọc lơp duong bi phan loại nhâm vao các lơp
không phai lơp duong.
Bảng 3.2. Bảng đánh giá dựa trên phương pháp Confusion Matrix
Lớp dự đoán (Predicted class)
+ -
Lớp thực tế
(True class)
+ TP - True Positive FN - False Negative
- FP - False Positive TN - True Negative
Xuât phát tư nhiẹm vụ phát hiẹn trang web lưa đao đôi tâng mọt và tâng hai
vơi mục đich sang lọc. Do đo, chung toi tiên hành tính toán nhưng giá tri sau
lam can cư cho viẹc đanh gia mo hình:
- Vơi mọt cach xac đinh mọt lơp là Positive (lơp duong), Precision đuơc
đinh nghĩa la ti lẹ sô điểm True Positive trong sô nhưng điểm đuơc phân loại là
Positive (TP + FP). Giá tri cua Precision cao đông nghĩa vơi đọ chính xác cua
cac điểm tìm đuơc là cao:
Precision = 𝑇𝑃
𝑇𝑃+ 𝐹𝑃
55
- Recall đuơc đinh nghĩa la ti lẹ sô điểm True Positive trong sô nhưng điểm
thưc sư là positive (TP + FN). Giá tri cua Recall cao đông nghĩa vơi viẹc True
Positive Rate cao, tưc ti lẹ bỏ sot cac điểm thưc sư Positive là thâp:
Recall = 𝑇𝑃
𝑇𝑃+ 𝐹𝑁
3.2.2. Kết quả so sánh
Tiên hành đanh gia mo hình phat hiẹn trang web lưa đao trên tạp 2000 dư
liẹu còn lại tư nguôn dư liẹu cua UCI. Kêt qua cua đanh gia dưa tren phuong
pháp ma trạn nhâm lân (Confusion Matrix), trong đo coi lơp duong (Positive) la
trang web lưa đao, lơp âm (Negative) là trang web lành tính.
So sánh kêt qua thưc nghiẹm giưa các mô hình dưa trên các thuạt toán học
máy khác nhau:
Bảng 3.3. Kết quả thực nghiệm trên các mô hình đối với tầng một
Mô hình Số lượng đặc
trưng Precision Recall
SVM 8 87,3% 53,1%
RF 8 79,6% 63,0%
Tầng 1 8 99,1% 30,3%
Bảng 3.4. Kết quả thực nghiệm trên các mô hình đối với tầng hai
Mô hình Số lượng đặc
trưng Precision Recall
SVM 9 79,1% 99,5%
RF 9 84,7% 97,0%
Tầng 2 9 99,2% 43,2%
Nhận xét: Nhu vạy, dưa vao kêt qua thư nghiẹm đuơc thưc hiẹn tren tâng
mọt va tâng hai co thể thây đọ đo Precision (ti lẹ chinh xac trong phat hiẹn đung
trang web lưa đao) tren mo hình cua chung toi so vơi mo hình cua hai thuạt toan
SVM va Random Forest la vuơt trọi hon hẳn. Trong đo, đọ chinh xac trong phat
56
hiẹn cua tâng mọt la 99,1% va tâng hai la 99,2%. Đông nghĩa vơi viẹc khong co
phat hiẹn nhâm xay ra. Ben cạnh đo, gia tri cua Recall (hiẹu xuât phat hiẹn trang
web lưa đao) không cao, do trong nghien cưu cua chung tôi cho phép “bỏ sot”
tren tâng mọt va tâng hai. Tuy nhien, nhiẹm vụ nay sẽ tiêp tục tiên hanh phat
hiẹn tren tâng ba va tâng bôn cua kiên truc hẹ thông đa đuơc đê xuât.
3.3. Triển khai thử nghiệm
- Cai đạt Extension “PPA Phishing Detector” tren trình duyẹt cua máy tính
nguơi dùng.
Hình 3.20. Cai đạt Extension vào trình duyẹt
- Cai đạt moi truơng và các dich vụ máy chu web trên hẹ thông máy chu.
Hình 3.21. Cai đạt máy chu web trên Server
57
- Chuân bi dư liẹu thư nghiẹm.
Hình 3.22. Dư liẹu cho tiên hành thư nghiẹm
- Kêt qua thư nghiẹm.
Hình 3.22. Canh báo khi phát hiẹn có trang web lưa đao
59
KẾT LUẬN
Luạn van đa trình bay mọt huơng tiêp cạn có hiẹu qua trong đo kêt hơp
giưa hai nhóm giai pháp kỹ thuạt: Kỹ thuạt học máy và kỹ thuạt dưa vào cọng
đông trong viẹc phát hiẹn va ngan chạn trang web lưa đao. Đông thơi, đê xuât
mọt kiên trúc nhiêu tâng cho tiên hành thưc nghiẹm, cụ thể: Tâng mọt và tâng
hai thưc hiẹn sàng lọc nhanh trang web lưa đao bằng cach cai đạt mô hình học
may đa đuơc thiên vi hoá; Tâng ba và tâng bôn thưc hiẹn chuân đoan trang web
lưa đao thông qua hoạt đọng tham vân dich vụ blacklist và hỏi chuyên gia.
Quá trình nghiên cưu luạn van đa đạt đuơc mọt sô kêt qua chinh sau đay:
- Tìm hiểu các giai phap đa co trong phat hiẹn trang web lưa đao thông qua
các giai pháp cọng đông. Đông thơi, trình bày tóm tăt co sở lý thuyêt cua các
thuạt toán phân lơp trong kỹ thuạt học máy bao gôm: Hôi quy Logistic, cây
quyêt đinh, Naive Bayes, máy vector hỗ trơ (SVM), rưng ngâu nhiên (Random
Forest) cho phát hiẹn trang web lưa đao.
- Tiên hanh đê xuât kiên trúc nhiêu tâng trong phát hiẹn va ngan chạn trang
web lưa đao.
- Đê xuât đuơc giai pháp lưa chọn cac đạc trung tôt nhât đam bao hiẹu qua,
hiẹu suât cho xây dưng mô hình phát hiẹn.
- Tùy biên thuạt toán Random Forest nhằm thiên vi hoá trong viẹc xây
dưng mô hình phát hiẹn trang web lưa đao đuơc thưc hiẹn trên tâng mọt và hai.
- Nghiên cưu co chê kêt nôi, cách thưc làm viẹc vơi API cua các hẹ chuyên
gia cua Google Safe Browsing và PhishTank.
- Tiên hanh cai đạt và thư nghiẹm, đanh gia va so sanh kêt qua.
- Sư dụng kêt qua cua nghiên cưu, tiên hanh cai đạt, tích hơp thành công
công cụ phát hiẹn va ngan chạn trang web lưa đao vào trình duyẹt web cua
nguơi dùng.
Huơng phát triển tiêp theo:
Nghiên cưu mở rọng phuong phap vơi nhiêu huơng tiêp cạn trong phát
hiẹn trang web lưa đao hon. Tiêp tục nghiên cưu lưa chọn, bô sung them cac đạc
trung cua trang web lưa đao cho huân luyẹn và sinh mô hình phát hiẹn nhằm
nâng cao hiẹu qua hiẹu suât cua mô hình phát hiẹn.
60
TÀI LIỆU THAM KHẢO
[1] APWG, "Phishing Activity Trends Report," APWG, 2019.
[2] D. Ulevitch, "OpenDNS," Cisco, 1 November 2005. [Online]. Available:
https://www.opendns.com/.
[3] "Google Safe Browsing API," [Online]. Available:
http://code.google.com/apis/safebrowsing/developersguide.html.
[4] P. Prakash, M. Kumar, R.R. Kompella and M. Gupta, "Phishnet: Predictive
Blacklisting to Detect Phishing Attacks," in Proceedings IEEE, 2010.
[5] Y. Joshi, S. Saklikar, D. Das and S. Saha, "Phish Guard: A Browser Plug-In
for protection from phishing web sites,," in Published in 2nd International
Conference on Internet Multimedia Services Architecture and Applications,
2008.
[6] N. Chou, R. Ledesma, Y. Teraguchi and J. Mitchell, "Client-Side Defense
Against Web-Based Identity Theft," in NDSS, 2004.
[7] J. Mao, P. Li, K. Li, T. Wei and Z. Liang, "Bait alarm: Detecting Phishing
Sites using Similarity in Fundamental Visual Features," in Intelligent
Networking and Collaborative Systems, 2013.
[8] S. L. Salzberg, C4.5: Programs for Machine Learning by J. Ross Quinlan,
KLuwer Academic, 1993.
[9] L. Breiman, Classification and Regression Trees, New York, CA:
Wadsworth International Group, 1984.
[10] J. Ma, L. K. Saul, S. Savage and G. M. Voelker, "Beyond Blacklists:
Learning to Detect Malicious Website from Suspicious URLs," in KDD'09,
Paris, France, 2009.
[11] L. Breiman, "Random Forests," in Machine Learning, vol. 45, California,
Statistics DepartmentUniversity of CaliforniaBerkeley, 2001, pp. 5-32.
[12] Mohammad, Rami, McCluskey, Thabtah and Fadi, "An Assessment of
Features Related to Phishing Websites using an Automated Technique," in
International Conferece For Internet Technology And Secured
Transactions, London, UK, 2012.
[13] Mohammad, Rami, Thabtah, F. Abdeljaber and McCluskey, "Predicting
phishing websites based on self-structuring neural network," Neural
61
Computing and Applications, pp. 443-458, 2014.
[14] Mohammad, Rami, McCluskey, T. a. Thabtah and F. Abdeljaber,
"Intelligent Rule based Phishing Websites Classification," IET Information
Security, pp. 153-160, 2014.
[15] M. Karabatak and T. Mustafa, "Performance comparison of classifiers on
reduced phishing website dataset," in 2018 6th International Symposium on
Digital Forensic and Security (ISDFS), Antalya, Turkey, 2018.
[16] R. M. A. Mohammad, L. McCluskey and F. Thabtah, "UCI Machine
Learning Repository," 26 03 2015. [Online]. Available:
https://archive.ics.uci.edu/ml/datasets/phishing+websites.
[17] Breiman, L., J. H. Friedman, R. A. Olshen and C. J. Stone, "Classification
and Regression Trees," Belmont, CA: Wadsworth International Group,
1984.
[18] J. Quinlan, C4.5: Programs for Machine Learning, Morgan Kaufmann,
1993.