KIẾN TRÚC NHIỀU TẦNG CHO PHÁT HIỆN VÀ NGĂN CHẶN ...

63
ĐẠI HC QUC GIA HÀ NI TRƯỜNG ĐẠI HC CÔNG NGHPHM NGC THKIN TRÚC NHIU TNG CHO PHÁT HIN VÀ NGĂN CHẶN TRANG WEB LỪA ĐẢO LUẬN VĂN THẠC SĨ AN TOÀN THÔNG TIN Hà Ni - 2019

Transcript of KIẾN TRÚC NHIỀU TẦNG CHO PHÁT HIỆN VÀ NGĂN CHẶN ...

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

PHẠM NGỌC THỌ

KIẾN TRÚC NHIỀU TẦNG CHO PHÁT HIỆN VÀ

NGĂN CHẶN TRANG WEB LỪA ĐẢO

LUẬN VĂN THẠC SĨ AN TOÀN THÔNG TIN

Hà Nội - 2019

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

PHẠM NGỌC THỌ

KIẾN TRÚC NHIỀU TẦNG CHO PHÁT HIỆN VÀ

NGĂN CHẶN TRANG WEB LỪA ĐẢO

Chuyên ngành: An toàn thông tin

Mã số: 8480102.01

LUẬN VĂN THẠC SĨ AN TOÀN THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. LÊ ĐÌNH THANH

Hà Nội - 2019

1

LỜI CAM ĐOAN

Toi xin cam đoan cac kêt qua nghien cưu trong luạn van nay la san phâm

cua ca nhan toi duơi sư huơng dân cua thây giáo TS. Le Đình Thanh. Cac sô

liẹu, kêt qua đuơc cong bô la hoan toan trung thưc. Nhưng điêu đuơc trình bay

trong toan bọ luạn van nay la nhưng gì do toi tư nghien cưu hoạc la đuơc tông

hơp tư nhiêu nguôn tai liẹu khac nhau. Cac tai liẹu tham khao co xuât xư ro rang

va đuơc trich dân đây đu, hơp phap.

Toi xin hoan toan chiu trach nhiẹm truơc lơi cam đoan cua mình.

Hà Nội, ngày 18 tháng 11 năm 2019

Người cam đoan

Phạm Ngọc Thọ

2

LỜI CẢM ƠN

Lơi đâu tien toi xin đuơc gưi lơi biêt on sau săc tơi thây giao TS. Le Đình

Thanh, Phòng Thí nghiẹm An toàn Thông tin, Khoa Công nghẹ Thông tin,

Truơng Đại học Công nghẹ, Đại học Quôc gia Hà Nọi, nguơi thây đa luon tạn

tình chi bao, giup đơ và huơng dân toi trong suôt qua trình nghien cưu luạn van.

Toi xin chan thanh cam on cac thây, co giao trong Khoa Cong nghẹ Thong

tin, Truơng Đại học Cong nghẹ, Đại học Quôc gia Ha Nọi đa luon tạn tam

truyên dạy cho toi nhưng kiên thưc bô ich trong thơi gian toi tham gia học tạp va

nghien cưu tại nha truơng.

Toi cung xin gưi lơi cam on tơi Ban Lanh đạo va cac đông nghiẹp Bọ mon

Toán - Tin học, Học viẹn Canh sát Nhân dân, noi toi cong tac đa tạo điêu kiẹn

giup đơ toi trong qua trình học tạp.

Học viên

Phạm Ngọc Thọ

3

MỤC LỤC

LỜI CAM ĐOAN ................................................................................................. 1

LỜI CẢM ƠN ....................................................................................................... 2

MỤC LỤC ............................................................................................................ 3

DANH MỤC CÁC KÍ HIỆU VÀ CHỮ VIẾT TẮT ............................................ 5

DANH MỤC CÁC BẢNG ................................................................................... 7

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ ............................................................... 8

MỞ ĐẦU ............................................................................................................ 10

CHƯƠNG 1. GIỚI THIỆU ................................................................................ 12

1.1. Thưc trạng đang bao đọng cua các trang web lưa đao ............................ 12

1.2. Các giai phap đa co nhằm ngan chạn trang web lưa đao ......................... 15

1.2.1. Giai pháp dưa vào cọng đông ........................................................... 15

1.2.2. Giai pháp dưa vào học máy .............................................................. 18

1.3. Tiêp cạn cua chúng tôi ............................................................................. 22

1.4. Kêt qua đạt đuơc và kha nang ưng dụng ................................................. 23

CHƯƠNG 2. THIẾT KẾ KIẾN TRÚC NHIỀU TẦNG CHO PHÁT HIỆN VÀ

NGĂN CHẶN TRANG WEB LỪA ĐẢO ......................................................... 24

2.1. Tông quan ................................................................................................ 24

2.2. Tâng mọt và tâng hai ............................................................................... 26

2.2.1. Nhiẹm vụ sàng lọc ............................................................................ 26

2.2.2. Phuong pháp phát hiẹn dưa vào học máy ......................................... 27

2.2.3. Kiểm soát ti lẹ duong tính gia .......................................................... 35

2.3. Tâng ba và tâng bôn ................................................................................. 35

2.3.1. Nhiẹm vụ chuân đoan ....................................................................... 35

2.3.2. Tư đọng cạp nhạt Blacklist ............................................................... 37

2.3.3. Tham vân dich vụ PhishTank ........................................................... 38

2.3.4. Tham vân dich vụ Google Safe Browsing ........................................ 40

CHƯƠNG 3. CÀI ĐẶT THỬ NGHIỆM ........................................................... 42

3.1. Cai đạt ...................................................................................................... 42

3.1.1. Kỹ thuạt xây dưng chuong trình ....................................................... 42

3.1.2. Tâng mọt và tâng hai ........................................................................ 43

3.1.3. Tâng ba ............................................................................................. 51

3.1.4. Tâng bôn ........................................................................................... 52

3.2. Đanh gia ................................................................................................... 53

4

3.2.1. Phuong phap đanh gia ...................................................................... 53

3.2.2. Kêt qua so sánh ................................................................................. 55

3.3. Triển khai thư nghiẹm ............................................................................. 56

KẾT LUẬN ........................................................................................................ 59

TÀI LIỆU THAM KHẢO .................................................................................. 60

5

DANH MỤC CÁC KÍ HIỆU VÀ CHỮ VIẾT TẮT

Ký hiệu Chữ viết tắt Ý nghĩa

OTP One Time Password Mạt khâu sư dụng mọt lân

RF Random Forest Thuạt toán Random Forest

APWG Anti Phishing Working Group Tô chưc làm viẹc chông tọi

phạm mạng lưa đao

URL Universal Resource Locator Đinh vi tài tuyên hơp nhât

API Application Programming

Interface Giao diẹn lạp trình ưng dụng

TLD Top Level Domain Tên miên câp cao

IP Internet Protocol Giao thưc Internet

DNS Domain Name System Hẹ thông phân giai tên miên

CSS Cascading Style Sheet Ngôn ngư đinh kiểu tài liẹu

web

LR Decision Tree Thuạt toán cây quyêt đinh

NB Naive Bayes Thuạt toán Naive Bayes

SVM Support Vector Machine Thuạt toán máy hỗ trơ vector

UCI University of California, Irvine Truơng đại học Irvine cua

California

HTML Hyper Text Markup Language Ngôn ngư đanh dâu sieu van

ban

PHP Personal Home Page Ngôn ngư lạp trình web đọng

PHP

HTTP HyperText Transfer Protocol Giao thưc truyên tai sieu van

ban

HTTPS HyperText Transfer Protocol

Secure

Giao thưc truyên tai sieu van

ban kêt hơp vơi giao thưc bao

mạt TLS và SSL

WWW World Wide Web Không gian thông tin toàn câu

CSDL Co sở dư liẹu

TP True Positive Duong tinh thạt

FP False Positive Duong tinh gia

6

TN True Negative Âm tính thạt

FN False Negative Âm tính gia

TPR True Positive Rate Ti lẹ duong tinh thạt

FPR False Positive Rate Ti lẹ duong tinh gia

7

DANH MỤC CÁC BẢNG

Bảng 1.1. Thông kê sô luơng trang web lưa đao tư quý IV nam 2018 đên quý II

nam 2019 ............................................................................................................ 12

Bảng 1.2. Bang mô ta uu/ nhuơc điểm các giai phap đa co cho phat hiẹn trang

web lưa đao ......................................................................................................... 22

Bảng 2.1.Cac đạc trung đuơc trích chọn sư dụng để xây dưng mô hình ........... 27

Bảng 3.1.Thông tin kỹ thuạt sư dụng trong chuong trình thưc nghiẹm ............. 42

Bảng 3.2. Bang đanh gia dưa trên phuong phap Confusion Matrix .................. 54

Bảng 3.3. Kêt qua thưc nghiẹm tren cac mo hình đôi vơi tâng mọt................... 55

Bảng 3.4. Kêt qua thưc nghiẹm tren cac mo hình đôi vơi tâng hai .................... 55

8

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

Hình 1.1. Biểu đô thông kê sô luơng trang web lưa đao tư 10/2018 đên

06/2019 (13)

Hình 1.2. Biểu đô ti lẹ phân tram cac lĩnh vưc là mục tiêu cua tân công

lưa đao (13)

Hình 1.3. Tiên trình tân công lưa đao (14)

Hình 1.4. Mô phỏng siêu phẳng trong không gian hai chiêu và ba chiêu (20)

Hình 1.5. So đô giai thuạt rưng ngâu nhiên (21)

Hình 2.1. Mô hình kiên truc đa tâng cho phát hiẹn va ngan chạn trang

web lưa đao (24)

Hình 2.2. Giai thuạt Rưng ngâu nhiên (34)

Hình 2.3.

Luạt bình chọn sô đong cho gan nhan ở nút lá cua cây quyêt

đinh, nut la co nhan lavuong, nen điểm p va q đêu đuơc phân

lơp vuông

(35)

Hình 2.4. Giao diẹn website cua PhishTank (38)

Hình 2.5. Chưc nang bao cao trang web lưa đao cua PhishTank (39)

Hình 2.6. Chưc nang bỏ phiêu trang web lưa đao cua PhishTank (40)

Hình 2.7. Chưc nang kiểm tra trạng thái trang web cua Google Safe

Browsing (41)

Hình 2.8. Trang web chưa tạp API cua Google Safe Browsing (41)

Hình 3.1. Tam đạc trung đuơc lưa chọn để huân luyẹn và xây dưng mô

hình phát hiẹn trên tâng mọt (43)

Hình 3.2. Chín đạc trung đuơc lưa chọn để huân luyẹn và xây dưng mô

hình phát hiẹn trên tâng hai (44)

Hình 3.3. Chuong trình huân luyẹn và xây dưng mô hình phát hiẹn trên

tâng mọt (45)

Hình 3.4. Chuong trình huân luyẹn và xây dưng mô hình phát hiẹn trên

tâng hai (46)

9

Hình 3.5. Kiên truc extension cua Chrome (47)

Hình 3.6. Câu trúc tạp tin cua extension đuơc lạp trình, cai đạt trên

trình duyẹt (47)

Hình 3.7. Extension thưc hiẹn trích xuât đạc trung tren trang web (47)

Hình 3.8. Extension gưi vector đạc trung cua URL mọt lên máy chu

web (48)

Hình 3.9. Extension gưi vector đạc trung cua Content lên máy chu web (49)

Hình 3.10. Máy chu web đua dư liẹu đa nhạn đuơc qua mô hình phát

hiẹn (49)

Hình 3.11. So sánh kêt qua tra vê vơi giá tri nguơng cua tâng mọt (50)

Hình 3.12. Tiên trình ngan chạn trang web khi phát hiẹn có lưa đao (50)

Hình 3.13. Luu URL cua trang web lưa đao vào Blacklist (50)

Hình 3.14. Gưi URL lên máy chu web phát hiẹn trên tâng ba (51)

Hình 3.15. Thưc hiẹn kiểm tra URL trong CSDL cua Blacklist (51)

Hình 3.16. API key đuơc đang ký tư Google Cloud Platform (52)

Hình 3.17. API key đuơc đang ký tư PhishTank (52)

Hình 3.18. Kiểm tra URL trên API cua Google Safe Browsing (53)

Hình 3.19. Kiểm tra URL trên API cua PhishTank (53)

Hình 3.20. Cai đạt Extension vào trình duyẹt (56)

Hình 3.21. Cai đạt máy chu web trên Server (56)

Hình 3.22. Dư liẹu cho tiên hành thư nghiẹm (57)

Hình 3.23. Trang web cho nguơi dùng truy vân URL trưc tuyên (58)

10

MỞ ĐẦU

Ngày nay, mạng Internet đa va đang mang đên mọt sư thay đôi to lơn trên

mọi phuong diẹn cua cuọc sông, giup con nguơi có thể kêt nôi nhau và kêt nôi

vơi thê giơi trong mọi lĩnh vưc: Kinh tê, chính tri, van hoa, giao dục, .... nhằm

trao đôi, chia sẻ thông tin mọt cach nhanh chong. Đạc biẹt, trong kỷ nguyên

công nghẹ sô - thơi kỳ cua nên công nghiẹp 4.0 huơng tơi mọi hẹ thông, thiêt bi,

phuong tiẹn va con nguơi có thể giao tiêp vơi nhau mọt cách dễ dàng.

Tuy nhien, kéo theo đo la nhưng nguy co mât toàn thông tin có thể xay ra

bât cư lúc nào. Mọt trong nhưng môi đe dọa hiẹn hưu, đa tac đọng trưc tiêp tơi

con nguơi chính là vân đê lưa đao. Lưa đao là mọt hình thưc tân công cua các

đôi tuơng tọi phạm mạng nhằm chiêm đoạt thông tin nhạy cam cua nguơi dùng

nhu: Ten đang nhạp, mạt khâu, mã sô thẻ tín dụng, thông tin tài khoan ngân

hàng, mã xác thưc mọt lân (One Time Password - OTP) duơi hình thưc tạo lạp

nhưng trang web gia mạo vơi trang web cua các tô chưc hơp pháp.

Do đo, viẹc nghiên cưu phát hiẹn va ngan chạn các trang web lưa đao luôn

là mọt chu đê đuơc các tô chưc và cọng đông nguơi dùng Internet đạc biẹt quan

tâm. Đông thơi, cung đa co nhiêu giai phap đuơc đê xuât bởi mọt sô nhà nghiên

cưu nhằm ngan chạn tôi đa cac cuọc tân công lưa đao; song nhưng kẻ tân công

lưa đao luon tìm cach thay đôi phuong thưc hoạt đọng nhằm ngan can sư phát

hiẹn. Vì vạy, đê xuât mọt giai pháp có sư tiên hoa đuơc xem là mọt phuong

pháp hiẹu qua trong viẹc phát hiẹn va ngan chạn trang web lưa đao.

Luạn van “Kiên trúc nhiêu tâng cho phát hiẹn va ngan chạn trang web lưa

đao” đuơc thưc hiẹn nhằm đê xuât và thư nghiẹm mọt giai pháp hiẹu qua trong

viẹc phát hiẹn va ngan chạn trang web lưa đao. Ngoài các phân mở đâu và kêt

luạn, luạn van bao gôm 3 chuong:

Chương 1. Giới thiệu

Chuong nay trình bay thưc trạng đang bao đọng cua các trang web lưa đao

trên thê giơi nói chung và tại Viẹt Nam nói riêng. Trình bày các giai pháp phát

hiẹn đa co dưa vào cọng đông va phuong phap học máy trong phát hiẹn trang

web lưa đao. Chuong 1 cung trình bày tóm tăt cách tiêp cạn cua luạn van; tom

tăt kêt qua đạt đuơc và kha nang ưng dụng cua nghiên cưu.

11

Chương 2. Thiết kế kiến trúc nhiều tầng cho phát hiện và ngăn chặn

trang web lừa đảo

Trình bày tông quan kiên trúc nhiêu tâng cho phát hiẹn va ngan chạn trang

web lưa đao. Sau phân tông quan la trình bay phuong phap học máy sư dụng

trên thuạt toán rưng ngâu nhiên (Random Forest - RF) tùy biên tham sô, tư điêu

chinh ti lẹ duong tinh gia trong phát hiẹn trang web lưa đao, thưc hiẹn nhiẹm vụ

sàng lọc cho tâng mọt và tâng hai cua kiên trúc. Cuôi chuong nay trình bay các

phuong phap phat hiẹn dưa trên hẹ chuyen gia, danh sach đen (blacklist) tren

tâng ba và gọi API cua PhishTank, Google Safe Browsing trên tâng bôn.

Chương 3. Cài đặt thử nghiệm

La chuong kêt thúc cua luạn van, trình bay kỹ thuạt cai đạt thư nghiẹm và

cac buơc đuơc triển khai trên mỗi tâng. Lưa chọn phuong phap va tiên hành

đanh gia, so sanh kêt qua thư nghiẹm. Đông thơi, nghiên cưu và triển khai thư

nghiẹm tích hơp kêt qua nghiên cưu vào mọt tiẹn ích mở rọng (extension) cài

đạt vào trình duyẹt cua nguơi dùng.

Trong quá trình thưc hiẹn luạn van không tránh khỏi nhưng thiêu sót trong

nọi dung cung nhu trong trình bày. Vơi mong muôn đuơc phát triển hon nưa

trong lĩnh vưc đang nghien cưu, tác gia cua luạn van rât mong nhạn đuơc sư

đong gop ý kiên cua các thây cô giáo và cua các anh/chi học viên.

12

CHƯƠNG 1. GIỚI THIỆU

1.1. Thực trạng đáng báo động của các trang web lừa đảo

Trang web lưa đao đuơc tạo ra bởi cac đôi tuơng tọi phạm nhằm mục đich

chiêm đoạt nhưng thông tin nhạy cam cua nguơi dùng nhu ten đang nhạp, mạt

khâu, mã sô thẻ tín dụng, mã xác thưc OTP và các thông tin liên quan tơi tài

khoan ngân hàng, ...Vơi sư kêt hơp giưa hai yêu tô chính, đo là: Sư dụng kỹ

thuạt tạo trang web gia mạo vơi trang web cua các tô chưc hơp pháp và yêu tô

tac đọng tâm lý cua nguơi dùng (hay còn đuơc biêt đên là Social Engineering -

Kỹ nghẹ xã họi) đa góp phân thành công giúp cac đôi tuơng tọi phạm thưc hiẹn

hành vi lưa đao.

Trên thê giơi, theo sô liẹu báo cáo cua tô chưc APWG [1] (Anti Phishing

Working Group), trong quý II nam 2019 đa phat hiẹn có tông sô 182.465 trang

web lưa đao. Con sô nay tang len đang kể so vơi quý I nam 2019 phat hiẹn là

180.768 va quý IV nam 2018 la 138.328 trang web lưa đao.

Bảng 1.1. Thống kê số lượng trang web lừa đảo từ quý IV năm 2018 đến quý II

năm 201

Quý IV - Năm 2018 Quý I - Năm 2019 Quý II - Năm 2019

Tháng

10

Tháng

11

Tháng

12

Tháng

1

Tháng

2

Tháng

3

Tháng

4

Tháng

5

Tháng

6

56.815 35.719 45.794 48.663 50.983 81.122 59.756 61.820 60.889

(Tổng hợp số liệu trích từ nguồn của APWG)

Tuy nhiên, khi mọt trang web lưa đao đuơc tạo ra, cac đôi tuơng tọi phạm

lạp tưc tiên hanh thay đôi thành hàng nghìn các biên thể đia chi URL cua nhưng

trang web đo truơc khi phát tán tơi nguơi dùng. Do đo, khi nguơi dùng truy cạp

vào nhưng đia chi này thì sẽ đêu đuơc điêu huơng tơi cùng mọt trang đich lưa

đao. Sô liẹu ma APWG đa tiên hành thông kê sô luơng đuơc dưa vào tính duy

nhât cua các trang web lưa đao (khong tinh đên nhưng URL biên thể cua cùng

mọt trang web).

Qua sô liẹu đuơc báo cáo tư APWG có thể dễ dàng nhạn thây, sô luơng các

trang web lưa đao xuât hiẹn trong nhưng nam trở lại đay ngay cang co xu huơng

13

gia tang mà không có dâu hiẹu giam xuông. Điêu này gây ra nhưng tôn thât

nạng nê cho nên kinh tê thê giơi nói chung và nhưng nguy co mât an toàn thông

tin noi rieng đôi vơi các tô chưc, doanh nghiẹp va đạc biẹt là vơi cá nhân.

Hình 1.1. Biểu đô thông kê sô luơng trang web lưa đao tư 10/2018 đên 06/2019

Mục tiêu cua các cuọc tân công lưa đao đuơc cac đôi tuơng huơng tơi chu

yêu tạp trung vào mọt sô lĩnh vưc nhu: Phân mêm duơi dạng dich vụ, dich vụ

webmail, dich vụ thanh toán, dich vụ cua các tô chưc tai chinh, thuong mại điẹn

tư, dich vụ luu trư trưc tuyên, ...

Hình 1.2. Biểu đô ti lẹ phân tram cac lĩnh vưc là mục tiêu cua tân công lưa đao

0

10,000

20,000

30,000

40,000

50,000

60,000

70,000

80,000

90,000

Tháng

10/2018

Tháng

11/2018

Tháng

12/2018

Tháng

1/2019

Tháng

2/2019

Tháng

3/2019

Tháng

4/2019

Tháng

5/2019

Tháng

6/2019

Số lượng trang web lừa đảo từ Quý IV - 2018 đến Quý II - 2019

14

Tại Viẹt Nam, theo sô liẹu thông kê cua Bọ Thông tin và Truyên thông tại

thơi điểm 6 thang đâu nam 2019, trong tông sô 3.159 cuọc tân công mạng vào

hẹ thông thông tin, có 968 cuọc tân cong thay đôi giao diẹn (Deface), 635 cuọc

tân công cài căm ma đọc (Malware) va đạc biẹt đôi vơi loại hình tân công lưa

đao (Phishing) có tơi 1.556. Trong đo, cac cuọc tân công lưa đao chu yêu đuơc

tiên hành thông qua viẹc xây dưng các trang web gia mạo vơi các tô chưc hơp

pháp hoạt đọng trong cac lĩnh vưc tài chính, ngân hàng, mạng xã họi, ... nhằm

lưa gạt nguơi dùng cung câp thông tin nhạy cam cá nhân hòng chiêm đoạt

chúng.

Để thưc hiẹn thành công hành vi lưa đao, đôi tuơng tân công sẽ tiên hành

nhưng cách thưc nhu sau:

Hình 1.3. Tiên trình tân công lưa đao

- Tạo một trang web giả mạo: Là mọt phân kê hoạch cua cuọc tân công

lưa đao, nhưng đôi tuơng tân công tạo ra mọt trang web gia mạo có giao diẹn và

tuong tác tuong tư vơi trang web gôc. Chúng sư dụng nhưng tinh nang chinh

cua trang web gôc nhu logo, bô cục và nọi dung cua trang web để nguơi dùng

không phát hiẹn đây là trang web gia mạo.

- Liên kết một trang web giả mạo qua email: Sau khi tạo ra trang web

gia mạo, đôi tuơng tân công tạo ra nhưng email vơi nhiêu nọi dung khác nhau

nhu gay tinh tò mò, sư kích thích vê tâm lý cua nguơi dùng nhu: cạp nhạt thông

15

tin tài khoan trong các dich vụ tài chính - ngân hàng, khai báo thông tin cá nhân

tham gia chuong trình trung thuởng, ...Sau đo, chung gưi hàng nghìn email kiểu

này đên nguơi dùng va lam cho nguơi nhạn (nguơi dùng) kích vào mọt URL để

chuyển huơng đên trang web gia mạo.

- Kích chuột vào một URL độc hại: Nguơi dùng không biêt URL đọc hại

đuơc cung câp trong email, lạp tưc kích chuọt vào và dễ dàng bi chuyển huơng

đên trang web gia mạo do đôi tuơng lưa đao đa tạo ra. Tại đay, mọt cuọc tân

công lưa đao băt đâu diễn ra.

- Nhập thông tin nhạy cảm: Khi nguơi dùng đuơc chuyển huơng đên

trang web gia mạo, các thông tin nhạy cam nhu ten đang nhạp, mạt khâu, mã sô

thẻ tín dụng va cac thong tin khac đuơc nguơi dùng lân luơt nhạp trên trang web

do nhưng đôi tuơng lưa đao đa tạo ra.

- Tập hợp dữ liệu sau khi đánh cắp và sử dụng nó: Khi nguơi dùng đa

nhạp nhưng thông tin nhạy cam, tât ca nhưng dư liẹu này sẽ đuơc nhưng đôi

tuơng lưa đao thu thạp, tông hơp để thưc hiẹn nhưng mục đich rieng nhu: Ban

dư liẹu nguơi dùng, giao dich bât hơp pháp, thưc hiẹn hoạt đọng rưa tiên.

1.2. Các giải pháp đã có nhằm ngăn chặn trang web lừa đảo

1.2.1. Giải pháp dựa vào cộng đồng

Hiẹn nay, có nhiêu giai pháp dưa trên cọng đông đuơc đê xuât để phát hiẹn

va ngan chạn trang web lưa đao. Mọt sô giai pháp đuơc tiêp cạn bao gôm:

PhishTank, Google Safe Browsing, PhishNet, PhishGuard, SpoofGuard,

BaitAlarm.

- PhishTank: Là mọt giai pháp giúp cọng đông nguơi dùng có thể dễ dàng

phát hiẹn nhưng trang web nghi ngơ có dâu hiẹu lưa đao. PhishTank đuơc xây

dưng và phát triển bởi tô chưc OpenDNS [2], nó cung câp mọt hẹ thông xác

minh lưa đao dưa vào cọng đông noi nguơi dùng gưi URL cua nhưng trang web

bi nghi ngơ lưa đao và nhưng nguơi dùng khác “bỏ phiêu”cho URL đo co hay

khôg sư lưa đao. Thưc chât, giai pháp cua PhishTank chính là viẹc duy trì mọt

danh sach đen (blacklist) bởi nguơi sư dụng. Dư liẹu tại đay đuơc cung câp miễn

phí để tai xuông hoạc truy cạp thông qua lẹnh gọi API, gôm ca cho mục đich

thuong mại.

16

- Google Safe Browsing: Đay la gia pháp sư dụng các URL trong danh

sach đen để khám phá các cuọc tân công lưa đao [3]. Mỗi URL cân kiểm tra

đuơc sư dụng làm dư liẹu đâu vào và thưc hiẹn kiểm tra URL đo trong kho danh

sach đen. Nêu URL co trong kho danh sach đen thì xac đinh đay la trang web

lưa đao; nguơc lại, trang web là lành tính. Vơi giai phap nay, điểm hạn chê

chính là không có kha phát hiẹn nhưng trang web có URL không tôn tại trong

danh sach đen, điểm này sẽ lam tang ti lẹ duong tinh gia trong phát hiẹn trang

web lưa đao.

- PhishNet: Giai pháp này có thể khăc phục các vân đê lien quan đên danh

sach đen. Giai pháp bao gôm hai buơc chính: Tạo ra các biên thể URL so vơi

các biên thể ban đâu để phát triển danh sach đen va câu trúc dư liẹu gán tưng

điểm sô cho URL dưa trên sư tuong đông cua URL hiẹn có [4]. Trong buơc thư

nhât, nó sư dụng cac phuong pháp phỏng đoan khac nhau để tạo các URL mơi

thay thê tên miên câp cao nhât (TLD - Top level domain), tuong đuong đia chi

IP, tuong tư câu truc thu mục, thay thê chuỗi truy vân, tuong đuong vơi tên

thuong hiẹu. Trong buơc thưc hai gôm, kỹ thuạt đôi sách giúp kiểm tra đia chi

IP, tên máy chu, ...

- PhishGuard: Đay la giai pháp thưc hiẹn trên thuạt toán ObURL để đanh

gia cac trang web đang ngơ dưa trên sư xuât hiẹn trưc quan cua các trang web

[5]. Thuạt toan nay đuơc xac đinh bằng cách: Kiểm tra danh sach đen và danh

sách trăng (whitelist), kiểm tra đia chi IP, kiểm tra sư dụng dich vụ rút gọn

URL, kiểm tra DNS và kiểm tra trên khuôn mâu.

+ Kiểm tra danh sách đen và danh sách trắng: Trong thư nghiẹm này, tât

ca các URL lân luơt đuơc xac minh trong danh sach đen va danh sach trăng.

Nguơi dùng an toan khi URL đuơc tìm thây trong sách trăng; đông thơi, nguơi

dùng sẽ đuơc canh báo nêu URL mà họ truy cạp đuơc tìm thây trong danh sách

đen.

+ Kiểm tra sử dụng dịch vụ rút gọn URL: Vơi thư nghiẹm này, nêu đôi

tuơng tân công sư dụng dich vụ rút gọn URL thì nguơi dùng sẽ nhạn đuơc thông

bao giup đua ra canh bao truơc nguy co cua cuọc tân công lưa đao.

17

+ Kiểm tra DNS: Trong thư nghiẹm nay, đuơc thưc hiẹn trích xuât và kiểm

tra giá tri cua neo (anchor) và các liên kêt. Nêu ca hai giá tri không giông nhau,

nguơi dùng sẽ nhạn đuơc thông báo rằng ca hai DNS la đêu khác nhau.

+ Kiểm tra trên khuôn mẫu: Trong thư nghiẹm này, siêu liên kêt và neo

đuơc xác minh cho tưng URL, nêu ca hai giông hẹt nhau, nguơi dùng sẽ không

đuơc thông báo; trong khi canh bao đuơc hiển thi cho nguơi dùng nêu ca hai

không giông nhau.

- SpoofGuard: Trong giai pháp này [6], các đạc tính lưa đao đuơc kiểm tra

đôi vơi cac trang web đang ngơ để phân loại xem mọt trang web là trang web

hơp pháp hay lưa đao. Mọt sô phuong phap phỏng đoan bao gôm: Kiểm tra hình

anh; kiểm tra liên kêt; kiểm tra URL và kiểm tra truơng mạt khâu. Tât ca các

dâu hiẹu nay đuơc đua ra mọt trọng sô, dưa tren đo trang web đuơc phân loại

phù hơp. Nêu tông sô điểm cua các dâu hiẹu lưa đao đuơc liẹt kê ở tren vuơt quá

nguơng, thì no đuơc phân loại là trang web lưa đao; nguơc lại đuơc phân loại là

mọt trang web hơp pháp. Cách tiêp cạn này có thể phát hiẹn cuọc tân công zero-

day. Tuy nhien, phuong phap nay cung co nhuơc điểm là cho ra tỷ lẹ duong tinh

gia cao trong phát hiẹn. Giai phap đuơc mô ta nhu sau:

+ Kiểm tra tên miền: Đạc tính nay đuơc sư dụng để xác minh tên miên cua

URL đa thư trong lich sư trình duyẹt. Sư giông nhau đuơc đanh gia bởi khoang

cách chinh sưa cua hai miên. Khoang cách chinh sưa đuơc đinh nghĩa la sô

luơng ký tư đuơc thêm hoạc xoa để chuyển đôi tư tên miên này sang tên miên

khác.

+Kiểm tra URL: Kiểm tra URL sẽ đuơc kích hoạt nêu có bât kỳ vân đê nào

lien quan đên tên miên, tên đang nhạp và sô công cua mọt URL cụ thể.

+ Kiểm tra hình ảnh: Đạc tính nay đuơc sư dụng để so sánh các hình anh

trong mọt trang web mơi vơi hình anh tren cac trang web truơc đo. Qua trình

nay đuơc thưc hiẹn bằng cách thu thạp mọi hình anh, tinh toan ham bam va so

sánh giá tri bam vơi các giá tri truơc đo. Sau khi tât ca các kiểm tra đuơc thưc

hiẹn, các trọng sô tư mỗi vòng đuơc tinh toan để so sánh vơi giá tri nguơng để

xac đinh xem có nên hiển thi canh bao cho nguơi dùng hay không.

- BaitAlarm: Giai pháp này sư dụng để phát hiẹn trang web lưa đao dưa

trên hình anh, trong đo đôi tuơng tân công sư dụng cùng mọt kiểu CSS

18

(Cascading Style Sheet) để gia mạo các trang web gôc [7]. Trong phuong phap

này, viẹc so sánh kiểu CSS đa đuơc thưc hiẹn vơi các trang web trong danh sách

trăng vơi cac trang web đang ngơ để phát hiẹn các cuọc tân công lưa đao.

1.2.2. Giải pháp dựa vào học máy

Vơi giai pháp dưa vào học máy, có nhiêu thuạt toán phân lơp đuơc áp dụng

để huân luyẹn mô hình dư đoan cho bai toan phat hiẹn trang web lưa đao. Trong

phân này, luạn van tìm hiểu mọt sô thuạt toán học máy phô biên nhu: Hôi quy

Logistic (Logistic Regression - LR), cây quyêt đinh (Decision Tree - DT), Naive

Bayes (NB), máy vector hỗ trơ (Support Vector Machine - SVM), rưng ngâu

nhiên (Random Forest - RF).

1.2.2.1. Hồi quy Logistic (Logistic Regression -LR)

Phuong phap Hôi quy Logistic là mọt phuong phap sư dụng mô hình hôi

quy nhằm dư đoan gia tri đâu ra rơi rạc y ưng vơi mọt véc-to đâu vào x. Phuong

phap nay thuơng đuơc sư dụng để dư báo sư có hay không có mạt cua biên phụ

thuọc y dưa vào giá tri cua biên đọc lạp x.

Theo mô hình Hôi quy Logistic, quan hẹ giưa xác suât trang web lưa đao

(y=1) và các yêu tô anh huởng đuơc thể hiẹn:

𝑃(𝑦 = 1|𝑥; 𝑤, 𝑏) = 𝜎(𝑤𝑇𝑥 + 𝑏) = 1

1 + 𝑒−(𝑤𝑇𝑥+𝑏) (1)

Tôi uu ham Hôi quy Logistic có thể đuơc tính toán theo công thưc:

(𝑤, 𝑏) ← 𝑎𝑟𝑔𝑤,𝑏𝑚𝑖𝑛1

𝑇∑ − (𝑦𝑡 log 𝜎𝑡

𝑇

𝑡=1

+ (1 − 𝑦𝑡) log(1 − 𝜎𝑡) (2)

Trong đo, T là kích cơ tạp dư liẹu trang web lưa đao, yt là lơp tuong ưng

cua dư liẹu thư t trong tạp dư liẹu 𝜎(𝑤𝑇𝑥 + 𝑏).

1.2.2.2. Cây quyết định (Decision Tree - DT)

Cây quyêt đinh là mọt dạng đạc biẹt cua câu truc cay đuơc xây dưng để trơ

giúp viẹc ra quyêt đinh dưa trên các câu hỏi. Kỹ thuạt học máy sư dụng viẹc xây

dưng cây quyêt đinh trên tạp dư liẹu đuơc gọi là học bằng cây quyêt đinh hay

đon gian chi là cây quyêt đinh. Mỗi nút bên trong cua cay tuong ưng vơi mọt

19

đạc trung, cac nut la đại diẹn cho các phân loại va cac canh đại diẹn cho các kêt

hơp cua cac đạc trung dân tơi phân loại đo. Cac canh đuơc phân tách dưa trên

giá tri cua cac đạc trung.

Quá trình học cây quyêt đinh gôm 3 giai đoạn:

1- Tạo cây: Sư dụng thuạt toán phân lơp để phân chia dư liẹu sao cho mọi

nut la đêu có cùng mọt giá tri trên thuọc tính quyêt đinh. Viẹc lưa chọn đạc

trung cho mỗi nut đuơc dưa tren đọ lơi thông tin cua cac đạc trung tren bọ huân

luyẹn. Có rât nhiêu thuạt toán phân lơp dưa trên cây quyêt đinh nhu: C4.5 [8],

CART [9], ...

2 - Căt tia cây: Là viẹc làm nhằm khăc phục nhưng khuyêt điểm cua cây

nhu loại bỏ nhánh không phù hơp (nhánh lỗi).

3 - Kiểm đinh kêt qua: Đanh gia đọ chinh xac truơc khi sư dụng.

1.2.2.3. Naive Bayes (NB)

Naive Bayes là mọt thuạt toán dưa tren đinh lý Bayes vê lý thuyêt xác suât

để đua ra cac phan đoan cung nhu phan loại dư liẹu. Naive Bayes gia đinh rằng

tât ca cac đạc trung cua x la đọc lạp vơi nhau. P(x|y) biểu thi xác suât co điêu

kiẹn cua véc-to đạc trung cho mọt lơp, gia đinh đọc lạp ngụ ý rằng 𝑃(𝑥|𝑦) =

∏𝑖=1𝑑 𝑃(𝑥𝑖|𝑦) vơi d là sô luơng đạc trung. Bằng cách áp dụng lý thuyêt Bayes, ta

có thể tính xác suât để mọt véc-to đạc trung x là mọt trang lưa đao bằng cách:

𝑃(𝑦 = 1|𝑥) =𝑃(𝑥|𝑦 = 1)

𝑃(𝑥|𝑦 = 1) + 𝑃(𝑥|𝑦 = −1) (3)

Thuạt toán Naive Bayes phân loại dễ dàng nhât bằng cách tính xác suât có

điêu kiẹn P(xi|y) tư uơc luơng hơp lý cưc đại (Maximum Likehood Estimation)

[10].

1.2.2.4. Máy vector hỗ trợ (Support Vector Machine - SVM)

Máy vector hỗ trơ (SVM) là mọt thuạt toán học máy có giám sát phô biên

dùng để phân chia dư liẹu thành các nhóm riêng biẹt. Thuạt toán sẽ tìm mọt

đuơng thẳng (trong không hai chiêu) hoạc mạt phẳng (trong khong gian đa

chiêu) cung đuơc gọi là siêu phẳng sẽ phân tách hiẹu qua nhât hai lơp. Siêu

20

phẳng nay sau đo đuơc dùng để phân lơp cho các dư liẹu chua biêt cân tiên

đoan.

Hình 1.4. Mô phỏng siêu phẳng trong không gian hai chiêu và ba chiêu

Siêu phẳng tôi uu la sieu phẳng có khoang cách vơi hai điểm dư liẹu gân

nhât tuong ưng vơi hai lơp là lơn nhât. Phuong trình chưa cac điểm dư liẹu này

gọi là các lê (margin). Do đo, sieu phẳng tôi uu la sieu phẳng có khoang cách

giưa nó và lê là xa nhât.

Siêu phẳng trong không gian d chiêu đuơc biểu diễn bằng công thưc:

WTx + b = 0

Khi đo khoang cach đuơc tính bằng công thưc:

ℎ =|𝑊𝑇𝑥0 + 𝑏|

√∑ 𝑤𝑖2𝑑

𝑖=1

(4)

SVM luôn cô găng cưc đại hoá khoang cách này, tư đo thu đuơc mọt siêu

phẳng tạo khoang cách xa nhât. Bài toán tôi uu la bai toan tìm w và b sao cho:

(𝑤, 𝑏) ← 𝑎𝑟𝑔𝑤,𝑏𝑚𝑖𝑛1

𝑇∑ max(0,1 − 𝑦𝑡(𝑤. 𝑥𝑡 + 𝑏)) + 𝜆||𝑤||2

2

𝑇

𝑡=1

(5)

Nhơ đo ma SVM co thể giam thiểu viẹc phân lơp sai đôi vơi dư liẹu mơi

đua vao.

1.2.2.5. Rừng ngẫu nhiên (Random Forest - RF)

Rưng ngâu nhiên [11] tạo ra mọt tạp hơp các cây quyêt đinh không căt

nhánh, mỗi cay đuơc xây dưng dưa trên tạp mâu ngâu nhiên có hoàn lại

21

(bootstrap). Các thuọc tính tại mỗi nut con đuơc chọn ngâu nhiên tư không gian

thuọc tinh ban đâu.

Thu tục xây dưng rưng ngâu nhiên gôm ba pha: Tạo dư liẹu (tạo vector

ngâu nhiên); Xây dưng cac cay co sở; Kêt hơp cac cay co sở theo phuong thưc

bỏ phiêu.

Hình 1.5. So đô giai thuạt rưng ngâu nhiên

Thuạt toán xây dưng rưng ngâu nhiên:

Đâu ra cua hẹ cho đôi tuơng x sẽ là:

- Đôi vơi bài toán hôi quy: 𝐶(𝑥) =1

𝐿∑ 𝐶𝑘(𝑥)𝐿

𝑘=1

- Đôi vơi bài toán phân lơp: 𝐶(𝑥) = [1

𝐿∑ 𝐶𝑘(𝑥)𝐿

𝑘=1 ]

22

1.3. Tiếp cận của chúng tôi

Hiẹn nay, trên thê giơi có nhiêu giai pháp khác nhau trong cách thưc tiêp

cạn cho phát hiẹn, ngan chạn trang web lưa đao va đa đuơc công bô tren phuong

diẹn nghiên cưu khoa học và đa đuơc triển khai thưc nghiẹm. Điển hình trong sô

đo la hai nhom giai pháp: Phát hiẹn trang web lưa đao dưa vào cọng đông và

phát hiẹn bằng phuong phap học máy.

Tuy nhiên, ở mỗi nhóm giai pháp, bên cạnh nhưng uu điểm đa đạt đuơc thì

vân còn tôn tại nhưng hạn chê nhât đinh. Cụ thể, uu/nhuơc điểm cua hai phuong

pháp đuơc tóm tăt trong bang sau:

Bảng 1.2. Bảng mô tả ưu/ nhược điểm các giải pháp đã có cho phát hiện trang

web lừa đảo

Giải

pháp

Ưu/

Nhược

điểm

Dựa vào cộng đồng Dựa vào phương pháp học máy

Ưu điểm

- Phát hiẹn chính xác

trang web lưa đao.

- Dễ dàng sư dụng và có

thể tích hơp vào nhưng

công cụ đuơc phát triển

riêng biẹt bởi các tô

chưc và cá nhân.

- Là mọt phuong phap tiêp cạn hiẹn đại

dưa trên nên tang cua trí tuẹ nhân tạo.

- Có thể dễ dàng tuỳ biên các thuạt toán

học máy trong quá trình nghiên cưu và

mở rọng.

- Có thể phát hiẹn nhưng trang web lưa

đao mơi đuơc tạo ra.

Nhược

điểm

- Kha nang cạp nhạt co

sở dư liẹu chạm.

- Không thể phát hiẹn

nhưng trang web lưa

đao mơi đuơc tạo ra.

- Khó tiêp cạn đôi nhưng nguơi mơi

nghiên cưu phuong phap học máy.

- Kêt qua phát hiẹn có ti lẹ sai sót

(duong tính gia và âm tính gia) nhât

đinh

Xuât phát tư nhưng uu va nhuơc điểm cua hai nhóm giai phap đa neu ở

trên, chúng tôi tiên hành kêt hơp nhưng uu điểm cua ca hai giai phap; đông thơi,

đê xuât tạo nên kiên trúc nhiêu tâng cho phát hiẹn va ngan chạn trang web lưa

đao. Kiên truc ma chung toi đê xuât đuơc chia thành bôn tâng. Cụ thể:

23

- Tầng một và tầng hai: Cai đạt mô hình học may đa đuơc thiên vi hoá,

thưc hiẹn nhiẹm vụ sàng lọc nhanh trang web lưa đao.

- Tầng ba và tầng bốn: Thưc hiẹn tham vân dich vụ blacklist và hỏi

chuyên gia nhằm tiên hành chuân đoan trang web lưa đao.

1.4. Kết quả đạt được và khả năng ứng dụng

- Sư dụng thuạt toán học máy trên tâng mọt và tâng hai cua kiên truc đê

xuât, thiên vi hóa thuạt toán học máy nhằm đam bao ti lẹ duong tinh gia rât thâp

(gân nhu bằng 0) giúp cho viẹc sàng lọc chính xác.

- Xây dưng kho blacklist chưa URL cua các trang web lưa đao, cung câp

giai phap website cho nguơi dùng tại Viẹt Nam có thể dễ dàng tra cưu và sư

dụng trong phát hiẹn, ngan chạn trang web lưa đao.

- Kêt nôi thành công, sư dụng API (Application Programming Interface)

cua các hẹ chuyen gia PhishTank va Google Safe Browsing, đuơc thưc hiẹn trên

tâng bôn cua kiên trúc.

- Đanh gia va so sanh kêt qua thư nghiẹm cua nghiên cưu.

- Sư dụng kêt qua cua nghiên cưu, tiên hanh cai đạt, tích hơp thành công

công cụ phát hiẹn va ngan chạn trang web lưa đao vào trình duyẹt web cua

nguơi dùng.

24

CHƯƠNG 2. THIẾT KẾ KIẾN TRÚC NHIỀU TẦNG CHO PHÁT HIỆN

VÀ NGĂN CHẶN TRANG WEB LỪA ĐẢO

2.1. Tổng quan

Viẹc xây dưng kiên trúc nhiêu tâng cho phát hiẹn va ngan chạn trang web

lưa đao nhằm phân tách nhiẹm vụ cụ thể trên mỗi tâng khác nhau, giúp giam

thiểu quá trình xư lý dư liẹu, tang hiẹu xuât cho phát hiẹn trang web lưa đao.

Trong đo, tâng mọt và tâng hai có nhiẹm vụ sàng lọc nhưng dâu hiẹu lưa đao

dưa vao cac đạc trung đuơc trích xuât tư URL và Content cua trang web. Tâng

ba và tâng bôn có nhiẹm vụ chuân đoan thong qua kỹ thuạt sư dụng Blacklist và

tham vân dich vụ tư các chuyên gia PhishTank và Safe Browsing cua Google.

Hình 2.1. Mô hình kiên truc đa tâng cho phát hiẹn va ngan chạn

trang web lưa đao

Quy trình hoạt đọng cua kiên trúc nhiêu tâng cho phát hiẹn va ngan chạn

trang web lưa đao đuơc tích hơp vào mọt Plug-in trên phân mêm trình duyẹt,

25

hay còn đuơc biêt đên là mọt extension. Trong đo, tâng mọt và tâng hai đuơc

hoạt đọng nhu sau:

Khi nguơi dùng truy cạp tơi mọt URL cua trang web bât kỳ, extension sẽ

trích xuât cac đạc trung có trên URL, kêt qua sau khi trích xuât đuơc tạp hơp

thành mọt vector đạc trung. Tiêp theo, extension gưi vector đạc trung len may

chu PhishSer. Ngay khi nhạn đuơc dư liẹu cân xư lý, máy chu PhishSer sẽ đua

qua mô hình phát hiẹn đa đuơc huân luyẹn bằng thuạt toán Random Forest

(đuơc tùy biên) trên tạp dư liẹu (dataset) gôm 11.055 ban ghi dư liẹu tư nguôn

UCI[12][13][14][15]. Kêt qua cua quá trình phát hiẹn sẽ đuơc tra vê, xac đinh

URL đo co hay khong lưa đao; nêu đo la URL lưa đao, extension trên trình

duyẹt cua nguơi dùng sẽ kích hoạt chưc nang ngan chạn khong cho nguơi dùng

truy cạp tơi nó và hiển thi thông báo cho nguơi dùng biêt. Đông thơi, cạp nhạt

URL lưa đao này vào Blacklist (danh sach đen). Trong giai đoạn này, tâng mọt

và tâng hai cua kiên truc co chê hoạt đọng la nhu nhau. Điểm khác biẹt giưa hai

tâng trong kiên truc ma chung toi đê xuât là nhóm đạc trung đuơc trích xuât dưa

vào giá tri cua URL tôn tại trên thanh đia chi cua trình duyẹt (Address bar) là 8

đuơc thưc hiẹn trên tâng mọt và nhom đạc trung dưa trên sư bât thuơng cua mã

HTML, JavaScript (gọi la đạc trung dưa trên Content) là 9 (cụ thể sẽ đuơc đạc ta

trong mục 2.2 cua chuong nay) đuơc thưc hiẹn trên tâng hai. Nguơc lại, nêu

không phát hiẹn đuơc URL là lưa đao sẽ chuyển tiêp URL sang tâng ba và tâng

bôn để kiểm tra.

Trong tâng ba, vơi URL cân kiểm tra, máy chu PhishSer sẽ thưc hiẹn tham

chiêu trong co sở dư liẹu PhishSer blacklist (kho dư liẹu chưa các URL lưa đao

đuơc chúng tôi xây dưng bằng công nghẹ PHP và MySQL). Máy chu web tra vê

kêt qua, nêu URL nay đa tôn tại trong Blacklist, extension sẽ tiên hành chạn

URL này và thông báo tơi nguơi dùng nhu tren tâng mọt và tâng hai. Nguơc lại,

tiêp tục chuyển tiêp URL sang tâng bôn để kiểm tra.

Tại tâng bôn, URL sẽ đuơc tham vân vơi các dich vụ cua cua các hẹ

chuyên gia PhishTank và Google Safe Browsing. Hai dich vụ nay đêu cung câp

cho nguơi dùng tạp thu viẹn hàm API (Application Programming Interface) có

thể tham vân nhanh và dễ dàng bằng nhiêu ngôn ngư lạp trình khác nhau. Kêt

qua ngay sau khi hẹ chuyên gia tra vê sẽ đuơc kiểm tra, nêu URL là lưa đao,

extension sẽ chạn URL này và thông báo tơi nguơi dùng và cạp nhạt URL này

26

vào PhishSer blacklist. Nguơc lại, nêu khong xac đinh đuơc URL là lưa đao, sẽ

cho phép nguơi dùng truy cạp tơi URL mà họ mong muôn.

2.2. Tầng một và tầng hai

2.2.1. Nhiệm vụ sàng lọc

Đuơc thưc hiẹn trên tâng mọt và tâng hai, nhiẹm vụ sàng lọc là hoạt đọng

giúp hẹ thông có thể phát hiẹn nhanh và chính xác mọt sô trang web lưa đao.

Chưc nang sang lọc đuơc phép “bỏ sot” cac trang lưa đao nhung khong đuơc

“băt nhâm” cac trang lanh tinh. Nói cách khác, mọt trang web đa bi phát hiẹn ở

tâng mọt và tâng hai chăc chăn là trang lưa đao, trong khi trang web khong đuơc

phát hiẹn ở tâng mọt và tâng hai có thể là trang lưa đao hoạc lành tính. Nhưng

trang lưa đao đa đuơc phát hiẹn ở tâng mọt và tâng hai sẽ không phai xư lý thêm

ở các tâng ba, tâng bôn mât nhiêu thơi gian, do vạy hiẹu nang cua tông thể hẹ

thông đuơc nâng lên. Nhưng trang lưa đao không bi phát hiẹn ở tâng mọt và

tâng hai sẽ đuơc xư lý tiêp và phát hiẹn ở tâng ba và tâng bôn.

Quá trình sàng lọc đuơc chia làm hai pha: Pha huân luyẹn thưc hiẹn trên

tạp dư liẹu (dataset) đuơc tai vê tư kho dư liẹu học máy UCI để xây dưng mô

hình phát hiẹn và pha phát hiẹn đuơc tích hơp trên mọt Plug-in (extension) cua

trình duyẹt nguơi dùng.

Tại pha huấn luyện, luận văn thực hiện các công việc sau:

- Lưa chọn cac đạc trung phù hơp trên tạp dư liẹu đuơc tai tư UCI để xây

dưng mô hình phát hiẹn.

- Sư dụng ngôn ngư Python huân luyẹn dư liẹu bằng thuạt toán Random

Forest tiên hành xây dưng mô hình phát hiẹn.

- Kiểm soát ti lẹ duong tinh gia (trang web là lành tính nhung phat hiẹn là

lưa đao) để đua ra gia tri nguơng lam can cư cho viẹc phát hiẹn lưa đao.

- Luu trư mô hình phát hiẹn trên máy chu PhishSer phục vụ viẹc đôi chiêu

và so sánh khi có yêu câu tư extension tren may nguơi dùng.

Tại pha phát hiện trên extension của trình duyệt:

27

- Sư dụng ngôn ngư JavaScript trích xuât cac đạc trung co tren URL va tư

mã HTML, mã JavaScript cua trang web cân kiểm tra. Tạp hơp kêt qua thành

mọt vector đạc trung gưi lên máy chu PhishSer.

- Máy chu PhishSer tiên hành đua vector đạc trung qua mô hình phát hiẹn

đa đuơc huân luyẹn tại pha truơc.

- Thưc hiẹn so sánh kêt qua tra vê tư mô hình phát hiẹn vơi giá tri nguơng

đuơc sinh ra trên mô hình phát hiẹn, nêu vuơt qua nguơng cho phép thì kêt luạn

trang web đo la lưa đao, đông thơi kích extenstion kích hoạt tinh nang ngan chạn

và canh báo tơi nguơi dùng. Nguơc lại, chuyển tiêp để phát hiẹn trên các tâng

tiêp theo.

2.2.2. Phương pháp phát hiện dựa vào học máy

2.2.2.1. Trích chọn đặc trưng

Hoạt đọng trích chọn đạc trung tiên hành trên URL va Content can cư theo

30 đạc trung cua tạp dư liẹu (dataset) đuơc tai tư kho luu trư UCI . Tạp dư liẹu

tư UCI gôm 11.055 ban ghi dư liẹu, trong đo co 7.262 ban ghi dư liẹu đuơc gán

nhãn lưa đao và 3.793 ban ghi dư liẹu gán nhãn lành tính. Sô luơng đạc trung

đuơc chúng tôi đê xuât trong luạn van sau khi trích chọn lại la 17, đay la cac đạc

trung chăc chăn sẽ trích xuât đuơc tư trình duyẹt web. Mỗi đạc trung đuơc thư

nghiẹm trên trình duyẹt để có thể trích xuât nó mà không cân sư dụng bât kỳ

dich vụ web tư bên ngoài hoạc tư bên thư ba nào. Tuy nhiên, sô luơng đạc trung

càng nhiêu sẽ lam tang đọ chính xác trong viẹc phát hiẹn. Nguơc lại, sẽ làm

chạm quá trình xư lý do sô luơng đạc trung cân trích chọn là nhiêu hon.

Cac đạc trung cân trích chọn đuơc phân loại thành hai nhom: Đạc trung có

trong giá tri cua URL tôn tại tren thanh đia chi (Address bar), đạc trung bât

thuơng có trong mã HTML và mã JavaScript cua trang web. Duơi đay la danh

sach cac đạc trung đuơc trích chọn:

Bảng 2.1.Các đặc trưng được trích chọn sử dụng để xây dựng mô hình

TT Đặc trưng được trích chọn

từ Dataset Mô tả tóm tắt

Nhóm đặc

trưng

1 Having_IP_Address Co đia chi IP trong URL Address

bar 2 URL_Length URL co đọ dài bài bât

28

thuơng

3 Shortining_Service Sư dụng dich vụ rút gọn

URL

4 Having_At_Symbol Có biểu tuơng “@”

5 Double_Slash_Redirecting Điêu huơng vơi kí tư “//”

6 Prefix_Suffix Có kí tư “-” trong ten

miên

7 Having_Sub_Domain Vuơt quá sô luơng sub

domain theo quy đinh

8 HTTPS_token Thêm HTTPS vào domain

cua URL

9 Favicon Favicon đuơc liên kêt tư

domain khác

Bất thường

trong mã

HTML và

JavaScript

10 Request_URL Hình anh, video đuơc tai

tư domain khác

11 URL_of_Anchor

Có nhiêu liên kêt bằng thẻ

<a> tơi domain khác hoạc

không có giá tri cua thuọc

tính href

12 Links_in_tags

Sư dụng nguôn trong các

thẻ <meta>, <script>,

<link> tư domain khác

13 SFH (Server Form Handler) Thuọc tính action trong

các <form> có giá tri rỗng

14 Submitting_to_email Có chưc nang gưi email

trên trang web (mailto)

15 On_mouseover

Tăt tinh nang tren thanh

trạng thái trình duyẹt khi

đua chuọt qua liên kêt

16 RightClick Tăt tinh nang kich chuọt

phai

17 Iframe Sư dụng Iframe thu thạp

dư liẹu

29

Vơi mỗi đạc trung đuơc trích chọn trong Bang 2.1, chúng tôi sẽ sư dụng

chúng cho viẹc đê xuât quy tăc tuong ưng đuơc sư dụng trong giai đoạn thư

nghiẹm. Cac đạc trung [16] trong tạp dư liẹu cua UCI đuơc mô ta cụ thể nhu sau

(vơi tât ca các quy tăc có thể quy uơc thành: Lưa đao là 1; Lành tính là -1; Nghi

ngơ là 0):

- Địa chỉ IP: Đia chi IP là mọt ma đinh danh duy nhât đuơc găn vơi mọt

thiêt bi hoạt đọng tren moi truơng mạng. Đôi tuơng lưa đao sư dụng đia chi IP

thay vì tên miên để lưa nguơi dùng web. Bât kỳ URL hơp phap nao cung đuơc

hình thành bằng cách sư dụng tên máy chu (host name) va ten đuơng dân (path

name) nhung khong sư dụng đia chi IP.

Quy tắc: Nêu {IP tồn tại trong URL → 1

Không tồn tại → −1

- Độ dài của URL: URL là mọt chuỗi ký tư chư và sô đuơc sư dụng để

truy cạp tài nguyên mạng trên World Wide Web (WWW). URL là sư kêt hơp

cua giao thưc mạng, tên máy chu va đuơng dân. Đọ dài cua URL là mọt trong

nhưng tinh nang chinh đuơc trích xuât trong khi phát hiẹn các URL lưa đao. Đôi

tuơng lưa đao lơi dụng đọ dài cua URL để che dâu nhưng nọi dung nghi ngơ mà

nguơi dùng web khó có thể phát hiẹn.

Quy tắc: Nêu {

Độ 𝑑à𝑖 𝑈𝑅𝐿 < 54 → −1 𝑁𝑔ượ𝑐 𝑙ạ𝑖 𝑛ế𝑢 Độ 𝑑à𝑖 𝑈𝑅𝐿 ≥ 54 𝑣à ≤ 75 → 0

𝑁𝑔ượ𝑐 𝑙ạ𝑖 → 1

- Sử dụng dịch vụ rút gọn URL “TinyURL”: Rút gọn URL là mọt

phuong phap tren Web World Wide Web, trong đo mọt URL có thể đuơc làm

gọn hon đang kể vê chiêu dài và vân dân đên trang web băt buọc. Phuong phap

này đuơc thưc hiẹn bằng “HTTP Redirect” trên mọt tên miên ngăn, liên kêt đên

trang web có URL dài. Ví dụ: URL là http://portal.hud.ac.uk/ có thể rút ngăn

thành bit.ly/19DXSk4.

Quy tắc: Nêu {TinyURL → 1

Ngược lại → −1

- Biểu tượng “@”: Biểu tuơng “@” đuơc sư dụng bởi nhưng kẻ tân công

để làm cho trình duyẹt web bỏ qua mọi thư truơc nó và chuyển huơng nguơi

dùng đên liên kêt đuơc nhạp sau nó.

30

Quy tắc: Nêu {Url có kí tự @ → 1

Ngược lại → −1

- Ký tự “//”: Sư tôn tại cua ký tư “//” trong URL co nghĩa la nguơi dùng sẽ

đuơc chuyển huơng đên mọt trang web khác. Mọt ví dụ vê URL nhu vạy là:

http://www.legitimate.com//http://www.phishing.com. Chúng tôi kiểm tra vi trí

xuât hiẹn cua “//” va thây rằng nêu URL băt đâu vơi HTTP, điêu nay co nghĩa la

“//” sẽ xuât hiẹn ở vi trí thư sáu. Tuy nhiên, nêu URL sư dụng HTTPS thì “//” sẽ

xuât hiẹn ở vi trí thư bay.

Quy tắc: Nêu {Vị trí cuối cùng xuất hiện “//”trong URL > 7 → 1

Ngược lại → −1

- Ký tự “-”: Kí tư dâu “-” thuơng không đuơc sư dụng trong các URL hơp

pháp. Nhưng đôi tuơng lưa đao co xu huơng thêm tiên tô hoạc hạu tô đuơc phân

tách bằng (-) vào tên miên để nguơi dùng nhâm tuởng họ đang xư lý mọt trang

web hơp pháp. Ví dụ: http://www.confirme-paypal.com/.

Quy tắc: Nêu {Trong tên miền chứa kí tự (−) → 1

Ngược lại → −1

-Số lượng tên miền phụ vượt quá quy định: Gia sư có liên kêt sau:

“https://www.bidv.com.vn/doanh-nghiep”. Mọt tên miên có thể bao gôm các tên

miên câp cao nhât theo mã quôc gia (ccTLD - country-code Top-level

Domains), trong liên kêt tren la “vn”. Phân “com” giup xac đinh tô chưc hoạc cá

nhân hoạt đọng trong lĩnh vưc thuong mại, sư kêt hơp cua “.com.vn” đuơc gọi là

tên miên câp hai (SLD - Second Level Domain); “bidv” la ten thưc tê cua tên

miên. Để tạo quy tăc trích xuât tinh nang nay, truơc tiên chúng ta phai bỏ qua

(www.) Tư URL thưc tê là mọt tên miên phụ (Sub domain); sau đo, chung ta

phai loại bỏ (ccTLD) nêu nó tôn tại; cuôi cùng, chung toi đêm các châm “.” còn

lại.

Quy tắc: Nêu {

Dấu (. ) trong phần tên miền = 1 → −1

Dấu (. ) trong phần tên miền = 2 → 0

Dấu (. ) trong phần tên miền > 2 → 1

- HTTPS token: Đôi tuơng lưa đao có thể thêm giao thưc HTTPS vào

phân tên miên cua URL để lưa nguơi dùng. Ví dụ: “http://https-www-paypal-it-

webapps-mpp-home.soft-hair.com/”.

31

Quy tắc: Nêu {Sử dụng HTTPS trong tên miền của URL → 1

Ngược lại → −1

- Favicon: Favicon là mọt hình anh đô hoạ đuơc kêt hơp vơi mọt trang web

cụ thể. Hay favicon còn gọi là biểu tuơng cua trang web, là mọt hình icon đuơc

hiển thi phía góc trên cùng cua tab trình duyẹt. Khi nguơi dùng truy cạp vào

trang web bât kỳ sẽ nhìn thây biểu tuơng này nhu mọt logo đại diẹn cho chính

trang web đo. Do đo, nêu favicon đuơc tai tư tên miên khác vơi tên miên đuơc

hiển thi tren thanh đia chi thì có thể xac đinh là lưa đao.

Quy tắc: Nêu {Favicon được tải từ tên miền khác → 1

Ngược lại → −1

- Request URL: Đôi vơi hâu hêt các trang web hơp phap thuơng sư dụng

cac đôi tuơng hình anh, am thanh va video đuơc liên kêt tư bên ngoài trang. Tuy

nhiên, nhưng đôi tuơng liên kêt ngoai nay luon đam bao đuơc nằm trên cùng

mọt tên miên. Tư tính chât này cua Request URL, có thể sư dụng đạc trung nay

để phân loại các trang web.

Quy tắc: Nêu {Tỉ lệ yêu cầu liên kết tới tên miền khác < 22% → −1

Tỉ lệ % ≥ 22% và ≤ 61% → 0Ngược lại tỉ lệ % > 61% → 1

- Anchor (neo) trong thẻ <a>: Thẻ <a> trong HTML giúp tạo ra các liên

kêt giưa các trang trong cùng website. Do đo, nêu:

Giá tri cua thuọc tinh “href” trong thẻ <a> khác vơi tên miên cua website

thì truơng hơp nay cung giông nhu đạc trung Request URL;

Neo không liên kêt đên bât kỳ trang web nào. Ví dụ: <a href=“#”> hoạc <a

href=“#content”> hoạc <a href=“#skip”> hoạc <a href=“JavaScript::void(0)”>

Quy tắc: Nêu {Tỉ lệ % Anchor < 31% → −1

Tỉ lệ % Anchor ≥ 31% và ≤ 67% → 0 Ngược lại → 1

- Sử dụng tài nguyên <script>, <link>, <meta> từ tên miền khác: Vơi

trang web hơp pháp, sư dụng thẻ <meta> để cung câp siêu dư liẹu (metadata)

cho trang web, thẻ <script> để tạo tạp lẹnh JavaScript phía máy khách hoạc liên

kêt tơi tạp tin script, thẻ <link> để liên kêt tơi tạp tin “.css” trong cùng ten miên.

32

Quy tắc:

Nêu

{

Tỉ lệ % của liên kết trong(< 𝑀𝑒𝑡𝑎 >, < 𝑆𝑐𝑟𝑖𝑝𝑡 > 𝑣à < Link>) < 17% → −1

Tỉ lệ % của liên kết trong(< 𝑀𝑒𝑡𝑎 >, < 𝑆𝑐𝑟𝑖𝑝𝑡 > 𝑣à < Link>) ≥ 17% và ≤ 81% → 0 Ngược lại → 1

- SFH (Server Form Handler): Thẻ <form> giúp tạo ra mọt biểu mâu

cung câp cho nguơi dùng web không gian nhạp thong tin để gưi vê máy chu

web. Trong thẻ <form> có thuọc tinh “action” nhằm xac đinh trang web đich ma

dư liẹu cua nguơi dùng sẽ đuơc gưi tơi. Vơi trang web hơp phap trang web đich

sẽ nằm trong cùng tên miên. Tuy nhiên, vơi trang web lưa đao cac đôi tuơng đa

thay đôi giá tri cua thuọc tinh “action” la mọt chuỗi rỗng hoạc “about:blank”

hoạc trang đich là tư mọt tên miên khác.

Quy tắc: Nêu {

SFH là “about: blank” hoặc Is Empty → 1

SFH tham chiêu đên mọt ten miên khac → 0Ngoài ra → −1

- Gửi thông tin qua email (mailto): Biểu mâu (form) trong trang web cho

phép nguơi dùng gưi thông tin cá nhân tơi mọt máy chu để xư lý. Tuy nhien, đôi

tuơng lưa đao có thể chuyển huơng thông tin cua nguơi dùng tơi đia chi email

cá nhân cua chúng bằng phuong phap sư dụng chưc nang “mailto:” trong trang

web và sư dụng hàm mail() ở phía máy chu để kích hoạt chưc nang gưi mail.

Quy tắc: Nêu {Sử dụng “mail()”hoạc“mailto:”để gưi thong tin → 1

Ngoài ra → −1

- Tắt sự kiện onMouseOver: Đôi tuơng lưa đao có thể sư dụng JavaScript

để hiển thi URL gia mạo trong thanh trạng thai cho nguơi dùng. Để trích xuât

đạc trung nay chung ta khai thac trong ma nguôn cua trang web, đạc biẹt là sư

kiẹn onMouseOver và kiểm tra xem nó có thưc hiẹn bât kỳ thay đôi nào trong

thanh trạng thái hay không.

Quy tắc: Nêu {Sự kiện onMouseOver thay đổi thanh trạng thái → 1

Không thay đổi thanh trạng thái → −1

- Vô hiệu hoá chức năng chuột phải: Nhằm che dâu hanh đọng kiểm tra

mã nguôn cua nguơi dùng, đôi tuơng lưa đao tiên hành vô hiẹu hoa tinh nang

33

kích chuọt phai trên trang web thông qua bằng sư kiẹn onMouseOver để ân liên

kêt hoạc thêm sư kiẹn “event.button==2” vào mã nguôn cua trang web.

Quy tắc: Nêu {Tính năng chuột phải bị vô hiệu hoá → 1

Ngoài ra → −1

- Sử dụng IFrame thu thập dữ liệu: IFrame là mọt thẻ trong HTML,

đuơc sư dụng để hiển thi mọt trang web bô sung vào trong trang web hiẹn tại.

Đôi tuơng lưa đao sư dụng IFrame vơi tùy biên khung viên cua nó nhằm che dâu

sư quan sát trưc quan va lam cho nguơi dùng khó có thể phát hiẹn.

Quy tắc: Nêu {Sử dụng iframe → 1

Ngoài ra → −1

2.2.2.2. Thuật toán Random Forest

Giai thuạt học máy rưng ngâu nhiên (Random Forests - RF[11]) thưc hiẹn

huân luyẹn mô hình phân lơp (Hình 2.2) qua cac buơc chinh nhu sau:

- Tư tạp dư liẹu huân luyẹn có m phân tư và n biên (thuọc tính), xây dưng T

cây quyêt đinh mọt cach đọc lạp nhau.

- Mô hình cây quyêt đinh thư T đuơc xây dưng trên tạp mâu Bootstrap thư

T. Mâu Bootstrap thư T gôm m phân tư đuơc lây ngâu nhiên có hoàn lại tư tạp

huân luyẹn (tưc là mỗi cây quyêt đinh khong đuơc xây dưng trên cùng mọt tạp

dư liẹu).

- Tại nút trong, chọn ngâu nhiên n’ biên (n’<<n) và tính toán phân hoạch

tôt nhât dưa trên n’ biên này.

- Cay đuơc xây dưng đên đọ sâu tôi đa khong căt nhánh.

- Kêt thúc quá trình xây dưng T mo hình co sở. Mọt phân tư mơi đên x

đuơc phân lơp dưa vào bình chọn sô đong cua T mo hình co sở phân lơp phân tư

x.

34

Hình 2.2. Giai thuạt Rưng ngâu nhiên

Tuy nhiên, nêu chúng ta trở lại luạt gán nhãn ở nút lá cua các cây quyêt

đinh trong rưng ngâu nhiên, hai giai thuạt cây quyêt đinh phô biên là CART [17]

và C4.5 [18] thuơng dùng chiên luơc bình chọn sô đong. Thơi điểm xây dưng

cây quyêt đinh, nêu nút lá có chưa các phân tư dư liẹu cua các lơp không thuân

nhât, viẹc gan nhan cho nut la đuơc tính cho nhãn cua lơp có sô luơng phân tư

lơn nhât chưa trong nút lá. Xét ví dụ nhu hình 2.3, nút lá có chưa 14 phân tư

trong đo lơp hình vuông có 9 phân tư và lơp hình tròn có 5 phân tư. Nút lá sẽ

đuơc gán nhãn là hình vuông do sô phân tư lơp hình vuông nhiêu hon hình tròn.

Chiên luơc gán nhãn này làm cho luạt quyêt đinh khong đuơc chính xác. Khi

phân lơp, phân tư nao roi vao nut la đêu đuơc gán nhãn cua nút lá. Vì vạy, phân

tư p, q đuơc gán nhãn là vuông. Hiẹu qua phân lơp không cao (phân tư p có thể

sai).

35

Hình 2.3. Luạt bình chọn sô đong cho gán nhãn ở nút lá cua cây quyêt đinh, nút

lá có nhãn là vuong, nen điểm p và q đêu đuơc phân lơp vuông

2.2.3. Kiểm soát tỉ lệ dương tính giả

Mục đich cua tâng mọt và tâng hai la để sàng lọc, đuơc phép “bỏ sót” các

trang web lưa đao nhung không đuơc “băt nhâm” các trang lành tính. Do đo

chúng tôi mong muôn ti lẹ duong tinh gia thạt thâp (tưc là ti lẹ mọt trang web

lành tính bi gán nhâm là lưa đao thạt thâp) ở các tâng này. Để kiểm soat đuơc ti

lẹ duong tinh gia thay vì chọn ra sô đong nhu thuạt toán rưng ngâu nhien đuơc

nêu ở mục 2.2.2.2, chúng tôi sư dụng các xác suât lưa đao cho mỗi dư liẹu (mỗi

trang web sẽ có mọt xác suât lưa đao trong đoạn [0,1], xác suât càng lơn thì kha

nang lưa đao cang cao va nguơc lại). Cách phát hiẹn đuơc tiên hành nhu sau:

- Nêu xác suât lưa đao đu lơn hon mọt nguơng thì chúng tôi mơi coi đo la

lưa đao thưc sư, nguơc lại là lành tính.

- Nêu chọn nguơng quá bé thì tât ca các dư liẹu đua vao sẽ bi dư đoan la

lưa đao hêt. Nguơc lại, nêu chọn nguơng quá lơn thì sẽ bỏ sót tât ca các trang

web lưa đao. Nhu vạy mô hình sẽ khong co ý nghĩa gì nưa. Ở đay chung toi

kiểm soat nguơng để đam bao ti lẹ duong tinh gia đu thâp ở mọt mưc kỳ vọng

đa đạt ra, trong khi vân có kha nang phat hiẹn đuơc mọt sô trang web lưa đao

thưc sư.

2.3. Tầng ba và tầng bốn

2.3.1. Nhiệm vụ chuẩn đoán

Quá trình sàng lọc trang web lưa đao đuơc diễn ra tại tâng mọt và tâng hai.

Tuy nhiên, cac đôi tuơng tân công sư dụng nhiêu biẹn pháp khác nhau vơi

nhưng kỹ thuạt che dâu lưa đao ngày càng tinh vi. Trong khi tại tâng mọt và

36

tâng hai chi đong vai trò sang lọc trong kiên trúc cua hẹ thông; bên cạnh viẹc

mang lại đọ chính xác cao trong phát hiẹn lưa đao thì ti lẹ phát hiẹn vân chua đạt

đuơc nhu kỳ vọng. Do vạy, tại tâng ba và tâng bôn cua kiên trúc có nhiẹm vụ

chuân đoan URL cua trang web dưa vao Blacklist (danh sach đen) va tham vân

dich vụ PhishTank. Cụ thể, co chê hoạt đọng tại hai tâng nay đuơc thưc hiẹn

nhu sau:

Co chê hoạt đọng cua tâng ba:

- Khi có yêu câu cua nguơi dùng gưi URL cua trang web để kiểm tra có

hay không lưa đao, tâng mọt và tâng hai sư dụng kỹ thuạt học máy tiên hành

phát hiẹn. Nêu quá trình phát hiẹn cho rằng trang web cân kiểm tra không phai

là trang web lưa đao, URL cua trang web đo sẽ đuơc chuyển tiêp sang tâng thư

ba để phát hiẹn.

- Tại tâng ba cua kiên trúc, URL sẽ đuơc tiên hành truy vân trong danh

sach đen (đay la mọt tạp dư liẹu chưa các URL cua trang web lưa đao do chúng

tôi xây dưng va đuơc tư đọng cạp nhạt trên máy chu PhishSer cua chúng tôi).

Nêu kêt qua tra vê URL nay đa tôn tại trong danh sach đen, kêt luạn đay la trang

web lưa đao; đông thơi, extension tại trình duyẹt cua nguơi dùng tiên hanh ngan

chạn va đua ra canh bao cho nguơi dùng.

Co chê hoạt đọng cua tâng bôn:

- Quá trình phát hiẹn trang web lưa đao trong tâng bôn đuơc thưc hiẹn khi

tâng ba cua kiên trúc không phát hiẹn đuơc, URL cua trang web tiêp tục đuơc

gưi lên tâng bôn để kiểm tra.

- Tại đay, chung toi tiên hành mở kêt nôi tơi hẹ chuyên gia cua PhishTank

và Google Safe Browsing thông qua tạp API mà họ đa cung câp miễn phi; đông

thơi, gưi URL thưc hiẹn tham vân tư hẹ chuyên gia này. Nêu kêt qua tra vê cho

extension cua nguơi dùng đuơc xác minh là có lưa đao, lạp tưc sẽ ngan chạn,

đua ra canh bao cho nguơi dùng và cạp nhạt URL đo vao danh sach đen đuơc

triển khai trong tâng ba. Nguơc lại, truơng hơp xác đinh đo trang web lanh tinh

thì cho phép nguơi dùng truy cạp tơi trang web nhu viẹc truy cạp tơi mọt trang

web hơp pháp.

37

2.3.2. Tự động cập nhật Blacklist

Danh sach đen là tạp hơp dư liẹu đuơc tạo ra duơi hình thưc lạp chi mục

cac URL, domain va đia chi IP đa đuơc xac đinh là lưa đao. Các phân tư cua

danh sach đen đuơc luu trư trong mọt co sở dư liẹu và nó cung câp mọt co chê

cho các ưng dụng hoạc nguơi dùng muôn truy cạp để kiểm tra.

Danh sach đen cua trang web lưa đao đuơc xem là mọt nguôn dư liẹu quan

trọng đuơc các công cụ (Toolbar) phòng chông lưa đao sư dụng để tham vân và

đua ra thong bao cho nguơi dùng; đông thơi, ngan chạn quyên truy cạp cua họ

vào các trang web lưa đao. Ngay nay, phuong phap sư dụng danh sach đen đuơc

áp dụng hâu hêt trên các trình duyẹt nhu: Internet Explorer, Netscape, Chrome,

FireFox (đuơc tích hơp Toolbar cua Google Safe Browsing) nhằm phát hiẹn các

trang web lưa đao truơc khi nguơi dùng bi điêu huơng tơi nó. Phuong phap nay

rât dễ triển khai và dễ sư dụng, nhung danh sach đen chi có hiẹu qua nêu co sở

dư liẹu đuơc cạp nhạt thuơng xuyên và kip thơi.

Tuy nhiên, trên thưc tê để có thể duy trì mọt co sở dư liẹu đuơc cạp nhạt

liên tục cân đòi hỏi phai co đọi ngu nhan sư làm viẹc thuơng xuyên, kéo theo sư

tôn kém vê chi phí hoạt đọng. Mạt khac, cung tren thưc tê, để lam đuơc nhu vạy

là không kha thi bởi nhiêu trang web lưa đao mơi ngày càng gia tang nhanh

chong. Hon nưa, nhưng kẻ tân công có thể loại bỏ trang web lưa đao khỏi danh

sach đen mọt cách dễ dàng bằng cach đang ký nhưng tên miên mơi, thay đôi noi

luu trư cua mã nguôn web; do đo, cac URL va đia chi IP cung co thể thay đôi

theo.

Xuât phát tư viẹc khó có thể cạp nhạt tưc thơi danh sach đen cua các nhà

cung câp (PhishTank1, OpenPhish2, Safe Browsing3), tại tâng thư ba cua kiên

truc đa tâng cho phát hiẹn va ngan chạn trang web lưa đao, chúng tôi đê xuât

giai pháp xây dưng mọt danh sach đen rieng biẹt, giúp tư đọng cạp nhạt danh

sach đen khi phát hiẹn có trang web lưa đao diễn ra tại tâng mọt và tâng hai cua

kiên trúc. Ngoài ra, quá trình tư đọng cạp nhạt danh sach đen cua chúng tôi còn

tiêp tục đuơc diễn ra trên tâng thư tu cua hẹ thông ngay sau khi có kêt qua tra vê

tư hẹ chuyên gia nêu trang web nguơi dùng đang truy cạp là lưa đao.

1https://www.phishtank.com/

2https://openphish.com/

3https://safebrowsing.google.com/

38

2.3.3. Tham vấn dịch vụ PhishTank

PhishTank là mọt dư án tư OpenDNS hỗ trơ viẹc xác thưc, kiểm tra và gưi

báo cáo vê các trang web lưa đao. OpenDNS là mọt dich vụ cung câp dich vụ

phân giai tên miên, cung nhu ngan chạn các trang web bi nghi ngơ có tên miên

là lưa đao. PhishTank là mọt dich vụ hoạt đọng đọc lạp cua cùng mọt công ty.

OpenDNS tuyên bô đay la mọt co sở dư liẹu riêng biẹt va no khong đuơc sư

dụng vơi co sở dư liẹu cua PhishTank khi giai quyêt các tên miên trang web.

Điêu đo co nghĩa la hai co sở dư liẹu - mọt cho OpenDNS và mọt cho

PhishTank. Vê co ban PhishTank là mọt dich vụ cung câp cho nguơi dùng dễ

dàng kiểm tra mọt trang web bât kỳ thông qua URL có phai là lưa đao hay

không.

Hình 2.4. Giao diẹn website cua PhishTank

PhishTank đuơc ra măt vao thang 10 nam 2006 bởi David Ulevitch vơi tu

cách là mọt nhánh cua OpenDNS. Công ty cung câp mọt hẹ thông xác minh lưa

đao dưa vào cọng đông, noi nguơi dùng gưi nhưng URL cua trang web nghi ngơ

lưa đao và nhưng nguơi dùng khác “bỏ phiêu” nêu đo la lưa đao hay không.

PhishTank cung câp các dich vụ bao gôm:

- Tìm kiếm trang web lừa đảo: Nguơi dùng có thể tìm kiêm trưc tiêp

thông qua chưc nang tìm kiêm cua website bằng cách nhạp URL cua trang web

cân kiểm tra vào họp tìm kiêm. Hoạc trong truơng hơp các cá nhân, doanh

39

nghiẹp muôn xây dưng riêng mọt công cụ bao mạt có thể sư dụng dư liẹu cua

PhishTank thông qua API cua nó, bằng cach đang ký mọt tài khoan dành cho

nhà phát triển tren website. Đạc biẹt, vơi hai phuong thưc này PhishTank cung

câp dich vụ là hoàn toàn miễn phi cho nguơi dùng.

- Báo cáo trang web lừa đảo cho PhishTank: Để thưc hiẹn báo cáo trang

web lưa đao (thêm trang web lưa đao vao co sở dư liẹu cua PhishTank), nguơi

dùng cân phai đang ký tai khoan để trở thành thành viên nêu chua co. Qua trình

đang ký tai khoan không quá phưc tạp, điêu cân nhât mà PhishTank yêu câu

nguơi dùng là cung câp mọt đia chi email cho viẹc kích hoạt tài khoan và hẹ

thông đam bao rằng đây là mọt nguơi dùng cụ thể. Sau khi đang ký thanh cong,

nguơi dùng tiên hanh đang nhạp vào website và cung câp thông tin vê trang web

lưa đao hoạc trang web ma nguơi dùng nghi ngơ là lưa đao; đạc biẹt, băt buọc

phai nhạp đia chi URL cua cac trang web đo để PhishTank tiên hành phân tích.

Hình 2.5. Chưc nang bao cao trang web lưa đao cua PhishTank

Sau khi nguơi dùng gưi báo cáo vê trang web đuơc nghi ngơ là lưa đao,

hẹ thông sẽ cung câp danh sách cho phép nhưng thành viên khác vào xác minh

va “bỏ phiêu” vê tính chât lưa đao cua trang web.

40

Hình 2.6. Chưc nang bỏ phiêu trang web lưa đao cua PhishTank

2.3.4. Tham vấn dịch vụ Google Safe Browsing

Google Safe Browsing là mọt dich vụ cua Google cho phép nguơi dùng

hoạc các ưng dụng tư phía máy khách (may nguơi dùng) kiểm tra đia chi URL

cua trang web nghi ngơ lưa đao dưa trên danh sách các tài nguyên web không an

toan đuơc cạp nhạt bởi Google. Các tài nguyên không an toàn có thể bao gôm:

Các trang web lưa đao; trang web chưa phân mêm ma đọc; trang web chưa các

phân mêm không mong.

Vơi nguơi dùng, Google Safe Browsing cung câp mọt dich vụ kiểm tra

trạng thái cua trang web. Cho phép nguơi dùng nhạp đia chi URL cua trang web

cân kiểm tra trưc tiêp tren trang web co đia chi

“https://transparencyreport.google.com/safe-browsing/search”, cụ thể giao diẹn

nhu sau:

41

Hình 2.7. Chưc nang kiểm tra trạng thái trang web cua Google Safe Browsing

Vơi các ưng dụng đuơc cai đạt tại may nguơi dùng, Google Safe Browsing

cung câp mọt tạp API cho phép ưng dụng mở kêt nôi; đông thơi, gưi URL thưc

hiẹn tham vân tư hẹ chuyên gia này.

Hình 2.8. Trang web chưa tạp API cua Google Safe Browsing

42

CHƯƠNG 3. CÀI ĐẶT THỬ NGHIỆM

3.1. Cài đặt

3.1.1. Kỹ thuật xây dựng chương trình

Chuong trình thưc nghiẹm đuơc lạp trình trên các ngôn ngư chính là

Python, JavaScript, PHP vơi co sở dư liẹu MySQL. Trong đo:

- Python đong vai trò chạy thuạt toán học máy Random Forest xây dưng

mô hình phát hiẹn;

- JavaScript để xây dưng extension căm vào trình duyẹt web, có nhiẹm vụ

trích xuât cac đạc trung tren trang web cân kiểm tra và gưi các tạp kêt qua lên

máy chu web;

- PHP nhạn tạp giá tri cua cac đạc trung tư extension, đua qua mo hình phat

hiẹn. Nêu phát hiẹn có lưa đao, gưi yêu câu vê extension để ngan chạn, thông

bao nguơi dùng và cạp nhạt vao Blacklist đuơc tô chưc trong co sở dư liẹu

MySQL. Nguơc lại, gưi URL để truy vân trong Blacklist và hỏi chuyên gia.

Bảng 3.1.Thông tin kỹ thuật sử dụng trong chương trình thực nghiệm

Moi truơng thưc nghiẹm

- Processor: Intel(R) Core(TM) i5-5257U CPU @

2.70GHz

- Memory (Ram): 4 GB

- System type: 64-bit Operating System, x64-

basedprocessor

- OS: Windows 10 Pro N

Ngôn ngư sư dụng Python, JavaScript, PHP, HTML, CSS, Jquery

Máy chu web Apache

Hẹ quan tri CSDL MySQL

Công cụ lạp trình (IDE) Sublime Text

Thu viẹn va cac goi cai

đạt chinh scikit-learn, numpy, pickle

43

3.1.2. Tầng một và tầng hai

- Tai tạp dư liẹu trang web lưa đao đa đuơc phân lơp tư kho dư liẹu học

máy cua UCI [16]. Trên tông sô 11.055 dư liẹu cua trang web có trong tạp dư

liẹu, tiên hành chia làm hai phân, phân mọt gôm 9.055 dư liẹu (trong đo 5.488

dư liẹu đuơc gán nhãn lưa đao và 3.567 dư liẹu đuơc gán nhãn lành tính) đuơc

sư dụng làm dư liẹu huân luyẹn, phân còn lại là 2000 dư liẹu (trong đo 1.774 dư

liẹu đuơc gán nhãn lưa đao và 226 dư liẹu gán nhãn lành tính) đọc lạp vơi dư

liẹu sư dụng huân luyẹn để đanh gia mô hình.

- Vơi giai phap đuơc chung toi đê xuât để phát hiẹn trang web lưa đao trên

tâng mọt chi trích xuât dư liẹu phục vụ huân luyẹn để xây dưng mô hình vơi 8

đạc trung và trên tâng hai là 9 đạc trung trên tông sô 30 đạc trung cua tạp dư

liẹu ban đâu.

Hình 3.1.Tam đạc trung đuơc lưa chọn để huân luyẹn và xây dưng mô hình phát

hiẹn trên tâng mọt

44

Hình 3.2. Chín đạc trung đuơc lưa chọn để huân luyẹn và xây dưng mô hình

phát hiẹn trên tâng hai

45

- Thưc hiẹn huân luyẹn và xây dưng mô hình phát hiẹn trang web lưa đao

bằng thuạt toán Random Forest cho tâng mọt:

Hình 3.3. Chuong trình huân luyẹn và xây dưng mô hình phát hiẹn

trên tâng mọt

46

- Thưc hiẹn huân luyẹn và xây dưng mô hình phát hiẹn trang web lưa đao

bằng thuạt toán Random Forest cho tâng hai:

Hình 3.4. Chuong trình huân luyẹn và xây dưng mô hình phát hiẹn

trên tâng hai

- Sư dụng ngôn ngư JavaScript lạp trình extension tích hơp vào trình duyẹt

cua nguơi dùng.

47

Hình 3.5. Kiên truc extension cua Chrome

Hình 3.6. Câu trúc tạp tin cua extension đuơc lạp trình, cai đạt trên trình duyẹt

- Extension tiên hành trích xuât cac đạc trung cua URL khi nguơi dùng gưi

yêu câu truy cạp vào mọt trang web bât kỳ, bằng cách tạo ra các hàm trong

JavaScript truy cạp vào câu trúc DOM cua trang web để kiểm tra:

Hình 3.7. Extension thưc hiẹn trích xuât đạc trung tren trang web

48

- Tạp hơp kêt qua đuơc tra vê tư các hàm ở trên thành mọt vector kêt qua

cua cac đạc trung (vơi ý nghĩa cua giá tri “1” la lưa đao; “0” la nghi ngơ va “-1”

là lành tính). Ví dụ: feature_url = [1, -1, 1, 1, 1, -1, 0, 1]. Đông thơi, gưi vector

đạc trung nay len may chu web để đua qua mo hình phat hiẹn dưa trên URL,

tiên hành kiểm tra.

- Kêt qua tư máy chu web tra vê cho extension chính là giá tri cua xác suât

phát hiẹn cua chinh vector đạc trung vưa đuơc gưi lên. Sư dụng giá tri này thưc

hiẹn so sánh vơi giá tri nguơng (threshold) đuơc lưa chọn trong pha xây dưng

mô hình phát hiẹn. Nêu lơn hon gia tri nguơng (tưc đay la trang web lưa đao) thì

sẽ gưi yêu câu cho “background.js” cua extension xư lý ngan chạn, thông báo

cho nguơi dùng không nên truy cạp và dưng tiên trình phát hiẹn ngay trên tâng

mọt. Nguơc lại, thưc hiẹn tuong tư đôi cac đạc trung đuơc trích xuât trong

content cua trang web (chu yêu cac đạc trung bât thuơng trong mã HTML và

JavaScript).

Hình 3.8. Extension gưi vector đạc trung cua URL mọt lên máy chu web

49

Hình 3.9. Extension gưi vector đạc trung cua Content lên máy chu web

Hình 3.10. Máy chu web đua dư liẹu đa nhạn đuơc qua mô hình phát hiẹn

- Xư lý kêt qua tra vê sau khi đua qua mo hình phat hiẹn: Nêu URL cân

kiểm tra là cua mọt trang web lưa đao, thưc hiẹn ngan chạn va luu URL trang

web đo vao Blacklist. Nguơc lại, chuyển tiêp sang tâng ba để tiêp tục phát hiẹn:

50

Hình 3.11. So sánh kêt qua tra vê vơi giá tri nguơng cua tâng mọt

Hình 3.12. Tiên trình ngan chạn trang web khi phát hiẹn có lưa đao

Hình 3.13. Luu URL cua trang web lưa đao vào Blacklist

51

3.1.3. Tầng ba

Ngay khi hoạt đọng phát hiẹn va ngan chạn trang web lưa đao lân luơt diễn

ra ở tâng mọt và tâng hai không thành công, URL cua trang web cân kiểm tra

đuơc gưi lên tâng ba để tiêp tục phát hiẹn. Tâng ba đuơc chúng tôi xây dưng

mọt Blacklist chưa các trang web lưa đao, giúp cung câp cho nguơi dùng mọt

kenh để tham chiêu, truy vân và kiểm tra thông qua phân mêm ưng dụng hoạc

tra cưu trưc tiêp trên website cua chúng tôi.

Hình 3.14. Gưi URL lên máy chu web phát hiẹn trên tâng ba

Hình 3.15.Thưc hiẹn kiểm tra URL trong CSDL cua Blacklist

Kêt qua đuơc tra vê tại tâng ba, nêu URL đa tôn tại trong Blacklist,

extension tiên hành xư lý ngan chạn khong cho nguơi dùng truy cạp tơi URL

cua trang web hiẹn tại. Nguơc lại, tiêp tục thưc hiẹn kiểm tra URL này trên tâng

bôn.

52

3.1.4. Tầng bốn

Tại tâng bôn, chúng tôi lân luơt sư dụng API cua PhishTank và Google

Safe Browsing để kiểm tra URL đuơc gưi lên tư tâng ba.

- Đang ký mọt project để sư dụng API key trên Google Cloud Platform

truơc khi kiểm tra bằng Google Safe Browsing:

Hình 3.16. API key đuơc đang ký tư Google Cloud Platform

- Đang ký mọt project để sư dụng API key truơc khi kiểm tra trên

PhishTank:

Hình 3.17. API key đuơc đang ký tư PhishTank

53

- Sư dụng API cua Google Safe Browsing tiên hành kiểm tra:

Hình 3.18. Kiểm tra URL trên API cua Google Safe Browsing

Hình 3.19. Kiểm tra URL trên API cua PhishTank

3.2. Đánh giá

3.2.1. Phương pháp đánh giá

Phuong phap đanh gia cua luạn van đuơc dưa tren phuong phap ma trạn

nhâm lân (Confusion Matrix).

54

Mọt mô hình phát hiẹn đuơc đanh gia la tôt nêu ti lẹ TP (True Positive) và

TN (True Negative) lơn; đông thơi, ti lẹ FP (False Positive) và FN (False

Negative) nhỏ (tưc là ti lẹ TP, TN ti lẹ nghich vơi FP, FN). Trong đo:

- TP: Sô luơng cac mâu thuọc lơp duong đuơc phan loại chinh xac vao lơp

duong.

- FP: Sô luơng cac mâu không thuọc lơp duong bi phan loại nhâm vao lơp

duong.

- TN: Sô luơng cac mâu không thuọc lơp duong đuơc phan loại đung.

- FN: Sô luơng các mâu thuọc lơp duong bi phan loại nhâm vao các lơp

không phai lơp duong.

Bảng 3.2. Bảng đánh giá dựa trên phương pháp Confusion Matrix

Lớp dự đoán (Predicted class)

+ -

Lớp thực tế

(True class)

+ TP - True Positive FN - False Negative

- FP - False Positive TN - True Negative

Xuât phát tư nhiẹm vụ phát hiẹn trang web lưa đao đôi tâng mọt và tâng hai

vơi mục đich sang lọc. Do đo, chung toi tiên hành tính toán nhưng giá tri sau

lam can cư cho viẹc đanh gia mo hình:

- Vơi mọt cach xac đinh mọt lơp là Positive (lơp duong), Precision đuơc

đinh nghĩa la ti lẹ sô điểm True Positive trong sô nhưng điểm đuơc phân loại là

Positive (TP + FP). Giá tri cua Precision cao đông nghĩa vơi đọ chính xác cua

cac điểm tìm đuơc là cao:

Precision = 𝑇𝑃

𝑇𝑃+ 𝐹𝑃

55

- Recall đuơc đinh nghĩa la ti lẹ sô điểm True Positive trong sô nhưng điểm

thưc sư là positive (TP + FN). Giá tri cua Recall cao đông nghĩa vơi viẹc True

Positive Rate cao, tưc ti lẹ bỏ sot cac điểm thưc sư Positive là thâp:

Recall = 𝑇𝑃

𝑇𝑃+ 𝐹𝑁

3.2.2. Kết quả so sánh

Tiên hành đanh gia mo hình phat hiẹn trang web lưa đao trên tạp 2000 dư

liẹu còn lại tư nguôn dư liẹu cua UCI. Kêt qua cua đanh gia dưa tren phuong

pháp ma trạn nhâm lân (Confusion Matrix), trong đo coi lơp duong (Positive) la

trang web lưa đao, lơp âm (Negative) là trang web lành tính.

So sánh kêt qua thưc nghiẹm giưa các mô hình dưa trên các thuạt toán học

máy khác nhau:

Bảng 3.3. Kết quả thực nghiệm trên các mô hình đối với tầng một

Mô hình Số lượng đặc

trưng Precision Recall

SVM 8 87,3% 53,1%

RF 8 79,6% 63,0%

Tầng 1 8 99,1% 30,3%

Bảng 3.4. Kết quả thực nghiệm trên các mô hình đối với tầng hai

Mô hình Số lượng đặc

trưng Precision Recall

SVM 9 79,1% 99,5%

RF 9 84,7% 97,0%

Tầng 2 9 99,2% 43,2%

Nhận xét: Nhu vạy, dưa vao kêt qua thư nghiẹm đuơc thưc hiẹn tren tâng

mọt va tâng hai co thể thây đọ đo Precision (ti lẹ chinh xac trong phat hiẹn đung

trang web lưa đao) tren mo hình cua chung toi so vơi mo hình cua hai thuạt toan

SVM va Random Forest la vuơt trọi hon hẳn. Trong đo, đọ chinh xac trong phat

56

hiẹn cua tâng mọt la 99,1% va tâng hai la 99,2%. Đông nghĩa vơi viẹc khong co

phat hiẹn nhâm xay ra. Ben cạnh đo, gia tri cua Recall (hiẹu xuât phat hiẹn trang

web lưa đao) không cao, do trong nghien cưu cua chung tôi cho phép “bỏ sot”

tren tâng mọt va tâng hai. Tuy nhien, nhiẹm vụ nay sẽ tiêp tục tiên hanh phat

hiẹn tren tâng ba va tâng bôn cua kiên truc hẹ thông đa đuơc đê xuât.

3.3. Triển khai thử nghiệm

- Cai đạt Extension “PPA Phishing Detector” tren trình duyẹt cua máy tính

nguơi dùng.

Hình 3.20. Cai đạt Extension vào trình duyẹt

- Cai đạt moi truơng và các dich vụ máy chu web trên hẹ thông máy chu.

Hình 3.21. Cai đạt máy chu web trên Server

57

- Chuân bi dư liẹu thư nghiẹm.

Hình 3.22. Dư liẹu cho tiên hành thư nghiẹm

- Kêt qua thư nghiẹm.

Hình 3.22. Canh báo khi phát hiẹn có trang web lưa đao

58

Hình 3.23. Trang web cho nguơi dùng truy vân URL trưc tuyên

59

KẾT LUẬN

Luạn van đa trình bay mọt huơng tiêp cạn có hiẹu qua trong đo kêt hơp

giưa hai nhóm giai pháp kỹ thuạt: Kỹ thuạt học máy và kỹ thuạt dưa vào cọng

đông trong viẹc phát hiẹn va ngan chạn trang web lưa đao. Đông thơi, đê xuât

mọt kiên trúc nhiêu tâng cho tiên hành thưc nghiẹm, cụ thể: Tâng mọt và tâng

hai thưc hiẹn sàng lọc nhanh trang web lưa đao bằng cach cai đạt mô hình học

may đa đuơc thiên vi hoá; Tâng ba và tâng bôn thưc hiẹn chuân đoan trang web

lưa đao thông qua hoạt đọng tham vân dich vụ blacklist và hỏi chuyên gia.

Quá trình nghiên cưu luạn van đa đạt đuơc mọt sô kêt qua chinh sau đay:

- Tìm hiểu các giai phap đa co trong phat hiẹn trang web lưa đao thông qua

các giai pháp cọng đông. Đông thơi, trình bày tóm tăt co sở lý thuyêt cua các

thuạt toán phân lơp trong kỹ thuạt học máy bao gôm: Hôi quy Logistic, cây

quyêt đinh, Naive Bayes, máy vector hỗ trơ (SVM), rưng ngâu nhiên (Random

Forest) cho phát hiẹn trang web lưa đao.

- Tiên hanh đê xuât kiên trúc nhiêu tâng trong phát hiẹn va ngan chạn trang

web lưa đao.

- Đê xuât đuơc giai pháp lưa chọn cac đạc trung tôt nhât đam bao hiẹu qua,

hiẹu suât cho xây dưng mô hình phát hiẹn.

- Tùy biên thuạt toán Random Forest nhằm thiên vi hoá trong viẹc xây

dưng mô hình phát hiẹn trang web lưa đao đuơc thưc hiẹn trên tâng mọt và hai.

- Nghiên cưu co chê kêt nôi, cách thưc làm viẹc vơi API cua các hẹ chuyên

gia cua Google Safe Browsing và PhishTank.

- Tiên hanh cai đạt và thư nghiẹm, đanh gia va so sanh kêt qua.

- Sư dụng kêt qua cua nghiên cưu, tiên hanh cai đạt, tích hơp thành công

công cụ phát hiẹn va ngan chạn trang web lưa đao vào trình duyẹt web cua

nguơi dùng.

Huơng phát triển tiêp theo:

Nghiên cưu mở rọng phuong phap vơi nhiêu huơng tiêp cạn trong phát

hiẹn trang web lưa đao hon. Tiêp tục nghiên cưu lưa chọn, bô sung them cac đạc

trung cua trang web lưa đao cho huân luyẹn và sinh mô hình phát hiẹn nhằm

nâng cao hiẹu qua hiẹu suât cua mô hình phát hiẹn.

60

TÀI LIỆU THAM KHẢO

[1] APWG, "Phishing Activity Trends Report," APWG, 2019.

[2] D. Ulevitch, "OpenDNS," Cisco, 1 November 2005. [Online]. Available:

https://www.opendns.com/.

[3] "Google Safe Browsing API," [Online]. Available:

http://code.google.com/apis/safebrowsing/developersguide.html.

[4] P. Prakash, M. Kumar, R.R. Kompella and M. Gupta, "Phishnet: Predictive

Blacklisting to Detect Phishing Attacks," in Proceedings IEEE, 2010.

[5] Y. Joshi, S. Saklikar, D. Das and S. Saha, "Phish Guard: A Browser Plug-In

for protection from phishing web sites,," in Published in 2nd International

Conference on Internet Multimedia Services Architecture and Applications,

2008.

[6] N. Chou, R. Ledesma, Y. Teraguchi and J. Mitchell, "Client-Side Defense

Against Web-Based Identity Theft," in NDSS, 2004.

[7] J. Mao, P. Li, K. Li, T. Wei and Z. Liang, "Bait alarm: Detecting Phishing

Sites using Similarity in Fundamental Visual Features," in Intelligent

Networking and Collaborative Systems, 2013.

[8] S. L. Salzberg, C4.5: Programs for Machine Learning by J. Ross Quinlan,

KLuwer Academic, 1993.

[9] L. Breiman, Classification and Regression Trees, New York, CA:

Wadsworth International Group, 1984.

[10] J. Ma, L. K. Saul, S. Savage and G. M. Voelker, "Beyond Blacklists:

Learning to Detect Malicious Website from Suspicious URLs," in KDD'09,

Paris, France, 2009.

[11] L. Breiman, "Random Forests," in Machine Learning, vol. 45, California,

Statistics DepartmentUniversity of CaliforniaBerkeley, 2001, pp. 5-32.

[12] Mohammad, Rami, McCluskey, Thabtah and Fadi, "An Assessment of

Features Related to Phishing Websites using an Automated Technique," in

International Conferece For Internet Technology And Secured

Transactions, London, UK, 2012.

[13] Mohammad, Rami, Thabtah, F. Abdeljaber and McCluskey, "Predicting

phishing websites based on self-structuring neural network," Neural

61

Computing and Applications, pp. 443-458, 2014.

[14] Mohammad, Rami, McCluskey, T. a. Thabtah and F. Abdeljaber,

"Intelligent Rule based Phishing Websites Classification," IET Information

Security, pp. 153-160, 2014.

[15] M. Karabatak and T. Mustafa, "Performance comparison of classifiers on

reduced phishing website dataset," in 2018 6th International Symposium on

Digital Forensic and Security (ISDFS), Antalya, Turkey, 2018.

[16] R. M. A. Mohammad, L. McCluskey and F. Thabtah, "UCI Machine

Learning Repository," 26 03 2015. [Online]. Available:

https://archive.ics.uci.edu/ml/datasets/phishing+websites.

[17] Breiman, L., J. H. Friedman, R. A. Olshen and C. J. Stone, "Classification

and Regression Trees," Belmont, CA: Wadsworth International Group,

1984.

[18] J. Quinlan, C4.5: Programs for Machine Learning, Morgan Kaufmann,

1993.