SlideShare ist ein Scribd-Unternehmen logo
1 von 41
GVHD: Đỗ Hoàng Hiển
Nhóm 14
REAL-TIME INSTRUCTION
DETECTION IN WIRELESS
NETWORK:
A DEEP LEARNING BASED
INTELLIGENT MECHANISM
Danh sách
thành viên
Nguyễn Khắc Huy
Nguyễn Văn Tài
Nguyễn Trọng Tâm
Hoàng Thị Diễm Quỳnh
NỘI DUNG
1. Giới thiệu
2. Giải pháp và đóng
góp
3. Tổng quan cơ chế đề
xuất
4. Cơ chế phát hiện
xâm nhập dựa trên
thời gian thực
5. Case study
Giới thiệu
Giới thiệu
# Mạng cục bộ không dây
WLAN hay mạng cục bộ không dây là mạng cục bộ (LAN) gồm các máy tính liên lạc với
nhau bằng sóng vô tuyến.
Ưu điểm:
• Tiện lợi
• Tính di động cao
• Dễ dàng triển khai
• Khả năng mở rộng linh
hoạt
Nhược điểm:
• Hạn chế về mặt bảo mật
• Phạm vi truy cập còn hạn chế
• Độ tin cậy chưa cao
• Tốc độ mạng còn chậm
Giới thiệu
# Hệ thống phát hiện xâm nhập
Hệ thống phát hiện xâm nhập – IDS là viết tắt của Intrusion Detection System. Đây là
một phần mềm ứng dụng hoặc thiết bị được xây dựng để giám sát lưu lượng mạng,
đồng thời cảnh báo mỗi khi có các hành vi bất thường xâm nhập vào hệ thống.
Giới thiệu
# Bộ dữ liệu AWID
Bộ dữ liệu AWID là tập dữ liệu trong thế giới thực và nó bị mất cân bằng giữa các mẫu
tấn công và bình thường. Bộ dữ liệu AWID bao gồm một tập hợp lớn các gói (F) và một
gói nhỏ hơn (R). Hai phiên bản này không liên quan với nhau, tức là phiên bản nhỏ hơn
không được sản xuất từ phiên bản lớn hơn.
Giới thiệu
# Vấn đề
1. Khi xử lý bộ dữ liệu AWID, làm thế nào để xử lý các mẫu high-demensional data
trong trường hợp “curse of dimensionality‘’?
2. Do bộ dữ liệu AWID bị mất cân bằng, làm thế nào để cân bằng bộ dữ liệu trong
trường hợp dẫn đến vấn đề khớp quá mức và cải thiện hiệu suất phát hiện?
3. Làm thế nào để thiết kế một mô hình phát hiện để phát hiện bất thường theo cách
thời gian thực với hiệu suất phát hiện thỏa đáng?
Giải pháp và
đóng góp
Giải pháp và đóng góp
# Giải pháp
• Để giải quyết các vấn đề nêu ra ở trên, một cơ chế được phát hiện xâm nhập mạng không
dây dựa trên Conditional Deep Belief Network (CDBN) bao gồm Conditional Gaussian-
Bernoulli RBM (CGBRBM) được đề xuất để phát hiện mạng bất thường theo phương pháp
thời gian thực.
• Để khắc phục sự mất cân bằng về số lượng giữa dữ liệu bình thường và dữ liệu tấn công
trong tập dữ liệu huấn luyện AWID, thuật toán lựa chọn lấy mẫu dưới cơ sở cửa sổ
''SamSelect'' được áp dụng để cân bằng tập dữ liệu.
• Ngoài ra, để khắc phục những nhược điểm của các phương pháp hiện có trong việc giảm
kích thước dữ liệu, Bộ mã hóa tự động hợp đồng xếp chồng Stacked Contractive Auto-
Encoder (SCAE) được đề xuất để giảm kích thước của mẫu dữ liệu.
Giải pháp và đóng góp
# Đóng góp
• Đây là một trong những nghiên cứu tiên phong về việc sử dụng CDBN trong nghiên cứu
phát hiện xâm nhập mạng không dây. Ngoài ra, cơ chế đề xuất được thực hiện theo cách
thời gian thực, mới lạ và hiệu quả.
• Để tránh tác động của các mẫu bình thường quá mức trong tập dữ liệu AWID đối với việc
huấn luyện mô hình phát hiện. Đây là lần đầu tiên áp dụng thuật toán ''SamSelect'' để cân
bằng tập dữ liệu bằng cách lấy mẫu dưới mức các mẫu bình thường. Kích thước của vectơ
đặc trưng được giảm bằng phương pháp Bộ mã hóa tự động (SDAE) cải tiến, đây là phương
pháp mới.
Giải pháp và đóng góp
# Đóng góp
• Hiệu suất của cơ chế phát hiện xâm nhập được đề xuất trên hai tập dữ liệu (AWID,
LITNET) do ‘‘SamSelect’’ và SCAE xử lý có khả năng tốt.
• Tác động của kích thước cửa sổ quan sát theo thời gian của CDBN đối với hiệu suất phát
hiện được nghiên cứu cẩn thận. Hơn nữa, sự mạnh mẽ của cơ chế đề xuất của chúng tôi đối
với mẫu gây nhiễu cũng được nghiên cứu.
Tổng quan cơ chế
đề xuất
Tổng quan cơ chế đề xuất
# Tổng quan
Để huấn luyện hiệu quả trình phát hiện CDBN dựa trên tập dữ liệu huấn luyện cân bằng, tập
dữ liệu huấn luyện AWID trước tiên được chuẩn hóa, sau đó chúng tôi áp dụng thuật toán
''SamSelect'' để chọn các mẫu bình thường. Bằng cách đó, số lượng mẫu bình thường về cơ
bản sẽ bằng với số lượng mẫu tấn công.
Tổng quan cơ chế đề xuất
# Chuẩn hóa dữ liệu
 Sử dụng phương thức “factorzie” của “pandas lab” trong Python, để ánh xạ các thuộc tính
giá trị biểu tượng thành các giá trị số nguyên.
 Sau khi chuyển đổi tất cả các giá trị thuộc tính thành giá trị số nguyên, chúng tôi sử dụng
phương trình sau để chuẩn hóa từng giá trị thuộc tính với phạm vi nằm trong khoảng [0, 1]:
𝑦 =
𝑥 − min(𝑥)
max 𝑥 − min(𝑥)
trong đó x là dữ liệu tập AWID được tiêu chuẩn hóa.
Tổng quan cơ chế đề xuất
# Cân bằng dữ liệu
Tập dữ liệu huấn luyện AWID chứa 1.795.575 mẫu, trong đó 1.633.190 mẫu bình thường
và 162.385 mẫu tấn công. Để cân bằng tập dữ liệu, chúng tôi sử dụng một thuật toán
“SamSelect”. Thuật toán này sử dụng để lấy các mẫu bình thường dưới mức do các mẫu
bình thường được phân phối trong tất cả khoảng thời gian lấy mẫu.
Tổng quan cơ chế đề xuất
# Thuật toán SamSelect
Tổng quan cơ chế đề xuất
# Giảm kích thước dữ liệu dựa vào SCAE
• Auto-Encoder (AE) là một mạng neural học tập không giám sát, giúp tái tạo lại dữ liệu
đầu vào nhiều nhất có thể. Hai quy trình chính liên quan đến đào tạo AE, đó là đào tạo
trước khởi tạo trọng số mạng bằng thuật toán L-BFGS và tinh chỉnh để điều chỉnh các
tham số mạng bằng thuật toán BP (Backward Propagation).
• Bộ mã hóa Contractive Auto-Encoder (CAE) được đề xuất để đảm bảo dữ liệu được xây
dựng lại chứa đặc tính phân phối của dữ liệu đầu vào và loại bỏ nhiễu. Lúc này:
• Hàm loss là:
• với Ω là định mức Frobenius vuông được tính:
Tổng quan cơ chế đề xuất
# Mô hình giảm kích thước SCAE
Cơ chế phát hiện
xâm nhập dựa trên
thời gian thực
Cơ chế phát hiện xâm nhập dựa trên thời gian thực
# Cấu trúc máy phát hiện CDBN
Đây là cách phát hiện dữ liệu mới được nhập theo real-time, theo cách này dữ liệu thử nghiệm
sẽ được truyền vào mô hình CDBN từng bước theo thời gian thay vì nhập toàn bộ tập dữ liệu
thử nghiệm.
Bộ phát hiện dựa trên CDBN được đề xuất sử
dụng đơn vị CGBRBM làm lớp đầu tiên và
trên đỉnh của CGBRBM có N - 1 RBM thông
thường, do đó, có N lớp ẩn trong toàn bộ kiến
trúc CDBN. Một đơn vị đầu ra nhiều bộ phân
loại (output unit) được thêm vào phía trên
cùng của kiến trúc CDBN, đơn vị này có thể
xuất nhãn phân loại và cho biết liệu dữ liệu
đã nhập có phải là một loại tấn công hay
không.
Cơ chế phát hiện xâm nhập dựa trên thời gian thực
# Quá trình tiền đào tạo CDBN
• CDBN sử dụng quy trình tiền đào tạo(pre-traning) để khởi tạo các tham số mạng là trọng số
kết nối giữa các lớp và giá trị bù của từng nơ-ron lớp.
• Lấy một RBM làm ví dụ, trong đó có một lớp trực quan với m đơn vị hiển thị và một lớp ẩn
có n đơn vị ẩn. Hàm năng lượng của một RBM truyền thống có thể được định nghĩa như sau:
• Trong đó vj là phần tử thứ j của vectơ lớp hiển thị và hi là phần tử thứ i của vectơ lớp ẩn, wij
là phần tử thứ ij của ma trận trọng số giữa các đơn vị hiển thị và ẩn. Xác định di và cj lần lượt
là phần tử thứ j của vectơ độ lệch cho lớp ẩn và phần tử thứ j của vectơ độ lệch cho lớp hiển
thị.
Cơ chế phát hiện xâm nhập dựa trên thời gian thực
# Quá trình tiền đào tạo CDBN
Dựa trên phương trình (5), với các giá trị đơn vị của các lớp liền kề, phân phối xác suất có điều kiện
kích hoạt của các đơn vị ẩn và hiển thị được tính như sau:
Trong đó sigm(.) là hàm sigmoid. Bằng cách sử dụng phương pháp CD (Phân kỳ tương phản dựa trên
độ dốc), trọng số và độ lệch của RBM thông thường được cập nhật như sau:
Trong đó a là tỷ lệ học tập, và <.>m và <.>l là những kỳ vọng được tính toán trên dữ liệu và phân
phối mô hình.
Cơ chế phát hiện xâm nhập dựa trên thời gian thực
# Quá trình tiền đào tạo CDBN
Hình 5 minh họa cấu trúc của CGBRBM với một
lớp ẩn và K+1 lớp hiển thị. Xác định K là kích
thước của cửa sổ quan sát thời gian.
Tương tự với phương trình (5), hàm năng lượng
của CGBRBM được định nghĩa như sau:
Trong đó vj và hi lần lượt là phần tử thứ j của
vectơ hiển thị lớp và phần tử thứ i của lớp ẩn.
Tương tự, wij là phần tử thứ ij của ma trận trọng
số giữa các đơn vị lớp hiển thị và các đơn vị lớp
ẩn, s j là độ lệch chuẩn của phần tử thứ j trong
vectơ hiển thị, n và m là tượng trưng cho số đơn
vị ẩn và số đơn vị hiển thị.
Cơ chế phát hiện xâm nhập dựa trên thời gian thực
# Quá trình tiền đào tạo CDBN
Xác định b và c là vectơ phân cực của vectơ lớp ẩn và vectơ phân cực của lớp hiển thị, dt và ct được
tính như sau:
Trong đó vt -k là vectơ trước lớp hiển thị thứ k. Dựa trên phương trình (8), phân phối xác suất có điều
kiện của các đơn vị lớp ẩn và hiển thị có thể được tính như sau:
Cơ chế phát hiện xâm nhập dựa trên thời gian thực
# Quá trình tiền đào tạo CDBN
Áp dụng kỹ thuật CD dựa trên gradient, cấu trúc của CGBRBM có thể được cập nhật như sau:
Định nghĩa các ma trận trọng số là W , Ak và Bk trong đó
các phần tử được định nghĩa lần lượt là Wij, aijk và bijk,
tương ứng. Xác định <.>l và <.>m là kỳ vọng được tính
toán bởi phân phối dữ liệu và mô hình. Sau quy trình tiền
đào tạo, thêm một nút đầu ra được kết nối đầy đủ trên đầu
mô hình. Để trình bày hai nhãn biểu thị cuộc tấn công và
các mẫu bình thường, nút đầu ra được thiết kế dưới dạng
nhiều nút với chức năng kích hoạt sigmoid được xác định
trong biểu thức (6).
Sau các thao tác trên, mô hình sẽ được tinh chỉnh
bằng cách sử dụng đào tạo có giám sát lan truyền ngược
với dữ liệu được gắn nhãn có sẵn để đạt được đầy đủ cấu
trúc được đào tạo của mạng thần kinh.
Cơ chế phát hiện xâm nhập dựa trên thời gian thực
# Quá trình tinh chỉnh CDBN
Sau quá trình tiền đào tạo, sử dụng quy trình tinh chỉnh để điều chỉnh các tham số như trọng số và độ
lệch. Lấy lớp ẩn thứ h làm ví dụ và xác định tốc độ học là h, ma trận trọng số và vectơ thiên vị của nó
có thể được cập nhật như sau:
Trong đó DWh,i, j và Ddh, j lần lượt là giá trị cập nhật cho phần tử thứ ij của ma trận trọng số và cho
phần tử thứ j của vectơ độ lệch. Ph-1.j là xác suất kích hoạt của phần tử thứ j của lớp ẩn thứ (h -1).
Trong đó M là số phần tử trong lớp ẩn thứ (h+1). Wh+1, j ,k , và ph, j lần lượt là phần tử thứ jk của
ma trận trọng số của (h+1) lớp ẩn và xác suất kích hoạt của phần tử thứ j của lớp ẩn thứ h.
Cơ chế phát hiện xâm nhập dựa trên thời gian thực
# Quá trình tinh chỉnh CDBN
Tương tự như phương trình (12), vectơ trọng số và giá trị sai lệch của lớp đầu ra với một đơn vị (single-
unit) được cập nhật như sau:
Trong đó DWo, j là giá trị được cập nhật cho phần tử thứ j của vectơ trọng số, Ddo là giá trị được cập
nhật cho độ lệch, pH , j là xác suất kích hoạt của phần tử thứ j của lớp ẩn cuối cùng có chỉ mục là h = H
và:
Trong đó lo và L lần lượt là nhãn đầu ra dự đoán và giá trị thực của nhãn đầu ra. po là xác suất kích
hoạt của một đơn vị đầu ra
Case study
Case study
# Chuẩn bị
• Tập dữ liệu AWID-CLS-R-Trn được sử dụng để huấn luyện bộ phát hiện CDBN
và AWID-CLS-R-Tst được sử dụng để kiểm tra hiệu suất phát hiệN.
• Tập dữ liệu AWID-CLS-R-Trn chứa 1795575 mẫu, bao gồm 1633190 mẫu bình
thường và 162385 mẫu tấn công. Tập dữ liệu AWID-CLS-R-Tst chứa 575643
mẫu, bao gồm 530785 mẫu bình thường và 44858 mẫu tấn công.
Case study
# Chuẩn bị
Bảng minh họa sự phân bố của các kiểu tấn công khác nhau trong tập dữ liệu huấn luyện và
kiểm tra:
Case study
# Chuẩn bị
Trong bảng 2, ta có thể thấy rằng tập dữ liệu gần như cân bằng khi window size được đặt thành 2
Case study
Hiệu suất phát hiện với các Time observation window size khác nhau:
Case study
# Hiệu suất phát hiện tổng thể của cơ chế phát hiện được đề xuất
Bảng ma trận hợp nhất của cơ chế phát hiện được đề xuất:
Case study
Hiệu suất phát hiện với các phương pháp khác nhau:
Case study
Độ chính xác phát hiện với mức độ noise khác nhau:
Case study
Case study
Kết quả của các chỉ số hiệu suất phát hiện khác nhau:
Kết luận
Kết luận
Kết quả thí nghiệm cho thấy phương pháp phát hiện của nhóm tác giả có
thể đạt được kết quả tốt hơn hiệu suất phát hiện so với học sâu khác và
phương pháp truyền thống. Những thí nghiệm này cho thấy rằng cơ chế
được đề xuất có thể được thực hiện nhanh chóng cách với thời gian phát
hiện trung bình 1,14 ms và CDBN có thể được kết hợp hiệu quả với
''SamSelect'' và SCAE.
THANKS FOR
WATCHING

Weitere ähnliche Inhalte

Ähnlich wie Nhom14-_Full.pptx

DO_AN_TOT_NGHIEP-1 (1).pptx
DO_AN_TOT_NGHIEP-1 (1).pptxDO_AN_TOT_NGHIEP-1 (1).pptx
DO_AN_TOT_NGHIEP-1 (1).pptx
KhiVu2
 

Ähnlich wie Nhom14-_Full.pptx (20)

4 - Phan lop du lieu-Final.pptx
4 - Phan lop du lieu-Final.pptx4 - Phan lop du lieu-Final.pptx
4 - Phan lop du lieu-Final.pptx
 
Ptit mô phỏng hệ thống truyền thông slide
Ptit mô phỏng hệ thống truyền thông slidePtit mô phỏng hệ thống truyền thông slide
Ptit mô phỏng hệ thống truyền thông slide
 
Luận văn: Nghiên cứu thuật toán tìm kiếm chuỗi DNA, HAY, 9đ
Luận văn: Nghiên cứu thuật toán tìm kiếm chuỗi DNA, HAY, 9đLuận văn: Nghiên cứu thuật toán tìm kiếm chuỗi DNA, HAY, 9đ
Luận văn: Nghiên cứu thuật toán tìm kiếm chuỗi DNA, HAY, 9đ
 
Phát triển hệ thống gợi ý bằng Học tăng cường.pptx
Phát triển hệ thống gợi ý bằng Học tăng cường.pptxPhát triển hệ thống gợi ý bằng Học tăng cường.pptx
Phát triển hệ thống gợi ý bằng Học tăng cường.pptx
 
Phân Tích Dữ Liệu Phân Hạng Tín Dụng Dựa Trên Bộ Dữ Liệu Xyz Bằng Phần Mềm Or...
Phân Tích Dữ Liệu Phân Hạng Tín Dụng Dựa Trên Bộ Dữ Liệu Xyz Bằng Phần Mềm Or...Phân Tích Dữ Liệu Phân Hạng Tín Dụng Dựa Trên Bộ Dữ Liệu Xyz Bằng Phần Mềm Or...
Phân Tích Dữ Liệu Phân Hạng Tín Dụng Dựa Trên Bộ Dữ Liệu Xyz Bằng Phần Mềm Or...
 
4 phan loai va theo doi muc tieu
4 phan loai va theo doi muc tieu4 phan loai va theo doi muc tieu
4 phan loai va theo doi muc tieu
 
Mô hình nhận diện captcha sử dụng công.pptx
Mô hình nhận diện captcha sử dụng công.pptxMô hình nhận diện captcha sử dụng công.pptx
Mô hình nhận diện captcha sử dụng công.pptx
 
CTDL&GT_01
CTDL&GT_01CTDL&GT_01
CTDL&GT_01
 
Report dynamically survivable wdm network design problem
Report dynamically survivable wdm network design problemReport dynamically survivable wdm network design problem
Report dynamically survivable wdm network design problem
 
Khai phá dữ liệu chuỗi thời gian dựa vào rút trích đặc trưng, HAY
Khai phá dữ liệu chuỗi thời gian dựa vào rút trích đặc trưng, HAYKhai phá dữ liệu chuỗi thời gian dựa vào rút trích đặc trưng, HAY
Khai phá dữ liệu chuỗi thời gian dựa vào rút trích đặc trưng, HAY
 
DO_AN_TOT_NGHIEP-1 (1).pptx
DO_AN_TOT_NGHIEP-1 (1).pptxDO_AN_TOT_NGHIEP-1 (1).pptx
DO_AN_TOT_NGHIEP-1 (1).pptx
 
KPDL.pptx
KPDL.pptxKPDL.pptx
KPDL.pptx
 
C:\Documents And Settings\Kim Lis\My Documents\Downloads\Baocao Duy
C:\Documents And Settings\Kim Lis\My Documents\Downloads\Baocao DuyC:\Documents And Settings\Kim Lis\My Documents\Downloads\Baocao Duy
C:\Documents And Settings\Kim Lis\My Documents\Downloads\Baocao Duy
 
Bai thi Nghiem ky thuat dien tu
Bai thi Nghiem ky thuat dien tuBai thi Nghiem ky thuat dien tu
Bai thi Nghiem ky thuat dien tu
 
Slide môn Đảm bảo an toàn thông tin
Slide môn Đảm bảo an toàn thông tinSlide môn Đảm bảo an toàn thông tin
Slide môn Đảm bảo an toàn thông tin
 
Hệ Cơ Sở Dữ Liệu Đa Phương Tiện PTIT
Hệ Cơ Sở Dữ Liệu Đa Phương Tiện PTITHệ Cơ Sở Dữ Liệu Đa Phương Tiện PTIT
Hệ Cơ Sở Dữ Liệu Đa Phương Tiện PTIT
 
Chapter4 data linklayer
Chapter4 data linklayerChapter4 data linklayer
Chapter4 data linklayer
 
Báo cáo
Báo cáoBáo cáo
Báo cáo
 
Luận án: Xây dựng mô hình lai cho bài toán dự báo theo tiếp cận mờ
Luận án: Xây dựng mô hình lai cho bài toán dự báo theo tiếp cận mờLuận án: Xây dựng mô hình lai cho bài toán dự báo theo tiếp cận mờ
Luận án: Xây dựng mô hình lai cho bài toán dự báo theo tiếp cận mờ
 
Mạng neural nhân tạo và ứng dụng trong xử lý ngôn ngữ tự nhiên
Mạng neural nhân tạo và ứng dụng trong xử lý ngôn ngữ tự nhiênMạng neural nhân tạo và ứng dụng trong xử lý ngôn ngữ tự nhiên
Mạng neural nhân tạo và ứng dụng trong xử lý ngôn ngữ tự nhiên
 

Nhom14-_Full.pptx

  • 1. GVHD: Đỗ Hoàng Hiển Nhóm 14 REAL-TIME INSTRUCTION DETECTION IN WIRELESS NETWORK: A DEEP LEARNING BASED INTELLIGENT MECHANISM
  • 2. Danh sách thành viên Nguyễn Khắc Huy Nguyễn Văn Tài Nguyễn Trọng Tâm Hoàng Thị Diễm Quỳnh
  • 3. NỘI DUNG 1. Giới thiệu 2. Giải pháp và đóng góp 3. Tổng quan cơ chế đề xuất 4. Cơ chế phát hiện xâm nhập dựa trên thời gian thực 5. Case study
  • 5. Giới thiệu # Mạng cục bộ không dây WLAN hay mạng cục bộ không dây là mạng cục bộ (LAN) gồm các máy tính liên lạc với nhau bằng sóng vô tuyến. Ưu điểm: • Tiện lợi • Tính di động cao • Dễ dàng triển khai • Khả năng mở rộng linh hoạt Nhược điểm: • Hạn chế về mặt bảo mật • Phạm vi truy cập còn hạn chế • Độ tin cậy chưa cao • Tốc độ mạng còn chậm
  • 6. Giới thiệu # Hệ thống phát hiện xâm nhập Hệ thống phát hiện xâm nhập – IDS là viết tắt của Intrusion Detection System. Đây là một phần mềm ứng dụng hoặc thiết bị được xây dựng để giám sát lưu lượng mạng, đồng thời cảnh báo mỗi khi có các hành vi bất thường xâm nhập vào hệ thống.
  • 7. Giới thiệu # Bộ dữ liệu AWID Bộ dữ liệu AWID là tập dữ liệu trong thế giới thực và nó bị mất cân bằng giữa các mẫu tấn công và bình thường. Bộ dữ liệu AWID bao gồm một tập hợp lớn các gói (F) và một gói nhỏ hơn (R). Hai phiên bản này không liên quan với nhau, tức là phiên bản nhỏ hơn không được sản xuất từ phiên bản lớn hơn.
  • 8. Giới thiệu # Vấn đề 1. Khi xử lý bộ dữ liệu AWID, làm thế nào để xử lý các mẫu high-demensional data trong trường hợp “curse of dimensionality‘’? 2. Do bộ dữ liệu AWID bị mất cân bằng, làm thế nào để cân bằng bộ dữ liệu trong trường hợp dẫn đến vấn đề khớp quá mức và cải thiện hiệu suất phát hiện? 3. Làm thế nào để thiết kế một mô hình phát hiện để phát hiện bất thường theo cách thời gian thực với hiệu suất phát hiện thỏa đáng?
  • 10. Giải pháp và đóng góp # Giải pháp • Để giải quyết các vấn đề nêu ra ở trên, một cơ chế được phát hiện xâm nhập mạng không dây dựa trên Conditional Deep Belief Network (CDBN) bao gồm Conditional Gaussian- Bernoulli RBM (CGBRBM) được đề xuất để phát hiện mạng bất thường theo phương pháp thời gian thực. • Để khắc phục sự mất cân bằng về số lượng giữa dữ liệu bình thường và dữ liệu tấn công trong tập dữ liệu huấn luyện AWID, thuật toán lựa chọn lấy mẫu dưới cơ sở cửa sổ ''SamSelect'' được áp dụng để cân bằng tập dữ liệu. • Ngoài ra, để khắc phục những nhược điểm của các phương pháp hiện có trong việc giảm kích thước dữ liệu, Bộ mã hóa tự động hợp đồng xếp chồng Stacked Contractive Auto- Encoder (SCAE) được đề xuất để giảm kích thước của mẫu dữ liệu.
  • 11. Giải pháp và đóng góp # Đóng góp • Đây là một trong những nghiên cứu tiên phong về việc sử dụng CDBN trong nghiên cứu phát hiện xâm nhập mạng không dây. Ngoài ra, cơ chế đề xuất được thực hiện theo cách thời gian thực, mới lạ và hiệu quả. • Để tránh tác động của các mẫu bình thường quá mức trong tập dữ liệu AWID đối với việc huấn luyện mô hình phát hiện. Đây là lần đầu tiên áp dụng thuật toán ''SamSelect'' để cân bằng tập dữ liệu bằng cách lấy mẫu dưới mức các mẫu bình thường. Kích thước của vectơ đặc trưng được giảm bằng phương pháp Bộ mã hóa tự động (SDAE) cải tiến, đây là phương pháp mới.
  • 12. Giải pháp và đóng góp # Đóng góp • Hiệu suất của cơ chế phát hiện xâm nhập được đề xuất trên hai tập dữ liệu (AWID, LITNET) do ‘‘SamSelect’’ và SCAE xử lý có khả năng tốt. • Tác động của kích thước cửa sổ quan sát theo thời gian của CDBN đối với hiệu suất phát hiện được nghiên cứu cẩn thận. Hơn nữa, sự mạnh mẽ của cơ chế đề xuất của chúng tôi đối với mẫu gây nhiễu cũng được nghiên cứu.
  • 13. Tổng quan cơ chế đề xuất
  • 14. Tổng quan cơ chế đề xuất # Tổng quan Để huấn luyện hiệu quả trình phát hiện CDBN dựa trên tập dữ liệu huấn luyện cân bằng, tập dữ liệu huấn luyện AWID trước tiên được chuẩn hóa, sau đó chúng tôi áp dụng thuật toán ''SamSelect'' để chọn các mẫu bình thường. Bằng cách đó, số lượng mẫu bình thường về cơ bản sẽ bằng với số lượng mẫu tấn công.
  • 15. Tổng quan cơ chế đề xuất # Chuẩn hóa dữ liệu  Sử dụng phương thức “factorzie” của “pandas lab” trong Python, để ánh xạ các thuộc tính giá trị biểu tượng thành các giá trị số nguyên.  Sau khi chuyển đổi tất cả các giá trị thuộc tính thành giá trị số nguyên, chúng tôi sử dụng phương trình sau để chuẩn hóa từng giá trị thuộc tính với phạm vi nằm trong khoảng [0, 1]: 𝑦 = 𝑥 − min(𝑥) max 𝑥 − min(𝑥) trong đó x là dữ liệu tập AWID được tiêu chuẩn hóa.
  • 16. Tổng quan cơ chế đề xuất # Cân bằng dữ liệu Tập dữ liệu huấn luyện AWID chứa 1.795.575 mẫu, trong đó 1.633.190 mẫu bình thường và 162.385 mẫu tấn công. Để cân bằng tập dữ liệu, chúng tôi sử dụng một thuật toán “SamSelect”. Thuật toán này sử dụng để lấy các mẫu bình thường dưới mức do các mẫu bình thường được phân phối trong tất cả khoảng thời gian lấy mẫu.
  • 17. Tổng quan cơ chế đề xuất # Thuật toán SamSelect
  • 18. Tổng quan cơ chế đề xuất # Giảm kích thước dữ liệu dựa vào SCAE • Auto-Encoder (AE) là một mạng neural học tập không giám sát, giúp tái tạo lại dữ liệu đầu vào nhiều nhất có thể. Hai quy trình chính liên quan đến đào tạo AE, đó là đào tạo trước khởi tạo trọng số mạng bằng thuật toán L-BFGS và tinh chỉnh để điều chỉnh các tham số mạng bằng thuật toán BP (Backward Propagation). • Bộ mã hóa Contractive Auto-Encoder (CAE) được đề xuất để đảm bảo dữ liệu được xây dựng lại chứa đặc tính phân phối của dữ liệu đầu vào và loại bỏ nhiễu. Lúc này: • Hàm loss là: • với Ω là định mức Frobenius vuông được tính:
  • 19. Tổng quan cơ chế đề xuất # Mô hình giảm kích thước SCAE
  • 20. Cơ chế phát hiện xâm nhập dựa trên thời gian thực
  • 21. Cơ chế phát hiện xâm nhập dựa trên thời gian thực # Cấu trúc máy phát hiện CDBN Đây là cách phát hiện dữ liệu mới được nhập theo real-time, theo cách này dữ liệu thử nghiệm sẽ được truyền vào mô hình CDBN từng bước theo thời gian thay vì nhập toàn bộ tập dữ liệu thử nghiệm. Bộ phát hiện dựa trên CDBN được đề xuất sử dụng đơn vị CGBRBM làm lớp đầu tiên và trên đỉnh của CGBRBM có N - 1 RBM thông thường, do đó, có N lớp ẩn trong toàn bộ kiến trúc CDBN. Một đơn vị đầu ra nhiều bộ phân loại (output unit) được thêm vào phía trên cùng của kiến trúc CDBN, đơn vị này có thể xuất nhãn phân loại và cho biết liệu dữ liệu đã nhập có phải là một loại tấn công hay không.
  • 22. Cơ chế phát hiện xâm nhập dựa trên thời gian thực # Quá trình tiền đào tạo CDBN • CDBN sử dụng quy trình tiền đào tạo(pre-traning) để khởi tạo các tham số mạng là trọng số kết nối giữa các lớp và giá trị bù của từng nơ-ron lớp. • Lấy một RBM làm ví dụ, trong đó có một lớp trực quan với m đơn vị hiển thị và một lớp ẩn có n đơn vị ẩn. Hàm năng lượng của một RBM truyền thống có thể được định nghĩa như sau: • Trong đó vj là phần tử thứ j của vectơ lớp hiển thị và hi là phần tử thứ i của vectơ lớp ẩn, wij là phần tử thứ ij của ma trận trọng số giữa các đơn vị hiển thị và ẩn. Xác định di và cj lần lượt là phần tử thứ j của vectơ độ lệch cho lớp ẩn và phần tử thứ j của vectơ độ lệch cho lớp hiển thị.
  • 23. Cơ chế phát hiện xâm nhập dựa trên thời gian thực # Quá trình tiền đào tạo CDBN Dựa trên phương trình (5), với các giá trị đơn vị của các lớp liền kề, phân phối xác suất có điều kiện kích hoạt của các đơn vị ẩn và hiển thị được tính như sau: Trong đó sigm(.) là hàm sigmoid. Bằng cách sử dụng phương pháp CD (Phân kỳ tương phản dựa trên độ dốc), trọng số và độ lệch của RBM thông thường được cập nhật như sau: Trong đó a là tỷ lệ học tập, và <.>m và <.>l là những kỳ vọng được tính toán trên dữ liệu và phân phối mô hình.
  • 24. Cơ chế phát hiện xâm nhập dựa trên thời gian thực # Quá trình tiền đào tạo CDBN Hình 5 minh họa cấu trúc của CGBRBM với một lớp ẩn và K+1 lớp hiển thị. Xác định K là kích thước của cửa sổ quan sát thời gian. Tương tự với phương trình (5), hàm năng lượng của CGBRBM được định nghĩa như sau: Trong đó vj và hi lần lượt là phần tử thứ j của vectơ hiển thị lớp và phần tử thứ i của lớp ẩn. Tương tự, wij là phần tử thứ ij của ma trận trọng số giữa các đơn vị lớp hiển thị và các đơn vị lớp ẩn, s j là độ lệch chuẩn của phần tử thứ j trong vectơ hiển thị, n và m là tượng trưng cho số đơn vị ẩn và số đơn vị hiển thị.
  • 25. Cơ chế phát hiện xâm nhập dựa trên thời gian thực # Quá trình tiền đào tạo CDBN Xác định b và c là vectơ phân cực của vectơ lớp ẩn và vectơ phân cực của lớp hiển thị, dt và ct được tính như sau: Trong đó vt -k là vectơ trước lớp hiển thị thứ k. Dựa trên phương trình (8), phân phối xác suất có điều kiện của các đơn vị lớp ẩn và hiển thị có thể được tính như sau:
  • 26. Cơ chế phát hiện xâm nhập dựa trên thời gian thực # Quá trình tiền đào tạo CDBN Áp dụng kỹ thuật CD dựa trên gradient, cấu trúc của CGBRBM có thể được cập nhật như sau: Định nghĩa các ma trận trọng số là W , Ak và Bk trong đó các phần tử được định nghĩa lần lượt là Wij, aijk và bijk, tương ứng. Xác định <.>l và <.>m là kỳ vọng được tính toán bởi phân phối dữ liệu và mô hình. Sau quy trình tiền đào tạo, thêm một nút đầu ra được kết nối đầy đủ trên đầu mô hình. Để trình bày hai nhãn biểu thị cuộc tấn công và các mẫu bình thường, nút đầu ra được thiết kế dưới dạng nhiều nút với chức năng kích hoạt sigmoid được xác định trong biểu thức (6). Sau các thao tác trên, mô hình sẽ được tinh chỉnh bằng cách sử dụng đào tạo có giám sát lan truyền ngược với dữ liệu được gắn nhãn có sẵn để đạt được đầy đủ cấu trúc được đào tạo của mạng thần kinh.
  • 27. Cơ chế phát hiện xâm nhập dựa trên thời gian thực # Quá trình tinh chỉnh CDBN Sau quá trình tiền đào tạo, sử dụng quy trình tinh chỉnh để điều chỉnh các tham số như trọng số và độ lệch. Lấy lớp ẩn thứ h làm ví dụ và xác định tốc độ học là h, ma trận trọng số và vectơ thiên vị của nó có thể được cập nhật như sau: Trong đó DWh,i, j và Ddh, j lần lượt là giá trị cập nhật cho phần tử thứ ij của ma trận trọng số và cho phần tử thứ j của vectơ độ lệch. Ph-1.j là xác suất kích hoạt của phần tử thứ j của lớp ẩn thứ (h -1). Trong đó M là số phần tử trong lớp ẩn thứ (h+1). Wh+1, j ,k , và ph, j lần lượt là phần tử thứ jk của ma trận trọng số của (h+1) lớp ẩn và xác suất kích hoạt của phần tử thứ j của lớp ẩn thứ h.
  • 28. Cơ chế phát hiện xâm nhập dựa trên thời gian thực # Quá trình tinh chỉnh CDBN Tương tự như phương trình (12), vectơ trọng số và giá trị sai lệch của lớp đầu ra với một đơn vị (single- unit) được cập nhật như sau: Trong đó DWo, j là giá trị được cập nhật cho phần tử thứ j của vectơ trọng số, Ddo là giá trị được cập nhật cho độ lệch, pH , j là xác suất kích hoạt của phần tử thứ j của lớp ẩn cuối cùng có chỉ mục là h = H và: Trong đó lo và L lần lượt là nhãn đầu ra dự đoán và giá trị thực của nhãn đầu ra. po là xác suất kích hoạt của một đơn vị đầu ra
  • 30. Case study # Chuẩn bị • Tập dữ liệu AWID-CLS-R-Trn được sử dụng để huấn luyện bộ phát hiện CDBN và AWID-CLS-R-Tst được sử dụng để kiểm tra hiệu suất phát hiệN. • Tập dữ liệu AWID-CLS-R-Trn chứa 1795575 mẫu, bao gồm 1633190 mẫu bình thường và 162385 mẫu tấn công. Tập dữ liệu AWID-CLS-R-Tst chứa 575643 mẫu, bao gồm 530785 mẫu bình thường và 44858 mẫu tấn công.
  • 31. Case study # Chuẩn bị Bảng minh họa sự phân bố của các kiểu tấn công khác nhau trong tập dữ liệu huấn luyện và kiểm tra:
  • 32. Case study # Chuẩn bị Trong bảng 2, ta có thể thấy rằng tập dữ liệu gần như cân bằng khi window size được đặt thành 2
  • 33. Case study Hiệu suất phát hiện với các Time observation window size khác nhau:
  • 34. Case study # Hiệu suất phát hiện tổng thể của cơ chế phát hiện được đề xuất Bảng ma trận hợp nhất của cơ chế phát hiện được đề xuất:
  • 35. Case study Hiệu suất phát hiện với các phương pháp khác nhau:
  • 36. Case study Độ chính xác phát hiện với mức độ noise khác nhau:
  • 38. Case study Kết quả của các chỉ số hiệu suất phát hiện khác nhau:
  • 40. Kết luận Kết quả thí nghiệm cho thấy phương pháp phát hiện của nhóm tác giả có thể đạt được kết quả tốt hơn hiệu suất phát hiện so với học sâu khác và phương pháp truyền thống. Những thí nghiệm này cho thấy rằng cơ chế được đề xuất có thể được thực hiện nhanh chóng cách với thời gian phát hiện trung bình 1,14 ms và CDBN có thể được kết hợp hiệu quả với ''SamSelect'' và SCAE.

Hinweis der Redaktion

  1. Ta có thể thấy tập dữ liệu AWID-CLS-R-Trn bị mất cân bằng do số lượng mẫu bình thường lớn hơn nhiều so với số lượng mẫu tấn công, tỷ lệ là 10:1.
  2. Để cân bằng tập dữ liệu tốt nhất có thể, window size của SamSelect nên được chọn cẩn thận. Sau khi cân bằng tập dữ liệu huấn luyện, có 201007 mẫu bình thường và 162385 mẫu tấn công trong tập dữ liệu AWID-CLS-R-Trn và những dữ liệu này sẽ được điều chỉnh cho các thử nghiệm sau.
  3. Đối với các mô phỏng sau đây, chúng ta cần xác định time observation window tốt nhất vì cửa sổ lớn hơn có thể tìm hiểu thêm nhiều thông tin tạm thời trong chuỗi đầu vào. Do đó, điều quan trọng là phải điều tra time observation window size đối với hiệu suất phát hiện. Xác định cửa sổ quan sát thời gian kích thước là 1 nằm trong khoảng từ 2 đến 5. Trong thử nghiệm này, chúng tôi đặt số lượng lớp ẩn là 5. Như được hiển thị trong Hình. 8, hiệu suất phát hiện là tốt nhất khi kích thước cửa sổ quan sát thời gian Δ = 4. Đồng thời, Độ chính xác cho Normal sample, Flooding attack, False attack và Injection attack là 0,989, 0,808, 0,727, 0,991.
  4. Từ bảng, chúng ta có thể thấy rằng cơ chế được đề xuất có thể dễ dàng phát hiện dữ liệu thông thường với tỷ lệ cảnh báo sai thấp. Đối với các cuộc tấn công khác nhau, cơ chế này hiệu quả để phát hiện injection attack nhưng có độ chính xác phát hiện tương đối thấp so với flooding attack và false attack.
  5. chúng tôi so sánh cơ chế phát hiện được đề xuất với các phương pháp tương tự, ví dụ: phương pháp cân bằng dữ liệu SMOTE (Kỹ thuật lấy mẫu quá mức thiểu số tổng hợp) và phương pháp giảm kích thước PCA (Phân tích thành phần chính). Từ Hình 10, chúng ta có thể thấy rằng cơ chế được đề xuất tốt hơn so với sự kết hợp của SMOTE, PCA và CDBN. Rõ ràng là SCAE tốt hơn PCA trong việc giảm kích thước của tập dữ liệu thử nghiệm và SCAE+CDBN hiệu quả hơn PCA+CDBN. Tương tự, tập dữ liệu do ''SamSelect'' xử lý hiệu quả hơn tập dữ liệu do SMOTE xử lý.
  6. Cuối cùng, chúng tôi xác thực các ưu điểm của cơ chế phát hiện bằng cách so sánh với cơ chế phát hiện dựa trên RNN và cơ chế phát hiện dựa trên DBN bằng cách sử dụng đường cong đường cong đặc trưng hoạt động của bộ thu nhận (ROC) được vẽ trong Hình 11. True Positive Rate (TPR) là được định nghĩa là xác suất mà dữ liệu tấn công được xác định là tấn công. False positive rate (FPR) được định nghĩa là xác suất mà dữ liệu thông thường được xác định là bị tấn công. Từ kết quả được hiển thị trong Hình, chúng ta có thể nhận thấy rằng cơ chế được đề xuất có thể đạt được hiệu suất tốt nhất và diện tích dưới đường cong được gọi là AUC bằng 0,978, AUC của phương pháp dựa trên DBN lớn hơn so với phương pháp dựa trên RNN. Chúng tôi có thể kết luận rằng cơ chế phát hiện được đề xuất của chúng tôi vượt trội hơn so với các phương pháp dựa trên RNN và DBN.
  7. Hơn nữa, việc so sánh hiệu suất với các phương pháp học nông khác cũng được nghiên cứu. Chúng tôi so sánh cơ chế được đề xuất với các phương pháp nông hiện có như SVM (Support vector machine) và Hồi quy logistic (Logistic regression) bằng cách sử dụng nền tảng máy học WEKA. Từ Hình 12, rõ ràng là cơ chế được đề xuất có thể vượt trội đáng kể so với các cơ chế phát hiện dựa trên SVM và LR. Theo phân tích trên, chúng ta cũng có thể kết luận rằng hiệu suất phát hiện của các phương pháp dựa trên học sâu có thể đạt được hiệu suất phát hiện tốt hơn so với các phương pháp dựa trên học nông. Điều này là do các phương pháp dựa trên học sâu có thể tìm hiểu các tính năng thiết yếu của tập dữ liệu. Chúng tôi muốn làm rõ rằng các đường cong ROC trong Hình 11 và 12 là dành cho phân loại nhị phân, nghĩa là chúng được vẽ bằng cách phân tích kết quả khi phát hiện cuộc tấn công và mẫu bình thường.
  8. chúng tôi liên tục đánh giá hiệu suất của lược đồ phát hiện của mình bằng cách so sánh với các phương pháp dựa trên SVM và LR. Trong thử nghiệm này, chúng tôi sử dụng các chỉ số hiệu suất như Precision, Recall, Mcc, Acc để minh họa kết quả. Từ bảng 5, chúng ta có thể thấy rằng cơ chế được đề xuất có thể đạt được hiệu suất phát hiện tốt nhất.