SlideShare ist ein Scribd-Unternehmen logo
1 von 27
BỘ CÔNG THƯƠNG
TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THỰC PHẨM TP.HỒ CHÍ MINH
KHOA CÔNG NGHỆ THÔNG TIN
  
BÁO CÁO KẾT THÚC MÔN HỌC
KHAI THÁC DỮ LIỆU
Đề tài :Hỗ trợ khách hàng mua sản phẩm trên trang wed bán hàng
GIẢNG VIÊN HƯỚNG DẪN:NGUYỄN THANH BÌNH
SINH VIÊN THỰC HIỆN :
NGÔ THỊ THÚY - 2033190123
DƯƠNG TẤN KIỆT - 2033192097
NGUYỄN BÁ HÂN - 2033192268
NGÔ VĂN THIỀU - 2033190166
LÊ NGUYỄN DUY LINH - 2033180164
TP.HỒ CHÍ MINH, Tháng 06 Năm 2022
GVHD: Nguyễn Thanh Bình
— 1 —
LỜI CẢM ƠN
Để hoàn thành tiểu luận này, em xin gửi lời cảm ơn chân thành đến:
Ban giám hiệu trường Đại Học Công Nghiệp Thực Phẩm Thành phố Hồ Chí
Minh vì đã tạo điều kiện về cơ sở vật chất với hệ thống thư viện hiện đại, đa
dạng các loại sách, tài liệu thuận lợi cho việc tìm kiếm, nghiên cứu thông tin.
Xin cảm ơn giảng viên bộ môn - Thầy NGUYỄN THANH BÌNH đã giảng dạy
tận tình, chi tiết để em có đủ kiến thức và vận dụng chúng vào bài tiểu luận này.
Do chưa có nhiều kinh nghiệm làm để tài cũng như những hạn chế về kiến thức,
trong bài tiểu luận chắc chắn sẽ không tránh khỏi những thiếu sót. Rất mong
nhận được sự nhận xét, ý kiến đóng góp, phê bình từ phía Thầy để bài tiểu luận
được hoàn thiện hơn.
Lời cuối cùng, em xin kính chúc thầy nhiều sức khỏe, thành công và hạnh phúc.
TP Hồ Chí Minh, ngày 14 tháng 6, năm 2022
SINH VIÊN THỰC HIỆN
(Kí và ghi rõ họ tên)
Ngô Thị Thúy
Ngô Văn Thiều
Nguyễn Bá Hân
Dương Tấn Kiệt
Lê Nguyễn Duy Linh
GVHD: Nguyễn Thanh Bình
— 2 —
NHẬN XÉT CỦA GIÁO VIÊN
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
Ý kiến của Giáo Viên
(Ký và ghi rõ họ tên)
NGUYỄN THANH BÌNH
GVHD: Nguyễn Thanh Bình
— 3 —
LỜI CAM ĐOAN
Chúng tôi cam đoan rằng bài báo cáo đề tài này là do chính chúng
tôi thực hiện dưới sự hướng dẫn của thầy NGUYỄN THANH BÌNH.
Các số liệu và kết quả phân tích trong báo cáo là trung thực.
TP.HCM, ngày 14 tháng 6 , năm 2022
SINH VIÊN THỰC HIỆN
(Kí và ghi rõ họ tên)
GVHD: Nguyễn Thanh Bình
— 4 —
MỤC LỤC
LỜI CẢM ƠN ..................................................................................................... 1
NHẬN XÉT CỦA GIÁO VIÊN ......................................................................... 2
LỜI CAM ĐOAN ............................................................................................... 3
CHƯƠNG I: GIỚI THIỆU ................................................................................. 6
1.1. Lý do chọn đề tài.......................................................................................... 6
1.2. Mục tiêu và nội dung của đề tài................................................................... 6
1.3. Giới hạn đề tài.............................................................................................. 7
1.4 Bố cục của báo cáo....................................................................................... 7
CHƯƠNG II: CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN.. 7
2.1 KHAI PHÁ TRI THỨC............................................................................... 7
2.1.1 Phát hiện tri thức từ cơ sở dữ liệu........................................................ 7
2.1.2 Khai phá dữ liệu................................................................................... 8
2.1.2.1 Khái niệm về khai phá dữ liệu.................................................... 8
2.1.2.2. Nhiệm vụ của khai phá dữ liệu.................................................. 8
2.1.2.3 Một số ứng dụng khai phá dữ liệu............................................. 8
2.1.2.4. Các kỹ thuật khai phá dữ liệu .................................................... 8
2.2 THUẬT TOÁN APRIORI........................................................................... 9
2.2.1 Định nghĩa............................................................................................ 9
2.2.2 Một số tính chất của thuật toán Apriori............................................... 9
2.2.3 Minh họa thuật toán Apriori .............................................................. 10
2.2.4 Thuật toán Apriori ............................................................................. 12
2.2.5 Ứng dụng, mục đích,ý tưởng của thuật toán Apriori......................... 14
2.3 LUẬT KẾT HỢP TRONG KHAI PHÁ DỮ LIỆU .................................... 14
2.3.1. Bài toán kinh điển dẫn đến việc khai phá luật kết hợp..................... 14
2.3.2. Định nghĩa về luật kết hợp................................................................ 15
2.3.2.1 Định nghĩa: ............................................................................... 15
2.3.2.2 Định nghĩa Độ hỗ trợ................................................................ 15
2.3.2.3 Định nghĩa Độ tin cậy............................................................... 15
2.3.2.4 Định nghĩa Tập hợp thường xuyên........................................... 16
2.3.2.5 Thuật toán 1 – Thuật toán cơ bản:............................................ 17
2.3.2.6 Thuật toán 2- Tìm luật kết hợp khi đã biết các tập hợp thường
xuyên: ................................................................................................... 17
2.4 GIỚI THIỆU VỀ WEKA............................................................................ 17
2.4.1. Ưu điểm của Weka ........................................................................... 17
2.4.2 Định nghĩa.......................................................................................... 18
2.4.3. Các chức năng chính của WEKA ..................................................... 19
CHƯƠNG III: PHƯƠNG PHÁP HỌC SÂU.................................................... 19
3.1 Multilayer Perceptrons (MLPs) ............................................................ 19
3.1.1 Mô hình hoạt động....................................................................... 19
3.1.2 Ưu và nhược điểm ....................................................................... 20
3.2 Generative Adversarial Networks (GANs).......................................... 20
3.2.1 Mô hình hoạt động....................................................................... 21
3.2.2 Ưu và nhược điểm ....................................................................... 21
3.3 Autoencoders Deep Learning Algorithm.............................................. 21
GVHD: Nguyễn Thanh Bình
— 5 —
3.3.1 Hoạt động..................................................................................... 22
3.3.2 Ưu và nhược điểm ...................................................................... 22
3.4 Self Organizing Maps (SOMs) ............................................................. 22
3.4.1 Hoạt động..................................................................................... 22
3.4.2 Ưu và nhược điểm ....................................................................... 23
CHƯƠNG IV: HIỆN THỰC KẾT QUẢ.......................................................... 24
4.1 Yêu cầu hệ thống và tập dữ liệu thực nghiệm............................................. 24
4.2 Kết quả thực nghiệm................................................................................... 24
CHƯƠNG V : KẾT LUẬN .............................................................................. 25
5.1 Kết quả đạt được:........................................................................................ 25
5.2 Ưu và nhược điểm....................................................................................... 25
5.3 Hướng mở rộng trong tương lai.................................................................. 25
TÀI LIỆU THAM KHẢO................................................................................. 26
GVHD: Nguyễn Thanh Bình
— 6 —
CHƯƠNG I: GIỚI THIỆU
1.1. Lý do chọn đề tài
Trong những năm gần đây, cùng với sự phát triển mạnh mẽ của công
nghệ thông tin đã làm cho khả năng thu thập và lưu trữ thông tin của hệ thống
tăng lên một cách nhanh chóng. Bên cạnh đó việc tin học hóa các hoạt động
trong lĩnh vực giáo dục, sản xuất kinh doanh cũng như các hoạt động xã hội
khác đã tạo ra một lượng dữ liệu khổng lồ, theo như đánh giá cứ sau 20 tháng
lượng thông tin trên thế giới lại tăng gấp đôi. Tốc độ dữ liệu quá lớn, dẫn đến
kết quả là sự pha trộn của kỹ thuật thống kê và các công cụ quản trị dữ liệu
không thể phân tích đầy đủ dữ liệu rộng lớn được nữa.
Dữ liệu sau khi xử lý trực tuyến phục vụ cho mục đích nào đó được lưu
lại trong kho dữ liệu và khối lượng dữ liệu được lưu trữ ngày càng lớn. Trong
khối lượng to lớn này còn có nhiều thông tin có ích mang tính tổng quát,
thông tin có tính qui luật vẫn còn đang tìm ẩn. Các công cụ Xử lý phân tích
trực tuyến là cần thiết để phân tích dữ liệu, nhưng chưa đủ để rút thông tin từ
một khối lượng dữ liệu khổng lồ như vậy. Từ đó dẫn đến một yêu cầu cấp
thiết là cần có những kỹ thuật và công cụ mới để biến lượng dữ liệu khổng lồ
kia thành các tri thức có ích. Một hướng tiếp cận mới có khả năng giúp người
bán lấy được các thông tin có nhiều ý nghĩa từ tập dữ liệu lớn (databases,
datawarehouses, data repositories) đó là khai phá dữ liệu (Data Mining). Từ
đó kỹ thuật khai phá dữ liệu trở thành vấn đề thời sự của nền công nghệ thông
tin thế giới hiện nay nói chung và Việt Nam nói riêng.
Khai phá dữ liệu đang được áp dụng rộng rãi trong nhiều lĩnh vực kinh
doanh và đời sống khác nhau: marketing, tài chính – ngân hàng, bảo hiểm,
khoa học, y tế, an ninh, giáo dục, internet … rất nhiều công ty, xí nghiệp, các
cơ quan đã áp dụng kỹ thuật khai phá dữ liệu vào hoạt động của mình và đã
thu được nhiều thành tựu to lớn.Kỹ thuật khai phá dữ liệu bao gồm nhiều
hướng tiếp cận. Các kỹ thuật chính được áp dụng trong lĩnh vực này phần lớn
được kế thừa từ lĩnh vực cơ sở dữ liệu, học máy, trí tuệ nhân tạo, lý thuyết
thông tin, xác suất thống kê, tính toán hiệu năng cao và các phương pháp tính
toán mềm. Các bài toán trong khai phá dữ liệu chủ yếu là phân lớp/dự đoán,
phân cụm, khái phá luật kết hợp, khai phá chuỗi…trong đó khai phá luật kết
hợp là một trong các nội dung quan trọng trong khai phá dữ liệu và đây là lĩnh
vực nghiên cứu có nhiều triển vọng.
1.2. Mục tiêu và nội dung của đề tài
Đề tài “Hỗ trợ khách hàng mua sản phẩm trên trang wed bán hàng” được xây
dựng nhằm tạo ra kho dữ liệu có chiều sâu, thông tin để hỗ trợ cho việc mua
bán phục vụ cho công tác quản lý hàng hóa trên trang wed.
Mục tiêu của đề tài:
- Nghiên cứu khai phá dữ liệu (Datamining) và ứng dụng luật kết hợp
(Association Rule) để phục vụ việc mua sản phẩm trên trang wed bán hàng.
Nội dung của đề tài:
- Thu thập dữ liệu là
- Nghiên cứu thuật toán Apriori-TID để xây dựng luật kết hợp.
- Tìm hiểu bộ công cụ hỗ trợ Weka.
GVHD: Nguyễn Thanh Bình
— 7 —
- Xây dựng ứng dụng đơn giản để khai phá luật kết hợp.
- Đánh giá kết quả đạt được của đề tài.
1.3. Giới hạn đề tài
- Với số lượng lớn dữ liệu là một khó khăn mà nhóm em gặp phải.
1.4 Bố cục của báo cáo
Báo cáo bày bao gồm phần mở đầu và 3 chương sau:
CHƯƠNG 1 – GIỚI THIỆU
CHƯƠNG 2 – CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN
CHƯƠNG 3: PHƯƠNG PHÁP HỌC SÂU
CHƯƠNG 4 HIỆN THỰC KẾT QUẢ
CHƯƠNG 5 – XÂY DỰNG ỨNG DỤNG VÀ ĐÁNH GIÁ KẾT QUẢ.
Trong chương này phân tích thiết kế quản lý cơ sở dữ liệu quản lí bán hàng
trên trang wed dựa trên luật kết hợp.
Kết luận và hướng phát triển.
Nêu ra kết luận, đánh giá chung về các nghiên cứu và đạt được từ ứng dụng,
so sánh kết quả của ứng dụng với phương pháp truyền thống. Từ đó, đề ra
định hướng phát triển ứng dụng
CHƯƠNG II: CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN
QUAN
2.1 KHAI PHÁ TRI THỨC
2.1.1 Phát hiện tri thức từ cơ sở dữ liệu
Mục đích chung của phát hiện tri thức và khai phá dữ liệu là tìm ra các
mẫu và các mô hình đang tồn tại trong cơ sở dữ liệu nhưng bị che khuất bởi các
dữ liệu khác.
Hình: Quy trình phát hiện tri thức
 Làm sạch dữ liệu - Data cleaning: Quá trình này sẽ loại bỏ những dữ liệu
không bình thường, không theo quy luật, quy tắc hay mô hình dữ liệu hoặc
các dữ liệu không nhất quán.
 Tích hợp dữ liệu - Data intergation: Các dữ liệu được sưu tầm từ nhiều
nguồn khác nhau sẽ được tổ hợp lại sau những lần thu thập dữ liệu.
GVHD: Nguyễn Thanh Bình
— 8 —
 Lựa chọn dữ liệu- Data selection: Lấy ra những dữ liệu thích hợp với
nhiệm vụ phân tích từ cơ sở dữ liệu
 Chuyển đổi dữ liệu -Data transformation: Dữ liệu được chuyển đổi hợp
nhập về một dạng thích hợp cho quá trình khai phá
 Khai phá dữ liệu - Data mining: Trích ra các mẫu dữ liệu. Là tiến trình
quan trọng nhất.
 Đánh giá mẫu - Pattern evaluation: Dựa trên một số độ đo nào đó xác định
lợi ích thật sự, độ quan trọng của các mẫu biểu diễn tri thức.
 Biểu diễn tri thức - Knowledge presentation: Các kĩ thuật biểu diễn và hiển
thị được sử dụng để đưa tri thức đã lấy ra được cho người dùng.
2.1.2 Khai phá dữ liệu
2.1.2.1 Khái niệm về khai phá dữ liệu
Khai phá dữ liệu (data mining) là quá trình khám phá các tri thức mới và các tri thức
có ích ở dạng tiềm năng trong nguồn dữ liệu đã có.
Khai phá dữ liệu là một bước trong quá trình khám phá tri thức bao gồm các thuật
toán khai phá dữ liệu chuyên dùng dưới một số quy định về hiệu quả tính toán chấp
nhận được để tìm ra các mẫu và các mô hình trong dữ liệu.
2.1.2.2. Nhiệm vụ của khai phá dữ liệu
Những nhiệm vụ cơ bản nhất của khai phá dữ liệu là:
Phân cụm, phân loại, phân nhóm, phân lớp.
Khai phá luật kết hợp.
Lập mô hình dự báo.
Phân tích đối tượng ngoài cuộc.
Phân tích sự tiến hóa.
2.1.2.3 Một số ứng dụng khai phá dữ liệu
Thương mại: Phân tích dữ liệu bán hàng và thi trường, phân tích đầu tư, quyết định
cho vay, phát hiện gian lận.
Thông tin sản xuất: Điều khiển và lập kế hoạch, hệ thống quản lý, phân tích kết quả
thử nghiệm.
Thông tin khoa học: dự báo thời tiết, CSDL sinh học: Ngân hàng gen, khoa học địa
lý:
dự báo động đất.
Trong y tế, marketing, ngân hàng, viễn thông, du lịch, internet.
2.1.2.4. Các kỹ thuật khai phá dữ liệu
a. Khai phá dữ liệu dự đoán
Nhiệm vụ của KPDL dự đoán là đưa ra các dự đoán dựa vào các suy diễn trên cơ sở
dữ liệu hiện thời. Bao gồm các kỹ thuật: Phân loại (Classification); Hồi qui
(Regression … ).
 Phân loại
Mục tiêu của phương pháp phân loại dữ liệu là dự đoán nhãn lớp cho các mẫu dữ liệu.
GVHD: Nguyễn Thanh Bình
— 9 —
Quá trình phân loại dữ liệu thường gồm hai bước : xây dựng mô hình và sử dụng mô
hình để
phân loại dữ liệu.
Bước 1 : Xây dựng mô hình dựa trên việc phân tích các mẫu dữ liệu cho trước.
Bước 2 : Sử dụng mô hình để phân loại dữ liệu. Hay nói các khác, phân loại là học
một hàm ánh xạ một mục dữ liệu vào trong số các lớp cho trước.
 Hồi quy
Phương pháp hồi quy khác với phương pháp phân loại dữ liệu ở chỗ, hồi qui dùng để
dự đoán về các giá trị liên tục còn phân loại dữ liệu chỉ dùng để dự đoán về các giá trị
rời rạc.
Hồi quy là một hàm học ánh xạ mục dữ liệu thành một biến dự đoán có giá trị thực.
b. Khai phá dữ liệu mô tả
Kỹ thuật này có nhiệm vụ mô tả về các tính chất hoặc các đặc tính chung của dữ liệu
trong CSDL hiện có. Bao gồm các kỹ thuật: Phân cụm; Khai phá luật kết hợp...
 Phân cụm
Mục tiêu chính của phương pháp phân cụm dữ liệu là nhóm các đối tượng tương tự
nhau trong tập dữ liệu vào các cụm sao cho các đối tượng thuộc cùng một một cụm là
tương đồng còn các đối tượng thuộc các cụm khác nhau sẽ không tương đồng.
Hình 2 : Phân cụm tập dữ liệu cho vay thành 3 cụm
Hình 2. cho thấy sự phân cụm tập dữ liệu cho vay vào trong 3 cụm : Lưu ý rằng các
cụm chồng lên nhau cho phép các điểm dữ liệu thuộc về nhiều hơn một cụm.
 Khai phá luật kết hợp
Mục tiêu của phương pháp này là phát hiện và đưa ra các mối liên hệ giữa các giá trị
dữ liệu trong cơ sở dữ liệu. Mẫu đầu ra của giải thuật KPDL là luật kết hợp tìm được.
2.2 THUẬT TOÁN APRIORI
2.2.1 Định nghĩa
Thuật toán Apriori được công bố bởi R. Agrawal và R. Srikant vào năm
1994 vì để tìm các tập phổ biến trong một bộ dữ liệu lớn. Tên của thuật toán là
Apriori vì nó sử dụng kiến thức đã có từ trước (prior) về các thuộc tính, vật
phẩm thường xuyên xuất hiện trong cơ sở dữ liệu. Để cải thiện hiệu quả của
việc lọc các mục thường xuyên theo cấp độ, một thuộc tính quan trọng được sử
dụng gọi là thuộc tính Apriori giúp giảm phạm vi tìm kiếm của thuật toán.
2.2.2 Một số tính chất của thuật toán Apriori
GVHD: Nguyễn Thanh Bình
— 10 —
Cho hai tập mục X, Y⊆ I và cơ sở dữ liệu D.
Nếu X ⊆ Y thì sup(X, D) ≥ sup(Y, D).
Hai tính chất Apriori:
 Nếu Y là tập phổ biến (frequent) thì mọi tập con X (C ⊆Y) của Y
đều phổ biến.
• Nếu X là tập không phổ biến (infrequent) thì mọi tập cha Y (⊇ X)của X đều
không phổ biến.
Phương pháp Apriori dựa vào hai tính chất trên để cải tiến phương pháp
vét cạn bằng cách cắt tỉa các nhánh không cần thiết trên giàn tập mục.
Cụ thể, khi duyệt theo bề rộng (BFS) trên dàn tập mục, thuật toán
Apriori cắt tỉa hết tất cả các tập cha của tập không phổ biến.
2.2.3 Minh họa thuật toán Apriori
Minh họa 1:
GVHD: Nguyễn Thanh Bình
— 11 —
Minh họa 2: Cho một tập các giao dịch từ các hóa đơn mua hàng như sau:
TID Các món hàng được mua (Item)
1 {b,m,t,y}
2 {b,m}
3 {p,s,t}
4 {a,b,c,d}
5 {a,b}
6 {e,t,y}
7 {a,b,m}
Cho Min Support = 30% , Min Confidence=60%
Tính tập Large 1-Item, ta có F1
Tập Item Số lần xuất hiện
a 3
b 5
m 3
t 3
Ở bước kết từ F1 trên ta có tập C2 gồm các cặp 2- item:
{{a,b},{a,m},{a,t},{b,m},{b,t},{m,t}}
Tính tập Large 2-Item ta có F2:
Tập Item Số lần xuất hiện
{a,b} 3
{a,m} 1
{a,t} 0
{b,m} 3
{b,t} 1
{m,t} 1
Chỉ lấy các cặp 2-item có Support> Min Support(=30%) gồm: {a,b} và {b,m}
GVHD: Nguyễn Thanh Bình
— 12 —
Phát sinh luật:
a→ b có độ Confidence 3/3 =100%
b→ a có độ Confidence 3/5 =60%
b→ m có độ Confidence 3/5 =60%
m→ b có độ Confidence 3/3 =100%
Ở bước lược bỏ ta có F2={{a,b},{b,m}}
Ở bước kết từ F2 ta có tập C3 gồm các cặp 3-item là {∅}
2.2.4 Thuật toán Apriori
 Các kí hiệu:
- Lk: Tập các k-mục phổ biến (large k-itemset) (tức tập các itemset có support
tối thiểu và có lực lượng bằng k). Mỗi phần tử của tập này có 2 trường: itemset
và suport-count.
- Ck: Tập các candidate k-itemset (tập các tập k-mục ứng cử viên). Mỗi phần tử
trong tập này cũng có 2 trường itemset và support-count.
 Nội dung thuật toán Apriori được trình bày như sau:
Input: Tập các giao dịch D, ngưỡng support tối thiểu minsup
Output: L- tập mục phổ biến trong D
Method: L1={large 1-itemset} //tìm tất cả các tập mục phổ biến: nhận
được L1
for (k=2; Lk-1 ; k++) do
begin
Ck=apriori-gen(Lk-1); //sinh ra tập ứng cử viên từ Lk-1
for (mỗi một giao dịch T D) do
begin
CT = subset(Ck, T);
//lấy tập con của T là ứng cử viên trong Ck
for (mỗi một ứng cử viên c CT) do
c.count++; //tăng bộ đếm tần xuất 1 đơn vị
end;
Lk = {c Ck| c.count minsup}
end;
return kLk
Trong thuật toán này, giai đoạn đầu đơn giản chỉ là việc đếm support cho các
item. Để xác định tập 1-mục phổ biến (L1), người ta chỉ giữ lại các item mà
support của nó lớn hơn hoặc bằng minsup.
Trong các giai đoạn thứ k sau đó (k>1), mỗi giai đoạn gồm có 2 pha.
Trước hết các large(k-1)-itemset trong tập Lk-1được sử dụng để sinh ra các
candidate itemset Ck, bằng cách thực hiện hàm Apriori_gen.
Tiếp theo CSDL D sẽ được quét để tính support cho mỗi ứng viên trong Ck. Để
việc đếm được nhanh, cần phải có một giải pháp hiệu quả để xác định các ứng
viên trong Ck là có mặt trong một giao dịch T cho trước.
Vấn đề sinh tập candidate của Apriori – Hàm Apriori_gen:
Hàm Apriori_gen với đối số là Lk-1(tập các large(k-1)-itemset) sẽ cho lại
GVHD: Nguyễn Thanh Bình
— 13 —
kết quả là một superset, tập của tất cả các large k – itemset. Sơ đồ sau là thuật
toán cho hàm này.
Input: tập mục phổ biến Lk-1 có kích thƣớc k-1
Output: tập ứng cử viên Ck
Method:
function apriori-gen(Lk-1: tập mục phổ biến có kích thƣớc k-1)
Begin
For (mỗi L1 Lk-1) do
For (mỗi L2 Lk-1) do
begin
If ((L1[1]=L2[1]) (L1[2]=L2[2]) ... (L1[k-2]=L2[k-2])
(L1[k-1]=L2[k-1])) then
c = L1 L2; // kết nối L1 với L2 sinh ra ứng cử viên c
If has_infrequent_subset(c, Lk-1) then
remove (c) // bứớc tỉa (xoá ứng cử viên c)
else Ck = Ck {c}; kết tập c vào Ck
end;
Return Ck;
End;
Hàm kiểm tra tập con k-1 mục của ứng cử viên k-mục không là tập phổ biến:
function has_infrequent_subset(c:ứng cử viên k-mục;Lk-1 tập phổ biến
k- 1 mục)
Begin
//sử dụng tập mục phổ biến trƣớc
For (mỗi tập con k-1 mục s của c) do
If s Lk-1 then return TRUE;
End;
Có thể mô tả hàm Apriori_gen trên theo lược đồ sau:
Input: tập các large(k-1)- itemset Lk-1
Output: tập candidate k-itemset Ck
Method:
Hàm Apriori-gen() //bước nối
insert into Ck
select p.item1, p.item2,..., p.itemk-1, q.itemk-1
from Lk-1p , Lk-1q
where p.item1=q.item1 , …, p.itemk-2=q.itemk-2, p.itemk
1<q.itemk-1
//bước cắt tỉa:
for (mọi tập mục c Ck) do
for (mọi (k-1) tập con s của c( do
if (s Lk-1) then
delete c khỏi Ck;
 Với nội dung trên, ta thấy hàm này có 2 bước:
- Bước nối (join step): Bước này nối Lk-1 với Lk-1. Trong bước này, cho rằng
các item của các itemset đã được sắp xếp theo thứ tự từ điển. Nếu có k-2 item
đầu tiên (gọi là phân tiền tố) của hai(k-1)-itemset i1và i2(i1 i2) nào đó mà
GVHD: Nguyễn Thanh Bình
— 14 —
giống nhau thì ta khởi tạo một candidate k-itemset cho Ck bằng cách lấy phần
tiền tố này hợp với 2 item thứ k-1 của i1 và i2 (có thể phải sắp lại thứ tự cho
các item này). Điều kiện p.itemk-1 <q.itemk-1 đơn giản chỉ là việc tránh k
itemset trùng lặp được đưa vào Ck.
- Bước cắt tỉa (prune step): Đây là bước tiếp theo sau bước join. Trong bước
này, ta cần loại bỏ tất cả các k-itemset c Ck mà chúng tồn tại một(k-1)- subset
không có mặt trong Lk-1. Giải thích điều này như sau: giả sử s là một(k- 1)-
subset của c mà không có mặt trong Lk-1. Khi đó, support (s)<minsup. Mặt
khác vì c s nên support(s)<minsup. Vậy c không thể là một large-itemset, nó
cần phải loại bỏ khỏi Ck.
2.2.5 Ứng dụng, mục đích,ý tưởng của thuật toán Apriori
Việc thuật toán Apriori có thể làm là nhìn vào quá khứ và khẳng định
rằng nếu một việc gì đó xảy ra thì sẽ có tỉ lệ bao nhiêu phần trăm sự việc tiếp
theo sẽ xảy ra. Nó giống như nhìn vào quá khứ để dự đoán tương lại vậy, và
việc này rất có ít cho các nhà kinh doanh.
 Mục đích của thuật toán Apriori:
Thuật toán Apriori giúp tìm ra các mối quan hệ giữa các đối tượng trong
khối lượng lớn | dữ liệu Việc thuật toán Apriori có thể làm là nhìn vào quá khứ
và khẳng định rằng nếu một việc gì đó xảy ra thì sẽ có tỉ lệ bao nhiêu phần trăm
sự việc tiếp theo sẽ xảy ra. Nó giống như nhìn vào quá khứ để dự đoán tương
lại vậy, và việc này rất có ích cho các nhà kinh doanh.
 Ý tưởng chính của thuật toản Apriori:
Tạo ra các tập chỉ mục phổ biến có 1 phần tử, rồi tiếp đến 2 phần tử, 3
phần tử cho đến khi chúng ta tạo ra tập chỉ mục phổ biến của mọi kích cỡ. -
Mỗi tập chỉ mục được tạo ra phải được tính toán độ hỗ trợ. - Tập chỉ mục phổ
biến k phần tử được tạo ra từ tập phổ biến k-1 phần tử. Bằng cách, nối từng đôi
một tập chỉ mục phổ biến k-1 phần tử đã có để tạo ra tập ứng viên k phần tử.
Sau đó, những tập ứng viên nào có chứa một tập con không phải là phổ biến sẽ
bị loại bỏ.
 Hạn chế của thuật toán Apriori:
Số lượng lớn tập phổ biến được tạo ra làm gia tăng sự phức tạp không
gian.
Quá nhiều lần duyệt cơ sở dữ liệu được yêu cầu về số lượng lớn tập phổ
biến được tạo.
Khi số lần đuyệt cơ sở dữ liệu nhiều làm gia tăng sự phức tạp thời gian
khi cơ sở dữ liệu gia tăng
2.3 LUẬT KẾT HỢP TRONG KHAI PHÁ DỮ LIỆU
2.3.1. Bài toán kinh điển dẫn đến việc khai phá luật kết hợp
Bài toán giỏ mua hàng trong siêu thị: Giả định chúng ta có rất nhiều mặt
hàng“bánh mì”, “sữa”,…(coi là tính chất hoặc trường).
GVHD: Nguyễn Thanh Bình
— 15 —
Khách hàng khi đi siêu thị sẽ bỏ vào giỏ mua hàng của họ một số mặt
hàng nào đó, và chúng ta muốn tìm hiểu các khách hàng thường mua các mặt
hàng nào đồng thời, chúng ta không cần biết khách hàng cụ thể là ai. Nhà quản
lý dùng những thông tin này để điều chỉnh việc nhập hàng về siêu thị, hay đơn
giản là để bố trí sắp xếp các mặt hàng gần nhau, hoặc bán các mặt hàng đó theo
một gói hàng, giúp cho khắc đỡ mất công tìm kiếm.
Khai phá luật kết hợp được mô tả như sự tương quan của các sự kiện
những sự kiện xuất hiện thường xuyên một các đồng thời. Nhiệm vụ chính của
khai phá luật kết hợp là phát hiện ra các tập con cùng xuất hiện trong một khối
lượng giao dịch lớn của một cơ sở dữ liệu cho trước.
2.3.2. Định nghĩa về luật kết hợp
2.3.2.1 Định nghĩa:
Cho I={𝐼1, 𝐼2, .., Im} là tập hợp của m tính chất riêng biệt. Giả sử D là CSDL,
với các bản ghi chứa một tập con T các tính chất (có thể coi như T ⊆ I), các
bản ghi đều có chỉ số riêng. Một luật kết hợp là một mệnh đề kéo theo có dạng
X→Y=, trong đó X, Y⊆ I, thỏa mãn điều kiện X⋂Y=∅. Các tập hợp X và Y
được gọi là các tập hợp tính chất (itemset). Tập X gọi là nguyên nhân, tập Y
gọi là hệ quả.
Có 2 độ đo quan trọng đối với luật kết hợp: Độ hỗ trợ (support) và độ tin cậy
(confidence), được định nghĩa như phần dưới đây.
2.3.2.2 Định nghĩa Độ hỗ trợ
 Độ hỗ trợ của một tập hợp X trong cơ sở dữ liệu D là tỷ số giữa các bản
ghi T ⊆ D có chứa tập X và tổng số bản ghi trong D (hay là phần trăm của
các bản ghi trong D có chứa tập hợp X), ký hiệu là support(X) hay supp(X)
(support sẽ tự sinh ra khi cài thuật toán).
𝑆0 =
|{ 𝑇 ⊂ 𝐷∶ 𝑌⊃X}|
|𝐷|
Ta có: 0 ≤supp(X) ≤1 với mọi tập hợp X.
 Độ hỗ trợ của một luật kết hợp X→Y là tỷ lệ giữa số lượng các bản ghi
chứa tập hợp X ∪Y, so với tổng số các bản ghi trong D
- Ký hiệu supp(X→Y).
Supp(X→Y) =
|{ 𝑇 ⊂ 𝐷∶ 𝑇⊇X∪Y }|
|𝐷|
Khi chúng ta nói rằng độ hỗ trợ của một luật là 50%, có nghĩa là có 50% tổng
số bản ghi chứaX ∪ Y. Như vậy, độ hỗ trợ mang ý nghĩa thống kê của luật.
2.3.2.3 Định nghĩa Độ tin cậy
 Độ tin cậy của một luật kết hợp X→Y là tỷ lệ giữa số lượng các bản ghi
trong D chứa X ∪ Y với số bản ghi trong D có chứa tập hợp X. Ký hiệu độ
tin cậy của một luật là conf(r). Ta có 0 ≤conf(r) ≤1
Nhận xét: Độ hỗ trợ và độ tin cậy có xác suất sau:
Supp(X→Y)=P(X∪ Y)
GVHD: Nguyễn Thanh Bình
— 16 —
Conf (X→Y) = P(Y/X)=supp(X∪ Y)/supp(X)
 Độ tin cậy của một luật kết hợp X→Y là tỷ lệ giữa số lượng các bản ghi của
tập hợp chứa X ∪ Y, so với tổng số các bản ghi chứa X.
Chúng ta nhận thấy rằng tri thức đem lại bởi luật kết hợp dạng trên có sự khác
biệt rất nhiều so với những thông tin thu được từ các câu lệnh truy vấn dữ liệu
thông thường như SQL. Đó là những tri thức, những mối liên hệ chưa biết
trước và mang tính dự báo đang tiềm ẩn trong dữ liệu. Những tri thức này
không đơn giản là kết quả của phép nhóm, tính tổng hay sắp xếp mà là của một
quá trình tính toán khá phức tạp.
2.3.2.4 Định nghĩa Tập hợp thường xuyên
 Tập hợp X được gọi là tập hợp thường xuyên (Frenquent itemset) nếu có
supp(X) ≥minsup, với minsup là ngưỡng độ hỗ trợ cho trước.
 Kí hiệu các tập này là FI
Tính chất 1: Giả sử A,B ⊆ I là hai tập hợp với A⊆ B thì supp(A)≥supp(B).
Như vậy, những bản ghi nào chứa tập hợp B thì cũng chứa tập hợp A
Tính chất 2: Giả sử A, B là hai tập hợp, A,B ⊆ I, nếu B là tập hợp thường
xuyên và A⊆ B thì A cũng là tập hợp thường xuyên.
Thật vậy, nếu B là tập hợp thường xuyên thì supp(B) ≥ minsup, mọi tập
hợp A là con của tập hợp B đều là tập hợp thường xuyên trong cơ sở dữ liệu D
vì supp(A) ≥supp(B)
Tính chất 3: Giả sử A, B là hai tập hợp, A⊆ B và A là tập hợp không thường
xuyên thì B cũng là tập hợp không thường xuyên
Định nghĩa : Một tập mục X được gọi là đóng (closed) nếu không có tập cha
nào của X có cùng độ hỗ trợ với nó, tức là không tồn tại một tập mục X’ nào
mà X’X và t(X) = t(X’) (với t(X) và t(X’) tương ứng là tập các giao chứa tập
mục X và X’).
Ký hiệu tập phổ biến đóng là FCI.
Định nghĩa : Nếu X là phổ biến và không tập cha nào của X là phổ biến, ta nói
rằng X là một tập phổ biến lớn nhất (maximally frequent itemset). Ký hiệu tập
tất cả các tập phổ biến lớn nhất là MFI. Dễ thấy MFI FCI FI.
Khai phá luật kết hợp là công việc phát hiện ra (tìm ra, khám phá, phát
hiện) các luật kết hợp thỏa mãn các ngưỡng độ hỗ trợ () và ngưỡng độ tin cậy
() cho trước. Bài toán khai phá luật kết hợp được chia thành hai bài toán nhỏ,
hay như người ta thường nói, việc giải bài toán trải qua hai pha:
 Pha 1: Tìm tất cả các tập phổ biến (tìm FI) trong CSDL T.
 Pha 2: Sử dụng tập FI tìm được ở pha 1 để sinh ra các luật tin cậy
(interesting rules).
Ý tưởng chung là nếu gọi ABCD và AB là các tập mục phổ biến, thì
chúng ta có thể xác định luật AB →CD với tỷ lệ độ tin cậy:
conf =
supp(AB)
supp(ABCD)
Nếu confminconf thì luật được giữ lại (và thỏa mãn độ hỗ trợ tối thiểu vì
ABCD là phổ biến).
GVHD: Nguyễn Thanh Bình
— 17 —
Khi các mẫu phổ biến (frequent patterm) dài có từ 15 đến 20 items) thì
tập FI, thậm chí cả tập FCI trở nên rất lớn và hầu hết các phương pháp truyền
thống phải đếm quá nhiều tập mục mới có thể thực hiện được. Các thuật toán
dựa trên thuật toán Apriori – đếm tất cả 2𝑘
tập con của mỗi k- itemsets mà
chúng quét qua, và do đó không thích hợp với các itemsets dài được. Các
phương pháp khác sử dụng “lookaheads” để giảm số lượng tập mục được đếm.
Tuy nhiên, hầu hết các thuật toán này đều sử dụng tìm kiếm theo chiều
rộng. Cách làm này hạn chế hiệu quả của lookaheads, vì các mẫu phổ biến dài
hơn mà hữu ích vẫn chưa được tìm ra.
2.3.2.5 Thuật toán 1 – Thuật toán cơ bản:
Input:
Output: Các luật kết hợp thỏa mãn ngưỡng độ hỗ trợ , ngưỡng độ tin cậy .
Algorithm:
1) Tìm tất cả các tập hợp các tính chất có độ hỗ trợ không nhỏ hơn ngưỡng .
2) Từ các tập hợp mới tìm ra, tạo ra các luật kết hợp có độ tin cậy không nhỏ
hơn .Agrawal đã chỉ ra việc duyệt các tập hợp các tính chất để tính ra ngưỡng
độ hỗ trợ của chúng và đánh giá có vượt ngưỡng  cho trước hay không, tốn rất
nhiều thời gian tính toán (độ phức tạp hàm mũ). Còn một khi đã xác định xong
các tập hợp thỏa mãn điều kiện trên (gọi là các tập hợp xuất hiện thường xuyên)
thì việc khai phá luật kết hợp đỡ tốn thời gian hơn.
2.3.2.6 Thuật toán 2- Tìm luật kết hợp khi đã biết các tập hợp thường
xuyên:
Input: I, D, S
Output: Các luật kết hợp thỏa mãn ngưỡng độ hỗ trợ  , ngưỡng độ tin cậy  .
Algorithm:
1) Lấy ra một tập xuất hiện  – thường xuyên SS, và một tập con X S.
2) Xét luật kết hợp có dạng X → (SX), đánh giá độ tin cậy của nó xem có nhỏ
hơn hay không.
Thực chất, tập hợp S mà ta xét đóng vai trò của tập hợp giao S = XY, và do
X (S – X) = , nên coi như Y= S – X.
Các thuật toán xoay quanh khai phá luật kết hợp chủ yếu nêu ra các giải
pháp để đẩy nhanh việc thực hiện mục 1 của Thuật toán 1.
2.4 GIỚI THIỆU VỀ WEKA
2.4.1. Ưu điểm của Weka
Phần mềm mã nguồn mở Weka bắt đầu phát triển mạnh mẽ vào năm
1997 và được sử dụng trong nhiều lĩnh vực ứng dụng khác nhau, đặc biệt cho
mục đích giáo dục và nghiên cứu bởi những ưu điểm sau:
 Tính khả dụng miễn phí theo Giấy phép Công cộng GNU (giấy phép cung
cấp bản quyền phần mềm miễn phí, đảm bảo cho người dùng được tự do chạy,
nghiên cứu, chia sẻ và thay đổi phần mềm).
GVHD: Nguyễn Thanh Bình
— 18 —
 Được thực hiện bởi ngôn ngữ lập trình Java nên Weka có tính di động khi
nó chạy được trên hầu hết bất kỳ nền tảng điện toán hiện đại nào đã được thử
nghiệm như Linux, Windows hay hệ điều hành MacOS. Tổng hợp toàn diện
các kỹ thuật tiền xử lý và mô hình hóa dữ liệu.
 Giao diện đồ họa giúp người dùng dễ sử dụng.
 Weka hỗ trợ một số nhiệm vụ khai thác dữ liệu tiêu chuẩn, cụ thể hơn là xử
lý trước dữ liệu, phân cụm, phân loại, hồi quy, trực quan hóa và lựa chọn
tính năng. Tất cả các kỹ thuật của Weka được dựa trên giả định rằng dữ
liệu có sẵn dưới dạng một tệp phẳng hoặc quan hệ, trong đó mỗi điểm dữ
liệu được mô tả bằng một số thuộc tính cố định
 Weka cung cấp quyền truy cập vào cơ sở dữ liệu SQL bằng cách sử dụng
Java Database Connectivity và có thể xử lý kết quả được trả về bởi truy vấn
cơ sở dữ liệu.
2.4.2 Định nghĩa
Weka Viết tắt của Waikato Environment for Knowledge Analysis là một
bộ phần mềm học máy được Đại học Waikato, New Zealand phát triển bằng
Java.
Weka là một tập hợp các thuật toán học máy để giải quyết các vấn đề
khai thác dữ liệu trong thế giới thực. Các thuật toán có thể được áp dụng trực
tiếp vào tập dữ liệu hoặc được gọi từ mã Java của riêng bạn.
Những gì WEKA cung cấp được tóm tắt trong sơ đồ sau:
Hình 1 : Sơ đồ WEKA thực hiện
Đầu tiên, bạn sẽ bắt đầu với dữ liệu thô. Dữ liệu này có thể chứa một số
giá trị rỗng và các trường không liên quan. Bạn sử dụng các công cụ xử lý
trước dữ liệu được cung cấp trong WEKA để làm sạch dữ liệu.
GVHD: Nguyễn Thanh Bình
— 19 —
Sau đó, bạn sẽ lưu dữ liệu đã xử lý trước vào bộ nhớ cục bộ của mình để
áp dụng các thuật toán ML.
Tiếp theo, tùy thuộc vào loại mô hình ML mà bạn đang cố gắng phát
triển, bạn sẽ chọn một trong các tùy chọn như Classify,
Cluster,Associate. Lựa chọn Attributes Selection-thuộc tính cho phép lựa
chọn tự động các tính năng để tạo tập dữ liệu giảm.
Lưu ý rằng trong mỗi danh mục, WEKA cung cấp việc triển khai một số
thuật toán. Bạn sẽ chọn một thuật toán mà bạn chọn, đặt các tham số mong
muốn và chạy nó trên tập dữ liệu.
Sau đó, WEKA sẽ cung cấp cho bạn kết quả thống kê của quá trình xử
lý mô hình. Nó cung cấp cho bạn một công cụ trực quan để kiểm tra dữ liệu.
Các mô hình khác nhau có thể được áp dụng trên cùng một tập dữ liệu. Sau đó,
bạn có thể so sánh kết quả đầu ra của các mô hình khác nhau và chọn loại tốt
nhất đáp ứng mục đích của bạn.
Việc sử dụng WEKA dẫn đến sự phát triển nhanh hơn của các mô hình
học máy nói chung.
2.4.3. Các chức năng chính của WEKA
WEKA cung cấp 5 môi trường làm việc nhằm hỗ trợ người sử dụng hai
chức năng chính là khai phá dữ liệu và thực nghiệm, đánh giá các mô hình học
máy.
- Explorer: Môi trường cho phép tiến hành khai phá dữ liệu với các tính
năng tiền xử lý dữ liệu (Preprocess), phân lớp (Classify), phân cụm (Cluster),
khai thác luật kết hợp (Associate). Ngoài ra, nó còn cung cấp thêm tính năng hỗ
trợ lựa chọn thuộc tính (Select attributes) và mô hình hóa dữ liệu (Visualize).
- Experimenter: Môi trường cho phép thực nghiệm (Setup, Run), so
sánh, phân tích (Analyse) các mô hình học máy.
- KnowledgeFlow: Môi trường này hỗ trợ các tính năng cơ bản giống
như Explorer nhưng với một giao diện kéo thả để hỗ trợ học tập gia tăng.
- Simple CLI: Cung cấp một giao diện dòng lệnh đơn giản cho phép thực
thi trực tiếp các lệnh của WEKA cho các hệ điều hành không cung cấp giao
diện dòng lệnh riêng.
- Workbench: Môi trường này là sự kết hợp của 4 môi trường nêu trên,
người sử dụng có thể tùy ý chuyển đổi mà không cần phải quay lại cửa
sổ“Weka GUI Chooser”.
CHƯƠNG III: PHƯƠNG PHÁP HỌC SÂU
3.1 Multilayer Perceptrons (MLPs)
MLP là thuật toán học sâu cơ bản nhất và cũng là một trong những kỹ thuật học
sâu lâu đời nhất.. MLP có thể được coi là một dạng của mạng nơ-ron
truyền thẳng .
3.1.1 Mô hình hoạt động
GVHD: Nguyễn Thanh Bình
— 20 —
Lớp đầu tiên lấy đầu vào và lớp cuối cùng tạo ra đầu ra dựa trên các lớp
ẩn. Mỗi nút được kết nối với mọi nút trên lớp tiếp theo, vì vậy thông tin liên tục
được chuyển tiếp giữa nhiều lớp, đó là lý do tại sao nó được gọi là mạng
chuyển tiếp.
MLP sử dụng một kỹ thuật học tập có giám sát phổ biến được gọi là
backpropagation để đào tạo.
Mỗi lớp ẩn được cung cấp một số trọng số (các giá trị được gán ngẫu
nhiên). Sự kết hợp của trọng số và đầu vào được cung cấp cho một chức năng
kích hoạt được truyền thêm đến lớp tiếp theo để xác định đầu ra. Nếu chúng tôi
không đạt được sản lượng mong đợi, chúng tôi tính toán tổn thất (lỗi) và chúng
tôi theo dõi lại để cập nhật trọng số. Nó là một quá trình lặp đi lặp lại cho đến
khi thu được kết quả dự đoán (thử và sai). Điều quan trọng trong việc đào tạo
mô hình học sâu, vì trọng số chính xác sẽ xác định kết quả cuối cùng của bạn.
MLP sử dụng phổ biến các hàm sigmoid, đơn vị tuyến tính chỉnh lưu (ReLU)
và tanh làm các hàm kích hoạt.
3.1.2 Ưu và nhược điểm
Ưu điểm của MLP
Họ không đưa ra bất kỳ giả định nào liên quan đến các hàm mật độ Xác
suất (PDF), không giống như các mô hình khác dựa trên Xác suất.
Khả năng cung cấp chức năng quyết định trực tiếp bằng cách đào tạo
perceptron.
Nhược điểm của MLP
Do chức năng truyền giới hạn cứng, các perceptron chỉ có thể cho đầu
ra ở dạng 0 và 1.
Trong khi cập nhật trọng số trong các lớp, mạng MLP có thể bị kẹt ở
mức tối thiểu cục bộ, điều này có thể cản trở độ chính xác.
3.2 Generative Adversarial Networks (GANs)
GVHD: Nguyễn Thanh Bình
— 21 —
3.2.1 Mô hình hoạt động
GAN bao gồm hai mạng nơ-ron.
Generator Network- Mạng máy phát - Đầu tiên là mạng thần kinh
máy phát tạo ra các ví dụ mới.
Discriminator Network - Mạng phân biệt đối xử - Nó chịu trách
nhiệm đánh giá các ví dụ được tạo và liệu chúng có thuộc tập dữ liệu
đào tạo thực tế hay không.
Hãy để chúng tôi hiểu điều này bằng một ví dụ. Hãy xem xét một máy kiểm tra
tiền tệ. Máy có nhiệm vụ kiểm tra xem các ghi chú là giả hay thật. Mạng máy
phát sẽ cố gắng tạo các ghi chú giả và gửi chúng đến Người phân biệt. Bộ phân
biệt sẽ lấy cả ghi chú thật (dữ liệu đào tạo đầu vào) và ghi chú giả và trả về giá
trị từ 0 đến 1. Giá trị này là xác suất trong đó 1 đại diện cho các ghi chú hoàn
toàn chính hãng và 0 đại diện cho các ghi chú giả.
3.2.2 Ưu và nhược điểm
Ưu điểm của GAN
GAN có thể tìm hiểu bất kỳ biểu diễn bên trong của dữ liệu (các phân
phối lộn xộn và phức tạp). Họ có thể được đào tạo một cách hiệu quả
bằng cách sử dụng dữ liệu không được gắn nhãn để họ có thể nhanh
chóng tạo ra kết quả thực tế và chất lượng cao.
Họ có thể nhận ra các đối tượng cũng như có thể tính toán khoảng cách
giữa chúng.
Nhược điểm của GAN
Khi tạo dữ liệu mới từ dữ liệu gốc, không có số liệu đánh giá nào như
vậy để đánh giá độ chính xác của đầu ra.
Tính toán cao và thời gian cần thiết để đào tạo mô hình .
3.3 Autoencoders Deep Learning Algorithm
GVHD: Nguyễn Thanh Bình
— 22 —
3.3.1 Hoạt động
Có 3 thành phần chính
Encoder - Bộ mã hóa - Bộ mã hóa nén đầu vào thành một biểu diễn
không gian tiềm ẩn có thể được tái tạo lại sau đó để có được đầu vào ban
đầu.
Code- Mã - Đây là phần được nén (biểu diễn không gian tiềm ẩn) thu
được sau khi mã hóa.
Decoder - Bộ giải mã - Bộ giải mã nhằm mục đích tái tạo lại mã về
dạng ban đầu. Kết quả tái tạo thu được có thể không chính xác như ban
đầu và có thể có một số mất mát.
3.3.2 Ưu và nhược điểm
Ưu điểm của Autoencoders
Sử dụng nhiều lớp mã hóa và giải mã làm giảm chi phí tính toán của
việc biểu diễn một số chức năng ở một mức độ nhất định.
Nhược điểm của Autoencoders
Nó không hiệu quả như GAN khi tái tạo hình ảnh vì đối với những hình
ảnh phức tạp, nó thường không hoạt động tốt.
Chúng tôi có thể mất dữ liệu cần thiết từ dữ liệu đầu vào ban đầu sau khi
mã hóa.
3.4 Self Organizing Maps (SOMs)
3.4.1 Hoạt động
Các SOM nhóm các mục dữ liệu tương tự lại với nhau bằng cách tạo bản đồ 1D
hoặc 2D. Tương tự như các thuật toán khác, trọng số được khởi tạo ngẫu nhiên
GVHD: Nguyễn Thanh Bình
— 23 —
cho mỗi nút. Ở mỗi bước, một vectơ mẫu x được lấy ngẫu nhiên từ tập dữ liệu
đầu vào và khoảng cách giữa x và tất cả các vectơ khác được tính toán.
Đơn vị phù hợp nhất (BMU) gần nhất với x được chọn sau khi bỏ phiếu trong
số tất cả các vectơ khác. Sau khi BMU được xác định, các vectơ trọng số được
cập nhật, và BMU được di chuyển gần hơn với vectơ đầu vào x trong không
gian đầu vào. Quá trình này được lặp lại cho đến khi chúng ta nhận được kết
quả đầu ra như mong đợi.
Đối với ví dụ, trước tiên chương trình sẽ chọn một màu từ một mảng mẫu,
chẳng hạn như màu đỏ, sau đó tìm kiếm trọng số cho các vị trí màu đỏ đó. Các
trọng lượng xung quanh các vị trí đó có màu đỏ, sau đó màu tiếp theo, màu
xanh lam được chọn và quá trình tiếp tục.
3.4.2 Ưu và nhược điểm
Ưu điểm của SOM :
Chúng tôi có thể dễ dàng giải thích và hiểu dữ liệu bằng SOM.
Việc sử dụng giảm kích thước hơn nữa giúp việc kiểm tra bất kỳ điểm
tương đồng nào trong dữ liệu của chúng tôi trở nên đơn giản hơn nhiều.
Nhược điểm của SOM :
SOM yêu cầu trọng số nơ-ron là cần thiết và đủ để phân cụm dữ liệu đầu
vào.
Nếu trong khi đào tạo SOM, chúng tôi cung cấp ít dữ liệu hơn hoặc
nhiều hơn, chúng tôi có thể không nhận được đầu ra nhiều thông tin
hoặc rất chính xác.
GVHD: Nguyễn Thanh Bình
— 24 —
CHƯƠNG IV: HIỆN THỰC KẾT QUẢ
4.1 Yêu cầu hệ thống và tập dữ liệu thực nghiệm
200 dữ liệu wed bán hàng
4.2 Kết quả thực nghiệm
- Tổng kết kiến thức cơ bản về khai phá luật kết hợp.
- Có thể làm tư liệu tham khảo về khai phá dữ liệu và luật kết hợp
- Xây dựng phần mềm để giải quyết bài toán quản lý vật tư, thiết bị trường
THPT
GVHD: Nguyễn Thanh Bình
— 25 —
CHƯƠNG V : KẾT LUẬN
5.1 Kết quả đạt được:
- Tổng kết kiến thức cơ bản về khai phá luật kết hợp.
- Có thể làm tư liệu tham khảo về khai phá dữ liệu và luật kết
hợp
- Xây dựng phần mềm để giải quyết bài toán quản lý mua bán hàng trên trang
wed.
5.2 Ưu và nhược điểm
- Phương pháp này được nhiều nhà khoa học nghiên cứu và có nhiều đóng góp
trong thực tiễn.
- Có thể coi là tài liệu tham khảo về luật kết hợp.
- Người khác có thể tham khảo phát triển các ứng dụng riêng của mình.
- Ứng dụng Tin học vào quản lí bán hàng trên wed.
- Hỗ trợ cho cán bộ quản lý hàng hóa cho cá nhân hoặc doanh nghiệp.
- Tiết kiệm được thời gian, công sức và tiền bạc trong việc mua bán hàng hóa.
5.3 Hướng mở rộng trong tương lai
Một trong những công việc quan trọng của khai phá luật kết hợp là tìm tất cả
các tập phổ biến trong cơ sở dữ liệu, nên trong thời gian tới nhóm em sẽ mở
rộng nghiên cứu theo hướng : ứng dụng thuật toán song song áp dụng cho bài
toán khai phá luật kết hợp mờ, là luật kết hợp trên các tập thuộc tính mờ.
Thuật toán song song chia đều cơ sở dữ liệu và tập ứng viên cho các bộ vi xử lý,
và các tập ứng viên sau khi chia cho từng bộ xử lý là hoàn toàn độc lập với
nhau mục đích cải thiện chi phí tìm luật kết hợp mờ và thời gian mờ hoá dữ
liệu.
Tiếp tục hoàn thiện hệ thống hỗ trợ khách hàng quản lý bán hàng trên Wed và
có thể ứng dụng thêm các lĩnh vực khác như đào tạo, ngân hàng, siêu thị.
GVHD: Nguyễn Thanh Bình
— 26 —
TÀI LIỆU THAM KHẢO
[1] Lê Thu Hà, Phương pháp luật kết hợp và ứng dụng, Luận văn thạc sỹ,
Trường đại học Thái Nguyên, 2009
[2] Lê Huy Thập, Khai phá dữ liệu, Bài giảng cho cao học, Hà Nội 2012.S
[3] https://www.tutorialspoint.com/weka/weka_introduction.htm truy cập lần
cuối 2/6/2022
[4] https://www.projectpro.io/article/deep-learning-algorithms/443 truy cập lần
cuối 10/6/2022

Weitere ähnliche Inhalte

Ähnlich wie KHAITHACDULIEU WEKA.docx

Luận Văn Trách Nhiệm Xã Hội Của Doanh Nghiệp, Chất Lượng Mối Quan Hệ Thương H...
Luận Văn Trách Nhiệm Xã Hội Của Doanh Nghiệp, Chất Lượng Mối Quan Hệ Thương H...Luận Văn Trách Nhiệm Xã Hội Của Doanh Nghiệp, Chất Lượng Mối Quan Hệ Thương H...
Luận Văn Trách Nhiệm Xã Hội Của Doanh Nghiệp, Chất Lượng Mối Quan Hệ Thương H...Viết Thuê Luận Văn Luanvanpanda.com
 
Luận Văn Trách Nhiệm Xã Hội Của Doanh Nghiệp, Chất Lượng Mối Quan Hệ Thương H...
Luận Văn Trách Nhiệm Xã Hội Của Doanh Nghiệp, Chất Lượng Mối Quan Hệ Thương H...Luận Văn Trách Nhiệm Xã Hội Của Doanh Nghiệp, Chất Lượng Mối Quan Hệ Thương H...
Luận Văn Trách Nhiệm Xã Hội Của Doanh Nghiệp, Chất Lượng Mối Quan Hệ Thương H...Nhận Viết Đề Tài Thuê trangluanvan.com
 
Luận án: Năng lực cạnh tranh của các NHTM Việt Nam sau sáp nhập và mua lại
Luận án: Năng lực cạnh tranh của các NHTM Việt Nam sau sáp nhập và mua lạiLuận án: Năng lực cạnh tranh của các NHTM Việt Nam sau sáp nhập và mua lại
Luận án: Năng lực cạnh tranh của các NHTM Việt Nam sau sáp nhập và mua lạiViết thuê trọn gói ZALO 0934573149
 
Báo cáo TMĐT Việt Nam 2022 từ Bộ Công Thương
Báo cáo TMĐT Việt Nam 2022 từ Bộ Công ThươngBáo cáo TMĐT Việt Nam 2022 từ Bộ Công Thương
Báo cáo TMĐT Việt Nam 2022 từ Bộ Công ThươngDuy, Vo Hoang
 
Công Tác Xã Hội Trong Việc Thực Hiện Chính Sách Giảm Nghèo Tại Quận Đống Đa
Công Tác Xã Hội Trong Việc Thực Hiện Chính Sách Giảm Nghèo Tại Quận Đống ĐaCông Tác Xã Hội Trong Việc Thực Hiện Chính Sách Giảm Nghèo Tại Quận Đống Đa
Công Tác Xã Hội Trong Việc Thực Hiện Chính Sách Giảm Nghèo Tại Quận Đống ĐaViết Thuê Đề Tài Luận Văn trangluanvan.com
 
Luận Văn Các Yếu Tố Ảnh Hưởng Đến Thái Độ Của Nhân Viên Đối Với Sự Thay Đổi C...
Luận Văn Các Yếu Tố Ảnh Hưởng Đến Thái Độ Của Nhân Viên Đối Với Sự Thay Đổi C...Luận Văn Các Yếu Tố Ảnh Hưởng Đến Thái Độ Của Nhân Viên Đối Với Sự Thay Đổi C...
Luận Văn Các Yếu Tố Ảnh Hưởng Đến Thái Độ Của Nhân Viên Đối Với Sự Thay Đổi C...Hỗ Trợ Viết Đề Tài luanvanpanda.com
 
Tác động của sở hữu nước ngoài, cạnh tranh thị trường dòng sản phẩm đến quản ...
Tác động của sở hữu nước ngoài, cạnh tranh thị trường dòng sản phẩm đến quản ...Tác động của sở hữu nước ngoài, cạnh tranh thị trường dòng sản phẩm đến quản ...
Tác động của sở hữu nước ngoài, cạnh tranh thị trường dòng sản phẩm đến quản ...luanvantrust
 
Thực trạng công tác kế toán thuế gtgt và thuế tndn tại công ty tnhh thương mạ...
Thực trạng công tác kế toán thuế gtgt và thuế tndn tại công ty tnhh thương mạ...Thực trạng công tác kế toán thuế gtgt và thuế tndn tại công ty tnhh thương mạ...
Thực trạng công tác kế toán thuế gtgt và thuế tndn tại công ty tnhh thương mạ...https://www.facebook.com/garmentspace
 
Thực trạng công tác kế toán thuế gtgt và thuế tndn tại công ty cổ phần bê tôn...
Thực trạng công tác kế toán thuế gtgt và thuế tndn tại công ty cổ phần bê tôn...Thực trạng công tác kế toán thuế gtgt và thuế tndn tại công ty cổ phần bê tôn...
Thực trạng công tác kế toán thuế gtgt và thuế tndn tại công ty cổ phần bê tôn...https://www.facebook.com/garmentspace
 
Thực trạng công tác kế toán thuế giá trị gia tăng và thuế thu nhâp doanh nghi...
Thực trạng công tác kế toán thuế giá trị gia tăng và thuế thu nhâp doanh nghi...Thực trạng công tác kế toán thuế giá trị gia tăng và thuế thu nhâp doanh nghi...
Thực trạng công tác kế toán thuế giá trị gia tăng và thuế thu nhâp doanh nghi...https://www.facebook.com/garmentspace
 
Xây dựng chiến lược kinh doanh cho công ty cổ phần xây dựng số 1 (Cofico) đến...
Xây dựng chiến lược kinh doanh cho công ty cổ phần xây dựng số 1 (Cofico) đến...Xây dựng chiến lược kinh doanh cho công ty cổ phần xây dựng số 1 (Cofico) đến...
Xây dựng chiến lược kinh doanh cho công ty cổ phần xây dựng số 1 (Cofico) đến...nataliej4
 

Ähnlich wie KHAITHACDULIEU WEKA.docx (20)

Nâng Cao Hiệu Quả Công Tác Tiền Lương Tại Công Ty Bao Bì Đại Quang
Nâng Cao Hiệu Quả Công Tác Tiền Lương Tại Công Ty Bao Bì Đại QuangNâng Cao Hiệu Quả Công Tác Tiền Lương Tại Công Ty Bao Bì Đại Quang
Nâng Cao Hiệu Quả Công Tác Tiền Lương Tại Công Ty Bao Bì Đại Quang
 
Luận Văn Các Nhân Tố Kinh Tế Vĩ Mô Tác Động Đến Tín Dụng 9 ĐIỂM
Luận Văn Các Nhân Tố Kinh Tế Vĩ Mô Tác Động Đến Tín Dụng 9 ĐIỂMLuận Văn Các Nhân Tố Kinh Tế Vĩ Mô Tác Động Đến Tín Dụng 9 ĐIỂM
Luận Văn Các Nhân Tố Kinh Tế Vĩ Mô Tác Động Đến Tín Dụng 9 ĐIỂM
 
Luận Văn Trách Nhiệm Xã Hội Của Doanh Nghiệp, Chất Lượng Mối Quan Hệ Thương H...
Luận Văn Trách Nhiệm Xã Hội Của Doanh Nghiệp, Chất Lượng Mối Quan Hệ Thương H...Luận Văn Trách Nhiệm Xã Hội Của Doanh Nghiệp, Chất Lượng Mối Quan Hệ Thương H...
Luận Văn Trách Nhiệm Xã Hội Của Doanh Nghiệp, Chất Lượng Mối Quan Hệ Thương H...
 
Đề tài: Phân tích kết quả hoạt động kinh doanh của doanh nghiệp tư nhân Đặng ...
Đề tài: Phân tích kết quả hoạt động kinh doanh của doanh nghiệp tư nhân Đặng ...Đề tài: Phân tích kết quả hoạt động kinh doanh của doanh nghiệp tư nhân Đặng ...
Đề tài: Phân tích kết quả hoạt động kinh doanh của doanh nghiệp tư nhân Đặng ...
 
Luận Văn Trách Nhiệm Xã Hội Của Doanh Nghiệp, Chất Lượng Mối Quan Hệ Thương H...
Luận Văn Trách Nhiệm Xã Hội Của Doanh Nghiệp, Chất Lượng Mối Quan Hệ Thương H...Luận Văn Trách Nhiệm Xã Hội Của Doanh Nghiệp, Chất Lượng Mối Quan Hệ Thương H...
Luận Văn Trách Nhiệm Xã Hội Của Doanh Nghiệp, Chất Lượng Mối Quan Hệ Thương H...
 
Luận án: Năng lực cạnh tranh của các NHTM Việt Nam sau sáp nhập và mua lại
Luận án: Năng lực cạnh tranh của các NHTM Việt Nam sau sáp nhập và mua lạiLuận án: Năng lực cạnh tranh của các NHTM Việt Nam sau sáp nhập và mua lại
Luận án: Năng lực cạnh tranh của các NHTM Việt Nam sau sáp nhập và mua lại
 
Báo cáo TMĐT Việt Nam 2022 từ Bộ Công Thương
Báo cáo TMĐT Việt Nam 2022 từ Bộ Công ThươngBáo cáo TMĐT Việt Nam 2022 từ Bộ Công Thương
Báo cáo TMĐT Việt Nam 2022 từ Bộ Công Thương
 
Luận văn: Phân tích báo cáo tài chính của Công ty bánh Bibica
Luận văn: Phân tích báo cáo tài chính của Công ty bánh BibicaLuận văn: Phân tích báo cáo tài chính của Công ty bánh Bibica
Luận văn: Phân tích báo cáo tài chính của Công ty bánh Bibica
 
Luận văn thạc sĩ quản lý công tuyển dụng công chức cấp huyện.docx
Luận văn thạc sĩ quản lý công tuyển dụng công chức cấp huyện.docxLuận văn thạc sĩ quản lý công tuyển dụng công chức cấp huyện.docx
Luận văn thạc sĩ quản lý công tuyển dụng công chức cấp huyện.docx
 
Công Tác Xã Hội Trong Việc Thực Hiện Chính Sách Giảm Nghèo Tại Quận Đống Đa
Công Tác Xã Hội Trong Việc Thực Hiện Chính Sách Giảm Nghèo Tại Quận Đống ĐaCông Tác Xã Hội Trong Việc Thực Hiện Chính Sách Giảm Nghèo Tại Quận Đống Đa
Công Tác Xã Hội Trong Việc Thực Hiện Chính Sách Giảm Nghèo Tại Quận Đống Đa
 
Luận Văn Các Yếu Tố Ảnh Hưởng Đến Thái Độ Của Nhân Viên Đối Với Sự Thay Đổi C...
Luận Văn Các Yếu Tố Ảnh Hưởng Đến Thái Độ Của Nhân Viên Đối Với Sự Thay Đổi C...Luận Văn Các Yếu Tố Ảnh Hưởng Đến Thái Độ Của Nhân Viên Đối Với Sự Thay Đổi C...
Luận Văn Các Yếu Tố Ảnh Hưởng Đến Thái Độ Của Nhân Viên Đối Với Sự Thay Đổi C...
 
Tác động của sở hữu nước ngoài, cạnh tranh thị trường dòng sản phẩm đến quản ...
Tác động của sở hữu nước ngoài, cạnh tranh thị trường dòng sản phẩm đến quản ...Tác động của sở hữu nước ngoài, cạnh tranh thị trường dòng sản phẩm đến quản ...
Tác động của sở hữu nước ngoài, cạnh tranh thị trường dòng sản phẩm đến quản ...
 
Thực trạng công tác kế toán thuế gtgt và thuế tndn tại công ty tnhh thương mạ...
Thực trạng công tác kế toán thuế gtgt và thuế tndn tại công ty tnhh thương mạ...Thực trạng công tác kế toán thuế gtgt và thuế tndn tại công ty tnhh thương mạ...
Thực trạng công tác kế toán thuế gtgt và thuế tndn tại công ty tnhh thương mạ...
 
Thực trạng công tác kế toán thuế gtgt và thuế tndn tại công ty cổ phần bê tôn...
Thực trạng công tác kế toán thuế gtgt và thuế tndn tại công ty cổ phần bê tôn...Thực trạng công tác kế toán thuế gtgt và thuế tndn tại công ty cổ phần bê tôn...
Thực trạng công tác kế toán thuế gtgt và thuế tndn tại công ty cổ phần bê tôn...
 
Thực trạng công tác kế toán thuế giá trị gia tăng và thuế thu nhâp doanh nghi...
Thực trạng công tác kế toán thuế giá trị gia tăng và thuế thu nhâp doanh nghi...Thực trạng công tác kế toán thuế giá trị gia tăng và thuế thu nhâp doanh nghi...
Thực trạng công tác kế toán thuế giá trị gia tăng và thuế thu nhâp doanh nghi...
 
Luận văn: Phân tích tài chính doanh nghiệp trong hoạt động cho vay, 9 ĐIỂM
Luận văn: Phân tích tài chính doanh nghiệp trong hoạt động cho vay, 9 ĐIỂMLuận văn: Phân tích tài chính doanh nghiệp trong hoạt động cho vay, 9 ĐIỂM
Luận văn: Phân tích tài chính doanh nghiệp trong hoạt động cho vay, 9 ĐIỂM
 
Nâng cao vai trò Nhà nước về quản lý thuế đối với doanh nghiệp nhỏ và vừa
Nâng cao vai trò Nhà nước về quản lý thuế đối với doanh nghiệp nhỏ và vừaNâng cao vai trò Nhà nước về quản lý thuế đối với doanh nghiệp nhỏ và vừa
Nâng cao vai trò Nhà nước về quản lý thuế đối với doanh nghiệp nhỏ và vừa
 
Luận Văn Ảnh Hưởng Của Các Nhân Tố Đến Sự Tuân Thủ Công Bố Thông Tin Bắt Buộc...
Luận Văn Ảnh Hưởng Của Các Nhân Tố Đến Sự Tuân Thủ Công Bố Thông Tin Bắt Buộc...Luận Văn Ảnh Hưởng Của Các Nhân Tố Đến Sự Tuân Thủ Công Bố Thông Tin Bắt Buộc...
Luận Văn Ảnh Hưởng Của Các Nhân Tố Đến Sự Tuân Thủ Công Bố Thông Tin Bắt Buộc...
 
Xây dựng chiến lược kinh doanh cho công ty cổ phần xây dựng số 1 (Cofico) đến...
Xây dựng chiến lược kinh doanh cho công ty cổ phần xây dựng số 1 (Cofico) đến...Xây dựng chiến lược kinh doanh cho công ty cổ phần xây dựng số 1 (Cofico) đến...
Xây dựng chiến lược kinh doanh cho công ty cổ phần xây dựng số 1 (Cofico) đến...
 
Gian Lận Trong Báo Cáo Tài Chính Của Các Công Ty Xây Dựng Niêm Yết Trên Thị T...
Gian Lận Trong Báo Cáo Tài Chính Của Các Công Ty Xây Dựng Niêm Yết Trên Thị T...Gian Lận Trong Báo Cáo Tài Chính Của Các Công Ty Xây Dựng Niêm Yết Trên Thị T...
Gian Lận Trong Báo Cáo Tài Chính Của Các Công Ty Xây Dựng Niêm Yết Trên Thị T...
 

KHAITHACDULIEU WEKA.docx

  • 1. BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THỰC PHẨM TP.HỒ CHÍ MINH KHOA CÔNG NGHỆ THÔNG TIN    BÁO CÁO KẾT THÚC MÔN HỌC KHAI THÁC DỮ LIỆU Đề tài :Hỗ trợ khách hàng mua sản phẩm trên trang wed bán hàng GIẢNG VIÊN HƯỚNG DẪN:NGUYỄN THANH BÌNH SINH VIÊN THỰC HIỆN : NGÔ THỊ THÚY - 2033190123 DƯƠNG TẤN KIỆT - 2033192097 NGUYỄN BÁ HÂN - 2033192268 NGÔ VĂN THIỀU - 2033190166 LÊ NGUYỄN DUY LINH - 2033180164 TP.HỒ CHÍ MINH, Tháng 06 Năm 2022
  • 2. GVHD: Nguyễn Thanh Bình — 1 — LỜI CẢM ƠN Để hoàn thành tiểu luận này, em xin gửi lời cảm ơn chân thành đến: Ban giám hiệu trường Đại Học Công Nghiệp Thực Phẩm Thành phố Hồ Chí Minh vì đã tạo điều kiện về cơ sở vật chất với hệ thống thư viện hiện đại, đa dạng các loại sách, tài liệu thuận lợi cho việc tìm kiếm, nghiên cứu thông tin. Xin cảm ơn giảng viên bộ môn - Thầy NGUYỄN THANH BÌNH đã giảng dạy tận tình, chi tiết để em có đủ kiến thức và vận dụng chúng vào bài tiểu luận này. Do chưa có nhiều kinh nghiệm làm để tài cũng như những hạn chế về kiến thức, trong bài tiểu luận chắc chắn sẽ không tránh khỏi những thiếu sót. Rất mong nhận được sự nhận xét, ý kiến đóng góp, phê bình từ phía Thầy để bài tiểu luận được hoàn thiện hơn. Lời cuối cùng, em xin kính chúc thầy nhiều sức khỏe, thành công và hạnh phúc. TP Hồ Chí Minh, ngày 14 tháng 6, năm 2022 SINH VIÊN THỰC HIỆN (Kí và ghi rõ họ tên) Ngô Thị Thúy Ngô Văn Thiều Nguyễn Bá Hân Dương Tấn Kiệt Lê Nguyễn Duy Linh
  • 3. GVHD: Nguyễn Thanh Bình — 2 — NHẬN XÉT CỦA GIÁO VIÊN ....................................................................................................................................... ....................................................................................................................................... ....................................................................................................................................... ....................................................................................................................................... ....................................................................................................................................... ....................................................................................................................................... ....................................................................................................................................... ....................................................................................................................................... ....................................................................................................................................... Ý kiến của Giáo Viên (Ký và ghi rõ họ tên) NGUYỄN THANH BÌNH
  • 4. GVHD: Nguyễn Thanh Bình — 3 — LỜI CAM ĐOAN Chúng tôi cam đoan rằng bài báo cáo đề tài này là do chính chúng tôi thực hiện dưới sự hướng dẫn của thầy NGUYỄN THANH BÌNH. Các số liệu và kết quả phân tích trong báo cáo là trung thực. TP.HCM, ngày 14 tháng 6 , năm 2022 SINH VIÊN THỰC HIỆN (Kí và ghi rõ họ tên)
  • 5. GVHD: Nguyễn Thanh Bình — 4 — MỤC LỤC LỜI CẢM ƠN ..................................................................................................... 1 NHẬN XÉT CỦA GIÁO VIÊN ......................................................................... 2 LỜI CAM ĐOAN ............................................................................................... 3 CHƯƠNG I: GIỚI THIỆU ................................................................................. 6 1.1. Lý do chọn đề tài.......................................................................................... 6 1.2. Mục tiêu và nội dung của đề tài................................................................... 6 1.3. Giới hạn đề tài.............................................................................................. 7 1.4 Bố cục của báo cáo....................................................................................... 7 CHƯƠNG II: CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN.. 7 2.1 KHAI PHÁ TRI THỨC............................................................................... 7 2.1.1 Phát hiện tri thức từ cơ sở dữ liệu........................................................ 7 2.1.2 Khai phá dữ liệu................................................................................... 8 2.1.2.1 Khái niệm về khai phá dữ liệu.................................................... 8 2.1.2.2. Nhiệm vụ của khai phá dữ liệu.................................................. 8 2.1.2.3 Một số ứng dụng khai phá dữ liệu............................................. 8 2.1.2.4. Các kỹ thuật khai phá dữ liệu .................................................... 8 2.2 THUẬT TOÁN APRIORI........................................................................... 9 2.2.1 Định nghĩa............................................................................................ 9 2.2.2 Một số tính chất của thuật toán Apriori............................................... 9 2.2.3 Minh họa thuật toán Apriori .............................................................. 10 2.2.4 Thuật toán Apriori ............................................................................. 12 2.2.5 Ứng dụng, mục đích,ý tưởng của thuật toán Apriori......................... 14 2.3 LUẬT KẾT HỢP TRONG KHAI PHÁ DỮ LIỆU .................................... 14 2.3.1. Bài toán kinh điển dẫn đến việc khai phá luật kết hợp..................... 14 2.3.2. Định nghĩa về luật kết hợp................................................................ 15 2.3.2.1 Định nghĩa: ............................................................................... 15 2.3.2.2 Định nghĩa Độ hỗ trợ................................................................ 15 2.3.2.3 Định nghĩa Độ tin cậy............................................................... 15 2.3.2.4 Định nghĩa Tập hợp thường xuyên........................................... 16 2.3.2.5 Thuật toán 1 – Thuật toán cơ bản:............................................ 17 2.3.2.6 Thuật toán 2- Tìm luật kết hợp khi đã biết các tập hợp thường xuyên: ................................................................................................... 17 2.4 GIỚI THIỆU VỀ WEKA............................................................................ 17 2.4.1. Ưu điểm của Weka ........................................................................... 17 2.4.2 Định nghĩa.......................................................................................... 18 2.4.3. Các chức năng chính của WEKA ..................................................... 19 CHƯƠNG III: PHƯƠNG PHÁP HỌC SÂU.................................................... 19 3.1 Multilayer Perceptrons (MLPs) ............................................................ 19 3.1.1 Mô hình hoạt động....................................................................... 19 3.1.2 Ưu và nhược điểm ....................................................................... 20 3.2 Generative Adversarial Networks (GANs).......................................... 20 3.2.1 Mô hình hoạt động....................................................................... 21 3.2.2 Ưu và nhược điểm ....................................................................... 21 3.3 Autoencoders Deep Learning Algorithm.............................................. 21
  • 6. GVHD: Nguyễn Thanh Bình — 5 — 3.3.1 Hoạt động..................................................................................... 22 3.3.2 Ưu và nhược điểm ...................................................................... 22 3.4 Self Organizing Maps (SOMs) ............................................................. 22 3.4.1 Hoạt động..................................................................................... 22 3.4.2 Ưu và nhược điểm ....................................................................... 23 CHƯƠNG IV: HIỆN THỰC KẾT QUẢ.......................................................... 24 4.1 Yêu cầu hệ thống và tập dữ liệu thực nghiệm............................................. 24 4.2 Kết quả thực nghiệm................................................................................... 24 CHƯƠNG V : KẾT LUẬN .............................................................................. 25 5.1 Kết quả đạt được:........................................................................................ 25 5.2 Ưu và nhược điểm....................................................................................... 25 5.3 Hướng mở rộng trong tương lai.................................................................. 25 TÀI LIỆU THAM KHẢO................................................................................. 26
  • 7. GVHD: Nguyễn Thanh Bình — 6 — CHƯƠNG I: GIỚI THIỆU 1.1. Lý do chọn đề tài Trong những năm gần đây, cùng với sự phát triển mạnh mẽ của công nghệ thông tin đã làm cho khả năng thu thập và lưu trữ thông tin của hệ thống tăng lên một cách nhanh chóng. Bên cạnh đó việc tin học hóa các hoạt động trong lĩnh vực giáo dục, sản xuất kinh doanh cũng như các hoạt động xã hội khác đã tạo ra một lượng dữ liệu khổng lồ, theo như đánh giá cứ sau 20 tháng lượng thông tin trên thế giới lại tăng gấp đôi. Tốc độ dữ liệu quá lớn, dẫn đến kết quả là sự pha trộn của kỹ thuật thống kê và các công cụ quản trị dữ liệu không thể phân tích đầy đủ dữ liệu rộng lớn được nữa. Dữ liệu sau khi xử lý trực tuyến phục vụ cho mục đích nào đó được lưu lại trong kho dữ liệu và khối lượng dữ liệu được lưu trữ ngày càng lớn. Trong khối lượng to lớn này còn có nhiều thông tin có ích mang tính tổng quát, thông tin có tính qui luật vẫn còn đang tìm ẩn. Các công cụ Xử lý phân tích trực tuyến là cần thiết để phân tích dữ liệu, nhưng chưa đủ để rút thông tin từ một khối lượng dữ liệu khổng lồ như vậy. Từ đó dẫn đến một yêu cầu cấp thiết là cần có những kỹ thuật và công cụ mới để biến lượng dữ liệu khổng lồ kia thành các tri thức có ích. Một hướng tiếp cận mới có khả năng giúp người bán lấy được các thông tin có nhiều ý nghĩa từ tập dữ liệu lớn (databases, datawarehouses, data repositories) đó là khai phá dữ liệu (Data Mining). Từ đó kỹ thuật khai phá dữ liệu trở thành vấn đề thời sự của nền công nghệ thông tin thế giới hiện nay nói chung và Việt Nam nói riêng. Khai phá dữ liệu đang được áp dụng rộng rãi trong nhiều lĩnh vực kinh doanh và đời sống khác nhau: marketing, tài chính – ngân hàng, bảo hiểm, khoa học, y tế, an ninh, giáo dục, internet … rất nhiều công ty, xí nghiệp, các cơ quan đã áp dụng kỹ thuật khai phá dữ liệu vào hoạt động của mình và đã thu được nhiều thành tựu to lớn.Kỹ thuật khai phá dữ liệu bao gồm nhiều hướng tiếp cận. Các kỹ thuật chính được áp dụng trong lĩnh vực này phần lớn được kế thừa từ lĩnh vực cơ sở dữ liệu, học máy, trí tuệ nhân tạo, lý thuyết thông tin, xác suất thống kê, tính toán hiệu năng cao và các phương pháp tính toán mềm. Các bài toán trong khai phá dữ liệu chủ yếu là phân lớp/dự đoán, phân cụm, khái phá luật kết hợp, khai phá chuỗi…trong đó khai phá luật kết hợp là một trong các nội dung quan trọng trong khai phá dữ liệu và đây là lĩnh vực nghiên cứu có nhiều triển vọng. 1.2. Mục tiêu và nội dung của đề tài Đề tài “Hỗ trợ khách hàng mua sản phẩm trên trang wed bán hàng” được xây dựng nhằm tạo ra kho dữ liệu có chiều sâu, thông tin để hỗ trợ cho việc mua bán phục vụ cho công tác quản lý hàng hóa trên trang wed. Mục tiêu của đề tài: - Nghiên cứu khai phá dữ liệu (Datamining) và ứng dụng luật kết hợp (Association Rule) để phục vụ việc mua sản phẩm trên trang wed bán hàng. Nội dung của đề tài: - Thu thập dữ liệu là - Nghiên cứu thuật toán Apriori-TID để xây dựng luật kết hợp. - Tìm hiểu bộ công cụ hỗ trợ Weka.
  • 8. GVHD: Nguyễn Thanh Bình — 7 — - Xây dựng ứng dụng đơn giản để khai phá luật kết hợp. - Đánh giá kết quả đạt được của đề tài. 1.3. Giới hạn đề tài - Với số lượng lớn dữ liệu là một khó khăn mà nhóm em gặp phải. 1.4 Bố cục của báo cáo Báo cáo bày bao gồm phần mở đầu và 3 chương sau: CHƯƠNG 1 – GIỚI THIỆU CHƯƠNG 2 – CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN CHƯƠNG 3: PHƯƠNG PHÁP HỌC SÂU CHƯƠNG 4 HIỆN THỰC KẾT QUẢ CHƯƠNG 5 – XÂY DỰNG ỨNG DỤNG VÀ ĐÁNH GIÁ KẾT QUẢ. Trong chương này phân tích thiết kế quản lý cơ sở dữ liệu quản lí bán hàng trên trang wed dựa trên luật kết hợp. Kết luận và hướng phát triển. Nêu ra kết luận, đánh giá chung về các nghiên cứu và đạt được từ ứng dụng, so sánh kết quả của ứng dụng với phương pháp truyền thống. Từ đó, đề ra định hướng phát triển ứng dụng CHƯƠNG II: CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN 2.1 KHAI PHÁ TRI THỨC 2.1.1 Phát hiện tri thức từ cơ sở dữ liệu Mục đích chung của phát hiện tri thức và khai phá dữ liệu là tìm ra các mẫu và các mô hình đang tồn tại trong cơ sở dữ liệu nhưng bị che khuất bởi các dữ liệu khác. Hình: Quy trình phát hiện tri thức  Làm sạch dữ liệu - Data cleaning: Quá trình này sẽ loại bỏ những dữ liệu không bình thường, không theo quy luật, quy tắc hay mô hình dữ liệu hoặc các dữ liệu không nhất quán.  Tích hợp dữ liệu - Data intergation: Các dữ liệu được sưu tầm từ nhiều nguồn khác nhau sẽ được tổ hợp lại sau những lần thu thập dữ liệu.
  • 9. GVHD: Nguyễn Thanh Bình — 8 —  Lựa chọn dữ liệu- Data selection: Lấy ra những dữ liệu thích hợp với nhiệm vụ phân tích từ cơ sở dữ liệu  Chuyển đổi dữ liệu -Data transformation: Dữ liệu được chuyển đổi hợp nhập về một dạng thích hợp cho quá trình khai phá  Khai phá dữ liệu - Data mining: Trích ra các mẫu dữ liệu. Là tiến trình quan trọng nhất.  Đánh giá mẫu - Pattern evaluation: Dựa trên một số độ đo nào đó xác định lợi ích thật sự, độ quan trọng của các mẫu biểu diễn tri thức.  Biểu diễn tri thức - Knowledge presentation: Các kĩ thuật biểu diễn và hiển thị được sử dụng để đưa tri thức đã lấy ra được cho người dùng. 2.1.2 Khai phá dữ liệu 2.1.2.1 Khái niệm về khai phá dữ liệu Khai phá dữ liệu (data mining) là quá trình khám phá các tri thức mới và các tri thức có ích ở dạng tiềm năng trong nguồn dữ liệu đã có. Khai phá dữ liệu là một bước trong quá trình khám phá tri thức bao gồm các thuật toán khai phá dữ liệu chuyên dùng dưới một số quy định về hiệu quả tính toán chấp nhận được để tìm ra các mẫu và các mô hình trong dữ liệu. 2.1.2.2. Nhiệm vụ của khai phá dữ liệu Những nhiệm vụ cơ bản nhất của khai phá dữ liệu là: Phân cụm, phân loại, phân nhóm, phân lớp. Khai phá luật kết hợp. Lập mô hình dự báo. Phân tích đối tượng ngoài cuộc. Phân tích sự tiến hóa. 2.1.2.3 Một số ứng dụng khai phá dữ liệu Thương mại: Phân tích dữ liệu bán hàng và thi trường, phân tích đầu tư, quyết định cho vay, phát hiện gian lận. Thông tin sản xuất: Điều khiển và lập kế hoạch, hệ thống quản lý, phân tích kết quả thử nghiệm. Thông tin khoa học: dự báo thời tiết, CSDL sinh học: Ngân hàng gen, khoa học địa lý: dự báo động đất. Trong y tế, marketing, ngân hàng, viễn thông, du lịch, internet. 2.1.2.4. Các kỹ thuật khai phá dữ liệu a. Khai phá dữ liệu dự đoán Nhiệm vụ của KPDL dự đoán là đưa ra các dự đoán dựa vào các suy diễn trên cơ sở dữ liệu hiện thời. Bao gồm các kỹ thuật: Phân loại (Classification); Hồi qui (Regression … ).  Phân loại Mục tiêu của phương pháp phân loại dữ liệu là dự đoán nhãn lớp cho các mẫu dữ liệu.
  • 10. GVHD: Nguyễn Thanh Bình — 9 — Quá trình phân loại dữ liệu thường gồm hai bước : xây dựng mô hình và sử dụng mô hình để phân loại dữ liệu. Bước 1 : Xây dựng mô hình dựa trên việc phân tích các mẫu dữ liệu cho trước. Bước 2 : Sử dụng mô hình để phân loại dữ liệu. Hay nói các khác, phân loại là học một hàm ánh xạ một mục dữ liệu vào trong số các lớp cho trước.  Hồi quy Phương pháp hồi quy khác với phương pháp phân loại dữ liệu ở chỗ, hồi qui dùng để dự đoán về các giá trị liên tục còn phân loại dữ liệu chỉ dùng để dự đoán về các giá trị rời rạc. Hồi quy là một hàm học ánh xạ mục dữ liệu thành một biến dự đoán có giá trị thực. b. Khai phá dữ liệu mô tả Kỹ thuật này có nhiệm vụ mô tả về các tính chất hoặc các đặc tính chung của dữ liệu trong CSDL hiện có. Bao gồm các kỹ thuật: Phân cụm; Khai phá luật kết hợp...  Phân cụm Mục tiêu chính của phương pháp phân cụm dữ liệu là nhóm các đối tượng tương tự nhau trong tập dữ liệu vào các cụm sao cho các đối tượng thuộc cùng một một cụm là tương đồng còn các đối tượng thuộc các cụm khác nhau sẽ không tương đồng. Hình 2 : Phân cụm tập dữ liệu cho vay thành 3 cụm Hình 2. cho thấy sự phân cụm tập dữ liệu cho vay vào trong 3 cụm : Lưu ý rằng các cụm chồng lên nhau cho phép các điểm dữ liệu thuộc về nhiều hơn một cụm.  Khai phá luật kết hợp Mục tiêu của phương pháp này là phát hiện và đưa ra các mối liên hệ giữa các giá trị dữ liệu trong cơ sở dữ liệu. Mẫu đầu ra của giải thuật KPDL là luật kết hợp tìm được. 2.2 THUẬT TOÁN APRIORI 2.2.1 Định nghĩa Thuật toán Apriori được công bố bởi R. Agrawal và R. Srikant vào năm 1994 vì để tìm các tập phổ biến trong một bộ dữ liệu lớn. Tên của thuật toán là Apriori vì nó sử dụng kiến thức đã có từ trước (prior) về các thuộc tính, vật phẩm thường xuyên xuất hiện trong cơ sở dữ liệu. Để cải thiện hiệu quả của việc lọc các mục thường xuyên theo cấp độ, một thuộc tính quan trọng được sử dụng gọi là thuộc tính Apriori giúp giảm phạm vi tìm kiếm của thuật toán. 2.2.2 Một số tính chất của thuật toán Apriori
  • 11. GVHD: Nguyễn Thanh Bình — 10 — Cho hai tập mục X, Y⊆ I và cơ sở dữ liệu D. Nếu X ⊆ Y thì sup(X, D) ≥ sup(Y, D). Hai tính chất Apriori:  Nếu Y là tập phổ biến (frequent) thì mọi tập con X (C ⊆Y) của Y đều phổ biến. • Nếu X là tập không phổ biến (infrequent) thì mọi tập cha Y (⊇ X)của X đều không phổ biến. Phương pháp Apriori dựa vào hai tính chất trên để cải tiến phương pháp vét cạn bằng cách cắt tỉa các nhánh không cần thiết trên giàn tập mục. Cụ thể, khi duyệt theo bề rộng (BFS) trên dàn tập mục, thuật toán Apriori cắt tỉa hết tất cả các tập cha của tập không phổ biến. 2.2.3 Minh họa thuật toán Apriori Minh họa 1:
  • 12. GVHD: Nguyễn Thanh Bình — 11 — Minh họa 2: Cho một tập các giao dịch từ các hóa đơn mua hàng như sau: TID Các món hàng được mua (Item) 1 {b,m,t,y} 2 {b,m} 3 {p,s,t} 4 {a,b,c,d} 5 {a,b} 6 {e,t,y} 7 {a,b,m} Cho Min Support = 30% , Min Confidence=60% Tính tập Large 1-Item, ta có F1 Tập Item Số lần xuất hiện a 3 b 5 m 3 t 3 Ở bước kết từ F1 trên ta có tập C2 gồm các cặp 2- item: {{a,b},{a,m},{a,t},{b,m},{b,t},{m,t}} Tính tập Large 2-Item ta có F2: Tập Item Số lần xuất hiện {a,b} 3 {a,m} 1 {a,t} 0 {b,m} 3 {b,t} 1 {m,t} 1 Chỉ lấy các cặp 2-item có Support> Min Support(=30%) gồm: {a,b} và {b,m}
  • 13. GVHD: Nguyễn Thanh Bình — 12 — Phát sinh luật: a→ b có độ Confidence 3/3 =100% b→ a có độ Confidence 3/5 =60% b→ m có độ Confidence 3/5 =60% m→ b có độ Confidence 3/3 =100% Ở bước lược bỏ ta có F2={{a,b},{b,m}} Ở bước kết từ F2 ta có tập C3 gồm các cặp 3-item là {∅} 2.2.4 Thuật toán Apriori  Các kí hiệu: - Lk: Tập các k-mục phổ biến (large k-itemset) (tức tập các itemset có support tối thiểu và có lực lượng bằng k). Mỗi phần tử của tập này có 2 trường: itemset và suport-count. - Ck: Tập các candidate k-itemset (tập các tập k-mục ứng cử viên). Mỗi phần tử trong tập này cũng có 2 trường itemset và support-count.  Nội dung thuật toán Apriori được trình bày như sau: Input: Tập các giao dịch D, ngưỡng support tối thiểu minsup Output: L- tập mục phổ biến trong D Method: L1={large 1-itemset} //tìm tất cả các tập mục phổ biến: nhận được L1 for (k=2; Lk-1 ; k++) do begin Ck=apriori-gen(Lk-1); //sinh ra tập ứng cử viên từ Lk-1 for (mỗi một giao dịch T D) do begin CT = subset(Ck, T); //lấy tập con của T là ứng cử viên trong Ck for (mỗi một ứng cử viên c CT) do c.count++; //tăng bộ đếm tần xuất 1 đơn vị end; Lk = {c Ck| c.count minsup} end; return kLk Trong thuật toán này, giai đoạn đầu đơn giản chỉ là việc đếm support cho các item. Để xác định tập 1-mục phổ biến (L1), người ta chỉ giữ lại các item mà support của nó lớn hơn hoặc bằng minsup. Trong các giai đoạn thứ k sau đó (k>1), mỗi giai đoạn gồm có 2 pha. Trước hết các large(k-1)-itemset trong tập Lk-1được sử dụng để sinh ra các candidate itemset Ck, bằng cách thực hiện hàm Apriori_gen. Tiếp theo CSDL D sẽ được quét để tính support cho mỗi ứng viên trong Ck. Để việc đếm được nhanh, cần phải có một giải pháp hiệu quả để xác định các ứng viên trong Ck là có mặt trong một giao dịch T cho trước. Vấn đề sinh tập candidate của Apriori – Hàm Apriori_gen: Hàm Apriori_gen với đối số là Lk-1(tập các large(k-1)-itemset) sẽ cho lại
  • 14. GVHD: Nguyễn Thanh Bình — 13 — kết quả là một superset, tập của tất cả các large k – itemset. Sơ đồ sau là thuật toán cho hàm này. Input: tập mục phổ biến Lk-1 có kích thƣớc k-1 Output: tập ứng cử viên Ck Method: function apriori-gen(Lk-1: tập mục phổ biến có kích thƣớc k-1) Begin For (mỗi L1 Lk-1) do For (mỗi L2 Lk-1) do begin If ((L1[1]=L2[1]) (L1[2]=L2[2]) ... (L1[k-2]=L2[k-2]) (L1[k-1]=L2[k-1])) then c = L1 L2; // kết nối L1 với L2 sinh ra ứng cử viên c If has_infrequent_subset(c, Lk-1) then remove (c) // bứớc tỉa (xoá ứng cử viên c) else Ck = Ck {c}; kết tập c vào Ck end; Return Ck; End; Hàm kiểm tra tập con k-1 mục của ứng cử viên k-mục không là tập phổ biến: function has_infrequent_subset(c:ứng cử viên k-mục;Lk-1 tập phổ biến k- 1 mục) Begin //sử dụng tập mục phổ biến trƣớc For (mỗi tập con k-1 mục s của c) do If s Lk-1 then return TRUE; End; Có thể mô tả hàm Apriori_gen trên theo lược đồ sau: Input: tập các large(k-1)- itemset Lk-1 Output: tập candidate k-itemset Ck Method: Hàm Apriori-gen() //bước nối insert into Ck select p.item1, p.item2,..., p.itemk-1, q.itemk-1 from Lk-1p , Lk-1q where p.item1=q.item1 , …, p.itemk-2=q.itemk-2, p.itemk 1<q.itemk-1 //bước cắt tỉa: for (mọi tập mục c Ck) do for (mọi (k-1) tập con s của c( do if (s Lk-1) then delete c khỏi Ck;  Với nội dung trên, ta thấy hàm này có 2 bước: - Bước nối (join step): Bước này nối Lk-1 với Lk-1. Trong bước này, cho rằng các item của các itemset đã được sắp xếp theo thứ tự từ điển. Nếu có k-2 item đầu tiên (gọi là phân tiền tố) của hai(k-1)-itemset i1và i2(i1 i2) nào đó mà
  • 15. GVHD: Nguyễn Thanh Bình — 14 — giống nhau thì ta khởi tạo một candidate k-itemset cho Ck bằng cách lấy phần tiền tố này hợp với 2 item thứ k-1 của i1 và i2 (có thể phải sắp lại thứ tự cho các item này). Điều kiện p.itemk-1 <q.itemk-1 đơn giản chỉ là việc tránh k itemset trùng lặp được đưa vào Ck. - Bước cắt tỉa (prune step): Đây là bước tiếp theo sau bước join. Trong bước này, ta cần loại bỏ tất cả các k-itemset c Ck mà chúng tồn tại một(k-1)- subset không có mặt trong Lk-1. Giải thích điều này như sau: giả sử s là một(k- 1)- subset của c mà không có mặt trong Lk-1. Khi đó, support (s)<minsup. Mặt khác vì c s nên support(s)<minsup. Vậy c không thể là một large-itemset, nó cần phải loại bỏ khỏi Ck. 2.2.5 Ứng dụng, mục đích,ý tưởng của thuật toán Apriori Việc thuật toán Apriori có thể làm là nhìn vào quá khứ và khẳng định rằng nếu một việc gì đó xảy ra thì sẽ có tỉ lệ bao nhiêu phần trăm sự việc tiếp theo sẽ xảy ra. Nó giống như nhìn vào quá khứ để dự đoán tương lại vậy, và việc này rất có ít cho các nhà kinh doanh.  Mục đích của thuật toán Apriori: Thuật toán Apriori giúp tìm ra các mối quan hệ giữa các đối tượng trong khối lượng lớn | dữ liệu Việc thuật toán Apriori có thể làm là nhìn vào quá khứ và khẳng định rằng nếu một việc gì đó xảy ra thì sẽ có tỉ lệ bao nhiêu phần trăm sự việc tiếp theo sẽ xảy ra. Nó giống như nhìn vào quá khứ để dự đoán tương lại vậy, và việc này rất có ích cho các nhà kinh doanh.  Ý tưởng chính của thuật toản Apriori: Tạo ra các tập chỉ mục phổ biến có 1 phần tử, rồi tiếp đến 2 phần tử, 3 phần tử cho đến khi chúng ta tạo ra tập chỉ mục phổ biến của mọi kích cỡ. - Mỗi tập chỉ mục được tạo ra phải được tính toán độ hỗ trợ. - Tập chỉ mục phổ biến k phần tử được tạo ra từ tập phổ biến k-1 phần tử. Bằng cách, nối từng đôi một tập chỉ mục phổ biến k-1 phần tử đã có để tạo ra tập ứng viên k phần tử. Sau đó, những tập ứng viên nào có chứa một tập con không phải là phổ biến sẽ bị loại bỏ.  Hạn chế của thuật toán Apriori: Số lượng lớn tập phổ biến được tạo ra làm gia tăng sự phức tạp không gian. Quá nhiều lần duyệt cơ sở dữ liệu được yêu cầu về số lượng lớn tập phổ biến được tạo. Khi số lần đuyệt cơ sở dữ liệu nhiều làm gia tăng sự phức tạp thời gian khi cơ sở dữ liệu gia tăng 2.3 LUẬT KẾT HỢP TRONG KHAI PHÁ DỮ LIỆU 2.3.1. Bài toán kinh điển dẫn đến việc khai phá luật kết hợp Bài toán giỏ mua hàng trong siêu thị: Giả định chúng ta có rất nhiều mặt hàng“bánh mì”, “sữa”,…(coi là tính chất hoặc trường).
  • 16. GVHD: Nguyễn Thanh Bình — 15 — Khách hàng khi đi siêu thị sẽ bỏ vào giỏ mua hàng của họ một số mặt hàng nào đó, và chúng ta muốn tìm hiểu các khách hàng thường mua các mặt hàng nào đồng thời, chúng ta không cần biết khách hàng cụ thể là ai. Nhà quản lý dùng những thông tin này để điều chỉnh việc nhập hàng về siêu thị, hay đơn giản là để bố trí sắp xếp các mặt hàng gần nhau, hoặc bán các mặt hàng đó theo một gói hàng, giúp cho khắc đỡ mất công tìm kiếm. Khai phá luật kết hợp được mô tả như sự tương quan của các sự kiện những sự kiện xuất hiện thường xuyên một các đồng thời. Nhiệm vụ chính của khai phá luật kết hợp là phát hiện ra các tập con cùng xuất hiện trong một khối lượng giao dịch lớn của một cơ sở dữ liệu cho trước. 2.3.2. Định nghĩa về luật kết hợp 2.3.2.1 Định nghĩa: Cho I={𝐼1, 𝐼2, .., Im} là tập hợp của m tính chất riêng biệt. Giả sử D là CSDL, với các bản ghi chứa một tập con T các tính chất (có thể coi như T ⊆ I), các bản ghi đều có chỉ số riêng. Một luật kết hợp là một mệnh đề kéo theo có dạng X→Y=, trong đó X, Y⊆ I, thỏa mãn điều kiện X⋂Y=∅. Các tập hợp X và Y được gọi là các tập hợp tính chất (itemset). Tập X gọi là nguyên nhân, tập Y gọi là hệ quả. Có 2 độ đo quan trọng đối với luật kết hợp: Độ hỗ trợ (support) và độ tin cậy (confidence), được định nghĩa như phần dưới đây. 2.3.2.2 Định nghĩa Độ hỗ trợ  Độ hỗ trợ của một tập hợp X trong cơ sở dữ liệu D là tỷ số giữa các bản ghi T ⊆ D có chứa tập X và tổng số bản ghi trong D (hay là phần trăm của các bản ghi trong D có chứa tập hợp X), ký hiệu là support(X) hay supp(X) (support sẽ tự sinh ra khi cài thuật toán). 𝑆0 = |{ 𝑇 ⊂ 𝐷∶ 𝑌⊃X}| |𝐷| Ta có: 0 ≤supp(X) ≤1 với mọi tập hợp X.  Độ hỗ trợ của một luật kết hợp X→Y là tỷ lệ giữa số lượng các bản ghi chứa tập hợp X ∪Y, so với tổng số các bản ghi trong D - Ký hiệu supp(X→Y). Supp(X→Y) = |{ 𝑇 ⊂ 𝐷∶ 𝑇⊇X∪Y }| |𝐷| Khi chúng ta nói rằng độ hỗ trợ của một luật là 50%, có nghĩa là có 50% tổng số bản ghi chứaX ∪ Y. Như vậy, độ hỗ trợ mang ý nghĩa thống kê của luật. 2.3.2.3 Định nghĩa Độ tin cậy  Độ tin cậy của một luật kết hợp X→Y là tỷ lệ giữa số lượng các bản ghi trong D chứa X ∪ Y với số bản ghi trong D có chứa tập hợp X. Ký hiệu độ tin cậy của một luật là conf(r). Ta có 0 ≤conf(r) ≤1 Nhận xét: Độ hỗ trợ và độ tin cậy có xác suất sau: Supp(X→Y)=P(X∪ Y)
  • 17. GVHD: Nguyễn Thanh Bình — 16 — Conf (X→Y) = P(Y/X)=supp(X∪ Y)/supp(X)  Độ tin cậy của một luật kết hợp X→Y là tỷ lệ giữa số lượng các bản ghi của tập hợp chứa X ∪ Y, so với tổng số các bản ghi chứa X. Chúng ta nhận thấy rằng tri thức đem lại bởi luật kết hợp dạng trên có sự khác biệt rất nhiều so với những thông tin thu được từ các câu lệnh truy vấn dữ liệu thông thường như SQL. Đó là những tri thức, những mối liên hệ chưa biết trước và mang tính dự báo đang tiềm ẩn trong dữ liệu. Những tri thức này không đơn giản là kết quả của phép nhóm, tính tổng hay sắp xếp mà là của một quá trình tính toán khá phức tạp. 2.3.2.4 Định nghĩa Tập hợp thường xuyên  Tập hợp X được gọi là tập hợp thường xuyên (Frenquent itemset) nếu có supp(X) ≥minsup, với minsup là ngưỡng độ hỗ trợ cho trước.  Kí hiệu các tập này là FI Tính chất 1: Giả sử A,B ⊆ I là hai tập hợp với A⊆ B thì supp(A)≥supp(B). Như vậy, những bản ghi nào chứa tập hợp B thì cũng chứa tập hợp A Tính chất 2: Giả sử A, B là hai tập hợp, A,B ⊆ I, nếu B là tập hợp thường xuyên và A⊆ B thì A cũng là tập hợp thường xuyên. Thật vậy, nếu B là tập hợp thường xuyên thì supp(B) ≥ minsup, mọi tập hợp A là con của tập hợp B đều là tập hợp thường xuyên trong cơ sở dữ liệu D vì supp(A) ≥supp(B) Tính chất 3: Giả sử A, B là hai tập hợp, A⊆ B và A là tập hợp không thường xuyên thì B cũng là tập hợp không thường xuyên Định nghĩa : Một tập mục X được gọi là đóng (closed) nếu không có tập cha nào của X có cùng độ hỗ trợ với nó, tức là không tồn tại một tập mục X’ nào mà X’X và t(X) = t(X’) (với t(X) và t(X’) tương ứng là tập các giao chứa tập mục X và X’). Ký hiệu tập phổ biến đóng là FCI. Định nghĩa : Nếu X là phổ biến và không tập cha nào của X là phổ biến, ta nói rằng X là một tập phổ biến lớn nhất (maximally frequent itemset). Ký hiệu tập tất cả các tập phổ biến lớn nhất là MFI. Dễ thấy MFI FCI FI. Khai phá luật kết hợp là công việc phát hiện ra (tìm ra, khám phá, phát hiện) các luật kết hợp thỏa mãn các ngưỡng độ hỗ trợ () và ngưỡng độ tin cậy () cho trước. Bài toán khai phá luật kết hợp được chia thành hai bài toán nhỏ, hay như người ta thường nói, việc giải bài toán trải qua hai pha:  Pha 1: Tìm tất cả các tập phổ biến (tìm FI) trong CSDL T.  Pha 2: Sử dụng tập FI tìm được ở pha 1 để sinh ra các luật tin cậy (interesting rules). Ý tưởng chung là nếu gọi ABCD và AB là các tập mục phổ biến, thì chúng ta có thể xác định luật AB →CD với tỷ lệ độ tin cậy: conf = supp(AB) supp(ABCD) Nếu confminconf thì luật được giữ lại (và thỏa mãn độ hỗ trợ tối thiểu vì ABCD là phổ biến).
  • 18. GVHD: Nguyễn Thanh Bình — 17 — Khi các mẫu phổ biến (frequent patterm) dài có từ 15 đến 20 items) thì tập FI, thậm chí cả tập FCI trở nên rất lớn và hầu hết các phương pháp truyền thống phải đếm quá nhiều tập mục mới có thể thực hiện được. Các thuật toán dựa trên thuật toán Apriori – đếm tất cả 2𝑘 tập con của mỗi k- itemsets mà chúng quét qua, và do đó không thích hợp với các itemsets dài được. Các phương pháp khác sử dụng “lookaheads” để giảm số lượng tập mục được đếm. Tuy nhiên, hầu hết các thuật toán này đều sử dụng tìm kiếm theo chiều rộng. Cách làm này hạn chế hiệu quả của lookaheads, vì các mẫu phổ biến dài hơn mà hữu ích vẫn chưa được tìm ra. 2.3.2.5 Thuật toán 1 – Thuật toán cơ bản: Input: Output: Các luật kết hợp thỏa mãn ngưỡng độ hỗ trợ , ngưỡng độ tin cậy . Algorithm: 1) Tìm tất cả các tập hợp các tính chất có độ hỗ trợ không nhỏ hơn ngưỡng . 2) Từ các tập hợp mới tìm ra, tạo ra các luật kết hợp có độ tin cậy không nhỏ hơn .Agrawal đã chỉ ra việc duyệt các tập hợp các tính chất để tính ra ngưỡng độ hỗ trợ của chúng và đánh giá có vượt ngưỡng  cho trước hay không, tốn rất nhiều thời gian tính toán (độ phức tạp hàm mũ). Còn một khi đã xác định xong các tập hợp thỏa mãn điều kiện trên (gọi là các tập hợp xuất hiện thường xuyên) thì việc khai phá luật kết hợp đỡ tốn thời gian hơn. 2.3.2.6 Thuật toán 2- Tìm luật kết hợp khi đã biết các tập hợp thường xuyên: Input: I, D, S Output: Các luật kết hợp thỏa mãn ngưỡng độ hỗ trợ  , ngưỡng độ tin cậy  . Algorithm: 1) Lấy ra một tập xuất hiện  – thường xuyên SS, và một tập con X S. 2) Xét luật kết hợp có dạng X → (SX), đánh giá độ tin cậy của nó xem có nhỏ hơn hay không. Thực chất, tập hợp S mà ta xét đóng vai trò của tập hợp giao S = XY, và do X (S – X) = , nên coi như Y= S – X. Các thuật toán xoay quanh khai phá luật kết hợp chủ yếu nêu ra các giải pháp để đẩy nhanh việc thực hiện mục 1 của Thuật toán 1. 2.4 GIỚI THIỆU VỀ WEKA 2.4.1. Ưu điểm của Weka Phần mềm mã nguồn mở Weka bắt đầu phát triển mạnh mẽ vào năm 1997 và được sử dụng trong nhiều lĩnh vực ứng dụng khác nhau, đặc biệt cho mục đích giáo dục và nghiên cứu bởi những ưu điểm sau:  Tính khả dụng miễn phí theo Giấy phép Công cộng GNU (giấy phép cung cấp bản quyền phần mềm miễn phí, đảm bảo cho người dùng được tự do chạy, nghiên cứu, chia sẻ và thay đổi phần mềm).
  • 19. GVHD: Nguyễn Thanh Bình — 18 —  Được thực hiện bởi ngôn ngữ lập trình Java nên Weka có tính di động khi nó chạy được trên hầu hết bất kỳ nền tảng điện toán hiện đại nào đã được thử nghiệm như Linux, Windows hay hệ điều hành MacOS. Tổng hợp toàn diện các kỹ thuật tiền xử lý và mô hình hóa dữ liệu.  Giao diện đồ họa giúp người dùng dễ sử dụng.  Weka hỗ trợ một số nhiệm vụ khai thác dữ liệu tiêu chuẩn, cụ thể hơn là xử lý trước dữ liệu, phân cụm, phân loại, hồi quy, trực quan hóa và lựa chọn tính năng. Tất cả các kỹ thuật của Weka được dựa trên giả định rằng dữ liệu có sẵn dưới dạng một tệp phẳng hoặc quan hệ, trong đó mỗi điểm dữ liệu được mô tả bằng một số thuộc tính cố định  Weka cung cấp quyền truy cập vào cơ sở dữ liệu SQL bằng cách sử dụng Java Database Connectivity và có thể xử lý kết quả được trả về bởi truy vấn cơ sở dữ liệu. 2.4.2 Định nghĩa Weka Viết tắt của Waikato Environment for Knowledge Analysis là một bộ phần mềm học máy được Đại học Waikato, New Zealand phát triển bằng Java. Weka là một tập hợp các thuật toán học máy để giải quyết các vấn đề khai thác dữ liệu trong thế giới thực. Các thuật toán có thể được áp dụng trực tiếp vào tập dữ liệu hoặc được gọi từ mã Java của riêng bạn. Những gì WEKA cung cấp được tóm tắt trong sơ đồ sau: Hình 1 : Sơ đồ WEKA thực hiện Đầu tiên, bạn sẽ bắt đầu với dữ liệu thô. Dữ liệu này có thể chứa một số giá trị rỗng và các trường không liên quan. Bạn sử dụng các công cụ xử lý trước dữ liệu được cung cấp trong WEKA để làm sạch dữ liệu.
  • 20. GVHD: Nguyễn Thanh Bình — 19 — Sau đó, bạn sẽ lưu dữ liệu đã xử lý trước vào bộ nhớ cục bộ của mình để áp dụng các thuật toán ML. Tiếp theo, tùy thuộc vào loại mô hình ML mà bạn đang cố gắng phát triển, bạn sẽ chọn một trong các tùy chọn như Classify, Cluster,Associate. Lựa chọn Attributes Selection-thuộc tính cho phép lựa chọn tự động các tính năng để tạo tập dữ liệu giảm. Lưu ý rằng trong mỗi danh mục, WEKA cung cấp việc triển khai một số thuật toán. Bạn sẽ chọn một thuật toán mà bạn chọn, đặt các tham số mong muốn và chạy nó trên tập dữ liệu. Sau đó, WEKA sẽ cung cấp cho bạn kết quả thống kê của quá trình xử lý mô hình. Nó cung cấp cho bạn một công cụ trực quan để kiểm tra dữ liệu. Các mô hình khác nhau có thể được áp dụng trên cùng một tập dữ liệu. Sau đó, bạn có thể so sánh kết quả đầu ra của các mô hình khác nhau và chọn loại tốt nhất đáp ứng mục đích của bạn. Việc sử dụng WEKA dẫn đến sự phát triển nhanh hơn của các mô hình học máy nói chung. 2.4.3. Các chức năng chính của WEKA WEKA cung cấp 5 môi trường làm việc nhằm hỗ trợ người sử dụng hai chức năng chính là khai phá dữ liệu và thực nghiệm, đánh giá các mô hình học máy. - Explorer: Môi trường cho phép tiến hành khai phá dữ liệu với các tính năng tiền xử lý dữ liệu (Preprocess), phân lớp (Classify), phân cụm (Cluster), khai thác luật kết hợp (Associate). Ngoài ra, nó còn cung cấp thêm tính năng hỗ trợ lựa chọn thuộc tính (Select attributes) và mô hình hóa dữ liệu (Visualize). - Experimenter: Môi trường cho phép thực nghiệm (Setup, Run), so sánh, phân tích (Analyse) các mô hình học máy. - KnowledgeFlow: Môi trường này hỗ trợ các tính năng cơ bản giống như Explorer nhưng với một giao diện kéo thả để hỗ trợ học tập gia tăng. - Simple CLI: Cung cấp một giao diện dòng lệnh đơn giản cho phép thực thi trực tiếp các lệnh của WEKA cho các hệ điều hành không cung cấp giao diện dòng lệnh riêng. - Workbench: Môi trường này là sự kết hợp của 4 môi trường nêu trên, người sử dụng có thể tùy ý chuyển đổi mà không cần phải quay lại cửa sổ“Weka GUI Chooser”. CHƯƠNG III: PHƯƠNG PHÁP HỌC SÂU 3.1 Multilayer Perceptrons (MLPs) MLP là thuật toán học sâu cơ bản nhất và cũng là một trong những kỹ thuật học sâu lâu đời nhất.. MLP có thể được coi là một dạng của mạng nơ-ron truyền thẳng . 3.1.1 Mô hình hoạt động
  • 21. GVHD: Nguyễn Thanh Bình — 20 — Lớp đầu tiên lấy đầu vào và lớp cuối cùng tạo ra đầu ra dựa trên các lớp ẩn. Mỗi nút được kết nối với mọi nút trên lớp tiếp theo, vì vậy thông tin liên tục được chuyển tiếp giữa nhiều lớp, đó là lý do tại sao nó được gọi là mạng chuyển tiếp. MLP sử dụng một kỹ thuật học tập có giám sát phổ biến được gọi là backpropagation để đào tạo. Mỗi lớp ẩn được cung cấp một số trọng số (các giá trị được gán ngẫu nhiên). Sự kết hợp của trọng số và đầu vào được cung cấp cho một chức năng kích hoạt được truyền thêm đến lớp tiếp theo để xác định đầu ra. Nếu chúng tôi không đạt được sản lượng mong đợi, chúng tôi tính toán tổn thất (lỗi) và chúng tôi theo dõi lại để cập nhật trọng số. Nó là một quá trình lặp đi lặp lại cho đến khi thu được kết quả dự đoán (thử và sai). Điều quan trọng trong việc đào tạo mô hình học sâu, vì trọng số chính xác sẽ xác định kết quả cuối cùng của bạn. MLP sử dụng phổ biến các hàm sigmoid, đơn vị tuyến tính chỉnh lưu (ReLU) và tanh làm các hàm kích hoạt. 3.1.2 Ưu và nhược điểm Ưu điểm của MLP Họ không đưa ra bất kỳ giả định nào liên quan đến các hàm mật độ Xác suất (PDF), không giống như các mô hình khác dựa trên Xác suất. Khả năng cung cấp chức năng quyết định trực tiếp bằng cách đào tạo perceptron. Nhược điểm của MLP Do chức năng truyền giới hạn cứng, các perceptron chỉ có thể cho đầu ra ở dạng 0 và 1. Trong khi cập nhật trọng số trong các lớp, mạng MLP có thể bị kẹt ở mức tối thiểu cục bộ, điều này có thể cản trở độ chính xác. 3.2 Generative Adversarial Networks (GANs)
  • 22. GVHD: Nguyễn Thanh Bình — 21 — 3.2.1 Mô hình hoạt động GAN bao gồm hai mạng nơ-ron. Generator Network- Mạng máy phát - Đầu tiên là mạng thần kinh máy phát tạo ra các ví dụ mới. Discriminator Network - Mạng phân biệt đối xử - Nó chịu trách nhiệm đánh giá các ví dụ được tạo và liệu chúng có thuộc tập dữ liệu đào tạo thực tế hay không. Hãy để chúng tôi hiểu điều này bằng một ví dụ. Hãy xem xét một máy kiểm tra tiền tệ. Máy có nhiệm vụ kiểm tra xem các ghi chú là giả hay thật. Mạng máy phát sẽ cố gắng tạo các ghi chú giả và gửi chúng đến Người phân biệt. Bộ phân biệt sẽ lấy cả ghi chú thật (dữ liệu đào tạo đầu vào) và ghi chú giả và trả về giá trị từ 0 đến 1. Giá trị này là xác suất trong đó 1 đại diện cho các ghi chú hoàn toàn chính hãng và 0 đại diện cho các ghi chú giả. 3.2.2 Ưu và nhược điểm Ưu điểm của GAN GAN có thể tìm hiểu bất kỳ biểu diễn bên trong của dữ liệu (các phân phối lộn xộn và phức tạp). Họ có thể được đào tạo một cách hiệu quả bằng cách sử dụng dữ liệu không được gắn nhãn để họ có thể nhanh chóng tạo ra kết quả thực tế và chất lượng cao. Họ có thể nhận ra các đối tượng cũng như có thể tính toán khoảng cách giữa chúng. Nhược điểm của GAN Khi tạo dữ liệu mới từ dữ liệu gốc, không có số liệu đánh giá nào như vậy để đánh giá độ chính xác của đầu ra. Tính toán cao và thời gian cần thiết để đào tạo mô hình . 3.3 Autoencoders Deep Learning Algorithm
  • 23. GVHD: Nguyễn Thanh Bình — 22 — 3.3.1 Hoạt động Có 3 thành phần chính Encoder - Bộ mã hóa - Bộ mã hóa nén đầu vào thành một biểu diễn không gian tiềm ẩn có thể được tái tạo lại sau đó để có được đầu vào ban đầu. Code- Mã - Đây là phần được nén (biểu diễn không gian tiềm ẩn) thu được sau khi mã hóa. Decoder - Bộ giải mã - Bộ giải mã nhằm mục đích tái tạo lại mã về dạng ban đầu. Kết quả tái tạo thu được có thể không chính xác như ban đầu và có thể có một số mất mát. 3.3.2 Ưu và nhược điểm Ưu điểm của Autoencoders Sử dụng nhiều lớp mã hóa và giải mã làm giảm chi phí tính toán của việc biểu diễn một số chức năng ở một mức độ nhất định. Nhược điểm của Autoencoders Nó không hiệu quả như GAN khi tái tạo hình ảnh vì đối với những hình ảnh phức tạp, nó thường không hoạt động tốt. Chúng tôi có thể mất dữ liệu cần thiết từ dữ liệu đầu vào ban đầu sau khi mã hóa. 3.4 Self Organizing Maps (SOMs) 3.4.1 Hoạt động Các SOM nhóm các mục dữ liệu tương tự lại với nhau bằng cách tạo bản đồ 1D hoặc 2D. Tương tự như các thuật toán khác, trọng số được khởi tạo ngẫu nhiên
  • 24. GVHD: Nguyễn Thanh Bình — 23 — cho mỗi nút. Ở mỗi bước, một vectơ mẫu x được lấy ngẫu nhiên từ tập dữ liệu đầu vào và khoảng cách giữa x và tất cả các vectơ khác được tính toán. Đơn vị phù hợp nhất (BMU) gần nhất với x được chọn sau khi bỏ phiếu trong số tất cả các vectơ khác. Sau khi BMU được xác định, các vectơ trọng số được cập nhật, và BMU được di chuyển gần hơn với vectơ đầu vào x trong không gian đầu vào. Quá trình này được lặp lại cho đến khi chúng ta nhận được kết quả đầu ra như mong đợi. Đối với ví dụ, trước tiên chương trình sẽ chọn một màu từ một mảng mẫu, chẳng hạn như màu đỏ, sau đó tìm kiếm trọng số cho các vị trí màu đỏ đó. Các trọng lượng xung quanh các vị trí đó có màu đỏ, sau đó màu tiếp theo, màu xanh lam được chọn và quá trình tiếp tục. 3.4.2 Ưu và nhược điểm Ưu điểm của SOM : Chúng tôi có thể dễ dàng giải thích và hiểu dữ liệu bằng SOM. Việc sử dụng giảm kích thước hơn nữa giúp việc kiểm tra bất kỳ điểm tương đồng nào trong dữ liệu của chúng tôi trở nên đơn giản hơn nhiều. Nhược điểm của SOM : SOM yêu cầu trọng số nơ-ron là cần thiết và đủ để phân cụm dữ liệu đầu vào. Nếu trong khi đào tạo SOM, chúng tôi cung cấp ít dữ liệu hơn hoặc nhiều hơn, chúng tôi có thể không nhận được đầu ra nhiều thông tin hoặc rất chính xác.
  • 25. GVHD: Nguyễn Thanh Bình — 24 — CHƯƠNG IV: HIỆN THỰC KẾT QUẢ 4.1 Yêu cầu hệ thống và tập dữ liệu thực nghiệm 200 dữ liệu wed bán hàng 4.2 Kết quả thực nghiệm - Tổng kết kiến thức cơ bản về khai phá luật kết hợp. - Có thể làm tư liệu tham khảo về khai phá dữ liệu và luật kết hợp - Xây dựng phần mềm để giải quyết bài toán quản lý vật tư, thiết bị trường THPT
  • 26. GVHD: Nguyễn Thanh Bình — 25 — CHƯƠNG V : KẾT LUẬN 5.1 Kết quả đạt được: - Tổng kết kiến thức cơ bản về khai phá luật kết hợp. - Có thể làm tư liệu tham khảo về khai phá dữ liệu và luật kết hợp - Xây dựng phần mềm để giải quyết bài toán quản lý mua bán hàng trên trang wed. 5.2 Ưu và nhược điểm - Phương pháp này được nhiều nhà khoa học nghiên cứu và có nhiều đóng góp trong thực tiễn. - Có thể coi là tài liệu tham khảo về luật kết hợp. - Người khác có thể tham khảo phát triển các ứng dụng riêng của mình. - Ứng dụng Tin học vào quản lí bán hàng trên wed. - Hỗ trợ cho cán bộ quản lý hàng hóa cho cá nhân hoặc doanh nghiệp. - Tiết kiệm được thời gian, công sức và tiền bạc trong việc mua bán hàng hóa. 5.3 Hướng mở rộng trong tương lai Một trong những công việc quan trọng của khai phá luật kết hợp là tìm tất cả các tập phổ biến trong cơ sở dữ liệu, nên trong thời gian tới nhóm em sẽ mở rộng nghiên cứu theo hướng : ứng dụng thuật toán song song áp dụng cho bài toán khai phá luật kết hợp mờ, là luật kết hợp trên các tập thuộc tính mờ. Thuật toán song song chia đều cơ sở dữ liệu và tập ứng viên cho các bộ vi xử lý, và các tập ứng viên sau khi chia cho từng bộ xử lý là hoàn toàn độc lập với nhau mục đích cải thiện chi phí tìm luật kết hợp mờ và thời gian mờ hoá dữ liệu. Tiếp tục hoàn thiện hệ thống hỗ trợ khách hàng quản lý bán hàng trên Wed và có thể ứng dụng thêm các lĩnh vực khác như đào tạo, ngân hàng, siêu thị.
  • 27. GVHD: Nguyễn Thanh Bình — 26 — TÀI LIỆU THAM KHẢO [1] Lê Thu Hà, Phương pháp luật kết hợp và ứng dụng, Luận văn thạc sỹ, Trường đại học Thái Nguyên, 2009 [2] Lê Huy Thập, Khai phá dữ liệu, Bài giảng cho cao học, Hà Nội 2012.S [3] https://www.tutorialspoint.com/weka/weka_introduction.htm truy cập lần cuối 2/6/2022 [4] https://www.projectpro.io/article/deep-learning-algorithms/443 truy cập lần cuối 10/6/2022