SlideShare ist ein Scribd-Unternehmen logo
1 von 17
1
Youtube:PoppinKhiem-Sân chơi giới trẻ PTITers
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
**************************
BÁO CÁO BÀI TẬP LỚN
KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU
Đề tài: Tìm hiểu và xây dựng thuật toán K-means
và KNN
Giảng viên hướng dẫn: (Cô) Nguyễn Quỳnh Chi
2
Youtube:PoppinKhiem-Sân chơi giới trẻ PTITers
Phân công công việc:
Thành viên Công việc
Bùi Trung Hiếu Tìm hiểu codevà dataset
Trần Minh Tân Tìm hiểu và xây dựng code, tài liệu
Bùi Văn Đông Tìm hiểu codexây dựng tài liệu
Nguyễn Như Tuấn Xây dựng tài liệu
Vương Đình Hiếu Xây dựng tài liệu
3
Youtube:PoppinKhiem-Sân chơi giới trẻ PTITers
Giới thiệu
Data mining là lĩnh vực đóng vai trò quan trọng trong việc phân tích và quản lý
dữ liệu. Dựa vào đó chúng ta có thể đưa ra những dự đoán cho kế hoạch tương
lai. Trong thời buổi công nghệngàycàng pháttriển như hiện nay, việc áp dụng
khoa học công nghệthông tin vào quá trình xử lý và phân tích dữ liệu là vô
cùng cần thiết. Data mining chính là một trong số đó. Sau đâychúng ta sẽ cùng
nhau tìm hiểu về Data mining.
4
Youtube:PoppinKhiem-Sân chơi giới trẻ PTITers
Contents
I. Data mining 3
1. Khái niệm 3
2. Các kỹ thuật quan trọng 3
a. Kỹ thuật phân tích phân loại (Classification Analysis) 3
b. Kỹ thuật Association Rule Learning: 4
c. Kỹ thuật phát hiện bất thường (Anomaly or Outlier
Detection)
4
d. Kỹ thuật phân tích theo cụm (Clustering Analysis) 4
e. Kỹ thuật dự báo (prediction) 4
f. Kỹ thuật Sequential Patterns: 5
g. Kỹ thuật Decision Trees 5
II. K-Mean 6
1. Khái niệm: 6
2. Ý tưởng của thuật toán k-means 7
3. Một số lưu ý: 7
a. Lựa chọn số cụm: 7
b. Khởi tạo K vị trí ban đầu: 7
c. Về vấn đề tính dừng (hội tụ) 7
III. KNN (K-Nearest Neighbors) 9
1. Giới thiệu: 9
2. Khái niệm: 9
3. Thuật toán: 10
4. Ứng dụng: 10
5
Youtube:PoppinKhiem-Sân chơi giới trẻ PTITers
I. Data mining
Data Mining là một trong những thuật ngữ mới xuất hiện đầu thế kỷ 21, nó
là hệ quả của sự bùng nổ Internet đạt tới đỉnh điểm. Theo một công bố của
Intel vào tháng 9 năm 2013 cứ 11 giây trôi qua chúng ta có thêm 1 Petabybe
dữ liệu, nó tương đương với một video chất lượng HD dài 13 năm. Và để
khai phá, trích xuất nó Data Mining ra đời, dưới đây là khái niệm Data
Mining là gì?
1. Khái niệm
Data mining – khai phá dữ liệu là quá trình phân loại, sắp xếp các tập hợp dữ
liệu lớn để xác định các mẫu và thiết lập các mối liên hệ nhằm giải quyết các
vấn đề nhờ phân tích dữ liệu. Các MCU khai phá dữ liệu cho phép các doanh
nghiệp có thể dự đoán được xu hướng tương lai.
Quá trình khai phá dữ liệu là một quá trình phức tạp bao gồm kho dữ liệu
chuyên sâu cũng như các công nghệ tính toán. Hơn nữa, Data Mining không
chỉ giới hạn trong việc trích xuất dữ liệu mà còn được sử dụng để chuyển
đổi, làm sạch, tích hợp dữ liệu và phân tích mẫu.
Có nhiều tham số quan trọng khác nhau trong Data Mining, chẳng hạn như
quy tắc kết hợp, phân loại, phân cụm và dự báo. Một số tính năng chính của
Data Mining:
● Dự đoán các mẫu dựa trên xu hướng trong dữ liệu.
● Tính toán dự đoán kết quả
● Tạo thông tin phản hồi để phân tích
● Tập trung vào cơ sở dữ liệu lớn hơn.
● Phân cụm dữ liệu trực quan
2. Các kỹ thuật quan trọng
Về cơ bản, Data Mining hay khai phá dữ liệu là việc xử lý, nhận biết các xu
hướng từ các thông tin dữ liệu để có thể đưa ra quyết định hoặc đánh giá.
Thông thường, các bạn sẽ thấy có 6 kỹ thuật cốt lõi, được sử dụng nhiều
trong việc khai phá dữ liệu:
a. Kỹ thuật phân tích phân loại (Classification Analysis)
Kỹ thuật khai phá dữ liệu đầu tiên là kỹ thuật phân tích phân loại. Đây
là kỹ thuật cho phép phân loại một đối tượng vào một hoặc một số lớp
cho trước.
Chúng ta thường sử dụng kỹ thuật khai thác dữ liệu này để lấy các
thông tin quan trọng từ dữ liệu và siêu dữ liệu. Vì vậy, trong phân tích
6
Youtube:PoppinKhiem-Sân chơi giới trẻ PTITers
phân loại, chúng ta cần áp dụng các thuật toán khác nhau tùy thuộc
vào mục tiêu sử dụng.
b. Kỹ thuật Association Rule Learning:
Kỹ thuật Association Rule Learning trong khai phá dữ liệu được sử
dụng để xác định mối quan hệ giữa các biến khác nhau trong cơ sở
dữ liệu. Ngoài ra, nó còn được sử dụng để “giải nén” các mẫu ẩn
trong dữ liệu. Association Rule rất hữu íchđể kiểm tra, dự đoán hành
vi và thường được áp dụng trong ngành bán lẻ.
c. Kỹ thuật phát hiện bất thường (Anomaly or Outlier Detection)
Về cơ bản, kỹ thuật khai phá dữ liệu (Data Mining) này dùng để nhấn
mạnh vào việc quan sát các mục dữ liệu trong bộ dữ liệu để tìm ra các tập
dữ liệu không khớp với mẫu dự kiến. Bất thường ở đây có thể đề cập đến
độ lệch, sự khác thường, các nhiễu và ngoại lệ.
Sự bất thường được xem là khá quan trọng vì nó có thể cung cấp một số
thông tin cần thiết. Nó có thể là một dữ liệu khác biệt so với mức trung
bình chung trong một tập dữ liệu. Điều này chỉ ra rằng một cái gì đó khác
thường đã xảy ra và các nhà phân tích dữ liệu cần chú ý.
d. Kỹ thuật phân tích theo cụm (Clustering Analysis)
“Cụm” có nghĩa là một nhóm các đốitượng dữ liệu. Các đốitượng tương
tự nhau thì sẽ nằm trong một cụm. Kết quả là các đốitượng tương tự
nhau trong cùng một nhóm.
Về cơ bản, kỹ thuật khai phá dữ liệu này thường được ứng dụng để tạo hồ
sơ khách hàng. Hoặc trong lĩnh vực Marketing, đây được xem là việc
chia phân khúc khách hàng.
e. Kỹ thuật dự báo (prediction)
7
Youtube:PoppinKhiem-Sân chơi giới trẻ PTITers
Trong khai phá dữ liệu, kỹ thuật dự báo được ứng dụng ở một số trường
hợp đặc biệt. Nó được sử dụng để khám phá mối quan hệ giữa các biến
độc lập và phụ thuộc.
f. Kỹ thuật Sequential Patterns:
Đây là một kỹ thuật quan trọng trong khai phá dữ liệu. Kỹ thuật này giúp
tìm cáchkhám phá các mẫu tương tự.
g. Kỹ thuật Decision Trees
Decision Trees là một thuật ngữ rất quan trọng trong khai phá dữ liệu. Nó
đóng một vai trò quan trọng trong quá trình khai phá dữ liệu bởi vì mô
hình này rất dễ hiểu cho người dùng.
Trong kỹ thuật Decision Trees, gốc cây là một câu hỏi đơn giản có nhiều
câu trả lời. Ngoài ra, mỗi câu hỏi dẫn đến bộ câu hỏi khác. Và nó sẽ giúp
chúng ta xác định dữ liệu. Vì vậy, chúng ta có thể đưa ra quyết định cuối
cùng nhờ vào kỹ thuật này.
8
Youtube:PoppinKhiem-Sân chơi giới trẻ PTITers
II. K-Mean
1. Khái niệm:
K-means là một thuật toán phân cụm đơn giản thuộc loại học không giám sát(tức là
dữ liệu không có nhãn) và được sử dụng để giải quyết bài toán phân cụm. Ý tưởng
của thuật toán phân cụm k-means là phân chia 1 bộ dữ liệu thành các cụm khác
nhau. Trong đó số lượng cụm được cho trước là k. Công việc phân cụm được xác
lập dựa trên nguyên lý: Các điểm dữ liệu trong cùng 1 cụm thì phải có cùng 1 số
tính chất nhất định. Tức là giữa các điểm trong cùng 1 cụm phải có sự liên quan lẫn
nhau. Đốivới máy tính thì các điểm trong 1 cụm đó sẽ là các điểm dữ liệu gần
nhau.
Thuật toán phân cụm k-means là một phương pháp được sử dụng trong phân tích
tính chất cụm của dữ liệu. Nó đặc biệt được sử dụng nhiều trong khai phá dữ liệu
và thống kê. Nó phân vùng dữ liệu thành k cụm khác nhau. Giải thuật này giúp
chúng ta xác định được dữ liệu của chúng ta nó thực sử thuộc về nhóm nào.
9
Youtube:PoppinKhiem-Sân chơi giới trẻ PTITers
2. Ý tưởng của thuật toán k-means
3. Một số lưu ý:
a. Lựa chọn số cụm:
Chỉ việc lựa chọn số cụm k đã có thể tách thành 1 bài toán riêng.
Không có 1 consố k nào là hợp lý cho tất cả các bài toán. Bạn có thể
đọc hiểu tập dữ liệu của mình để xác định xem trong đó có thể có bao
nhiêu cụm? Nhưng không phải lúc nào bạn cũng có thể làm thế. Cách
làm duy nhất là bạn hãy thử với từng giá trị k=1,2,3,4,5,… để xem kết
quả phân cụm thay đổi như thế nào. Một số nghiên cứu cho thấy việc
thay đổik sẽ có hiệu quả nhưng sẽ dừng lại ở 1 con số nào đó. Như
vậy bạn hoàn toàn có thể thử xem dữ liệu của mình tốt với giá trị k
nào đó.
b. Khởi tạo K vị trí ban đầu:
Bằng cách nào đó, hãy có gắng khởi tạo k tâm cụm này phân bố đồng
đều trên không gian của bộ dữ liệu. Điều đó có thể làm khi bạn có thể
xác định được không gian và tính chất của dữ liệu. Nhưng ít nhất, các
tâm cụm mà bạn khởi tạo cũng đừng quá gần nhau, cũng đừng trùng
nhau.
Còn 1 cách cuối cùng là bạn sẽ chạy thuật toán nhiều lần để lấy kết
quả tốt nhất trong các lần chạy đó.Vớiđiều kiện là bạn khởi tạo tâm
của k cụm ngẫu nhiên.
c. Về vấn đề tính dừng (hội tụ)
Đối với những trường hợp dữ liệu phức tạp, thuật toán k-means sẽ rất
lâu hoặc không bao giờ hội tụ.Tức là sẽ không bao giờ xác định được
tâm cụm cố định để kết thúc bài toán. Hoặc là phải chạy qua rất nhiều
bước lặp. Trong những trường hợp như vậy, thay vì phải tìm được k
tâm cụm cố định thì ta sẽ dừng bài toán khi sự thay đổiở một consố
1
0
Youtube:PoppinKhiem-Sân chơi giới trẻ PTITers
chấp nhận được. Tức là giữa hai lần cập nhật tâm cụm thì chênh lệch
vị trí giữa tâm cũ và mới nhỏ hơn một số delta cho phép nào đó.
4. Cài đặt
a. Khởi tạo dữ liệu
Khởi tạo dữ liệu dựa trên số lượng cụm nhập vào (k). Mỗi cụm
random ra 500 điểm trên tọa độ không gian Oxy. Thêm tất cả các cụm
vào tập dữ liệu tổng.
1
1
Youtube:PoppinKhiem-Sân chơi giới trẻ PTITers
Khởi tạo tâm cụm (ramdom)
b. Lặp cho tới khi phân cụm hoàn thành
1
2
Youtube:PoppinKhiem-Sân chơi giới trẻ PTITers
Kết quả sau khi chạy xong.
1
3
Youtube:PoppinKhiem-Sân chơi giới trẻ PTITers
III. KNN (K-NearestNeighbors)
1. Giới thiệu:
K-Nearest Neighbors algorithm (K-NN) được sử dụng rất phổ biến trong lĩnh
vực Data Mining. K-NN là phương pháp để phân lớp các đối tượng dựa vào
khoảng cách gần nhất giữa đốitượng cần xếp lớp (Query point) và tất cả các đối
tượng trong Training Data. Một đối tượng được phân lớp dựa vào K láng giềng
của nó. K là số nguyên dương được xác định trước khi thực hiện thuật toán.
Người ta thường dùng khoảng cách Euclidean để tính khoảng cách giữa các đối
tượng.
2. Khái niệm:
Thuật toán KNN là một trong những phương pháp học có giám sát “Supervised
Learning” tức dựa trên biến mục tiêu đã được xác định trước đó, thuật toán sẽ
xem xét dữ liệu đã chứa biến mục tiêu (đã phân loại) để “học”và tìm ra những
biến d có thể tác động đến biến mục tiêu.
KNN dựa trên giả định là những thứ tương tự hay có tính chất gần giống nhau
sẽ nằm ở vị trí gần nhau, với giả định như vậy, KNN được xây dựng trên các
công thức toán học phục vụ để tính khoảng cách giữa 2 điểm dữ liệu (gọi là
Data points) để xem xét mức độ giống nhau của chúng.
KNN còn gọi là “Lazy learning method” vì tính đơn giản của nó, có nghĩa là
quá trình training không quá phức tạp để hoàn thiênhj mô hình (tất cả các dữ
liệu đào tạo có thể được sử dụng để kiểm tra mô hình KNN). Điều này làm cho
việc xây dựng mô hình nhanh hơn nhưng giai đoạnthử nghiệm chậm hơn và tốn
1
4
Youtube:PoppinKhiem-Sân chơi giới trẻ PTITers
kém hơn về mặt thời gian và bộ nhớ lưu trữ, đặc biệt khi bộ dữ liệu lớn và phức
tạp với nhiều biến khác nhau. Trong trường hợp xấu nhất, KNN cần thêm thời
gian để quét tất cả các điểm dữ liệu và việc này sẽ cần nhiều không gian bộ nhớ
hơn để lưu trữ dữ liệu. Ngoài ra KNN không cần dựa trên các tham số khác
nhau để tiến hành phân loại dữ liệu, không đưa ra bất kỳ kết luận cụ thể nào
giữa biến đầu vào và biến mục tiêu, mà chỉ dựa trên khoảng cách giữa data
point cần phân loại với data point đã phân loại trước đó. Đây là một đặc điểm
cực kỳ hữu ích vì hầu hết dữ liệu trong thế giới thực tại không thực sự tuân theo
bất kỳ giả định lý thuyết nào ví dụ như phân phối chuẩn trong thống kê.
3. Thuật toán:
a) Xác định giá trị tham số K (số láng giềng gần nhất)
b) Tính khoảng cách giữa đốitượng cần phân lớp (Query Point) với tất
cả các đốitượng trong training data (thường sử dụng khoảng các
Euclidean)
c) Sắp xếp khoảng cách theo thứ tự tăng dần và xác định K láng giềng
gần nhất với Query Point
d) Lấy tất cả các lớp của K láng giềng gần nhất đã xác định
e) Dựa vào phần lớn lớp của láng giềng gần nhất để xác định lớp cho
Query Point
4. Ứng dụng:
Trong y tế
Trong lĩnh vực ngân hàng
Trong giáo dục
Trong thương mại điện tử
Trong kinh tế
5. Cài đặt
a. Load dữ liệu từ file excel
1
5
Youtube:PoppinKhiem-Sân chơi giới trẻ PTITers
Lấy 100 bản ghi đầu làm tập tranning
Lấy các bản ghi còn lại làm tập testing
b. Lặp qua từng bản ghi testing, dự đoán nhãn
1
6
Youtube:PoppinKhiem-Sân chơi giới trẻ PTITers
Tìm k hàng xóm gần nhất với bản ghi thử
Lấy nhãn đa số trong tập k hang xóm
Gán nhãn cho bản ghi thử
1
7
Youtube:PoppinKhiem-Sân chơi giới trẻ PTITers
Sau khi lặp qua tất cả bản ghi thử, tính toán tỉ lệ dự đoán chính xác.

Weitere ähnliche Inhalte

Was ist angesagt?

Xử lý ảnh PTIT
Xử lý ảnh PTITXử lý ảnh PTIT
Xử lý ảnh PTITTran Tien
 
đồ áN phân tích thiết kế hệ thống quản lý bán hàng siêu thị
đồ áN phân tích thiết kế hệ thống quản lý bán hàng siêu thịđồ áN phân tích thiết kế hệ thống quản lý bán hàng siêu thị
đồ áN phân tích thiết kế hệ thống quản lý bán hàng siêu thịThanh Hoa
 
Giáo trình phân tích thiết kế hệ thống thông tin
Giáo trình phân tích thiết kế hệ thống thông tinGiáo trình phân tích thiết kế hệ thống thông tin
Giáo trình phân tích thiết kế hệ thống thông tinVõ Phúc
 
Phân tích thiết kế hệ thống của hàng bán điện thoại di động
Phân tích thiết kế hệ thống của hàng bán điện thoại di độngPhân tích thiết kế hệ thống của hàng bán điện thoại di động
Phân tích thiết kế hệ thống của hàng bán điện thoại di độngNguyễn Danh Thanh
 
4 - Phan lop du lieu-Final.pptx
4 - Phan lop du lieu-Final.pptx4 - Phan lop du lieu-Final.pptx
4 - Phan lop du lieu-Final.pptxMUyn25
 
Big data là gì và người ta khai thác
Big data là gì và người ta khai thácBig data là gì và người ta khai thác
Big data là gì và người ta khai thácletranganh
 
Báo Cáo Đồ Án 2 : Thiết Kế Web Bán Đồng Hồ
Báo Cáo Đồ Án 2 : Thiết Kế Web Bán Đồng HồBáo Cáo Đồ Án 2 : Thiết Kế Web Bán Đồng Hồ
Báo Cáo Đồ Án 2 : Thiết Kế Web Bán Đồng HồzDollz Lovez
 
báo cáo hệ quản trị cơ sỡ dữ liệu hệ thống bán cà phê
báo cáo hệ quản trị cơ sỡ dữ liệu hệ thống bán cà phêbáo cáo hệ quản trị cơ sỡ dữ liệu hệ thống bán cà phê
báo cáo hệ quản trị cơ sỡ dữ liệu hệ thống bán cà phêthuhuynhphonegap
 
TỔNG QUAN VỀ DỮ LIỆU LỚN (BIGDATA)
TỔNG QUAN VỀ DỮ LIỆU LỚN (BIGDATA)TỔNG QUAN VỀ DỮ LIỆU LỚN (BIGDATA)
TỔNG QUAN VỀ DỮ LIỆU LỚN (BIGDATA)Trieu Nguyen
 
Chuẩn hóa lược đồ quan hệ
Chuẩn hóa lược đồ quan hệChuẩn hóa lược đồ quan hệ
Chuẩn hóa lược đồ quan hệHưởng Nguyễn
 
SVM trong tìm kiếm ảnh dựa vào nội dung
SVM trong tìm kiếm ảnh dựa vào nội dungSVM trong tìm kiếm ảnh dựa vào nội dung
SVM trong tìm kiếm ảnh dựa vào nội dungCngBic2
 
Tài liệu tổng kểt môn mạng máy tính
Tài liệu tổng kểt môn mạng máy tínhTài liệu tổng kểt môn mạng máy tính
Tài liệu tổng kểt môn mạng máy tínhJojo Kim
 
CÁC BÀI TOÁN KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU.pdf
CÁC BÀI TOÁN KHAI PHÁ DỮ LIỆU VÀ ỨNG  DỤNG CỦA KHAI PHÁ DỮ LIỆU.pdfCÁC BÀI TOÁN KHAI PHÁ DỮ LIỆU VÀ ỨNG  DỤNG CỦA KHAI PHÁ DỮ LIỆU.pdf
CÁC BÀI TOÁN KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU.pdfMan_Ebook
 
Data mining - Luật kết hợp và ứng dụng
Data mining - Luật kết hợp và ứng dụngData mining - Luật kết hợp và ứng dụng
Data mining - Luật kết hợp và ứng dụngPhien Le
 
lý thuyết cơ sở dữ liệu phân tán
lý thuyết cơ sở dữ liệu phân tánlý thuyết cơ sở dữ liệu phân tán
lý thuyết cơ sở dữ liệu phân tánNgo Trung
 

Was ist angesagt? (20)

Xử lý ảnh PTIT
Xử lý ảnh PTITXử lý ảnh PTIT
Xử lý ảnh PTIT
 
Đề tài: Nghiên cứu thuật toán K-nearest neighbor, HAY, 9đ
Đề tài: Nghiên cứu thuật toán K-nearest neighbor, HAY, 9đĐề tài: Nghiên cứu thuật toán K-nearest neighbor, HAY, 9đ
Đề tài: Nghiên cứu thuật toán K-nearest neighbor, HAY, 9đ
 
đồ áN phân tích thiết kế hệ thống quản lý bán hàng siêu thị
đồ áN phân tích thiết kế hệ thống quản lý bán hàng siêu thịđồ áN phân tích thiết kế hệ thống quản lý bán hàng siêu thị
đồ áN phân tích thiết kế hệ thống quản lý bán hàng siêu thị
 
Giáo trình phân tích thiết kế hệ thống thông tin
Giáo trình phân tích thiết kế hệ thống thông tinGiáo trình phân tích thiết kế hệ thống thông tin
Giáo trình phân tích thiết kế hệ thống thông tin
 
Phân tích thiết kế hệ thống của hàng bán điện thoại di động
Phân tích thiết kế hệ thống của hàng bán điện thoại di độngPhân tích thiết kế hệ thống của hàng bán điện thoại di động
Phân tích thiết kế hệ thống của hàng bán điện thoại di động
 
4 - Phan lop du lieu-Final.pptx
4 - Phan lop du lieu-Final.pptx4 - Phan lop du lieu-Final.pptx
4 - Phan lop du lieu-Final.pptx
 
Big data là gì và người ta khai thác
Big data là gì và người ta khai thácBig data là gì và người ta khai thác
Big data là gì và người ta khai thác
 
Đề tài: Thiết kế hệ thống thông tin quản lý phân phối Gas, HOT
Đề tài: Thiết kế hệ thống thông tin quản lý phân phối Gas, HOTĐề tài: Thiết kế hệ thống thông tin quản lý phân phối Gas, HOT
Đề tài: Thiết kế hệ thống thông tin quản lý phân phối Gas, HOT
 
Báo Cáo Đồ Án 2 : Thiết Kế Web Bán Đồng Hồ
Báo Cáo Đồ Án 2 : Thiết Kế Web Bán Đồng HồBáo Cáo Đồ Án 2 : Thiết Kế Web Bán Đồng Hồ
Báo Cáo Đồ Án 2 : Thiết Kế Web Bán Đồng Hồ
 
báo cáo hệ quản trị cơ sỡ dữ liệu hệ thống bán cà phê
báo cáo hệ quản trị cơ sỡ dữ liệu hệ thống bán cà phêbáo cáo hệ quản trị cơ sỡ dữ liệu hệ thống bán cà phê
báo cáo hệ quản trị cơ sỡ dữ liệu hệ thống bán cà phê
 
TỔNG QUAN VỀ DỮ LIỆU LỚN (BIGDATA)
TỔNG QUAN VỀ DỮ LIỆU LỚN (BIGDATA)TỔNG QUAN VỀ DỮ LIỆU LỚN (BIGDATA)
TỔNG QUAN VỀ DỮ LIỆU LỚN (BIGDATA)
 
Hệ Cơ Sở Dữ Liệu Đa Phương Tiện PTIT
Hệ Cơ Sở Dữ Liệu Đa Phương Tiện PTITHệ Cơ Sở Dữ Liệu Đa Phương Tiện PTIT
Hệ Cơ Sở Dữ Liệu Đa Phương Tiện PTIT
 
Chuẩn hóa lược đồ quan hệ
Chuẩn hóa lược đồ quan hệChuẩn hóa lược đồ quan hệ
Chuẩn hóa lược đồ quan hệ
 
SVM trong tìm kiếm ảnh dựa vào nội dung
SVM trong tìm kiếm ảnh dựa vào nội dungSVM trong tìm kiếm ảnh dựa vào nội dung
SVM trong tìm kiếm ảnh dựa vào nội dung
 
Đề tài: Quản lý cửa hàng vật liệu xây dựng, HAY, 9đ
Đề tài: Quản lý cửa hàng vật liệu xây dựng, HAY, 9đĐề tài: Quản lý cửa hàng vật liệu xây dựng, HAY, 9đ
Đề tài: Quản lý cửa hàng vật liệu xây dựng, HAY, 9đ
 
Đề tài: Xây dựng phần mềm quản lý quán cà phê, HOT, 9đ
Đề tài: Xây dựng phần mềm quản lý quán cà phê, HOT, 9đĐề tài: Xây dựng phần mềm quản lý quán cà phê, HOT, 9đ
Đề tài: Xây dựng phần mềm quản lý quán cà phê, HOT, 9đ
 
Tài liệu tổng kểt môn mạng máy tính
Tài liệu tổng kểt môn mạng máy tínhTài liệu tổng kểt môn mạng máy tính
Tài liệu tổng kểt môn mạng máy tính
 
CÁC BÀI TOÁN KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU.pdf
CÁC BÀI TOÁN KHAI PHÁ DỮ LIỆU VÀ ỨNG  DỤNG CỦA KHAI PHÁ DỮ LIỆU.pdfCÁC BÀI TOÁN KHAI PHÁ DỮ LIỆU VÀ ỨNG  DỤNG CỦA KHAI PHÁ DỮ LIỆU.pdf
CÁC BÀI TOÁN KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU.pdf
 
Data mining - Luật kết hợp và ứng dụng
Data mining - Luật kết hợp và ứng dụngData mining - Luật kết hợp và ứng dụng
Data mining - Luật kết hợp và ứng dụng
 
lý thuyết cơ sở dữ liệu phân tán
lý thuyết cơ sở dữ liệu phân tánlý thuyết cơ sở dữ liệu phân tán
lý thuyết cơ sở dữ liệu phân tán
 

Ähnlich wie KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU PTIT

TÌM HIỂU và THỬ NGHIỆM THUẬT TOÁN KHAI PHÁ dữ LIỆU GSP.pdf
TÌM HIỂU và THỬ NGHIỆM THUẬT TOÁN KHAI PHÁ dữ LIỆU GSP.pdfTÌM HIỂU và THỬ NGHIỆM THUẬT TOÁN KHAI PHÁ dữ LIỆU GSP.pdf
TÌM HIỂU và THỬ NGHIỆM THUẬT TOÁN KHAI PHÁ dữ LIỆU GSP.pdfMan_Ebook
 
Đồ Án Tốt Nghiệp Tìm Hiểu Và Cài Đặt Một Số Thuật Toán Phân Cụm Dữ Liệu Cơ Bả...
Đồ Án Tốt Nghiệp Tìm Hiểu Và Cài Đặt Một Số Thuật Toán Phân Cụm Dữ Liệu Cơ Bả...Đồ Án Tốt Nghiệp Tìm Hiểu Và Cài Đặt Một Số Thuật Toán Phân Cụm Dữ Liệu Cơ Bả...
Đồ Án Tốt Nghiệp Tìm Hiểu Và Cài Đặt Một Số Thuật Toán Phân Cụm Dữ Liệu Cơ Bả...mokoboo56
 
on-tap-khai-thac-du-lieu-va-ung-dung.pdf
on-tap-khai-thac-du-lieu-va-ung-dung.pdfon-tap-khai-thac-du-lieu-va-ung-dung.pdf
on-tap-khai-thac-du-lieu-va-ung-dung.pdfMan_Ebook
 
[123doc] - bai-giang-nhap-mon-lap-trinh-khoa-hoc-du-lieu.pdf
[123doc] - bai-giang-nhap-mon-lap-trinh-khoa-hoc-du-lieu.pdf[123doc] - bai-giang-nhap-mon-lap-trinh-khoa-hoc-du-lieu.pdf
[123doc] - bai-giang-nhap-mon-lap-trinh-khoa-hoc-du-lieu.pdfNuioKila
 
Mô hình nhận diện captcha sử dụng công.pptx
Mô hình nhận diện captcha sử dụng công.pptxMô hình nhận diện captcha sử dụng công.pptx
Mô hình nhận diện captcha sử dụng công.pptxNguynHngL8
 
Mạng neural nhân tạo và ứng dụng trong xử lý ngôn ngữ tự nhiên
Mạng neural nhân tạo và ứng dụng trong xử lý ngôn ngữ tự nhiênMạng neural nhân tạo và ứng dụng trong xử lý ngôn ngữ tự nhiên
Mạng neural nhân tạo và ứng dụng trong xử lý ngôn ngữ tự nhiênMinh Pham
 
Phân tích mã độc cơ bản - báo cáo thực tập
Phân tích mã độc cơ bản - báo cáo thực tậpPhân tích mã độc cơ bản - báo cáo thực tập
Phân tích mã độc cơ bản - báo cáo thực tậpPhạm Trung Đức
 
Bắt đầu học data science
Bắt đầu học data scienceBắt đầu học data science
Bắt đầu học data scienceHong Ong
 
Chiết lọc thông tin pháp luật trong dữ liệu văn bản.pdf
Chiết lọc thông tin pháp luật trong dữ liệu văn bản.pdfChiết lọc thông tin pháp luật trong dữ liệu văn bản.pdf
Chiết lọc thông tin pháp luật trong dữ liệu văn bản.pdfTieuNgocLy
 
Khai_pha_d_liu_Data_mining.pdf
Khai_pha_d_liu_Data_mining.pdfKhai_pha_d_liu_Data_mining.pdf
Khai_pha_d_liu_Data_mining.pdfTri Huynh Minh
 
Chuong 1. tong quan
Chuong 1. tong quanChuong 1. tong quan
Chuong 1. tong quanVũ Nam
 
Phát triển hệ thống gợi ý bằng Học tăng cường.pptx
Phát triển hệ thống gợi ý bằng Học tăng cường.pptxPhát triển hệ thống gợi ý bằng Học tăng cường.pptx
Phát triển hệ thống gợi ý bằng Học tăng cường.pptxGiaPhcNguyn4
 
hệ thống thông tin đa phương tiện trên đám mây .pptx
hệ thống thông tin đa phương tiện trên đám mây .pptxhệ thống thông tin đa phương tiện trên đám mây .pptx
hệ thống thông tin đa phương tiện trên đám mây .pptxthienphuctd1
 

Ähnlich wie KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU PTIT (20)

TÌM HIỂU và THỬ NGHIỆM THUẬT TOÁN KHAI PHÁ dữ LIỆU GSP.pdf
TÌM HIỂU và THỬ NGHIỆM THUẬT TOÁN KHAI PHÁ dữ LIỆU GSP.pdfTÌM HIỂU và THỬ NGHIỆM THUẬT TOÁN KHAI PHÁ dữ LIỆU GSP.pdf
TÌM HIỂU và THỬ NGHIỆM THUẬT TOÁN KHAI PHÁ dữ LIỆU GSP.pdf
 
Đồ Án Tốt Nghiệp Tìm Hiểu Và Cài Đặt Một Số Thuật Toán Phân Cụm Dữ Liệu Cơ Bả...
Đồ Án Tốt Nghiệp Tìm Hiểu Và Cài Đặt Một Số Thuật Toán Phân Cụm Dữ Liệu Cơ Bả...Đồ Án Tốt Nghiệp Tìm Hiểu Và Cài Đặt Một Số Thuật Toán Phân Cụm Dữ Liệu Cơ Bả...
Đồ Án Tốt Nghiệp Tìm Hiểu Và Cài Đặt Một Số Thuật Toán Phân Cụm Dữ Liệu Cơ Bả...
 
Ứng dụng mạng nơ ron vào thiết kế Trí Tuệ Nhân Tạo học chơi Flappy Bird.doc
Ứng dụng mạng nơ ron vào thiết kế Trí Tuệ Nhân Tạo học chơi Flappy Bird.docỨng dụng mạng nơ ron vào thiết kế Trí Tuệ Nhân Tạo học chơi Flappy Bird.doc
Ứng dụng mạng nơ ron vào thiết kế Trí Tuệ Nhân Tạo học chơi Flappy Bird.doc
 
on-tap-khai-thac-du-lieu-va-ung-dung.pdf
on-tap-khai-thac-du-lieu-va-ung-dung.pdfon-tap-khai-thac-du-lieu-va-ung-dung.pdf
on-tap-khai-thac-du-lieu-va-ung-dung.pdf
 
[123doc] - bai-giang-nhap-mon-lap-trinh-khoa-hoc-du-lieu.pdf
[123doc] - bai-giang-nhap-mon-lap-trinh-khoa-hoc-du-lieu.pdf[123doc] - bai-giang-nhap-mon-lap-trinh-khoa-hoc-du-lieu.pdf
[123doc] - bai-giang-nhap-mon-lap-trinh-khoa-hoc-du-lieu.pdf
 
Mô hình nhận diện captcha sử dụng công.pptx
Mô hình nhận diện captcha sử dụng công.pptxMô hình nhận diện captcha sử dụng công.pptx
Mô hình nhận diện captcha sử dụng công.pptx
 
Mạng neural nhân tạo và ứng dụng trong xử lý ngôn ngữ tự nhiên
Mạng neural nhân tạo và ứng dụng trong xử lý ngôn ngữ tự nhiênMạng neural nhân tạo và ứng dụng trong xử lý ngôn ngữ tự nhiên
Mạng neural nhân tạo và ứng dụng trong xử lý ngôn ngữ tự nhiên
 
Phân tích mã độc cơ bản - báo cáo thực tập
Phân tích mã độc cơ bản - báo cáo thực tậpPhân tích mã độc cơ bản - báo cáo thực tập
Phân tích mã độc cơ bản - báo cáo thực tập
 
Thdc 06
Thdc 06Thdc 06
Thdc 06
 
Luận văn: Đề xuất thuật toán mã hóa văn bản có độ bảo mật cao
Luận văn: Đề xuất thuật toán mã hóa văn bản có độ bảo mật caoLuận văn: Đề xuất thuật toán mã hóa văn bản có độ bảo mật cao
Luận văn: Đề xuất thuật toán mã hóa văn bản có độ bảo mật cao
 
Luận văn: Thuật toán mã hóa văn bản có độ bảo mật cao, HOT
Luận văn: Thuật toán mã hóa văn bản có độ bảo mật cao, HOTLuận văn: Thuật toán mã hóa văn bản có độ bảo mật cao, HOT
Luận văn: Thuật toán mã hóa văn bản có độ bảo mật cao, HOT
 
Bắt đầu học data science
Bắt đầu học data scienceBắt đầu học data science
Bắt đầu học data science
 
Ứng Dụng Random Forest Để Tư Vấn Chọn Lộ Trình Học Trong Học Chế Tín Chỉ.doc
Ứng Dụng Random Forest Để Tư Vấn Chọn Lộ Trình Học Trong Học Chế Tín Chỉ.docỨng Dụng Random Forest Để Tư Vấn Chọn Lộ Trình Học Trong Học Chế Tín Chỉ.doc
Ứng Dụng Random Forest Để Tư Vấn Chọn Lộ Trình Học Trong Học Chế Tín Chỉ.doc
 
Chiết lọc thông tin pháp luật trong dữ liệu văn bản.pdf
Chiết lọc thông tin pháp luật trong dữ liệu văn bản.pdfChiết lọc thông tin pháp luật trong dữ liệu văn bản.pdf
Chiết lọc thông tin pháp luật trong dữ liệu văn bản.pdf
 
Khai_pha_d_liu_Data_mining.pdf
Khai_pha_d_liu_Data_mining.pdfKhai_pha_d_liu_Data_mining.pdf
Khai_pha_d_liu_Data_mining.pdf
 
Phương pháp điều tra chọn mẫu. Bài giảng 1: Thiết kế điều tra
Phương pháp điều tra chọn mẫu. Bài giảng 1: Thiết kế điều traPhương pháp điều tra chọn mẫu. Bài giảng 1: Thiết kế điều tra
Phương pháp điều tra chọn mẫu. Bài giảng 1: Thiết kế điều tra
 
Chuong 1. tong quan
Chuong 1. tong quanChuong 1. tong quan
Chuong 1. tong quan
 
Phân Tích Dữ Liệu Phân Hạng Tín Dụng Dựa Trên Bộ Dữ Liệu Xyz Bằng Phần Mềm Or...
Phân Tích Dữ Liệu Phân Hạng Tín Dụng Dựa Trên Bộ Dữ Liệu Xyz Bằng Phần Mềm Or...Phân Tích Dữ Liệu Phân Hạng Tín Dụng Dựa Trên Bộ Dữ Liệu Xyz Bằng Phần Mềm Or...
Phân Tích Dữ Liệu Phân Hạng Tín Dụng Dựa Trên Bộ Dữ Liệu Xyz Bằng Phần Mềm Or...
 
Phát triển hệ thống gợi ý bằng Học tăng cường.pptx
Phát triển hệ thống gợi ý bằng Học tăng cường.pptxPhát triển hệ thống gợi ý bằng Học tăng cường.pptx
Phát triển hệ thống gợi ý bằng Học tăng cường.pptx
 
hệ thống thông tin đa phương tiện trên đám mây .pptx
hệ thống thông tin đa phương tiện trên đám mây .pptxhệ thống thông tin đa phương tiện trên đám mây .pptx
hệ thống thông tin đa phương tiện trên đám mây .pptx
 

Mehr von Popping Khiem - Funky Dance Crew PTIT

Cách tăng 100k like trong vòng 30 ngày và duy trì chỉ số tương tác cao
Cách tăng 100k like trong vòng 30 ngày và duy trì chỉ số tương tác caoCách tăng 100k like trong vòng 30 ngày và duy trì chỉ số tương tác cao
Cách tăng 100k like trong vòng 30 ngày và duy trì chỉ số tương tác caoPopping Khiem - Funky Dance Crew PTIT
 
Phân tích và thiết kế & Đảm bảo chất lượng phần mềm PTIT
Phân tích và thiết kế & Đảm bảo chất lượng phần mềm PTIT Phân tích và thiết kế & Đảm bảo chất lượng phần mềm PTIT
Phân tích và thiết kế & Đảm bảo chất lượng phần mềm PTIT Popping Khiem - Funky Dance Crew PTIT
 
Bài tập lớn Phát triển phần mềm hướng dịch vụ PTIT
Bài tập lớn Phát triển phần mềm hướng dịch vụ PTITBài tập lớn Phát triển phần mềm hướng dịch vụ PTIT
Bài tập lớn Phát triển phần mềm hướng dịch vụ PTITPopping Khiem - Funky Dance Crew PTIT
 
Ngân hàng đảm bảo chất lượng phần mềm PTIT - Chuẩn SQA
Ngân hàng đảm bảo chất lượng phần mềm PTIT - Chuẩn SQANgân hàng đảm bảo chất lượng phần mềm PTIT - Chuẩn SQA
Ngân hàng đảm bảo chất lượng phần mềm PTIT - Chuẩn SQAPopping Khiem - Funky Dance Crew PTIT
 
Giải Ngân Hàng Đảm Bảo Chất Lượng Phần Mềm PTIT - SQA
Giải Ngân Hàng Đảm Bảo Chất Lượng Phần Mềm PTIT - SQAGiải Ngân Hàng Đảm Bảo Chất Lượng Phần Mềm PTIT - SQA
Giải Ngân Hàng Đảm Bảo Chất Lượng Phần Mềm PTIT - SQAPopping Khiem - Funky Dance Crew PTIT
 

Mehr von Popping Khiem - Funky Dance Crew PTIT (20)

Java core
Java coreJava core
Java core
 
Giải Cơ sở dữ liệu phân tán - PTIT
Giải Cơ sở dữ liệu phân tán - PTITGiải Cơ sở dữ liệu phân tán - PTIT
Giải Cơ sở dữ liệu phân tán - PTIT
 
Tieng Anh chuyen nganh CNTT
Tieng Anh chuyen nganh CNTTTieng Anh chuyen nganh CNTT
Tieng Anh chuyen nganh CNTT
 
Data Structures and Algorithms Gụidance
Data Structures and Algorithms GụidanceData Structures and Algorithms Gụidance
Data Structures and Algorithms Gụidance
 
Cách tăng 100k like trong vòng 30 ngày và duy trì chỉ số tương tác cao
Cách tăng 100k like trong vòng 30 ngày và duy trì chỉ số tương tác caoCách tăng 100k like trong vòng 30 ngày và duy trì chỉ số tương tác cao
Cách tăng 100k like trong vòng 30 ngày và duy trì chỉ số tương tác cao
 
Tài liệu CCNA - Lưu hành nội bộ
Tài liệu CCNA  - Lưu hành nội bộTài liệu CCNA  - Lưu hành nội bộ
Tài liệu CCNA - Lưu hành nội bộ
 
Phân tích và thiết kế & Đảm bảo chất lượng phần mềm PTIT
Phân tích và thiết kế & Đảm bảo chất lượng phần mềm PTIT Phân tích và thiết kế & Đảm bảo chất lượng phần mềm PTIT
Phân tích và thiết kế & Đảm bảo chất lượng phần mềm PTIT
 
Chuyên Đề Công Nghệ Phần Mềm PTIT
Chuyên Đề Công Nghệ Phần Mềm PTITChuyên Đề Công Nghệ Phần Mềm PTIT
Chuyên Đề Công Nghệ Phần Mềm PTIT
 
Báo cáo Quản lý dự án phần mềm PTIT
Báo cáo Quản lý dự án phần mềm PTITBáo cáo Quản lý dự án phần mềm PTIT
Báo cáo Quản lý dự án phần mềm PTIT
 
Ngân hàng hệ thống nhúng PTIT
Ngân hàng hệ thống nhúng PTITNgân hàng hệ thống nhúng PTIT
Ngân hàng hệ thống nhúng PTIT
 
Ngân hàng hệ thống phân tán PTIT
Ngân hàng hệ thống phân tán PTITNgân hàng hệ thống phân tán PTIT
Ngân hàng hệ thống phân tán PTIT
 
Các Hệ Thống Phân Tán PTIT
Các Hệ Thống Phân Tán PTITCác Hệ Thống Phân Tán PTIT
Các Hệ Thống Phân Tán PTIT
 
Online system Desgin
Online system Desgin Online system Desgin
Online system Desgin
 
Phân tích thiết kế hệ thống thông tin PTIT
Phân tích thiết kế hệ thống thông tin PTITPhân tích thiết kế hệ thống thông tin PTIT
Phân tích thiết kế hệ thống thông tin PTIT
 
Bài tập lớn Phát triển phần mềm hướng dịch vụ PTIT
Bài tập lớn Phát triển phần mềm hướng dịch vụ PTITBài tập lớn Phát triển phần mềm hướng dịch vụ PTIT
Bài tập lớn Phát triển phần mềm hướng dịch vụ PTIT
 
15 Design pattern - Kiến trúc và thiết kế phần mềm PTIT
15 Design pattern - Kiến trúc và thiết kế phần mềm PTIT15 Design pattern - Kiến trúc và thiết kế phần mềm PTIT
15 Design pattern - Kiến trúc và thiết kế phần mềm PTIT
 
Phát triển hệ thống thương mại điện tử PTIT
Phát triển hệ thống thương mại điện tử PTITPhát triển hệ thống thương mại điện tử PTIT
Phát triển hệ thống thương mại điện tử PTIT
 
Giải ngân hàng Hệ thống nhúng PTIT - thầy Cước
Giải ngân hàng Hệ thống nhúng PTIT - thầy CướcGiải ngân hàng Hệ thống nhúng PTIT - thầy Cước
Giải ngân hàng Hệ thống nhúng PTIT - thầy Cước
 
Ngân hàng đảm bảo chất lượng phần mềm PTIT - Chuẩn SQA
Ngân hàng đảm bảo chất lượng phần mềm PTIT - Chuẩn SQANgân hàng đảm bảo chất lượng phần mềm PTIT - Chuẩn SQA
Ngân hàng đảm bảo chất lượng phần mềm PTIT - Chuẩn SQA
 
Giải Ngân Hàng Đảm Bảo Chất Lượng Phần Mềm PTIT - SQA
Giải Ngân Hàng Đảm Bảo Chất Lượng Phần Mềm PTIT - SQAGiải Ngân Hàng Đảm Bảo Chất Lượng Phần Mềm PTIT - SQA
Giải Ngân Hàng Đảm Bảo Chất Lượng Phần Mềm PTIT - SQA
 

KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU PTIT

  • 1. 1 Youtube:PoppinKhiem-Sân chơi giới trẻ PTITers HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG ************************** BÁO CÁO BÀI TẬP LỚN KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU Đề tài: Tìm hiểu và xây dựng thuật toán K-means và KNN Giảng viên hướng dẫn: (Cô) Nguyễn Quỳnh Chi
  • 2. 2 Youtube:PoppinKhiem-Sân chơi giới trẻ PTITers Phân công công việc: Thành viên Công việc Bùi Trung Hiếu Tìm hiểu codevà dataset Trần Minh Tân Tìm hiểu và xây dựng code, tài liệu Bùi Văn Đông Tìm hiểu codexây dựng tài liệu Nguyễn Như Tuấn Xây dựng tài liệu Vương Đình Hiếu Xây dựng tài liệu
  • 3. 3 Youtube:PoppinKhiem-Sân chơi giới trẻ PTITers Giới thiệu Data mining là lĩnh vực đóng vai trò quan trọng trong việc phân tích và quản lý dữ liệu. Dựa vào đó chúng ta có thể đưa ra những dự đoán cho kế hoạch tương lai. Trong thời buổi công nghệngàycàng pháttriển như hiện nay, việc áp dụng khoa học công nghệthông tin vào quá trình xử lý và phân tích dữ liệu là vô cùng cần thiết. Data mining chính là một trong số đó. Sau đâychúng ta sẽ cùng nhau tìm hiểu về Data mining.
  • 4. 4 Youtube:PoppinKhiem-Sân chơi giới trẻ PTITers Contents I. Data mining 3 1. Khái niệm 3 2. Các kỹ thuật quan trọng 3 a. Kỹ thuật phân tích phân loại (Classification Analysis) 3 b. Kỹ thuật Association Rule Learning: 4 c. Kỹ thuật phát hiện bất thường (Anomaly or Outlier Detection) 4 d. Kỹ thuật phân tích theo cụm (Clustering Analysis) 4 e. Kỹ thuật dự báo (prediction) 4 f. Kỹ thuật Sequential Patterns: 5 g. Kỹ thuật Decision Trees 5 II. K-Mean 6 1. Khái niệm: 6 2. Ý tưởng của thuật toán k-means 7 3. Một số lưu ý: 7 a. Lựa chọn số cụm: 7 b. Khởi tạo K vị trí ban đầu: 7 c. Về vấn đề tính dừng (hội tụ) 7 III. KNN (K-Nearest Neighbors) 9 1. Giới thiệu: 9 2. Khái niệm: 9 3. Thuật toán: 10 4. Ứng dụng: 10
  • 5. 5 Youtube:PoppinKhiem-Sân chơi giới trẻ PTITers I. Data mining Data Mining là một trong những thuật ngữ mới xuất hiện đầu thế kỷ 21, nó là hệ quả của sự bùng nổ Internet đạt tới đỉnh điểm. Theo một công bố của Intel vào tháng 9 năm 2013 cứ 11 giây trôi qua chúng ta có thêm 1 Petabybe dữ liệu, nó tương đương với một video chất lượng HD dài 13 năm. Và để khai phá, trích xuất nó Data Mining ra đời, dưới đây là khái niệm Data Mining là gì? 1. Khái niệm Data mining – khai phá dữ liệu là quá trình phân loại, sắp xếp các tập hợp dữ liệu lớn để xác định các mẫu và thiết lập các mối liên hệ nhằm giải quyết các vấn đề nhờ phân tích dữ liệu. Các MCU khai phá dữ liệu cho phép các doanh nghiệp có thể dự đoán được xu hướng tương lai. Quá trình khai phá dữ liệu là một quá trình phức tạp bao gồm kho dữ liệu chuyên sâu cũng như các công nghệ tính toán. Hơn nữa, Data Mining không chỉ giới hạn trong việc trích xuất dữ liệu mà còn được sử dụng để chuyển đổi, làm sạch, tích hợp dữ liệu và phân tích mẫu. Có nhiều tham số quan trọng khác nhau trong Data Mining, chẳng hạn như quy tắc kết hợp, phân loại, phân cụm và dự báo. Một số tính năng chính của Data Mining: ● Dự đoán các mẫu dựa trên xu hướng trong dữ liệu. ● Tính toán dự đoán kết quả ● Tạo thông tin phản hồi để phân tích ● Tập trung vào cơ sở dữ liệu lớn hơn. ● Phân cụm dữ liệu trực quan 2. Các kỹ thuật quan trọng Về cơ bản, Data Mining hay khai phá dữ liệu là việc xử lý, nhận biết các xu hướng từ các thông tin dữ liệu để có thể đưa ra quyết định hoặc đánh giá. Thông thường, các bạn sẽ thấy có 6 kỹ thuật cốt lõi, được sử dụng nhiều trong việc khai phá dữ liệu: a. Kỹ thuật phân tích phân loại (Classification Analysis) Kỹ thuật khai phá dữ liệu đầu tiên là kỹ thuật phân tích phân loại. Đây là kỹ thuật cho phép phân loại một đối tượng vào một hoặc một số lớp cho trước. Chúng ta thường sử dụng kỹ thuật khai thác dữ liệu này để lấy các thông tin quan trọng từ dữ liệu và siêu dữ liệu. Vì vậy, trong phân tích
  • 6. 6 Youtube:PoppinKhiem-Sân chơi giới trẻ PTITers phân loại, chúng ta cần áp dụng các thuật toán khác nhau tùy thuộc vào mục tiêu sử dụng. b. Kỹ thuật Association Rule Learning: Kỹ thuật Association Rule Learning trong khai phá dữ liệu được sử dụng để xác định mối quan hệ giữa các biến khác nhau trong cơ sở dữ liệu. Ngoài ra, nó còn được sử dụng để “giải nén” các mẫu ẩn trong dữ liệu. Association Rule rất hữu íchđể kiểm tra, dự đoán hành vi và thường được áp dụng trong ngành bán lẻ. c. Kỹ thuật phát hiện bất thường (Anomaly or Outlier Detection) Về cơ bản, kỹ thuật khai phá dữ liệu (Data Mining) này dùng để nhấn mạnh vào việc quan sát các mục dữ liệu trong bộ dữ liệu để tìm ra các tập dữ liệu không khớp với mẫu dự kiến. Bất thường ở đây có thể đề cập đến độ lệch, sự khác thường, các nhiễu và ngoại lệ. Sự bất thường được xem là khá quan trọng vì nó có thể cung cấp một số thông tin cần thiết. Nó có thể là một dữ liệu khác biệt so với mức trung bình chung trong một tập dữ liệu. Điều này chỉ ra rằng một cái gì đó khác thường đã xảy ra và các nhà phân tích dữ liệu cần chú ý. d. Kỹ thuật phân tích theo cụm (Clustering Analysis) “Cụm” có nghĩa là một nhóm các đốitượng dữ liệu. Các đốitượng tương tự nhau thì sẽ nằm trong một cụm. Kết quả là các đốitượng tương tự nhau trong cùng một nhóm. Về cơ bản, kỹ thuật khai phá dữ liệu này thường được ứng dụng để tạo hồ sơ khách hàng. Hoặc trong lĩnh vực Marketing, đây được xem là việc chia phân khúc khách hàng. e. Kỹ thuật dự báo (prediction)
  • 7. 7 Youtube:PoppinKhiem-Sân chơi giới trẻ PTITers Trong khai phá dữ liệu, kỹ thuật dự báo được ứng dụng ở một số trường hợp đặc biệt. Nó được sử dụng để khám phá mối quan hệ giữa các biến độc lập và phụ thuộc. f. Kỹ thuật Sequential Patterns: Đây là một kỹ thuật quan trọng trong khai phá dữ liệu. Kỹ thuật này giúp tìm cáchkhám phá các mẫu tương tự. g. Kỹ thuật Decision Trees Decision Trees là một thuật ngữ rất quan trọng trong khai phá dữ liệu. Nó đóng một vai trò quan trọng trong quá trình khai phá dữ liệu bởi vì mô hình này rất dễ hiểu cho người dùng. Trong kỹ thuật Decision Trees, gốc cây là một câu hỏi đơn giản có nhiều câu trả lời. Ngoài ra, mỗi câu hỏi dẫn đến bộ câu hỏi khác. Và nó sẽ giúp chúng ta xác định dữ liệu. Vì vậy, chúng ta có thể đưa ra quyết định cuối cùng nhờ vào kỹ thuật này.
  • 8. 8 Youtube:PoppinKhiem-Sân chơi giới trẻ PTITers II. K-Mean 1. Khái niệm: K-means là một thuật toán phân cụm đơn giản thuộc loại học không giám sát(tức là dữ liệu không có nhãn) và được sử dụng để giải quyết bài toán phân cụm. Ý tưởng của thuật toán phân cụm k-means là phân chia 1 bộ dữ liệu thành các cụm khác nhau. Trong đó số lượng cụm được cho trước là k. Công việc phân cụm được xác lập dựa trên nguyên lý: Các điểm dữ liệu trong cùng 1 cụm thì phải có cùng 1 số tính chất nhất định. Tức là giữa các điểm trong cùng 1 cụm phải có sự liên quan lẫn nhau. Đốivới máy tính thì các điểm trong 1 cụm đó sẽ là các điểm dữ liệu gần nhau. Thuật toán phân cụm k-means là một phương pháp được sử dụng trong phân tích tính chất cụm của dữ liệu. Nó đặc biệt được sử dụng nhiều trong khai phá dữ liệu và thống kê. Nó phân vùng dữ liệu thành k cụm khác nhau. Giải thuật này giúp chúng ta xác định được dữ liệu của chúng ta nó thực sử thuộc về nhóm nào.
  • 9. 9 Youtube:PoppinKhiem-Sân chơi giới trẻ PTITers 2. Ý tưởng của thuật toán k-means 3. Một số lưu ý: a. Lựa chọn số cụm: Chỉ việc lựa chọn số cụm k đã có thể tách thành 1 bài toán riêng. Không có 1 consố k nào là hợp lý cho tất cả các bài toán. Bạn có thể đọc hiểu tập dữ liệu của mình để xác định xem trong đó có thể có bao nhiêu cụm? Nhưng không phải lúc nào bạn cũng có thể làm thế. Cách làm duy nhất là bạn hãy thử với từng giá trị k=1,2,3,4,5,… để xem kết quả phân cụm thay đổi như thế nào. Một số nghiên cứu cho thấy việc thay đổik sẽ có hiệu quả nhưng sẽ dừng lại ở 1 con số nào đó. Như vậy bạn hoàn toàn có thể thử xem dữ liệu của mình tốt với giá trị k nào đó. b. Khởi tạo K vị trí ban đầu: Bằng cách nào đó, hãy có gắng khởi tạo k tâm cụm này phân bố đồng đều trên không gian của bộ dữ liệu. Điều đó có thể làm khi bạn có thể xác định được không gian và tính chất của dữ liệu. Nhưng ít nhất, các tâm cụm mà bạn khởi tạo cũng đừng quá gần nhau, cũng đừng trùng nhau. Còn 1 cách cuối cùng là bạn sẽ chạy thuật toán nhiều lần để lấy kết quả tốt nhất trong các lần chạy đó.Vớiđiều kiện là bạn khởi tạo tâm của k cụm ngẫu nhiên. c. Về vấn đề tính dừng (hội tụ) Đối với những trường hợp dữ liệu phức tạp, thuật toán k-means sẽ rất lâu hoặc không bao giờ hội tụ.Tức là sẽ không bao giờ xác định được tâm cụm cố định để kết thúc bài toán. Hoặc là phải chạy qua rất nhiều bước lặp. Trong những trường hợp như vậy, thay vì phải tìm được k tâm cụm cố định thì ta sẽ dừng bài toán khi sự thay đổiở một consố
  • 10. 1 0 Youtube:PoppinKhiem-Sân chơi giới trẻ PTITers chấp nhận được. Tức là giữa hai lần cập nhật tâm cụm thì chênh lệch vị trí giữa tâm cũ và mới nhỏ hơn một số delta cho phép nào đó. 4. Cài đặt a. Khởi tạo dữ liệu Khởi tạo dữ liệu dựa trên số lượng cụm nhập vào (k). Mỗi cụm random ra 500 điểm trên tọa độ không gian Oxy. Thêm tất cả các cụm vào tập dữ liệu tổng.
  • 11. 1 1 Youtube:PoppinKhiem-Sân chơi giới trẻ PTITers Khởi tạo tâm cụm (ramdom) b. Lặp cho tới khi phân cụm hoàn thành
  • 12. 1 2 Youtube:PoppinKhiem-Sân chơi giới trẻ PTITers Kết quả sau khi chạy xong.
  • 13. 1 3 Youtube:PoppinKhiem-Sân chơi giới trẻ PTITers III. KNN (K-NearestNeighbors) 1. Giới thiệu: K-Nearest Neighbors algorithm (K-NN) được sử dụng rất phổ biến trong lĩnh vực Data Mining. K-NN là phương pháp để phân lớp các đối tượng dựa vào khoảng cách gần nhất giữa đốitượng cần xếp lớp (Query point) và tất cả các đối tượng trong Training Data. Một đối tượng được phân lớp dựa vào K láng giềng của nó. K là số nguyên dương được xác định trước khi thực hiện thuật toán. Người ta thường dùng khoảng cách Euclidean để tính khoảng cách giữa các đối tượng. 2. Khái niệm: Thuật toán KNN là một trong những phương pháp học có giám sát “Supervised Learning” tức dựa trên biến mục tiêu đã được xác định trước đó, thuật toán sẽ xem xét dữ liệu đã chứa biến mục tiêu (đã phân loại) để “học”và tìm ra những biến d có thể tác động đến biến mục tiêu. KNN dựa trên giả định là những thứ tương tự hay có tính chất gần giống nhau sẽ nằm ở vị trí gần nhau, với giả định như vậy, KNN được xây dựng trên các công thức toán học phục vụ để tính khoảng cách giữa 2 điểm dữ liệu (gọi là Data points) để xem xét mức độ giống nhau của chúng. KNN còn gọi là “Lazy learning method” vì tính đơn giản của nó, có nghĩa là quá trình training không quá phức tạp để hoàn thiênhj mô hình (tất cả các dữ liệu đào tạo có thể được sử dụng để kiểm tra mô hình KNN). Điều này làm cho việc xây dựng mô hình nhanh hơn nhưng giai đoạnthử nghiệm chậm hơn và tốn
  • 14. 1 4 Youtube:PoppinKhiem-Sân chơi giới trẻ PTITers kém hơn về mặt thời gian và bộ nhớ lưu trữ, đặc biệt khi bộ dữ liệu lớn và phức tạp với nhiều biến khác nhau. Trong trường hợp xấu nhất, KNN cần thêm thời gian để quét tất cả các điểm dữ liệu và việc này sẽ cần nhiều không gian bộ nhớ hơn để lưu trữ dữ liệu. Ngoài ra KNN không cần dựa trên các tham số khác nhau để tiến hành phân loại dữ liệu, không đưa ra bất kỳ kết luận cụ thể nào giữa biến đầu vào và biến mục tiêu, mà chỉ dựa trên khoảng cách giữa data point cần phân loại với data point đã phân loại trước đó. Đây là một đặc điểm cực kỳ hữu ích vì hầu hết dữ liệu trong thế giới thực tại không thực sự tuân theo bất kỳ giả định lý thuyết nào ví dụ như phân phối chuẩn trong thống kê. 3. Thuật toán: a) Xác định giá trị tham số K (số láng giềng gần nhất) b) Tính khoảng cách giữa đốitượng cần phân lớp (Query Point) với tất cả các đốitượng trong training data (thường sử dụng khoảng các Euclidean) c) Sắp xếp khoảng cách theo thứ tự tăng dần và xác định K láng giềng gần nhất với Query Point d) Lấy tất cả các lớp của K láng giềng gần nhất đã xác định e) Dựa vào phần lớn lớp của láng giềng gần nhất để xác định lớp cho Query Point 4. Ứng dụng: Trong y tế Trong lĩnh vực ngân hàng Trong giáo dục Trong thương mại điện tử Trong kinh tế 5. Cài đặt a. Load dữ liệu từ file excel
  • 15. 1 5 Youtube:PoppinKhiem-Sân chơi giới trẻ PTITers Lấy 100 bản ghi đầu làm tập tranning Lấy các bản ghi còn lại làm tập testing b. Lặp qua từng bản ghi testing, dự đoán nhãn
  • 16. 1 6 Youtube:PoppinKhiem-Sân chơi giới trẻ PTITers Tìm k hàng xóm gần nhất với bản ghi thử Lấy nhãn đa số trong tập k hang xóm Gán nhãn cho bản ghi thử
  • 17. 1 7 Youtube:PoppinKhiem-Sân chơi giới trẻ PTITers Sau khi lặp qua tất cả bản ghi thử, tính toán tỉ lệ dự đoán chính xác.