SlideShare ist ein Scribd-Unternehmen logo
1 von 7
PCA - Principal Components
Analysis
https://rpubs.com/vudt1993/257891
Đặng Tuấn Vũ
March 12, 2017
1 Giới thiệu
Trong bài viết này tôi xin chia sẻ đến người đọc phương pháp phân tích thành phần chính
(Principal Component Analysis - PCA), đây là một phương pháp được sử dụng thường xuyên khi
các nhà phân tích thống kê phải đối mặt với những bộ số liệu với số chiều lớn (big data). Vậy
làm thể nào để giảm thiểu chiều dữ liệu mà vẫn không mất đi thông tin và giữ lại được những
thông tin cần thiết cho việc xây dựng các mô hình thì mời mọi người theo dõi bài viết dưới đây
để hiểu rõ hơn phương pháp của PCA cũng như việc ứng dụng R trong PCA đối với dữ liệu ngân
hàng.
Hình ảnh minh họa cho PCA:
Cùng là 1 chú lạc đà, tuy nhiên với các cách nhìn khác nhau (trục thông tin), chúng ta lại có
những cách thu nhận thông tin khác nhau và cho ta những kết luận khác nhau.
2 Phân tích thành phần chính.
2.1 Khái niệm.
PCA là phương pháp biến đổi giúp giảm số lượng lớn các biến có tương quan với nhau thành tập
ít các biến sao cho các biến mới tạo ra là tổ hợp tuyến tính của những biến cũ không có tương
quan lần nhau. Ví dụ, chúng ta có 100 biến ban đầu có tương quan tuyến tính với nhau, khi đó
chúng ta sử dụng phương pháp PCA xoay chiều không gian cũ thành chiều không gian mới mà ở
đó chỉ còn 5 biến không có tương quan tuyến tính mà vẫn dữ được nhiều nhất lượng thông tin từ
nhóm biến ban đầu.
2.2 Đặc tính PCA.
Một số đặc tính của PCA được kể đến như:
1. Giúp giảm số chiều dữ liệu - Giúp visualization khi dữ liệu có quá nhiều chiều thông tin.
2. Do dữ liệu ban đầu có số chiều lớn (nhiều biến) thì PCA giúp chúng ta xoay trục tọa độ
xây một trục tọa độ mới đảm bảo độ biến thiên của dữ liệu và giữ lại được nhiều thông
tin nhất mà không ảnh hưởng tới chất lượng của các mô hình dự báo. (Maximize the
variability).
3. Do PCA giúp tạo 1 hệ trục tọa độ mới nên về mặt ý nghĩa toán học, PCA giúp chúng ta
xây dựng những biến factor mới là tổ hợp tuyến tính của những biến ban đầu.
4. Trong không gian mới, có thẻ giúp chúng ta khám phá thêm những thông tin quý giá mới
khi mà tại chiều thông tin cũ những thông tin quý giá này bị che mất (Điển hình cho ví dụ
về chú lạc đà phía trên).
2.3 Mô hình PCA.
Xét tập không gian (dữ liệu) k biến, k biến này được biểu qua j thành phần chính sao cho (j < k).
Xét thành phần chính đầu tiên có dạng:
PC1=a1X1+a2X3+a4X5+...akXkPC1=a1X1+a2X3+a4X5+...akXk
Thành phần chính đầu tiên chứa đựng hầu hết thông tin từ k biến ban đầu (được hình thành là 1
tổ hợp tuyến tính của các biến ban đầu) và lúc này tiếp tục xét thành phần chính thứ 2 được biểu
diễn tuyến tính từ k biến ban đầu tuy nhiên thành phần chính thứ 2 phải không trực giao với
thành phần chính ban đầu hay (thành phần chính thứ 2 không có mối tương quan tuyến tính với
thành phần chính đầu tiên). Về lý thuyết chúng ta có thể xây dựng nhiều thành phần chính từ
nhiều biến ban đầu. Tuy nhiên chúng ta cần tìm được trục không gian sao cho ít thành phần nhất
mà có thể biểu diễn được hầu hết thông tin từ những biến ban đầu
2.4 Ví dụ về PCA.
 Dữ liệuđâuvào: “Xếphạng của các luậtsư thẩm phántại tòa án tối cao Hoa Kì”, bao gồm43
quansát và 12 biếnđịnhlượng.
Variable Description
CONT Numberof contacts of lawyerwithjudge
PREP Preparationfortrial
INTG Judicial integrity
FAMI Familiaritywithlaw
DMNR Demeanor
ORAL Soundoral rulings
DILG Diligence
WRIT Soundwrittenrulings
CFMG Case flowmanaging
PHYS Physical ability
DECI Promptdecisions
RTEN Worthyof retention
Code
data1 <- USJudgeRatings
names(data1) <- tolower(names(data1))
 Trước khi đi vào thuật toán xác định số thành phần chính trong PCA, chúng ta điểm qua
1 vài tiêu chí có sẵn để quyết định số thành phần chính cần giữ lại:
o Xác định số lượng thành phần chính qua kinh nghiệm và lý thuyết.
o Lựa chọn số lượng thành phần chính dựa vào khả năng giải thích cho toàn bộ các
biến bán đầu ( thông thưởng tỷ lệ giải thích tích lũy trên 80%)
o Lựa chọn số lượng thành phần chính bằng cách kiểm tra các giá trị riêng thông
qua ma trận tương quan giữa các biến.
 Hầu hết, cách tiếp cận để xác định số lượng thành phần chính bằng cách xác định giá trị
riêng thông qua ma trận hệ số tương quan giữa dần đến khi số lượng thành phần chính
bằng số biến). Kaiser - Harris đề xuất, thành phần chính được xác định khi giá trị riêng
có giá trị lớn hơn 1.
 Trong kiểm định Cattell Scree biểu diễn số lượng thành phần chính với giá trị riêng, được
mô tả:
Những thành phần chính mà có giá trị riêng lớn hơn 1 hoặc được giá trị riêng lớn hơn lớn hơn
đường nét đứt đỏ (thực hiện mô phỏng) thì ở đây có thể lựa chọ 1 thích phần chính cho tất cả các
biến.
 Thực hiệnphântích PCA trước hếtta cần cài đặt package psych.
Trong đó:
- r: ma trận hệ số tương quan giữa các biến.
- nfactors: Số lượng thành phần chính (mặc định bằng 1)
- rotate: phép quay trục (mặc định varimax,...)
- scores: xác định tính toán scores của các thành phần chính (mặc định F)
 Các bước thực hiệnphântích thành phầnchính với R:
Bước 1: Sử dung lược đồ Scree plot để xác định số thành phần chính của tập dữ liệu.
Code
library(psych)
fa.parallel(USJudgeRatings[,-1],
n.obs=302,
fa="pc", n.iter=100,
show.legend=FALSE,
main="Scree plot with parallel analysis")
## Parallel analysis suggests that the number of factors = NA and the
number of components = 1
 Kếtquả từ biểuđồ Scree cho thấy,với nhữngbiếnnàythì chúng ta nêngiữlại 1 thành phần
chính.
Lưu ý: Tùy thuộc vào mục đích mà ta lựa chọn số thành phần chính cho phù hợp, giải pháp trên
chỉ là 1 phương pháp đưa ra số thành phần chính gợi ý. (Số thành phần chính càng nhiều thì càng
giải thích đầy đủ hơn cho tập hợp các biến ban đầu).
Bước 2: Thực hiện phân tích PCA với 2 thành phần chính.
Code
library(psych)
pc <- principal(USJudgeRatings[,-1],
nfactors = 1,
rotate = "varimax")
pc
## Principal Components Analysis
## Call: principal(r = USJudgeRatings[, -1], nfactors = 1, rotate =
"varimax")
## Standardized loadings (pattern matrix) based upon correlation matrix
## PC1 h2 u2 com
## INTG 0.92 0.84 0.1565 1
## DMNR 0.91 0.83 0.1663 1
## DILG 0.97 0.94 0.0613 1
## CFMG 0.96 0.93 0.0720 1
## DECI 0.96 0.92 0.0763 1
## PREP 0.98 0.97 0.0299 1
## FAMI 0.98 0.95 0.0469 1
## ORAL 1.00 0.99 0.0091 1
## WRIT 0.99 0.98 0.0196 1
## PHYS 0.89 0.80 0.2013 1
## RTEN 0.99 0.97 0.0275 1
##
## PC1
## SS loadings 10.13
## Proportion Var 0.92
##
## Mean item complexity = 1
## Test of the hypothesis that 1 component is sufficient.
##
## The root mean square of the residuals (RMSR) is 0.04
## with the empirical chi square 6.21 with prob < 1
##
## Fit based upon off diagonal values = 1
 Nhận xét:
o PCA1 giải thích 92% sự biến động của các biến ban đầu, do chỉ xác định với 1
thành phần chính (với rotation = “none”) nên tổng sư giải thích cũng chính bằng
92%.
o Kết quả ở cột PC1 là giá trị trọng số (loading) của các biến ban đầu tạo nên PC1.
(Nó biến diễn mối tương quan của các biến với mỗi thành phần chính ở đây thấy
rằng các biến ban đầu là có tương quan cao với thành phần chính đầu tiên.)
o SS loading: chính giá trị trị riêng của các thành phần chính. (đây cũng là tiêu
chính để đánh giá số thành phần chính trong không gian vector.)
-Visualization kết quả phân tích.
Code
plot(pc)
2.5 Kết luận:
Trong bài viết này tôi đã giới thiệu đến người đọc tư tưởng của phân tích thành phần chính
(PCA) cũng như phương pháp để phân tích PCA với R (giảm số chiều dữ liệu).
Người đọc có thể tự thực hành với những bộ dữ liệu có sẵn trong R.
3 Tài liệu tham khảo
1. https://phvu.net/2011/10/05/pca-principal-component-analysis/
2. http://www.sthda.com/english/wiki/factominer-and-factoextra-principal-component-
analysis-visualization-r-software-and-data-mining
3. https://cran.r-
project.org/web/packages/HSAUR/vignettes/Ch_principal_components_analysis.pdf

Weitere ähnliche Inhalte

Was ist angesagt?

Giáo trình xử lý ảnh
Giáo trình xử lý ảnhGiáo trình xử lý ảnh
Giáo trình xử lý ảnh
Tùng Trần
 
Mot so ham do hoa trong c c++
Mot so ham do hoa trong c c++Mot so ham do hoa trong c c++
Mot so ham do hoa trong c c++
ANHMATTROI
 
Bài giảng bảo mật hệ thống thông tin
Bài giảng bảo mật hệ thống thông tinBài giảng bảo mật hệ thống thông tin
Bài giảng bảo mật hệ thống thông tin
Tran Tien
 
Kiến trúc máy tính và hợp ngữ bài 02
Kiến trúc máy tính và hợp ngữ bài 02Kiến trúc máy tính và hợp ngữ bài 02
Kiến trúc máy tính và hợp ngữ bài 02
Nhóc Nhóc
 
Hệ phương trình vi phân tuyến tính
Hệ phương trình vi phân tuyến tínhHệ phương trình vi phân tuyến tính
Hệ phương trình vi phân tuyến tính
Thế Giới Tinh Hoa
 
Xử lý ảnh PTIT
Xử lý ảnh PTITXử lý ảnh PTIT
Xử lý ảnh PTIT
Tran Tien
 

Was ist angesagt? (20)

CÔNG THỨC TÍCH PHÂN CAUCHY và ứng dụng trong giải tích phức.pptx
CÔNG THỨC TÍCH PHÂN CAUCHY và ứng dụng trong giải tích phức.pptxCÔNG THỨC TÍCH PHÂN CAUCHY và ứng dụng trong giải tích phức.pptx
CÔNG THỨC TÍCH PHÂN CAUCHY và ứng dụng trong giải tích phức.pptx
 
Giáo trình lập trình GDI+
Giáo trình lập trình GDI+Giáo trình lập trình GDI+
Giáo trình lập trình GDI+
 
Nhận dạng mặt người bằng thuật toán PCA trên Matlab
Nhận dạng mặt người bằng thuật toán PCA trên MatlabNhận dạng mặt người bằng thuật toán PCA trên Matlab
Nhận dạng mặt người bằng thuật toán PCA trên Matlab
 
Bài Giảng Đại Số Tuyến Tính - ĐH Thăng Long
Bài Giảng Đại Số Tuyến Tính - ĐH Thăng LongBài Giảng Đại Số Tuyến Tính - ĐH Thăng Long
Bài Giảng Đại Số Tuyến Tính - ĐH Thăng Long
 
Giáo trình xử lý ảnh
Giáo trình xử lý ảnhGiáo trình xử lý ảnh
Giáo trình xử lý ảnh
 
Mot so ham do hoa trong c c++
Mot so ham do hoa trong c c++Mot so ham do hoa trong c c++
Mot so ham do hoa trong c c++
 
Đề tài: Xây dựng phần mềm quản lý quán cà phê, HOT, 9đ
Đề tài: Xây dựng phần mềm quản lý quán cà phê, HOT, 9đĐề tài: Xây dựng phần mềm quản lý quán cà phê, HOT, 9đ
Đề tài: Xây dựng phần mềm quản lý quán cà phê, HOT, 9đ
 
Chuong 2 dai so tuyen tinh 2
Chuong 2   dai so tuyen tinh 2Chuong 2   dai so tuyen tinh 2
Chuong 2 dai so tuyen tinh 2
 
Hướng dẫn giải bài tập Đại Số Tuyến Tính
Hướng dẫn giải bài tập Đại Số Tuyến TínhHướng dẫn giải bài tập Đại Số Tuyến Tính
Hướng dẫn giải bài tập Đại Số Tuyến Tính
 
Mô hình hóa dữ liệu mức quan niệm
Mô hình hóa dữ liệu mức quan niệm Mô hình hóa dữ liệu mức quan niệm
Mô hình hóa dữ liệu mức quan niệm
 
Thủy vân số
Thủy vân số Thủy vân số
Thủy vân số
 
báo cáo hệ quản trị cơ sỡ dữ liệu hệ thống bán cà phê
báo cáo hệ quản trị cơ sỡ dữ liệu hệ thống bán cà phêbáo cáo hệ quản trị cơ sỡ dữ liệu hệ thống bán cà phê
báo cáo hệ quản trị cơ sỡ dữ liệu hệ thống bán cà phê
 
Bài giảng bảo mật hệ thống thông tin
Bài giảng bảo mật hệ thống thông tinBài giảng bảo mật hệ thống thông tin
Bài giảng bảo mật hệ thống thông tin
 
Kiến trúc máy tính và hợp ngữ bài 02
Kiến trúc máy tính và hợp ngữ bài 02Kiến trúc máy tính và hợp ngữ bài 02
Kiến trúc máy tính và hợp ngữ bài 02
 
Lap trinh huong doi tuong
Lap trinh huong doi tuongLap trinh huong doi tuong
Lap trinh huong doi tuong
 
báo cáo bài tập lớn phân tích thiết kế hệ thống quản lý khách sạn
báo cáo bài tập lớn phân tích thiết kế hệ thống quản lý khách sạnbáo cáo bài tập lớn phân tích thiết kế hệ thống quản lý khách sạn
báo cáo bài tập lớn phân tích thiết kế hệ thống quản lý khách sạn
 
Hệ phương trình vi phân tuyến tính
Hệ phương trình vi phân tuyến tínhHệ phương trình vi phân tuyến tính
Hệ phương trình vi phân tuyến tính
 
Do an xay_dung_website_thuong_mai_dien_tu
Do an xay_dung_website_thuong_mai_dien_tuDo an xay_dung_website_thuong_mai_dien_tu
Do an xay_dung_website_thuong_mai_dien_tu
 
Xử lý ảnh PTIT
Xử lý ảnh PTITXử lý ảnh PTIT
Xử lý ảnh PTIT
 
Phát triển hệ thống thương mại điện tử PTIT
Phát triển hệ thống thương mại điện tử PTITPhát triển hệ thống thương mại điện tử PTIT
Phát triển hệ thống thương mại điện tử PTIT
 

Ähnlich wie Pca principal componentsanalysis

Ctdl lab07-cac thuat-toan_sap_xep
Ctdl lab07-cac thuat-toan_sap_xepCtdl lab07-cac thuat-toan_sap_xep
Ctdl lab07-cac thuat-toan_sap_xep
Nguyễn Ngọc Hà
 
Intro to r_vietnamese ( Viết thuê luận văn tốt nghiệp toàn LỪA ĐẢO)
Intro to r_vietnamese ( Viết thuê luận văn tốt nghiệp  toàn LỪA ĐẢO)Intro to r_vietnamese ( Viết thuê luận văn tốt nghiệp  toàn LỪA ĐẢO)
Intro to r_vietnamese ( Viết thuê luận văn tốt nghiệp toàn LỪA ĐẢO)
Cậu Ba
 
Intro to r_vietnamese
Intro to r_vietnameseIntro to r_vietnamese
Intro to r_vietnamese
Phi Phi
 
Intro to r_vietnamese
Intro to r_vietnameseIntro to r_vietnamese
Intro to r_vietnamese
Phi Phi
 
Chap1 new (tran dai's conflicted copy 2013 04-02)
Chap1 new (tran dai's conflicted copy 2013 04-02)Chap1 new (tran dai's conflicted copy 2013 04-02)
Chap1 new (tran dai's conflicted copy 2013 04-02)
Loc Tran
 
ThiếT Kế Và đáNh Giá ThuậT ToáN
ThiếT Kế Và đáNh Giá ThuậT ToáNThiếT Kế Và đáNh Giá ThuậT ToáN
ThiếT Kế Và đáNh Giá ThuậT ToáN
guest717ec2
 
Bai toan va thuat toan
Bai toan va thuat toanBai toan va thuat toan
Bai toan va thuat toan
Hữu Duy Duy
 

Ähnlich wie Pca principal componentsanalysis (20)

BTL_L07_NHÓM-6_Đề-Tài-11-ppt.pptx
BTL_L07_NHÓM-6_Đề-Tài-11-ppt.pptxBTL_L07_NHÓM-6_Đề-Tài-11-ppt.pptx
BTL_L07_NHÓM-6_Đề-Tài-11-ppt.pptx
 
TRNG_DI_HC_NHA_TRANG.pdf
TRNG_DI_HC_NHA_TRANG.pdfTRNG_DI_HC_NHA_TRANG.pdf
TRNG_DI_HC_NHA_TRANG.pdf
 
Ctdl lab07-cac thuat-toan_sap_xep
Ctdl lab07-cac thuat-toan_sap_xepCtdl lab07-cac thuat-toan_sap_xep
Ctdl lab07-cac thuat-toan_sap_xep
 
Intro to r_vietnamese - Sưu tầm của thầy Nguyễn Văn Ninh
Intro to r_vietnamese - Sưu tầm của thầy Nguyễn Văn NinhIntro to r_vietnamese - Sưu tầm của thầy Nguyễn Văn Ninh
Intro to r_vietnamese - Sưu tầm của thầy Nguyễn Văn Ninh
 
Intro to r_vietnamese
Intro to r_vietnameseIntro to r_vietnamese
Intro to r_vietnamese
 
Intro to r_vietnamese ( Viết thuê luận văn tốt nghiệp toàn LỪA ĐẢO)
Intro to r_vietnamese ( Viết thuê luận văn tốt nghiệp  toàn LỪA ĐẢO)Intro to r_vietnamese ( Viết thuê luận văn tốt nghiệp  toàn LỪA ĐẢO)
Intro to r_vietnamese ( Viết thuê luận văn tốt nghiệp toàn LỪA ĐẢO)
 
Intro to r_vietnamese
Intro to r_vietnameseIntro to r_vietnamese
Intro to r_vietnamese
 
Intro to r_vietnamese
Intro to r_vietnameseIntro to r_vietnamese
Intro to r_vietnamese
 
Intro to r_vietnamese
Intro to r_vietnameseIntro to r_vietnamese
Intro to r_vietnamese
 
Giáo trình Phân tích và thiết kế giải thuật - CHAP 1
Giáo trình Phân tích và thiết kế giải thuật - CHAP 1Giáo trình Phân tích và thiết kế giải thuật - CHAP 1
Giáo trình Phân tích và thiết kế giải thuật - CHAP 1
 
Chap1 new (tran dai's conflicted copy 2013 04-02)
Chap1 new (tran dai's conflicted copy 2013 04-02)Chap1 new (tran dai's conflicted copy 2013 04-02)
Chap1 new (tran dai's conflicted copy 2013 04-02)
 
Gtga trị
Gtga trịGtga trị
Gtga trị
 
Chuong 5 toi_uu_hoa_van_tin
Chuong 5 toi_uu_hoa_van_tinChuong 5 toi_uu_hoa_van_tin
Chuong 5 toi_uu_hoa_van_tin
 
Giáo trình excel nâng cao tud
Giáo trình excel nâng cao   tudGiáo trình excel nâng cao   tud
Giáo trình excel nâng cao tud
 
Chuong 05 mang, con tro, tham chieu
Chuong 05 mang, con tro, tham chieuChuong 05 mang, con tro, tham chieu
Chuong 05 mang, con tro, tham chieu
 
Bài tập CTDL và GT 3
Bài tập CTDL và GT 3Bài tập CTDL và GT 3
Bài tập CTDL và GT 3
 
ThiếT Kế Và đáNh Giá ThuậT ToáN
ThiếT Kế Và đáNh Giá ThuậT ToáNThiếT Kế Và đáNh Giá ThuậT ToáN
ThiếT Kế Và đáNh Giá ThuậT ToáN
 
Ung dung excel trong phan tich hoi quy va tuong quan
Ung dung excel trong phan tich hoi quy va tuong quanUng dung excel trong phan tich hoi quy va tuong quan
Ung dung excel trong phan tich hoi quy va tuong quan
 
Bai toan va thuat toan
Bai toan va thuat toanBai toan va thuat toan
Bai toan va thuat toan
 
Cơ sở dữ liệu PTIT slide 5
Cơ sở dữ liệu PTIT slide 5 Cơ sở dữ liệu PTIT slide 5
Cơ sở dữ liệu PTIT slide 5
 

Kürzlich hochgeladen

xemsomenh.com-Vòng Tràng Sinh - Cách An 12 Sao Và Ý Nghĩa Từng Sao.pdf
xemsomenh.com-Vòng Tràng Sinh - Cách An 12 Sao Và Ý Nghĩa Từng Sao.pdfxemsomenh.com-Vòng Tràng Sinh - Cách An 12 Sao Và Ý Nghĩa Từng Sao.pdf
xemsomenh.com-Vòng Tràng Sinh - Cách An 12 Sao Và Ý Nghĩa Từng Sao.pdf
Xem Số Mệnh
 
C6. Van de dan toc va ton giao ....pdf . Chu nghia xa hoi
C6. Van de dan toc va ton giao ....pdf . Chu nghia xa hoiC6. Van de dan toc va ton giao ....pdf . Chu nghia xa hoi
C6. Van de dan toc va ton giao ....pdf . Chu nghia xa hoi
dnghia2002
 
26 Truyện Ngắn Sơn Nam (Sơn Nam) thuviensach.vn.pdf
26 Truyện Ngắn Sơn Nam (Sơn Nam) thuviensach.vn.pdf26 Truyện Ngắn Sơn Nam (Sơn Nam) thuviensach.vn.pdf
26 Truyện Ngắn Sơn Nam (Sơn Nam) thuviensach.vn.pdf
ltbdieu
 
SD-05_Xây dựng website bán váy Lolita Alice - Phùng Thị Thúy Hiền PH 2 7 8 6 ...
SD-05_Xây dựng website bán váy Lolita Alice - Phùng Thị Thúy Hiền PH 2 7 8 6 ...SD-05_Xây dựng website bán váy Lolita Alice - Phùng Thị Thúy Hiền PH 2 7 8 6 ...
SD-05_Xây dựng website bán váy Lolita Alice - Phùng Thị Thúy Hiền PH 2 7 8 6 ...
ChuThNgnFEFPLHN
 
bài tập lớn môn kiến trúc máy tính và hệ điều hành
bài tập lớn môn kiến trúc máy tính và hệ điều hànhbài tập lớn môn kiến trúc máy tính và hệ điều hành
bài tập lớn môn kiến trúc máy tính và hệ điều hành
dangdinhkien2k4
 

Kürzlich hochgeladen (20)

xemsomenh.com-Vòng Tràng Sinh - Cách An 12 Sao Và Ý Nghĩa Từng Sao.pdf
xemsomenh.com-Vòng Tràng Sinh - Cách An 12 Sao Và Ý Nghĩa Từng Sao.pdfxemsomenh.com-Vòng Tràng Sinh - Cách An 12 Sao Và Ý Nghĩa Từng Sao.pdf
xemsomenh.com-Vòng Tràng Sinh - Cách An 12 Sao Và Ý Nghĩa Từng Sao.pdf
 
C6. Van de dan toc va ton giao ....pdf . Chu nghia xa hoi
C6. Van de dan toc va ton giao ....pdf . Chu nghia xa hoiC6. Van de dan toc va ton giao ....pdf . Chu nghia xa hoi
C6. Van de dan toc va ton giao ....pdf . Chu nghia xa hoi
 
Giáo trình nhập môn lập trình - Đặng Bình Phương
Giáo trình nhập môn lập trình - Đặng Bình PhươngGiáo trình nhập môn lập trình - Đặng Bình Phương
Giáo trình nhập môn lập trình - Đặng Bình Phương
 
Danh sách sinh viên tốt nghiệp Đại học - Cao đẳng Trường Đại học Phú Yên năm ...
Danh sách sinh viên tốt nghiệp Đại học - Cao đẳng Trường Đại học Phú Yên năm ...Danh sách sinh viên tốt nghiệp Đại học - Cao đẳng Trường Đại học Phú Yên năm ...
Danh sách sinh viên tốt nghiệp Đại học - Cao đẳng Trường Đại học Phú Yên năm ...
 
xemsomenh.com-Vòng Lộc Tồn - Vòng Bác Sĩ và Cách An Trong Vòng Lộc Tồn.pdf
xemsomenh.com-Vòng Lộc Tồn - Vòng Bác Sĩ và Cách An Trong Vòng Lộc Tồn.pdfxemsomenh.com-Vòng Lộc Tồn - Vòng Bác Sĩ và Cách An Trong Vòng Lộc Tồn.pdf
xemsomenh.com-Vòng Lộc Tồn - Vòng Bác Sĩ và Cách An Trong Vòng Lộc Tồn.pdf
 
Bài giảng môn Truyền thông đa phương tiện
Bài giảng môn Truyền thông đa phương tiệnBài giảng môn Truyền thông đa phương tiện
Bài giảng môn Truyền thông đa phương tiện
 
TUYỂN TẬP 50 ĐỀ LUYỆN THI TUYỂN SINH LỚP 10 THPT MÔN TOÁN NĂM 2024 CÓ LỜI GIẢ...
TUYỂN TẬP 50 ĐỀ LUYỆN THI TUYỂN SINH LỚP 10 THPT MÔN TOÁN NĂM 2024 CÓ LỜI GIẢ...TUYỂN TẬP 50 ĐỀ LUYỆN THI TUYỂN SINH LỚP 10 THPT MÔN TOÁN NĂM 2024 CÓ LỜI GIẢ...
TUYỂN TẬP 50 ĐỀ LUYỆN THI TUYỂN SINH LỚP 10 THPT MÔN TOÁN NĂM 2024 CÓ LỜI GIẢ...
 
xemsomenh.com-Vòng Thái Tuế và Ý Nghĩa Các Sao Tại Cung Mệnh.pdf
xemsomenh.com-Vòng Thái Tuế và Ý Nghĩa Các Sao Tại Cung Mệnh.pdfxemsomenh.com-Vòng Thái Tuế và Ý Nghĩa Các Sao Tại Cung Mệnh.pdf
xemsomenh.com-Vòng Thái Tuế và Ý Nghĩa Các Sao Tại Cung Mệnh.pdf
 
Trắc nghiệm CHƯƠNG 5 môn Chủ nghĩa xã hội
Trắc nghiệm CHƯƠNG 5 môn Chủ nghĩa xã hộiTrắc nghiệm CHƯƠNG 5 môn Chủ nghĩa xã hội
Trắc nghiệm CHƯƠNG 5 môn Chủ nghĩa xã hội
 
20 ĐỀ DỰ ĐOÁN - PHÁT TRIỂN ĐỀ MINH HỌA BGD KỲ THI TỐT NGHIỆP THPT NĂM 2024 MÔ...
20 ĐỀ DỰ ĐOÁN - PHÁT TRIỂN ĐỀ MINH HỌA BGD KỲ THI TỐT NGHIỆP THPT NĂM 2024 MÔ...20 ĐỀ DỰ ĐOÁN - PHÁT TRIỂN ĐỀ MINH HỌA BGD KỲ THI TỐT NGHIỆP THPT NĂM 2024 MÔ...
20 ĐỀ DỰ ĐOÁN - PHÁT TRIỂN ĐỀ MINH HỌA BGD KỲ THI TỐT NGHIỆP THPT NĂM 2024 MÔ...
 
60 CÂU HỎI ÔN TẬP LÝ LUẬN CHÍNH TRỊ NĂM 2024.docx
60 CÂU HỎI ÔN TẬP LÝ LUẬN CHÍNH TRỊ NĂM 2024.docx60 CÂU HỎI ÔN TẬP LÝ LUẬN CHÍNH TRỊ NĂM 2024.docx
60 CÂU HỎI ÔN TẬP LÝ LUẬN CHÍNH TRỊ NĂM 2024.docx
 
26 Truyện Ngắn Sơn Nam (Sơn Nam) thuviensach.vn.pdf
26 Truyện Ngắn Sơn Nam (Sơn Nam) thuviensach.vn.pdf26 Truyện Ngắn Sơn Nam (Sơn Nam) thuviensach.vn.pdf
26 Truyện Ngắn Sơn Nam (Sơn Nam) thuviensach.vn.pdf
 
Kiến thức cơ bản về tư duy số - VTC Net Viet
Kiến thức cơ bản về tư duy số - VTC Net VietKiến thức cơ bản về tư duy số - VTC Net Viet
Kiến thức cơ bản về tư duy số - VTC Net Viet
 
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
30 ĐỀ PHÁT TRIỂN THEO CẤU TRÚC ĐỀ MINH HỌA BGD NGÀY 22-3-2024 KỲ THI TỐT NGHI...
 
SD-05_Xây dựng website bán váy Lolita Alice - Phùng Thị Thúy Hiền PH 2 7 8 6 ...
SD-05_Xây dựng website bán váy Lolita Alice - Phùng Thị Thúy Hiền PH 2 7 8 6 ...SD-05_Xây dựng website bán váy Lolita Alice - Phùng Thị Thúy Hiền PH 2 7 8 6 ...
SD-05_Xây dựng website bán váy Lolita Alice - Phùng Thị Thúy Hiền PH 2 7 8 6 ...
 
Bài học phòng cháy chữa cháy - PCCC tại tòa nhà
Bài học phòng cháy chữa cháy - PCCC tại tòa nhàBài học phòng cháy chữa cháy - PCCC tại tòa nhà
Bài học phòng cháy chữa cháy - PCCC tại tòa nhà
 
bài tập lớn môn kiến trúc máy tính và hệ điều hành
bài tập lớn môn kiến trúc máy tính và hệ điều hànhbài tập lớn môn kiến trúc máy tính và hệ điều hành
bài tập lớn môn kiến trúc máy tính và hệ điều hành
 
các nội dung phòng chống xâm hại tình dục ở trẻ em
các nội dung phòng chống xâm hại tình dục ở trẻ emcác nội dung phòng chống xâm hại tình dục ở trẻ em
các nội dung phòng chống xâm hại tình dục ở trẻ em
 
bài thi bảo vệ nền tảng tư tưởng của Đảng.docx
bài thi bảo vệ nền tảng tư tưởng của Đảng.docxbài thi bảo vệ nền tảng tư tưởng của Đảng.docx
bài thi bảo vệ nền tảng tư tưởng của Đảng.docx
 
Giới Thiệu Về Kabala | Hành Trình Thấu Hiểu Bản Thân | Kabala.vn
Giới Thiệu Về Kabala | Hành Trình Thấu Hiểu Bản Thân | Kabala.vnGiới Thiệu Về Kabala | Hành Trình Thấu Hiểu Bản Thân | Kabala.vn
Giới Thiệu Về Kabala | Hành Trình Thấu Hiểu Bản Thân | Kabala.vn
 

Pca principal componentsanalysis

  • 1. PCA - Principal Components Analysis https://rpubs.com/vudt1993/257891 Đặng Tuấn Vũ March 12, 2017 1 Giới thiệu Trong bài viết này tôi xin chia sẻ đến người đọc phương pháp phân tích thành phần chính (Principal Component Analysis - PCA), đây là một phương pháp được sử dụng thường xuyên khi các nhà phân tích thống kê phải đối mặt với những bộ số liệu với số chiều lớn (big data). Vậy làm thể nào để giảm thiểu chiều dữ liệu mà vẫn không mất đi thông tin và giữ lại được những thông tin cần thiết cho việc xây dựng các mô hình thì mời mọi người theo dõi bài viết dưới đây để hiểu rõ hơn phương pháp của PCA cũng như việc ứng dụng R trong PCA đối với dữ liệu ngân hàng. Hình ảnh minh họa cho PCA: Cùng là 1 chú lạc đà, tuy nhiên với các cách nhìn khác nhau (trục thông tin), chúng ta lại có những cách thu nhận thông tin khác nhau và cho ta những kết luận khác nhau.
  • 2. 2 Phân tích thành phần chính. 2.1 Khái niệm. PCA là phương pháp biến đổi giúp giảm số lượng lớn các biến có tương quan với nhau thành tập ít các biến sao cho các biến mới tạo ra là tổ hợp tuyến tính của những biến cũ không có tương quan lần nhau. Ví dụ, chúng ta có 100 biến ban đầu có tương quan tuyến tính với nhau, khi đó chúng ta sử dụng phương pháp PCA xoay chiều không gian cũ thành chiều không gian mới mà ở đó chỉ còn 5 biến không có tương quan tuyến tính mà vẫn dữ được nhiều nhất lượng thông tin từ nhóm biến ban đầu. 2.2 Đặc tính PCA. Một số đặc tính của PCA được kể đến như: 1. Giúp giảm số chiều dữ liệu - Giúp visualization khi dữ liệu có quá nhiều chiều thông tin. 2. Do dữ liệu ban đầu có số chiều lớn (nhiều biến) thì PCA giúp chúng ta xoay trục tọa độ xây một trục tọa độ mới đảm bảo độ biến thiên của dữ liệu và giữ lại được nhiều thông tin nhất mà không ảnh hưởng tới chất lượng của các mô hình dự báo. (Maximize the variability). 3. Do PCA giúp tạo 1 hệ trục tọa độ mới nên về mặt ý nghĩa toán học, PCA giúp chúng ta xây dựng những biến factor mới là tổ hợp tuyến tính của những biến ban đầu. 4. Trong không gian mới, có thẻ giúp chúng ta khám phá thêm những thông tin quý giá mới khi mà tại chiều thông tin cũ những thông tin quý giá này bị che mất (Điển hình cho ví dụ về chú lạc đà phía trên). 2.3 Mô hình PCA. Xét tập không gian (dữ liệu) k biến, k biến này được biểu qua j thành phần chính sao cho (j < k). Xét thành phần chính đầu tiên có dạng: PC1=a1X1+a2X3+a4X5+...akXkPC1=a1X1+a2X3+a4X5+...akXk Thành phần chính đầu tiên chứa đựng hầu hết thông tin từ k biến ban đầu (được hình thành là 1 tổ hợp tuyến tính của các biến ban đầu) và lúc này tiếp tục xét thành phần chính thứ 2 được biểu diễn tuyến tính từ k biến ban đầu tuy nhiên thành phần chính thứ 2 phải không trực giao với thành phần chính ban đầu hay (thành phần chính thứ 2 không có mối tương quan tuyến tính với thành phần chính đầu tiên). Về lý thuyết chúng ta có thể xây dựng nhiều thành phần chính từ nhiều biến ban đầu. Tuy nhiên chúng ta cần tìm được trục không gian sao cho ít thành phần nhất mà có thể biểu diễn được hầu hết thông tin từ những biến ban đầu
  • 3. 2.4 Ví dụ về PCA.  Dữ liệuđâuvào: “Xếphạng của các luậtsư thẩm phántại tòa án tối cao Hoa Kì”, bao gồm43 quansát và 12 biếnđịnhlượng. Variable Description CONT Numberof contacts of lawyerwithjudge PREP Preparationfortrial INTG Judicial integrity FAMI Familiaritywithlaw DMNR Demeanor ORAL Soundoral rulings DILG Diligence WRIT Soundwrittenrulings CFMG Case flowmanaging PHYS Physical ability DECI Promptdecisions RTEN Worthyof retention Code data1 <- USJudgeRatings names(data1) <- tolower(names(data1))  Trước khi đi vào thuật toán xác định số thành phần chính trong PCA, chúng ta điểm qua 1 vài tiêu chí có sẵn để quyết định số thành phần chính cần giữ lại: o Xác định số lượng thành phần chính qua kinh nghiệm và lý thuyết. o Lựa chọn số lượng thành phần chính dựa vào khả năng giải thích cho toàn bộ các biến bán đầu ( thông thưởng tỷ lệ giải thích tích lũy trên 80%) o Lựa chọn số lượng thành phần chính bằng cách kiểm tra các giá trị riêng thông qua ma trận tương quan giữa các biến.  Hầu hết, cách tiếp cận để xác định số lượng thành phần chính bằng cách xác định giá trị riêng thông qua ma trận hệ số tương quan giữa dần đến khi số lượng thành phần chính bằng số biến). Kaiser - Harris đề xuất, thành phần chính được xác định khi giá trị riêng có giá trị lớn hơn 1.
  • 4.  Trong kiểm định Cattell Scree biểu diễn số lượng thành phần chính với giá trị riêng, được mô tả: Những thành phần chính mà có giá trị riêng lớn hơn 1 hoặc được giá trị riêng lớn hơn lớn hơn đường nét đứt đỏ (thực hiện mô phỏng) thì ở đây có thể lựa chọ 1 thích phần chính cho tất cả các biến.  Thực hiệnphântích PCA trước hếtta cần cài đặt package psych. Trong đó: - r: ma trận hệ số tương quan giữa các biến. - nfactors: Số lượng thành phần chính (mặc định bằng 1) - rotate: phép quay trục (mặc định varimax,...) - scores: xác định tính toán scores của các thành phần chính (mặc định F)  Các bước thực hiệnphântích thành phầnchính với R: Bước 1: Sử dung lược đồ Scree plot để xác định số thành phần chính của tập dữ liệu. Code library(psych) fa.parallel(USJudgeRatings[,-1], n.obs=302, fa="pc", n.iter=100, show.legend=FALSE, main="Scree plot with parallel analysis")
  • 5. ## Parallel analysis suggests that the number of factors = NA and the number of components = 1  Kếtquả từ biểuđồ Scree cho thấy,với nhữngbiếnnàythì chúng ta nêngiữlại 1 thành phần chính. Lưu ý: Tùy thuộc vào mục đích mà ta lựa chọn số thành phần chính cho phù hợp, giải pháp trên chỉ là 1 phương pháp đưa ra số thành phần chính gợi ý. (Số thành phần chính càng nhiều thì càng giải thích đầy đủ hơn cho tập hợp các biến ban đầu). Bước 2: Thực hiện phân tích PCA với 2 thành phần chính. Code library(psych) pc <- principal(USJudgeRatings[,-1], nfactors = 1, rotate = "varimax") pc ## Principal Components Analysis ## Call: principal(r = USJudgeRatings[, -1], nfactors = 1, rotate = "varimax") ## Standardized loadings (pattern matrix) based upon correlation matrix
  • 6. ## PC1 h2 u2 com ## INTG 0.92 0.84 0.1565 1 ## DMNR 0.91 0.83 0.1663 1 ## DILG 0.97 0.94 0.0613 1 ## CFMG 0.96 0.93 0.0720 1 ## DECI 0.96 0.92 0.0763 1 ## PREP 0.98 0.97 0.0299 1 ## FAMI 0.98 0.95 0.0469 1 ## ORAL 1.00 0.99 0.0091 1 ## WRIT 0.99 0.98 0.0196 1 ## PHYS 0.89 0.80 0.2013 1 ## RTEN 0.99 0.97 0.0275 1 ## ## PC1 ## SS loadings 10.13 ## Proportion Var 0.92 ## ## Mean item complexity = 1 ## Test of the hypothesis that 1 component is sufficient. ## ## The root mean square of the residuals (RMSR) is 0.04 ## with the empirical chi square 6.21 with prob < 1 ## ## Fit based upon off diagonal values = 1  Nhận xét: o PCA1 giải thích 92% sự biến động của các biến ban đầu, do chỉ xác định với 1 thành phần chính (với rotation = “none”) nên tổng sư giải thích cũng chính bằng 92%. o Kết quả ở cột PC1 là giá trị trọng số (loading) của các biến ban đầu tạo nên PC1. (Nó biến diễn mối tương quan của các biến với mỗi thành phần chính ở đây thấy rằng các biến ban đầu là có tương quan cao với thành phần chính đầu tiên.) o SS loading: chính giá trị trị riêng của các thành phần chính. (đây cũng là tiêu chính để đánh giá số thành phần chính trong không gian vector.) -Visualization kết quả phân tích. Code plot(pc)
  • 7. 2.5 Kết luận: Trong bài viết này tôi đã giới thiệu đến người đọc tư tưởng của phân tích thành phần chính (PCA) cũng như phương pháp để phân tích PCA với R (giảm số chiều dữ liệu). Người đọc có thể tự thực hành với những bộ dữ liệu có sẵn trong R. 3 Tài liệu tham khảo 1. https://phvu.net/2011/10/05/pca-principal-component-analysis/ 2. http://www.sthda.com/english/wiki/factominer-and-factoextra-principal-component- analysis-visualization-r-software-and-data-mining 3. https://cran.r- project.org/web/packages/HSAUR/vignettes/Ch_principal_components_analysis.pdf