SlideShare a Scribd company logo
1 of 23
Download to read offline
國立臺北護理健康大學 NTUNHS
Regression Analysis
Orozco Hsu
2022-11-21
1
About me
• Education
• NCU (MIS)、NCCU (CS)
• Work Experience
• Telecom big data Innovation
• AI projects
• Retail marketing technology
• User Group
• TW Spark User Group
• TW Hadoop User Group
• Taiwan Data Engineer Association Director
• Research
• Big Data/ ML/ AIOT/ AI Columnist
2
Tutorial
Content
3
線性迴歸演算法
作業
介紹迴歸分析
Code
• Download code
• https://github.com/orozcohsu/ntunhs_2022_02.git
• Folder
• 20221121
4
建立環境
• 切換執行環境
5
建立環境
• 安裝套件
• pip install statsmodels
6
建立環境
• 開啟 jupyterlab
7
迴歸分析
• 常見的迴歸分析
• 預測:
• 探討哪些臨床危險因子的組合(每天抽煙幾包、嚼檳榔幾粒、刷牙幾次)可以準確預
測牙周病的嚴重程度(牙周囊袋多少mm)?
• 解釋:
• 探討這幾個臨床因子中,哪幾個對於預測牙周病嚴重程度特別有影響力? (查看變數
的p-value)
8
迴歸分析
• 迴歸分析可以分為簡單迴歸和複迴歸(多元迴歸) ,應變數為數值
• 簡單迴歸是用來探討 1 個應變數和 1 個自變數的關係,複迴歸(多元迴歸)是用來探
討 1 個應變數和多個自變數的關係
• 簡單迴歸表示式:
• Y = β 0 +β 1 X 1 + ε
β 0 為常數,β 1 為迴歸係數,ε 為誤差
• 複迴歸表示式:
• Y = β 0 + β 1 X 1 +β 2 X 2 +....+ βnXn + ε
β 0 為常數,β 1 ..... βn 為迴歸係數,ε 為誤差
9
若應變數與時間週期相關時,建議採用時間序列模型
迴歸分析
• 使用迴歸分析前,必須要確認資料是否符合迴歸分析的基本統計假設,否則,
當資料違反迴歸分析的基本統計假設時,會導致統計推論偏誤的發生 (有母
數檢定)
• 迴歸分析經常用在解釋和預測二大方面,
• 解釋方面: 從取得的樣本,計算出迴歸的方程式,再透過迴歸的方程式得知每個自變數
對應變數的影響力(貢獻),當然也可以找出最大的影響變數,以進行統計上和管理意涵
的解釋
• 預測方面:由於迴歸方程式是線性關係,我們可以估算自變數的變動,會帶給應變數的
多大改變,因此,我們使用迴歸分析來預測未來的變動
10
迴歸分析
• 線性關係
• 應變數和自變數之間的關係必須是線性,也就是說,依變數與自變數存
在著相當固定比率的關係,若是發現依變數與自變數呈現非線性關係時,
可以透過轉換(transform)成線性關係,再進行迴歸分析
• 若建模資料集有經過自變數轉換,進行新數據預測時,也要以同樣手法
進行轉換
• 常見的自變數轉換方法有:
11
12
轉換前
轉換後
迴歸分析
• 常態性(normality)
• 若是資料呈現常態分配 (normal distribution),則誤差項也會呈現同樣
的分配
• 當樣本數夠大時,檢查的方式是使用簡單的 Histogram (直方圖)
• 若是樣本數較小時,檢查的方式是使用直方圖或Q-Q圖
13
在常態機率圖中,橫軸為理論分位數,縱軸為樣本分位數,若資料點大
致落在虛擬的常態直線附近,則可認為該資料分配近似於常態分配
迴歸分析
• 誤差項的獨立性
• 自變數的誤差項,相互之間應該是獨立的,
也就是誤差項與誤差項之間没有相互關係
• 在估計迴歸參數時,會降低統計的檢定力,
我們可以藉由殘差分析來檢查,尤其是與
時間序列和事件相關的資料,特別需要注
意去處理
14
迴歸分析
• 完成上述檢定之後,接下來挑選自變數數量
• 自變數之間存在較高的線性關係時,它會造成模型不穩定
• 多重共線性檢驗:
• 我們採取VIF函數進行自變數檢定,該值超過10表示該自變數應刪除
• 或者重新選擇其他回歸模型 (Ridge regression 或 LASSO regression)
• Pearson相關係數或用視覺化觀察:
• 選擇較高的 coefficient_of_association 自變數
15
coe>=0.8 0.5<=coe<0.8 0.3<=coe<0.5 coe<0.3
高度相關 中度相關 弱相關 幾乎不相關
16
有相對趨勢
有相對趨勢
迴歸分析
• 模型解讀
• R平方值
• 是一種衡量回歸模型表現的指標,代表自變數可以解釋應變數變異的比例
• 若回歸方程式為:
• Profit = 58068.05 + 0.8RD_Spend-0.06Administation + 0.01Marketing_Spend
• 在其他的自變數不改變的情況下,研發成本RD_Spend每增加1美元,利潤就會增
加0.8美元
17
R平方>=0.75 0.5<=R平方<0.75 0.5<R平方
模型擬合度佳 模型擬合度介於中等 模型擬合度差,不採用
迴歸分析
• 模型評估
• Root mean squared error:
• Mean absolute error:
• Mean absolute percentage error:
18
<10 High accurate forecasting
10-20 Good forecasting
20-50 Reasonable forecasting
>50 Inaccurate forecasting
將誤差轉換為百分比(徹底擺脫單位),主要
目的也是解釋起來比較直觀,y不可以含有0
對於極值(outliers)會相對敏感,取根號的目的是與y的單位變
得一致,所以解釋起來會比較直觀
取絕對值來計算平均誤差,相對之下對極值比較不敏感,若訓練集包
含很多極值,可以考慮用MAE來當作指標
迴歸分析
• 若把應變數進行數據分廂,就變成分類預測模型
• 羅吉斯迴歸,靠近紅色線的資料點用對數函數(Sigmoid函數)決定
19
機器/統計學習: 羅吉斯回歸(Logistic regression) | by Tommy Huang | Medium
簡單線性迴歸分析
• 使用線性方程式對數據集進行擬合的演算法。
• 只有一個輸入特徵。
• 預測函數
• 數據集 x 和 y,預測函數會根據輸入特徵 x 來計算輸出值 h(x),其輸入
和輸出的函數關係如下:
• 這條方程式為一條直線,輸入特徵為 x 和 輸出值為 y,使得預測函數 h0
與真實值y 的整體誤差最小。
• 找到 Θ0 、Θ1 的值為關鍵,該也稱為模型參數
20
輸入特徵(x) 輸出(y)
1 4
2 6
3 10
4 15
簡單線性迴歸分析
• 驗證結果
• 假設模型參數 Θ0 =1, Θ1=3
• 模型函數為
• 將第一個樣本代入此函數,得到結果為4,符合預期
• 將第二個樣本代入此函數,得到結果為7,與實際相差1
• 希望找到一組適合的模型參數Θ0 、Θ1 ,以便能最好地擬合資料
21
多元迴歸分析(複迴歸)
• 增加模型複雜度,目的是更讓模型擬合數據
• 增加變數(自變數相乘、自變數次方、自變數開根號)
22
regression.ipynb
作業
• 何謂敘述型統計與推論型統計代表的意思?
• 母體、樣本、參數、統計的方法(歸納法、演繹法)
• 線性回歸主要是解決什麼樣的問題?
• 新增Excel多個自變數欄位,以常態分佈產生數值,重新執行程式
(包含變數變換、變數檢定、變數選擇)
• https://blog.gtwang.org/windows/excel-random-number-
generation-formula/
23

More Related Content

Similar to 4_Regression_analysis.pdf

Report 106553012 - copy
Report 106553012 - copyReport 106553012 - copy
Report 106553012 - copyJacky Zou
 
網路2.0時代情報蒐集術
網路2.0時代情報蒐集術網路2.0時代情報蒐集術
網路2.0時代情報蒐集術基欽 劉
 
Hadoop的典型应用与企业化之路 for HBTC 2012
Hadoop的典型应用与企业化之路 for HBTC 2012Hadoop的典型应用与企业化之路 for HBTC 2012
Hadoop的典型应用与企业化之路 for HBTC 2012James Chen
 
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況Jazz Yao-Tsung Wang
 
網頁爬蟲入門 Python web crawler at 淡江大學 20170930
網頁爬蟲入門 Python web crawler at 淡江大學 20170930網頁爬蟲入門 Python web crawler at 淡江大學 20170930
網頁爬蟲入門 Python web crawler at 淡江大學 20170930Tim Hong
 
2023 Data visualization using Python from scratch
2023 Data visualization using Python from scratch2023 Data visualization using Python from scratch
2023 Data visualization using Python from scratchFEG
 
20151016 中興大學 big data + machine learning
20151016 中興大學 big data + machine learning20151016 中興大學 big data + machine learning
20151016 中興大學 big data + machine learningMeng-Ru (Raymond) Tsai
 
淺談台灣巨量資料產業發展現況
淺談台灣巨量資料產業發展現況淺談台灣巨量資料產業發展現況
淺談台灣巨量資料產業發展現況Jazz Yao-Tsung Wang
 
Qualitative Analysis And Caqdas2009 April 10th
Qualitative Analysis And Caqdas2009 April 10thQualitative Analysis And Caqdas2009 April 10th
Qualitative Analysis And Caqdas2009 April 10thKai Wu
 
106智慧srb會議 公眾討論簡報-1智慧科技創新生態體系-0622
106智慧srb會議 公眾討論簡報-1智慧科技創新生態體系-0622106智慧srb會議 公眾討論簡報-1智慧科技創新生態體系-0622
106智慧srb會議 公眾討論簡報-1智慧科技創新生態體系-0622b0stey
 
HITCON FreeTalk 2024 台灣駭客協會媒體小聚【議題一:資安地圖 - 資安領域與趨勢介紹】
HITCON FreeTalk 2024 台灣駭客協會媒體小聚【議題一:資安地圖 - 資安領域與趨勢介紹】HITCON FreeTalk 2024 台灣駭客協會媒體小聚【議題一:資安地圖 - 資安領域與趨勢介紹】
HITCON FreeTalk 2024 台灣駭客協會媒體小聚【議題一:資安地圖 - 資安領域與趨勢介紹】Hacks in Taiwan (HITCON)
 
1_MySQL_20220307_0328.pptx
1_MySQL_20220307_0328.pptx1_MySQL_20220307_0328.pptx
1_MySQL_20220307_0328.pptxFEG
 
N世代情報收集術
N世代情報收集術N世代情報收集術
N世代情報收集術基欽 劉
 
开源社区生生不息的创新土壤
开源社区生生不息的创新土壤开源社区生生不息的创新土壤
开源社区生生不息的创新土壤Steven Cheng
 
4 association rule
4 association rule4 association rule
4 association ruleFEG
 
淺談台灣巨量資料產業供應鏈串聯現況
淺談台灣巨量資料產業供應鏈串聯現況淺談台灣巨量資料產業供應鏈串聯現況
淺談台灣巨量資料產業供應鏈串聯現況Jazz Yao-Tsung Wang
 
Spirent_securityLab-服務介紹_2022.pdf
Spirent_securityLab-服務介紹_2022.pdfSpirent_securityLab-服務介紹_2022.pdf
Spirent_securityLab-服務介紹_2022.pdfssuserdfa916
 
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座NTC.im(Notch Training Center)
 
The Evolution of an Open Data Platform with Alluxio
The Evolution of an Open Data Platform with AlluxioThe Evolution of an Open Data Platform with Alluxio
The Evolution of an Open Data Platform with AlluxioAlluxio, Inc.
 

Similar to 4_Regression_analysis.pdf (20)

Report 106553012 - copy
Report 106553012 - copyReport 106553012 - copy
Report 106553012 - copy
 
網路2.0時代情報蒐集術
網路2.0時代情報蒐集術網路2.0時代情報蒐集術
網路2.0時代情報蒐集術
 
Hadoop的典型应用与企业化之路 for HBTC 2012
Hadoop的典型应用与企业化之路 for HBTC 2012Hadoop的典型应用与企业化之路 for HBTC 2012
Hadoop的典型应用与企业化之路 for HBTC 2012
 
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
 
20150206 aic machine learning
20150206 aic machine learning20150206 aic machine learning
20150206 aic machine learning
 
網頁爬蟲入門 Python web crawler at 淡江大學 20170930
網頁爬蟲入門 Python web crawler at 淡江大學 20170930網頁爬蟲入門 Python web crawler at 淡江大學 20170930
網頁爬蟲入門 Python web crawler at 淡江大學 20170930
 
2023 Data visualization using Python from scratch
2023 Data visualization using Python from scratch2023 Data visualization using Python from scratch
2023 Data visualization using Python from scratch
 
20151016 中興大學 big data + machine learning
20151016 中興大學 big data + machine learning20151016 中興大學 big data + machine learning
20151016 中興大學 big data + machine learning
 
淺談台灣巨量資料產業發展現況
淺談台灣巨量資料產業發展現況淺談台灣巨量資料產業發展現況
淺談台灣巨量資料產業發展現況
 
Qualitative Analysis And Caqdas2009 April 10th
Qualitative Analysis And Caqdas2009 April 10thQualitative Analysis And Caqdas2009 April 10th
Qualitative Analysis And Caqdas2009 April 10th
 
106智慧srb會議 公眾討論簡報-1智慧科技創新生態體系-0622
106智慧srb會議 公眾討論簡報-1智慧科技創新生態體系-0622106智慧srb會議 公眾討論簡報-1智慧科技創新生態體系-0622
106智慧srb會議 公眾討論簡報-1智慧科技創新生態體系-0622
 
HITCON FreeTalk 2024 台灣駭客協會媒體小聚【議題一:資安地圖 - 資安領域與趨勢介紹】
HITCON FreeTalk 2024 台灣駭客協會媒體小聚【議題一:資安地圖 - 資安領域與趨勢介紹】HITCON FreeTalk 2024 台灣駭客協會媒體小聚【議題一:資安地圖 - 資安領域與趨勢介紹】
HITCON FreeTalk 2024 台灣駭客協會媒體小聚【議題一:資安地圖 - 資安領域與趨勢介紹】
 
1_MySQL_20220307_0328.pptx
1_MySQL_20220307_0328.pptx1_MySQL_20220307_0328.pptx
1_MySQL_20220307_0328.pptx
 
N世代情報收集術
N世代情報收集術N世代情報收集術
N世代情報收集術
 
开源社区生生不息的创新土壤
开源社区生生不息的创新土壤开源社区生生不息的创新土壤
开源社区生生不息的创新土壤
 
4 association rule
4 association rule4 association rule
4 association rule
 
淺談台灣巨量資料產業供應鏈串聯現況
淺談台灣巨量資料產業供應鏈串聯現況淺談台灣巨量資料產業供應鏈串聯現況
淺談台灣巨量資料產業供應鏈串聯現況
 
Spirent_securityLab-服務介紹_2022.pdf
Spirent_securityLab-服務介紹_2022.pdfSpirent_securityLab-服務介紹_2022.pdf
Spirent_securityLab-服務介紹_2022.pdf
 
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
 
The Evolution of an Open Data Platform with Alluxio
The Evolution of an Open Data Platform with AlluxioThe Evolution of an Open Data Platform with Alluxio
The Evolution of an Open Data Platform with Alluxio
 

More from FEG

Sequence Model pytorch at colab with gpu.pdf
Sequence Model pytorch at colab with gpu.pdfSequence Model pytorch at colab with gpu.pdf
Sequence Model pytorch at colab with gpu.pdfFEG
 
學院碩士班_非監督式學習_使用Orange3直接使用_分群_20240417.pdf
學院碩士班_非監督式學習_使用Orange3直接使用_分群_20240417.pdf學院碩士班_非監督式學習_使用Orange3直接使用_分群_20240417.pdf
學院碩士班_非監督式學習_使用Orange3直接使用_分群_20240417.pdfFEG
 
資料視覺化_透過Orange3進行_無須寫程式直接使用_碩士學程_202403.pdf
資料視覺化_透過Orange3進行_無須寫程式直接使用_碩士學程_202403.pdf資料視覺化_透過Orange3進行_無須寫程式直接使用_碩士學程_202403.pdf
資料視覺化_透過Orange3進行_無須寫程式直接使用_碩士學程_202403.pdfFEG
 
Pytorch cnn netowork introduction 20240318
Pytorch cnn netowork introduction 20240318Pytorch cnn netowork introduction 20240318
Pytorch cnn netowork introduction 20240318FEG
 
2023 Clustering analysis using Python from scratch
2023 Clustering analysis using Python from scratch2023 Clustering analysis using Python from scratch
2023 Clustering analysis using Python from scratchFEG
 
2023 Supervised Learning for Orange3 from scratch
2023 Supervised Learning for Orange3 from scratch2023 Supervised Learning for Orange3 from scratch
2023 Supervised Learning for Orange3 from scratchFEG
 
2023 Supervised_Learning_Association_Rules
2023 Supervised_Learning_Association_Rules2023 Supervised_Learning_Association_Rules
2023 Supervised_Learning_Association_RulesFEG
 
202312 Exploration Data Analysis Visualization (English version)
202312 Exploration Data Analysis Visualization (English version)202312 Exploration Data Analysis Visualization (English version)
202312 Exploration Data Analysis Visualization (English version)FEG
 
202312 Exploration of Data Analysis Visualization
202312 Exploration of Data Analysis Visualization202312 Exploration of Data Analysis Visualization
202312 Exploration of Data Analysis VisualizationFEG
 
Transfer Learning (20230516)
Transfer Learning (20230516)Transfer Learning (20230516)
Transfer Learning (20230516)FEG
 
Image Classification (20230411)
Image Classification (20230411)Image Classification (20230411)
Image Classification (20230411)FEG
 
Google CoLab (20230321)
Google CoLab (20230321)Google CoLab (20230321)
Google CoLab (20230321)FEG
 
Supervised Learning
Supervised LearningSupervised Learning
Supervised LearningFEG
 
UnSupervised Learning Clustering
UnSupervised Learning ClusteringUnSupervised Learning Clustering
UnSupervised Learning ClusteringFEG
 
Data Visualization in Excel
Data Visualization in ExcelData Visualization in Excel
Data Visualization in ExcelFEG
 
6_Association_rule_碩士班第六次.pdf
6_Association_rule_碩士班第六次.pdf6_Association_rule_碩士班第六次.pdf
6_Association_rule_碩士班第六次.pdfFEG
 
5_Neural_network_碩士班第五次.pdf
5_Neural_network_碩士班第五次.pdf5_Neural_network_碩士班第五次.pdf
5_Neural_network_碩士班第五次.pdfFEG
 
5_BERT.pdf
5_BERT.pdf5_BERT.pdf
5_BERT.pdfFEG
 
5_RNN_LSTM.pdf
5_RNN_LSTM.pdf5_RNN_LSTM.pdf
5_RNN_LSTM.pdfFEG
 
4_image_detection.pdf
4_image_detection.pdf4_image_detection.pdf
4_image_detection.pdfFEG
 

More from FEG (20)

Sequence Model pytorch at colab with gpu.pdf
Sequence Model pytorch at colab with gpu.pdfSequence Model pytorch at colab with gpu.pdf
Sequence Model pytorch at colab with gpu.pdf
 
學院碩士班_非監督式學習_使用Orange3直接使用_分群_20240417.pdf
學院碩士班_非監督式學習_使用Orange3直接使用_分群_20240417.pdf學院碩士班_非監督式學習_使用Orange3直接使用_分群_20240417.pdf
學院碩士班_非監督式學習_使用Orange3直接使用_分群_20240417.pdf
 
資料視覺化_透過Orange3進行_無須寫程式直接使用_碩士學程_202403.pdf
資料視覺化_透過Orange3進行_無須寫程式直接使用_碩士學程_202403.pdf資料視覺化_透過Orange3進行_無須寫程式直接使用_碩士學程_202403.pdf
資料視覺化_透過Orange3進行_無須寫程式直接使用_碩士學程_202403.pdf
 
Pytorch cnn netowork introduction 20240318
Pytorch cnn netowork introduction 20240318Pytorch cnn netowork introduction 20240318
Pytorch cnn netowork introduction 20240318
 
2023 Clustering analysis using Python from scratch
2023 Clustering analysis using Python from scratch2023 Clustering analysis using Python from scratch
2023 Clustering analysis using Python from scratch
 
2023 Supervised Learning for Orange3 from scratch
2023 Supervised Learning for Orange3 from scratch2023 Supervised Learning for Orange3 from scratch
2023 Supervised Learning for Orange3 from scratch
 
2023 Supervised_Learning_Association_Rules
2023 Supervised_Learning_Association_Rules2023 Supervised_Learning_Association_Rules
2023 Supervised_Learning_Association_Rules
 
202312 Exploration Data Analysis Visualization (English version)
202312 Exploration Data Analysis Visualization (English version)202312 Exploration Data Analysis Visualization (English version)
202312 Exploration Data Analysis Visualization (English version)
 
202312 Exploration of Data Analysis Visualization
202312 Exploration of Data Analysis Visualization202312 Exploration of Data Analysis Visualization
202312 Exploration of Data Analysis Visualization
 
Transfer Learning (20230516)
Transfer Learning (20230516)Transfer Learning (20230516)
Transfer Learning (20230516)
 
Image Classification (20230411)
Image Classification (20230411)Image Classification (20230411)
Image Classification (20230411)
 
Google CoLab (20230321)
Google CoLab (20230321)Google CoLab (20230321)
Google CoLab (20230321)
 
Supervised Learning
Supervised LearningSupervised Learning
Supervised Learning
 
UnSupervised Learning Clustering
UnSupervised Learning ClusteringUnSupervised Learning Clustering
UnSupervised Learning Clustering
 
Data Visualization in Excel
Data Visualization in ExcelData Visualization in Excel
Data Visualization in Excel
 
6_Association_rule_碩士班第六次.pdf
6_Association_rule_碩士班第六次.pdf6_Association_rule_碩士班第六次.pdf
6_Association_rule_碩士班第六次.pdf
 
5_Neural_network_碩士班第五次.pdf
5_Neural_network_碩士班第五次.pdf5_Neural_network_碩士班第五次.pdf
5_Neural_network_碩士班第五次.pdf
 
5_BERT.pdf
5_BERT.pdf5_BERT.pdf
5_BERT.pdf
 
5_RNN_LSTM.pdf
5_RNN_LSTM.pdf5_RNN_LSTM.pdf
5_RNN_LSTM.pdf
 
4_image_detection.pdf
4_image_detection.pdf4_image_detection.pdf
4_image_detection.pdf
 

4_Regression_analysis.pdf