4_Regression_analysis.pdf

國立臺北護理健康大學 NTUNHS
Regression Analysis
Orozco Hsu
2022-11-21
1

About me
• Education
• NCU (MIS)、NCCU (CS)
• Work Experience
• Telecom big data Innovation
• AI projects
• Retail marketing technology
• User Group
• TW Spark User Group
• TW Hadoop User Group
• Taiwan Data Engineer Association Director
• Research
• Big Data/ ML/ AIOT/ AI Columnist
2

Tutorial
Content
3
線性迴歸演算法
作業
介紹迴歸分析

Code
• Download code
• https://github.com/orozcohsu/ntunhs_2022_02.git
• Folder
• 20221121
4

建立環境
• 切換執行環境
5

建立環境
• 安裝套件
• pip install statsmodels
6

建立環境
• 開啟 jupyterlab
7

迴歸分析
• 常見的迴歸分析
• 預測:
• 探討哪些臨床危險因子的組合(每天抽煙幾包、嚼檳榔幾粒、刷牙幾次)可以準確預
測牙周病的嚴重程度(牙周囊袋多少mm)?
• 解釋:
• 探討這幾個臨床因子中，哪幾個對於預測牙周病嚴重程度特別有影響力? (查看變數
的p-value)
8

迴歸分析
• 迴歸分析可以分為簡單迴歸和複迴歸(多元迴歸) ，應變數為數值
• 簡單迴歸是用來探討 1 個應變數和 1 個自變數的關係，複迴歸(多元迴歸)是用來探
討 1 個應變數和多個自變數的關係
• 簡單迴歸表示式:
• Y = β 0 +β 1 X 1 + ε
β 0 為常數，β 1 為迴歸係數，ε 為誤差
• 複迴歸表示式:
• Y = β 0 + β 1 X 1 +β 2 X 2 +....+ βnXn + ε
β 0 為常數，β 1 ..... βn 為迴歸係數，ε 為誤差
9
若應變數與時間週期相關時，建議採用時間序列模型

迴歸分析
• 使用迴歸分析前，必須要確認資料是否符合迴歸分析的基本統計假設，否則，
當資料違反迴歸分析的基本統計假設時，會導致統計推論偏誤的發生 (有母
數檢定)
• 迴歸分析經常用在解釋和預測二大方面，
• 解釋方面: 從取得的樣本，計算出迴歸的方程式，再透過迴歸的方程式得知每個自變數
對應變數的影響力(貢獻)，當然也可以找出最大的影響變數，以進行統計上和管理意涵
的解釋
• 預測方面:由於迴歸方程式是線性關係，我們可以估算自變數的變動，會帶給應變數的
多大改變，因此，我們使用迴歸分析來預測未來的變動
10

迴歸分析
• 線性關係
• 應變數和自變數之間的關係必須是線性，也就是說，依變數與自變數存
在著相當固定比率的關係，若是發現依變數與自變數呈現非線性關係時，
可以透過轉換(transform)成線性關係，再進行迴歸分析
• 若建模資料集有經過自變數轉換，進行新數據預測時，也要以同樣手法
進行轉換
• 常見的自變數轉換方法有:
11

迴歸分析
• 常態性(normality)
• 若是資料呈現常態分配 (normal distribution)，則誤差項也會呈現同樣
的分配
• 當樣本數夠大時，檢查的方式是使用簡單的 Histogram (直方圖)
• 若是樣本數較小時，檢查的方式是使用直方圖或Q-Q圖
13
在常態機率圖中，橫軸為理論分位數，縱軸為樣本分位數，若資料點大
致落在虛擬的常態直線附近，則可認為該資料分配近似於常態分配

迴歸分析
• 誤差項的獨立性
• 自變數的誤差項，相互之間應該是獨立的，
也就是誤差項與誤差項之間没有相互關係
• 在估計迴歸參數時，會降低統計的檢定力，
我們可以藉由殘差分析來檢查，尤其是與
時間序列和事件相關的資料，特別需要注
意去處理
14

迴歸分析
• 完成上述檢定之後，接下來挑選自變數數量
• 自變數之間存在較高的線性關係時，它會造成模型不穩定
• 多重共線性檢驗:
• 我們採取VIF函數進行自變數檢定，該值超過10表示該自變數應刪除
• 或者重新選擇其他回歸模型 (Ridge regression 或 LASSO regression)
• Pearson相關係數或用視覺化觀察:
• 選擇較高的 coefficient_of_association 自變數
15
coe>=0.8 0.5<=coe<0.8 0.3<=coe<0.5 coe<0.3
高度相關中度相關弱相關幾乎不相關

16
有相對趨勢
有相對趨勢

迴歸分析
• 模型解讀
• R平方值
• 是一種衡量回歸模型表現的指標，代表自變數可以解釋應變數變異的比例
• 若回歸方程式為:
• Profit = 58068.05 + 0.8RD_Spend-0.06Administation + 0.01Marketing_Spend
• 在其他的自變數不改變的情況下，研發成本RD_Spend每增加1美元，利潤就會增
加0.8美元
17
R平方>=0.75 0.5<=R平方<0.75 0.5<R平方
模型擬合度佳模型擬合度介於中等模型擬合度差，不採用

迴歸分析
• 模型評估
• Root mean squared error:
• Mean absolute error:
• Mean absolute percentage error:
18
<10 High accurate forecasting
10-20 Good forecasting
20-50 Reasonable forecasting
>50 Inaccurate forecasting
將誤差轉換為百分比（徹底擺脫單位），主要
目的也是解釋起來比較直觀，y不可以含有0
對於極值（outliers)會相對敏感，取根號的目的是與y的單位變
得一致，所以解釋起來會比較直觀
取絕對值來計算平均誤差，相對之下對極值比較不敏感，若訓練集包
含很多極值，可以考慮用MAE來當作指標

迴歸分析
• 若把應變數進行數據分廂，就變成分類預測模型
• 羅吉斯迴歸，靠近紅色線的資料點用對數函數(Sigmoid函數)決定
19
機器/統計學習: 羅吉斯回歸(Logistic regression) | by Tommy Huang | Medium

簡單線性迴歸分析
• 使用線性方程式對數據集進行擬合的演算法。
• 只有一個輸入特徵。
• 預測函數
• 數據集 x 和 y，預測函數會根據輸入特徵 x 來計算輸出值 h(x)，其輸入
和輸出的函數關係如下:
• 這條方程式為一條直線，輸入特徵為 x 和輸出值為 y，使得預測函數 h0
與真實值y 的整體誤差最小。
• 找到 Θ0 、Θ1 的值為關鍵，該也稱為模型參數
20
輸入特徵(x) 輸出(y)
1 4
2 6
3 10
4 15

簡單線性迴歸分析
• 驗證結果
• 假設模型參數 Θ0 =1, Θ1=3
• 模型函數為
• 將第一個樣本代入此函數，得到結果為4，符合預期
• 將第二個樣本代入此函數，得到結果為7，與實際相差1
• 希望找到一組適合的模型參數Θ0 、Θ1 ，以便能最好地擬合資料
21

多元迴歸分析(複迴歸)
• 增加模型複雜度，目的是更讓模型擬合數據
• 增加變數(自變數相乘、自變數次方、自變數開根號)
22
regression.ipynb

作業
• 何謂敘述型統計與推論型統計代表的意思?
• 母體、樣本、參數、統計的方法(歸納法、演繹法)
• 線性回歸主要是解決什麼樣的問題?
• 新增Excel多個自變數欄位，以常態分佈產生數值，重新執行程式
(包含變數變換、變數檢定、變數選擇)
• https://blog.gtwang.org/windows/excel-random-number-
generation-formula/
23

4_Regression_analysis.pdf

Recommended

Recommended

More Related Content

Similar to 4_Regression_analysis.pdf

Similar to 4_Regression_analysis.pdf (20)

More from FEG

More from FEG (20)

4_Regression_analysis.pdf