More Related Content Similar to 4_Regression_analysis.pdf Similar to 4_Regression_analysis.pdf (20) 4_Regression_analysis.pdf2. About me
• Education
• NCU (MIS)、NCCU (CS)
• Work Experience
• Telecom big data Innovation
• AI projects
• Retail marketing technology
• User Group
• TW Spark User Group
• TW Hadoop User Group
• Taiwan Data Engineer Association Director
• Research
• Big Data/ ML/ AIOT/ AI Columnist
2
8. 迴歸分析
• 常見的迴歸分析
• 預測:
• 探討哪些臨床危險因子的組合(每天抽煙幾包、嚼檳榔幾粒、刷牙幾次)可以準確預
測牙周病的嚴重程度(牙周囊袋多少mm)?
• 解釋:
• 探討這幾個臨床因子中,哪幾個對於預測牙周病嚴重程度特別有影響力? (查看變數
的p-value)
8
9. 迴歸分析
• 迴歸分析可以分為簡單迴歸和複迴歸(多元迴歸) ,應變數為數值
• 簡單迴歸是用來探討 1 個應變數和 1 個自變數的關係,複迴歸(多元迴歸)是用來探
討 1 個應變數和多個自變數的關係
• 簡單迴歸表示式:
• Y = β 0 +β 1 X 1 + ε
β 0 為常數,β 1 為迴歸係數,ε 為誤差
• 複迴歸表示式:
• Y = β 0 + β 1 X 1 +β 2 X 2 +....+ βnXn + ε
β 0 為常數,β 1 ..... βn 為迴歸係數,ε 為誤差
9
若應變數與時間週期相關時,建議採用時間序列模型
13. 迴歸分析
• 常態性(normality)
• 若是資料呈現常態分配 (normal distribution),則誤差項也會呈現同樣
的分配
• 當樣本數夠大時,檢查的方式是使用簡單的 Histogram (直方圖)
• 若是樣本數較小時,檢查的方式是使用直方圖或Q-Q圖
13
在常態機率圖中,橫軸為理論分位數,縱軸為樣本分位數,若資料點大
致落在虛擬的常態直線附近,則可認為該資料分配近似於常態分配
15. 迴歸分析
• 完成上述檢定之後,接下來挑選自變數數量
• 自變數之間存在較高的線性關係時,它會造成模型不穩定
• 多重共線性檢驗:
• 我們採取VIF函數進行自變數檢定,該值超過10表示該自變數應刪除
• 或者重新選擇其他回歸模型 (Ridge regression 或 LASSO regression)
• Pearson相關係數或用視覺化觀察:
• 選擇較高的 coefficient_of_association 自變數
15
coe>=0.8 0.5<=coe<0.8 0.3<=coe<0.5 coe<0.3
高度相關 中度相關 弱相關 幾乎不相關
17. 迴歸分析
• 模型解讀
• R平方值
• 是一種衡量回歸模型表現的指標,代表自變數可以解釋應變數變異的比例
• 若回歸方程式為:
• Profit = 58068.05 + 0.8RD_Spend-0.06Administation + 0.01Marketing_Spend
• 在其他的自變數不改變的情況下,研發成本RD_Spend每增加1美元,利潤就會增
加0.8美元
17
R平方>=0.75 0.5<=R平方<0.75 0.5<R平方
模型擬合度佳 模型擬合度介於中等 模型擬合度差,不採用
18. 迴歸分析
• 模型評估
• Root mean squared error:
• Mean absolute error:
• Mean absolute percentage error:
18
<10 High accurate forecasting
10-20 Good forecasting
20-50 Reasonable forecasting
>50 Inaccurate forecasting
將誤差轉換為百分比(徹底擺脫單位),主要
目的也是解釋起來比較直觀,y不可以含有0
對於極值(outliers)會相對敏感,取根號的目的是與y的單位變
得一致,所以解釋起來會比較直觀
取絕對值來計算平均誤差,相對之下對極值比較不敏感,若訓練集包
含很多極值,可以考慮用MAE來當作指標
20. 簡單線性迴歸分析
• 使用線性方程式對數據集進行擬合的演算法。
• 只有一個輸入特徵。
• 預測函數
• 數據集 x 和 y,預測函數會根據輸入特徵 x 來計算輸出值 h(x),其輸入
和輸出的函數關係如下:
• 這條方程式為一條直線,輸入特徵為 x 和 輸出值為 y,使得預測函數 h0
與真實值y 的整體誤差最小。
• 找到 Θ0 、Θ1 的值為關鍵,該也稱為模型參數
20
輸入特徵(x) 輸出(y)
1 4
2 6
3 10
4 15
21. 簡單線性迴歸分析
• 驗證結果
• 假設模型參數 Θ0 =1, Θ1=3
• 模型函數為
• 將第一個樣本代入此函數,得到結果為4,符合預期
• 將第二個樣本代入此函數,得到結果為7,與實際相差1
• 希望找到一組適合的模型參數Θ0 、Θ1 ,以便能最好地擬合資料
21