データ解析6 重回帰分析

データ解析第6回
2018年5月24日八谷大岳
1

講義内容
6
数学の復習
機械学習の基礎

内容：
7
 単回帰分析の復習
 重回帰分析の基礎
 重回帰分析の例
 重回帰分析の定式化
 重回帰分析の実装
 重回帰分析の活用
 目的変数の予測
 説明変数の分析
 回帰分析の精度評価
 利用時の注意点

復習：回帰分析とは
8
 入力と出力の組のデータから、入力に対する出力を予測
する関係モデルを学習
 入力：説明変数
 スカラー（１変数）の場合：単回帰分析
 ベクトル（多変数）の場合：重回帰分析
 出力：目的変数
 実数スカラー
出力𝑦𝑦 ：収穫量
肥料の種類と量
雨量
入力𝑥𝑥
日照時間
関係モデルによる予測

復習：単回帰分析の例
9
 人口とゴミ排出量のデータから、将来のゴミ排出量を予測
ゴミ排出量＝傾きＸ人口＋切片＋残差
（説明変数）
100000 300000
50000
100000
150000
500000
人口
ゴ
ミ
排
出
量
傾き
切片
予測
残差
直線
（目的変数）

復習：単回帰分析の定式化
 学習データ： 𝐷𝐷𝑡𝑡𝑡𝑡 = 𝑥𝑥𝑖𝑖, 𝑦𝑦𝑖𝑖
𝑖𝑖=1
𝑁𝑁
 単回帰モデル：回帰直線
 𝑦𝑦成分の誤差の二乗誤差和の最小化により、学習データの𝑦𝑦成分
の平均の点を通る直線 �𝑓𝑓𝑤𝑤∗,𝑏𝑏∗ 𝑥𝑥 を獲得
 最適な傾き𝑤𝑤∗
と切片𝑏𝑏∗
は、学習データの分散と共分散で求まる
10
i番目に観測された学習データ
𝑥𝑥𝑖𝑖
, 𝑦𝑦𝑖𝑖
�𝑓𝑓𝑤𝑤∗,𝑏𝑏∗ 𝑥𝑥
𝑥𝑥
𝑦𝑦
𝑜𝑜
𝐸𝐸 𝑤𝑤, 𝑏𝑏 = ∑𝑖𝑖=1
𝑁𝑁
𝑦𝑦𝑖𝑖 − �𝑓𝑓𝑤𝑤,𝑏𝑏 𝑥𝑥𝑖𝑖
2
𝑤𝑤∗, 𝑏𝑏∗ = argmin
𝑤𝑤,𝑏𝑏
𝐸𝐸 𝑤𝑤, 𝑏𝑏
𝑏𝑏∗
= �𝑦𝑦 −
S𝒙𝒙𝒙𝒙
S𝒙𝒙𝒙𝒙
̅𝑥𝑥= �𝑦𝑦 − 𝑤𝑤∗
̅𝑥𝑥𝑤𝑤∗
=
S𝒙𝒙𝒙𝒙
S𝒙𝒙𝒙𝒙
�𝑓𝑓𝑤𝑤,𝑏𝑏 𝑥𝑥 = 𝑤𝑤𝑤𝑤 + 𝑏𝑏

内容：
11

重回帰分析とは
12
 単回帰分析：説明変数が1個の回帰
 目的変数𝑦𝑦：スカラー
 説明変数𝑥𝑥：スカラー
 重回帰分析：説明変数が2個以上の回帰
 目的変数𝑦𝑦：スカラー
 説明変数𝒙𝒙：ベクトル 𝒙𝒙 = (𝑥𝑥1, 𝑥𝑥2, … , 𝑥𝑥𝐷𝐷)Τ
靴サイズ＝傾きＸ身長＋切片＋残差
説明変数𝑥𝑥𝑤𝑤 𝑏𝑏目的変数𝑦𝑦 𝜀𝜀
目的変数𝑦𝑦
靴サイズ＝傾きＸ身長＋傾きＸ体重＋ ... ＋切片＋残差
𝑤𝑤1 説明変数𝑥𝑥1 説明変数𝑥𝑥2𝑤𝑤2 𝑏𝑏 𝜀𝜀
直線
平面

重回帰分析のデータの例
13
 説明変数が2個の場合：
標本番号身長(x１) 体重(ｘ２) 靴サイズ(y)
1 162 44 24.0
2 165 48 24.5
3 168 53 25.5
4 160 45 22.5
5 158 45 23.0
6 153 43 22.0
7 158 45 23.0
8 168 50 24.0
9 157 52 23.0
10 154 42 23.0
11 170 48 25.0
12 157 45 23.5
(cm) (kg) (cm)
説明変数𝑥𝑥1 説明変数𝑥𝑥2 目的変数𝑦𝑦

重回帰分析のデータの例と目的
14
 重回帰分析の目的：データにあてはまる（超）平面を求めたい
 説明変数が2個の場合は平面、3個以上の場合は超平面
目的変数𝑦𝑦：靴サイズ

どんな平面がいいのか？１
15
平面：𝑦𝑦 = 𝑤𝑤1 𝑥𝑥1 + 𝑤𝑤1 𝑥𝑥1 + 𝑏𝑏

どんな平面がいいのか？２
16

どんな平面がいいのか？３
17

内容：
18

重回帰問題の定式化
 入力（説明変数）𝒙𝒙：実数値ベクトル
 出力（目的変数）𝑦𝑦：実数値スカラー
 学習データ：
 重回帰モデル：重回帰式、超平面
 省略版：
19
𝐷𝐷𝑡𝑡𝑡𝑡 = 𝒙𝒙1, 𝑦𝑦1 , 𝒙𝒙2, 𝑦𝑦2 , … , 𝒙𝒙𝑁𝑁, 𝑦𝑦 𝑁𝑁 = 𝒙𝒙𝑖𝑖, 𝑦𝑦𝑖𝑖
𝑖𝑖=1
𝑁𝑁
𝒘𝒘′ = (𝑤𝑤1, 𝑤𝑤2, … , 𝑤𝑤𝐷𝐷, 𝑏𝑏)Τ
�𝑓𝑓𝒘𝒘,𝑏𝑏 𝒙𝒙 = 𝒘𝒘Τ 𝒙𝒙 + 𝑏𝑏
𝑥𝑥1
𝑥𝑥2
偏回帰係数（学習するパラメータ）
𝒙𝒙′ = (𝑥𝑥1, 𝑥𝑥2, … , 𝑥𝑥𝐷𝐷, 1)Τ
�𝑓𝑓𝒘𝒘’ 𝒙𝒙’ = 𝒘𝒘′Τ 𝒙𝒙𝒙
𝑥𝑥2
𝑖𝑖
�𝑓𝑓𝒘𝒘,𝑏𝑏 𝑥𝑥 = �𝑓𝑓𝒘𝒘’ 𝒙𝒙’
𝒙𝒙𝑖𝑖, 𝑦𝑦𝑖𝑖
𝑥𝑥1
𝑖𝑖
𝑦𝑦𝑖𝑖

𝑖𝑖番目に観測された学習データ
𝒙𝒙𝑖𝑖, 𝑦𝑦𝑖𝑖
�𝑓𝑓𝒘𝒘′ 𝒙𝒙′
𝑥𝑥1
𝑥𝑥2
 最もあてはまる超平面：Y軸成分の二乗誤差和を最小化
 偏微分を用いて、最適な𝒘𝒘′を求める
Y軸成分の二乗誤差和の最小化
20
= (𝒚𝒚 − 𝐗𝐗Τ 𝒘𝒘′)Τ (𝒚𝒚 − 𝐗𝐗Τ 𝒘𝒘′) 𝐗𝐗 =
𝑥𝑥1
1
𝑥𝑥2
1
⋮
𝑥𝑥𝐷𝐷
1
1
𝑥𝑥1
2
𝑥𝑥2
2
⋮
𝑥𝑥𝐷𝐷
2
1
⋯
⋯
⋮
⋯
⋯
𝑥𝑥1
𝑁𝑁
𝑥𝑥2
𝑁𝑁
⋮
𝑥𝑥𝐷𝐷
𝑁𝑁
1
𝒚𝒚 =
𝑦𝑦1
𝑦𝑦2
⋮
𝑦𝑦 𝑁𝑁
𝐷𝐷：説明変数の数
𝑁𝑁：データ数
𝐸𝐸 𝒘𝒘′ = �
𝑖𝑖=1
𝑁𝑁
𝑦𝑦𝑖𝑖 − �𝑓𝑓𝒘𝒘′ 𝒙𝒙′𝑖𝑖
2
𝜀𝜀𝑖𝑖
二乗誤差和：
= ∑𝑖𝑖=1
𝑁𝑁
𝑦𝑦𝑖𝑖 − 𝒘𝒘′Τ 𝒙𝒙𝒙𝑖𝑖 2
行列・ベクトル表現
誤差𝜀𝜀𝑖𝑖

演習1
21
1. 二乗誤差和の行列表現を和の記号を用いた表現に変形しなさい。
ただし、データ数𝑁𝑁 = 4、説明変数の数𝐷𝐷 = 2とする。
2. 偏微分を用いて二乗誤差和を最小化する𝒘𝒘′の式を求めなさい。
 Matrix Cookbookより
 タイトル「演習レポート」、日付、学生番号、氏名を用紙の一番上に
記載
𝐸𝐸 𝒘𝒘′ = (𝒚𝒚 − 𝐗𝐗Τ 𝒘𝒘′)Τ (𝒚𝒚 − 𝐗𝐗Τ 𝒘𝒘′)
(𝒚𝒚 − 𝐗𝐗Τ
𝒘𝒘′)Τ
(𝒚𝒚 − 𝐗𝐗Τ
𝒘𝒘′) ∑𝑖𝑖=1
𝑁𝑁
𝑦𝑦𝑖𝑖
− �𝑓𝑓𝒘𝒘′ 𝒙𝒙′𝑖𝑖
2
𝑁𝑁：データ数𝐗𝐗 =
𝑥𝑥1
1
𝑥𝑥2
1
1
𝑥𝑥1
2
𝑥𝑥2
2
1
𝑥𝑥1
3
𝑥𝑥2
3
1
𝑥𝑥1
4
𝑥𝑥2
4
1
𝒚𝒚 =
𝑦𝑦1
𝑦𝑦2
𝑦𝑦3
𝑦𝑦4
𝒘𝒘𝒘 =
𝑤𝑤1
𝑤𝑤2
𝑏𝑏

内容：
24

Pythonを用いた重回帰の実装例
25
 数値演算ライブラリNumpyを用いた重回帰分析の実装
 実行結果の例
詳細は次を参照：http://hirotaka-hachiya.hatenablog.com/entry/2017/12/06/173803
appendを用いて切片に対応する
値「1]を追加し行列𝐗𝐗を作成
matmul関数を用いた𝐗𝐗𝐗𝐗 𝚻𝚻
の演算
matmul関数を用いた𝐗𝐗𝐗𝐗の演算
inv関数を用いた 𝐗𝐗𝐗𝐗Τ −𝟏𝟏
𝐗𝐗𝐗𝐗の演算

Excelを用いた重回帰の実行例
26
 Excelでアドイン「分析ツール」を用いた重回帰分析の実行
データをExcelに入力
【重回帰分析の結果】
詳細は教科書p37または次を参照：https://tonari-it.com/excel-data-analysis-add-in
偏回帰係数
「データ」リボンの「データ分析」をクリック
「回帰分析」を選択し手順にしたい操作

内容：
27

重回帰分析を用いた予測
28
 A-Fのデータで重回帰式を求めて、Gの売上額を予測したい
売上額𝑦𝑦
(千万円)
広告費𝑥𝑥1
(百万円)
セールスマン数𝑥𝑥2
(人)
A 8 5 6
B 9 5 8
C 12 7 10
D 11 5 12
E 13 8 12
F 17 12 12
G ? 17 14
営業所Ａ～Ｆにおける売上額𝑦𝑦、広告費𝑥𝑥1、セールスマン数𝑥𝑥2

偏回帰係数の計算
29
 Pythonのコードを用いて、偏回帰係数𝒘𝒘′を求める。
 実行結果：[ 0.8627451 0.46078431 1.01960784]
 得られた重回帰式（平面）：
𝑦𝑦 = 0.86𝑥𝑥1 + 0.46𝑥𝑥2 + 1.02
numpyライブラリのインポート
説明変数𝒙𝒙の行列と
目的変数𝑦𝑦のベクトルを作成

演習2
30
 新しい営業所Gの売り上げがいくらになるか予測しなさい。
 タイトル「演習レポート」、日付、学生番号、氏名を用紙の
一番上に記載
売上額𝑦𝑦
(千万円)
広告費𝑥𝑥1
(百万円)
(人)
A 8 5 6
B 9 5 8
C 12 7 10
D 11 5 12
E 13 8 12
F 17 12 12
G ? 17 14
𝑦𝑦 = 0.86𝑥𝑥1 + 0.46𝑥𝑥2 + 1.02
営業所Ａ～Ｆにおける売上額𝑦𝑦、広告費𝑥𝑥1、セールスマン数𝑥𝑥2

内容：
32

説明変数と目的変数への影響分析
33
 説明変数の目的変数に対する影響力を調べたい
 偏回帰係数𝒘𝒘′と説明変数の積の単位は、目的変数𝑦𝑦と同じ
𝑦𝑦 = 0.86𝑥𝑥1 + 0.46𝑥𝑥2 + 1.02
売上額𝑦𝑦
(千万円)
広告費𝑥𝑥1
(百万円)
(人)
A 8 5 6
B 9 5 8
C 12 7 10
D 11 5 12
E 13 8 12
F 17 12 12
売上額
(千万円)
広告費100万円使うと
売り上げが860万円増加
広告費𝑥𝑥1の単位：百万円
広告費𝑥𝑥1の係数：0.86（千万円）
セールスマン数𝑥𝑥2の単位：人
セールスマン数𝑥𝑥2の係数：0.46（千万円）
セールスマン１人増加で
売り上げ460万円増加
単位が𝑦𝑦と同じ
0.86𝑥𝑥1（千万円）：0.86（千万円/百万円） × 𝑥𝑥1（百万円）
0.46𝑥𝑥2（千万円）：0.46（千万円/人） × 𝑥𝑥2（人）

説明変数の重要度の分析
34
 偏回帰係数の大きさは説明変数の単位に依存
 売り上げを予測するため、どの説明変数が重要であるか分からない
 偏回帰係数の代わりに標準偏回帰係数を算出し、
説明変数の重要度を求める
偏回帰係数の大きさ ≠ 説明変数の重要度
広告費のデータ単位広告費の係数大小セールスマン数の係数
百万円 0.86 ＞ 0.46
十万円 0.086 ＜ 0.46

データの標準化
35
 説明変数𝑥𝑥𝑗𝑗ごとに、値から平均を引いて標準偏差で割る
 目的変数𝑦𝑦の値から平均を引いて標準偏差で割る
𝑥𝑥𝑗𝑗
𝑖𝑖
=
𝑥𝑥𝑗𝑗
𝑖𝑖
− �𝑥𝑥𝑗𝑗
𝑆𝑆𝑥𝑥𝑗𝑗
𝑦𝑦𝑖𝑖 =
𝑦𝑦𝑖𝑖− �𝑦𝑦
𝑆𝑆𝑦𝑦
説明変数𝑥𝑥𝑗𝑗の𝑖𝑖番目の値
説明変数𝑥𝑥𝑗𝑗の標準偏差
説明変数𝑥𝑥𝑗𝑗の平均
目的変数𝑦𝑦の𝑖𝑖番目の値
目的変数𝑦𝑦の標準偏差
目的変数𝑦𝑦の平均

標準偏回帰係数
36
 標準化したデータに対して重回帰分析をかけると、
標準偏回帰係数𝒘𝒘′
が得られる
 売り上げデータの重回帰式：
 標準偏回帰係数は-1から1の範囲で、-1または1に近いほど重要
 係数が大きい説明変数が、予測に重要な説明変数となる
𝑦𝑦 = 0.74𝑥𝑥1 + 0.36𝑥𝑥2 + 2.47 × 10−16
データの単位に依存しない標準偏回帰係数が得られる
売上額𝑦𝑦
(千万円)
広告費𝑥𝑥1
(百万円)
(人)
A 8 5 6
B 9 5 8
C 12 7 10
D 11 5 12
E 13 8 12
F 17 12 12
広告費のスコア：0.74
セールスマン数のスコア： 0.36
「売上額」の予測において、「セールスマン
の数」より「広告費」の方が重要

内容：
37

回帰分析の精度分析
38
 決定係数：目的変数𝑦𝑦の偏差平方和に対する残差の二乗和の割合
 決定係数は0から1の範囲で、1に近いほど精度が高い
 決定係数の平方根𝑅𝑅を重相関係数と呼ぶ
 決定係数を用いる理由については、教科書P.102を参照
𝑅𝑅2
= 1 −
∑𝑖𝑖=1
𝑁𝑁
𝜀𝜀𝑖𝑖2
∑𝑖𝑖=1
𝑁𝑁
𝑦𝑦𝑖𝑖 − �𝑦𝑦 2
= 1 −
∑𝑖𝑖=1
𝑁𝑁
𝑦𝑦𝑖𝑖− �𝑓𝑓𝒘𝒘′ 𝒙𝒙′𝑖𝑖
2
∑𝑖𝑖=1
𝑁𝑁
𝑦𝑦𝑖𝑖− �𝑦𝑦
2 𝑖𝑖番目に観測された学習データ
𝒙𝒙𝑖𝑖
, 𝑦𝑦𝑖𝑖
�𝑓𝑓𝒘𝒘′ 𝒙𝒙′
𝑥𝑥1
𝑥𝑥2
残差𝜀𝜀𝑖𝑖
0.5未満：悪い、0.5以上：やや良い、0.8以上：非常に良い
偏差平方和：値と平均の差の二乗和

決定係数を用いた精度評価の例
39
 実績値𝑦𝑦 ：実際の目標変数𝑦𝑦の値
 予測値�𝑓𝑓𝒘𝒘′ 𝒙𝒙′ ：重回帰式を用いて予測した目標変数𝑦𝑦の値
 決定係数を求める
 決定係数が１に近いので、重回帰式がよく当てはまっている
売上額𝑦𝑦
(千万円)
実績値
広告費𝑥𝑥1
(百万円)
(人)
売上額�𝑓𝑓𝒘𝒘′ 𝒙𝒙′
(千万円)
予測値
A 8 5 6 8.1
B 9 5 8 9
C 12 7 10 11.7
D 11 5 12 10.9
E 13 8 12 13.4
F 17 12 12 16.9
𝑅𝑅2 = 1 −
∑𝑖𝑖=1
𝑁𝑁
2
∑𝑖𝑖=1
𝑁𝑁
= 1 −
0.35
51.3
= 0.993

演習3
40
 決定係数を求めて、重回帰式の精度を分析しなさい。
 タイトル「演習レポート」、日付、学生番号、氏名を用紙の
一番上に記載
売上額𝑦𝑦
(千万円)
実績値
広告費𝑥𝑥1
(百万円)
(人)
売上額𝑦𝑦
(千万円)
予測値
A 8 5 6 8.1
B 9 5 8 9
C 12 7 10 11.7
D 11 5 12 10.9
E 13 8 12 13.4
F 17 12 12 16.9
G 50 17 14 22.1
𝑅𝑅2
= 1 −
∑𝑖𝑖=1
𝑁𝑁
2
∑𝑖𝑖=1
𝑁𝑁

内容：
42

重回帰分析の利用時の注意点
43
 必要なデータ数：
 パラメータ（𝒘𝒘、𝑏𝑏）の数より多いのが基本
 一般的にはパラメータ数の10倍が目安
 決定係数は説明変数が増えるほど1に近づく
 説明変数が多い場合は、自由度調整済み決定係数を用いる
Peter Peduzzi et al., 1995
�𝑅𝑅2 = 1 −
∑𝑖𝑖=1
𝑁𝑁
𝑦𝑦𝑖𝑖
− �𝑓𝑓𝒘𝒘′ 𝒙𝒙′𝑖𝑖
2
𝑁𝑁 − 𝐷𝐷 − 1
∑𝑖𝑖=1
𝑁𝑁
𝑁𝑁 − 1
𝑅𝑅2 = 1 −
0.35
51.3
= 0.993
自由度調整済み
決定係数
�𝑅𝑅2
= 1 −
0.35/(6 − 2 − 1)
51.3/(6 − 1)
= 0.989
決定係数
説明変数が多いほど厳しい評価

重回帰分析の利用時の注意点 2
44
 説明変数間の1次従属性：多重共線性（マルチコ）
 説明変数間が１次従属の場合行列𝐗𝐗𝐗𝐗Τが正則でなくなり不安定になる
 線形モデルを用いる重回帰では非線形な関数を表現不可
𝒘𝒘′
= 𝐗𝐗𝐗𝐗Τ −𝟏𝟏
𝐗𝐗𝐗𝐗 𝒘𝒘′
= 𝐗𝐗𝐗𝐗Τ
+ 𝜆𝜆𝑰𝑰
−𝟏𝟏
𝐗𝐗𝐗𝐗
𝑰𝑰：単位行列
𝜆𝜆：スカラー
カーネルモデル
対策：行列 𝐗𝐗𝐗𝐗Τ の対角成分に小さい値を足すことにより正則化
カーネル関数を用いた関係モデル（カーネルモデル）に拡張

課題準備
45
 ExcelまたはPythonを用いて、以下の家賃データに対して
重回帰分析を行いなさい。
 データはmoodleからダウンロードしてください。
目的変数𝑦𝑦 ：家賃（円）
説明変数𝑥𝑥1 ：徒歩（分）
説明変数𝑥𝑥2 ：専有面積（平方m）

課題
46
1. 家賃データに対する重回帰式の偏回帰係数（𝒘𝒘と𝑏𝑏）を
求めなさい。
2. 説明変数（徒歩、専有面積）の目的変数（家賃）への影響に
ついて考察しなさい。
3. 決定係数を求めて、重回帰分析の精度を評価しなさい。
4. 家賃データに対する重回帰式の標準偏回帰係数（𝒘𝒘と𝑏𝑏）を
求め、説明変数の重要度について考察しなさい。

レポートの提出方法
47
 演習レポート：
 タイトル「演習レポート」、日付・学生番号・氏名を用紙の一番上に記載
 課題レポート：
 タイトル「課題レポート」、出題日・学生番号・氏名を用紙の一番上に記載
 2ページ以上になる場合は、ホッチキス留め
 A4サイズの用紙を使用
 一度に複数の課題レポートを提出する場合出題日ごとに別々に綴じる

データ解析6 重回帰分析

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie データ解析6 重回帰分析

Ähnlich wie データ解析6 重回帰分析 (20)

Mehr von Hirotaka Hachiya

Mehr von Hirotaka Hachiya (14)

データ解析6 重回帰分析