SlideShare ist ein Scribd-Unternehmen logo
1 von 33
Downloaden Sie, um offline zu lesen
線形回帰モデルにおける説明変数の選択と
回帰係数の縮小推定法:Lasso と Elastic Net
中村知繁
慶應義塾大学理工学部数理科学科南研究室

February 6, 2014
Contents
イントロダクション - 研究背景

Lasso - L1 罰則による、縮小推定と変数選択
Lasso の問題点 - n ≫ p 問題とグループ化効果
Elastic Net - Lasso に変わる新たな手法
Prostate Cancer Data
音声認識
まとめ
今後の課題

2 / 33
研究背景
線形回帰法は、一般的に目的変数 Yn×1 を、説明変数 X1 , ..., Xp の線形
結合で説明する方法である。このような方法のうち最も基本的なものの
1つは、最小二乗法 (OLS 法) であり、OLS 法を利用した回帰係数の推
定値は以下のように表される

ˆ
β(OLS) = (X T X)−1 X T y

(1)

回帰における重要な 2 つの視点
▶

データの予測精度 - 学習データで構築したモデルが、未知のデー
タが得られたとき、結果をどの程度の精度で予測できるか。

▶

モデルの解釈 - 目的変数と説明変数の関係性をみるために、目的
変数に対して影響の大きい説明変数のみで、モデルを構築できて
いるか。

3 / 33
研究背景
線形回帰法は、一般的に目的変数 Yn×1 を、説明変数 X1 , ..., Xp の線形
結合で説明する方法である。このような方法のうち最も基本的なものの
1つは、最小二乗法 (OLS 法) であり、OLS 法を利用した回帰係数の推
定値は以下のように表される

ˆ
β(OLS) = (X T X)−1 X T y

(1)

回帰における重要な 2 つの視点
▶

データの予測精度 - 学習データで構築したモデルが、未知のデー
タが得られたとき、結果をどの程度の精度で予測できるか。

▶

モデルの解釈 - 目的変数と説明変数の関係性をみるために、目的
変数に対して影響の大きい説明変数のみで、モデルを構築できて
いるか。

4 / 33
研究背景 (続き)
予測精度の向上
▶

リッジ回帰:L2 罰則を課したもとで、残差二乗和を最小化
する

▶

問題点:回帰係数を縮小推定するが、一方で説明変数の選択
ができない。

説明変数の選択
▶

変数増加法・変数減少法・最良変数選択法:AIC などを基準
にして、説明変数の選択を行う。

▶

問題点:連続的な説明変数の選択ができない。計算コストが
大きい。

5 / 33
研究背景 (続き)
予測精度の向上
▶

リッジ回帰:L2 罰則を課したもとで、残差二乗和を最小化
する

▶

問題点:回帰係数を縮小推定するが、一方で説明変数の選択
ができない。

説明変数の選択
▶

変数増加法・変数減少法・最良変数選択法:AIC などを基準
にして、説明変数の選択を行う。

▶

問題点:連続的な説明変数の選択ができない。計算コストが
大きい。

6 / 33
Lasso

Lasso とは
▶

Lasso:Least Absolute Shrinkage and Selection Operator

▶

Tibshirani(1996)

特徴
▶

L1 罰則のもとで、残差二乗和を最小化する

▶

回帰係数を縮小推定することで、予測精度を向上させる。

▶

連続的な変数の選択が可能。解は係数のパス図で得られる。

▶

上記 2 つを同時に行うことができる。

7 / 33
Lasso 続き
定義 (Lasso)
▶

X は n × p の標準化された共変量の行列。

▶

y は平均を 0 に調整した、目的変数のベクトル。

▶

Lasso の推定量は
ˆ
β(Lasso) = arg min ||y−Xβ||2 +λ|β|1 , |β|1 =
β

p
∑

|βj | (2)

j=1

または、

ˆ
β(lasso) = arg min ||y −Xβ||2 , subject to
β

p
∑

|βj | ≤ t. (3)

j=1

8 / 33
Lasso 続き
p=2 の場合で Lasso の性質を確認する:縮小推定
▶

簡単のため、共変量の個数を 2 つとする

▶

共変量ベクトルを x1 , x2 、その相関係数を xT x2 = ρ とする。
1

▶

ˆ
ˆ
ここで、β1 (ols) > 0, β2 (ols) > 0 とすると、Lasso の推定量は、(3)
から、以下のように表される。
)
( ) (ˆ
λ
ˆ
β1 (ols) − 2(1+ρ)
β1
ˆ
ˆ = β2 (ols) − λ
β2
2(1+ρ)

+

▶

Lasso は各回帰係数を同じ大きさだけ縮小して推定する。

▶

縮小した結果 0 以下になった推定量を 0 にする : 変数選択の性質

9 / 33
Lasso 続き

p=2 の場合で Lasso の性質を確認する:縮小推定 (続き)
▶

ˆ
ˆ
上のスライドの結果と β1 + β2 = t を用いて、ρ を式から消去する
と、Lasso の推定量は
(
)
ˆ
ˆ
t
β1 (ols) − β2 (ols)
ˆ
β1 (lasso) =
+
2
2
+
(
)
ˆ1 (ols) − β2 (ols)
ˆ
t
β
ˆ
β2 (lasso) =
−
2
2
+

▶

Lasso の推定量は説明変数間の相関の影響を受けない

10 / 33
Lasso 続き

Lasso を解くためのアルゴリズム:LARS 法
▶

Lasso を解析的に解くことは難しい。解析的に解く場合の計
算コストは O(2p ) である (Tibshirani 1996)

▶

Lasso が扱う問題は p が大きい事例が多いので、指数的に計
算量が大きくなる方法では対応できない。

▶

LARS(Efron 2004) のアルゴリズムは計算コスト O(p3 + np2 )
で解くことができる。

▶

LARS : Least Angle Regression

▶

より高速なアルゴリズムとして Coordinate Descent がある。

▶

詳しくは卒論に書いてありますが、ここでは紹介に留めます。

11 / 33
Lasso 続き

シュミレーション : Lasso とリッジ回帰の性質の比較
▶

2 つの独立な変数 z1 と z2 を以下のように定義する
z1 ∼ U (0, 20)

z2 ∼ U (0, 20)

▶

目的変数ベクトルを y = z1 + 0.1 × z2 + N (0, 1) とする

▶

観測された説明変数を以下のように定義する

x1 = z 1 + ϵ 1
x4 = z 2 + ϵ 4
▶

x2 = −z1 + ϵ2
x5 = −z2 + ϵ5

x3 = z1 + ϵ3
x6 = z2 + ϵ6

データ (X, y) にリッジ回帰と、Lasso を当てはめて推定値求
めた結果が次の図。

12 / 33
Lasso 続き : シュミレーション結果

Figure: 左図:Lasso の解のパス図.右図:リッジ回帰の解のパス図:横軸
は |β|1 / max |β|1 の大きさ、縦軸は回帰係数の推定量

13 / 33
Lasso の課題
Lasso の問題点
▶

p ≫ n 問題 (West et al. 2001):p ≫ n の状況において、共変
量が p 個あった場合でも、Lasso が選択できる共変量の個数
は n 個である(分散共分散行列のランクが n になるため)
。

▶

グループ化効果がない:Lasso は変数間の相関を考慮できな
い。高い相関を持ついくつかの変数があるとき、それらをグ
ループ化された変数とよび、Lasso は、その中から 1 つしか
モデルに取り込むことはできない。

▶

n > p での問題:説明変数間の相関が高い場合には、グルー
プ化変数を無視する性質によってリッジ回帰よりも予測精度
が悪くなることがある。

14 / 33
Lasso の課題 続き

Lasso が課題になる具体的な例
▶

白血病の人の遺伝子データ, Golub et al. Science(1999)。

▶

データのサンプル数 72 個, 共変量の数 7129 個.(p ≫ n 問題)

▶

遺伝子データでは、一般的に p ≈ 10000 で、サンプル数
n < 100 である。

▶

遺伝子データでは、一般的に遺伝子同士の結合 (”Pathway”)
が似通っていることから、共変量同士の相関が高いケースが
多く、グループ化された変数が存在する。

▶

→ 解決策の1つとして、(Na¨
ıve) Elastic Net がある。

15 / 33
Elastic Net
定義 (Na¨ Elastic Net : Na¨ ENet)
ıve
ıve
λ1 > 0, λ2 > 0 として、
ˆ
β(Naive ENet) = arg min ||y − Xβ||2 + λ2 ||β||2 + λ1 |β|1
β

または、0 ≤ α ≤ 1 として、これと同値な式

ˆ
β(Naive ENet) = arg min ||y − Xβ||2 , s.t. (1 − α)|β|1 + α||β||2 ≤ t (4)
β

を Na¨ ENet の推定量と定義する。
ıve

Na¨ ENet の特徴
ıve
▶

λ1 → 0 とするとリッジ回帰.λ2 → 0 とすると Lasso になる.

▶

推定量の計算は、次のスライドのように定義の式を変形すること
で Lasso と同様に LARS で解くことができる。

16 / 33
Elastic Net 続き

Na¨ ENet の特徴
ıve
▶

λ1 → 0 とするとリッジ回帰.λ2 → 0 とすると Lasso になる.

▶

計算は、次のスライドのように定義の式を変形することで
Lasso と同様に LARS で解くことができる。

▶

p >> n 問題を解決:(refenet) 式により、Na¨ ENet は n × p
ıve
行列を (n + p) × p に拡張した後に Lasso のアルゴリズムを適
応し推定値を求めるため、p 個の共変量をすべてモデルに取
り込むことができる。

17 / 33
Elastic Net 続き
Na¨ ENet の解法
ıve
まず、以下のように X ∗ と、y ∗ を定義する。
(
)
( )
X
y
∗
∗
X(n+p)×p = (1 + λ2 )−1/2 √
y(n+p) =
(5)
0
λ2 Ip
√
√
ここで、γ = λ1 / (1 + λ2 ), β ∗ = (1 + λ2 )β とすると、次が成り立つ
ため Lasso 同様に LARS 法で解くことができる。

ˆ
β(Naive ENet) = arg min ||y ∗ − X ∗ β ∗ ||2 + γ|β ∗ |1
β

以上より、

1
ˆ
ˆ
β(Naive ENet) = √
β∗
1 + λ2
▶

(5) から、X のランクが p になり、p ≫ n 問題を解消できることが
示される。

18 / 33
Elastic Net 続き : グループ化効果
一般的に罰則付きの最小自乗法は、J(β) を罰則項として次のように表される。

ˆ
β = arg min |y − Xβ|2 + λJ(β)
β

(6)

′

ここで、β = (β1 , · · · , βi , · · · , βj , · · · , βp )、β = (β1 , · · · , βj , · · · , βi , · · · , βp ) とし
′
て、J(β) = J(β ) が成立することを仮定する。すると、次の補題が示せる。

補題
xi = xj (i, j ∈ 1, 2, · · · , p) であると仮定する。
ˆ
ˆ
(a) J(·) が狭義凸関数であるならば、βi = βj が全ての λ > 0 に対して成り立つ。
ˆ ˆ
ˆ
(b) J(β) = |β|1 であるならば、βi βj ≥ 0 かつ、β ∗ は方程式 (7) の異なる最小の値であ
り、全ての s ∈ [0, 1] に対して、以下が成立する。
ˆ∗
βk


ˆ
 βk
ˆ
ˆ
=
(βi + βj ) · (s)
 ˆ
ˆ
(βi + βj ) · (1 − s)

if k ̸= i and k ̸= j,
if k = i
if k = j

→ Lasso の罰則はグループ化効果を持たないことが示せる。一方の Elastic Net の罰則は
グループ化効果を持つことが示唆される。

19 / 33
Elastic Net 続き : グループ化効果
定理
データセット (y, X) とパラメータ (λ1 , λ2 ) が与えられたとき、
ˆ
ıve
β(λ1 , λ2 ) を Na¨ elastic net の推定量とする。ここで、
ˆi (λ1 , λ2 )βj (λ1 , λ2 ) > 0 と仮定し、以下で Dλ ,λ (i, j) を定義
ˆ
β
1 2
する。
1 ˆ
ˆ
Dλ1 ,λ2 (i, j) =
|βi (λ1 , λ2 ) − βj (λ1 , λ2 )|
|y|1
このとき、ρ = xT xj (xi と xj の相関係数) とすると、以下が成り
i
立つ。
1√
Dλ1 ,λ2 (i, j) ≤
2(1 − ρ)
λ2
▶

相関係数によって係数の差の絶対値は押さえ込まれる。
ρ = 1 とすると、2 つの回帰係数の推定量が一致することが
わかる。→ Na¨ ENet はグループ化効果を持つ。
ıve

20 / 33
Elastic Net 続き
Na¨ ENet の課題と Elastic Net の定義
ıve
▶

課題:経験的に、Na¨ ENet は良いパフォーマンス示さない
ıve
ことが知られている。

▶

原因:リッジ回帰と Lasso のによって、回帰係数の推定値が
2 重に縮小されているため。

▶

対処:Na¨ ENet の回帰係数に対して、リスケーリングを
ıve
行ったものを ENet の推定値とする。実際、リッジ回帰にお
ける回帰係数の縮小は 1/(1 + λ2 ) であるから、その大きさに
対応する。

ˆ
ˆ
β (ENet) = (1 + λ2 )β (Na¨ ENet)
ıve

(7)

21 / 33
Elastic Net 続き : シュミレーション (続き)

Figure: 左:Lasso.真ん中:リッジ回帰、右:ENet:横軸は |β|1 / max |β|1
の大きさ、縦軸は回帰係数の推定量。Lasso には、グループ化効果は見
て取れないが、Elastic Net はグループ化効果を示している。

22 / 33
結果:前立腺がんのデータより
▶

8 つの臨床的尺度を説明変数。目的変数は前立腺のある抗体
の量の対数をとったもの。
Table: 前立腺がんのデータ:各方法別の比較

Method
OLS
リッジ回帰
Lasso
Na¨ elastic net
ıve
Elastic net
▶
▶

Parameter
λ=1
s = 0.35
λ = 1, s = 0.74
λ = 1000, s = 0.18

Test Prediction Error
0.522
0.517
0.471
0.450
0.349

Variables Selectied
すべて
すべて
(1,2,4,5,8)
(1,2,4,5,6,7,8)
(1,2,5,6,8)

λ はリッジの罰則の重みを表し、s は LASSO の罰則の重みを
表している。また、λ > 0、0 < s < 1 である。
このケースにおいては、Elastic Net は他のどの方法よりも優
れた結果を残している。
23 / 33
推定値のパス図

Figure: 左図:Lasso の解のパス図.右図:Elastic Net の解のパス図

24 / 33
音声認識への応用
音声認識とは
▶ 音素認識 (音声認識) は、ヒトの話す音声言語をコンピューターによって解析し、話
している内容を文字データとして取り出す方法。
▶ 具体的には、大量の発話を記録した学習用データから音声の特徴を蓄積し、入力さ
れた音声信号と、蓄積された特徴を比較して、最も特徴の近い文字を認識結果とし
て出力する

モチベーション
▶ 音素判別における課題:波形が類似している 2 つの音を分離する場合、分離精度が
悪くなる。
▶ 今回は機械で見分ける上で難しいとされる”aa”と”ao”という 2 つの音を、回帰法
によって分離する。その際、用いた手法の 精度を比較と、 特徴量抽出ができてい
るかを確認する。
▶ 用いる手法は、最小自乗法、リッジ回帰、変数増加法、LASSO、Elastic Net。

25 / 33
音声データの解析
データと解析手法
▶

50 名の男性の連続的な発話から、 aa”の音声データと、”ao”の音
”
声データを抽出した、それぞれのサンプル数は 695 個と 1022 個で
ある。

▶

共変量は各周波数毎で、256 個ある。目的変数は以下のようにした。
{
1
(音声データが”aa”であるとき)
Y =
0
(音声データが”ao”であるとき)

▶

各手法の分離精度は、”aa”と”ao”のデータをランダムに 4 分割し、
3 つを学習用データ、1 つをテスト用データとするクロスバリデー
ション法を用いて、平均正答率で測る。
また、特徴量を抽出できているか確認するため、全データを用いて
モデルを構築する際に取り込まれる変数を、そのモデルが取り込
む選択する特徴量とした。

▶

26 / 33
音声データの解析結果
解析結果:予測精度
▶

解析結果を見ると、説明変数を選択する手法を用いた方が、
分離能力は向上することがわかる。

▶

説明変数を選択する手法の中でも、変数増加法よりも
LASSO 及び、(Na¨
ıve)ENet の方がより予測精度ではより良い
パフォーマンスを示している。

Table: 音素解析:方法別の結果比較
手法
最小二乗法
変数増加法
リッジ回帰
Lasso
Na¨ elastic net
ıve
Elastic net

パラメータ

λ = 2.0
s = 0.09
λ = 1, s = 0.31
λ = 1000, s = 0.30

正答率
0.698
0.768
0.704
0.794
0.797
0.808

選択された変数の数
すべて
47
すべて
32
43
42

27 / 33
特徴量抽出
特徴量抽出とは
頑健な学習モデルの構築のため、特徴集合(説明変数)のうち意味のある部分集合だけを
選択する手法。

Figure: ”aa”と”ao”の音素の Log-Periodgram を 100 個ずつプロット
している。ここでは、40-70 の周波数の領域が特徴量と見て取ることが
できる。

28 / 33
音声データの解析結果
解析結果:特徴量抽出
▶

変数増加法は、特徴量をうまく抽出できていない。

▶

LASSO, (Na¨ ENet は特徴量を抽出しているが、LASSO は
ıve)
グループ化効果を持たないため、特徴量に取りこぼしがある。

▶

ENet, Na¨ ENet は特徴量を取りこぼしなくモデルに取り込
ıve
んでいる。
Table: 音素解析:用いた 4 つの変数選択法で選択された変数
手法
変数増加法

Lasso
Na¨ elastic net
ıve
Elastic net

選択された変数
2 4 8 9 12 13 21 22 30 32 38 40 41 42 48 55 56 58 60 63 67 71 77 80 122 124 153
154 159 161 176 180 182 185 187 197 200 201 204 218 224 226 227 231 242 251 256
4 23 37 40 42 43 44 45 47 48 49 53 59 62 63 64 65 93 103 132
141 152 167 184 211 222 223 231 234 235 238 241
9 19 23 26 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56
57 58 59 60 61 62 63 64 65 66 69 85 92 100 109 224 227 228 231 247
4 23 37 38 39 40 41 42 43 44 45 46 47 48 49 52 53 54 55 56 57 58 59 60 61 62 63 64
65 79 221 223 231 232 234 236 246 251 253 254 255 256

29 / 33
まとめ
▶

昨今のデータ解析では、共変量が多いケースがある。その場
合に、予測精度の向上と、解釈可能なモデルの構築がしばし
ば課題になる。

▶

Lasso は説明変数の選択を行い、スパースなモデルを構築す
るが、一方でグループ化効果を取り込むことができず、予測
精度が下がることがある。

▶

Lasso はその性質上、p >> n 問題には対応できない。

▶

Elastic Net は、上記の負の側面を解消することで、予測精度
を向上させる一方、変数を選択し解釈可能なモデルを与える。

▶

Elastic Net は特徴量抽出の点からも、優れた結果を残すこと
が音素解析の事例から理解できた。遺伝子解析分野への応用
が期待できる。

30 / 33
今後の課題と展望
計算量の視点
▶

今回、Lasso と Elastic Net の解法には、LARS アルゴリズム
を用いたが、遺伝子解析などケースで変数が大規模化
(p ≈ 10000) する場合には、LARS アルゴリズムでは計算量が
多く時間がかかることが知られている。

▶

この問題の解消には、Friedman(2009) で提案される
Coordinate Descent が有効であり、現在の R Package ではこ
の方法を用いて推定量が計算されている。

Elastic Net 罰則を用いた応用手法
▶

スパース主成分分析

▶

サポートカーネルマシーン

31 / 33
参考文献

▶

Bradley Efron, Trevor Hastie, Iain Johnstone, Robert
Tibshirani(2004). LEAST ANGLE REGRESSION

▶

Hui Zou and Trevor Hastie(2005). Regularization and variable
selection via the elastic net

▶

Robert Tibshirani (1996). Regression Shrinkage and Selection
via the Lasso

▶

Trevor Hastie, Robert Tibshirani, Jerome Friedman(2009).
The Elements of Statistical Learning 2nd Edition

32 / 33
ご清聴ありがとうございました

33 / 33

Weitere ähnliche Inhalte

Was ist angesagt?

Rで階層ベイズモデル
Rで階層ベイズモデルRで階層ベイズモデル
Rで階層ベイズモデル
Yohei Sato
 
階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門
shima o
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類
Shintaro Fukushima
 
局所特徴量と統計学習手法による物体検出
局所特徴量と統計学習手法による物体検出局所特徴量と統計学習手法による物体検出
局所特徴量と統計学習手法による物体検出
MPRG_Chubu_University
 
パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化
Miyoshi Yuya
 

Was ist angesagt? (20)

Rで階層ベイズモデル
Rで階層ベイズモデルRで階層ベイズモデル
Rで階層ベイズモデル
 
[DL輪読会]Deep Learning 第2章 線形代数
[DL輪読会]Deep Learning 第2章 線形代数[DL輪読会]Deep Learning 第2章 線形代数
[DL輪読会]Deep Learning 第2章 線形代数
 
DeepLearning 輪読会 第1章 はじめに
DeepLearning 輪読会 第1章 はじめにDeepLearning 輪読会 第1章 はじめに
DeepLearning 輪読会 第1章 はじめに
 
顕著性マップの推定手法
顕著性マップの推定手法顕著性マップの推定手法
顕著性マップの推定手法
 
階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門
 
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類
 
[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習
 
ブースティング入門
ブースティング入門ブースティング入門
ブースティング入門
 
局所特徴量と統計学習手法による物体検出
局所特徴量と統計学習手法による物体検出局所特徴量と統計学習手法による物体検出
局所特徴量と統計学習手法による物体検出
 
機械学習モデルの列挙
機械学習モデルの列挙機械学習モデルの列挙
機械学習モデルの列挙
 
数式を(ちょっとしか)使わずに隠れマルコフモデル
数式を(ちょっとしか)使わずに隠れマルコフモデル数式を(ちょっとしか)使わずに隠れマルコフモデル
数式を(ちょっとしか)使わずに隠れマルコフモデル
 
金融時系列のための深層t過程回帰モデル
金融時系列のための深層t過程回帰モデル金融時系列のための深層t過程回帰モデル
金融時系列のための深層t過程回帰モデル
 
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
 
One Class SVMを用いた異常値検知
One Class SVMを用いた異常値検知One Class SVMを用いた異常値検知
One Class SVMを用いた異常値検知
 
[DL輪読会]Deep Learning 第18章 分配関数との対峙
[DL輪読会]Deep Learning 第18章 分配関数との対峙[DL輪読会]Deep Learning 第18章 分配関数との対峙
[DL輪読会]Deep Learning 第18章 分配関数との対峙
 
パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化
 
正準相関分析
正準相関分析正準相関分析
正準相関分析
 
深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習
 
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説
 

Andere mochten auch

Stochastic Alternating Direction Method of Multipliers
Stochastic Alternating Direction Method of MultipliersStochastic Alternating Direction Method of Multipliers
Stochastic Alternating Direction Method of Multipliers
Taiji Suzuki
 

Andere mochten auch (13)

スパース性に基づく機械学習 4.1 ノイズなしL1ノルム最小化問題の問題設定
スパース性に基づく機械学習 4.1 ノイズなしL1ノルム最小化問題の問題設定スパース性に基づく機械学習 4.1 ノイズなしL1ノルム最小化問題の問題設定
スパース性に基づく機械学習 4.1 ノイズなしL1ノルム最小化問題の問題設定
 
Jokyokai
JokyokaiJokyokai
Jokyokai
 
岩波データサイエンス_Vol.5_勉強会資料02
岩波データサイエンス_Vol.5_勉強会資料02岩波データサイエンス_Vol.5_勉強会資料02
岩波データサイエンス_Vol.5_勉強会資料02
 
岩波データサイエンス_Vol.5_勉強会資料01
岩波データサイエンス_Vol.5_勉強会資料01岩波データサイエンス_Vol.5_勉強会資料01
岩波データサイエンス_Vol.5_勉強会資料01
 
FOBOS
FOBOSFOBOS
FOBOS
 
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
 
Stochastic Alternating Direction Method of Multipliers
Stochastic Alternating Direction Method of MultipliersStochastic Alternating Direction Method of Multipliers
Stochastic Alternating Direction Method of Multipliers
 
Sparse estimation tutorial 2014
Sparse estimation tutorial 2014Sparse estimation tutorial 2014
Sparse estimation tutorial 2014
 
Oracle property and_hdm_pkg_rigorouslasso
Oracle property and_hdm_pkg_rigorouslassoOracle property and_hdm_pkg_rigorouslasso
Oracle property and_hdm_pkg_rigorouslasso
 
Introduction of "the alternate features search" using R
Introduction of  "the alternate features search" using RIntroduction of  "the alternate features search" using R
Introduction of "the alternate features search" using R
 
Ibis2016
Ibis2016Ibis2016
Ibis2016
 
PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)
 
スパースモデリング入門
スパースモデリング入門スパースモデリング入門
スパースモデリング入門
 

Ähnlich wie 卒論プレゼンテーション -DRAFT-

一般化線形混合モデル isseing333
一般化線形混合モデル isseing333一般化線形混合モデル isseing333
一般化線形混合モデル isseing333
Issei Kurahashi
 

Ähnlich wie 卒論プレゼンテーション -DRAFT- (20)

東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
 
2014年5月14日_水曜セミナー発表内容_FINAL
2014年5月14日_水曜セミナー発表内容_FINAL2014年5月14日_水曜セミナー発表内容_FINAL
2014年5月14日_水曜セミナー発表内容_FINAL
 
回帰
回帰回帰
回帰
 
PRML chapter7
PRML chapter7PRML chapter7
PRML chapter7
 
統計的学習の基礎 5章前半(~5.6)
統計的学習の基礎 5章前半(~5.6)統計的学習の基礎 5章前半(~5.6)
統計的学習の基礎 5章前半(~5.6)
 
PRML セミナー
PRML セミナーPRML セミナー
PRML セミナー
 
自然科学の統計学2.2 slideshare
自然科学の統計学2.2 slideshare自然科学の統計学2.2 slideshare
自然科学の統計学2.2 slideshare
 
Rのoptim関数でロバスト回帰(LMSとLAV)
Rのoptim関数でロバスト回帰(LMSとLAV)Rのoptim関数でロバスト回帰(LMSとLAV)
Rのoptim関数でロバスト回帰(LMSとLAV)
 
Prml9
Prml9Prml9
Prml9
 
20140514_水曜セミナー発表資料_中村知繁
20140514_水曜セミナー発表資料_中村知繁20140514_水曜セミナー発表資料_中村知繁
20140514_水曜セミナー発表資料_中村知繁
 
Deep learning _linear_algebra___probablity___information
Deep learning _linear_algebra___probablity___informationDeep learning _linear_algebra___probablity___information
Deep learning _linear_algebra___probablity___information
 
双対性
双対性双対性
双対性
 
東京都市大学 データ解析入門 5 スパース性と圧縮センシング 2
東京都市大学 データ解析入門 5 スパース性と圧縮センシング 2東京都市大学 データ解析入門 5 スパース性と圧縮センシング 2
東京都市大学 データ解析入門 5 スパース性と圧縮センシング 2
 
東京都市大学 データ解析入門 2 行列分解 1
東京都市大学 データ解析入門 2 行列分解 1東京都市大学 データ解析入門 2 行列分解 1
東京都市大学 データ解析入門 2 行列分解 1
 
ラビットチャレンジレポート 機械学習
ラビットチャレンジレポート 機械学習ラビットチャレンジレポート 機械学習
ラビットチャレンジレポート 機械学習
 
Sparse models
Sparse modelsSparse models
Sparse models
 
一般化線形混合モデル isseing333
一般化線形混合モデル isseing333一般化線形混合モデル isseing333
一般化線形混合モデル isseing333
 
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
 
機械学習と深層学習の数理
機械学習と深層学習の数理機械学習と深層学習の数理
機械学習と深層学習の数理
 
Casual learning machine learning with_excel_no5
Casual learning machine learning with_excel_no5Casual learning machine learning with_excel_no5
Casual learning machine learning with_excel_no5
 

Mehr von Tomoshige Nakamura

20140507_品川女子学院_講義2
20140507_品川女子学院_講義220140507_品川女子学院_講義2
20140507_品川女子学院_講義2
Tomoshige Nakamura
 
品川女子_講義1_共感_定義
品川女子_講義1_共感_定義品川女子_講義1_共感_定義
品川女子_講義1_共感_定義
Tomoshige Nakamura
 
品川女子学院_講義1_デザイン思考_共感
品川女子学院_講義1_デザイン思考_共感品川女子学院_講義1_デザイン思考_共感
品川女子学院_講義1_デザイン思考_共感
Tomoshige Nakamura
 
ライフサイクルからの脱却
ライフサイクルからの脱却ライフサイクルからの脱却
ライフサイクルからの脱却
Tomoshige Nakamura
 
20130125 日本を創り継ぐプロジェクト
20130125 日本を創り継ぐプロジェクト20130125 日本を創り継ぐプロジェクト
20130125 日本を創り継ぐプロジェクト
Tomoshige Nakamura
 

Mehr von Tomoshige Nakamura (20)

ベイズ推論とシミュレーション法の基礎
ベイズ推論とシミュレーション法の基礎ベイズ推論とシミュレーション法の基礎
ベイズ推論とシミュレーション法の基礎
 
多重代入法(Multiple Imputation)の発表資料
多重代入法(Multiple Imputation)の発表資料多重代入法(Multiple Imputation)の発表資料
多重代入法(Multiple Imputation)の発表資料
 
20141224_水曜セミナー
20141224_水曜セミナー20141224_水曜セミナー
20141224_水曜セミナー
 
20140727_第1回スポーツデータアナリティクス基礎講座
20140727_第1回スポーツデータアナリティクス基礎講座 20140727_第1回スポーツデータアナリティクス基礎講座
20140727_第1回スポーツデータアナリティクス基礎講座
 
20140625_品川女子学院_講義3
20140625_品川女子学院_講義320140625_品川女子学院_講義3
20140625_品川女子学院_講義3
 
【書きかけ】一般化線形モデルの流れ
【書きかけ】一般化線形モデルの流れ【書きかけ】一般化線形モデルの流れ
【書きかけ】一般化線形モデルの流れ
 
20140512_水曜セミナードラフトv1
20140512_水曜セミナードラフトv120140512_水曜セミナードラフトv1
20140512_水曜セミナードラフトv1
 
20140507_品川女子学院_講義2
20140507_品川女子学院_講義220140507_品川女子学院_講義2
20140507_品川女子学院_講義2
 
20140507_品川女子学院_講義2
20140507_品川女子学院_講義220140507_品川女子学院_講義2
20140507_品川女子学院_講義2
 
自己紹介_140416
自己紹介_140416自己紹介_140416
自己紹介_140416
 
品川女子_講義1_共感_定義
品川女子_講義1_共感_定義品川女子_講義1_共感_定義
品川女子_講義1_共感_定義
 
品川女子学院_講義1_デザイン思考_共感
品川女子学院_講義1_デザイン思考_共感品川女子学院_講義1_デザイン思考_共感
品川女子学院_講義1_デザイン思考_共感
 
日本を創り継ぐプロジェクト紹介資料
日本を創り継ぐプロジェクト紹介資料日本を創り継ぐプロジェクト紹介資料
日本を創り継ぐプロジェクト紹介資料
 
【第3回日本を創り継ぐプロジェクト】説明資料
【第3回日本を創り継ぐプロジェクト】説明資料【第3回日本を創り継ぐプロジェクト】説明資料
【第3回日本を創り継ぐプロジェクト】説明資料
 
Design Thinking Workshop
Design Thinking WorkshopDesign Thinking Workshop
Design Thinking Workshop
 
Design Thinking Workshop
Design Thinking WorkshopDesign Thinking Workshop
Design Thinking Workshop
 
ライフサイクルからの脱却
ライフサイクルからの脱却ライフサイクルからの脱却
ライフサイクルからの脱却
 
Workshop nara
Workshop naraWorkshop nara
Workshop nara
 
Workshop nara
Workshop naraWorkshop nara
Workshop nara
 
20130125 日本を創り継ぐプロジェクト
20130125 日本を創り継ぐプロジェクト20130125 日本を創り継ぐプロジェクト
20130125 日本を創り継ぐプロジェクト
 

Kürzlich hochgeladen

Kürzlich hochgeladen (12)

論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 

卒論プレゼンテーション -DRAFT-

  • 1. 線形回帰モデルにおける説明変数の選択と 回帰係数の縮小推定法:Lasso と Elastic Net 中村知繁 慶應義塾大学理工学部数理科学科南研究室 February 6, 2014
  • 2. Contents イントロダクション - 研究背景 Lasso - L1 罰則による、縮小推定と変数選択 Lasso の問題点 - n ≫ p 問題とグループ化効果 Elastic Net - Lasso に変わる新たな手法 Prostate Cancer Data 音声認識 まとめ 今後の課題 2 / 33
  • 3. 研究背景 線形回帰法は、一般的に目的変数 Yn×1 を、説明変数 X1 , ..., Xp の線形 結合で説明する方法である。このような方法のうち最も基本的なものの 1つは、最小二乗法 (OLS 法) であり、OLS 法を利用した回帰係数の推 定値は以下のように表される ˆ β(OLS) = (X T X)−1 X T y (1) 回帰における重要な 2 つの視点 ▶ データの予測精度 - 学習データで構築したモデルが、未知のデー タが得られたとき、結果をどの程度の精度で予測できるか。 ▶ モデルの解釈 - 目的変数と説明変数の関係性をみるために、目的 変数に対して影響の大きい説明変数のみで、モデルを構築できて いるか。 3 / 33
  • 4. 研究背景 線形回帰法は、一般的に目的変数 Yn×1 を、説明変数 X1 , ..., Xp の線形 結合で説明する方法である。このような方法のうち最も基本的なものの 1つは、最小二乗法 (OLS 法) であり、OLS 法を利用した回帰係数の推 定値は以下のように表される ˆ β(OLS) = (X T X)−1 X T y (1) 回帰における重要な 2 つの視点 ▶ データの予測精度 - 学習データで構築したモデルが、未知のデー タが得られたとき、結果をどの程度の精度で予測できるか。 ▶ モデルの解釈 - 目的変数と説明変数の関係性をみるために、目的 変数に対して影響の大きい説明変数のみで、モデルを構築できて いるか。 4 / 33
  • 7. Lasso Lasso とは ▶ Lasso:Least Absolute Shrinkage and Selection Operator ▶ Tibshirani(1996) 特徴 ▶ L1 罰則のもとで、残差二乗和を最小化する ▶ 回帰係数を縮小推定することで、予測精度を向上させる。 ▶ 連続的な変数の選択が可能。解は係数のパス図で得られる。 ▶ 上記 2 つを同時に行うことができる。 7 / 33
  • 8. Lasso 続き 定義 (Lasso) ▶ X は n × p の標準化された共変量の行列。 ▶ y は平均を 0 に調整した、目的変数のベクトル。 ▶ Lasso の推定量は ˆ β(Lasso) = arg min ||y−Xβ||2 +λ|β|1 , |β|1 = β p ∑ |βj | (2) j=1 または、 ˆ β(lasso) = arg min ||y −Xβ||2 , subject to β p ∑ |βj | ≤ t. (3) j=1 8 / 33
  • 9. Lasso 続き p=2 の場合で Lasso の性質を確認する:縮小推定 ▶ 簡単のため、共変量の個数を 2 つとする ▶ 共変量ベクトルを x1 , x2 、その相関係数を xT x2 = ρ とする。 1 ▶ ˆ ˆ ここで、β1 (ols) > 0, β2 (ols) > 0 とすると、Lasso の推定量は、(3) から、以下のように表される。 ) ( ) (ˆ λ ˆ β1 (ols) − 2(1+ρ) β1 ˆ ˆ = β2 (ols) − λ β2 2(1+ρ) + ▶ Lasso は各回帰係数を同じ大きさだけ縮小して推定する。 ▶ 縮小した結果 0 以下になった推定量を 0 にする : 変数選択の性質 9 / 33
  • 10. Lasso 続き p=2 の場合で Lasso の性質を確認する:縮小推定 (続き) ▶ ˆ ˆ 上のスライドの結果と β1 + β2 = t を用いて、ρ を式から消去する と、Lasso の推定量は ( ) ˆ ˆ t β1 (ols) − β2 (ols) ˆ β1 (lasso) = + 2 2 + ( ) ˆ1 (ols) − β2 (ols) ˆ t β ˆ β2 (lasso) = − 2 2 + ▶ Lasso の推定量は説明変数間の相関の影響を受けない 10 / 33
  • 11. Lasso 続き Lasso を解くためのアルゴリズム:LARS 法 ▶ Lasso を解析的に解くことは難しい。解析的に解く場合の計 算コストは O(2p ) である (Tibshirani 1996) ▶ Lasso が扱う問題は p が大きい事例が多いので、指数的に計 算量が大きくなる方法では対応できない。 ▶ LARS(Efron 2004) のアルゴリズムは計算コスト O(p3 + np2 ) で解くことができる。 ▶ LARS : Least Angle Regression ▶ より高速なアルゴリズムとして Coordinate Descent がある。 ▶ 詳しくは卒論に書いてありますが、ここでは紹介に留めます。 11 / 33
  • 12. Lasso 続き シュミレーション : Lasso とリッジ回帰の性質の比較 ▶ 2 つの独立な変数 z1 と z2 を以下のように定義する z1 ∼ U (0, 20) z2 ∼ U (0, 20) ▶ 目的変数ベクトルを y = z1 + 0.1 × z2 + N (0, 1) とする ▶ 観測された説明変数を以下のように定義する x1 = z 1 + ϵ 1 x4 = z 2 + ϵ 4 ▶ x2 = −z1 + ϵ2 x5 = −z2 + ϵ5 x3 = z1 + ϵ3 x6 = z2 + ϵ6 データ (X, y) にリッジ回帰と、Lasso を当てはめて推定値求 めた結果が次の図。 12 / 33
  • 13. Lasso 続き : シュミレーション結果 Figure: 左図:Lasso の解のパス図.右図:リッジ回帰の解のパス図:横軸 は |β|1 / max |β|1 の大きさ、縦軸は回帰係数の推定量 13 / 33
  • 14. Lasso の課題 Lasso の問題点 ▶ p ≫ n 問題 (West et al. 2001):p ≫ n の状況において、共変 量が p 個あった場合でも、Lasso が選択できる共変量の個数 は n 個である(分散共分散行列のランクが n になるため) 。 ▶ グループ化効果がない:Lasso は変数間の相関を考慮できな い。高い相関を持ついくつかの変数があるとき、それらをグ ループ化された変数とよび、Lasso は、その中から 1 つしか モデルに取り込むことはできない。 ▶ n > p での問題:説明変数間の相関が高い場合には、グルー プ化変数を無視する性質によってリッジ回帰よりも予測精度 が悪くなることがある。 14 / 33
  • 15. Lasso の課題 続き Lasso が課題になる具体的な例 ▶ 白血病の人の遺伝子データ, Golub et al. Science(1999)。 ▶ データのサンプル数 72 個, 共変量の数 7129 個.(p ≫ n 問題) ▶ 遺伝子データでは、一般的に p ≈ 10000 で、サンプル数 n < 100 である。 ▶ 遺伝子データでは、一般的に遺伝子同士の結合 (”Pathway”) が似通っていることから、共変量同士の相関が高いケースが 多く、グループ化された変数が存在する。 ▶ → 解決策の1つとして、(Na¨ ıve) Elastic Net がある。 15 / 33
  • 16. Elastic Net 定義 (Na¨ Elastic Net : Na¨ ENet) ıve ıve λ1 > 0, λ2 > 0 として、 ˆ β(Naive ENet) = arg min ||y − Xβ||2 + λ2 ||β||2 + λ1 |β|1 β または、0 ≤ α ≤ 1 として、これと同値な式 ˆ β(Naive ENet) = arg min ||y − Xβ||2 , s.t. (1 − α)|β|1 + α||β||2 ≤ t (4) β を Na¨ ENet の推定量と定義する。 ıve Na¨ ENet の特徴 ıve ▶ λ1 → 0 とするとリッジ回帰.λ2 → 0 とすると Lasso になる. ▶ 推定量の計算は、次のスライドのように定義の式を変形すること で Lasso と同様に LARS で解くことができる。 16 / 33
  • 17. Elastic Net 続き Na¨ ENet の特徴 ıve ▶ λ1 → 0 とするとリッジ回帰.λ2 → 0 とすると Lasso になる. ▶ 計算は、次のスライドのように定義の式を変形することで Lasso と同様に LARS で解くことができる。 ▶ p >> n 問題を解決:(refenet) 式により、Na¨ ENet は n × p ıve 行列を (n + p) × p に拡張した後に Lasso のアルゴリズムを適 応し推定値を求めるため、p 個の共変量をすべてモデルに取 り込むことができる。 17 / 33
  • 18. Elastic Net 続き Na¨ ENet の解法 ıve まず、以下のように X ∗ と、y ∗ を定義する。 ( ) ( ) X y ∗ ∗ X(n+p)×p = (1 + λ2 )−1/2 √ y(n+p) = (5) 0 λ2 Ip √ √ ここで、γ = λ1 / (1 + λ2 ), β ∗ = (1 + λ2 )β とすると、次が成り立つ ため Lasso 同様に LARS 法で解くことができる。 ˆ β(Naive ENet) = arg min ||y ∗ − X ∗ β ∗ ||2 + γ|β ∗ |1 β 以上より、 1 ˆ ˆ β(Naive ENet) = √ β∗ 1 + λ2 ▶ (5) から、X のランクが p になり、p ≫ n 問題を解消できることが 示される。 18 / 33
  • 19. Elastic Net 続き : グループ化効果 一般的に罰則付きの最小自乗法は、J(β) を罰則項として次のように表される。 ˆ β = arg min |y − Xβ|2 + λJ(β) β (6) ′ ここで、β = (β1 , · · · , βi , · · · , βj , · · · , βp )、β = (β1 , · · · , βj , · · · , βi , · · · , βp ) とし ′ て、J(β) = J(β ) が成立することを仮定する。すると、次の補題が示せる。 補題 xi = xj (i, j ∈ 1, 2, · · · , p) であると仮定する。 ˆ ˆ (a) J(·) が狭義凸関数であるならば、βi = βj が全ての λ > 0 に対して成り立つ。 ˆ ˆ ˆ (b) J(β) = |β|1 であるならば、βi βj ≥ 0 かつ、β ∗ は方程式 (7) の異なる最小の値であ り、全ての s ∈ [0, 1] に対して、以下が成立する。 ˆ∗ βk  ˆ  βk ˆ ˆ = (βi + βj ) · (s)  ˆ ˆ (βi + βj ) · (1 − s) if k ̸= i and k ̸= j, if k = i if k = j → Lasso の罰則はグループ化効果を持たないことが示せる。一方の Elastic Net の罰則は グループ化効果を持つことが示唆される。 19 / 33
  • 20. Elastic Net 続き : グループ化効果 定理 データセット (y, X) とパラメータ (λ1 , λ2 ) が与えられたとき、 ˆ ıve β(λ1 , λ2 ) を Na¨ elastic net の推定量とする。ここで、 ˆi (λ1 , λ2 )βj (λ1 , λ2 ) > 0 と仮定し、以下で Dλ ,λ (i, j) を定義 ˆ β 1 2 する。 1 ˆ ˆ Dλ1 ,λ2 (i, j) = |βi (λ1 , λ2 ) − βj (λ1 , λ2 )| |y|1 このとき、ρ = xT xj (xi と xj の相関係数) とすると、以下が成り i 立つ。 1√ Dλ1 ,λ2 (i, j) ≤ 2(1 − ρ) λ2 ▶ 相関係数によって係数の差の絶対値は押さえ込まれる。 ρ = 1 とすると、2 つの回帰係数の推定量が一致することが わかる。→ Na¨ ENet はグループ化効果を持つ。 ıve 20 / 33
  • 21. Elastic Net 続き Na¨ ENet の課題と Elastic Net の定義 ıve ▶ 課題:経験的に、Na¨ ENet は良いパフォーマンス示さない ıve ことが知られている。 ▶ 原因:リッジ回帰と Lasso のによって、回帰係数の推定値が 2 重に縮小されているため。 ▶ 対処:Na¨ ENet の回帰係数に対して、リスケーリングを ıve 行ったものを ENet の推定値とする。実際、リッジ回帰にお ける回帰係数の縮小は 1/(1 + λ2 ) であるから、その大きさに 対応する。 ˆ ˆ β (ENet) = (1 + λ2 )β (Na¨ ENet) ıve (7) 21 / 33
  • 22. Elastic Net 続き : シュミレーション (続き) Figure: 左:Lasso.真ん中:リッジ回帰、右:ENet:横軸は |β|1 / max |β|1 の大きさ、縦軸は回帰係数の推定量。Lasso には、グループ化効果は見 て取れないが、Elastic Net はグループ化効果を示している。 22 / 33
  • 23. 結果:前立腺がんのデータより ▶ 8 つの臨床的尺度を説明変数。目的変数は前立腺のある抗体 の量の対数をとったもの。 Table: 前立腺がんのデータ:各方法別の比較 Method OLS リッジ回帰 Lasso Na¨ elastic net ıve Elastic net ▶ ▶ Parameter λ=1 s = 0.35 λ = 1, s = 0.74 λ = 1000, s = 0.18 Test Prediction Error 0.522 0.517 0.471 0.450 0.349 Variables Selectied すべて すべて (1,2,4,5,8) (1,2,4,5,6,7,8) (1,2,5,6,8) λ はリッジの罰則の重みを表し、s は LASSO の罰則の重みを 表している。また、λ > 0、0 < s < 1 である。 このケースにおいては、Elastic Net は他のどの方法よりも優 れた結果を残している。 23 / 33
  • 25. 音声認識への応用 音声認識とは ▶ 音素認識 (音声認識) は、ヒトの話す音声言語をコンピューターによって解析し、話 している内容を文字データとして取り出す方法。 ▶ 具体的には、大量の発話を記録した学習用データから音声の特徴を蓄積し、入力さ れた音声信号と、蓄積された特徴を比較して、最も特徴の近い文字を認識結果とし て出力する モチベーション ▶ 音素判別における課題:波形が類似している 2 つの音を分離する場合、分離精度が 悪くなる。 ▶ 今回は機械で見分ける上で難しいとされる”aa”と”ao”という 2 つの音を、回帰法 によって分離する。その際、用いた手法の 精度を比較と、 特徴量抽出ができてい るかを確認する。 ▶ 用いる手法は、最小自乗法、リッジ回帰、変数増加法、LASSO、Elastic Net。 25 / 33
  • 26. 音声データの解析 データと解析手法 ▶ 50 名の男性の連続的な発話から、 aa”の音声データと、”ao”の音 ” 声データを抽出した、それぞれのサンプル数は 695 個と 1022 個で ある。 ▶ 共変量は各周波数毎で、256 個ある。目的変数は以下のようにした。 { 1 (音声データが”aa”であるとき) Y = 0 (音声データが”ao”であるとき) ▶ 各手法の分離精度は、”aa”と”ao”のデータをランダムに 4 分割し、 3 つを学習用データ、1 つをテスト用データとするクロスバリデー ション法を用いて、平均正答率で測る。 また、特徴量を抽出できているか確認するため、全データを用いて モデルを構築する際に取り込まれる変数を、そのモデルが取り込 む選択する特徴量とした。 ▶ 26 / 33
  • 27. 音声データの解析結果 解析結果:予測精度 ▶ 解析結果を見ると、説明変数を選択する手法を用いた方が、 分離能力は向上することがわかる。 ▶ 説明変数を選択する手法の中でも、変数増加法よりも LASSO 及び、(Na¨ ıve)ENet の方がより予測精度ではより良い パフォーマンスを示している。 Table: 音素解析:方法別の結果比較 手法 最小二乗法 変数増加法 リッジ回帰 Lasso Na¨ elastic net ıve Elastic net パラメータ λ = 2.0 s = 0.09 λ = 1, s = 0.31 λ = 1000, s = 0.30 正答率 0.698 0.768 0.704 0.794 0.797 0.808 選択された変数の数 すべて 47 すべて 32 43 42 27 / 33
  • 29. 音声データの解析結果 解析結果:特徴量抽出 ▶ 変数増加法は、特徴量をうまく抽出できていない。 ▶ LASSO, (Na¨ ENet は特徴量を抽出しているが、LASSO は ıve) グループ化効果を持たないため、特徴量に取りこぼしがある。 ▶ ENet, Na¨ ENet は特徴量を取りこぼしなくモデルに取り込 ıve んでいる。 Table: 音素解析:用いた 4 つの変数選択法で選択された変数 手法 変数増加法 Lasso Na¨ elastic net ıve Elastic net 選択された変数 2 4 8 9 12 13 21 22 30 32 38 40 41 42 48 55 56 58 60 63 67 71 77 80 122 124 153 154 159 161 176 180 182 185 187 197 200 201 204 218 224 226 227 231 242 251 256 4 23 37 40 42 43 44 45 47 48 49 53 59 62 63 64 65 93 103 132 141 152 167 184 211 222 223 231 234 235 238 241 9 19 23 26 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 69 85 92 100 109 224 227 228 231 247 4 23 37 38 39 40 41 42 43 44 45 46 47 48 49 52 53 54 55 56 57 58 59 60 61 62 63 64 65 79 221 223 231 232 234 236 246 251 253 254 255 256 29 / 33
  • 30. まとめ ▶ 昨今のデータ解析では、共変量が多いケースがある。その場 合に、予測精度の向上と、解釈可能なモデルの構築がしばし ば課題になる。 ▶ Lasso は説明変数の選択を行い、スパースなモデルを構築す るが、一方でグループ化効果を取り込むことができず、予測 精度が下がることがある。 ▶ Lasso はその性質上、p >> n 問題には対応できない。 ▶ Elastic Net は、上記の負の側面を解消することで、予測精度 を向上させる一方、変数を選択し解釈可能なモデルを与える。 ▶ Elastic Net は特徴量抽出の点からも、優れた結果を残すこと が音素解析の事例から理解できた。遺伝子解析分野への応用 が期待できる。 30 / 33
  • 31. 今後の課題と展望 計算量の視点 ▶ 今回、Lasso と Elastic Net の解法には、LARS アルゴリズム を用いたが、遺伝子解析などケースで変数が大規模化 (p ≈ 10000) する場合には、LARS アルゴリズムでは計算量が 多く時間がかかることが知られている。 ▶ この問題の解消には、Friedman(2009) で提案される Coordinate Descent が有効であり、現在の R Package ではこ の方法を用いて推定量が計算されている。 Elastic Net 罰則を用いた応用手法 ▶ スパース主成分分析 ▶ サポートカーネルマシーン 31 / 33
  • 32. 参考文献 ▶ Bradley Efron, Trevor Hastie, Iain Johnstone, Robert Tibshirani(2004). LEAST ANGLE REGRESSION ▶ Hui Zou and Trevor Hastie(2005). Regularization and variable selection via the elastic net ▶ Robert Tibshirani (1996). Regression Shrinkage and Selection via the Lasso ▶ Trevor Hastie, Robert Tibshirani, Jerome Friedman(2009). The Elements of Statistical Learning 2nd Edition 32 / 33