SlideShare ist ein Scribd-Unternehmen logo
1 von 40
Downloaden Sie, um offline zu lesen
特徴選択のためのLasso解列挙(AAAI’17)
原 聡1,2、前原 貴憲3
1
ERATO感謝祭 Season IV
1) 国立情報学研究所
2) JST, ERATO, 河原林巨大グラフプロジェクト
3) 理研AIP
研究背景
2
研究背景:特徴選択は完璧か?
n 『特徴選択を使うと、タスクに関連する特徴量と、タスクに関連し
ない特徴量とを識別することができる』と言われている。
• Lassoを使うとモデルのスパースな表現が得られる。
• Lassoによって選ばれた特徴量が重要な特徴量だと言われている。
3
研究背景:特徴選択は完璧か?
n 『特徴選択を使うと、タスクに関連する特徴量と、タスクに関連し
ない特徴量とを識別することができる』と言われている。
• Lassoを使うとモデルのスパースな表現が得られる。
• Lassoによって選ばれた特徴量が重要な特徴量だと言われている。
n しかし、機械学習に完璧はありえない。
• 有限のデータから学習する以上、ある程度のエラーは起こりうる。
• データ由来・学習手法由来のバイアスがのることがある。
4
研究背景:特徴選択は完璧か?
n 『特徴選択を使うと、タスクに関連する特徴量と、タスクに関連し
ない特徴量とを識別することができる』と言われている。
• Lassoを使うとモデルのスパースな表現が得られる。
• Lassoによって選ばれた特徴量が重要な特徴量だと言われている。
n しかし、機械学習に完璧はありえない。
• 有限のデータから学習する以上、ある程度のエラーは起こりうる。
• データ由来・学習手法由来のバイアスがのることがある。
5
機械学習は時として間違える。
機械学習がミスすると。。。
研究背景:機械学習がミスすると。。。
6
専門家
Xという病気には「体
重」と「血圧」が関連す
るはず!
研究背景:機械学習がミスすると。。。
7
専門家
Xという病気には「体
重」と「血圧」が関連す
るはず!
Xという病気に関連す
る項目は「身長」と「血
圧」です!
機械学習モデル
!?
研究背景:機械学習がミスすると。。。
n 理想的には
8
自分の理解が
間違っていたかも。
調べ直そう。
専門家
Xという病気には「体
重」と「血圧」が関連す
るはず!
Xという病気に関連す
る項目は「身長」と「血
圧」です!
機械学習モデル
!?
研究背景:機械学習がミスすると。。。
n 最悪の場合は
9
このモデルは
間違っている!
こんなモデル
使えるか!!
専門家
Xという病気には「体
重」と「血圧」が関連す
るはず!
Xという病気に関連す
る項目は「身長」と「血
圧」です!
機械学習モデル
!?
研究背景:機械学習がミスすると。。。
n 最悪の場合は
10
このモデルは
間違っている!
こんなモデル
使えるか!!
悲劇
たとえ精度の高いモデルでも、
ユーザの信頼が得られないと
使われない。
専門家
Xという病気には「体
重」と「血圧」が関連す
るはず!
Xという病気に関連す
る項目は「身長」と「血
圧」です!
!?
機械学習モデル
研究背景:ユーザに信頼される特徴選択をしたい。
n しかし、“間違えない特徴選択”は難しい。
• Lassoは選ばれた特徴量が“真に重要な特徴量”であることが保証されな
い。
- Adaptive Lassoをはじめ、様々な改善法が考案されている。
- しかし、有限のデータから学習している以上、エラーは避けられない。
11
研究背景:ユーザに信頼される特徴選択をしたい。
n しかし、“間違えない特徴選択”は難しい。
• Lassoは選ばれた特徴量が“真に重要な特徴量”であることが保証されな
い。
- Adaptive Lassoをはじめ、様々な改善法が考案されている。
- しかし、有限のデータから学習している以上、エラーは避けられない。
n 本研究のアイディア
• そもそも“重要な特徴量の組”を一つ探そうとしているから難しい。
12
研究背景:ユーザに信頼される特徴選択をしたい。
n しかし、“間違えない特徴選択”は難しい。
• Lassoは選ばれた特徴量が“真に重要な特徴量”であることが保証されな
い。
- Adaptive Lassoをはじめ、様々な改善法が考案されている。
- しかし、有限のデータから学習している以上、エラーは避けられない。
n 本研究のアイディア
• そもそも“重要な特徴量の組”を一つ探そうとしているから難しい。
• “重要な特徴量の組”をたくさん見つけて、それをユーザに提示したらどう
か?
→ 「Lasso解を複数列挙する問題」を考える。
13
研究背景:ユーザに信頼される特徴選択をしたい。
n しかし、“間違えない特徴選択”は難しい。
• Lassoは選ばれた特徴量が“真に重要な特徴量”であることが保証されな
い。
- Adaptive Lassoをはじめ、様々な改善法が考案されている。
- しかし、有限のデータから学習している以上、エラーは避けられない。
n 本研究のアイディア
• そもそも“重要な特徴量の組”を一つ探そうとしているから難しい。
• “重要な特徴量の組”をたくさん見つけて、それをユーザに提示したらどう
か?
→ 「Lasso解を複数列挙する問題」を考える。
14
Xという病気に関連す
る項目は。。。
研究背景:ユーザに信頼される特徴選択をしたい。
n しかし、“間違えない特徴選択”は難しい。
• Lassoは選ばれた特徴量が“真に重要な特徴量”であることが保証されな
い。
- Adaptive Lassoをはじめ、様々な改善法が考案されている。
- しかし、有限のデータから学習している以上、エラーは避けられない。
n 本研究のアイディア
• そもそも“重要な特徴量の組”を一つ探そうとしているから難しい。
• “重要な特徴量の組”をたくさん見つけて、それをユーザに提示したらどう
か?
→ 「Lasso解を複数列挙する問題」を考える。
15
Xという病気に関連す
る項目は。。。
「身長」と「血圧」
う〜ん?
研究背景:ユーザに信頼される特徴選択をしたい。
n しかし、“間違えない特徴選択”は難しい。
• Lassoは選ばれた特徴量が“真に重要な特徴量”であることが保証されな
い。
- Adaptive Lassoをはじめ、様々な改善法が考案されている。
- しかし、有限のデータから学習している以上、エラーは避けられない。
n 本研究のアイディア
• そもそも“重要な特徴量の組”を一つ探そうとしているから難しい。
• “重要な特徴量の組”をたくさん見つけて、それをユーザに提示したらどう
か?
→ 「Lasso解を複数列挙する問題」を考える。
16
Xという病気に関連す
る項目は。。。
「身長」と「血圧」
う〜ん?
「体重」と「血糖値」
う〜ん?
研究背景:ユーザに信頼される特徴選択をしたい。
n しかし、“間違えない特徴選択”は難しい。
• Lassoは選ばれた特徴量が“真に重要な特徴量”であることが保証されな
い。
- Adaptive Lassoをはじめ、様々な改善法が考案されている。
- しかし、有限のデータから学習している以上、エラーは避けられない。
n 本研究のアイディア
• そもそも“重要な特徴量の組”を一つ探そうとしているから難しい。
• “重要な特徴量の組”をたくさん見つけて、それをユーザに提示したらどう
か?
→ 「Lasso解を複数列挙する問題」を考える。
17
Xという病気に関連す
る項目は。。。
「身長」と「血圧」
う〜ん?
「体重」と「血糖値」
う〜ん?
「体重」と「血圧」
これだ!!
Lasso
18
Lassoによる特徴選択
スパース線形回帰問題
Given: 入出力のペア 𝑥", 𝑦" ∈ ℝ'×ℝ	 𝑖 = 1, 2, … , 𝑁
Find: 回帰係数𝛽 ∈ ℝ' s.t. 𝑥"
1
𝛽 ≈ 𝑦	(𝑖 = 1, 2, … , 𝑁)
ただし、𝛽は非ゼロ要素が少ない(スパース)
n スパース性
• 物理的要請
- 大量の特徴量のうち、効く特徴量は少ないはずという直感。
• 解釈性向上
- 解から意味のある特徴量を見出したい。変数の絞込み。
解法:Lasso回帰( ℓ6正則化)
𝛽∗ = argmin
>
	
1
2
	 𝑋𝛽 − 𝑦 A + 𝜌 𝛽 6
• Lasso解𝛽∗はスパース。supp(𝛽∗) = {𝑖 ∶ 𝛽"
∗
≠ 0}が重要な特徴量。
19
Lassoの理論的正当性:復元定理
Lasso解:𝛽∗ = argmin
>
	
6
A
	 𝑋𝛽 − 𝑦 A + 𝜌 𝛽 6
適当な設定の元で、Lasso解𝛽∗は真のパラメータ𝛽Lのサポート(非
零要素)を高い確率で復元する。
n 仮定
• 真のモデルが𝑦 = 𝑋𝛽L + 𝑤;	𝛽Lはスパース, 𝑤 ∼ 𝑁(0, 𝜎A)
• 正則化パラメータ𝜌は十分小さい。
• 𝑋の各行は十分独立(高相関な特徴量はない)。
n 上記仮定の元で、高い確率で真のパラメータ𝛽Lのサポートが復
元できる。
supp(𝛽∗) = 	supp(𝛽L)
20
Lassoの限界:重要な特徴量を見落とす。
n 高次元データでは、類似した特徴量が存在することが多い。
• 類似特徴量のうち、どれを使っても同等の予測精度のモデルが作れる。
• 「𝑋の各行は十分独立(高相関な特徴量はない)」という仮定が成立しない
場合に相当。
→このような場合、Lassoは類似特徴量の一部だけを使い残りを無
視する。
n Lassoの限界:類似特徴量の中の重要な特徴量を見落とす。
• 例えば、「身長」と「体重」のような相関の高い特徴量のうち、片方(例えば
「身長」)だけを使ったモデルを出力する。
→「体重」を見落とす。「体重」を使ったモデルを期待するユーザとの間に齟
齬が起きる。
n 本研究:「身長」、「体重」それぞれを使ったモデルを両方出力す
る。
21
本研究の成果:Lasso解の列挙
成果1:アルゴリズム
Lassoの解を目的関数値の昇順にサポートを列挙するアルゴリズム。
列挙した解からユーザに気に入った解を選んでもらう。
成果2:列挙版の復元定理
正則化パラメータ𝜌が十分小さければ、適当な個数だけ解を列挙すれば真の
パラメータ𝛽Lのサポートを復元するものが見つかる。
- どれがサポート復元するかは特定不能(なんらかの別基準が必要)。
- 何個列挙すればいいかは問題依存(傾向は理論的にわかる)。
副次的な成果
Lassoで得られた特徴量を安易に信頼するのは危険。
実データで、実際に同等な解が無数に存在することを確認。
22
問題の定式化と提案法
23
問題の定式化:Lasso解の列挙
n 解のサポートを𝑆 ⊆ {𝑥6, 𝑥A, … , 𝑥'}に制限したLasso:
Lasso 𝑆 = min
>
	
6
A
	 𝑋𝛽 − 𝑦 A + 𝜌 𝛽 6	 s.t. supp 𝛽 ⊆ 𝑆
問題:Lasso解の列挙
Lasso 𝑆 の小さい順に極小の𝑆を𝑘個列挙する。
(極小:supp 𝛽 = 𝑆となるもの。それ以外は冗長。)
【注意】正則化パスに基づいた解の列挙ではない。
• 正則化パスでは疎な解から密な解へと𝜌を変化させた時の解を列挙する。
• 本問題では𝜌固定の元で、目的関数値が昇順になるように解のサポートを列
挙する。
• 𝑥6, 𝑥A, 𝑥V , 𝑥6, 𝑥A, 𝑥W , 𝑥6, 𝑥W, 𝑥X , 𝑥6, 𝑥A , …
24
最適解での目的関数値をLasso 𝑆 とする。
アルゴリズム:『Lawlerの 𝒌-best列挙』
アルゴリズム概略
1. サポート𝑆を入力して、特徴量の集合𝑇が出力されたとする。
2. 全ての𝑡 ∈ 𝑇について
𝑆からを𝑡を取り除いた𝑆
= 𝑆 ∖ {𝑡}を作る 。
Lasso(𝑆′)の解𝑇′を得る。
(𝑇
, 𝑆′)を解の候補としてヒープに保持する。
3. 保持している解の候補のうち、目的関数値が最小のものを出力する。
4. 以上、繰り返し。
25
アルゴリズム:『Lawlerの 𝒌-best列挙』
アルゴリズム概略
1. サポート 𝑺を入力して、特徴量の集合 𝑻が出力されたとする。
2. 全ての𝑡 ∈ 𝑇について
𝑆からを𝑡を取り除いた𝑆
= 𝑆 ∖ {𝑡}を作る 。
Lasso(𝑆′)の解𝑇′を得る。
(𝑇
, 𝑆′)を解の候補としてヒープに保持する。
3. 保持している解の候補のうち、目的関数値が最小のものを出力する。
4. 以上、繰り返し。
26
解の候補
Lasso
ソルバ
𝑇 = 𝑥6, 𝑥A, 𝑥V
出力
𝑆 = 𝑥6, 𝑥A, 𝑥W, 𝑥V, 𝑥X
𝑇6 = 𝑥6, 𝑥A, 𝑥V
𝑆6 = 𝑥6, 𝑥A, 𝑥W, 𝑥V, 𝑥X
アルゴリズム:『Lawlerの 𝒌-best列挙』
アルゴリズム概略
1. サポート𝑆を入力して、特徴量の集合𝑇が出力されたとする。
2. 全ての 𝒕 ∈ 𝑻について
𝑺からを 𝒕を取り除いた 𝑺
= 𝑺 ∖ {𝒕}を作る 。
Lasso(𝑆′)の解𝑇′を得る。
(𝑇
, 𝑆′)を解の候補としてヒープに保持する。
3. 保持している解の候補のうち、目的関数値が最小のものを出力する。
4. 以上、繰り返し。
27
解の候補
𝑆6

= 𝑥A, 𝑥W, 𝑥V, 𝑥X
𝑆A

= 𝑥6, 𝑥W, 𝑥V, 𝑥X
𝑆W

= 𝑥6, 𝑥A, 𝑥W, 𝑥X
𝑆6 = 𝑥6, 𝑥A, 𝑥W, 𝑥V, 𝑥X
Lasso
ソルバ
𝑇6 = 𝑥6, 𝑥A, 𝑥V
𝑆6 = 𝑥6, 𝑥A, 𝑥W, 𝑥V, 𝑥X
アルゴリズム:『Lawlerの 𝒌-best列挙』
アルゴリズム概略
1. サポート𝑆を入力して、特徴量の集合𝑇が出力されたとする。
2. 全ての 𝒕 ∈ 𝑻について
𝑆からを𝑡を取り除いた𝑆
= 𝑆 ∖ {𝑡}を作る 。
𝐋𝐚𝐬𝐬𝐨(𝑺′)の解 𝑻′を得る。
(𝑻
, 𝑺′)を解の候補としてヒープに保持する。
3. 保持している解の候補のうち、目的関数値が最小のものを出力する。
4. 以上、繰り返し。
28
解の候補
(𝑇6

= 𝑥A, 𝑥V, 𝑥X , 𝑆6

)𝑆6

= 𝑥A, 𝑥W, 𝑥V, 𝑥X
𝑆A

= 𝑥6, 𝑥W, 𝑥V, 𝑥X
𝑆W

= 𝑥6, 𝑥A, 𝑥W, 𝑥X
𝑆6 = 𝑥6, 𝑥A, 𝑥W, 𝑥V, 𝑥X
Lasso
ソルバ
𝑇6 = 𝑥6, 𝑥A, 𝑥V
𝑆6 = 𝑥6, 𝑥A, 𝑥W, 𝑥V, 𝑥X
アルゴリズム:『Lawlerの 𝒌-best列挙』
アルゴリズム概略
1. サポート𝑆を入力して、特徴量の集合𝑇が出力されたとする。
2. 全ての 𝒕 ∈ 𝑻について
𝑆からを𝑡を取り除いた𝑆
= 𝑆 ∖ {𝑡}を作る 。
𝐋𝐚𝐬𝐬𝐨(𝑺′)の解 𝑻′を得る。
(𝑻
, 𝑺′)を解の候補としてヒープに保持する。
3. 保持している解の候補のうち、目的関数値が最小のものを出力する。
4. 以上、繰り返し。
29
解の候補
(𝑇6

= 𝑥A, 𝑥V, 𝑥X , 𝑆6

)𝑆6

= 𝑥A, 𝑥W, 𝑥V, 𝑥X
𝑆A

= 𝑥6, 𝑥W, 𝑥V, 𝑥X
𝑆W

= 𝑥6, 𝑥A, 𝑥W, 𝑥X
𝑆6 = 𝑥6, 𝑥A, 𝑥W, 𝑥V, 𝑥X
Lasso
ソルバ
(𝑇A

= 𝑥6, 𝑥W, 𝑥V , 𝑆A

)
𝑇6 = 𝑥6, 𝑥A, 𝑥V
𝑆6 = 𝑥6, 𝑥A, 𝑥W, 𝑥V, 𝑥X
アルゴリズム:『Lawlerの 𝒌-best列挙』
アルゴリズム概略
1. サポート𝑆を入力して、特徴量の集合𝑇が出力されたとする。
2. 全ての 𝒕 ∈ 𝑻について
𝑆からを𝑡を取り除いた𝑆
= 𝑆 ∖ {𝑡}を作る 。
𝐋𝐚𝐬𝐬𝐨(𝑺′)の解 𝑻′を得る。
(𝑻
, 𝑺′)を解の候補としてヒープに保持する。
3. 保持している解の候補のうち、目的関数値が最小のものを出力する。
4. 以上、繰り返し。
30
解の候補
(𝑇6

= 𝑥A, 𝑥V, 𝑥X , 𝑆6

)𝑆6

= 𝑥A, 𝑥W, 𝑥V, 𝑥X
𝑆A

= 𝑥6, 𝑥W, 𝑥V, 𝑥X
𝑆W

= 𝑥6, 𝑥A, 𝑥W, 𝑥X
𝑆6 = 𝑥6, 𝑥A, 𝑥W, 𝑥V, 𝑥X
Lasso
ソルバ
(𝑇A

= 𝑥6, 𝑥W, 𝑥V , 𝑆A

)
(𝑇W

= 𝑥6, 𝑥A, 𝑥X , 𝑆W

)𝑇6 = 𝑥6, 𝑥A, 𝑥V
𝑆6 = 𝑥6, 𝑥A, 𝑥W, 𝑥V, 𝑥X
アルゴリズム:『Lawlerの 𝒌-best列挙』
アルゴリズム概略
1. サポート𝑆を入力して、特徴量の集合𝑇が出力されたとする。
2. 全ての𝑡 ∈ 𝑇について
𝑆からを𝑡を取り除いた𝑆
= 𝑆 ∖ {𝑡}を作る 。
𝐿𝑎𝑠𝑠𝑜(𝑆′)の解𝑇′を得る。
(𝑇
, 𝑆′)を解の候補としてヒープに保持する。
3. 保持している解の候補のうち、目的関数値が最小のものを出力する。
4. 以上、繰り返し。
31
解の候補
(𝑇6

= 𝑥A, 𝑥V, 𝑥X , 𝑆6

)
Lasso
ソルバ
(𝑇A

= 𝑥6, 𝑥W, 𝑥V , 𝑆A

)
(𝑇W

= 𝑥6, 𝑥A, 𝑥X , 𝑆W

)出力
𝑇A = 𝑥A, 𝑥V, 𝑥X
𝑆A = 𝑥A, 𝑥W, 𝑥V, 𝑥X
𝑇6 = 𝑥6, 𝑥A, 𝑥V
𝑆6 = 𝑥6, 𝑥A, 𝑥W, 𝑥V, 𝑥X
アルゴリズム:『Lawlerの 𝒌-best列挙』
アルゴリズム概略
1. サポート𝑆を入力して、特徴量の集合𝑇が出力されたとする。
2. 全ての 𝒕 ∈ 𝑻について
𝑺からを 𝒕を取り除いた 𝑺
= 𝑺 ∖ {𝒕}を作る 。
Lasso(𝑆′)の解𝑇′を得る。
(𝑇
, 𝑆′)を解の候補としてヒープに保持する。
3. 保持している解の候補のうち、目的関数値が最小のものを出力する。
4. 以上、繰り返し。
32
解の候補
Lasso
ソルバ
𝑇6 = 𝑥6, 𝑥A, 𝑥V
𝑆6 = 𝑥6, 𝑥A, 𝑥W, 𝑥V, 𝑥X
(𝑇A

= 𝑥6, 𝑥W, 𝑥V , 𝑆A

)
(𝑇W

= 𝑥6, 𝑥A, 𝑥X , 𝑆W

)
𝑇A = 𝑥A, 𝑥V, 𝑥X
𝑆A = 𝑥A, 𝑥W, 𝑥V, 𝑥X
𝑆V

= 𝑥W, 𝑥V, 𝑥X
𝑆X

= 𝑥A, 𝑥W, 𝑥X
𝑆j

= 𝑥A, 𝑥W, 𝑥V	
𝑆A = 𝑥A, 𝑥W, 𝑥V, 𝑥X
アルゴリズムの妥当性
定理
提案法によりLasso 𝑆 の小さい順に極小の𝑆を列挙できる。
n 不要な探索をスキップすることで、提案法を効率化できる。
• 既に探索した𝑆を重複して探索しないようにする。取り除く変数の履歴を保
持する。
• 探索したことのない𝑆	についても、Lassoの最適性条件から解が既に探索
済みのものと一致することが判定できることがある。
33
列挙版の復元定理
定理概略
適当な仮定の元で、十分たくさん列挙すれば、高い確率で列挙した解の中に
supp(𝛽L)が含まれる。
n 適当な仮定・⾼い確率:
• 正則化パラメータ𝜌は⼗分⼩さい(𝛽Lの⾮ゼロ成分を下からバウンド)。
• ノイズが⼩さいほど確率は⾼い。
n 列挙個数について⾔えること:
• 正則化パラメータ𝜌が⼩さいほど列挙すべき要素が増える。
• 𝑋の独⽴性が低い(高相関の特徴量が多い)ほど列挙すべき要素が増え
る。
34
実験結果
35
実験1. シロイズナの開花
n Thaliana gene expression data (Atwell et al. ’10):
どの遺伝⼦が開花に効くかを知りたい。
• 𝑥 ∈	ℝA6j6Wk:遺伝⼦各パターンが⽣起しているかどうか(2 値)
• 𝑦 ∈ ℝ:発現量
• データ数(個体数):134
36
50個列挙しても、目的関数値は0.05%
しか増加しなかった。
大域解が6個あった。
解のサポートのサイズは
大体40~45くらい。
大域解が複数ある = 単純にLassoを適用すると、6個のうちの1つが見つかるだけ。他の特徴量は見落とす。
実験2. ニュース記事の分類
n 20 Newsgroups Data (Lang’95); ibm vs mac
ニュース記事を二つのカテゴリに分類するのに特徴的な単語を知りたい。
• 𝑥 ∈	ℝ66jVl:単語の発現(実数値、tf-idf)
• 𝑦 ∈ {ibm, mac}	:記事のカテゴリ(2値)
• データ数(投稿数):1168
→ 分類問題なので、ロジスティック回帰に提案法を適用。
37
大域解にあった語 列挙解で置き換わった語
drive, os, diskのようなibmマシン(Windows
機)に特有の単語が見落とされていたのが
見つかった。
040, 610のようなmacマシン(型番)に特有
の単語が見落とされていたのが見つかった。
まとめ
n 問題意識:ユーザに信頼される特徴選択をしたい。
• 単一の特徴選択結果を出力するのでなく、複数の結果を列挙して出力す
る。
n 「Lasso解のサポート列挙」として問題を定式化した。
n Lawlerの𝑘-best フレームワークを適⽤した効率的なアルゴリズ
ムを設計。
n 列挙版のスパース復元定理を証明した。
• どれだけ列挙するかは問題パラメタ依存。
n 実験より,実際の特徴選択問題には「同じくらいの品質の解が
⼤量に存在する」ことを確認。
• Lasso で得られた特徴量を安易に信じるのは危険。
38
GitHub: sato9hara/LassoVariants
補足資料
39
列挙版の復元定理(完全版)
n 仮定:𝑦 = 𝑋𝛽L + 𝑤; 𝛽Lスパース, 𝑤 ∼ 𝑁(0, 𝜎^2)
• 𝑋𝛽L − 𝑦 A ≤ 𝛿 𝑋𝛽∗ − 𝑦 A for some 𝛿 ≥ 0
• 𝑋𝛽∗ − 𝑦 A ≤ 𝜖 for some 𝜖 ≥ 0
• ∀𝑢 ≠ 0 with 𝑋𝑢 A ≤ 1 + 𝛿 𝜖, 𝑢vw 6 ≤ 𝛾 𝑢vwy 6	for some 𝛾 ≥
max{1, 𝛿A}
定理1:No False Inclusion
By enumerating solutions up to 𝐿 𝛽 ℓ ≥ 𝛾𝐿(𝛽∗), we can find 𝛽 { , 𝑆 { ,
1 ≤ 𝑘 ≤ ℓ such that supp 𝛽 { ⊆ supp 𝛽L ⊆ 𝑆 { and 𝐿 𝛽 { ≤ 𝐿(𝛽L).
定理2:No False Exclusion
Let 𝛽 { , 𝑆 { be an enumerated solution where supp 𝛽 { ⊆
supp 𝛽L ⊆ 𝑆 { . If 𝑋vw
1
𝑋vw is invertible, then we have
supp 𝛽 { 	⊇ 𝑖 ∶ 𝛽"
L
> 2𝜌 𝑋vw
1
𝑋vw
~6
•
with probability 1	 − 𝑆L	 exp −𝜌A/2𝜎 𝜆ƒ„… 𝑋vw
1
𝑋vw .
40

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

SMO徹底入門 - SVMをちゃんと実装する
SMO徹底入門 - SVMをちゃんと実装するSMO徹底入門 - SVMをちゃんと実装する
SMO徹底入門 - SVMをちゃんと実装する
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
 
情報幾何勉強会 EMアルゴリズム
情報幾何勉強会 EMアルゴリズム 情報幾何勉強会 EMアルゴリズム
情報幾何勉強会 EMアルゴリズム
 
畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向
 
グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知
 
敵対的学習に対するラデマッハ複雑度
敵対的学習に対するラデマッハ複雑度敵対的学習に対するラデマッハ複雑度
敵対的学習に対するラデマッハ複雑度
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
 
深層学習による非滑らかな関数の推定
深層学習による非滑らかな関数の推定深層学習による非滑らかな関数の推定
深層学習による非滑らかな関数の推定
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
 
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定
 
データ解析7 主成分分析の基礎
データ解析7 主成分分析の基礎データ解析7 主成分分析の基礎
データ解析7 主成分分析の基礎
 
統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-
 
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
 
バンディット問題について
バンディット問題についてバンディット問題について
バンディット問題について
 
『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会
 
劣モジュラ最適化と機械学習1章
劣モジュラ最適化と機械学習1章劣モジュラ最適化と機械学習1章
劣モジュラ最適化と機械学習1章
 
【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?
 
機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化
 

Ähnlich wie 特徴選択のためのLasso解列挙

プログラミングHaskell(第1章)
プログラミングHaskell(第1章)プログラミングHaskell(第1章)
プログラミングHaskell(第1章)
yaju88
 
初心者講習会資料(Osaka.r#6)
初心者講習会資料(Osaka.r#6)初心者講習会資料(Osaka.r#6)
初心者講習会資料(Osaka.r#6)
Masahiro Hayashi
 

Ähnlich wie 特徴選択のためのLasso解列挙 (16)

機械学習モデルの列挙
機械学習モデルの列挙機械学習モデルの列挙
機械学習モデルの列挙
 
わかりやすいパターン認識 4章
わかりやすいパターン認識 4章わかりやすいパターン認識 4章
わかりやすいパターン認識 4章
 
scala.collection 再入門 (改)
scala.collection 再入門 (改)scala.collection 再入門 (改)
scala.collection 再入門 (改)
 
Yamadai.Rデモンストレーションセッション
Yamadai.RデモンストレーションセッションYamadai.Rデモンストレーションセッション
Yamadai.Rデモンストレーションセッション
 
純粋関数型アルゴリズム入門
純粋関数型アルゴリズム入門純粋関数型アルゴリズム入門
純粋関数型アルゴリズム入門
 
表現論 ゼミ資料
表現論 ゼミ資料表現論 ゼミ資料
表現論 ゼミ資料
 
ゼロから始めるScala文法 (再)
ゼロから始めるScala文法 (再)ゼロから始めるScala文法 (再)
ゼロから始めるScala文法 (再)
 
プログラミングHaskell(第1章)
プログラミングHaskell(第1章)プログラミングHaskell(第1章)
プログラミングHaskell(第1章)
 
Fisher線形判別分析とFisher Weight Maps
Fisher線形判別分析とFisher Weight MapsFisher線形判別分析とFisher Weight Maps
Fisher線形判別分析とFisher Weight Maps
 
ベイズ識別 一般化逆行列
ベイズ識別 一般化逆行列ベイズ識別 一般化逆行列
ベイズ識別 一般化逆行列
 
[DL輪読会]Learn What Not to Learn: Action Elimination with Deep Reinforcement Le...
[DL輪読会]Learn What Not to Learn: Action Elimination with Deep Reinforcement Le...[DL輪読会]Learn What Not to Learn: Action Elimination with Deep Reinforcement Le...
[DL輪読会]Learn What Not to Learn: Action Elimination with Deep Reinforcement Le...
 
パターン認識と機械学習 13章 系列データ
パターン認識と機械学習 13章 系列データパターン認識と機械学習 13章 系列データ
パターン認識と機械学習 13章 系列データ
 
Introduction of "the alternate features search" using R
Introduction of  "the alternate features search" using RIntroduction of  "the alternate features search" using R
Introduction of "the alternate features search" using R
 
圏論のモナドとHaskellのモナド
圏論のモナドとHaskellのモナド圏論のモナドとHaskellのモナド
圏論のモナドとHaskellのモナド
 
初心者講習会資料(Osaka.r#6)
初心者講習会資料(Osaka.r#6)初心者講習会資料(Osaka.r#6)
初心者講習会資料(Osaka.r#6)
 
Fourier analysis on symmetric group
Fourier analysis on symmetric groupFourier analysis on symmetric group
Fourier analysis on symmetric group
 

Mehr von Satoshi Hara

Mehr von Satoshi Hara (11)

Explanation in Machine Learning and Its Reliability
Explanation in Machine Learning and Its ReliabilityExplanation in Machine Learning and Its Reliability
Explanation in Machine Learning and Its Reliability
 
“機械学習の説明”の信頼性
“機械学習の説明”の信頼性“機械学習の説明”の信頼性
“機械学習の説明”の信頼性
 
機械学習で嘘をつく話
機械学習で嘘をつく話機械学習で嘘をつく話
機械学習で嘘をつく話
 
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
 
異常の定義と推定
異常の定義と推定異常の定義と推定
異常の定義と推定
 
Convex Hull Approximation of Nearly Optimal Lasso Solutions
Convex Hull Approximation of Nearly Optimal Lasso SolutionsConvex Hull Approximation of Nearly Optimal Lasso Solutions
Convex Hull Approximation of Nearly Optimal Lasso Solutions
 
Theoretical Linear Convergence of Unfolded ISTA and its Practical Weights and...
Theoretical Linear Convergence of Unfolded ISTA and its Practical Weights and...Theoretical Linear Convergence of Unfolded ISTA and its Practical Weights and...
Theoretical Linear Convergence of Unfolded ISTA and its Practical Weights and...
 
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明
 
Maximally Invariant Data Perturbation as Explanation
Maximally Invariant Data Perturbation as ExplanationMaximally Invariant Data Perturbation as Explanation
Maximally Invariant Data Perturbation as Explanation
 
アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法
 
KDD'17読み会:Anomaly Detection with Robust Deep Autoencoders
KDD'17読み会:Anomaly Detection with Robust Deep AutoencodersKDD'17読み会:Anomaly Detection with Robust Deep Autoencoders
KDD'17読み会:Anomaly Detection with Robust Deep Autoencoders
 

特徴選択のためのLasso解列挙