SlideShare ist ein Scribd-Unternehmen logo
1 von 216
Downloaden Sie, um offline zu lesen
機械学習による統計的実験計画
ベイズ最適化を中心に
松井 孝太
名古屋大学大学院医学系研究科 生物統計学分野
matsui.k@med.nagoya-u.ac.jp
Table of contents
1. はじめに: 統計的実験計画の基本概念
2. ベイズ線形回帰
3. ガウス過程回帰
4. ベイズ最適化
5. 獲得関数の設計
6. レベル集合推定のための能動学習
7. 構造出力デザイン問題のための能動学習
8. より複雑な問題に対するベイズ最適化
9. 事例紹介
松井 (名古屋大) 機械学習による実験計画 1 / 145
本講義の目的
• 機械学習による実験計画の基本的事項の理解を目指す
• 実験計画 (または能動学習) の動機づけ
• モデリングの方法
• ベイズ最適化アルゴリズムの設計
• 実例と実装例の紹介
• 以下の文献を特に参考にしている
• “Taking the Human Out of the Loop: A Review of Bayesian
Optimization” [Shahriari+ (2015)]
• “Gaussian Processes for Machine Learning” [Rasmussen &
Williams (2006)]
• “ガウス過程と機械学習” [持橋 & 大羽 (2019)]
• “ベイズ推論による機械学習” [須山 (2017)]
松井 (名古屋大) 機械学習による実験計画 2 / 145
はじめに: 統計的実験計画の基本概念
統計的実験計画で扱う「実験」とは
ある条件 x を入力し, その条件の下での実験結果 y を観測する
システム
x1
x2
y
x1
x2
y
松井 (名古屋大) 機械学習による実験計画 3 / 145
「実験」の抽象化: ブラックボックス関数
入力条件 x と観測結果 y の間の関係を f と書くと, f は実験そ
のもの (これをブラックボックス関数と呼ぶ) 1
ε
x f(x) y = f(x) + ε
統計的実験計画 (or 能動学習)
必要なデータを収集しながらブラックボックス関数 f に関す
る統計的推論を行うための方法論
1
簡単のため観測誤差 ε は分散既知の正規分布 N(0, σ2
) に従うと仮定する
松井 (名古屋大) 機械学習による実験計画 4 / 145
能動学習のイメージ
X = {
xj}
m
j=1
{
(xi, yi)}
n
i=1,
{
(xj′ , yj′ )}
j′
xj′
yj′
D =
D
松井 (名古屋大) 機械学習による実験計画 5 / 145
能動学習の問題設定
• 候補入力 x1, ..., xn が与えられている
• f を評価して出力 yi = f(xi) を得るにはコストがかかる
• できるだけ少ないコストで
 問題設定 1: 関数推定 (回帰)
f を精度良く推定する
f∗
= arg min
ˆ
f∈F
n
X
i=1
(f(xi) − ˆ
f(xi))2
 問題設定 2: 最適化
f を最大化するパラメータ x を求めたい
x∗
i = arg max
x∈{x1,...,xn}
f(x)
松井 (名古屋大) 機械学習による実験計画 6 / 145
ブラックボックス関数のモデリング
アイデア
ブラックボックス関数 f の更新可能かつ 評価可能なモデルを
構成する
 ベイズ線形回帰モデル (第2章)
• 線形関数 ˆ
f(x) = w⊤x で f をモデル化
• w は正規分布に従うと仮定 (w ∼ N(0, Σ))
 ガウス過程回帰モデル (第3章)
• ノンパラメトリックな関数 ˆ
f で f をモデル化
• ˆ
f はガウス過程に従うと仮定 ( ˆ
f ∼ GP(µ(x), k(x, x′)))
更新: データを観測する度に w や ˆ
f の確率モデルを更新可能
評価: ˆ
f は関数値の計算が可能 (非ブラックボックス関数)
松井 (名古屋大) 機械学習による実験計画 7 / 145
不確実性のモデリング
能動学習の特徴:
f の不確実性を同時にモデル化する
• f の推定に対する確信度を定量的評価
• どれくらい自信を持って f が推定できたと言っているのか
松井 (名古屋大) 機械学習による実験計画 8 / 145
関数推定のための能動学習の例
Input
Output
Step 0
Objective
Prediction
Observations
Next Sample
Uncertainty
松井 (名古屋大) 機械学習による実験計画 9 / 145
関数推定のための能動学習の例
Input
Output
Step 1
Objective
Prediction
Observations
Next Sample
Uncertainty
松井 (名古屋大) 機械学習による実験計画 9 / 145
関数推定のための能動学習の例
Input
Output
Step 2
Objective
Prediction
Observations
Next Sample
Uncertainty
松井 (名古屋大) 機械学習による実験計画 9 / 145
関数推定のための能動学習の例
Input
Output
Step 3
Objective
Prediction
Observations
Next Sample
Uncertainty
松井 (名古屋大) 機械学習による実験計画 9 / 145
関数推定のための能動学習の例
Input
Output
Step 4
Objective
Prediction
Observations
Next Sample
Uncertainty
松井 (名古屋大) 機械学習による実験計画 9 / 145
関数推定のための能動学習の例
Input
Output
Step 5
Objective
Prediction
Observations
Next Sample
Uncertainty
松井 (名古屋大) 機械学習による実験計画 9 / 145
関数推定のための能動学習の例
Input
Output
Step 6
Objective
Prediction
Observations
Next Sample
Uncertainty
松井 (名古屋大) 機械学習による実験計画 9 / 145
関数推定のための能動学習の例
Input
Output
Step 7
Objective
Prediction
Observations
Next Sample
Uncertainty
松井 (名古屋大) 機械学習による実験計画 9 / 145
関数推定のための能動学習の例
Input
Output
Step 8
Objective
Prediction
Observations
Next Sample
Uncertainty
松井 (名古屋大) 機械学習による実験計画 9 / 145
関数推定のための能動学習の例
Input
Output
Step 9
Objective
Prediction
Observations
Next Sample
Uncertainty
松井 (名古屋大) 機械学習による実験計画 9 / 145
最適化のための能動学習の例
Input
Output
Step 0
Objective
Prediction
Observations
Next Sample
Uncertainty
松井 (名古屋大) 機械学習による実験計画 10 / 145
最適化のための能動学習の例
Input
Output
Step 1
Objective
Prediction
Observations
Next Sample
Uncertainty
松井 (名古屋大) 機械学習による実験計画 10 / 145
最適化のための能動学習の例
Input
Output
Step 2
Objective
Prediction
Observations
Next Sample
Uncertainty
松井 (名古屋大) 機械学習による実験計画 10 / 145
最適化のための能動学習の例
Input
Output
Step 3
Objective
Prediction
Observations
Next Sample
Uncertainty
松井 (名古屋大) 機械学習による実験計画 10 / 145
最適化のための能動学習の例
Input
Output
Step 4
Objective
Prediction
Observations
Next Sample
Uncertainty
松井 (名古屋大) 機械学習による実験計画 10 / 145
最適化のための能動学習の例
Input
Output
Step 5
Objective
Prediction
Observations
Next Sample
Uncertainty
松井 (名古屋大) 機械学習による実験計画 10 / 145
最適化のための能動学習の例
Input
Output
Step 6
Objective
Prediction
Observations
Next Sample
Uncertainty
松井 (名古屋大) 機械学習による実験計画 10 / 145
最適化のための能動学習の例
Input
Output
Step 7
Objective
Prediction
Observations
Next Sample
Uncertainty
松井 (名古屋大) 機械学習による実験計画 10 / 145
ベイズ線形回帰
ベイズ線形モデルによるブラックボックス関数の近似
ブラックボックス関数 f をパラメータ w = (w1, ..., wd) を用い
た線形モデル
f(x) = w⊤
x =
d
X
j=1
wjxj
で近似することを考える. このとき,
• 観測系は y = w⊤x + ε, ε ∼ N(0, σ2)
• 観測の確率モデルは p(y | w, x) = N(w⊤x, σ2)
ベイズ線形回帰モデルでは, w に対して事前分布 p(w) を仮定
• w の取りうる値の範囲と実現可能性の度合いを表現
• 以下では平均 0, 分散共分散行列 Σ の正規分布を考える:
w ∼ p(w) = N(0, Σ)
松井 (名古屋大) 機械学習による実験計画 11 / 145
ベイズ線形回帰 i
• 事前分布 (平均 0 の d 変量正規分布)
p(w) = N(0, Σ) =
1
√
2π
d p
|Σ|
exp

−
1
2
wT
Σ−1
w

• 観測 y = (y1, ..., yn) の分布 (尤度関数)
p(y|X, w) = N(Xw, σ2
In)
=
1
√
2πσ2
n exp

−
1
2σ2
(y − Xw)T
(y − Xw)

ここで, X = (x⊤
1 , ..., x⊤
n ) は入力ベクトルを並べた行列2
2
計画行列と呼ぶ
松井 (名古屋大) 機械学習による実験計画 12 / 145
ベイズ線形回帰 ii
ベイズの定理
事後分布 =
尤度関数 × 事前分布
周辺尤度
• 事後分布 (データ X, y 観測後の w の条件付き分布)
p(w | X, y) =
p(y | X, w)p(w)
p(y | X)
=
p(y | X, w)p(w)
R
p(y | X, w)p(w)dw
∝ p(y | X, w)p(w)
松井 (名古屋大) 機械学習による実験計画 13 / 145
ベイズ線形回帰 iii
右辺の計算 (細かい式変形は省略)
p(y | X, w)p(w)
∝ exp

−
1
2σ2
(y − Xw)T
(y − Xw)

exp

−
1
2
wT
Σ−1
w

∝ exp

−
1
2
(w − w̄)T
A(w − w̄)

• w̄ = 1
σ2 A−1Xy
• A = 1
σ2 XXT + Σ−1
以上より, 次の事実が確認できた3
p(w | X, y) ≈ N(w̄, A−1
)
3
正規分布を事前分布としたとき, データ X, y を観測した下での w の事後
分布は再び正規分布となる (共役事前分布)
松井 (名古屋大) 機械学習による実験計画 14 / 145
ベイズ線形回帰 iii
• 新たな点 xnew における関数値 f(xnew) の予測分布の計算:
f(xnew) | X, y ∼ N(x⊤
neww̄, x⊤
newA−1
xnew)
• 予測分布による学習
f(x) = (1, x)⊤
w f(x) = (1, x, x2
)⊤
w f(x) = (1, x, x2
, x3
)⊤
w
• モデルのとり方で表現力が変わる → モデル選択
松井 (名古屋大) 機械学習による実験計画 15 / 145
ベイズ線形回帰 iV
	
p(w)
	
w p(w)
f(x) = w x
	
	
p(w | X, y) 	
↓	
	
w p(w | X, y)
w
松井 (名古屋大) 機械学習による実験計画 16 / 145
事後分布に基づく w の点推定 i
事後分布を使って以下のような w の点推定も可能
最大事後確率推定 (Maximum a posteriori estimation, MAP 推
定)
1.「データ X, y を観測した」という条件の下での w の事後
分布 p(w | X, y) を導出
2. p(w | X, y) が最大となる点 (すなわち p(w | X, y) の最頻
値) を w の推定値 ŵMAP とする
松井 (名古屋大) 機械学習による実験計画 17 / 145
事後分布に基づく w の点推定 ii
w の事後分布
w | X, y ∼ N(w̄, A−1
)
• MAP 推定は事後分布の最頻値を推定量とする推定方法
• 正規分布においては, 最頻値 = 平均が成立
→ ŵMAP = w̄ と書ける
ただし予測の不確実性を考慮できていない (分散項を無視して
しまう)
松井 (名古屋大) 機械学習による実験計画 18 / 145
ガウス過程回帰
ノンパラメトリックモデル:より柔軟なモデリングへ
ベイズ線形回帰モデルでは
• f に線形モデル ˆ
f(x) = w⊤x を仮定
• モデル (基底関数) を上手く選べば複雑な非線形関数でもモ
デル化できる
• しかし, 入力 x の次元に応じて推定しなければならないパ
ラメータ w の次元が指数的に増加 (次元の呪い)
→ パラメータを積分消去しノンパラメトリックに扱うことで
次元の呪いを回避
ノンパラメトリックモデリング
パラメータによる特定の関数形を指定せず, より柔軟なモデ
リングを行なう
松井 (名古屋大) 機械学習による実験計画 19 / 145
ベイズ線形回帰のノンパラ化 i
• 観測系の確率モデル (再掲) :
y ∼ N(w⊤
x, σ2
)
• ベイズ線形回帰では, w に対して平均 0 の正規分布を事前
分布として仮定した:
p(w) = N(0, Σ)
• このとき, 観測値 y の分布から w を積分消去できる:
p(y | X, σ) =
Z
p(y | X, w, σ2
)p(w)dw
=
Z
N(Xw, σ2
I)N(0, Σ)dw
= N(0, XΣX⊤
+ σ2
I)
松井 (名古屋大) 機械学習による実験計画 20 / 145
ベイズ線形回帰のノンパラ化 ii
• 入力 xi を特徴写像 ϕ で非線形変換する:ϕi = ϕ(xi)
このときの計画行列を Φ = (ϕ1, ..., ϕn) とおく
=⇒ 観測の分布は Φ を用いて以下のような表現になる
p(y | Φ, σ) = N(0, ΦΣΦ⊤
+ σ2
I) (1)
• ΦΣΦ⊤ は半正定値対称行列であり, 非線形変換した特徴の
Σ による内積を表す:
ϕ⊤
i Σϕj = ⟨ϕi, ϕj⟩Σ, i, j = 1, ..., n
• 上式を見ると, 変換後の特徴 ϕi に関する内積さえ計算でき
れば事後分布は計算可能であることに気づく.
松井 (名古屋大) 機械学習による実験計画 21 / 145
ベイズ線形回帰のノンパラ化 iii
• そこで,
k(xi, xj) = ⟨ϕi, ϕj⟩Σ
となるようなカーネル関数 k(xi, xj) を取る
• 左辺が計算できれば事後分布を求めるには十分で, 変換後
の特徴 ϕi を直接計算する必要はない (カーネルトリック):
p(y | Φ, σ2
) = N(0, K + σ2
I),
ここで, Ki,j = k(xi, xj) (カーネル行列)
• カーネル関数は, 入力 xi, xj の間の類似度を測っている
• “近い入力に対応する出力は似ている” という性質を表現
松井 (名古屋大) 機械学習による実験計画 22 / 145
ガウス過程
ベイズ線形回帰のノンパラ化は, f のガウス過程によるモデリ
ングに対応
Definition 1 (ガウス過程の数学的な定義)
確率過程 {Xt}t∈T がガウス過程であるとは, 任意の n ∈ N と
任意の t1, ..., tn ∈ T に対して (Xt1 , ..., Xtn ) が n 次元正規分布
に従うことと定義する.
• f(x) を x に関する確率変数の無限列と見なすことで確率
過程として取り扱う
松井 (名古屋大) 機械学習による実験計画 23 / 145
ガウス過程の特徴づけ
• ガウス過程は, 平均関数とカーネル関数
µ(x) = E[f(x)]
k(x, x′
) = E[(f(x) − µ(x))(f(x′
) − µ(x′
)]
によって特徴づけることができる (µ と k を決めるとガウ
ス過程が決まる)
• 関数 f がガウス過程に従うことを以下で表す:
f(x) ∼ GP(µ(x), k(x, x′
))
Remark 1
ここから, 各点 x0 に対して, 関数値 f(x0) が平均 µ(x0), 分散
k(x0, x0) の正規分布に従うモデルであることがわかる
松井 (名古屋大) 機械学習による実験計画 24 / 145
ガウス過程によるモデリング i
記号の用意
• 入力点: x1, ..., xn
• 未知の関数値: fi = f(xi)
• 観測値: yi = fi + εi, εi ∼ N(0, σ2)
このとき,
f(x) ∼ GP(µ(x), k(x, x′
))
⇐⇒ f | X ∼ N(m, K),
yi | fi, σ2
∼ N(fi, σ2
)
ここで, mi = µ(xi), Ki,j = k(xi, xj).
→ 関数値 f = (f1, ..., fn) が n 変量正規分布であり, 観測値 yi は
平均 fi の正規分布となるモデル
松井 (名古屋大) 機械学習による実験計画 25 / 145
ガウス過程によるモデリング ii 予測分布
Dn = {(xi, yi)}n
i=1 を既観測点とし, x を任意のテスト点とする.
このとき, 関数値 f(x) は Dn を観測したという条件の下で正規
分布に従う (予測分布):
f(x) | Dn ∼ N(µn(x), σ2
n(x))
ここで, µn(x) 及び σ2
n(x) はそれぞれ予測平均と予測分散4 と呼
ばれ,
µn(x) = µ(x) + k(x)⊤
(K + σ2
I)−1
(y − m)
σ2
n(x) = k(x, x) − k(x)⊤
(K + σ2
I)−1
k(x)
と書ける. ここで, k(x) = (k(x, x1), ..., k(x, xn))
4
x における関数値 f(x) の, ガウス過程モデルによる予測と不確実性に対応
松井 (名古屋大) 機械学習による実験計画 26 / 145
カーネル関数の選択
カーネル関数はガウス過程回帰において非常に重要な構成要素
• 目的関数に対する仮定を表現する
• データ点に対して “類似度” を定義する
• 近い入力の出力はやはり近いという気分を表す
• テストデータ点に近い学習データ点は, 前者の予測に対し
て十分に informative であることが期待される.
様々なカーネル関数が提案されているが, ここでは
1. 二乗指数カーネル (ガウスカーネル)
2. Matérn カーネル
の 2 種類を紹介する.
松井 (名古屋大) 機械学習による実験計画 27 / 145
二乗指数カーネル
二乗指数カーネルは以下で定義される:
kSE(x, x′
) = θ exp

−
∥x − x′∥2
2ℓ2

• θ, ℓ は超パラメータ
• このカーネル関数で定義したガウス過程からのサンプルは
滑らかな関数となる
松井 (名古屋大) 機械学習による実験計画 28 / 145
Matérn カーネル  i
Matérn カーネルは以下で定義される:
kMatérn(x, x′
) =
21−ν
Γ(ν)
√
2νr
ℓ
!ν
Kν
√
2νr
ℓ
!
• r =
p
(x − x′)⊤Λ(x − x′)
• ν, ℓ は超パラメータで, Kν は修正ベッセル関数
• 特に ν = 3/2 及び ν = 5/2 の場合が良く用いられている
松井 (名古屋大) 機械学習による実験計画 29 / 145
Matérn カーネル  ii
• ν = 3/2 のとき
k3/2(r) = 1 +
√
3r
ℓ
!
exp
(
−
√
3r
ℓ
)
• ν = 5/2 のとき
k5/2(r) = 1 +
√
5r
ℓ
+
5r2
3ℓ2
!
exp
(
−
√
5r
ℓ
)
松井 (名古屋大) 機械学習による実験計画 30 / 145
カーネル関数の比較
• 2 乗指数カーネルを用いたガウス過程からのサンプル関数
は滑らか
• Matérn カーネルを用いたガウス過程からのサンプル関数
は, カーネルパラメータによって滑らかさが変化
松井 (名古屋大) 機械学習による実験計画 31 / 145
事前分布の平均関数をどう取るか
• 平均関数は真の関数に対する事前知識を表現
• 実応用の際には, 定数
µ(x) ≡ µ0
とすることが多い (特に µ0 = 0)
• 観測データを変換して µ = 0 とみなせることが多い
• 専門家による事前知識などによって平均関数 µ が適切に設
計できる場合, それを用いた方が学習が効率化できる可能
性はある
松井 (名古屋大) 機械学習による実験計画 32 / 145
ガウス過程回帰の実行例
• 黒破線: 真の関数
• 青線: ガウス過程の平均関数
• 青枠: ガウス過程による不確実性
• 赤点: 観測点
松井 (名古屋大) 機械学習による実験計画 33 / 145
ガウス過程回帰に基づく能動学習 (関数推定)
(Recall) 関数推定問題
f∗
= arg min
g∈F
n
X
i=1
(f(xi) − g(xi))2
• 真の関数 f を全域で精度良く推定したい
• 自然な探索方針:
予測モデルの不確実性が大きい入力点を観測点に選ぶ
→ ガウス過程回帰モデルの予測分散が最大となる点で観
測を行う (不確実性サンプリング) :
xnext = arg max
x
σ2
n(x)
松井 (名古屋大) 機械学習による実験計画 34 / 145
ガウス過程回帰に基づく能動学習 (関数推定) の実行例
不確実性サンプリングによる能動学習
0 1 2 3 4 5
x
−2
0
2
4
6
8
10
12
f
(x)
iteration 1
µ(x)
f(x)
µ(x) ± 1.96σ(x)
next
observed
0 1 2 3 4 5
x
−2
0
2
4
6
8
10
12
f
(x)
iteration 2
µ(x)
f(x)
µ(x) ± 1.96σ(x)
next
observed
0 1 2 3 4 5
x
−2
0
2
4
6
8
10
12
f
(x)
iteration 3
µ(x)
f(x)
µ(x) ± 1.96σ(x)
next
observed
0 1 2 3 4 5
x
−2
0
2
4
6
8
10
12
f
(x)
iteration 4
µ(x)
f(x)
µ(x) ± 1.96σ(x)
next
observed
0 1 2 3 4 5
x
−2
0
2
4
6
8
10
12
f
(x)
iteration 5
µ(x)
f(x)
µ(x) ± 1.96σ(x)
next
observed
0 1 2 3 4 5
x
−2
0
2
4
6
8
10
12
f
(x)
iteration 6
µ(x)
f(x)
µ(x) ± 1.96σ(x)
next
observed
• ガウス過程回帰によって推定された関数の不確実性が最も
大きい点 (図の黄色の点) が常に選ばれるような探索方針
松井 (名古屋大) 機械学習による実験計画 35 / 145
ガウス過程回帰モデルの評価
松井 (名古屋大) 機械学習による実験計画 36 / 145
非正規観測系への拡張 i
観測 y が連続値でなくカテゴリ変数や順序変数の場合 (分類問
題など), その確率モデルとして正規分布を仮定するのは不適切
 一般化線形モデル
リンク関数 (非線形変換) g : Rd → R を導入し, ブラックボック
ス関数のモデルとして
f(x) = g−1
(w⊤
x)
を考える.
松井 (名古屋大) 機械学習による実験計画 37 / 145
非正規観測系への拡張 ii
Example 1 (ロジスティック回帰)
観測が 2 値 (y = 0 or 1) のとき, y = 1 となる確率
p = P(y = 1) をモデリングしたい. いま, 観測のオッズ p
1−p に
対して
log

p
1 − p

= w⊤
x
なるモデルを考える (対数オッズに線形モデルを仮定).
このとき, データ x を観測した下での y = 1 となる事後確率は
p(y = 1 | x) =
1
1 + exp{−w⊤x}
と書ける. 右辺はロジット変換 g−1 = 1/1 + e−z をリンク関数
として採用していることに相当する.
松井 (名古屋大) 機械学習による実験計画 38 / 145
パラメトリックモデリング i
特に y ∈ {+1, −1} の場合 (2 値判別) を考える.
• リンク関数 g : R → (0, 1) によって
P(y | x, w) = g(yw⊤
x)
と書けると仮定 (パラメータ w の一般化線形モデル).  
• g は単調増加かつ
g(x) + g(−x) = 1
を満たす (e.g. シグモイド関数, 標準正規分布の累積分布関
数)
• このとき, y =



+1 w⊤x ≥ 0 ⇔ P(y | x, w) ≥ 1
2
−1 w⊤x  0 ⇔ P(y | x, w)  1
2
松井 (名古屋大) 機械学習による実験計画 39 / 145
パラメトリックモデリング ii
データ D = {(xi, yi)}n
i=1 ⊂ Rd × {±1} を観測した下で,
• w の事後分布:
p(w | D) ∝ p(w)
n
Y
i=1
g(yiw⊤
i x)
• x におけるラベルの予測分布:
P(y | x, D) =
Z
g(yw⊤
x)p(w | D)dw
以降, f(x) に対してノンパラメトリックな事後分布の計算や予
測分布の計算を考える
松井 (名古屋大) 機械学習による実験計画 40 / 145
事後分布の近似 i
• 事後分布が厳密に計算できた回帰の場合と異なり, 判別の
場合は何らかの近似によって事後分布を求める必要がある
(共役事前分布を設定できないため)
• 以下ではラプラス近似による事後分布の近似方法を紹介
松井 (名古屋大) 機械学習による実験計画 41 / 145
事後分布の近似 ii
• x におけるラベル y の事後確率:
P(y | x, f) = g(yf(x))
• 関数値 f = (f(x1), ..., f(xn))⊤ に対する事前分布:
f ∼ Nn(0, K)
• ラベルの事後分布:
p(y | f) =
n
Y
i=1
g(yif(xi))
−
−
−
−
−
−
−
−
−
−
→
Bayes’ theorem
p(f | D) ∝ p(f)p(y | f)
p(f | D) をラプラス近似を用いて正規分布で近似する
松井 (名古屋大) 機械学習による実験計画 42 / 145
事後分布の近似 iii
ラプラス近似
密度関数を極大にする点を中心とする正規分布で近似
log p(f | D) = log p(f) + log p(y | f)
= −
1
2
f⊤
K−1
f + log p(y | f) + log
1
(2π)n
p
|Σ|
−∇2
log p(f | D) = K−1
− ∇2
log p(y | f)
| {z }
diagonal
=: A
より, Taylor 展開の 2 次の項に注目すると
log p(f | D) ≈ log p(f0 | D) −
1
2
(f − f0)⊤
A(f − f0),
f0 = arg max
f
log p(f | D)
松井 (名古屋大) 機械学習による実験計画 43 / 145
事後分布の近似 iv
Taylor 展開による 2 次近似
log p(f | D) ≈ log p(f0 | D) −
1
2
(f − f0)⊤
A(f − f0)
以上の下で,
p(f | D) ≈ N(f0, A−1
)
と近似する (ラプラス近似).
松井 (名古屋大) 機械学習による実験計画 44 / 145
予測分布の近似 i
 x における関数値 f(x) の予測分布を近似
• (f(x), f(x1), ..., f(xn)) の事前分布を以下のように設定:
N(0, K̃), K̃ =
k(x, x) k(x)⊤
k(x) K̄
!
ここで K̄ は既に観測した点 x1, ..., xn から定まるカーネル
行列.
• f(x) の予測分布は観測値 f = (f(x1), ..., f(xn)) の条件
の下で
f(x) ∼ N(µx, σ2
x),
µx = k(x)⊤
K̄−1 ¯
f,
σ2
x = k(x, x) − k(x)⊤
K̄−1
k(x)⊤
.
松井 (名古屋大) 機械学習による実験計画 45 / 145
予測分布の近似 ii
• データ D = {(xi, yi)}n
i=1 が与えられたときの f の (近似)
事後分布は N(f0, A−1). ここで,
f0 = arg max
f
−
1
2
f⊤
K̄−1
f + log p(y | f)
• 結局, f(x) の予測分布は µx と σ2
x において f に関する平
均を取ったもの:
µf(x) = Ef [µx] = k(x)⊤
K̄−1
f0
σ2
f(x) = Ef [σ2
x] = k(x, x) − k(x)⊤
A−1
k(x)
松井 (名古屋大) 機械学習による実験計画 46 / 145
予測分布の近似 iii
 観測値 y の予測分布を近似
リンク関数 g として標準正規分布の分布関数をとる
• シグモイド関数を取った場合でも scaling によってほぼ同
様な結果が得られる
このとき, y の予測分布は以下のように書ける:
P(y | x, D) = Ef∼N(µf(x),σ2
f(x)
)[g(yf)] = g


yµf(x)
q
1 + σ2
f(x)

 .
松井 (名古屋大) 機械学習による実験計画 47 / 145
ガウス過程モデルで判別問題を解く?
ガウス過程による判別は
• ラプラス近似などによる正規近似を入れなければならない
(近似誤差が伴う)
• 正規近似を経由した事後分布の推定の計算が煩雑となる
以上の理由からガウス過程を純粋な判別の方法として用いるの
は推奨されない
松井 (名古屋大) 機械学習による実験計画 48 / 145
ベイズ最適化
ベイズ最適化
次の最適化問題の解はどうすれば求まる?
f は未知. 入出力のペア {(x, f(x))} のみが観測可能のとき, f
の最小値を求めよ
→ f に対して何らかの仮定 が必要
ベイズ最適化
f がガウス過程からのサンプルであると仮定し,
• f の概形の推定
• f の最適解の探索
を同時に実行する逐次最適化手法
松井 (名古屋大) 機械学習による実験計画 49 / 145
ベイズ最適化アルゴリズムの基本形
Algorithm : ベイズ最適化
入力: 目的関数 f の事前分布 P, 獲得関数 α
for t = 1, 2, ... do
Step1: 次の評価点 xn+1 を獲得関数の最大化問題を解いて
決定する:
xn+1 = arg max
x∈X
α(x; Dn).
Step2: xn+1 における関数値 yn+1 = f(xn+1) + ε を評価す
る.
Step3: Dn+1 = Dn ∪ {(xn+1, yn+1)} とし, P を更新する.
end for
出力 f の最適解 x̂.
松井 (名古屋大) 機械学習による実験計画 50 / 145
ベイズ最適化のビルディングブロック
ベイズ最適化では主に
1. 未知の目的関数 f の事前分布 P の設定, 更新
2. 獲得関数 α の設計, 最適化
の 2 点が重要なビルディングブロックとなる
松井 (名古屋大) 機械学習による実験計画 51 / 145
f の事前分布 P の設定と更新
• f の事前分布 P としてガウス過程
GP(µ(x), k(x, x′
))
を用いる
• データ Dn = {(xi, yi)}n
i=1 を観測したという条件の下で, 以
下のように更新できる:
f(x) ∼ GP(µ̂(x), k̂(x, x′
))
ここで,
µ̂(x) = µ(x) + k(x)⊤
(K + σ2
I)−1
(y − m)
k̂(x, x′
) = k(x, x′
) − k(x)⊤
(K + σ2
I)−1
k(x′
)
松井 (名古屋大) 機械学習による実験計画 52 / 145
獲得関数の α の設計, 最適化
• ベイズ最適化の性能は, 獲得関数 α の設計に大きく依存
• 獲得関数は, 目的関数と比べて最適化が容易であり, かつ探
索方針を反映するように設計
• 獲得関数は一般に非凸関数であり, その大域的最適解を得
ることは難しい. 以下のようなアプローチが良く採用
される
• 多点スタート勾配法
• 進化計算による大域最適化
詳細は次章
松井 (名古屋大) 機械学習による実験計画 53 / 145
ベイズ最適化における超パラメータ i
ベイズ最適化を実行する際には, ガウス過程のカーネルパラメ
ータなどの超パラメータを適切に調整する必要がある.
超パラメータの決定方法
周辺尤度 (モデルエビデンスとも呼ばれる) 最大化基準が良く
用いられる
θ∗
= arg max
θ
p(D | θ) =
Z
p(D | f, θ)p(f)df
• 事前知識の利用
• 各種勾配法
• グリッドサーチ
• MCMC 法 (局所解にはまりにくい)
松井 (名古屋大) 機械学習による実験計画 54 / 145
ベイズ最適化における超パラメータ ii
獲得関数最適化と同時に超パラメータを考慮する方法
θ の分布を考え, ベイズ最適化実行時の獲得関数に θ の不確実
性を取り入れる:
αn(x) := Eθ|Dn
[α(x; θ)] =
Z
α(x; θ)p (θ|Dn) dθ
この Eθ|Dn
[α(x; θ)] を MCMC などのサンプリング法で近似する
サンプリングを十分行うことで θ の分布が精度良く近似でき,
信用区間も数値計算的に求めることができる
松井 (名古屋大) 機械学習による実験計画 55 / 145
ベイズ最適化の収束判定
ベイズ最適化も他の最適化手法と同様の方法で収束判定できる
残差基準に基づく判定 (最適値が既知の場合)
最適値 f∗ = minx f(x) と十分小さい ε  0 に対して
|µ(xt) − f∗
|  ε または
|µ(xt) − f∗|
∥xt∥
 ε
ならば反復は収束したと “見なして” 計算を打ち切る.
誤差基準に基づく判定
十分小さい ε  0 に対して
∥xt − xt−1∥  ε または
∥xt − xt−1∥
∥xt−1∥
 ε
ならば反復は収束したと “見なして” 計算を打ち切る.
松井 (名古屋大) 機械学習による実験計画 56 / 145
ベイズ最適化の収束判定 Remarks
• 上記の収束判定基準は数値計算上の停止基準であり, 真の
最適解 x∗ = arg min
x
f(x) への収束
∥xt − x∗
∥  ε
を意味していないことに注意
• ベイズ最適化の実応用では関数値 f(x) の評価回数に上限
があること (バジェット制約) も多く, 判定条件を満たすよ
りも先にこの上限に達して停止する場合もある
松井 (名古屋大) 機械学習による実験計画 57 / 145
ベイズ最適化の性能評価
ベイズ最適化の性能はリグレットによって評価される
単純リグレット (最適解にのみ興味がある場合)
各時点 T における単純リグレット rT は以下で定まる
rT = min
t≤T
yt − min
x
f(x)
累積リグレット (途中解にも興味がある場合)
各時点 T における累積リグレット RT は以下で定まる
RT =
X
t≤T

yt − min
x
f(x)

T → ∞ のとき rT → 0 または 1
T RT → 0 となる速さで性能の善
し悪しを評価
松井 (名古屋大) 機械学習による実験計画 58 / 145
獲得関数の設計
探索と活用のトレードオフ
探索:
事前知識のない (これまでよりも良くなるかもしれない) パラ
メータに対する実験を行う
活用:
実験済みの (性能の良かった) パラメータ値に近いパラメータ
に対して実験を行う
実験計画における探索と活用のトレードオフ
探索のみを行っていると過去の実験結果が活かせず, 活用ば
かり行っているとまだ見ぬ良いパラメータを発見できない
ベイズ最適化では, 両者のバランスを取りながら最適なパラメ
ータを探すことが重要
松井 (名古屋大) 機械学習による実験計画 59 / 145
獲得関数
アイデア :
ガウス過程の事後モデルを利用し, 探索と活用のバランスを取
りながら候補点を選択する
1. 改善度に基づく方策
• probability of improvement
• expected improvement
2. 楽観的な方策
• GP-LCB (lower confidence bound)
3. その他の方策
• トンプソン抽出
• Entropy search (情報獲得量に基づく方策)
以降では特に最小値探索を考える:
min
x∈X
f(x)
松井 (名古屋大) 機械学習による実験計画 60 / 145
Probability of Improvement (PI)
アイデア:
x が現在の最良関数値 τ = min
i=1,...,n
f(xi) を改善する確率を評価:
αPI(x; Dn) := Pr[v  τ] = Φ

τ − µn(x)
σn(x)

ここで
• Φ : 標準正規分布の累積分布関数
• xnext = max
x
αPI(x; Dn)
松井 (名古屋大) 機械学習による実験計画 61 / 145
ベイズ最適化の実行例: PI を利用した場合
松井 (名古屋大) 機械学習による実験計画 62 / 145
ベイズ最適化の実行例: PI を利用した場合
松井 (名古屋大) 機械学習による実験計画 62 / 145
ベイズ最適化の実行例: PI を利用した場合
松井 (名古屋大) 機械学習による実験計画 62 / 145
ベイズ最適化の実行例: PI を利用した場合
松井 (名古屋大) 機械学習による実験計画 62 / 145
ベイズ最適化の実行例: PI を利用した場合
松井 (名古屋大) 機械学習による実験計画 62 / 145
ベイズ最適化の実行例: PI を利用した場合
松井 (名古屋大) 機械学習による実験計画 62 / 145
ベイズ最適化の実行例: PI を利用した場合
松井 (名古屋大) 機械学習による実験計画 62 / 145
ベイズ最適化の実行例: PI を利用した場合
松井 (名古屋大) 機械学習による実験計画 62 / 145
ベイズ最適化の実行例: PI を利用した場合
松井 (名古屋大) 機械学習による実験計画 62 / 145
ベイズ最適化の実行例: PI を利用した場合
松井 (名古屋大) 機械学習による実験計画 62 / 145
Expected Improvement (EI)
アイデア:
現在の最良関数値 τ に対する期待値改善度を評価.
EI は, 改善度関数
I(x, v, θ) = (τ − v)1vτ
の期待値を取ったものとして定義される:
αEI(x; Dn) := E[I(x, v, θ)]
= (τ − µn(x))Φ

τ − µn(x)
σn(x)

+ σn(x)ϕ

τ − µn(x)
σn(x)

• Φ, ϕ : 標準正規分布の累積分布関数と確率密度関数
• xnext = max
x
αEI(x; Dn)
松井 (名古屋大) 機械学習による実験計画 63 / 145
ベイズ最適化の実行例: EI を利用した場合
松井 (名古屋大) 機械学習による実験計画 64 / 145
ベイズ最適化の実行例: EI を利用した場合
松井 (名古屋大) 機械学習による実験計画 64 / 145
ベイズ最適化の実行例: EI を利用した場合
松井 (名古屋大) 機械学習による実験計画 64 / 145
ベイズ最適化の実行例: EI を利用した場合
松井 (名古屋大) 機械学習による実験計画 64 / 145
ベイズ最適化の実行例: EI を利用した場合
松井 (名古屋大) 機械学習による実験計画 64 / 145
ベイズ最適化の実行例: EI を利用した場合
松井 (名古屋大) 機械学習による実験計画 64 / 145
ベイズ最適化の実行例: EI を利用した場合
松井 (名古屋大) 機械学習による実験計画 64 / 145
ベイズ最適化の実行例: EI を利用した場合
松井 (名古屋大) 機械学習による実験計画 64 / 145
ベイズ最適化の実行例: EI を利用した場合
松井 (名古屋大) 機械学習による実験計画 64 / 145
ベイズ最適化の実行例: EI を利用した場合
松井 (名古屋大) 機械学習による実験計画 64 / 145
参考: EI の導出 i
改善度関数は, 以下のように書き換えられる:
I(x) = max{τ − v, 0}
ここで, v = µ(x) + σ(x)ε, ε ∼ N(0, 1). このとき,
αEI(x) =
Z ∞
−∞
I(x)ϕ(ε)dε
=
Z (τ−µ(x))/σ(x)
−∞
(τ − µ(x) − σ(x)ε)ϕ(ε)dε
= (τ − µ(x))
Z (τ−µ(x))/σ(x)
−∞
ϕ(ε)dε
− σ(x)
Z (τ−µ(x))/σ(x)
−∞
εϕ(ε)dε
松井 (名古屋大) 機械学習による実験計画 65 / 145
参考: EI の導出 ii
= (τ − µ(x))Φ

τ − µn(x)
σn(x)

+
σ(x)
√
2π
Z (τ−µ(x))/σ(x)
−∞
−εe−ε2/2
dε
= (τ − µ(x))Φ

τ − µn(x)
σn(x)

+
σ(x)
√
2π
h
e−ε2/2
i(τ−µ(x))σ(x)
−∞
= (τ − µ(x))Φ

τ − µn(x)
σn(x)

+ σ(x)

ϕ

τ − µn(x)
σn(x)

− 0

= (τ − µ(x))Φ

τ − µn(x)
σn(x)

+ σ(x)ϕ

τ − µn(x)
σn(x)

松井 (名古屋大) 機械学習による実験計画 66 / 145
Remarks
• 実応用では, n 時点での最良点を τ = mini=1,...,n yi とする
が, PI を用いる場合には, これは過度に貪欲的に最適化を実
行してしまう可能性がある.
• 一方で, EI を用いる場合には上記の設定でもリーズナブル
に挙動する.
松井 (名古屋大) 機械学習による実験計画 67 / 145
楽観的な方策: GP-LCB
αLCB(x; Dn) = −µn(x) + βnσn(x)
• 探索と活用のトレードオフをコントロールする
• 理論的な利点 (regret 上界)
• xnext = max
x
αLCB(x; Dn)
松井 (名古屋大) 機械学習による実験計画 68 / 145
ベイズ最適化の実行例: LCB を利用した場合
松井 (名古屋大) 機械学習による実験計画 69 / 145
ベイズ最適化の実行例: LCB を利用した場合
松井 (名古屋大) 機械学習による実験計画 69 / 145
ベイズ最適化の実行例: LCB を利用した場合
松井 (名古屋大) 機械学習による実験計画 69 / 145
ベイズ最適化の実行例: LCB を利用した場合
松井 (名古屋大) 機械学習による実験計画 69 / 145
ベイズ最適化の実行例: LCB を利用した場合
松井 (名古屋大) 機械学習による実験計画 69 / 145
ベイズ最適化の実行例: LCB を利用した場合
松井 (名古屋大) 機械学習による実験計画 69 / 145
ベイズ最適化の実行例: LCB を利用した場合
松井 (名古屋大) 機械学習による実験計画 69 / 145
ベイズ最適化の実行例: LCB を利用した場合
松井 (名古屋大) 機械学習による実験計画 69 / 145
ベイズ最適化の実行例: LCB を利用した場合
松井 (名古屋大) 機械学習による実験計画 69 / 145
ベイズ最適化の実行例: LCB を利用した場合
松井 (名古屋大) 機械学習による実験計画 69 / 145
トンプソン抽出 (Thompson Sampling, TS)
αTS(x; D) = E[y | x, θ], θ ∼ P(θ | D)
• 本当は観測系の事後分布 p(y | x, D) に関する期待値
Ep(y|x,D)[y]
を計算したいが, この事後分布
p(y | x, D) =
Z
p(y | x, θ)p(θ | D)dθ
の積分計算が難しい場合がある
• αTS はパラメータの事後分布 p(θ | D) からサンプリングし
たモデルパラメータ θ によって上の積分を 1 点モンテカル
ロ近似したもの
松井 (名古屋大) 機械学習による実験計画 70 / 145
ベイズ最適化の実行例: トンプソン抽出を利用した場合
松井 (名古屋大) 機械学習による実験計画 71 / 145
ベイズ最適化の実行例: トンプソン抽出を利用した場合
松井 (名古屋大) 機械学習による実験計画 71 / 145
ベイズ最適化の実行例: トンプソン抽出を利用した場合
松井 (名古屋大) 機械学習による実験計画 71 / 145
ベイズ最適化の実行例: トンプソン抽出を利用した場合
松井 (名古屋大) 機械学習による実験計画 71 / 145
ベイズ最適化の実行例: トンプソン抽出を利用した場合
松井 (名古屋大) 機械学習による実験計画 71 / 145
ベイズ最適化の実行例: トンプソン抽出を利用した場合
松井 (名古屋大) 機械学習による実験計画 71 / 145
ベイズ最適化の実行例: トンプソン抽出を利用した場合
松井 (名古屋大) 機械学習による実験計画 71 / 145
ベイズ最適化の実行例: トンプソン抽出を利用した場合
松井 (名古屋大) 機械学習による実験計画 71 / 145
ベイズ最適化の実行例: トンプソン抽出を利用した場合
松井 (名古屋大) 機械学習による実験計画 71 / 145
ベイズ最適化の実行例: トンプソン抽出を利用した場合
松井 (名古屋大) 機械学習による実験計画 71 / 145
情報獲得量に基づく方策:基本的なアイデア
• 未知の最適解 x∗ に関する事後分布 p∗(x | Dn) を考える
• 評価候補点 x が, x∗ に関してどの程度情報を持っているか
を評価する
松井 (名古屋大) 機械学習による実験計画 72 / 145
(Predictive) Entropy Search [Hernández-Lobato+ (NIPS’14)]
アイデア
Black box 関数 f の大域最大値を達成するパラメータ
x∗ = arg min
x∈X
f(x) に関する情報が最大となるような点を次の
探索点とする
Acquisition function in ES, PES
これまで評価したデータ Dn の下で候補点 {x, y} と最適解 x∗
との相互情報量 (MI) を評価する:
αn(x) = I({x, y}; x∗ | Dn)
= H(p(x∗ | Dn)) − Ep(y|Dn,x)[H(p(x∗ | Dn ∪ {x, y}))] (ES)
= H(p(y | Dn, x)) − Ep(x∗|Dn)[H(p(y | Dn, x, x∗))] (PES)
• PES はオリジナルの ES に対して MI の対称性を使って等価
な変換をしたもの
松井 (名古屋大) 機械学習による実験計画 73 / 145
Predictive Entropy Search i
次の評価点の決定
xn+1 = arg max
x∈X
αn(x)
= H[p(y | Dn, x)] − Ep(x∗|Dn)[H[p(y | Dn, x, x∗)]]
第 1 項について
• 予測分布 p(y | Dn, x) が正規分布のとき, 第 1 項は解析的に
書ける:
H[p(y | Dn, x)] =
1
2
log(2πe(σn(x) + σ2
))
松井 (名古屋大) 機械学習による実験計画 74 / 145
Predictive Entropy Search ii
第 2 項の予測分布は以下のように近似
• f ∼ Posterior をベイズ線形回帰 fi(x) = ϕi(x)⊤θi で解析
的に近似し最適解の推定量 x̂∗ を大量にサンプリング
→ 期待値の計算を x̂∗ に関する標本平均で実現
• “最適解で条件付け” を次の 3 制約で表現
1. x∗ は局所解 i.e. ∇f(x∗) = 0  ∇2
f(x∗) が負定値
2. f(x∗) は現在までの観測データより大きい i.e.
f(x∗) ≥ f(xi), i = 1, ..., n
3. 候補点 x で, f(x)  f(x∗)
• p(f(x) | Dn, 1, 2, 3) を expectation propagation (EP) で正
規近似
第 2 項の予測分布:
p(f(x) | Dn, x∗) ∝
Z
1f1f2 N(f | mf , Vf )df2
松井 (名古屋大) 機械学習による実験計画 75 / 145
Predictive Entropy Search iii
Acquisition Function (Empirical Version)
αn(x) =
1
M
M
X
i=1
[0.5 log(v(i)
n (x) + σ2
) − 0.5 log(v(i)
n (x | x
(i)
∗ ) + σ2
)]
• v
(i)
n (x), v
(i)
n (x | x
(i)
∗ ) はそれぞれデータ Dn (と最適解 x∗) で
の条件付きの f の予測分散, σ2 は誤差分散
• それぞれ先に導出した予測分布から計算する (正規分布の
ときエントロピー ≈ 予測分散)
Figure 1: [Hernández-Lobato+ NIPS’14] Figure 1 より抜粋
松井 (名古屋大) 機械学習による実験計画 76 / 145
Max-Value Entropy Search (MES) [Wang+ ICML’17] i
• ES, PES : 最適解 x∗ に関する情報量を測る
• MES : 最適値 y∗ = f(x∗) に関する情報量を測る
Acquisition function in MES
これまで評価したデータ Dn の下で候補点 {x, y} と最適値 y∗
との相互情報量 (MI) を評価する:
αt(x) = I({x, y}; y∗ | Dt)
= H(p(y | Dt, x)) − Ep(y∗|Dn)[H(p(y | Dn, x, y∗))]
≈
1
K
X
y∗∈Y∗

γy∗ (x)ψ(γy∗ (x))
2Ψ(γy∗ (x))
− log(Ψ(γy∗ (x)))

• ψ, Ψ : 正規分布の密度関数  分布関数
• γy∗ (x) = (y∗ − µt(x))/σt(x)
松井 (名古屋大) 機械学習による実験計画 77 / 145
Max-Value Entropy Search (MES) [Wang+ (ICML’17)] ii
H(p(y | Dt, x)) − Ep(y∗|Dn)[H(p(y | Dn, x, y∗))]
• 期待値は K 回 f の最大値をサンプリングすることで MC
推定
• p(y | Dt, x) = N(µt(x), σt(x))
• p(y | Dt, x, y∗) = T N(µt(x), σt(x); y∗)
• y  y∗ を満たすような切断正規分布
Remark : avoiding the curse of dimensionality
• ES, PES : d 次元の分布に依っている
• MES : 1-次元の分布に依っている
→ MES の方がサンプリング効率が高く計算コストが
小さい
松井 (名古屋大) 機械学習による実験計画 78 / 145
ベイズ最適化の実行例: MES を利用した場合
松井 (名古屋大) 機械学習による実験計画 79 / 145
ベイズ最適化の実行例: MES を利用した場合
松井 (名古屋大) 機械学習による実験計画 79 / 145
ベイズ最適化の実行例: MES を利用した場合
松井 (名古屋大) 機械学習による実験計画 79 / 145
ベイズ最適化の実行例: MES を利用した場合
松井 (名古屋大) 機械学習による実験計画 79 / 145
ベイズ最適化の実行例: MES を利用した場合
松井 (名古屋大) 機械学習による実験計画 79 / 145
ベイズ最適化の実行例: MES を利用した場合
松井 (名古屋大) 機械学習による実験計画 79 / 145
ベイズ最適化の実行例: MES を利用した場合
松井 (名古屋大) 機械学習による実験計画 79 / 145
ベイズ最適化の実行例: MES を利用した場合
松井 (名古屋大) 機械学習による実験計画 79 / 145
ベイズ最適化の実行例: MES を利用した場合
松井 (名古屋大) 機械学習による実験計画 79 / 145
ベイズ最適化の実行例: MES を利用した場合
松井 (名古屋大) 機械学習による実験計画 79 / 145
ベイズ最適化の実行例: PI を利用した場合
−10
−5
0
f
(x)
iteration 1
µ(x)
f(x)
µ(x) ± 1.96σ(x)
observed
0 1 2 3 4 5
x
0.0
0.5
α(x)
−10
−5
0
f
(x)
iteration 2
µ(x)
f(x)
µ(x) ± 1.96σ(x)
observed
0 1 2 3 4 5
x
0
1
α(x)
−10
−5
0
f
(x)
iteration 3
µ(x)
f(x)
µ(x) ± 1.96σ(x)
observed
0 1 2 3 4 5
x
0
1
α(x)
−10
−5
0
f
(x)
iteration 4
µ(x)
f(x)
µ(x) ± 1.96σ(x)
observed
0 1 2 3 4 5
x
0
1
α(x)
−10
−5
0
f
(x)
iteration 5
µ(x)
f(x)
µ(x) ± 1.96σ(x)
observed
0 1 2 3 4 5
x
0
1
α(x)
−10
−5
0
f
(x)
iteration 6
µ(x)
f(x)
µ(x) ± 1.96σ(x)
observed
0 1 2 3 4 5
x
0.0
0.5
α(x)
松井 (名古屋大) 機械学習による実験計画 80 / 145
ベイズ最適化の実行例: EI を利用した場合
−10
−5
0
f
(x)
iteration 1
µ(x)
f(x)
µ(x) ± 1.96σ(x)
observed
0 1 2 3 4 5
x
0.0
0.5
α(x)
−10
−5
0
f
(x)
iteration 2
µ(x)
f(x)
µ(x) ± 1.96σ(x)
observed
0 1 2 3 4 5
x
0.0
0.1
α(x)
−10
−5
0
f
(x)
iteration 3
µ(x)
f(x)
µ(x) ± 1.96σ(x)
observed
0 1 2 3 4 5
x
0.000
0.025
α(x)
−10
−5
0
f
(x)
iteration 4
µ(x)
f(x)
µ(x) ± 1.96σ(x)
observed
0 1 2 3 4 5
x
0.000
0.005
α(x)
−10
−5
0
f
(x)
iteration 5
µ(x)
f(x)
µ(x) ± 1.96σ(x)
observed
0 1 2 3 4 5
x
0.0000
0.0005
α(x)
−10
−5
0
f
(x)
iteration 6
µ(x)
f(x)
µ(x) ± 1.96σ(x)
observed
0 1 2 3 4 5
x
0.0000
0.0005
α(x)
松井 (名古屋大) 機械学習による実験計画 81 / 145
ベイズ最適化の実行例: GP-LCB を利用した場合
−10
−5
0
f
(x)
iteration 1
µ(x)
f(x)
µ(x) ± 1.96σ(x)
observed
0 1 2 3 4 5
x
5
10
α(x)
−10
−5
0
f
(x)
iteration 2
µ(x)
f(x)
µ(x) ± 1.96σ(x)
observed
0 1 2 3 4 5
x
0
10
α(x)
−10
−5
0
f
(x)
iteration 3
µ(x)
f(x)
µ(x) ± 1.96σ(x)
observed
0 1 2 3 4 5
x
5
10
α(x)
−10
−5
0
f
(x)
iteration 4
µ(x)
f(x)
µ(x) ± 1.96σ(x)
observed
0 1 2 3 4 5
x
2.5
5.0
7.5
α(x)
−10
−5
0
f
(x)
iteration 5
µ(x)
f(x)
µ(x) ± 1.96σ(x)
observed
0 1 2 3 4 5
x
0
5
α(x)
−10
−5
0
f
(x)
iteration 6
µ(x)
f(x)
µ(x) ± 1.96σ(x)
observed
0 1 2 3 4 5
x
0
5
α(x)
松井 (名古屋大) 機械学習による実験計画 82 / 145
ベイズ最適化の実行例: トンプソン抽出を利用した場合
松井 (名古屋大) 機械学習による実験計画 83 / 145
ベイズ最適化の実行例: MES を利用した場合
松井 (名古屋大) 機械学習による実験計画 84 / 145
レベル集合推定のための能動学習
レベル集合推定 i
レベル集合推定 (level set estimation, LSE) [Gotovos+ (2013)]
ブラックボックス関数 f と入力候補点 {xi}N
i=1 が与えられた
とき, 関数値 f(xi) が所望のしきい値 h ∈ R よりも大きい
xi ∈ Xup = {x | f(x)  h}
か, 小さい
xi ∈ Xlow = {x | f(x) ≤ h}
かを判定する問題
松井 (名古屋大) 機械学習による実験計画 85 / 145
レベル集合推定 ii
Xup
Xlow
f(x)
x
松井 (名古屋大) 機械学習による実験計画 86 / 145
レベル集合の判定方法
ガウス過程回帰による予測分布 N(µn(x), σ2
n(x)) を用いて f(x)
の信頼区間を考える
• µn(x) − βσn(x)  h ⇒ xi ∈ Xup (左)
• µn(x) + βσn(x)  h ⇒ xi ∈ Xlow (右)
• µn(x) − βσn(x) ≤ h ≤ µn(x) + βσn(x) ⇒ 保留 (中央)
松井 (名古屋大) 機械学習による実験計画 87 / 145
レベル集合推定のための獲得関数
Straddle 関数
αStraddle (x) = min{µn(x) + βσn(x) − h,
| {z }
A
h − (µn(x) − βσn(x))
| {z }
B
}
µn(x)
x
h
= µn(x) + 1.96σn(x) − h
= h − (µn(x) − 1.96σn(x))
• 予測分散が大きく, かつしきい値付近の点が選ばれやすい
獲得関数
松井 (名古屋大) 機械学習による実験計画 88 / 145
レベル集合推定の実行例
• 赤帯が上位集合を表す
松井 (名古屋大) 機械学習による実験計画 89 / 145
構造出力デザイン問題のための能動
学習
構造出力デザイン問題
• 構造出力デザイン
⇔ 出力が何らかの “構造” を持った系における逆問題
• 所望の構造出力を達成する入力を高速に見つけたい
Example 1 (SiC 結晶成長モデリング)
ある成長速度分布を達成する実験装置の内部パラメータを少
ない実験回数で発見したい
松井 (名古屋大) 機械学習による実験計画 90 / 145
問題設定
観測系
y =



y1
.
.
.
yM


 =



f1(x)
.
.
.
fM (x)


 +



ε1
.
.
.
εM



= f(x) + ε
• f = (f1, ..., fM ) : X → Y : ブラックボックス関数
• ε ∼ N(0, Σε), Σε = diag(σ1, ..., σM ) : 独立な観測誤差
目標
所望の出力 f0 = (f0,1, ..., f0,M ) を達成する入力 x0 を見つける
∗ f1, ..., fM 間に関係 (相関, 類似度) がある場合を考える
→ 構造出力
松井 (名古屋大) 機械学習による実験計画 91 / 145
相関のある多出力のガウス過程モデル i
マルチタスクガウス過程 [Bonilla+(NIPS07), Alvare+(2012)]






f1
f2
.
.
.
fM






| {z }
=f
∼ N

















0
0
.
.
.
0






,






Kf1,f1 · · · Kf1,fM
Kf2,f1 · · · Kf2,fM
.
.
. · · ·
.
.
.
KfM ,f1 · · · KfM ,fM






| {z }
=K











• fm = (fm(x1), ..., fm(xN ))⊤ :
N 点の観測 x1, ..., xN に対する fm の関数値
• f はサイズ MN のベクトル (M は出力の次元, N は観測点
数)
• K は MN × MN 観測誤差行列
松井 (名古屋大) 機械学習による実験計画 92 / 145
相関のある多出力のガウス過程モデル ii
カーネル行列 K の各成分は, (i, j) 成分が以下で与えられるブ
ロックカーネル行列
(Kfm,fm′ )i,j = Bm,m′ × k(xi, xj)
• k(xi, xj) は入力に対するカーネル関数 (e.g. RBF, Matern...)
• Bm,m′ は関数 fm と fm′ の類似度を表す係数
すなわち, K は入力の類似度行列 K と出力の類似度行列 B の
クロネッカー積
K =



B1,1 × K . . . B1,M × K
.
.
.
...
.
.
.
BM,1 × K . . . BM,M × K


 = B ⊗ K
松井 (名古屋大) 機械学習による実験計画 93 / 145
相関のある多出力のガウス過程モデル iii
マルチタスクガウス過程モデルにおける推論は通常のガウス過
程回帰と形式的には同じ
• 尤度
p(Y | f, X, θ) = N(Y | 0, K + Σ)
• 事後平均
µy∗ = K⊤
f∗
(K + Σ)−1
y
• 事後共分散行列
Ky∗ = Kf∗,f∗ − Kf∗ (K + Σ)−1
K⊤
f∗
• Σ = Σε + IN : NM × NM 行列
松井 (名古屋大) 機械学習による実験計画 94 / 145
提案法の方針と目的関数 [Matsui+ (2019)]
方針
• 所望の出力 f0 とガウス過程の予測 y との誤差
L(x) = E(x)⊤
E(x) =
M
X
m=1
(ym − f0,m)2
を最小化する (E(x) = (y1 − f0,1, ..., yM − f0,M ))
• 最適化における出力 y の観測はできるだけ少なくする
方法
L(x) に基づく獲得関数で次の観測点を指定
 誤差関数 L(x) に対するベイズ最適化とも解釈できる
• ただしガウス過程でモデル化されているのは L ではなく f であること
に注意
松井 (名古屋大) 機械学習による実験計画 95 / 145
アルゴリズム [Matsui+ (2019)]
入力: 観測データ D = {(xi, yi)}N
i=1, 所望の出力 f0
初期化: x∗ = arg min
xi,i=1,...,N
L(xi)
for t = 1, 2, ... do
Step 1: 獲得関数を最大化して観測点を決定:
xt+1 = arg max
x∈X
α(x; f0).
Step 2: 出力を観測 yt+1 = f(xt+1) + ε.
Step 3: データセットを更新 D ← D ∪ {xt+1, yt+1}.
Step 4: カレントベストを更新 x∗ ← arg min
x=x∗,xt+1
L(x)
end for
出力: x∗
∗ 赤字: 普通のベイズ最適化と異なる部分
松井 (名古屋大) 機械学習による実験計画 96 / 145
獲得関数 [Matsui+ (2019)]
Probability of Improvement (PI)
αPI(x) = Pr(L∗
≥ L(x))
Expected Improvement (EI)
αEI(x) = E[max{0, L∗
− L(x)}]
Lower Confidence Bound (LCB)
αLCB(x) = −F−1
(q; L(x))
• F : L(x) の累積分布関数
• q : 分位点 (“どれくらい探索するか” を指定)
獲得関数は二乗誤差関数 L(x) が従う分布 (̸= 正規分布)に基づ
いて設計される ← 普通のベイズ最適化と異なる
松井 (名古屋大) 機械学習による実験計画 97 / 145
獲得関数の評価方法 i
二乗誤差関数 L(x) が従う分布とは?
Proposition (M+)
ある bm ∈ R, 1 ≤ m ≤ M が存在して, L(x) は
W =
M
X
m=1
λmwm
と同一の確率分布に従う.
• λm : 予測共分散行列 Ky∗ の固有値
• wm : 自由度 1, 非心度 bm の非心 χ2 分布に従う確率変数
W が従う分布は一般化 χ2 分布と呼ばれる
⇒ L(x) は一般化 χ2 分布に従う確率変数になっている
松井 (名古屋大) 機械学習による実験計画 98 / 145
獲得関数の評価方法 ii
• LCB, PI は一般化 χ2 分布の累積分布関数から計算される
• EI は
α(x) = E[max{0, L∗
− L(x)}]
=
Z L∗
0
(L∗
− t)pGχ2 (t)dt
= L∗
Gχ2 (L∗
) −
Z L∗
0
tpGχ2 (t)dt
= L∗
Gχ2 (L∗
) − [tGχ2 (t)]L∗
0 +
Z L∗
0
Gχ2 (t)dt
= 

L∗
Gχ2 (L∗
) −

L∗
Gχ2 (L∗
) +
Z L∗
0
Gχ2 (t)dt
より一般化 χ2 分布の累積分布関数 Gχ2 の定積分となる
∗ 実装上はマルチタスクガウス過程からのサンプリングで実現
松井 (名古屋大) 機械学習による実験計画 99 / 145
より複雑な問題に対するベイズ最適
化
制約付き最適化 i
ブラックボックス関数 f の最適化問題
min
x∈X
f(x)
で探索空間 X に制約がある場合
• 制約条件が事前に判明しているケース
→ 獲得関数の最適化の際に制約条件を加えれば OK
• どのような制約条件があるか不明なケース
→ 獲得関数に改良を加えて対処  (以下で紹介)
松井 (名古屋大) 機械学習による実験計画 100 / 145
制約付き最適化 ii
[GramacyLee (2011)]
integrated expected conditional improvement
αIECI(x) :=
Z
x′
αEI(x′
, Dn) − αEI(x′
, Dn ∪ x | x)

h(x′
)dx
• 密度関数 h の下で x を観測することによる EI の変化をモ
デル化 (h はユーザーが指定)
• 制約条件を満たす確率を表現するような h を選択すると,
IECI は制約が有効である確率が高い領域を優先的に探
索する
松井 (名古屋大) 機械学習による実験計画 101 / 145
制約付き最適化 iii
[Snoek, PhD thesis; Gardner+ (2014)]
weighted expected improvement
EI に制約条件を満たす確率をかける
αwEI(x) := αEI(x, Dn)h(x, Dn)
• h(x, Dn) の例 (ガウス過程でモデリング)
h(x, Dn) =



1 x が制約を満たす
0 x が制約を満たさない
h(x, Dn) = Pr(f(x)  λ | Dn)
• 制約が満たされなさそうな領域では wEI は (h の影響で)  
ほとんど 0 になる
松井 (名古屋大) 機械学習による実験計画 102 / 145
制約付き最適化 iv
その他の制約付きベイズ最適化
• [Hernndez-Lobato+ (2015)]
• predictive entropy search (PES) のバリアント
• 目的関数と制約条件を独立に評価する
• [Gramacy+ (2016)]
• 拡張ラグランジュ法 + BO
min
x,y
f(x) + y⊤
g(x)
| {z }
Lagrangian
+
λ
2
∥g(x)∥2
| {z }
penalty
• 通常のラグランジュ関数 + 制約を破ることに対する罰則 
• λ をスケジューリングしながら制約なし最適化 (BO) を繰り
返し解く
松井 (名古屋大) 機械学習による実験計画 103 / 145
コスト考慮型最適化
• 探索空間のある領域は他の領域に比べて目的関数の評価に
よりコストがかかる
• 探索回数に上限がある場合, 探索リソースは低コストな領
域に重点的に割くべき (biased search)
• EI per second [Snoek+ (2012)] :
αEI(x, Dn)
c(x)
→ “良いパラメータ” の周辺を重点的に探索
• c(x) は x で目的関数を評価するコストを表す
松井 (名古屋大) 機械学習による実験計画 104 / 145
多目的最適化 i
• M 個の目的関数
F (x) = (f1(x), ..., fM (x))⊤
の同時最適化を考える問題
• パレート解の探索が目的
パレート解
• fx = (f1(x), ..., fM (x)) と書き, x, x′ に対して
fx ≻ fx′ :⇔ fi(x) ≥ fi(x′
), i = 1, ..., M
が成り立つとき, fx は fx′ を優越するという
• fx が任意の x′ に対して fx′ に優越されないとき, fx をパ
レート解と呼ぶ
松井 (名古屋大) 機械学習による実験計画 105 / 145
多目的最適化 ii
Pareto frontier
f(P)
V (P)
松井 (名古屋大) 機械学習による実験計画 106 / 145
ベイズ最適化によるパレートフロントの推定 i
[Zuluaga+ (2013)]
⼊⼒ の不確実性領域
⼊⼒ の不確実性
with the largest wt(x) is chosen as the next sample xt
to be evaluated. We refer to wt(xt) as wt.
Intuitively, this rule biases the sampling towards ex-
ploring, and thus improving the model for, the points
most likely to be Pareto-optimal.
f1(x)
f2(x)
d
(max(Rt(x)) +
d
(min(Rt(x)) +
d
wT + 2 2
d
d
Rt(x) of a point classified as Pareto-optimal
Rt(x) of a point classified as not-Pareto optimal
Rt(x) of an unclassified point
Sampled points classified as not-Pareto optimal
Next sample
Figure 2. Classification and sampling example for n = 2
and ‘ = 0.
Stopping criteria. The training process stops after,
say, T iterations when all points in E are classified,
i.e., when UT = ÿ. The prediction returned is P̂ = PT .
The selection of the parameter ‘ used in the classifica-
tion rule impacts both the accuracy and the sampling
cost T of the algorithm.
Theorem 1. Let ” œ (0, 1
—t = 2 log(n|E|fi2
t2
/(6”)), t
probability 1 ≠ ”.
To achieve a maximum hyper
sufficient to choose
‘ =
÷(n ≠
2nan
where a = maxxœE,1ÆiÆn{

—
In this case, the algorithm ter
iterations, where T is the sma
Û
T
C1—T “T
Ø
÷
Here, C1 = 8/ log(1 ≠ ‡≠2
),
type of kernel used.
This means that by specifying
ume error ÷, PAL can be con
rameter ‘ to stop when the tar
confidence 1≠”. Additionally,
number of iterations T requir
Later, in Corollary 2, we will
判別ルール:
となる が存在しない
となる が存在する
→ はパレート解(⻘領域)
→ はパレート解でない(灰領域)
M個の⽬的関数をM個の独⽴な
GPでモデル化して計算する
獲得関数
松井 (名古屋大) 機械学習による実験計画 107 / 145
ベイズ最適化によるパレートフロントの推定 ii
[Suzuki+ (2020)]
松井 (名古屋大) 機械学習による実験計画 108 / 145
バッチベイズ最適化
• 複数の候補点で同時に目的関数を評価できる状況 (並列計
算システムなど) もある
• 一度に複数の学習データ点を選択するタイプのベイズ最適
化をバッチベイズ最適化と呼ぶ
• 問題設定としては並列分散ベイズ最適化 (parallel
distributed Bayesian optimization)の特別なケースとみな
すことができる (用いる手法もこの設定に準じる)
松井 (名古屋大) 機械学習による実験計画 109 / 145
バッチベイズ最適化の方法 i
並列 EI [Snoek+ (2012), Hernandez-Lobato+ (2017)]
獲得関数:
αPEI(x | D, C) = Ep({yc}c∈C|{xc}c∈C,D)[αEI(x | D ∪ {(xc, yc)}c∈C)]
→ ある点の評価中に別の点を選ぶため, EI の候補点に関する期
待値を新たな獲得関数とする
松井 (名古屋大) 機械学習による実験計画 110 / 145
バッチベイズ最適化の方法 ii
並列分散トンプソン抽出 [Hernandez-Lobato+ (2017)]
松井 (名古屋大) 機械学習による実験計画 111 / 145
高次元のベイズ最適化
目的関数が高次元 (多数のパラメータを含んでいる) 場合
• 目的関数の推定に必要な関数値の観測回数 (実験回数) が
膨大になる
• 獲得関数がほとんどの領域で平坦になり, 探索が困難にな
る場合がある (上図)
松井 (名古屋大) 機械学習による実験計画 112 / 145
高次元のベイズ最適化の方法
大きく分けて 3 つのアプローチがある
1. 目的関数の事前分布モデルを工夫する
• 加法的ガウス過程に基づく BO [Kandasamy+ (2015)]
2. 次元削減を行い低次元空間で BO を行う
• REMBO [Wang+ (2013)], LineBO [Kirschner+ (2019)]...
3. 局所的なモデリングで精度を担保する
• TuRBO [Eriksson+ (2019)]
松井 (名古屋大) 機械学習による実験計画 113 / 145
加法的ガウス過程 (additive Gaussian processes) モデル
• 目的関数 f(x) がより低次元な関数の和で書けるとする:
f(x) = f(1)
(x(1)
) + f(2)
(x(2)
) + · · · + f(M)
(x(M)
)
ここで, 各 x(j) の次元 dj は元の x の次元 d よりも小さい
• 各 f(j) に独立なガウス過程モデルを仮定
f(j)
(x) ∼ GP(µ(j)
(x(j)
), k(j)
(x(j)
, x(j)′
))
• このとき, f は平均関数 µ, カーネル関数 k がそれぞれ
µ(x) = µ(1)
(x(1)
) + · · · + µ(M)
(x(M)
),
k(x, x′
) = k(1)
(x(1)
, x(1)′
) + · · · + k(M)
(x(M)
, x(M)′
)
であるようなガウス過程 GP(µ(x), k(x, x′)) に従う
松井 (名古屋大) 機械学習による実験計画 114 / 145
加法的ガウス過程モデルの推論
X = {x1, ..., xn}, Y = {y1, ..., yn} : 観測済みの点
• 独立性から, 各 f(j) の予測分布を個別に計算すれば良い
• 候補点 x
(j)
∗ における観測値 y
(j)
∗ = f(j)(x
(j)
∗ ) + ε の予測分
布 p(y
(j)
∗ | x∗, X, Y ) は予測平均と予測分散がそれぞれ
µ(j)
(x
(j)
∗ ) = k(j)
(x
(j)
∗ )∆−1
Y (j)
,
σ(j)
(x
(j)
∗ ) = k(j)
(x
(j)
∗ , x
(j)
∗ ) − k(j)
(x
(j)
∗ )∆−1
k(j)
(x
(j)
∗ )
の正規分布 N(µ(x
(j)
∗ ), σ(x
(j)
∗ )) となる. ここで,
• k(j)
(x
(j)
∗ ) = (k(j)
(x
(j)
∗ , x
(j)
1 ), ..., k(j)
(x
(j)
∗ , x
(j)
n )) ∈ Rn
• ∆ = k(X, X) + σ2
I ∈ Rn×n
松井 (名古屋大) 機械学習による実験計画 115 / 145
加法的ガウス過程に基づくベイズ最適化
Additive GP-UCB [Kandasamy+ (2015)]:
α(x) = µt−1(x) +
p
βt
M
X
j=1
σ
(j)
t−1(x(j)
)
• α は各 j に対する GP-UCB
α(j)
(x(j)
) = µ
(j)
t−1(x(j)
) +
p
βtσ
(j)
t−1(x(j)
)
の和になっている
• 各 α(j) を独立に最大化して得られた解を concat すれば α
の最適解が得られる
松井 (名古屋大) 機械学習による実験計画 116 / 145
次元削減に基づくベイズ最適化 i
Definition 2 (有効次元 (effective dimensionality))
関数 f : Rd → R が有効次元 de( d) を持つ
:⇔ de 次元の線型部分空間 T が存在して, 任意の x⊤ ∈ T と任
意の直交補空間の元 x⊥ ∈ T ⊥ に対して
f(x) = f(x⊤ + x⊥) = f(x⊤)
が成り立つ
Theorem 3 (Wang+ (2013) Theorem 2)
• f : Rd → R : 有効次元が de の関数
• A ∈ Rd×d′
: 各要素が独立に N(0, 1) に従うランダム行列
このとき, 任意の x ∈ Rd に対して f(x) = f(Az) を満たすよ
うな z ∈ Rd′
が確率 1 で存在する (ここで, d′ ≥ de)
松井 (名古屋大) 機械学習による実験計画 117 / 145
次元削減に基づくベイズ最適化 ii
A
A
A
x=Ay
Convex projection of Ay to
x
y
Embedding
D=2
d=1
y
x
• 目的関数 f には関数値の挙動を支配する方向と関数値に影
響を与えない方向がある
• 低次元空間で獲得関数の最適化を行い, ランダム行列 A で
元の次元に埋め込む (ランダム埋め込み) ことで探索のコ
ストを削減する
松井 (名古屋大) 機械学習による実験計画 118 / 145
次元削減に基づくベイズ最適化 iii
ランダム埋め込みによるベイズ最適化 (REMBO) [Wang+ (2013)]
Theorem 4 (Wang+ (2013) Theorem 3)
関数 f の, 中心 0 の box constraint 上の最適解を x∗ とし, x∗
⊤
をその部分空間 T への射影とする. このとき,
f(Az∗) = f(x∗
⊤) を満たすような z∗ ∈ Rd′
が存在する.
松井 (名古屋大) 機械学習による実験計画 119 / 145
信頼領域法: 目的関数の局所モデルの利用
信頼領域法 (trust region method) の手順
1. 各反復において, 現在の解 xt の近傍で目的関数 f(x) を最
適化しやすい関数 m(z) で近似
• よく用いられるのは二次近似モデル
mt(z) = f(xt) + ∇f(xt)⊤
z +
1
2
z⊤
∇2
f(xt)z
2. m(z) による近似が良く成り立つ信頼領域 (trust region)
∥z∥ ≤ ∆t を設定
• ∆t を信頼領域半径とよぶ
3. 信頼領域上で m(z) を最小化
min
z
mt(z) s.t. ∥z∥ ≤ ∆t
松井 (名古屋大) 機械学習による実験計画 120 / 145
信頼領域法によるベイズ最適化 i
決定論的な信頼領域法を使うのが難しい点
• 観測ノイズの影響を考慮できない
→ 不確実性のモデリングが必要
• 二次モデルなどのよく使われる近似モデルでは, 信頼領域
半径が極めて小さくなってしまう
→ より柔軟なモデルが必要
TuRBO (Trust Region Bayesian Optimization) [Eriksson+ (2019)]:
• 信頼領域上の近似モデルとしてガウス過程を採用
• サイズの異なる複数の信頼領域上で並列に BO を実行する
ことで, 全体としてはバッチベイズ最適化としてアルゴリ
ズムを構築
松井 (名古屋大) 機械学習による実験計画 121 / 145
信頼領域法によるベイズ最適化 ii TuRBO のアルゴリズム
松井 (名古屋大) 機械学習による実験計画 122 / 145
事例紹介
事例 i : 機械学習における超パラメータ調整
• 機械学習モデルには多数の超パラメータが含まれておりそ
の設定は汎化性能に直結
Ex (深層学習の超パラメータ)
• 層数, チャンネル数, 学習アルゴリズム, ...
• 従来は検証誤差を監視しながら人力で調整 (深層学習が職
人芸と言われる所以)
• 最近は超パラメータ自動最適化用のフレームワークが充実
しつつある
超パラメータ調整のための方法 :
 グリッドサーチ, ランダムサーチ (クロスバリデーション)
 進化計算 (遺伝アルゴリズムなど)
 ベイズ最適化
松井 (名古屋大) 機械学習による実験計画 123 / 145
事例 i : 深層学習における超パラメータ調整
例: Optuna
• Preferred Networks 社が開発した超パラメータ最適化フレ
ームワーク
• 過去の超パラメータによる学習の履歴に基づいて次に試行
するべき超パラメータを適応的に指定
• Tree-structured Parzen Estimator (TPE) [Bergstra+ (2011)]
と呼ばれるベイズ最適化の亜種を採用
• TPE の他の手法との性能比
較 (畳み込みニューラルネ
ットの超パラメータ調整タ
スク)
• 同じ探索回数では TPE が
最も誤差を小さくしている
松井 (名古屋大) 機械学習による実験計画 124 / 145
事例 ii : レベル集合推定による適応的マッピング
マッピング (データ取得)
• 1 点 1 点, 物性値を測定する
• 狭義: 実空間での逐次測定
• 広義: 任意のパラメータ空間での逐次測定
• 測定点数 vs 精度のトレードオフ
少ないコスト (点数, 時間, 費用...) で正確な分布を得たい
松井 (名古屋大) 機械学習による実験計画 125 / 145
事例 ii : レベル集合推定による適応的マッピング
角
角
• 製造業では, 材料の物性が所望の品質を満たしていない低
品質領域の特定が重要
• 従来は等間隔マッピングで網羅的に物性値を測定して判断
→ 無駄な測定が多く, 効率が悪い
松井 (名古屋大) 機械学習による実験計画 126 / 145
事例 ii : レベル集合推定による適応的マッピング
レベル集合推定としての定式化
物性値にしきい値を設定し,
• 測定点の物性値がしきい値以上 → 低品質領域ではない
• 測定点の物性値がしきい値以下 → 低品質領域である
と定義して 2 つの領域を分離する
レベル集合推定のための能動学習により効率的な適応的マッピ
ングを実現する
松井 (名古屋大) 機械学習による実験計画 127 / 145
事例 ii : レベル集合推定による適応的マッピング
[穂積 +, JSAI2019]
!# !$# % !'# (
!)# * !+# , !-# ,.
• 2 次元入力 (測定点の座標), 1 次元出力 (物性値) 関数を GP
でモデリングし LSE を適用
• 従来法 (6586 点測定) よりも少ない測定点数で低品質領域
を同定
松井 (名古屋大) 機械学習による実験計画 128 / 145
事例 iii : イオン電動性物質の伝導度推定 [Kanamori+ (2018)]
 電池材料などのイオン電動性物質の伝導度を知りたい
• ポテンシャルエネルギー (PE) 曲面内のイオン伝導経路を
同定できれば,その経路内の最安定点(エネルギー最小の
点)とボトルネック点(エネルギー最大の点)を知ること
ができ,イオン伝導度を求めることができる
• 第一原理計算などの物理シミュレーションを用いれば各点
における PE を高精度に求められる
→ PE 関数全体を網羅的な第一原理計算で求めようとすると膨
大な計算コスト
提案法
ガウス過程モデルとベイズ最適化の考え方を拡張し,イオン
伝導経路を特徴づける部分に対して選択的に第一原理計算を
行うアプローチ
松井 (名古屋大) 機械学習による実験計画 129 / 145
事例 iii : イオン電動性物質の伝導度推定 [Kanamori+ (2018)]
以下の 3 ステップの繰り返しアルゴリズムとして実現
Step 1 ガウス過程モデルから PE 関数のランダムサンプ
ルを多数生成
Step 2 Step 1 の各 PE 関数に対して動的計画法で最適な
イオン伝導路を同定
→ 最安定点とボトルネック点のランダムサンプル
を得る
Step 3 Step 2 で得た最安定点とボトルネック点に基づい
た獲得関数を設計し, 次に第一原理計算を適用す
るべきコンフィギュレーション点を選択
松井 (名古屋大) 機械学習による実験計画 130 / 145
事例 iii : イオン電動性物質の伝導度推定 [Kanamori+ (2018)]
• 左図: 2 次元空間のポテンシャルエネルギー (PE) 曲面をガ
ウス過程でモデル化して得られた予測平均と予測分散
• 右図: ガウス過程モデルからランダムサンプリングで PE
曲面の候補を多数作成. 各候補に動的計画法を適用してイ
オン伝導経路を求めることで,イオン伝導経路の予測分布
を推定し, ベイズ最適化で第一原理計算すべき点を決定
松井 (名古屋大) 機械学習による実験計画 131 / 145
事例 iv : SiC モデリングの出力デザイン [Matsui+ (2020)]
SiC (シリコンカーバイド) 結晶成長シミュレーションデータ
• 入力: 9 次元の実験パラメータ
• 接着剤熱伝導率
• 黒鉛熱伝導率
• 断熱材熱伝導率
• 黒鉛電気伝導率
• 断熱材電気伝導率
• 溶液輻射率
• 溶液熱容量
• 結晶-溶液界面速度係数
• 黒鉛-溶液界面速度係数
• 出力: 10 地点の成長速度を並べた 10 次元のベクトル
目的
所望の結晶成長速度ベクトルを少ない実験回数で見つける
松井 (名古屋大) 機械学習による実験計画 132 / 145
事例 iv : SiC モデリングの出力デザイン [Matsui+ (2020)]
1 次元入力の場合のデモ
• 黒鉛-溶液界面速度係数のみ入力とした 1 入力 10 出力の系
• 初期点は 5 点, 獲得関数には EI を使用
L(x)
EI
f(x)
• 黒: 所望の出力
• 青: ガウス過程による予測 + 不確実性
• 赤: 実際の観測
松井 (名古屋大) 機械学習による実験計画 133 / 145
事例 iv : SiC モデリングの出力デザイン [Matsui+ (2020)]
9 次元入力の場合の実データ実験
データから各測定地点に対応する関数の相関を推定
0 1 2 3 4 5 6 7 8 9
0
1
2
3
4
5
6
7
8
9
1 0.062 -0.25 -0.36 -0.41 -0.4 -0.3 0.078 0.53 0.59
0.062 1 0.94 0.88 0.83 0.8 0.75 0.5 -0.068-0.32
-0.25 0.94 1 0.99 0.97 0.94 0.87 0.51 -0.22 -0.52
-0.36 0.88 0.99 1 0.99 0.98 0.9 0.52 -0.25 -0.57
-0.41 0.83 0.97 0.99 1 0.99 0.93 0.56 -0.23 -0.57
-0.4 0.8 0.94 0.98 0.99 1 0.97 0.64 -0.14 -0.51
-0.3 0.75 0.87 0.9 0.93 0.97 1 0.81 0.095 -0.31
0.078 0.5 0.51 0.52 0.56 0.64 0.81 1 0.66 0.29
0.53 -0.068-0.22 -0.25 -0.23 -0.14 0.095 0.66 1 0.9
0.59 -0.32 -0.52 -0.57 -0.57 -0.51 -0.31 0.29 0.9 1
SiC Simulation
0.0
0.2
0.4
0.6
0.8
1.0
• データを分割し, 一方で推定 (探索には用いない)
• “近い測定地点の関数値は似ている” という関係がある
松井 (名古屋大) 機械学習による実験計画 134 / 145
事例 iv : SiC モデリングの出力デザイン [Matsui+ (2020)]
9 次元入力の場合の実データ実験
単純リグレット min1≤i≤n L (xi) − minx∈X L(x) による比較
0 20 40 60 80 100
Number of observation
10−1
101
103
Simple
Regret
SiC simulation
EI
EI (ind)
PI
PI (ind)
LCB
LCB (ind)
MSE
random
出力ベクトルの成分間の類似度 (すなわち構造) を考慮した提
案法が最も早くリグレットを減少させることができている
松井 (名古屋大) 機械学習による実験計画 135 / 145
事例 v : Si エピタキシャル成長プロセス最適化 [Osada+ (2020)]
目的
成長速度を最大にしつつ, その他の 5 つの評価項目を基準値
以下にするプロセス条件の組合せを見つける
松井 (名古屋大) 機械学習による実験計画 136 / 145
事例 v : Si エピタキシャル成長プロセス最適化 [Osada+ (2020)]
Thickness uniformity Less than a threshold Low Available High
Uniformity of resistivity High Low
Large LPD ( 0.30 μm) Low Low
Small LPD ( 0.136 μm) Low Low
Accumulation of slip length High High
Error A No error Zero Unavailable High
Error B *No error Zero High
meter is less than a threshold.
t of BO process in this study. SQCBO: single quality constraint Bayesian optimization; MQCBO: multiple quality constraint Bayesian optimization.
制約付きベイズ最適化
+
バッチベイズ最適化
成⻑速度以外の5つの項⽬が
基準値以下であることを要請
異なる条件での複数の実験を
連続して⾏い, 複数の試料を
⼀度に評価
Procedure 1:
単⼀のパラメータのみを更新するBO
(短時間で実⾏可能)
⽤いたベイズ最適化のフレームワーク
Procedure 2:
全パラメータを更新するBO
(実⾏に時間を要する)
Procedure 3 :
プロセスエンジニアによる条件の
絞り込み
→ BOによって挙げられた候補条件を
基にPEの知識を⽣かして特定のパラ
メータに対して条件探索を⾏う
提案法のフローチャート
松井 (名古屋大) 機械学習による実験計画 137 / 145
事例 v : Si エピタキシャル成長プロセス最適化 [Osada+ (2020)]
松井 (名古屋大) 機械学習による実験計画 138 / 145
まとめ
• 統計的実験計画の考え方
• ブラックボックス関数のベイズモデリング
• ベイズ線形回帰
• ガウス過程回帰
• ベイズ最適化の基本概念
• ベイズ最適化の基本アルゴリズム
• 獲得関数
• レベル集合推定のための能動学習
• 構造出力デザインのための能動学習
• 制約付き, コスト考慮型, 多目的問題に対するベイズ最適化
• 応用事例紹介
松井 (名古屋大) 機械学習による実験計画 139 / 145
Python による実装方法例
ベイズ最適化のためのライブラリ各種
• Gaussian Processes (scikit-learn)
• 機械学習の汎用ライブラリ scikit-learn 内のガウス過程回
帰用モジュール
• 事後分布からのサンプリング用の関数が用意されていない
など次の GPy に比べると不便な印象
• GPy
• ガウス過程回帰用ライブラリ
• 事前分布の設定, 事後分布 · 予測分布の計算, などが関数化
されており非常に便利
• カーネルの超パラメータ最適化なども含む
• GPyOpt
• GPy をベースにしたベイズ最適化用ライブラリ
• ただし, 獲得関数の種類などが多くなく, 研究で使うには
不向き
松井 (名古屋大) 機械学習による実験計画 140 / 145
Python による実装方法例
ベイズ最適化のためのライブラリ各種 (つづき)
• GPyTorch
• PyTorch ベースのガウス過程回帰用モジュール
• 共分散行列の遅延評価による計算の効率化
• BoTorch
• GPyTorch のベイズ最適化用ラッパー
• サンプリングや勾配計算は専用の関数が提供されている
• BO のアルゴリズム自体は自分で書く必要がある (研究用)
• Ax
• BoTorch をさらにラップしたライブラリ
• 既成の獲得関数で BO を実行するだけであれば圧倒的に楽
• システムに組み込むことを念頭に開発されている (AB テス
ト, ML システム...)
松井 (名古屋大) 機械学習による実験計画 141 / 145
Python による実装方法例
ベイズ最適化の比較的手軽な実装方法
 既成の獲得関数でとりあえず BO を実行したい
→ GPyOpt や Ax で一括モデリング
 自作の獲得関数を使うなどいろいろカスタマイズをしたい
→ GPy, GPyTorch, BoTorch などでモデリング部分は自動化しつ
つ BO 部分は自分で書く
• ベイズ最適化の肝は “いかにして問題に適した獲得関数を
設計するか” なので, 研究では後者がマジョリティだと思わ
れる
• 今回紹介する方法も後者
松井 (名古屋大) 機械学習による実験計画 142 / 145
References
[1] James S Bergstra, Rémi Bardenet, Yoshua Bengio, and Balázs Kégl. Algorithms for hyper-parameter
optimization. NeurIPS, 2011.
[2] J Bernardo, MJ Bayarri, JO Berger, AP Dawid, D Heckerman, AFM Smith, and M West. Optimization under
unknown constraints. Bayesian Statistics, 9(9):229, 2011.
[3] David Eriksson, Michael Pearce, Jacob Gardner, Ryan D Turner, and Matthias Poloczek. Scalable global
optimization via local bayesian optimization. NeurIPS, 2019.
[4] Jacob R Gardner, Matt J Kusner, Zhixiang Eddie Xu, Kilian Q Weinberger, and John P Cunningham. Bayesian
optimization with inequality constraints. ICML, 2014.
[5] Alkis Gotovos, Nathalie Casati, Gregory Hitz, and Andreas Krause. Active learning for level set estimation. In
IJCAI, pages 1344–1350, 2013.
[6] Robert B Gramacy, Genetha A Gray, Sébastien Le Digabel, Herbert KH Lee, Pritam Ranjan, Garth Wells, and
Stefan M Wild. Modeling an augmented lagrangian for blackbox constrained optimization. Technometrics,
58(1):1–11, 2016.
[7] Daniel Hernández-Lobato, Jose Hernandez-Lobato, Amar Shah, and Ryan Adams. Predictive entropy search for
multi-objective bayesian optimization. 2016.
[8] José Miguel Hernández-Lobato, Michael Gelbart, Matthew Hoffman, Ryan Adams, and Zoubin Ghahramani.
Predictive entropy search for bayesian optimization with unknown constraints. ICML, 2015.
[9] José Miguel Hernández-Lobato, Michael A Gelbart, Ryan P Adams, Matthew W Hoffman, and Zoubin
Ghahramani. A general framework for constrained bayesian optimization using information-based search.
The Journal of Machine Learning Research, 17(1):5549–5601, 2016.
[10] José Miguel Hernández-Lobato, Matthew W Hoffman, and Zoubin Ghahramani. Predictive entropy search for
efficient global optimization of black-box functions. NeurIPS, 2014.
松井 (名古屋大) 機械学習による実験計画 143 / 145
[11] José Miguel Hernández-Lobato, James Requeima, Edward O Pyzer-Knapp, and Alán Aspuru-Guzik. Parallel and
distributed thompson sampling for large-scale accelerated exploration of chemical space. ICML, 2020.
[12] Kenta Kanamori, Kazuaki Toyoura, Junya Honda, Kazuki Hattori, Atsuto Seko, Masayuki Karasuyama, Kazuki
Shitara, Motoki Shiga, Akihide Kuwabara, and Ichiro Takeuchi. Exploring a potential energy surface by machine
learning for characterizing atomic transport. Physical Review B, 97(12):125124, 2018.
[13] Kirthevasan Kandasamy, Jeff Schneider, and Barnabás Póczos. High dimensional bayesian optimisation and
bandits via additive models. ICML, 2015.
[14] Johannes Kirschner, Mojmir Mutny, Nicole Hiller, Rasmus Ischebeck, and Andreas Krause. Adaptive and safe
bayesian optimization in high dimensions via one-dimensional subspaces. ICML, 2019.
[15] Kota Matsui, Shunya Kusakawa, Keisuke Ando, Kentaro Kutsukake, Toru Ujihara, and Ichiro Takeuchi. Bayesian
active learning for structured output design. arXiv preprint arXiv:1911.03671, 2019.
[16] Keiichi Osada, Kentaro Kutsukake, Jun Yamamoto, Shigeo Yamashita, Takashi Kodera, Yuta Nagai, Tomoyuki
Horikawa, Kota Matsui, Ichiro Takeuchi, and Toru Ujihara. Adaptive bayesian optimization for epitaxial growth
of si thin films under various constraints. Materials Today Communications, 25:101538, 2020.
[17] Carl Edward Rasmussen and Christopher KI Williams. Gaussian process for machine learning. MIT press, 2006.
[18] Bobak Shahriari, Kevin Swersky, Ziyu Wang, Ryan P Adams, and Nando De Freitas. Taking the human out of the
loop: A review of bayesian optimization. Proceedings of the IEEE, 104(1):148–175, 2016.
[19] Jasper Snoek, Hugo Larochelle, and Ryan P Adams. Practical bayesian optimization of machine learning
algorithms. NeurIPS, 2012.
[20] Jasper Roland Snoek. Bayesian optimization and semiparametric models with applications to assistive
technology. PhD thesis, Citeseer, 2013.
[21] Shinya Suzuki, Shion Takeno, Tomoyuki Tamura, Kazuki Shitara, and Masayuki Karasuyama. Multi-objective
bayesian optimization using pareto-frontier entropy. ICML, 2020.
[22] Kazuaki Toyoura, Daisuke Hirano, Atsuto Seko, Motoki Shiga, Akihide Kuwabara, Masayuki Karasuyama, Kazuki
Shitara, and Ichiro Takeuchi. Machine-learning-based selective sampling procedure for identifying the
low-energy region in a potential energy surface: A case study on proton conduction in oxides. Physical Review
B, 93(5):054112, 2016.
松井 (名古屋大) 機械学習による実験計画 144 / 145
[23] Zi Wang and Stefanie Jegelka. Max-value entropy search for efficient bayesian optimization. ICML, 2017.
[24] Ziyu Wang, Masrour Zoghi, Frank Hutter, David Matheson, and Nando De Freitas. Bayesian optimization in high
dimensions via random embeddings. IJCAI, 2013.
[25] Marcela Zuluaga, Guillaume Sergent, Andreas Krause, and Markus Püschel. Active learning for multi-objective
optimization. International Conference on Machine Learning, 2013.
[26] 持橋大地, 大羽成征. ガウス過程と機械学習. 講談社, 2019.
[27] 須山敦志. ベイズ推論による機械学習入門. 講談社, 2017.
[28] 穂積祥太, 松井孝太, 沓掛健太朗, 宇治原徹, 竹内一郎. Level set estimation を用いた太陽電池用シリコンのレッ
ドゾーンの効率的推定. In 第 33 回人工知能学会 (JSAI) 全国大会, 2019.
松井 (名古屋大) 機械学習による実験計画 145 / 145

Weitere ähnliche Inhalte

Was ist angesagt?

因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説Shiga University, RIKEN
 
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3Preferred Networks
 
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Kota Matsui
 
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)Satoshi Hara
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State SpacesDeep Learning JP
 
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...joisino
 
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介Naoki Hayashi
 
ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learning
ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learningベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learning
ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learningssuserca2822
 
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門hoxo_m
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門tmtm otm
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門Shuyo Nakatani
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習Deep Learning JP
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)cvpaper. challenge
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)Takao Yamanaka
 
深層自己符号化器+混合ガウスモデルによる教師なし異常検知
深層自己符号化器+混合ガウスモデルによる教師なし異常検知深層自己符号化器+混合ガウスモデルによる教師なし異常検知
深層自己符号化器+混合ガウスモデルによる教師なし異常検知Chihiro Kusunoki
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Yoshitaka Ushiku
 
PRML第6章「カーネル法」
PRML第6章「カーネル法」PRML第6章「カーネル法」
PRML第6章「カーネル法」Keisuke Sugawara
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion ModelsDeep Learning JP
 

Was ist angesagt? (20)

因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説
 
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
 
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2
 
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
 
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
 
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
 
ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learning
ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learningベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learning
ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learning
 
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 
研究効率化Tips Ver.2
研究効率化Tips Ver.2研究効率化Tips Ver.2
研究効率化Tips Ver.2
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
 
深層自己符号化器+混合ガウスモデルによる教師なし異常検知
深層自己符号化器+混合ガウスモデルによる教師なし異常検知深層自己符号化器+混合ガウスモデルによる教師なし異常検知
深層自己符号化器+混合ガウスモデルによる教師なし異常検知
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
 
PRML第6章「カーネル法」
PRML第6章「カーネル法」PRML第6章「カーネル法」
PRML第6章「カーネル法」
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
 

Ähnlich wie 機械学習による統計的実験計画(ベイズ最適化を中心に)

機械学習と深層学習の数理
機械学習と深層学習の数理機械学習と深層学習の数理
機械学習と深層学習の数理Ryo Nakamura
 
ベイズ統計学の概論的紹介-old
ベイズ統計学の概論的紹介-oldベイズ統計学の概論的紹介-old
ベイズ統計学の概論的紹介-oldNaoki Hayashi
 
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介Deep Learning JP
 
Infer net wk77_110613-1523
Infer net wk77_110613-1523Infer net wk77_110613-1523
Infer net wk77_110613-1523Wataru Kishimoto
 
TokyoWebmining統計学部 第1回
TokyoWebmining統計学部 第1回TokyoWebmining統計学部 第1回
TokyoWebmining統計学部 第1回Issei Kurahashi
 
64ビット高性能線形擬似乱数発生法の開発
64ビット高性能線形擬似乱数発生法の開発64ビット高性能線形擬似乱数発生法の開発
64ビット高性能線形擬似乱数発生法の開発Shin Harase
 
2013.12.26 prml勉強会 線形回帰モデル3.2~3.4
2013.12.26 prml勉強会 線形回帰モデル3.2~3.42013.12.26 prml勉強会 線形回帰モデル3.2~3.4
2013.12.26 prml勉強会 線形回帰モデル3.2~3.4Takeshi Sakaki
 
逐次モンテカルロ法の基礎
逐次モンテカルロ法の基礎逐次モンテカルロ法の基礎
逐次モンテカルロ法の基礎ShoutoYonekura
 
PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)
PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)
PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)Akihiro Nitta
 
第8章 ガウス過程回帰による異常検知
第8章 ガウス過程回帰による異常検知第8章 ガウス過程回帰による異常検知
第8章 ガウス過程回帰による異常検知Chika Inoshita
 
第8回関西CV・PRML勉強会(Meanshift)
第8回関西CV・PRML勉強会(Meanshift)第8回関西CV・PRML勉強会(Meanshift)
第8回関西CV・PRML勉強会(Meanshift)Yutaka Yamada
 
人工知能2018 強化学習の応用
人工知能2018 強化学習の応用人工知能2018 強化学習の応用
人工知能2018 強化学習の応用Hirotaka Hachiya
 
[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...
[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...
[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...Deep Learning JP
 
PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1sleepy_yoshi
 
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process ModelsDeep Learning JP
 
computer visionen 勉強会
computer visionen 勉強会 computer visionen 勉強会
computer visionen 勉強会 ShuNakamura2
 

Ähnlich wie 機械学習による統計的実験計画(ベイズ最適化を中心に) (20)

機械学習と深層学習の数理
機械学習と深層学習の数理機械学習と深層学習の数理
機械学習と深層学習の数理
 
ベイズ統計学の概論的紹介-old
ベイズ統計学の概論的紹介-oldベイズ統計学の概論的紹介-old
ベイズ統計学の概論的紹介-old
 
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
 
Infer net wk77_110613-1523
Infer net wk77_110613-1523Infer net wk77_110613-1523
Infer net wk77_110613-1523
 
π計算
π計算π計算
π計算
 
TokyoWebmining統計学部 第1回
TokyoWebmining統計学部 第1回TokyoWebmining統計学部 第1回
TokyoWebmining統計学部 第1回
 
Ym20121122
Ym20121122Ym20121122
Ym20121122
 
64ビット高性能線形擬似乱数発生法の開発
64ビット高性能線形擬似乱数発生法の開発64ビット高性能線形擬似乱数発生法の開発
64ビット高性能線形擬似乱数発生法の開発
 
2013.12.26 prml勉強会 線形回帰モデル3.2~3.4
2013.12.26 prml勉強会 線形回帰モデル3.2~3.42013.12.26 prml勉強会 線形回帰モデル3.2~3.4
2013.12.26 prml勉強会 線形回帰モデル3.2~3.4
 
逐次モンテカルロ法の基礎
逐次モンテカルロ法の基礎逐次モンテカルロ法の基礎
逐次モンテカルロ法の基礎
 
PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)
PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)
PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)
 
第8章 ガウス過程回帰による異常検知
第8章 ガウス過程回帰による異常検知第8章 ガウス過程回帰による異常検知
第8章 ガウス過程回帰による異常検知
 
第8回関西CV・PRML勉強会(Meanshift)
第8回関西CV・PRML勉強会(Meanshift)第8回関西CV・PRML勉強会(Meanshift)
第8回関西CV・PRML勉強会(Meanshift)
 
人工知能2018 強化学習の応用
人工知能2018 強化学習の応用人工知能2018 強化学習の応用
人工知能2018 強化学習の応用
 
[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...
[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...
[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...
 
【論文紹介】PGQ: Combining Policy Gradient And Q-learning
【論文紹介】PGQ: Combining Policy Gradient And Q-learning【論文紹介】PGQ: Combining Policy Gradient And Q-learning
【論文紹介】PGQ: Combining Policy Gradient And Q-learning
 
bigdata2012ml okanohara
bigdata2012ml okanoharabigdata2012ml okanohara
bigdata2012ml okanohara
 
PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1
 
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
 
computer visionen 勉強会
computer visionen 勉強会 computer visionen 勉強会
computer visionen 勉強会
 

Kürzlich hochgeladen

AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 

Kürzlich hochgeladen (9)

AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 

機械学習による統計的実験計画(ベイズ最適化を中心に)

  • 2. Table of contents 1. はじめに: 統計的実験計画の基本概念 2. ベイズ線形回帰 3. ガウス過程回帰 4. ベイズ最適化 5. 獲得関数の設計 6. レベル集合推定のための能動学習 7. 構造出力デザイン問題のための能動学習 8. より複雑な問題に対するベイズ最適化 9. 事例紹介 松井 (名古屋大) 機械学習による実験計画 1 / 145
  • 3. 本講義の目的 • 機械学習による実験計画の基本的事項の理解を目指す • 実験計画 (または能動学習) の動機づけ • モデリングの方法 • ベイズ最適化アルゴリズムの設計 • 実例と実装例の紹介 • 以下の文献を特に参考にしている • “Taking the Human Out of the Loop: A Review of Bayesian Optimization” [Shahriari+ (2015)] • “Gaussian Processes for Machine Learning” [Rasmussen & Williams (2006)] • “ガウス過程と機械学習” [持橋 & 大羽 (2019)] • “ベイズ推論による機械学習” [須山 (2017)] 松井 (名古屋大) 機械学習による実験計画 2 / 145
  • 5. 統計的実験計画で扱う「実験」とは ある条件 x を入力し, その条件の下での実験結果 y を観測する システム x1 x2 y x1 x2 y 松井 (名古屋大) 機械学習による実験計画 3 / 145
  • 6. 「実験」の抽象化: ブラックボックス関数 入力条件 x と観測結果 y の間の関係を f と書くと, f は実験そ のもの (これをブラックボックス関数と呼ぶ) 1 ε x f(x) y = f(x) + ε 統計的実験計画 (or 能動学習) 必要なデータを収集しながらブラックボックス関数 f に関す る統計的推論を行うための方法論 1 簡単のため観測誤差 ε は分散既知の正規分布 N(0, σ2 ) に従うと仮定する 松井 (名古屋大) 機械学習による実験計画 4 / 145
  • 7. 能動学習のイメージ X = { xj} m j=1 { (xi, yi)} n i=1, { (xj′ , yj′ )} j′ xj′ yj′ D = D 松井 (名古屋大) 機械学習による実験計画 5 / 145
  • 8. 能動学習の問題設定 • 候補入力 x1, ..., xn が与えられている • f を評価して出力 yi = f(xi) を得るにはコストがかかる • できるだけ少ないコストで 問題設定 1: 関数推定 (回帰) f を精度良く推定する f∗ = arg min ˆ f∈F n X i=1 (f(xi) − ˆ f(xi))2 問題設定 2: 最適化 f を最大化するパラメータ x を求めたい x∗ i = arg max x∈{x1,...,xn} f(x) 松井 (名古屋大) 機械学習による実験計画 6 / 145
  • 9. ブラックボックス関数のモデリング アイデア ブラックボックス関数 f の更新可能かつ 評価可能なモデルを 構成する ベイズ線形回帰モデル (第2章) • 線形関数 ˆ f(x) = w⊤x で f をモデル化 • w は正規分布に従うと仮定 (w ∼ N(0, Σ)) ガウス過程回帰モデル (第3章) • ノンパラメトリックな関数 ˆ f で f をモデル化 • ˆ f はガウス過程に従うと仮定 ( ˆ f ∼ GP(µ(x), k(x, x′))) 更新: データを観測する度に w や ˆ f の確率モデルを更新可能 評価: ˆ f は関数値の計算が可能 (非ブラックボックス関数) 松井 (名古屋大) 機械学習による実験計画 7 / 145
  • 10. 不確実性のモデリング 能動学習の特徴: f の不確実性を同時にモデル化する • f の推定に対する確信度を定量的評価 • どれくらい自信を持って f が推定できたと言っているのか 松井 (名古屋大) 機械学習による実験計画 8 / 145
  • 30. ベイズ線形モデルによるブラックボックス関数の近似 ブラックボックス関数 f をパラメータ w = (w1, ..., wd) を用い た線形モデル f(x) = w⊤ x = d X j=1 wjxj で近似することを考える. このとき, • 観測系は y = w⊤x + ε, ε ∼ N(0, σ2) • 観測の確率モデルは p(y | w, x) = N(w⊤x, σ2) ベイズ線形回帰モデルでは, w に対して事前分布 p(w) を仮定 • w の取りうる値の範囲と実現可能性の度合いを表現 • 以下では平均 0, 分散共分散行列 Σ の正規分布を考える: w ∼ p(w) = N(0, Σ) 松井 (名古屋大) 機械学習による実験計画 11 / 145
  • 31. ベイズ線形回帰 i • 事前分布 (平均 0 の d 変量正規分布) p(w) = N(0, Σ) = 1 √ 2π d p |Σ| exp − 1 2 wT Σ−1 w • 観測 y = (y1, ..., yn) の分布 (尤度関数) p(y|X, w) = N(Xw, σ2 In) = 1 √ 2πσ2 n exp − 1 2σ2 (y − Xw)T (y − Xw) ここで, X = (x⊤ 1 , ..., x⊤ n ) は入力ベクトルを並べた行列2 2 計画行列と呼ぶ 松井 (名古屋大) 機械学習による実験計画 12 / 145
  • 32. ベイズ線形回帰 ii ベイズの定理 事後分布 = 尤度関数 × 事前分布 周辺尤度 • 事後分布 (データ X, y 観測後の w の条件付き分布) p(w | X, y) = p(y | X, w)p(w) p(y | X) = p(y | X, w)p(w) R p(y | X, w)p(w)dw ∝ p(y | X, w)p(w) 松井 (名古屋大) 機械学習による実験計画 13 / 145
  • 33. ベイズ線形回帰 iii 右辺の計算 (細かい式変形は省略) p(y | X, w)p(w) ∝ exp − 1 2σ2 (y − Xw)T (y − Xw) exp − 1 2 wT Σ−1 w ∝ exp − 1 2 (w − w̄)T A(w − w̄) • w̄ = 1 σ2 A−1Xy • A = 1 σ2 XXT + Σ−1 以上より, 次の事実が確認できた3 p(w | X, y) ≈ N(w̄, A−1 ) 3 正規分布を事前分布としたとき, データ X, y を観測した下での w の事後 分布は再び正規分布となる (共役事前分布) 松井 (名古屋大) 機械学習による実験計画 14 / 145
  • 34. ベイズ線形回帰 iii • 新たな点 xnew における関数値 f(xnew) の予測分布の計算: f(xnew) | X, y ∼ N(x⊤ neww̄, x⊤ newA−1 xnew) • 予測分布による学習 f(x) = (1, x)⊤ w f(x) = (1, x, x2 )⊤ w f(x) = (1, x, x2 , x3 )⊤ w • モデルのとり方で表現力が変わる → モデル選択 松井 (名古屋大) 機械学習による実験計画 15 / 145
  • 35. ベイズ線形回帰 iV p(w) w p(w) f(x) = w x p(w | X, y) ↓ w p(w | X, y) w 松井 (名古屋大) 機械学習による実験計画 16 / 145
  • 36. 事後分布に基づく w の点推定 i 事後分布を使って以下のような w の点推定も可能 最大事後確率推定 (Maximum a posteriori estimation, MAP 推 定) 1.「データ X, y を観測した」という条件の下での w の事後 分布 p(w | X, y) を導出 2. p(w | X, y) が最大となる点 (すなわち p(w | X, y) の最頻 値) を w の推定値 ŵMAP とする 松井 (名古屋大) 機械学習による実験計画 17 / 145
  • 37. 事後分布に基づく w の点推定 ii w の事後分布 w | X, y ∼ N(w̄, A−1 ) • MAP 推定は事後分布の最頻値を推定量とする推定方法 • 正規分布においては, 最頻値 = 平均が成立 → ŵMAP = w̄ と書ける ただし予測の不確実性を考慮できていない (分散項を無視して しまう) 松井 (名古屋大) 機械学習による実験計画 18 / 145
  • 39. ノンパラメトリックモデル:より柔軟なモデリングへ ベイズ線形回帰モデルでは • f に線形モデル ˆ f(x) = w⊤x を仮定 • モデル (基底関数) を上手く選べば複雑な非線形関数でもモ デル化できる • しかし, 入力 x の次元に応じて推定しなければならないパ ラメータ w の次元が指数的に増加 (次元の呪い) → パラメータを積分消去しノンパラメトリックに扱うことで 次元の呪いを回避 ノンパラメトリックモデリング パラメータによる特定の関数形を指定せず, より柔軟なモデ リングを行なう 松井 (名古屋大) 機械学習による実験計画 19 / 145
  • 40. ベイズ線形回帰のノンパラ化 i • 観測系の確率モデル (再掲) : y ∼ N(w⊤ x, σ2 ) • ベイズ線形回帰では, w に対して平均 0 の正規分布を事前 分布として仮定した: p(w) = N(0, Σ) • このとき, 観測値 y の分布から w を積分消去できる: p(y | X, σ) = Z p(y | X, w, σ2 )p(w)dw = Z N(Xw, σ2 I)N(0, Σ)dw = N(0, XΣX⊤ + σ2 I) 松井 (名古屋大) 機械学習による実験計画 20 / 145
  • 41. ベイズ線形回帰のノンパラ化 ii • 入力 xi を特徴写像 ϕ で非線形変換する:ϕi = ϕ(xi) このときの計画行列を Φ = (ϕ1, ..., ϕn) とおく =⇒ 観測の分布は Φ を用いて以下のような表現になる p(y | Φ, σ) = N(0, ΦΣΦ⊤ + σ2 I) (1) • ΦΣΦ⊤ は半正定値対称行列であり, 非線形変換した特徴の Σ による内積を表す: ϕ⊤ i Σϕj = ⟨ϕi, ϕj⟩Σ, i, j = 1, ..., n • 上式を見ると, 変換後の特徴 ϕi に関する内積さえ計算でき れば事後分布は計算可能であることに気づく. 松井 (名古屋大) 機械学習による実験計画 21 / 145
  • 42. ベイズ線形回帰のノンパラ化 iii • そこで, k(xi, xj) = ⟨ϕi, ϕj⟩Σ となるようなカーネル関数 k(xi, xj) を取る • 左辺が計算できれば事後分布を求めるには十分で, 変換後 の特徴 ϕi を直接計算する必要はない (カーネルトリック): p(y | Φ, σ2 ) = N(0, K + σ2 I), ここで, Ki,j = k(xi, xj) (カーネル行列) • カーネル関数は, 入力 xi, xj の間の類似度を測っている • “近い入力に対応する出力は似ている” という性質を表現 松井 (名古屋大) 機械学習による実験計画 22 / 145
  • 43. ガウス過程 ベイズ線形回帰のノンパラ化は, f のガウス過程によるモデリ ングに対応 Definition 1 (ガウス過程の数学的な定義) 確率過程 {Xt}t∈T がガウス過程であるとは, 任意の n ∈ N と 任意の t1, ..., tn ∈ T に対して (Xt1 , ..., Xtn ) が n 次元正規分布 に従うことと定義する. • f(x) を x に関する確率変数の無限列と見なすことで確率 過程として取り扱う 松井 (名古屋大) 機械学習による実験計画 23 / 145
  • 44. ガウス過程の特徴づけ • ガウス過程は, 平均関数とカーネル関数 µ(x) = E[f(x)] k(x, x′ ) = E[(f(x) − µ(x))(f(x′ ) − µ(x′ )] によって特徴づけることができる (µ と k を決めるとガウ ス過程が決まる) • 関数 f がガウス過程に従うことを以下で表す: f(x) ∼ GP(µ(x), k(x, x′ )) Remark 1 ここから, 各点 x0 に対して, 関数値 f(x0) が平均 µ(x0), 分散 k(x0, x0) の正規分布に従うモデルであることがわかる 松井 (名古屋大) 機械学習による実験計画 24 / 145
  • 45. ガウス過程によるモデリング i 記号の用意 • 入力点: x1, ..., xn • 未知の関数値: fi = f(xi) • 観測値: yi = fi + εi, εi ∼ N(0, σ2) このとき, f(x) ∼ GP(µ(x), k(x, x′ )) ⇐⇒ f | X ∼ N(m, K), yi | fi, σ2 ∼ N(fi, σ2 ) ここで, mi = µ(xi), Ki,j = k(xi, xj). → 関数値 f = (f1, ..., fn) が n 変量正規分布であり, 観測値 yi は 平均 fi の正規分布となるモデル 松井 (名古屋大) 機械学習による実験計画 25 / 145
  • 46. ガウス過程によるモデリング ii 予測分布 Dn = {(xi, yi)}n i=1 を既観測点とし, x を任意のテスト点とする. このとき, 関数値 f(x) は Dn を観測したという条件の下で正規 分布に従う (予測分布): f(x) | Dn ∼ N(µn(x), σ2 n(x)) ここで, µn(x) 及び σ2 n(x) はそれぞれ予測平均と予測分散4 と呼 ばれ, µn(x) = µ(x) + k(x)⊤ (K + σ2 I)−1 (y − m) σ2 n(x) = k(x, x) − k(x)⊤ (K + σ2 I)−1 k(x) と書ける. ここで, k(x) = (k(x, x1), ..., k(x, xn)) 4 x における関数値 f(x) の, ガウス過程モデルによる予測と不確実性に対応 松井 (名古屋大) 機械学習による実験計画 26 / 145
  • 47. カーネル関数の選択 カーネル関数はガウス過程回帰において非常に重要な構成要素 • 目的関数に対する仮定を表現する • データ点に対して “類似度” を定義する • 近い入力の出力はやはり近いという気分を表す • テストデータ点に近い学習データ点は, 前者の予測に対し て十分に informative であることが期待される. 様々なカーネル関数が提案されているが, ここでは 1. 二乗指数カーネル (ガウスカーネル) 2. Matérn カーネル の 2 種類を紹介する. 松井 (名古屋大) 機械学習による実験計画 27 / 145
  • 48. 二乗指数カーネル 二乗指数カーネルは以下で定義される: kSE(x, x′ ) = θ exp − ∥x − x′∥2 2ℓ2 • θ, ℓ は超パラメータ • このカーネル関数で定義したガウス過程からのサンプルは 滑らかな関数となる 松井 (名古屋大) 機械学習による実験計画 28 / 145
  • 49. Matérn カーネル  i Matérn カーネルは以下で定義される: kMatérn(x, x′ ) = 21−ν Γ(ν) √ 2νr ℓ !ν Kν √ 2νr ℓ ! • r = p (x − x′)⊤Λ(x − x′) • ν, ℓ は超パラメータで, Kν は修正ベッセル関数 • 特に ν = 3/2 及び ν = 5/2 の場合が良く用いられている 松井 (名古屋大) 機械学習による実験計画 29 / 145
  • 50. Matérn カーネル  ii • ν = 3/2 のとき k3/2(r) = 1 + √ 3r ℓ ! exp ( − √ 3r ℓ ) • ν = 5/2 のとき k5/2(r) = 1 + √ 5r ℓ + 5r2 3ℓ2 ! exp ( − √ 5r ℓ ) 松井 (名古屋大) 機械学習による実験計画 30 / 145
  • 51. カーネル関数の比較 • 2 乗指数カーネルを用いたガウス過程からのサンプル関数 は滑らか • Matérn カーネルを用いたガウス過程からのサンプル関数 は, カーネルパラメータによって滑らかさが変化 松井 (名古屋大) 機械学習による実験計画 31 / 145
  • 52. 事前分布の平均関数をどう取るか • 平均関数は真の関数に対する事前知識を表現 • 実応用の際には, 定数 µ(x) ≡ µ0 とすることが多い (特に µ0 = 0) • 観測データを変換して µ = 0 とみなせることが多い • 専門家による事前知識などによって平均関数 µ が適切に設 計できる場合, それを用いた方が学習が効率化できる可能 性はある 松井 (名古屋大) 機械学習による実験計画 32 / 145
  • 53. ガウス過程回帰の実行例 • 黒破線: 真の関数 • 青線: ガウス過程の平均関数 • 青枠: ガウス過程による不確実性 • 赤点: 観測点 松井 (名古屋大) 機械学習による実験計画 33 / 145
  • 54. ガウス過程回帰に基づく能動学習 (関数推定) (Recall) 関数推定問題 f∗ = arg min g∈F n X i=1 (f(xi) − g(xi))2 • 真の関数 f を全域で精度良く推定したい • 自然な探索方針: 予測モデルの不確実性が大きい入力点を観測点に選ぶ → ガウス過程回帰モデルの予測分散が最大となる点で観 測を行う (不確実性サンプリング) : xnext = arg max x σ2 n(x) 松井 (名古屋大) 機械学習による実験計画 34 / 145
  • 55. ガウス過程回帰に基づく能動学習 (関数推定) の実行例 不確実性サンプリングによる能動学習 0 1 2 3 4 5 x −2 0 2 4 6 8 10 12 f (x) iteration 1 µ(x) f(x) µ(x) ± 1.96σ(x) next observed 0 1 2 3 4 5 x −2 0 2 4 6 8 10 12 f (x) iteration 2 µ(x) f(x) µ(x) ± 1.96σ(x) next observed 0 1 2 3 4 5 x −2 0 2 4 6 8 10 12 f (x) iteration 3 µ(x) f(x) µ(x) ± 1.96σ(x) next observed 0 1 2 3 4 5 x −2 0 2 4 6 8 10 12 f (x) iteration 4 µ(x) f(x) µ(x) ± 1.96σ(x) next observed 0 1 2 3 4 5 x −2 0 2 4 6 8 10 12 f (x) iteration 5 µ(x) f(x) µ(x) ± 1.96σ(x) next observed 0 1 2 3 4 5 x −2 0 2 4 6 8 10 12 f (x) iteration 6 µ(x) f(x) µ(x) ± 1.96σ(x) next observed • ガウス過程回帰によって推定された関数の不確実性が最も 大きい点 (図の黄色の点) が常に選ばれるような探索方針 松井 (名古屋大) 機械学習による実験計画 35 / 145
  • 57. 非正規観測系への拡張 i 観測 y が連続値でなくカテゴリ変数や順序変数の場合 (分類問 題など), その確率モデルとして正規分布を仮定するのは不適切 一般化線形モデル リンク関数 (非線形変換) g : Rd → R を導入し, ブラックボック ス関数のモデルとして f(x) = g−1 (w⊤ x) を考える. 松井 (名古屋大) 機械学習による実験計画 37 / 145
  • 58. 非正規観測系への拡張 ii Example 1 (ロジスティック回帰) 観測が 2 値 (y = 0 or 1) のとき, y = 1 となる確率 p = P(y = 1) をモデリングしたい. いま, 観測のオッズ p 1−p に 対して log p 1 − p = w⊤ x なるモデルを考える (対数オッズに線形モデルを仮定). このとき, データ x を観測した下での y = 1 となる事後確率は p(y = 1 | x) = 1 1 + exp{−w⊤x} と書ける. 右辺はロジット変換 g−1 = 1/1 + e−z をリンク関数 として採用していることに相当する. 松井 (名古屋大) 機械学習による実験計画 38 / 145
  • 59. パラメトリックモデリング i 特に y ∈ {+1, −1} の場合 (2 値判別) を考える. • リンク関数 g : R → (0, 1) によって P(y | x, w) = g(yw⊤ x) と書けると仮定 (パラメータ w の一般化線形モデル).   • g は単調増加かつ g(x) + g(−x) = 1 を満たす (e.g. シグモイド関数, 標準正規分布の累積分布関 数) • このとき, y =    +1 w⊤x ≥ 0 ⇔ P(y | x, w) ≥ 1 2 −1 w⊤x 0 ⇔ P(y | x, w) 1 2 松井 (名古屋大) 機械学習による実験計画 39 / 145
  • 60. パラメトリックモデリング ii データ D = {(xi, yi)}n i=1 ⊂ Rd × {±1} を観測した下で, • w の事後分布: p(w | D) ∝ p(w) n Y i=1 g(yiw⊤ i x) • x におけるラベルの予測分布: P(y | x, D) = Z g(yw⊤ x)p(w | D)dw 以降, f(x) に対してノンパラメトリックな事後分布の計算や予 測分布の計算を考える 松井 (名古屋大) 機械学習による実験計画 40 / 145
  • 61. 事後分布の近似 i • 事後分布が厳密に計算できた回帰の場合と異なり, 判別の 場合は何らかの近似によって事後分布を求める必要がある (共役事前分布を設定できないため) • 以下ではラプラス近似による事後分布の近似方法を紹介 松井 (名古屋大) 機械学習による実験計画 41 / 145
  • 62. 事後分布の近似 ii • x におけるラベル y の事後確率: P(y | x, f) = g(yf(x)) • 関数値 f = (f(x1), ..., f(xn))⊤ に対する事前分布: f ∼ Nn(0, K) • ラベルの事後分布: p(y | f) = n Y i=1 g(yif(xi)) − − − − − − − − − − → Bayes’ theorem p(f | D) ∝ p(f)p(y | f) p(f | D) をラプラス近似を用いて正規分布で近似する 松井 (名古屋大) 機械学習による実験計画 42 / 145
  • 63. 事後分布の近似 iii ラプラス近似 密度関数を極大にする点を中心とする正規分布で近似 log p(f | D) = log p(f) + log p(y | f) = − 1 2 f⊤ K−1 f + log p(y | f) + log 1 (2π)n p |Σ| −∇2 log p(f | D) = K−1 − ∇2 log p(y | f) | {z } diagonal =: A より, Taylor 展開の 2 次の項に注目すると log p(f | D) ≈ log p(f0 | D) − 1 2 (f − f0)⊤ A(f − f0), f0 = arg max f log p(f | D) 松井 (名古屋大) 機械学習による実験計画 43 / 145
  • 64. 事後分布の近似 iv Taylor 展開による 2 次近似 log p(f | D) ≈ log p(f0 | D) − 1 2 (f − f0)⊤ A(f − f0) 以上の下で, p(f | D) ≈ N(f0, A−1 ) と近似する (ラプラス近似). 松井 (名古屋大) 機械学習による実験計画 44 / 145
  • 65. 予測分布の近似 i x における関数値 f(x) の予測分布を近似 • (f(x), f(x1), ..., f(xn)) の事前分布を以下のように設定: N(0, K̃), K̃ = k(x, x) k(x)⊤ k(x) K̄ ! ここで K̄ は既に観測した点 x1, ..., xn から定まるカーネル 行列. • f(x) の予測分布は観測値 f = (f(x1), ..., f(xn)) の条件 の下で f(x) ∼ N(µx, σ2 x), µx = k(x)⊤ K̄−1 ¯ f, σ2 x = k(x, x) − k(x)⊤ K̄−1 k(x)⊤ . 松井 (名古屋大) 機械学習による実験計画 45 / 145
  • 66. 予測分布の近似 ii • データ D = {(xi, yi)}n i=1 が与えられたときの f の (近似) 事後分布は N(f0, A−1). ここで, f0 = arg max f − 1 2 f⊤ K̄−1 f + log p(y | f) • 結局, f(x) の予測分布は µx と σ2 x において f に関する平 均を取ったもの: µf(x) = Ef [µx] = k(x)⊤ K̄−1 f0 σ2 f(x) = Ef [σ2 x] = k(x, x) − k(x)⊤ A−1 k(x) 松井 (名古屋大) 機械学習による実験計画 46 / 145
  • 67. 予測分布の近似 iii 観測値 y の予測分布を近似 リンク関数 g として標準正規分布の分布関数をとる • シグモイド関数を取った場合でも scaling によってほぼ同 様な結果が得られる このとき, y の予測分布は以下のように書ける: P(y | x, D) = Ef∼N(µf(x),σ2 f(x) )[g(yf)] = g   yµf(x) q 1 + σ2 f(x)   . 松井 (名古屋大) 機械学習による実験計画 47 / 145
  • 70. ベイズ最適化 次の最適化問題の解はどうすれば求まる? f は未知. 入出力のペア {(x, f(x))} のみが観測可能のとき, f の最小値を求めよ → f に対して何らかの仮定 が必要 ベイズ最適化 f がガウス過程からのサンプルであると仮定し, • f の概形の推定 • f の最適解の探索 を同時に実行する逐次最適化手法 松井 (名古屋大) 機械学習による実験計画 49 / 145
  • 71. ベイズ最適化アルゴリズムの基本形 Algorithm : ベイズ最適化 入力: 目的関数 f の事前分布 P, 獲得関数 α for t = 1, 2, ... do Step1: 次の評価点 xn+1 を獲得関数の最大化問題を解いて 決定する: xn+1 = arg max x∈X α(x; Dn). Step2: xn+1 における関数値 yn+1 = f(xn+1) + ε を評価す る. Step3: Dn+1 = Dn ∪ {(xn+1, yn+1)} とし, P を更新する. end for 出力 f の最適解 x̂. 松井 (名古屋大) 機械学習による実験計画 50 / 145
  • 72. ベイズ最適化のビルディングブロック ベイズ最適化では主に 1. 未知の目的関数 f の事前分布 P の設定, 更新 2. 獲得関数 α の設計, 最適化 の 2 点が重要なビルディングブロックとなる 松井 (名古屋大) 機械学習による実験計画 51 / 145
  • 73. f の事前分布 P の設定と更新 • f の事前分布 P としてガウス過程 GP(µ(x), k(x, x′ )) を用いる • データ Dn = {(xi, yi)}n i=1 を観測したという条件の下で, 以 下のように更新できる: f(x) ∼ GP(µ̂(x), k̂(x, x′ )) ここで, µ̂(x) = µ(x) + k(x)⊤ (K + σ2 I)−1 (y − m) k̂(x, x′ ) = k(x, x′ ) − k(x)⊤ (K + σ2 I)−1 k(x′ ) 松井 (名古屋大) 機械学習による実験計画 52 / 145
  • 74. 獲得関数の α の設計, 最適化 • ベイズ最適化の性能は, 獲得関数 α の設計に大きく依存 • 獲得関数は, 目的関数と比べて最適化が容易であり, かつ探 索方針を反映するように設計 • 獲得関数は一般に非凸関数であり, その大域的最適解を得 ることは難しい. 以下のようなアプローチが良く採用 される • 多点スタート勾配法 • 進化計算による大域最適化 詳細は次章 松井 (名古屋大) 機械学習による実験計画 53 / 145
  • 75. ベイズ最適化における超パラメータ i ベイズ最適化を実行する際には, ガウス過程のカーネルパラメ ータなどの超パラメータを適切に調整する必要がある. 超パラメータの決定方法 周辺尤度 (モデルエビデンスとも呼ばれる) 最大化基準が良く 用いられる θ∗ = arg max θ p(D | θ) = Z p(D | f, θ)p(f)df • 事前知識の利用 • 各種勾配法 • グリッドサーチ • MCMC 法 (局所解にはまりにくい) 松井 (名古屋大) 機械学習による実験計画 54 / 145
  • 76. ベイズ最適化における超パラメータ ii 獲得関数最適化と同時に超パラメータを考慮する方法 θ の分布を考え, ベイズ最適化実行時の獲得関数に θ の不確実 性を取り入れる: αn(x) := Eθ|Dn [α(x; θ)] = Z α(x; θ)p (θ|Dn) dθ この Eθ|Dn [α(x; θ)] を MCMC などのサンプリング法で近似する サンプリングを十分行うことで θ の分布が精度良く近似でき, 信用区間も数値計算的に求めることができる 松井 (名古屋大) 機械学習による実験計画 55 / 145
  • 77. ベイズ最適化の収束判定 ベイズ最適化も他の最適化手法と同様の方法で収束判定できる 残差基準に基づく判定 (最適値が既知の場合) 最適値 f∗ = minx f(x) と十分小さい ε 0 に対して |µ(xt) − f∗ | ε または |µ(xt) − f∗| ∥xt∥ ε ならば反復は収束したと “見なして” 計算を打ち切る. 誤差基準に基づく判定 十分小さい ε 0 に対して ∥xt − xt−1∥ ε または ∥xt − xt−1∥ ∥xt−1∥ ε ならば反復は収束したと “見なして” 計算を打ち切る. 松井 (名古屋大) 機械学習による実験計画 56 / 145
  • 78. ベイズ最適化の収束判定 Remarks • 上記の収束判定基準は数値計算上の停止基準であり, 真の 最適解 x∗ = arg min x f(x) への収束 ∥xt − x∗ ∥ ε を意味していないことに注意 • ベイズ最適化の実応用では関数値 f(x) の評価回数に上限 があること (バジェット制約) も多く, 判定条件を満たすよ りも先にこの上限に達して停止する場合もある 松井 (名古屋大) 機械学習による実験計画 57 / 145
  • 79. ベイズ最適化の性能評価 ベイズ最適化の性能はリグレットによって評価される 単純リグレット (最適解にのみ興味がある場合) 各時点 T における単純リグレット rT は以下で定まる rT = min t≤T yt − min x f(x) 累積リグレット (途中解にも興味がある場合) 各時点 T における累積リグレット RT は以下で定まる RT = X t≤T yt − min x f(x) T → ∞ のとき rT → 0 または 1 T RT → 0 となる速さで性能の善 し悪しを評価 松井 (名古屋大) 機械学習による実験計画 58 / 145
  • 81. 探索と活用のトレードオフ 探索: 事前知識のない (これまでよりも良くなるかもしれない) パラ メータに対する実験を行う 活用: 実験済みの (性能の良かった) パラメータ値に近いパラメータ に対して実験を行う 実験計画における探索と活用のトレードオフ 探索のみを行っていると過去の実験結果が活かせず, 活用ば かり行っているとまだ見ぬ良いパラメータを発見できない ベイズ最適化では, 両者のバランスを取りながら最適なパラメ ータを探すことが重要 松井 (名古屋大) 機械学習による実験計画 59 / 145
  • 82. 獲得関数 アイデア : ガウス過程の事後モデルを利用し, 探索と活用のバランスを取 りながら候補点を選択する 1. 改善度に基づく方策 • probability of improvement • expected improvement 2. 楽観的な方策 • GP-LCB (lower confidence bound) 3. その他の方策 • トンプソン抽出 • Entropy search (情報獲得量に基づく方策) 以降では特に最小値探索を考える: min x∈X f(x) 松井 (名古屋大) 機械学習による実験計画 60 / 145
  • 83. Probability of Improvement (PI) アイデア: x が現在の最良関数値 τ = min i=1,...,n f(xi) を改善する確率を評価: αPI(x; Dn) := Pr[v τ] = Φ τ − µn(x) σn(x) ここで • Φ : 標準正規分布の累積分布関数 • xnext = max x αPI(x; Dn) 松井 (名古屋大) 機械学習による実験計画 61 / 145
  • 84. ベイズ最適化の実行例: PI を利用した場合 松井 (名古屋大) 機械学習による実験計画 62 / 145
  • 85. ベイズ最適化の実行例: PI を利用した場合 松井 (名古屋大) 機械学習による実験計画 62 / 145
  • 86. ベイズ最適化の実行例: PI を利用した場合 松井 (名古屋大) 機械学習による実験計画 62 / 145
  • 87. ベイズ最適化の実行例: PI を利用した場合 松井 (名古屋大) 機械学習による実験計画 62 / 145
  • 88. ベイズ最適化の実行例: PI を利用した場合 松井 (名古屋大) 機械学習による実験計画 62 / 145
  • 89. ベイズ最適化の実行例: PI を利用した場合 松井 (名古屋大) 機械学習による実験計画 62 / 145
  • 90. ベイズ最適化の実行例: PI を利用した場合 松井 (名古屋大) 機械学習による実験計画 62 / 145
  • 91. ベイズ最適化の実行例: PI を利用した場合 松井 (名古屋大) 機械学習による実験計画 62 / 145
  • 92. ベイズ最適化の実行例: PI を利用した場合 松井 (名古屋大) 機械学習による実験計画 62 / 145
  • 93. ベイズ最適化の実行例: PI を利用した場合 松井 (名古屋大) 機械学習による実験計画 62 / 145
  • 94. Expected Improvement (EI) アイデア: 現在の最良関数値 τ に対する期待値改善度を評価. EI は, 改善度関数 I(x, v, θ) = (τ − v)1vτ の期待値を取ったものとして定義される: αEI(x; Dn) := E[I(x, v, θ)] = (τ − µn(x))Φ τ − µn(x) σn(x) + σn(x)ϕ τ − µn(x) σn(x) • Φ, ϕ : 標準正規分布の累積分布関数と確率密度関数 • xnext = max x αEI(x; Dn) 松井 (名古屋大) 機械学習による実験計画 63 / 145
  • 95. ベイズ最適化の実行例: EI を利用した場合 松井 (名古屋大) 機械学習による実験計画 64 / 145
  • 96. ベイズ最適化の実行例: EI を利用した場合 松井 (名古屋大) 機械学習による実験計画 64 / 145
  • 97. ベイズ最適化の実行例: EI を利用した場合 松井 (名古屋大) 機械学習による実験計画 64 / 145
  • 98. ベイズ最適化の実行例: EI を利用した場合 松井 (名古屋大) 機械学習による実験計画 64 / 145
  • 99. ベイズ最適化の実行例: EI を利用した場合 松井 (名古屋大) 機械学習による実験計画 64 / 145
  • 100. ベイズ最適化の実行例: EI を利用した場合 松井 (名古屋大) 機械学習による実験計画 64 / 145
  • 101. ベイズ最適化の実行例: EI を利用した場合 松井 (名古屋大) 機械学習による実験計画 64 / 145
  • 102. ベイズ最適化の実行例: EI を利用した場合 松井 (名古屋大) 機械学習による実験計画 64 / 145
  • 103. ベイズ最適化の実行例: EI を利用した場合 松井 (名古屋大) 機械学習による実験計画 64 / 145
  • 104. ベイズ最適化の実行例: EI を利用した場合 松井 (名古屋大) 機械学習による実験計画 64 / 145
  • 105. 参考: EI の導出 i 改善度関数は, 以下のように書き換えられる: I(x) = max{τ − v, 0} ここで, v = µ(x) + σ(x)ε, ε ∼ N(0, 1). このとき, αEI(x) = Z ∞ −∞ I(x)ϕ(ε)dε = Z (τ−µ(x))/σ(x) −∞ (τ − µ(x) − σ(x)ε)ϕ(ε)dε = (τ − µ(x)) Z (τ−µ(x))/σ(x) −∞ ϕ(ε)dε − σ(x) Z (τ−µ(x))/σ(x) −∞ εϕ(ε)dε 松井 (名古屋大) 機械学習による実験計画 65 / 145
  • 106. 参考: EI の導出 ii = (τ − µ(x))Φ τ − µn(x) σn(x) + σ(x) √ 2π Z (τ−µ(x))/σ(x) −∞ −εe−ε2/2 dε = (τ − µ(x))Φ τ − µn(x) σn(x) + σ(x) √ 2π h e−ε2/2 i(τ−µ(x))σ(x) −∞ = (τ − µ(x))Φ τ − µn(x) σn(x) + σ(x) ϕ τ − µn(x) σn(x) − 0 = (τ − µ(x))Φ τ − µn(x) σn(x) + σ(x)ϕ τ − µn(x) σn(x) 松井 (名古屋大) 機械学習による実験計画 66 / 145
  • 107. Remarks • 実応用では, n 時点での最良点を τ = mini=1,...,n yi とする が, PI を用いる場合には, これは過度に貪欲的に最適化を実 行してしまう可能性がある. • 一方で, EI を用いる場合には上記の設定でもリーズナブル に挙動する. 松井 (名古屋大) 機械学習による実験計画 67 / 145
  • 108. 楽観的な方策: GP-LCB αLCB(x; Dn) = −µn(x) + βnσn(x) • 探索と活用のトレードオフをコントロールする • 理論的な利点 (regret 上界) • xnext = max x αLCB(x; Dn) 松井 (名古屋大) 機械学習による実験計画 68 / 145
  • 109. ベイズ最適化の実行例: LCB を利用した場合 松井 (名古屋大) 機械学習による実験計画 69 / 145
  • 110. ベイズ最適化の実行例: LCB を利用した場合 松井 (名古屋大) 機械学習による実験計画 69 / 145
  • 111. ベイズ最適化の実行例: LCB を利用した場合 松井 (名古屋大) 機械学習による実験計画 69 / 145
  • 112. ベイズ最適化の実行例: LCB を利用した場合 松井 (名古屋大) 機械学習による実験計画 69 / 145
  • 113. ベイズ最適化の実行例: LCB を利用した場合 松井 (名古屋大) 機械学習による実験計画 69 / 145
  • 114. ベイズ最適化の実行例: LCB を利用した場合 松井 (名古屋大) 機械学習による実験計画 69 / 145
  • 115. ベイズ最適化の実行例: LCB を利用した場合 松井 (名古屋大) 機械学習による実験計画 69 / 145
  • 116. ベイズ最適化の実行例: LCB を利用した場合 松井 (名古屋大) 機械学習による実験計画 69 / 145
  • 117. ベイズ最適化の実行例: LCB を利用した場合 松井 (名古屋大) 機械学習による実験計画 69 / 145
  • 118. ベイズ最適化の実行例: LCB を利用した場合 松井 (名古屋大) 機械学習による実験計画 69 / 145
  • 119. トンプソン抽出 (Thompson Sampling, TS) αTS(x; D) = E[y | x, θ], θ ∼ P(θ | D) • 本当は観測系の事後分布 p(y | x, D) に関する期待値 Ep(y|x,D)[y] を計算したいが, この事後分布 p(y | x, D) = Z p(y | x, θ)p(θ | D)dθ の積分計算が難しい場合がある • αTS はパラメータの事後分布 p(θ | D) からサンプリングし たモデルパラメータ θ によって上の積分を 1 点モンテカル ロ近似したもの 松井 (名古屋大) 機械学習による実験計画 70 / 145
  • 130. 情報獲得量に基づく方策:基本的なアイデア • 未知の最適解 x∗ に関する事後分布 p∗(x | Dn) を考える • 評価候補点 x が, x∗ に関してどの程度情報を持っているか を評価する 松井 (名古屋大) 機械学習による実験計画 72 / 145
  • 131. (Predictive) Entropy Search [Hernández-Lobato+ (NIPS’14)] アイデア Black box 関数 f の大域最大値を達成するパラメータ x∗ = arg min x∈X f(x) に関する情報が最大となるような点を次の 探索点とする Acquisition function in ES, PES これまで評価したデータ Dn の下で候補点 {x, y} と最適解 x∗ との相互情報量 (MI) を評価する: αn(x) = I({x, y}; x∗ | Dn) = H(p(x∗ | Dn)) − Ep(y|Dn,x)[H(p(x∗ | Dn ∪ {x, y}))] (ES) = H(p(y | Dn, x)) − Ep(x∗|Dn)[H(p(y | Dn, x, x∗))] (PES) • PES はオリジナルの ES に対して MI の対称性を使って等価 な変換をしたもの 松井 (名古屋大) 機械学習による実験計画 73 / 145
  • 132. Predictive Entropy Search i 次の評価点の決定 xn+1 = arg max x∈X αn(x) = H[p(y | Dn, x)] − Ep(x∗|Dn)[H[p(y | Dn, x, x∗)]] 第 1 項について • 予測分布 p(y | Dn, x) が正規分布のとき, 第 1 項は解析的に 書ける: H[p(y | Dn, x)] = 1 2 log(2πe(σn(x) + σ2 )) 松井 (名古屋大) 機械学習による実験計画 74 / 145
  • 133. Predictive Entropy Search ii 第 2 項の予測分布は以下のように近似 • f ∼ Posterior をベイズ線形回帰 fi(x) = ϕi(x)⊤θi で解析 的に近似し最適解の推定量 x̂∗ を大量にサンプリング → 期待値の計算を x̂∗ に関する標本平均で実現 • “最適解で条件付け” を次の 3 制約で表現 1. x∗ は局所解 i.e. ∇f(x∗) = 0 ∇2 f(x∗) が負定値 2. f(x∗) は現在までの観測データより大きい i.e. f(x∗) ≥ f(xi), i = 1, ..., n 3. 候補点 x で, f(x) f(x∗) • p(f(x) | Dn, 1, 2, 3) を expectation propagation (EP) で正 規近似 第 2 項の予測分布: p(f(x) | Dn, x∗) ∝ Z 1f1f2 N(f | mf , Vf )df2 松井 (名古屋大) 機械学習による実験計画 75 / 145
  • 134. Predictive Entropy Search iii Acquisition Function (Empirical Version) αn(x) = 1 M M X i=1 [0.5 log(v(i) n (x) + σ2 ) − 0.5 log(v(i) n (x | x (i) ∗ ) + σ2 )] • v (i) n (x), v (i) n (x | x (i) ∗ ) はそれぞれデータ Dn (と最適解 x∗) で の条件付きの f の予測分散, σ2 は誤差分散 • それぞれ先に導出した予測分布から計算する (正規分布の ときエントロピー ≈ 予測分散) Figure 1: [Hernández-Lobato+ NIPS’14] Figure 1 より抜粋 松井 (名古屋大) 機械学習による実験計画 76 / 145
  • 135. Max-Value Entropy Search (MES) [Wang+ ICML’17] i • ES, PES : 最適解 x∗ に関する情報量を測る • MES : 最適値 y∗ = f(x∗) に関する情報量を測る Acquisition function in MES これまで評価したデータ Dn の下で候補点 {x, y} と最適値 y∗ との相互情報量 (MI) を評価する: αt(x) = I({x, y}; y∗ | Dt) = H(p(y | Dt, x)) − Ep(y∗|Dn)[H(p(y | Dn, x, y∗))] ≈ 1 K X y∗∈Y∗ γy∗ (x)ψ(γy∗ (x)) 2Ψ(γy∗ (x)) − log(Ψ(γy∗ (x))) • ψ, Ψ : 正規分布の密度関数 分布関数 • γy∗ (x) = (y∗ − µt(x))/σt(x) 松井 (名古屋大) 機械学習による実験計画 77 / 145
  • 136. Max-Value Entropy Search (MES) [Wang+ (ICML’17)] ii H(p(y | Dt, x)) − Ep(y∗|Dn)[H(p(y | Dn, x, y∗))] • 期待値は K 回 f の最大値をサンプリングすることで MC 推定 • p(y | Dt, x) = N(µt(x), σt(x)) • p(y | Dt, x, y∗) = T N(µt(x), σt(x); y∗) • y y∗ を満たすような切断正規分布 Remark : avoiding the curse of dimensionality • ES, PES : d 次元の分布に依っている • MES : 1-次元の分布に依っている → MES の方がサンプリング効率が高く計算コストが 小さい 松井 (名古屋大) 機械学習による実験計画 78 / 145
  • 137. ベイズ最適化の実行例: MES を利用した場合 松井 (名古屋大) 機械学習による実験計画 79 / 145
  • 138. ベイズ最適化の実行例: MES を利用した場合 松井 (名古屋大) 機械学習による実験計画 79 / 145
  • 139. ベイズ最適化の実行例: MES を利用した場合 松井 (名古屋大) 機械学習による実験計画 79 / 145
  • 140. ベイズ最適化の実行例: MES を利用した場合 松井 (名古屋大) 機械学習による実験計画 79 / 145
  • 141. ベイズ最適化の実行例: MES を利用した場合 松井 (名古屋大) 機械学習による実験計画 79 / 145
  • 142. ベイズ最適化の実行例: MES を利用した場合 松井 (名古屋大) 機械学習による実験計画 79 / 145
  • 143. ベイズ最適化の実行例: MES を利用した場合 松井 (名古屋大) 機械学習による実験計画 79 / 145
  • 144. ベイズ最適化の実行例: MES を利用した場合 松井 (名古屋大) 機械学習による実験計画 79 / 145
  • 145. ベイズ最適化の実行例: MES を利用した場合 松井 (名古屋大) 機械学習による実験計画 79 / 145
  • 146. ベイズ最適化の実行例: MES を利用した場合 松井 (名古屋大) 機械学習による実験計画 79 / 145
  • 147. ベイズ最適化の実行例: PI を利用した場合 −10 −5 0 f (x) iteration 1 µ(x) f(x) µ(x) ± 1.96σ(x) observed 0 1 2 3 4 5 x 0.0 0.5 α(x) −10 −5 0 f (x) iteration 2 µ(x) f(x) µ(x) ± 1.96σ(x) observed 0 1 2 3 4 5 x 0 1 α(x) −10 −5 0 f (x) iteration 3 µ(x) f(x) µ(x) ± 1.96σ(x) observed 0 1 2 3 4 5 x 0 1 α(x) −10 −5 0 f (x) iteration 4 µ(x) f(x) µ(x) ± 1.96σ(x) observed 0 1 2 3 4 5 x 0 1 α(x) −10 −5 0 f (x) iteration 5 µ(x) f(x) µ(x) ± 1.96σ(x) observed 0 1 2 3 4 5 x 0 1 α(x) −10 −5 0 f (x) iteration 6 µ(x) f(x) µ(x) ± 1.96σ(x) observed 0 1 2 3 4 5 x 0.0 0.5 α(x) 松井 (名古屋大) 機械学習による実験計画 80 / 145
  • 148. ベイズ最適化の実行例: EI を利用した場合 −10 −5 0 f (x) iteration 1 µ(x) f(x) µ(x) ± 1.96σ(x) observed 0 1 2 3 4 5 x 0.0 0.5 α(x) −10 −5 0 f (x) iteration 2 µ(x) f(x) µ(x) ± 1.96σ(x) observed 0 1 2 3 4 5 x 0.0 0.1 α(x) −10 −5 0 f (x) iteration 3 µ(x) f(x) µ(x) ± 1.96σ(x) observed 0 1 2 3 4 5 x 0.000 0.025 α(x) −10 −5 0 f (x) iteration 4 µ(x) f(x) µ(x) ± 1.96σ(x) observed 0 1 2 3 4 5 x 0.000 0.005 α(x) −10 −5 0 f (x) iteration 5 µ(x) f(x) µ(x) ± 1.96σ(x) observed 0 1 2 3 4 5 x 0.0000 0.0005 α(x) −10 −5 0 f (x) iteration 6 µ(x) f(x) µ(x) ± 1.96σ(x) observed 0 1 2 3 4 5 x 0.0000 0.0005 α(x) 松井 (名古屋大) 機械学習による実験計画 81 / 145
  • 149. ベイズ最適化の実行例: GP-LCB を利用した場合 −10 −5 0 f (x) iteration 1 µ(x) f(x) µ(x) ± 1.96σ(x) observed 0 1 2 3 4 5 x 5 10 α(x) −10 −5 0 f (x) iteration 2 µ(x) f(x) µ(x) ± 1.96σ(x) observed 0 1 2 3 4 5 x 0 10 α(x) −10 −5 0 f (x) iteration 3 µ(x) f(x) µ(x) ± 1.96σ(x) observed 0 1 2 3 4 5 x 5 10 α(x) −10 −5 0 f (x) iteration 4 µ(x) f(x) µ(x) ± 1.96σ(x) observed 0 1 2 3 4 5 x 2.5 5.0 7.5 α(x) −10 −5 0 f (x) iteration 5 µ(x) f(x) µ(x) ± 1.96σ(x) observed 0 1 2 3 4 5 x 0 5 α(x) −10 −5 0 f (x) iteration 6 µ(x) f(x) µ(x) ± 1.96σ(x) observed 0 1 2 3 4 5 x 0 5 α(x) 松井 (名古屋大) 機械学習による実験計画 82 / 145
  • 151. ベイズ最適化の実行例: MES を利用した場合 松井 (名古屋大) 機械学習による実験計画 84 / 145
  • 153. レベル集合推定 i レベル集合推定 (level set estimation, LSE) [Gotovos+ (2013)] ブラックボックス関数 f と入力候補点 {xi}N i=1 が与えられた とき, 関数値 f(xi) が所望のしきい値 h ∈ R よりも大きい xi ∈ Xup = {x | f(x) h} か, 小さい xi ∈ Xlow = {x | f(x) ≤ h} かを判定する問題 松井 (名古屋大) 機械学習による実験計画 85 / 145
  • 154. レベル集合推定 ii Xup Xlow f(x) x 松井 (名古屋大) 機械学習による実験計画 86 / 145
  • 155. レベル集合の判定方法 ガウス過程回帰による予測分布 N(µn(x), σ2 n(x)) を用いて f(x) の信頼区間を考える • µn(x) − βσn(x) h ⇒ xi ∈ Xup (左) • µn(x) + βσn(x) h ⇒ xi ∈ Xlow (右) • µn(x) − βσn(x) ≤ h ≤ µn(x) + βσn(x) ⇒ 保留 (中央) 松井 (名古屋大) 機械学習による実験計画 87 / 145
  • 156. レベル集合推定のための獲得関数 Straddle 関数 αStraddle (x) = min{µn(x) + βσn(x) − h, | {z } A h − (µn(x) − βσn(x)) | {z } B } µn(x) x h = µn(x) + 1.96σn(x) − h = h − (µn(x) − 1.96σn(x)) • 予測分散が大きく, かつしきい値付近の点が選ばれやすい 獲得関数 松井 (名古屋大) 機械学習による実験計画 88 / 145
  • 159. 構造出力デザイン問題 • 構造出力デザイン ⇔ 出力が何らかの “構造” を持った系における逆問題 • 所望の構造出力を達成する入力を高速に見つけたい Example 1 (SiC 結晶成長モデリング) ある成長速度分布を達成する実験装置の内部パラメータを少 ない実験回数で発見したい 松井 (名古屋大) 機械学習による実験計画 90 / 145
  • 160. 問題設定 観測系 y =    y1 . . . yM    =    f1(x) . . . fM (x)    +    ε1 . . . εM    = f(x) + ε • f = (f1, ..., fM ) : X → Y : ブラックボックス関数 • ε ∼ N(0, Σε), Σε = diag(σ1, ..., σM ) : 独立な観測誤差 目標 所望の出力 f0 = (f0,1, ..., f0,M ) を達成する入力 x0 を見つける ∗ f1, ..., fM 間に関係 (相関, 類似度) がある場合を考える → 構造出力 松井 (名古屋大) 機械学習による実験計画 91 / 145
  • 161. 相関のある多出力のガウス過程モデル i マルチタスクガウス過程 [Bonilla+(NIPS07), Alvare+(2012)]       f1 f2 . . . fM       | {z } =f ∼ N                  0 0 . . . 0       ,       Kf1,f1 · · · Kf1,fM Kf2,f1 · · · Kf2,fM . . . · · · . . . KfM ,f1 · · · KfM ,fM       | {z } =K            • fm = (fm(x1), ..., fm(xN ))⊤ : N 点の観測 x1, ..., xN に対する fm の関数値 • f はサイズ MN のベクトル (M は出力の次元, N は観測点 数) • K は MN × MN 観測誤差行列 松井 (名古屋大) 機械学習による実験計画 92 / 145
  • 162. 相関のある多出力のガウス過程モデル ii カーネル行列 K の各成分は, (i, j) 成分が以下で与えられるブ ロックカーネル行列 (Kfm,fm′ )i,j = Bm,m′ × k(xi, xj) • k(xi, xj) は入力に対するカーネル関数 (e.g. RBF, Matern...) • Bm,m′ は関数 fm と fm′ の類似度を表す係数 すなわち, K は入力の類似度行列 K と出力の類似度行列 B の クロネッカー積 K =    B1,1 × K . . . B1,M × K . . . ... . . . BM,1 × K . . . BM,M × K    = B ⊗ K 松井 (名古屋大) 機械学習による実験計画 93 / 145
  • 163. 相関のある多出力のガウス過程モデル iii マルチタスクガウス過程モデルにおける推論は通常のガウス過 程回帰と形式的には同じ • 尤度 p(Y | f, X, θ) = N(Y | 0, K + Σ) • 事後平均 µy∗ = K⊤ f∗ (K + Σ)−1 y • 事後共分散行列 Ky∗ = Kf∗,f∗ − Kf∗ (K + Σ)−1 K⊤ f∗ • Σ = Σε + IN : NM × NM 行列 松井 (名古屋大) 機械学習による実験計画 94 / 145
  • 164. 提案法の方針と目的関数 [Matsui+ (2019)] 方針 • 所望の出力 f0 とガウス過程の予測 y との誤差 L(x) = E(x)⊤ E(x) = M X m=1 (ym − f0,m)2 を最小化する (E(x) = (y1 − f0,1, ..., yM − f0,M )) • 最適化における出力 y の観測はできるだけ少なくする 方法 L(x) に基づく獲得関数で次の観測点を指定 誤差関数 L(x) に対するベイズ最適化とも解釈できる • ただしガウス過程でモデル化されているのは L ではなく f であること に注意 松井 (名古屋大) 機械学習による実験計画 95 / 145
  • 165. アルゴリズム [Matsui+ (2019)] 入力: 観測データ D = {(xi, yi)}N i=1, 所望の出力 f0 初期化: x∗ = arg min xi,i=1,...,N L(xi) for t = 1, 2, ... do Step 1: 獲得関数を最大化して観測点を決定: xt+1 = arg max x∈X α(x; f0). Step 2: 出力を観測 yt+1 = f(xt+1) + ε. Step 3: データセットを更新 D ← D ∪ {xt+1, yt+1}. Step 4: カレントベストを更新 x∗ ← arg min x=x∗,xt+1 L(x) end for 出力: x∗ ∗ 赤字: 普通のベイズ最適化と異なる部分 松井 (名古屋大) 機械学習による実験計画 96 / 145
  • 166. 獲得関数 [Matsui+ (2019)] Probability of Improvement (PI) αPI(x) = Pr(L∗ ≥ L(x)) Expected Improvement (EI) αEI(x) = E[max{0, L∗ − L(x)}] Lower Confidence Bound (LCB) αLCB(x) = −F−1 (q; L(x)) • F : L(x) の累積分布関数 • q : 分位点 (“どれくらい探索するか” を指定) 獲得関数は二乗誤差関数 L(x) が従う分布 (̸= 正規分布)に基づ いて設計される ← 普通のベイズ最適化と異なる 松井 (名古屋大) 機械学習による実験計画 97 / 145
  • 167. 獲得関数の評価方法 i 二乗誤差関数 L(x) が従う分布とは? Proposition (M+) ある bm ∈ R, 1 ≤ m ≤ M が存在して, L(x) は W = M X m=1 λmwm と同一の確率分布に従う. • λm : 予測共分散行列 Ky∗ の固有値 • wm : 自由度 1, 非心度 bm の非心 χ2 分布に従う確率変数 W が従う分布は一般化 χ2 分布と呼ばれる ⇒ L(x) は一般化 χ2 分布に従う確率変数になっている 松井 (名古屋大) 機械学習による実験計画 98 / 145
  • 168. 獲得関数の評価方法 ii • LCB, PI は一般化 χ2 分布の累積分布関数から計算される • EI は α(x) = E[max{0, L∗ − L(x)}] = Z L∗ 0 (L∗ − t)pGχ2 (t)dt = L∗ Gχ2 (L∗ ) − Z L∗ 0 tpGχ2 (t)dt = L∗ Gχ2 (L∗ ) − [tGχ2 (t)]L∗ 0 + Z L∗ 0 Gχ2 (t)dt = L∗ Gχ2 (L∗ ) − L∗ Gχ2 (L∗ ) + Z L∗ 0 Gχ2 (t)dt より一般化 χ2 分布の累積分布関数 Gχ2 の定積分となる ∗ 実装上はマルチタスクガウス過程からのサンプリングで実現 松井 (名古屋大) 機械学習による実験計画 99 / 145
  • 170. 制約付き最適化 i ブラックボックス関数 f の最適化問題 min x∈X f(x) で探索空間 X に制約がある場合 • 制約条件が事前に判明しているケース → 獲得関数の最適化の際に制約条件を加えれば OK • どのような制約条件があるか不明なケース → 獲得関数に改良を加えて対処  (以下で紹介) 松井 (名古屋大) 機械学習による実験計画 100 / 145
  • 171. 制約付き最適化 ii [GramacyLee (2011)] integrated expected conditional improvement αIECI(x) := Z x′ αEI(x′ , Dn) − αEI(x′ , Dn ∪ x | x) h(x′ )dx • 密度関数 h の下で x を観測することによる EI の変化をモ デル化 (h はユーザーが指定) • 制約条件を満たす確率を表現するような h を選択すると, IECI は制約が有効である確率が高い領域を優先的に探 索する 松井 (名古屋大) 機械学習による実験計画 101 / 145
  • 172. 制約付き最適化 iii [Snoek, PhD thesis; Gardner+ (2014)] weighted expected improvement EI に制約条件を満たす確率をかける αwEI(x) := αEI(x, Dn)h(x, Dn) • h(x, Dn) の例 (ガウス過程でモデリング) h(x, Dn) =    1 x が制約を満たす 0 x が制約を満たさない h(x, Dn) = Pr(f(x) λ | Dn) • 制約が満たされなさそうな領域では wEI は (h の影響で)   ほとんど 0 になる 松井 (名古屋大) 機械学習による実験計画 102 / 145
  • 173. 制約付き最適化 iv その他の制約付きベイズ最適化 • [Hernndez-Lobato+ (2015)] • predictive entropy search (PES) のバリアント • 目的関数と制約条件を独立に評価する • [Gramacy+ (2016)] • 拡張ラグランジュ法 + BO min x,y f(x) + y⊤ g(x) | {z } Lagrangian + λ 2 ∥g(x)∥2 | {z } penalty • 通常のラグランジュ関数 + 制約を破ることに対する罰則  • λ をスケジューリングしながら制約なし最適化 (BO) を繰り 返し解く 松井 (名古屋大) 機械学習による実験計画 103 / 145
  • 174. コスト考慮型最適化 • 探索空間のある領域は他の領域に比べて目的関数の評価に よりコストがかかる • 探索回数に上限がある場合, 探索リソースは低コストな領 域に重点的に割くべき (biased search) • EI per second [Snoek+ (2012)] : αEI(x, Dn) c(x) → “良いパラメータ” の周辺を重点的に探索 • c(x) は x で目的関数を評価するコストを表す 松井 (名古屋大) 機械学習による実験計画 104 / 145
  • 175. 多目的最適化 i • M 個の目的関数 F (x) = (f1(x), ..., fM (x))⊤ の同時最適化を考える問題 • パレート解の探索が目的 パレート解 • fx = (f1(x), ..., fM (x)) と書き, x, x′ に対して fx ≻ fx′ :⇔ fi(x) ≥ fi(x′ ), i = 1, ..., M が成り立つとき, fx は fx′ を優越するという • fx が任意の x′ に対して fx′ に優越されないとき, fx をパ レート解と呼ぶ 松井 (名古屋大) 機械学習による実験計画 105 / 145
  • 176. 多目的最適化 ii Pareto frontier f(P) V (P) 松井 (名古屋大) 機械学習による実験計画 106 / 145
  • 177. ベイズ最適化によるパレートフロントの推定 i [Zuluaga+ (2013)] ⼊⼒ の不確実性領域 ⼊⼒ の不確実性 with the largest wt(x) is chosen as the next sample xt to be evaluated. We refer to wt(xt) as wt. Intuitively, this rule biases the sampling towards ex- ploring, and thus improving the model for, the points most likely to be Pareto-optimal. f1(x) f2(x) d (max(Rt(x)) + d (min(Rt(x)) + d wT + 2 2 d d Rt(x) of a point classified as Pareto-optimal Rt(x) of a point classified as not-Pareto optimal Rt(x) of an unclassified point Sampled points classified as not-Pareto optimal Next sample Figure 2. Classification and sampling example for n = 2 and ‘ = 0. Stopping criteria. The training process stops after, say, T iterations when all points in E are classified, i.e., when UT = ÿ. The prediction returned is P̂ = PT . The selection of the parameter ‘ used in the classifica- tion rule impacts both the accuracy and the sampling cost T of the algorithm. Theorem 1. Let ” œ (0, 1 —t = 2 log(n|E|fi2 t2 /(6”)), t probability 1 ≠ ”. To achieve a maximum hyper sufficient to choose ‘ = ÷(n ≠ 2nan where a = maxxœE,1ÆiÆn{  — In this case, the algorithm ter iterations, where T is the sma Û T C1—T “T Ø ÷ Here, C1 = 8/ log(1 ≠ ‡≠2 ), type of kernel used. This means that by specifying ume error ÷, PAL can be con rameter ‘ to stop when the tar confidence 1≠”. Additionally, number of iterations T requir Later, in Corollary 2, we will 判別ルール: となる が存在しない となる が存在する → はパレート解(⻘領域) → はパレート解でない(灰領域) M個の⽬的関数をM個の独⽴な GPでモデル化して計算する 獲得関数 松井 (名古屋大) 機械学習による実験計画 107 / 145
  • 178. ベイズ最適化によるパレートフロントの推定 ii [Suzuki+ (2020)] 松井 (名古屋大) 機械学習による実験計画 108 / 145
  • 179. バッチベイズ最適化 • 複数の候補点で同時に目的関数を評価できる状況 (並列計 算システムなど) もある • 一度に複数の学習データ点を選択するタイプのベイズ最適 化をバッチベイズ最適化と呼ぶ • 問題設定としては並列分散ベイズ最適化 (parallel distributed Bayesian optimization)の特別なケースとみな すことができる (用いる手法もこの設定に準じる) 松井 (名古屋大) 機械学習による実験計画 109 / 145
  • 180. バッチベイズ最適化の方法 i 並列 EI [Snoek+ (2012), Hernandez-Lobato+ (2017)] 獲得関数: αPEI(x | D, C) = Ep({yc}c∈C|{xc}c∈C,D)[αEI(x | D ∪ {(xc, yc)}c∈C)] → ある点の評価中に別の点を選ぶため, EI の候補点に関する期 待値を新たな獲得関数とする 松井 (名古屋大) 機械学習による実験計画 110 / 145
  • 181. バッチベイズ最適化の方法 ii 並列分散トンプソン抽出 [Hernandez-Lobato+ (2017)] 松井 (名古屋大) 機械学習による実験計画 111 / 145
  • 182. 高次元のベイズ最適化 目的関数が高次元 (多数のパラメータを含んでいる) 場合 • 目的関数の推定に必要な関数値の観測回数 (実験回数) が 膨大になる • 獲得関数がほとんどの領域で平坦になり, 探索が困難にな る場合がある (上図) 松井 (名古屋大) 機械学習による実験計画 112 / 145
  • 183. 高次元のベイズ最適化の方法 大きく分けて 3 つのアプローチがある 1. 目的関数の事前分布モデルを工夫する • 加法的ガウス過程に基づく BO [Kandasamy+ (2015)] 2. 次元削減を行い低次元空間で BO を行う • REMBO [Wang+ (2013)], LineBO [Kirschner+ (2019)]... 3. 局所的なモデリングで精度を担保する • TuRBO [Eriksson+ (2019)] 松井 (名古屋大) 機械学習による実験計画 113 / 145
  • 184. 加法的ガウス過程 (additive Gaussian processes) モデル • 目的関数 f(x) がより低次元な関数の和で書けるとする: f(x) = f(1) (x(1) ) + f(2) (x(2) ) + · · · + f(M) (x(M) ) ここで, 各 x(j) の次元 dj は元の x の次元 d よりも小さい • 各 f(j) に独立なガウス過程モデルを仮定 f(j) (x) ∼ GP(µ(j) (x(j) ), k(j) (x(j) , x(j)′ )) • このとき, f は平均関数 µ, カーネル関数 k がそれぞれ µ(x) = µ(1) (x(1) ) + · · · + µ(M) (x(M) ), k(x, x′ ) = k(1) (x(1) , x(1)′ ) + · · · + k(M) (x(M) , x(M)′ ) であるようなガウス過程 GP(µ(x), k(x, x′)) に従う 松井 (名古屋大) 機械学習による実験計画 114 / 145
  • 185. 加法的ガウス過程モデルの推論 X = {x1, ..., xn}, Y = {y1, ..., yn} : 観測済みの点 • 独立性から, 各 f(j) の予測分布を個別に計算すれば良い • 候補点 x (j) ∗ における観測値 y (j) ∗ = f(j)(x (j) ∗ ) + ε の予測分 布 p(y (j) ∗ | x∗, X, Y ) は予測平均と予測分散がそれぞれ µ(j) (x (j) ∗ ) = k(j) (x (j) ∗ )∆−1 Y (j) , σ(j) (x (j) ∗ ) = k(j) (x (j) ∗ , x (j) ∗ ) − k(j) (x (j) ∗ )∆−1 k(j) (x (j) ∗ ) の正規分布 N(µ(x (j) ∗ ), σ(x (j) ∗ )) となる. ここで, • k(j) (x (j) ∗ ) = (k(j) (x (j) ∗ , x (j) 1 ), ..., k(j) (x (j) ∗ , x (j) n )) ∈ Rn • ∆ = k(X, X) + σ2 I ∈ Rn×n 松井 (名古屋大) 機械学習による実験計画 115 / 145
  • 186. 加法的ガウス過程に基づくベイズ最適化 Additive GP-UCB [Kandasamy+ (2015)]: α(x) = µt−1(x) + p βt M X j=1 σ (j) t−1(x(j) ) • α は各 j に対する GP-UCB α(j) (x(j) ) = µ (j) t−1(x(j) ) + p βtσ (j) t−1(x(j) ) の和になっている • 各 α(j) を独立に最大化して得られた解を concat すれば α の最適解が得られる 松井 (名古屋大) 機械学習による実験計画 116 / 145
  • 187. 次元削減に基づくベイズ最適化 i Definition 2 (有効次元 (effective dimensionality)) 関数 f : Rd → R が有効次元 de( d) を持つ :⇔ de 次元の線型部分空間 T が存在して, 任意の x⊤ ∈ T と任 意の直交補空間の元 x⊥ ∈ T ⊥ に対して f(x) = f(x⊤ + x⊥) = f(x⊤) が成り立つ Theorem 3 (Wang+ (2013) Theorem 2) • f : Rd → R : 有効次元が de の関数 • A ∈ Rd×d′ : 各要素が独立に N(0, 1) に従うランダム行列 このとき, 任意の x ∈ Rd に対して f(x) = f(Az) を満たすよ うな z ∈ Rd′ が確率 1 で存在する (ここで, d′ ≥ de) 松井 (名古屋大) 機械学習による実験計画 117 / 145
  • 188. 次元削減に基づくベイズ最適化 ii A A A x=Ay Convex projection of Ay to x y Embedding D=2 d=1 y x • 目的関数 f には関数値の挙動を支配する方向と関数値に影 響を与えない方向がある • 低次元空間で獲得関数の最適化を行い, ランダム行列 A で 元の次元に埋め込む (ランダム埋め込み) ことで探索のコ ストを削減する 松井 (名古屋大) 機械学習による実験計画 118 / 145
  • 189. 次元削減に基づくベイズ最適化 iii ランダム埋め込みによるベイズ最適化 (REMBO) [Wang+ (2013)] Theorem 4 (Wang+ (2013) Theorem 3) 関数 f の, 中心 0 の box constraint 上の最適解を x∗ とし, x∗ ⊤ をその部分空間 T への射影とする. このとき, f(Az∗) = f(x∗ ⊤) を満たすような z∗ ∈ Rd′ が存在する. 松井 (名古屋大) 機械学習による実験計画 119 / 145
  • 190. 信頼領域法: 目的関数の局所モデルの利用 信頼領域法 (trust region method) の手順 1. 各反復において, 現在の解 xt の近傍で目的関数 f(x) を最 適化しやすい関数 m(z) で近似 • よく用いられるのは二次近似モデル mt(z) = f(xt) + ∇f(xt)⊤ z + 1 2 z⊤ ∇2 f(xt)z 2. m(z) による近似が良く成り立つ信頼領域 (trust region) ∥z∥ ≤ ∆t を設定 • ∆t を信頼領域半径とよぶ 3. 信頼領域上で m(z) を最小化 min z mt(z) s.t. ∥z∥ ≤ ∆t 松井 (名古屋大) 機械学習による実験計画 120 / 145
  • 191. 信頼領域法によるベイズ最適化 i 決定論的な信頼領域法を使うのが難しい点 • 観測ノイズの影響を考慮できない → 不確実性のモデリングが必要 • 二次モデルなどのよく使われる近似モデルでは, 信頼領域 半径が極めて小さくなってしまう → より柔軟なモデルが必要 TuRBO (Trust Region Bayesian Optimization) [Eriksson+ (2019)]: • 信頼領域上の近似モデルとしてガウス過程を採用 • サイズの異なる複数の信頼領域上で並列に BO を実行する ことで, 全体としてはバッチベイズ最適化としてアルゴリ ズムを構築 松井 (名古屋大) 機械学習による実験計画 121 / 145
  • 192. 信頼領域法によるベイズ最適化 ii TuRBO のアルゴリズム 松井 (名古屋大) 機械学習による実験計画 122 / 145
  • 194. 事例 i : 機械学習における超パラメータ調整 • 機械学習モデルには多数の超パラメータが含まれておりそ の設定は汎化性能に直結 Ex (深層学習の超パラメータ) • 層数, チャンネル数, 学習アルゴリズム, ... • 従来は検証誤差を監視しながら人力で調整 (深層学習が職 人芸と言われる所以) • 最近は超パラメータ自動最適化用のフレームワークが充実 しつつある 超パラメータ調整のための方法 : グリッドサーチ, ランダムサーチ (クロスバリデーション) 進化計算 (遺伝アルゴリズムなど) ベイズ最適化 松井 (名古屋大) 機械学習による実験計画 123 / 145
  • 195. 事例 i : 深層学習における超パラメータ調整 例: Optuna • Preferred Networks 社が開発した超パラメータ最適化フレ ームワーク • 過去の超パラメータによる学習の履歴に基づいて次に試行 するべき超パラメータを適応的に指定 • Tree-structured Parzen Estimator (TPE) [Bergstra+ (2011)] と呼ばれるベイズ最適化の亜種を採用 • TPE の他の手法との性能比 較 (畳み込みニューラルネ ットの超パラメータ調整タ スク) • 同じ探索回数では TPE が 最も誤差を小さくしている 松井 (名古屋大) 機械学習による実験計画 124 / 145
  • 196. 事例 ii : レベル集合推定による適応的マッピング マッピング (データ取得) • 1 点 1 点, 物性値を測定する • 狭義: 実空間での逐次測定 • 広義: 任意のパラメータ空間での逐次測定 • 測定点数 vs 精度のトレードオフ 少ないコスト (点数, 時間, 費用...) で正確な分布を得たい 松井 (名古屋大) 機械学習による実験計画 125 / 145
  • 197. 事例 ii : レベル集合推定による適応的マッピング 角 角 • 製造業では, 材料の物性が所望の品質を満たしていない低 品質領域の特定が重要 • 従来は等間隔マッピングで網羅的に物性値を測定して判断 → 無駄な測定が多く, 効率が悪い 松井 (名古屋大) 機械学習による実験計画 126 / 145
  • 198. 事例 ii : レベル集合推定による適応的マッピング レベル集合推定としての定式化 物性値にしきい値を設定し, • 測定点の物性値がしきい値以上 → 低品質領域ではない • 測定点の物性値がしきい値以下 → 低品質領域である と定義して 2 つの領域を分離する レベル集合推定のための能動学習により効率的な適応的マッピ ングを実現する 松井 (名古屋大) 機械学習による実験計画 127 / 145
  • 199. 事例 ii : レベル集合推定による適応的マッピング [穂積 +, JSAI2019] !# !$# % !'# ( !)# * !+# , !-# ,. • 2 次元入力 (測定点の座標), 1 次元出力 (物性値) 関数を GP でモデリングし LSE を適用 • 従来法 (6586 点測定) よりも少ない測定点数で低品質領域 を同定 松井 (名古屋大) 機械学習による実験計画 128 / 145
  • 200. 事例 iii : イオン電動性物質の伝導度推定 [Kanamori+ (2018)] 電池材料などのイオン電動性物質の伝導度を知りたい • ポテンシャルエネルギー (PE) 曲面内のイオン伝導経路を 同定できれば,その経路内の最安定点(エネルギー最小の 点)とボトルネック点(エネルギー最大の点)を知ること ができ,イオン伝導度を求めることができる • 第一原理計算などの物理シミュレーションを用いれば各点 における PE を高精度に求められる → PE 関数全体を網羅的な第一原理計算で求めようとすると膨 大な計算コスト 提案法 ガウス過程モデルとベイズ最適化の考え方を拡張し,イオン 伝導経路を特徴づける部分に対して選択的に第一原理計算を 行うアプローチ 松井 (名古屋大) 機械学習による実験計画 129 / 145
  • 201. 事例 iii : イオン電動性物質の伝導度推定 [Kanamori+ (2018)] 以下の 3 ステップの繰り返しアルゴリズムとして実現 Step 1 ガウス過程モデルから PE 関数のランダムサンプ ルを多数生成 Step 2 Step 1 の各 PE 関数に対して動的計画法で最適な イオン伝導路を同定 → 最安定点とボトルネック点のランダムサンプル を得る Step 3 Step 2 で得た最安定点とボトルネック点に基づい た獲得関数を設計し, 次に第一原理計算を適用す るべきコンフィギュレーション点を選択 松井 (名古屋大) 機械学習による実験計画 130 / 145
  • 202. 事例 iii : イオン電動性物質の伝導度推定 [Kanamori+ (2018)] • 左図: 2 次元空間のポテンシャルエネルギー (PE) 曲面をガ ウス過程でモデル化して得られた予測平均と予測分散 • 右図: ガウス過程モデルからランダムサンプリングで PE 曲面の候補を多数作成. 各候補に動的計画法を適用してイ オン伝導経路を求めることで,イオン伝導経路の予測分布 を推定し, ベイズ最適化で第一原理計算すべき点を決定 松井 (名古屋大) 機械学習による実験計画 131 / 145
  • 203. 事例 iv : SiC モデリングの出力デザイン [Matsui+ (2020)] SiC (シリコンカーバイド) 結晶成長シミュレーションデータ • 入力: 9 次元の実験パラメータ • 接着剤熱伝導率 • 黒鉛熱伝導率 • 断熱材熱伝導率 • 黒鉛電気伝導率 • 断熱材電気伝導率 • 溶液輻射率 • 溶液熱容量 • 結晶-溶液界面速度係数 • 黒鉛-溶液界面速度係数 • 出力: 10 地点の成長速度を並べた 10 次元のベクトル 目的 所望の結晶成長速度ベクトルを少ない実験回数で見つける 松井 (名古屋大) 機械学習による実験計画 132 / 145
  • 204. 事例 iv : SiC モデリングの出力デザイン [Matsui+ (2020)] 1 次元入力の場合のデモ • 黒鉛-溶液界面速度係数のみ入力とした 1 入力 10 出力の系 • 初期点は 5 点, 獲得関数には EI を使用 L(x) EI f(x) • 黒: 所望の出力 • 青: ガウス過程による予測 + 不確実性 • 赤: 実際の観測 松井 (名古屋大) 機械学習による実験計画 133 / 145
  • 205. 事例 iv : SiC モデリングの出力デザイン [Matsui+ (2020)] 9 次元入力の場合の実データ実験 データから各測定地点に対応する関数の相関を推定 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 1 0.062 -0.25 -0.36 -0.41 -0.4 -0.3 0.078 0.53 0.59 0.062 1 0.94 0.88 0.83 0.8 0.75 0.5 -0.068-0.32 -0.25 0.94 1 0.99 0.97 0.94 0.87 0.51 -0.22 -0.52 -0.36 0.88 0.99 1 0.99 0.98 0.9 0.52 -0.25 -0.57 -0.41 0.83 0.97 0.99 1 0.99 0.93 0.56 -0.23 -0.57 -0.4 0.8 0.94 0.98 0.99 1 0.97 0.64 -0.14 -0.51 -0.3 0.75 0.87 0.9 0.93 0.97 1 0.81 0.095 -0.31 0.078 0.5 0.51 0.52 0.56 0.64 0.81 1 0.66 0.29 0.53 -0.068-0.22 -0.25 -0.23 -0.14 0.095 0.66 1 0.9 0.59 -0.32 -0.52 -0.57 -0.57 -0.51 -0.31 0.29 0.9 1 SiC Simulation 0.0 0.2 0.4 0.6 0.8 1.0 • データを分割し, 一方で推定 (探索には用いない) • “近い測定地点の関数値は似ている” という関係がある 松井 (名古屋大) 機械学習による実験計画 134 / 145
  • 206. 事例 iv : SiC モデリングの出力デザイン [Matsui+ (2020)] 9 次元入力の場合の実データ実験 単純リグレット min1≤i≤n L (xi) − minx∈X L(x) による比較 0 20 40 60 80 100 Number of observation 10−1 101 103 Simple Regret SiC simulation EI EI (ind) PI PI (ind) LCB LCB (ind) MSE random 出力ベクトルの成分間の類似度 (すなわち構造) を考慮した提 案法が最も早くリグレットを減少させることができている 松井 (名古屋大) 機械学習による実験計画 135 / 145
  • 207. 事例 v : Si エピタキシャル成長プロセス最適化 [Osada+ (2020)] 目的 成長速度を最大にしつつ, その他の 5 つの評価項目を基準値 以下にするプロセス条件の組合せを見つける 松井 (名古屋大) 機械学習による実験計画 136 / 145
  • 208. 事例 v : Si エピタキシャル成長プロセス最適化 [Osada+ (2020)] Thickness uniformity Less than a threshold Low Available High Uniformity of resistivity High Low Large LPD ( 0.30 μm) Low Low Small LPD ( 0.136 μm) Low Low Accumulation of slip length High High Error A No error Zero Unavailable High Error B *No error Zero High meter is less than a threshold. t of BO process in this study. SQCBO: single quality constraint Bayesian optimization; MQCBO: multiple quality constraint Bayesian optimization. 制約付きベイズ最適化 + バッチベイズ最適化 成⻑速度以外の5つの項⽬が 基準値以下であることを要請 異なる条件での複数の実験を 連続して⾏い, 複数の試料を ⼀度に評価 Procedure 1: 単⼀のパラメータのみを更新するBO (短時間で実⾏可能) ⽤いたベイズ最適化のフレームワーク Procedure 2: 全パラメータを更新するBO (実⾏に時間を要する) Procedure 3 : プロセスエンジニアによる条件の 絞り込み → BOによって挙げられた候補条件を 基にPEの知識を⽣かして特定のパラ メータに対して条件探索を⾏う 提案法のフローチャート 松井 (名古屋大) 機械学習による実験計画 137 / 145
  • 209. 事例 v : Si エピタキシャル成長プロセス最適化 [Osada+ (2020)] 松井 (名古屋大) 機械学習による実験計画 138 / 145
  • 210. まとめ • 統計的実験計画の考え方 • ブラックボックス関数のベイズモデリング • ベイズ線形回帰 • ガウス過程回帰 • ベイズ最適化の基本概念 • ベイズ最適化の基本アルゴリズム • 獲得関数 • レベル集合推定のための能動学習 • 構造出力デザインのための能動学習 • 制約付き, コスト考慮型, 多目的問題に対するベイズ最適化 • 応用事例紹介 松井 (名古屋大) 機械学習による実験計画 139 / 145
  • 211. Python による実装方法例 ベイズ最適化のためのライブラリ各種 • Gaussian Processes (scikit-learn) • 機械学習の汎用ライブラリ scikit-learn 内のガウス過程回 帰用モジュール • 事後分布からのサンプリング用の関数が用意されていない など次の GPy に比べると不便な印象 • GPy • ガウス過程回帰用ライブラリ • 事前分布の設定, 事後分布 · 予測分布の計算, などが関数化 されており非常に便利 • カーネルの超パラメータ最適化なども含む • GPyOpt • GPy をベースにしたベイズ最適化用ライブラリ • ただし, 獲得関数の種類などが多くなく, 研究で使うには 不向き 松井 (名古屋大) 機械学習による実験計画 140 / 145
  • 212. Python による実装方法例 ベイズ最適化のためのライブラリ各種 (つづき) • GPyTorch • PyTorch ベースのガウス過程回帰用モジュール • 共分散行列の遅延評価による計算の効率化 • BoTorch • GPyTorch のベイズ最適化用ラッパー • サンプリングや勾配計算は専用の関数が提供されている • BO のアルゴリズム自体は自分で書く必要がある (研究用) • Ax • BoTorch をさらにラップしたライブラリ • 既成の獲得関数で BO を実行するだけであれば圧倒的に楽 • システムに組み込むことを念頭に開発されている (AB テス ト, ML システム...) 松井 (名古屋大) 機械学習による実験計画 141 / 145
  • 213. Python による実装方法例 ベイズ最適化の比較的手軽な実装方法 既成の獲得関数でとりあえず BO を実行したい → GPyOpt や Ax で一括モデリング 自作の獲得関数を使うなどいろいろカスタマイズをしたい → GPy, GPyTorch, BoTorch などでモデリング部分は自動化しつ つ BO 部分は自分で書く • ベイズ最適化の肝は “いかにして問題に適した獲得関数を 設計するか” なので, 研究では後者がマジョリティだと思わ れる • 今回紹介する方法も後者 松井 (名古屋大) 機械学習による実験計画 142 / 145
  • 214. References [1] James S Bergstra, Rémi Bardenet, Yoshua Bengio, and Balázs Kégl. Algorithms for hyper-parameter optimization. NeurIPS, 2011. [2] J Bernardo, MJ Bayarri, JO Berger, AP Dawid, D Heckerman, AFM Smith, and M West. Optimization under unknown constraints. Bayesian Statistics, 9(9):229, 2011. [3] David Eriksson, Michael Pearce, Jacob Gardner, Ryan D Turner, and Matthias Poloczek. Scalable global optimization via local bayesian optimization. NeurIPS, 2019. [4] Jacob R Gardner, Matt J Kusner, Zhixiang Eddie Xu, Kilian Q Weinberger, and John P Cunningham. Bayesian optimization with inequality constraints. ICML, 2014. [5] Alkis Gotovos, Nathalie Casati, Gregory Hitz, and Andreas Krause. Active learning for level set estimation. In IJCAI, pages 1344–1350, 2013. [6] Robert B Gramacy, Genetha A Gray, Sébastien Le Digabel, Herbert KH Lee, Pritam Ranjan, Garth Wells, and Stefan M Wild. Modeling an augmented lagrangian for blackbox constrained optimization. Technometrics, 58(1):1–11, 2016. [7] Daniel Hernández-Lobato, Jose Hernandez-Lobato, Amar Shah, and Ryan Adams. Predictive entropy search for multi-objective bayesian optimization. 2016. [8] José Miguel Hernández-Lobato, Michael Gelbart, Matthew Hoffman, Ryan Adams, and Zoubin Ghahramani. Predictive entropy search for bayesian optimization with unknown constraints. ICML, 2015. [9] José Miguel Hernández-Lobato, Michael A Gelbart, Ryan P Adams, Matthew W Hoffman, and Zoubin Ghahramani. A general framework for constrained bayesian optimization using information-based search. The Journal of Machine Learning Research, 17(1):5549–5601, 2016. [10] José Miguel Hernández-Lobato, Matthew W Hoffman, and Zoubin Ghahramani. Predictive entropy search for efficient global optimization of black-box functions. NeurIPS, 2014. 松井 (名古屋大) 機械学習による実験計画 143 / 145
  • 215. [11] José Miguel Hernández-Lobato, James Requeima, Edward O Pyzer-Knapp, and Alán Aspuru-Guzik. Parallel and distributed thompson sampling for large-scale accelerated exploration of chemical space. ICML, 2020. [12] Kenta Kanamori, Kazuaki Toyoura, Junya Honda, Kazuki Hattori, Atsuto Seko, Masayuki Karasuyama, Kazuki Shitara, Motoki Shiga, Akihide Kuwabara, and Ichiro Takeuchi. Exploring a potential energy surface by machine learning for characterizing atomic transport. Physical Review B, 97(12):125124, 2018. [13] Kirthevasan Kandasamy, Jeff Schneider, and Barnabás Póczos. High dimensional bayesian optimisation and bandits via additive models. ICML, 2015. [14] Johannes Kirschner, Mojmir Mutny, Nicole Hiller, Rasmus Ischebeck, and Andreas Krause. Adaptive and safe bayesian optimization in high dimensions via one-dimensional subspaces. ICML, 2019. [15] Kota Matsui, Shunya Kusakawa, Keisuke Ando, Kentaro Kutsukake, Toru Ujihara, and Ichiro Takeuchi. Bayesian active learning for structured output design. arXiv preprint arXiv:1911.03671, 2019. [16] Keiichi Osada, Kentaro Kutsukake, Jun Yamamoto, Shigeo Yamashita, Takashi Kodera, Yuta Nagai, Tomoyuki Horikawa, Kota Matsui, Ichiro Takeuchi, and Toru Ujihara. Adaptive bayesian optimization for epitaxial growth of si thin films under various constraints. Materials Today Communications, 25:101538, 2020. [17] Carl Edward Rasmussen and Christopher KI Williams. Gaussian process for machine learning. MIT press, 2006. [18] Bobak Shahriari, Kevin Swersky, Ziyu Wang, Ryan P Adams, and Nando De Freitas. Taking the human out of the loop: A review of bayesian optimization. Proceedings of the IEEE, 104(1):148–175, 2016. [19] Jasper Snoek, Hugo Larochelle, and Ryan P Adams. Practical bayesian optimization of machine learning algorithms. NeurIPS, 2012. [20] Jasper Roland Snoek. Bayesian optimization and semiparametric models with applications to assistive technology. PhD thesis, Citeseer, 2013. [21] Shinya Suzuki, Shion Takeno, Tomoyuki Tamura, Kazuki Shitara, and Masayuki Karasuyama. Multi-objective bayesian optimization using pareto-frontier entropy. ICML, 2020. [22] Kazuaki Toyoura, Daisuke Hirano, Atsuto Seko, Motoki Shiga, Akihide Kuwabara, Masayuki Karasuyama, Kazuki Shitara, and Ichiro Takeuchi. Machine-learning-based selective sampling procedure for identifying the low-energy region in a potential energy surface: A case study on proton conduction in oxides. Physical Review B, 93(5):054112, 2016. 松井 (名古屋大) 機械学習による実験計画 144 / 145
  • 216. [23] Zi Wang and Stefanie Jegelka. Max-value entropy search for efficient bayesian optimization. ICML, 2017. [24] Ziyu Wang, Masrour Zoghi, Frank Hutter, David Matheson, and Nando De Freitas. Bayesian optimization in high dimensions via random embeddings. IJCAI, 2013. [25] Marcela Zuluaga, Guillaume Sergent, Andreas Krause, and Markus Püschel. Active learning for multi-objective optimization. International Conference on Machine Learning, 2013. [26] 持橋大地, 大羽成征. ガウス過程と機械学習. 講談社, 2019. [27] 須山敦志. ベイズ推論による機械学習入門. 講談社, 2017. [28] 穂積祥太, 松井孝太, 沓掛健太朗, 宇治原徹, 竹内一郎. Level set estimation を用いた太陽電池用シリコンのレッ ドゾーンの効率的推定. In 第 33 回人工知能学会 (JSAI) 全国大会, 2019. 松井 (名古屋大) 機械学習による実験計画 145 / 145