6. 考える問題
• は微分可能な関数
• は凸関数.(多変数関数に拡張可能)
•
例:
1
min ( )
s.
) (
t
( )
.
n
i i
i
F x f x
Ax b
x
) |( |i i ix x
0 if
( )
otherwise
i i i
i i
l x u
x
: n
f R R
{ }:i RR
,m n m
RA Rb
7. 応用例: データ解析
データ
機械学習: 損失関数 ,基底ベクトル ,カーネル行列
*
* は の共役関数
圧縮センシング(L1-L2最適化):
, ),( , ,1i i
i T
2
1
(P) min ( ( ) )
2
T
i
i
i
x
C
x
*
1
1
( )
2
(D) min
T
i i
i
K
C
2
1
(P) min ( ( ) )
2
T
i
i
i
x x
C
1
*
1
(D) min
s. t. 0
1
( )
2
T
i i
T
i
i
i
K
C
K
( ) ,( )i
i
i i
*
i
2
1
1
|
2
min |
n
i
i
Qx q x
8. ちなみに機械学習における
損失関数とその共役関数は
共役関数:
- SVM:
- SVR:
ロジスティック回帰, 正則化なども同様に議論できる.
*
( ) max , ( ) n
u v Rvu v
1L ( ) max{ 10, }i
i v v
* if 0
( )
otherwis
1
e
i i
i
u
u
u
1L ( ) max{0 | |, }i
i v v
* || | if 1
( )
otherwis
|
e
i
i
u uu
u
1L
9. 2. CD法
(Block) Coordinate Descent 法
ステップ0: 適当な初期点を選ぶ
ステップ1: 更新する変数の集合(更新変数集合)
を選ぶ.
ステップ2:
1,2, ,kJ n
1
argm ( )in
k kJ J
k
k
Ax b
x F x
x x
は
の補集合
kJ
kJ
1
1
argmi ( , )n kk k k
Jk
k
k
k
k kJJ J J
x
k k
J J
k
J J JF x Ax x A b
x x
x x
14. の勾配 の計算
まず, を計算.
だったCD法では, 前の結果 を用いて
を計算.
次の反復で のとき,
必要な情報は と だけ. を保持する必要がない.
k k
g Qx q
(( ) )k k
f x Q Qx q
( )O mn
( )O mn
11 kk
g Qx q
1 1
( )
k k
k k k
j j j
g Qx
Qx q xx Q
q
( )O m
( )k
k
i
i
f x
x
Q g
( )O m
iQ jQ Q
21
( )
2
qf x Qx ‖ ‖ ( )k
f x
{ }kJ j
1 { }kJ i
15. もうちょっと一般化すると
目的関数を とし,
とする.
先ほどと同様, で更新できる.
1
(( ) )
m
j j
j
f x x ba
1 1
,
m m
a b
Q q
a b
k k
g Qx q
( )O m
1
( )
( )
'( )
k
k
j i j
i
m
j
a
f x
g
x
19. 更新変数集合 の選び方
Cyclic ルール(Gauss-Seidel ルール)
• 順番に選ぶ
• 何回かに必ず選ぶという一般化もある
貪欲ルール (Gauss-Southwell ルール)
• 最も効果が高そうな変数を選ぶ
ランダムルール
• ランダムに選ぶ
• 証明が簡単
kJ
例えば
( )
argmin
k
i
i
f x
j
x
20. 部分問題の解き方
- 厳密に解く -
• CD法,Block CD法
• Successive Over Relaxation (SOR)法: ステップ幅を導入
0
argmi
0
n ( )
kJ
kk
d
x
A
d dF
d
1k k k
x x d
1
argm n (i )
kk
k
k
JJ
Ax b
x F x
x x
21. 部分問題の解き方
― inexact に解く -
• Inexact CD法
• Coordinate Gradient Descent (CGD) 法
• Coordinate Proximal Gradient (CPG) 法
1
argmin ( ) ( )
0
,
2 0k
k k k k
k
J
F x f x
Ad
d d H
d
d d
1k k k
kx dx t
( )k k
i ix
1
argmin ( ) (
02
0
, ( ))
k
k k k k
i i i k
J
F x f x d
Ad
d d x H d
d
d
1k k k
kx dx t
F の1次近似
28. Nesterovの証明
(簡単のため )
まず, を示す.
は凸関数であるから,
よって,
ただし
1 2
) ( ) ( )( k k k
f x f x f x
‖ ‖
f
* * *
( ) ( ), ( ) ( )k k k k k
xf x x x f x x f x f x
*
( ) ( )
( )
k
k f x f x
f x
R
‖ ‖
* 0
max (( ) )R xf fxx x ‖ ‖
0i
29. つづき
とすると
両辺を で割り, に注意すると
これらの式を足すと
つまり,
* 2
21*
2
*
( ) (( )
( ( ) ( ))
) ( ( ))
k
k k k
f f x fx
f
x
x f x
f x f x
R
*
) ( )( k
k xx ff 2
1 2k k k
R
1k k
1
1k
k
2
1
1 1
k k R
1 0
2
1 1
k
k
R
*
2
1
1) ( )( k
k
R
f f x
k
x
2
R
k
なるのはと
30. について
はリプシッツ連続とする.
このとき
最急降下法: とすると
CGD法(CD法も同様にできる):
貪欲ルール:
ランダムルール:
1 2
) ( ) ( )( k k k
f x f x f x
‖ ‖
1 1 1 2
) ( ),( )
2
(k k k k k k kL
f x f x f x x x x
‖x ‖
f ( ) ( )f x f y L x y
1 1
( )k k k
x f x
L
x
1 2
( ( )) ( )
2
k k kL
f xx f x f
‖ ‖
2
21 ( )
)
2
( ( )
2
( )
k
k k k
i
L f x L
f x
x n
f x f x
2
21 (
( ( ( ))
)
)
2 2
k
i
k k k
i
L f
p
x L
E f xx f
x n
f x
31. CGD法の反復回数の見積もり
は凸関数とする.
ランダム,貪欲ルール [Nesterov, 2012 (初出2010)]
注意: 勾配法と比較するため n で割ってある.
ランダムでは
Cyclicルールの場合はそのままでは証明できない.
[Nesterov, 2012] “The simplest variant of the coordinate descent
method is based on a cyclic coordinate search. However, for this
strategy it is difficult to prove convergence, and almost
impossible to estimate the rate of convergence.”
1
O
f
*
)( ( )k
E f x f x
32. CGD法の反復回数の見積もり
Cyclic ルール
[Saha and Tewari, 2013 (初出は2010)]
の非対角成分が非負で,特別な初期点から始めたら
[Beck and Tetruashvili, 2013 (初出は2012)]
1
O
O
n
2
( )f x
2 2
1 t
t
L
O
n
1
,t
L
1
t
L
1
t
nL
O
n
はステップ幅
36. 一般化されたBCD法
ステップ0: 適当な初期点を選ぶ
ステップ1: 更新する変数の集合 を選ぶ.
ステップ2:
ただし,
であり, は に関して凸関数.
ステップ3:アルミホのルールでステップ幅 を求め
1,2, ,kJ n
) 0argmin ( ( ), ( ) ( , )k
k
k k k k k
i i i J
f x f x d x xd d dd xB
オリジナル
( ) ( ), () ,( )x y xB y yx y
( , )k kk J J
x x kJx
kt
1k k k
kx x dt
のとき既存のBCPG法
1
( )
2
k
kx x H x
37. 一般化CD法の特別な場合(1)
CD法 (ただし, は各 に対して凸)
( ) ( )k
x f x
( , ) ( ) ) ),((k
k k k k k
x x d f x f x dB d f x
(
argmi
argmin ) ( ), ( ) ( , ) 0
) ( ) 0n (
k
k
k
k k k k k
i i i J
k
i i i J
d f x d B df x d x x x
x d
d
xf dd
オリジナル
f kJx
1k k k
kx dx t
ならCD法!1kt
38. 一般化CD法の特別な場合(2)
Inexact CGD法 (Inexact CD法も同様にできる)
正確な場合の部分問題の最適性の条件
近似条件
( )k
g x
1
( ) ( ) ( ) 0k k k k
k k k
J J J J
k k
f x xx g
( )k
g x
1
( )( ( ))k k k kk k k
k k kk
J J J J J JJ
k k
f x g x x
k
k ‖ ‖
オリジナル
0k
k
J
( , ) ( ) ( )xB x yx y
39. InexactなCGD法
行列 を以下の条件をみたすように定義する
を とすると,近似条件は
となる.
E
( )
1
( )
2
k k
y y Eyy k
1
1
1
1
0 ( ) (
( ) (
( ) (
( )
) ( )
) ( ) ( )
) ( )
k k k k
k k k
k
k
k
k k
J
k k k k k
J J J J
k k k k k
J
k
k
J
k
J J
k k k
J J J
k
k
f x g x
f x g
x
xx
f x
E x
g x x
x
オリジナル
1
( )k k k
E x x
41. InexactなCGD法:条件
オリジナル
1
( )k k k
E x x
0E
1
argmax{| |}k k
j
j
jx xi
とすると,
1
1
1
1
1
1
1
11 1
( )
0
2
0 0
1
0
k
k
k k k
j
k k k k k
i i nk k k k
i i i i
k
i
k
n
i
n
j j
j
iE
x
x x
x xx
1
2 k
k k
i i
E
x x
1
2
k k k
k i ix x
E
44. Cyclic-CD法の反復回数の見積もり
反復の見積もり用の新しい仮定:
通常の仮定(リプシッツ連続):
オリジナル
1 2 3 1 2
1 1
2 31
1 2
1
2
1 1 2
1
2 1
3 1 1 2
1
3 1
2
1
( , , , ( , , ,
( , , , , ( , , ,
( , , , , , ( , , ,
( , , , , (
) )
, ) )
) )
) ), , ,
n n
n n n
n
n
n
n
n n
n
f x x x x f x x x
x x
f x x x x f x x x
x x
f x x x f x x x
x x
f x f x x x
x
y
y y
x
y y y
M x y
‖ ‖
M nL
( ) ( )f y f x L x y
が成り立つ
凸関数だと
ひょっとしたら
M L
50. SVMに対する
Sequential Minimum Optimization
C-SVM
データ
損失関数
双対問題
( { 1,1, ) }i i s
R
( ( ) ) max{0, )}( )1 (i i i
i x x
0
0 (
1
min
1, )
2
s. t.
1 ,
i i
i
i i
C
T
K
i
* if 0
( )
otherwis
1
e
i i
i
u
u
u
i
i
iC
1
C
C
54. 潜在変数をもつ最尤推定問題
• 観測変数 ,潜在変数
• 観測データと潜在変数の同時分布の確率モデルが与えられ
ている. はモデルパラメータ
• 潜在変数の確率密度関数 が与えられているとき,
周辺分布
N 個の観測データ が与えられたとき
パラメータ の最尤推定
( , | )p x z
( | ) ( , | ) ( d| )p x p x z q z z
1
min ln ( | )
N
i
i
p x
x z
q
i
x
55. 例:混合正規分布の最尤推定
(応用:クラスタリング)
• K 個のクラスがあり,どのクラスに入っているかは潜在変数
で表す. ( ならクラス k に所属)
• クラス k に入っている観測変数は正規分布に従う.
• クラス k に入る確率を とする.
同時分布
周辺分布(混合正規分布)
{0,1}K
z 1kz
1, , ) |( )| ( ,k k kNx z xp
k
( | )k kq z
1
) ( | , , ) ( |( , | ) ,( )|k k
K
z z
k k
k
p x z N xp x z q z
1
, ) ( |, )( ,| k
K
z
k k
k
Np x z x
1
)( | k
K
z
k k
k
q z
) ( , | ) ( )( | ( | ),k k k
z k
p x N xp x z q z
57. 対数尤度の計算
同時分布
いま, を確率密度関数の集合とし,
とすると
lnln ( , | ) ln ( ), )( ||z pxp x z q x
) ( | , ) (| |( , )q z xp x z x p
( , , )
( , | )
( )ln d
( )
p
r r
r
x
z zL x
z
z
) ln ( )d ( )ln ( , | )d
ln ( )d ( )ln ( | , )d
( , ,
( ) d
( | , )
ln
ln ( | )
ln ( |
( )
( )
)d
( )
( )
r r r r
r r r r
L x z z z p x z z
z z z q z x z z z
q z x
z
z
z
z
z
r
p x
p xr
r
58. 「対数尤度の最大化」と等価な最大化問題
(注意: f は r に関して汎関数)
停留点(や最適解)では
つまり,
( | , )
( , , ) ( )ln d
(
l )
)
n ( |
i
i
i
i
i
i
i
i
i
r r
r
q z x
L x z z
z
p x
( | , )
( , ) ( , , ) ( )ln ( n d
)
) l
(
|i
i
i
i i
i
i
i
i
q z
r r p x
x
f L rx z z
zr
)m
s
ax
.t
( ,
.
f r
r
( ) ( | , )i
ir z q z x
max ) l | )( n, ( i
r
i
f pr x
Kullback-Liebler
divergence
59. の最大化に対するCD法
ステップ1: に関する最大化
ステップ2: に関する最大化
ステップ1 E-Step
ステップ2:
M-Step
max )
s. t. ,
( ,
( 1, )
k
i N
f
r i
r
( , )f r
r
1
) ( , )( |k i k
ir z q z x
1
ax )( ,m k
f r
1 1
1 1 1
, ) )
ln ( )d ( )l
( ( , ,
( ) n ( , | )d
k i k
i
i
k
i
k k
i i i
i
i
r z z r
f r L x
pz zr x z
r
z
max ln ( , | ) ( | , )di i k
i i
p x z q z x z
60. 混合正規分布の推定
潜在変数は離散分布なので,
と考える.
1 2, , , )(i i i iKr rr r
( , | )
) , ) ln
)
( , ( ,
( | ,
( ,
ln
ln ln ln | )
i
i
i i
i
ik
k ik
ik
k ik
ik
k
k
i
k
ik
i
k k k
ki
k
k k
f r L
p x z
r
r
x
r
r
r r
x r
N
N x
0, 1K
krr R r
1
1
( | , )
( | , )
k i
k k k k
Kik
k
j
i
j j
j
N x
r
N x
64. 相関係数の最適化
• t 期の経済指標 j の値:
• t 期の企業 i の株価:
• t 期から t+1 期の企業 i の株価収益率:
既存の経済指標から期待収益率が予測できたらうれしい.
多くの研究では となる f を推定
相関が強い新しい経済指標とポートフォリオができるととうれしそう.
( 1, , )t
jI mj
( 1, , )t
iP ni
1t t
t i i
i t
i
P P
R
P
1 2 1 2, , , , , ,) ( )( n mR f IIR R I
強い相関
1( , , )t t
mI I I 1( , , )n
t t
R R R
65. 相関係数の最適化
新しい経済指標:
ポートフォリオの収益率:
予測ができる ⇒ 相関係数が大きい
1
( )
m
i i
i
I yy I
1
( )
n
i i
i
R x R x
2 2
( ( ) [ ( )])( ( ) [ ( )
min
s. t. ,
])
[( ( ) [ ( )]) ] [( ( ) [ ( )]) ]
E R x E R x I y E I y
E R x U R x E I y E I y
X Yx y
オリジナル
67. 相関係数最適化問題に対する
Block Coordinate Descent 法
ステップ1: 次の問題の(近似)解を とする
ステップ2: 次の問題の(近似)解を とする
オリジナル
(
min
)
s. t.
R
k
RI
k k
R II
V y
V y
x
x x
x X
V y
1
1 1
(
( )
)
min
s. t.
R
k
RI
k k
R II
y
y
x V
x V
y
V
Y
x y
1k
x
1k
y
69. 分数計画問題の解法
1変数非線形方程式への変換
1
2
( )
min
( )
s. t.
g x
g x
x X
)( 0G
1 2) min( { ( ) ( )}Xx gG x xg
* *
*
*
1 2
1 2
* *
) 0 such that ( ) ( ) 0
( ) ( 0
(
)
xX
x
G x
x x X
g g
g
x
g
実際,
1*1
2
*
2
*
( ) (
( )
)
( )
g g x
xg
x
g
x
X
x
70. 1変数非線形方程式の解法
• は単調増加凸関数
• の劣勾配:
ただし, は の解
は一般化ニュートン法で簡単に解ける.
1 2 2 1
ˆ ) ( ) min { ( ) ( )} max { ( )( ( )}Xx x XG G g g gx x gx x
ˆG
ˆG
ˆ )( 0G
2
ˆ( ) ( )ˆxg G
ˆx 2 1max { ( ) ( )}x X x xg g
new 2 1 1
2 2 2
ˆ ( )ˆ ˆ ˆ( ) ( )( )
( ) ( )ˆ )ˆ ( ˆ
x xg g gG
g g g
x
x x x
一般化ニュートン法の各反復で
を解かなければならない!!2 1max { ( ) ( )}x X x xg g
75. DSLゲームの均衡問題
N人ユーザが,Kチャネルある通信路を使って通信している.
ユーザ i の最適化問題
• 決定変数: ( i 以外のユーザの決定変数 )
• 目的関数(通信量):
• ユーザーの制約:
1
( , ) ln 1i i ij
k k
j
K
k
i
i
i
k
i
i k
xu x
x
x
max
1
0,
K
i i
k
i
k kx x P
Ki
x R
i
x
分母はノイズ
77. (KKT条件)
ユーザの最適化問題
max
1
max ( , )
s. t. 0,
i
i
i
i
K
i i
k
k
u
x x
x x
P
max max
( 1,
1
0 ,
0,
)
0 ( 1,0, ,
,
)
00,
i ij i
k k k
i i
k k k
i i i i
k k
k
k
k
x
x x k
x
K
K
P x P
[Luo and Pang, 2006]
max
0 ( 1 , )
0, 0, ,
,
0 ( 1, )
i ij i i i
k k k k
i i
k
i i i i
k k k k
K
x K
x P
x
x k
k
78. 均衡問題
Nash均衡: すべてのユーザが最適
max
0 ( 1 , )
0, 0, ,
,
0 ( 1, )
i ij i i i
k k k k
i i
k
i i i i
k k k k
K
x K
x P
x
x k
k
79. 等価な最適化問題
対角行列 を以下のように定義する
さらに行列 ,A と b を以下のように定義する.
Nash均衡:
,i j K K
M R
,i j ij
kk kM
NK NK
M R
1,1 1,
max
,1 ,
m
1
ax
1 1 0 0
0 1 1
, ,
0
0 0 1 1
N
N N N N
M M P
M A b
M M P
0
0, 0, 0
A
A
Mx q
x
x b
x
84. 単体法とCD法
部分問題:
最適解:
min
s. t. ,( 1 ),
0
j j
i i j
j
b n
x
y x i
x
1
0
arg
if 0
min 0 otherwise
j
k
j i
i
i
b
y
y
x
87. 制約つきの問題
ー 拡張ラグランジュ法(乗数法) -
*簡単のため とする.
ラグランジュ関数:
拡張ラグランジュ関数:
min
s.t. ( ) 0,
( )
1 ,,i
f x
h ix m
1
(( ), ) ) (
m
i i
i
f x hL x x
2
1
( , ) ( , ) ( )
m
i
i
c x L x h xL c
0
88. 拡張ラグランジュ法
拡張ラグランジュ法では点列 を以下のように生成する.
1
argmin ( , )k k
x cx xL
1 1
1
( )k k k
i
m
i
hc x
( ),k k
x
制約なしの問題
1 1 11
0 ( , ) ( () )( )k k k k
x c i
k k
i i
h xL x f x ch x
* * *
0 ( ) ( )i if x h x
89. 交互方向乗数法
(alternating direction method of multipliers)
目的関数が分離可能な問題:
例:
応用: 画像処理,信号処理
( ) ( )min
s.t.
p x q y
Ax By b
1min ( )f x Ax ‖ ‖
1min
s
(
.
)
t 0. A
yf x
x y
‖‖
90. 交互方向乗数法
拡張ラグランジュ関数の最小化を正確にするかわりに,
ブロックCD法の反復を1回する.
2
(( , , ( )) ) ( ) T
cL Ax Byx y p x q y b c Ax By b ‖ ‖
1
1
argmin ( , , )
n
k k k
c
x R
xx yL
2
1 1
argmin ( , , )n
kk k
cy R
xy yL
1 1 1
( )k k k k
c Ax By b
91. 交互方向乗数法が有効な例
Total variation minimization (画像処理)
z:ノイズがある元画像. : total variation
2
1min
s.t. n
x z Ax
x R
‖ ‖ ‖ ‖
1Ax‖ ‖
2
1min
s.t. 0
x z y
Ax y
‖ ‖ ‖‖
2 2
1( , , ) ( )cL Ax y cx y x z y Ax y ‖ ‖ ‖‖ ‖ ‖
92. Total variation minimization
交互方向乗数法
あらかじめ を計算しておけば,
各反復の計算は でできる
1
2 2
arg min ( , , )
argmin )(
n
n
k k k
cx R
k
x R
x x y
x z A x c A y
L
x
‖ ‖ ‖ ‖
1
( ) ( )k
I cA A z A y
1 1 1
)max 0,| ( | sgn(( ),) ,1,k k k
i i iy m
c
iAx Ax
1
( )I cA A
2
( )O n
1 1 1
( )k k k k
c Ax y