ICML 2020 最適輸送まとめ

ICML2020 最適輸送まとめ
2020/07/11
1

"Optimal Transport", "Sinkhorn" or "Wasserstein" をタイトルに含む論⽂が計16本!
1. On Unbalanced Optimal Transport: An Analysis of Sinkhorn Algorithm
2. Debiased Sinkhorn barycenters
3. Sparse Sinkhorn Attention
4. Representation Learning via Adversarially-Contrastive Optimal Transport
5. TrajectoryNet: A Dynamic Optimal Transport Network for Modeling Cellular
Dynamics
6. Optimal transport mapping via input convex neural networks
7. Adversarial Risk via Optimal Transport and Optimal Couplings
2

8. Scalable Nearest Neighbor Search for Optimal Transport
9. Margin-aware Adversarial Domain Adaptation with Optimal Transport
10. A Swiss Army Knife for Minimax Optimal Transport
11. Regularized Optimal Transport is Ground Cost Adversarial
12. Missing Data Imputation using Optimal Transport
13. Graph Optimal Transport for Cross-Domain Alignment
14. Bridging the Gap Between f-GANs and Wasserstein GANs
15. Stronger and Faster Wasserstein Adversarial Attacks
16. Principled learning method for Wasserstein distributionally robust optimization
with local perturbations
3

最適輸送問題とは
(Ballu, et al '20)
4

最適輸送問題とは
(Ballu, et al '20)
5

最適輸送問題の始まり
モンジュの問題(離散版)
:有限集合。
ある製品が⼯場で個⽣産され、で個消費する。からに運ぶ
のに⼀つ当たりのコストがかかる。
の時、各輸送に対する総コスト
c(T) = a c(x, T(x))
x∈X
∑ x
が最⼩になるような輸送(最適輸送,Optimal Transport)を⾒つけよ。
で、コストがよくあるケース
X, Y
x ∈ X ax y ∈ Y by x y
c(x, y) ≥ 0
a =∑x x b∑y y T : X → Y
X, Y ⊂ Rd
c(x, y) = ∣∣x − y∣∣2
6

Kantrovich relaxation
実はモンジュの問題は⼀般には不良設定問題( など)
しかし↓の広い意味では解が存在。
カントロヴィッチの最適輸送問題
前⾴の設定で、⼯場から複数の都市に分割して運ぶことを許す。
からに個運ぶ輸送計画の総コスト
c(P) = c(x, y)P(x, y) =
x,y
∑ ⟨C, P⟩
を最⼩にせよ(制約: )。
∣Y ∣ > ∣X∣
x ∈ X y ∈ Y x
y P(x, y) P
P(x, y) =∑y a , P(x, y) =x ∑x by
7

Wasserstein 距離
以下
最⼩値を、とのコスト関数 (通常
ユークリッド距離)についての Wasserstein 距離という。
応⽤
データ分布とモデル分布の⽐較
Principal Differences Analysis [NIPS'15], Model Criticism [NIPS'15,'16]
Wasserstein GAN (連続版の最適輸送)
敵対攻撃・ロバスト性向上
X = {x , x , ..., x }, Y =1 2 m {y , y , ..., y },1 2 n
a =∑i i b =∑j j 1, (⇒ P =∑i,j i,j 1)
W(a, b) := min c(P)T a = (a )i i b = (b )j j C
8

画像処理 [Papadakis'15]
color transfer
segmentation
9

理論の事前準備 : エントロピー正則化[Cuturi '13]
以下更に簡単のため .
minimize⟨C, P⟩ sub. to P1 =n a, P 1 =T
n b, P ≥i,j 0
この線形計画問題を解くには、の計算量
⾼速に近似解を求めたい
そこでエントロピー
0 < H(P) := − P log P ≤
i,j
∑ i,j i,j H(ab )T
を少し引いて以下の最適化問題を考える
minimize⟨C, P⟩ − ηH(P) sub. to P1 =n a, P 1 =T
n b, P ≥i,j 0
m = n
O(n )3
10

正則化つき最適輸送の解
定理[Cuturi'13]
は強凸。最適解はを⽤いて
P = diag(u)e diag(v)−C/η
と書ける。(このようなは唯⼀)
はSinkhornの固定点アルゴリズムで計算できる(Matrix Balancingとも呼ばれる)
計算量 per iteration
⟨C, P⟩ − ηH(P) u ∈ R , v ∈n
Rn
u, v
u, v
O(n )2
11

TrajectoryNet: A Dynamic Optimal Transport Network for
Modeling Cellular Dynamics
13

TrajectoryNet: A Dynamic Optimal Transport Network for Modeling Cellular
Dynamics
各点の動きを知りたい・ある時点の分布を知りたい -> NF + NODE でモデリング
14

全体の⼒学系は最適輸送を実現しているのが好ましい
15

計算できる形に書き直すと、⾃然にConticuous NF + 正則化の形に
16

貢献
⾼次元の分布の⼒学系を近似するフレームワーク構築
density/velocity/growth といった⽣物学的な正則化も適⽤
従来の⼿法を統⼀する強いモデル(と主張してるが、⽐較実験はない) 17

Missing Data Imputation using Optimal Transport
18

Missing Data Imputation using Optimal Transport
データ補間
⽋損値を持つ個の次元データ点,
に対して"良い"補間
を求めたい
⽋損値を持つデータを削除するのは⾼次元データでは致命的
貢献
⼤域的なデータ分布を考慮したnon-parametricなデータ補間
parametricにも応⽤、NNとかが使える柔軟なフレームワークを提案
n d Ω ∈ {0, 1}n×d
19

⼿法
部分データセットの
経験分布
が互いに近くなるようなものを考える
Wasserstein distを⼩さくする
計量な計算のためにエントロピー正則化をしたいが負の値になるのが嫌
代わりに Sinkhorn divergence
を最⼩化することを⽬指す
(疑問:全てのデータが同じ分布に従うことを仮定しているけど、そうでないとき
は︖"Conditional Wasserstein"みたいなものは考えうるか?)
X =K (x ) , K ⊂k: k∈K {1, 2, ⋯ , n}, ∣K∣ = m ≤ n
20

Alg.1 補間データ⾃体がパラメータみたいなものなので、確率的勾配法で最適化
21

Alg. 2 パラメトリックな補間もできる
補間器を学習してOut-of-sample 後から得たデータの補間ができる
22

実験
Baseline
i. 平均
ii. ice (imputation by chained equations) : cyclical linear
iii. softimpute : iterative soft-thresholded SVD
Deep-based
iv. MIWAE : importance weighted AEを援⽤
v. GAIN : GAN を援⽤
vi. VAEAC : VAE を援⽤
提案⼿法として、non-parametric, Linear/MLP imputer
Linearモデルはiceの⽬的関数だけを変えたものになる
30%のデータ⽋損を補間(toy exampleでは20%)
23

Attentionを系列全体で計算するとコスト⾼すぎる
かといってブロックに区切って計算すると情報が落ちる
Sparse Transformer[Child+'19]
Soft Sort(Sinkhorn で計算できる[Adam&Zemel'11])を組み込みattentionを⾼速化
この論⽂では最適輸送とは扱っていない
Soft SortはOTでも構成される[Cuturi+'19] : OTの応⽤でも少し⽑⾊が違う
今回の⼿法とは別物。関連づくか︖ 29

Adversarial Risk via Optimal Transport and Optimal Couplings
Stronger and Faster Wasserstein Adversarial Attacks
↑⼆つは敵対例への応⽤
metric⾃体が最適化問題なのでminimax (敵対的な)問題としての定式化と相性
がよい
Graph Optimal Transport for Cross-Domain Alignment
特徴量のアラインメント(Cross-Domain Alignment, CDA)
⾃然⾔語の情報と画像の情報を対応させる
30

Representation Learning via Adversarially-Contrastive Optimal
Transport
表現学習
Margin-aware Adversarial Domain Adaptation with Optimal
Transport
ドメイン適応
Principled learning method for Wasserstein distributionally
robust optimization with local perturbations
識別器のロバスト性向上
31

OTやWasserstein hogehogeの計算/解析 in ICML2020
hogehoge = 距離 / 最近傍 / 重⼼ / 射影
32

On Unbalanced Optimal Transport: An Analysis of Sinkhorn
Algorithm
33

Unbalanced Optimal Transport
の制約をなくした問題
総量の変化を考慮する問題になる
⟨C, P⟩ +
X∈Rn×n
arg min τKL(X1 ∣∣a) +n τKL(X 1 ∣∣b)T
n
貢献
-近似解をで計算できることを証明
OTではとされるので、Unbalancedの⽅が速い
制約がないことが良い⽅に働く(Lemma 4)
a =∑i i b (=∑j j 1)
ϵ (n /ϵ)O 2
(n /ϵ )O 2 2
34

OTの場合の解析
-近似解
に応じて正則化を適切に⼩さくとってSinkhornを⼗分回せば達成できる
Altschuler+'17 : シンプルな解析⼿法、全てのベース
Lin+'19 Jan. :
ϵ P
⟨C, P⟩ ≤ ⟨C, P ⟩ +∗ ϵ
ϵ η
(n /ϵ )O 2 3
(n /ϵ )O 2 2
35

Debiased Sinkhorn Barycenter
37

Wasserstein Barycenter :
: weight s.t.
: 確率分布
α :W = w W(α , α)
α∈P(R )d
arg min
k
∑ k k
ここではの台が与えられている場合を考える
Sinkhornで⾼速に近似を求める[Cuturi'14]
(w )k k w =∑k k 1
(α ∈k P(R ))d
k
αW
38

問題点 : エントロピー正則化をかけるとぼやけちゃう
39

エントロピーを相対エントロピーに⼀般化して考える
今までのは⼀様分布に対するエントロピー
逆に積測度を使った最適輸送距離を使うと重⼼測度は潰れる
(離散だと⼀様分布と積測度は同じエントロピーになるんじゃないっけ…︖)
H(P)
α ⊗ β OT (α, β)ϵ
⊗
40

代わりに次の距離を使って重⼼を求めることを提案
等分散の正規分布では正しい重⼼を返す
の代わりに普通のエントロピーでも同じ量になる( によらない)⊗ m ⊗1 m2
41

⾼速な計算 per iteration (ただし収束がまだ⽰せてない)O(n )2
42

実験 : 既存⼿法とのquality / run-time⽐較
43

実験 : 3D画像のinterpolation (⼆枚の重み付き平均)
(疑問:exactなWasserstein barycenterとはどれくらい違うのか︖)
44

Scalable Nearest Neighbor Search for Optimal Transport
45

分布空間の中で最近傍探索をする話
⽂章をword embedding空間上の離散測度とみなして「⽂章間の距離」を定義
したときとかに使う(Word Mover distance [Kusner+'15])
Quadtree をより正確にした Flowtreeを提案
(Backurs'20)
46

A Swiss Army Knife for Minimax Optimal Transport
Regularized Optimal Transport is Ground Cost Adversarial
どちらも全く同じ問題を扱う。前者が実験的・後者が理論
ロバストな最適輸送を得るために、さらにコスト関数の集合上で最適化
47

Stochastic Optimization for Regularized Wasserstein Estimators
Wasserstein-"最尤推定"の近似を軽い計算で⾏う話
応⽤としてbarycenterの計算をあげているがbiasはより強まってしまいそう…?
Optimal transport mapping via input convex neural networks
ユークリッド空間内の最適輸送写像をNNで実現する
凸関数でのminimax問題に帰着
凸関数を表現するICNN (Input Convex Neural Networks)で解く
48

まとめ
ロバスト性などわかりやすい応⽤から、データ補間やCDAなど多様な応⽤まで
エントロピー正則化によるバイアスを除いた距離Sinkhorn Divergence は有⽤そう
加えてUnbalanced Optimal Transportの理論・応⽤の発展が今後⾒込めそう
49

ICML 2020 最適輸送まとめ

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie ICML 2020 最適輸送まとめ

Ähnlich wie ICML 2020 最適輸送まとめ (7)

ICML 2020 最適輸送まとめ