SlideShare ist ein Scribd-Unternehmen logo
1 von 49
Downloaden Sie, um offline zu lesen
ICML2020 最適輸送まとめ
2020/07/11
1
"Optimal Transport", "Sinkhorn" or "Wasserstein" をタイトルに含む論⽂が計16本!
1. On Unbalanced Optimal Transport: An Analysis of Sinkhorn Algorithm
2. Debiased Sinkhorn barycenters
3. Sparse Sinkhorn Attention
4. Representation Learning via Adversarially-Contrastive Optimal Transport
5. TrajectoryNet: A Dynamic Optimal Transport Network for Modeling Cellular
Dynamics
6. Optimal transport mapping via input convex neural networks
7. Adversarial Risk via Optimal Transport and Optimal Couplings
2
8. Scalable Nearest Neighbor Search for Optimal Transport
9. Margin-aware Adversarial Domain Adaptation with Optimal Transport
10. A Swiss Army Knife for Minimax Optimal Transport
11. Regularized Optimal Transport is Ground Cost Adversarial
12. Missing Data Imputation using Optimal Transport
13. Graph Optimal Transport for Cross-Domain Alignment
14. Bridging the Gap Between f-GANs and Wasserstein GANs
15. Stronger and Faster Wasserstein Adversarial Attacks
16. Principled learning method for Wasserstein distributionally robust optimization
with local perturbations
3
最適輸送問題とは
(Ballu, et al '20)
4
最適輸送問題とは
(Ballu, et al '20)
5
最適輸送問題の始まり
モンジュの問題(離散版)
:有限集合。
ある製品が⼯場 で 個⽣産され、 で 個消費する。 から に運ぶ
のに⼀つ当たり のコストがかかる。
の時、各輸送 に対する総コスト
c(T) = a c(x, T(x))
x∈X
∑ x
が最⼩になるような輸送(最適輸送,Optimal Transport)を⾒つけよ。
で、コスト がよくあるケース
X, Y
x ∈ X ax y ∈ Y by x y
c(x, y) ≥ 0
a =∑x x b∑y y T : X → Y
X, Y ⊂ Rd
c(x, y) = ∣∣x − y∣∣2
6
Kantrovich relaxation
実はモンジュの問題は⼀般には不良設定問題( など)
しかし↓の広い意味では解が存在。
カントロヴィッチの最適輸送問題
前⾴の設定で、⼯場 から複数の都市 に分割して運ぶことを許す。
から に 個運ぶ輸送計画 の総コスト
c(P) = c(x, y)P(x, y) =
x,y
∑ ⟨C, P⟩
を最⼩にせよ(制約: )。
∣Y ∣ > ∣X∣
x ∈ X y ∈ Y x
y P(x, y) P
P(x, y) =∑y a , P(x, y) =x ∑x by
7
Wasserstein 距離
以下
最⼩値 を、 と のコスト関数 (通常
ユークリッド距離)についての Wasserstein 距離という。
応⽤
データ分布とモデル分布の⽐較
Principal Differences Analysis [NIPS'15], Model Criticism [NIPS'15,'16]
Wasserstein GAN (連続版の最適輸送)
敵対攻撃・ロバスト性向上
X = {x , x , ..., x }, Y =1 2 m {y , y , ..., y },1 2 n
a =∑i i b =∑j j 1, (⇒ P =∑i,j i,j 1)
W(a, b) := min c(P)T a = (a )i i b = (b )j j C
8
画像処理 [Papadakis'15]
color transfer
segmentation
9
理論の事前準備 : エントロピー正則化[Cuturi '13]
以下更に簡単のため .
minimize⟨C, P⟩ sub. to P1 =n a, P 1 =T
n b, P ≥i,j 0
この線形計画問題を解くには、 の計算量
⾼速に近似解を求めたい
そこでエントロピー
0 < H(P) := − P log P ≤
i,j
∑ i,j i,j H(ab )T
を少し引いて以下の最適化問題を考える
minimize⟨C, P⟩ − ηH(P) sub. to P1 =n a, P 1 =T
n b, P ≥i,j 0
m = n
O(n )3
10
正則化つき最適輸送の解
定理[Cuturi'13]
は強凸。最適解は を⽤いて
P = diag(u)e diag(v)−C/η
と書ける。(このような は唯⼀)
はSinkhornの固定点アルゴリズムで計算できる(Matrix Balancingとも呼ばれる)
計算量 per iteration
⟨C, P⟩ − ηH(P) u ∈ R , v ∈n
Rn
u, v
u, v
O(n )2
11
OTの応⽤ in ICML2020
12
TrajectoryNet: A Dynamic Optimal Transport Network for
Modeling Cellular Dynamics
13
TrajectoryNet: A Dynamic Optimal Transport Network for Modeling Cellular
Dynamics
各点の動きを知りたい・ある時点の分布を知りたい -> NF + NODE でモデリング
14
全体の⼒学系は最適輸送を実現しているのが好ましい
15
計算できる形に書き直すと、⾃然にConticuous NF + 正則化の形に
16
貢献
⾼次元の分布の⼒学系を近似するフレームワーク構築
density/velocity/growth といった⽣物学的な正則化も適⽤
従来の⼿法を統⼀する強いモデル(と主張してるが、⽐較実験はない) 17
Missing Data Imputation using Optimal Transport
18
Missing Data Imputation using Optimal Transport
データ補間
⽋損値を持つ 個の 次元データ点,
に対して"良い"補間
を求めたい
⽋損値を持つデータを削除するのは⾼次元データでは致命的
貢献
⼤域的なデータ分布を考慮したnon-parametricなデータ補間
parametricにも応⽤、NNとかが使える柔軟なフレームワークを提案
n d Ω ∈ {0, 1}n×d
19
⼿法
部分データセット の
経験分布
が互いに近くなるようなものを考える
Wasserstein distを⼩さくする
計量な計算のためにエントロピー正則化をしたいが負の値になるのが嫌
代わりに Sinkhorn divergence
を最⼩化することを⽬指す
(疑問:全てのデータが同じ分布に従うことを仮定しているけど、そうでないとき
は︖"Conditional Wasserstein"みたいなものは考えうるか?)
X =K (x ) , K ⊂k: k∈K {1, 2, ⋯ , n}, ∣K∣ = m ≤ n
20
Alg.1 補間データ⾃体がパラメータみたいなものなので、確率的勾配法で最適化
21
Alg. 2 パラメトリックな補間もできる
補間器を学習してOut-of-sample 後から得たデータの補間ができる
22
実験
Baseline
i. 平均
ii. ice (imputation by chained equations) : cyclical linear
iii. softimpute : iterative soft-thresholded SVD
Deep-based
iv. MIWAE : importance weighted AEを援⽤
v. GAIN : GAN を援⽤
vi. VAEAC : VAE を援⽤
提案⼿法として、non-parametric, Linear/MLP imputer
Linearモデルはiceの⽬的関数だけを変えたものになる
30%のデータ⽋損を補間(toy exampleでは20%)
23
2-dim toy example
24
vs. non-deep model
25
vs. deep model
26
Out-Of-Sample imputation
27
Sparse Sinkhorn Attention
28
Attentionを系列全体で計算するとコスト⾼すぎる
かといってブロックに区切って計算すると情報が落ちる
Sparse Transformer[Child+'19]
Soft Sort(Sinkhorn で計算できる[Adam&Zemel'11])を組み込みattentionを⾼速化
この論⽂では最適輸送とは扱っていない
Soft SortはOTでも構成される[Cuturi+'19] : OTの応⽤でも少し⽑⾊が違う
今回の⼿法とは別物。関連づくか︖ 29
Adversarial Risk via Optimal Transport and Optimal Couplings
Stronger and Faster Wasserstein Adversarial Attacks
↑⼆つは敵対例への応⽤
metric⾃体が最適化問題なのでminimax (敵対的な)問題としての定式化と相性
がよい
Graph Optimal Transport for Cross-Domain Alignment
特徴量のアラインメント(Cross-Domain Alignment, CDA)
⾃然⾔語の情報と画像の情報を対応させる
30
Representation Learning via Adversarially-Contrastive Optimal
Transport
表現学習
Margin-aware Adversarial Domain Adaptation with Optimal
Transport
ドメイン適応
Principled learning method for Wasserstein distributionally
robust optimization with local perturbations
識別器のロバスト性向上
31
OTやWasserstein hogehogeの計算/解析 in ICML2020
hogehoge = 距離 / 最近傍 / 重⼼ / 射影
32
On Unbalanced Optimal Transport: An Analysis of Sinkhorn
Algorithm
33
Unbalanced Optimal Transport
の制約をなくした問題
総量の変化を考慮する問題になる
⟨C, P⟩ +
X∈Rn×n
arg min τKL(X1 ∣∣a) +n τKL(X 1 ∣∣b)T
n
貢献
-近似解を で計算できることを証明
OTでは とされるので、Unbalancedの⽅が速い
制約がないことが良い⽅に働く(Lemma 4)
a =∑i i b (=∑j j 1)
ϵ (n /ϵ)O 2
(n /ϵ )O 2 2
34
OTの場合の解析
-近似解
に応じて正則化 を適切に⼩さくとってSinkhornを⼗分回せば達成できる
Altschuler+'17 : シンプルな解析⼿法、全てのベース
Lin+'19 Jan. :
ϵ P
⟨C, P⟩ ≤ ⟨C, P ⟩ +∗ ϵ
ϵ η
(n /ϵ )O 2 3
(n /ϵ )O 2 2
35
Unbalanced Sinkhorn
36
Debiased Sinkhorn Barycenter
37
Wasserstein Barycenter :
: weight s.t.
: 確率分布
α :W = w W(α , α)
α∈P(R )d
arg min
k
∑ k k
ここでは の台が与えられている場合を考える
Sinkhornで⾼速に近似を求める[Cuturi'14]
(w )k k w =∑k k 1
(α ∈k P(R ))d
k
αW
38
問題点 : エントロピー正則化をかけるとぼやけちゃう
39
エントロピーを相対エントロピーに⼀般化して考える
今までの は⼀様分布に対するエントロピー
逆に積測度 を使った最適輸送距離 を使うと重⼼測度は潰れる
(離散だと⼀様分布と積測度は同じエントロピーになるんじゃないっけ…︖)
H(P)
α ⊗ β OT (α, β)ϵ
⊗
40
代わりに次の距離を使って重⼼を求めることを提案
等分散の正規分布では正しい重⼼を返す
の代わりに普通のエントロピーでも同じ量になる( によらない)⊗ m ⊗1 m2
41
⾼速な計算 per iteration (ただし収束がまだ⽰せてない)O(n )2
42
実験 : 既存⼿法とのquality / run-time⽐較
43
実験 : 3D画像のinterpolation (⼆枚の重み付き平均)
(疑問:exactなWasserstein barycenterとはどれくらい違うのか︖)
44
Scalable Nearest Neighbor Search for Optimal Transport
45
分布空間の中で最近傍探索をする話
⽂章をword embedding空間上の離散測度とみなして「⽂章間の距離」を定義
したときとかに使う(Word Mover distance [Kusner+'15])
Quadtree をより正確にした Flowtreeを提案
(Backurs'20)
46
A Swiss Army Knife for Minimax Optimal Transport
Regularized Optimal Transport is Ground Cost Adversarial
どちらも全く同じ問題を扱う。前者が実験的・後者が理論
ロバストな最適輸送を得るために、さらにコスト関数の集合上で最適化
47
Stochastic Optimization for Regularized Wasserstein Estimators
Wasserstein-"最尤推定"の近似を軽い計算で⾏う話
応⽤としてbarycenterの計算をあげているがbiasはより強まってしまいそう…?
Optimal transport mapping via input convex neural networks
ユークリッド空間内の最適輸送写像をNNで実現する
凸関数でのminimax問題に帰着
凸関数を表現するICNN (Input Convex Neural Networks)で解く
48
まとめ
ロバスト性などわかりやすい応⽤から、データ補間やCDAなど多様な応⽤まで
エントロピー正則化によるバイアスを除いた距離Sinkhorn Divergence は有⽤そう
加えてUnbalanced Optimal Transportの理論・応⽤の発展が今後⾒込めそう
49

Weitere ähnliche Inhalte

Was ist angesagt?

変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
Takao Yamanaka
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類
Shintaro Fukushima
 
比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!
takehikoihayashi
 

Was ist angesagt? (20)

最適化超入門
最適化超入門最適化超入門
最適化超入門
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
 
リプシッツ連続性に基づく勾配法・ニュートン型手法の計算量解析
リプシッツ連続性に基づく勾配法・ニュートン型手法の計算量解析リプシッツ連続性に基づく勾配法・ニュートン型手法の計算量解析
リプシッツ連続性に基づく勾配法・ニュートン型手法の計算量解析
 
機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論
 
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料 「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
 
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
 
『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会
 
[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展
 
強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
 
強化学習その1
強化学習その1強化学習その1
強化学習その1
 
Bayesian Neural Networks : Survey
Bayesian Neural Networks : SurveyBayesian Neural Networks : Survey
Bayesian Neural Networks : Survey
 
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類
 
比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!
 

Ähnlich wie ICML 2020 最適輸送まとめ (7)

[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
 
bigdata2012ml okanohara
bigdata2012ml okanoharabigdata2012ml okanohara
bigdata2012ml okanohara
 
パターン認識 第12章 正則化とパス追跡アルゴリズム
パターン認識 第12章 正則化とパス追跡アルゴリズムパターン認識 第12章 正則化とパス追跡アルゴリズム
パターン認識 第12章 正則化とパス追跡アルゴリズム
 
[DL輪読会]Non-Autoregressive Machine Translation with Latent Alignments
[DL輪読会]Non-Autoregressive Machine Translation with Latent Alignments[DL輪読会]Non-Autoregressive Machine Translation with Latent Alignments
[DL輪読会]Non-Autoregressive Machine Translation with Latent Alignments
 
Jokyonokai130531
Jokyonokai130531Jokyonokai130531
Jokyonokai130531
 
CMSI計算科学技術特論B(11) 大規模MD並列化の技術2
CMSI計算科学技術特論B(11) 大規模MD並列化の技術2CMSI計算科学技術特論B(11) 大規模MD並列化の技術2
CMSI計算科学技術特論B(11) 大規模MD並列化の技術2
 
π計算
π計算π計算
π計算
 

ICML 2020 最適輸送まとめ