Christos Tsirigotis

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Σταθεροποιώντας την Εκπαίδευση
Ανταγωνιζομένων Δικτύων Σύνθεσης Χωρίς Ποινή
Κλίσης
Χρήστος Τσιριγώτης
chritsir@ece.auth.gr
Α.Ε.Μ.: 7792
Επιβλέπων Καθηγητής: Περικλής Α. Μήτκας
Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης
28 Μαρτίου 2019
Χρήστος Τσιριγώτης (Α.Π.Θ.) GANs without Gradient Penalty 28 Μαρτίου 2019 1 / 46

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Σύνοψη
1 Σύνθεση Δεδομένων και Ανταγωνιζόμενα Δίκτυα Σύνθεσης
Διατύπωση Προβλήματος
Πρωτότυπο ΑΔΣ (GAN)
Wasserstein ΑΔΣ (WGAN)
Ευστάθεια Εκπαίδευσης και Κανονικοποίηση Κριτή
2 XORGAN: ΑΔΣ με βάση την λογική πύλη XOR
Ανάλυση Βέλτιστων Συνθηκών
Αντικειμενικές Συναρτήσεις και Αλγόριθμος Εκπαίδευσης
Ανάλυση Τοπικής Ευστάθειας
3 Πειράματα σε 2D Δεδομένα
4 Μελλοντικές Μελέτες

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Overview

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Το Δίκτυο του Συνθέτη
Gθ
Z
qz
Μοντέλο (Τεχνητό Νευρωνικό
Δίκτυο) Gθ που έχει:
Είσοδο: α.ι.κ. δείγματα από
N(0, I) πολυδιάστατη Γκαουσιανή
Έξοδο: Δείγματα στον χώρο του
πεδίου πραγματικών δεδομένων,
π.χ. pixel μίας φωτογραφίας
Πρόβλημα: Να βρεθούν τα θ,
ώστε η συνάρτηση συνθέτης να
παράγει αληθοφανή δεδομένα,
για κάθε είσοδο: Qθ∗ := Gθ∗ #Z = P

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Το Πρόβλημα της Σύνθεσης Δεδομένων
Gθ
Z
P
qz
p
“Pixel 1”
“Pixel 2”

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Το Δίκτυο του Κριτή και
το Πρόβλημα του Διαχωρισμού
Cψ
Cψ
q
p
Χαρακτήρισε
τα q με μία
τιμή στόχο
Διαφορετική
τιμή για να
διαχωριστούν
τα p από τα q
Ανάθεση στόχων μέσω
αναπληρωματικής αντικειμενικής
συνάρτησης,
π.χ. αρνητική δι-εντροπία
−Σip(y = i|x) log
(
˜p(l = i|x, ψ)
)
)
όπου η p(y|x) ορίζει τιμές στόχους
για τα δεδομένα και η ˜p(y|x, ψ) θα
μπορούσε να είναι μία σιγμοειδής
ή softmax στην Cψ(x).
Πρόβλημα: Να βρεθούν τα ψ,
ώστε η συνάρτηση κριτής:
˜p(y|x, ψ∗) = p(y|x)

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Ανταγωνιζόμενα Δίκτυα Σύνθεσης (ΑΔΣ)
Gθ Cψ
Cψ
Z
P
qz
p JSD
argmin
+
log(1 - σ(·))
log(σ(·))
Σ
Σ
argmax

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Μοντελοποίηση 1D-dirac
5000 συνολικά βήματα με ρυθμό μάθησης 0.1, Cψ(x) = ψ0x + ψ1 και
Qθ = δθ
GAN
Οι [Goodfellow et al. (2014)] και
επόμενες δημοσιεύσεις έδειξαν
εμπειρικά αποτελέσματα
ανταγωνιστικά με άλλες
μεθόδους μοντελοποίησης
δεδομένων, όμως το πρωτότυπο
ΑΔΣ έχει προβλήματα σύγκλισης.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Wasserstein ΑΔΣ
Gθ Cψ
Cψ
Z
P
qz
p W1
argmin
-
Σ
Σ
argmax
C must be
bounded
Lipschitz

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Ιδέα: Περιορισμός της κλάσης των κριτών σε συναρτήσεις
πεπερασμένης Lipschitz σταθεράς.
1 Ποινή Κλίσης - Gradient Penalty (GP)
Ω(ψ; θ) :=
[Mescheder et al. (2018)] Ex∼P ∥∇xCψ(x)∥2
or Ex∼Qθ
∥∇xCψ(x)∥2
2 Φασματική Ομαλοποίηση - Spectral Normalization (SN)
Οι [Miyato et al. (2018)] προτείνουν να διαιρείται ο κάθε
πίνακας βαρών στα στρώματα ενός βαθέος δικτύου με την
φασματική ακτίνα του, η οποία εκτιμάται από μία επανάληψη
της μεθόδου δύναμης (power method). Τα διανύσματα κλίσης
διαδίδονται όπισθεν κανονικά γιατί η πράξη είναι διαφορίσιμη.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Τοπικά Ευσταθή ΣI για GAN+GP και WGAN+GP
Qθ∗ = P and Cψ∗ (x) = 0 ∀x ∈ a neighborhood of supp{P}
Qθ = δθ
GAN+GP(0.1) WGAN+GP(0.1)

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Overview

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Ανταγωνιστική Εκπαίδευση με την πράξη XOR (1/2)
Προτείνονται αντικειμενικές συναρτήσεις που:
Εκτιμούν και ελαχιστοποιούν μετρική (όπως GAN, WGAN)
Έχουν τοπικά συγκλίνουσα εκπαίδευση χωρίς Ποινή Κλίσης
Ευρωστία ως προς την "ορμή" βελτιστοποίησης
(π.χ. Polyak's Heavy Ball method ή Adam
[Kingma et al. (2014)])
Βελτιώνουν την ευκρίνεια των αποτελεσμάτων
(χρήση Maximum Mean Discrepancy (MMD)
[Sriperumbudur et al. (2008)] σε test set)

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Μελέτη του εξής αντικειμενικού συναρτησιακού
Θέλουμε: Q∗
= P
Πρόταση Μελέτης
min
Q
max
D
E
x∼P
y∼P
log
(
1 − D (x, y)
)
+ E
x∼P
y∼Q
log
(
D (x, y)
)
+
E
x∼Q
y∼Q
log
(
1 − D (x, y)
)
+ E
x∼Q
y∼P
log
(
D (x, y)
)

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
XORGAN βέλτιστες συνθήκες
Βέλτιστος Διαχωριστής
D∗
XOR (x, y) =
a (x, y)
a (x, y) + b (x, y)
(1)
=
p(x)q(y) + q(x)p(y)
(
p(x) + q(x)
) (
p(y) + q(y)
) (2)
=
p(x)
p(x) + q(x)
q(y)
p(y) + q(y)
+
q(x)
p(x) + q(x)
p(y)
p(y) + q(y)
(3)
Βέλτιστο Επαγόμενο Μέτρο Συνθέτη
Q∗
= P

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
XORGAN αντικειμενικές συναρτήσεις (1/3)
Ορίζουμε:
D(P, Q, C) := E
x∼P
y∼Q
log
(
σ
(
C (x)
)
σ
(
−C (y)
)
+ σ
(
−C (x)
)
σ
(
C (y)
))
+
x
×
×
xor
1 - (·)
1 - (·)
σ(·)
y σ(·)
Σlog(·)

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Ορίζουμε:
S(P, Q, C) := E
x∼P
y∼Q
log
(
σ
(
C (x)
)
σ
(
C (y)
)
+ σ
(
−C (x)
)
σ
(
−C (y)
))
+
x
×
×
nxor1 - (·)
1 - (·)
σ(·)
y σ(·)
Σlog(·)

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
D(P, Q, C) := E
x∼P
y∼Q
log
(
σ
(
C (x)
)
σ
(
−C (y)
)
+ σ
(
−C (x)
)
σ
(
C (y)
))
S(P, Q, C) := E
x∼P
y∼Q
log
(
σ
(
C (x)
)
σ
(
C (y)
)
+ σ
(
−C (x)
)
σ
(
−C (y)
))
Qθ := Gθ # N(0, I)
Παρατηρήστε ότι οι D και S είναι συμμετρικές.
XORGAN
min
θ
max
ψ
L(ψ, θ) := S
(
P, P, Cψ
)
+ S
(
Qθ, Qθ, Cψ
)
+ 2 D
(
P, Qθ, Cψ
)

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Αρχιτεκτονική Εκπαίδευσης XORGAN
Gθ Cψ
Cψ
Z
P
qz
p XOR
argmin
+
argmax
Σ
Σ
Σ
Σ
nxor
xor
xor
nxor

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Ανάλυση Τοπικής Ευστάθειας (1/3)
Σημεία ισορροπίας ενδιαφέροντος:
ΣΙ
Qθ∗ = P and Cψ∗ (x) = 0 ∀x ∈ supp{P}
[
˙ψ
˙θ
]
=
[
∇ψ L(ψ, θ)
−∇θ L(ψ, θ)
]
≃
[
∇2
ψψ L(ψ∗, θ∗) ∇2
ψθ L(ψ∗, θ∗)
−∇2
θψ L(ψ∗, θ∗) −∇2
θθ L(ψ∗, θ∗)
] [
ψ − ψ∗
θ − θ∗
]

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Μετά από αλγεβρικές πράξεις βρίσκουμε:
J(ψ∗
, θ∗
) = (4)


0 0
0 −1
2∇θ Ex∼Qθ
[
Cψ∗ (x)
]
θ=θ∗
∇θ Ex∼Qθ
[
Cψ∗ (x)
] T
θ=θ∗

 (5)
, το οποίο δεν εγγυάται τοπική ευστάθεια ως προς ψ.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Όμως! Με το GAN αντί για XORGAN για την εύρεση βέλτιστου
κριτή: maxψ Ex∼P log
(
σ
(
Cψ (x)
))
+ Ex∼Qθ
log
(
σ
(
−Cψ (x)
))
Τότε:
J(ψ∗
, θ∗
) =
[
Jψψ Jψθ
0 Jθθ
]
(6)
Jψψ = −
1
2
E
x∼P
[
∇ψCψ (x)
ψ=ψ∗
∇ψCψ (x)
T
ψ=ψ∗
]
(7)
Jθθ = −
1
2
∇θ E
x∼Qθ
[
Cψ∗ (x)
]
θ=θ∗
∇θ E
x∼Qθ
[
Cψ∗ (x)
] T
θ=θ∗
(8)
Ιδιοτιμές στο αριστερό ημιεπίπεδο, και μάλιστα πραγματικές!
Εγγύηση τοπικής ευστάθειας εκπαίδευσης χωρίς την χρήση ποινής
κλήσης, σε αντίθεση με [Mescheder et al. (2018)]

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Qθ = δθ
XORGAN JS-XORGAN
Στα πειράματα που θα ακολουθήσουν, θα χρησιμοποιήσουμε την
JS-XORGAN εκδοχή.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Overview

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Optimizing with Adam(η=1e-4, b1=0.5, b2=0.9)
Method/Steps 20000 40000 60000 80000
JS-XORGAN-SN
min MMD × 103
74.69 ± 5.841 @ 72k step
GAN-SN
min MMD × 103
87.05 ± 3.776 @ 54k step
WGAN-SN
min MMD × 103
72.90 ± 5.316 @ 70k step

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Method/Steps 20000 40000 60000 80000
JS-XORGAN-SN
min MMD × 103
84.43 ± 4.526 @ 72k step
GAN-SN
min MMD × 103
307.2 ± 2.910 @ 78k step
WGAN-SN
min MMD × 103
135.1 ± 2.841 @ 79k step

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Method/Steps 20000 40000 60000 80000
JS-XORGAN-SN
min MMD × 103
299.3 ± 1.261 @ 42k step
GAN-SN
min MMD × 103
302.5 ± 1.511 @ 72k step
WGAN-SN
min MMD × 103
312.3 ± 2.879 @ 52k step

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Overview

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Μελλοντικές Μελέτες
1 Μοντελοποίηση δεδομένων εικόνων για εμπειρικά τεκμήρια:
32x32: CIFAR-10
128x128: Imagenet
256x256: CelebA, LSUN
1024x1024: CelebAHQ
2 Περαιτέρω πειράματα συγκριτικά με τις μεθόδους που
χρειάζονται την Ποινή Κλίσης για να συγκλίνουν
3 Σημασία των αμετάβλητων συνόλων της δυναμικής,
ολοκλήρωση απόδειξης ευστάθειας
4 Σημασία της κανονικοποίησης SN ή GP στις JSD εκτιμήτριες
μεθόδους (πχ στα GAN ή XORGAN)

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Βιβλιογραφία (1/2)
Arjovsky, Martin, et al. (2017)
“Wasserstein GAN.”
International Conference on Learning Representations
Arjovsky, Martin, and Léon Bottou (2017)
“Towards Principled Methods for Training Generative Adversarial Networks.”
Goodfellow, Ian, et al. (2014)
“Generative Adversarial Nets.”
Advances in Neural Information Processing Systems.
Heusel, Martin, et al. (2017)
“GANs Trained by a Two Time-Scale Update Rule Converge to a Local Nash
Equilibrium.”
Kingma, Diederik, and Jimmy Ba. (2014)
“Adam: A Method for Stochastic Optimization.”
ArXiv:1412.6980 [Cs]

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Βιβλιογραφία (2/2)
Mescheder, Lars, et al. (2018)
“Which Training Methods for GANs Do Actually Converge?”
International Conference on Machine Learning.
Miyato, Takeru, et al. (2018)
"Spectral Normalization for Generative Adversarial Networks."
Nagarajan, Vaishnavh, and J. Zico Kolter (2017)
“Gradient Descent GAN Optimization Is Locally Stable.”
Roth, Kevin, et al. (2017)
“Stabilizing Training of Generative Adversarial Networks through
Regularization.”
Sriperumbudur, Bharath K., et al. (2008)
“Injective Hilbert Space Embeddings of Probability Measures.”
Proceedings of the 21st Annual Conference on Learning Theory.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Ευχαριστώ για την προσοχή σας!
Θέση −→ Αντιθέσεις (?) −→ Συνθέσεις

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Extras: GAN merits and challenges
Pros
End-to-end differentiable =⇒ gradient-based optimization
No explicit intractable integral
Cheap sampling process: One only has to sample a simple
distribution and perform a forward pass through a generative
model
Potential for high-fidelity generated samples
Cons
Hard to train: Instabilities, lack of robust hyperparameters,
unclear stopping criteria, vanishing gradients
Hard to objectively evaluate results
Hard to get an inference model from the generative one
No explicit representation of Qθ∗
Prone to mode dropping: insufficient modelling of the target
distribution

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Extras: WGAN merits and challenges
Pros
Smooth discrimination of disconnected target and model
distributions. Tackles vanishing gradients problem.
Smooth and interpretable loss functions over training steps,
Cons
Must fulﬁll Lipschitz constraint in a way that does not
over-restrict the class of critic functions (we will refer methods
later)
Mode dropping still exists but it is mitigated. It is attributed to
the local nature of gradient updates.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Extras: Hypothesis on GAN quality (1/2)
GAN and WGAN Equilibria
Qθ∗ = P and Cψ∗ (x) = 0 ∀x ∈ a neighborhood of supp{P}
This class of equilibria seems to be a necessary assumption in the
cases of GAN and WGAN objectives, in order to guarantee local
convergence. The reason is that it implies that ∇xCψ∗ (x) = 0 for every
x ∈ supp(P).
However, one can argue that this is not the ideal case if the generated
and real data distributions have supports on lower dimensional
manifolds in the data space. Then, the optimal critic is not able to
distinguish between real data points and generated data points
that lie close enough to the support of P, so that they belong to the
required local neighborhood but are not on supp(P).

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Extras: Hypothesis on GAN quality (2/2)
XORGAN Equilibria
Qθ∗ = P and Cψ∗ (x) = 0 ∀x ∈ supp{P}
XORGAN requires less assumptions on the equilibria and doesn't
need Gradient Penalty to locally converge, provably.
Spectral Normalization ideally places an upper bound (≤ 1) to the
critic's Lipschitz constant, it does not zero out the gradient during
the training, risking under-capacity. But this way it does not also
drive training to convergence.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Extras: Maximum Mean Discrepancy
[Sriperumbudur et al. (2008)] proposed Maximum Mean Discrepancy
(MMD), a metric on measures which embeds injectively a
(probability) measure in a Reproducting Kernel Hilbert Space and
calculates the distance in that kernel-dependent Hilbert space.
Maximum Mean Discrepancy
Let k be a characteristic kernel function, then γk is a metric:
γk(P, Q) := sup
∥C∥Hk
≤1
EPC − EQC
Closed form solution:
γ2
k (P, Q) = E
x∼P
y∼P
k(x, y) + E
x∼Q
y∼Q
k(x, y) − 2 E
x∼P
y∼Q
k(x, y)
In experiments, an average of k(x, y) = exp
(
−∥x − y∥1/σ
)
for
σ ∈ {0.01, 0.025, 0.1, 0.25, 1} was used.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Extras: With Adam(η=1e-4, b1=0.5, b2=0.9)
Method/Steps 20000 40000 60000 80000
XORGAN-SN
min MMD × 103
96.10 ± 3.097 @ 62k step
GAN-SN-GP(0.5)
min MMD × 103
82.92 ± 3.843 @ 70k step
WGAN-SN-GP(0.5)
min MMD × 103
90.26 ± 4.333 @ 67k step

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Method/Steps 20000 40000 60000 80000
XORGAN-SN
min MMD × 103
84.64 ± 3.927 @ 31k step
GAN-SN-GP(0.5)
min MMD × 103
94.40 ± 3.422 @ 74k step
WGAN-SN-GP(0.5)
min MMD × 103
82.11 ± 5.203 @ 65k step

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Method/Steps 20000 40000 60000 80000
XORGAN-SN
min MMD × 103
123.00 ± 4.294 @ 58k step
GAN-SN-GP(0.5)
min MMD × 103
315.7 ± 2.973 @ 31k step
WGAN-SN-GP(0.5)
min MMD × 103
297.7 ± 2.865 @ 75k step

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Ανταγωνιζόμενα Δίκτυα Σύνθεσης (ΑΔΣ)
Ιδέα: Ανταγωνιστικό παιχνίδι συνθέτη και κριτή
Generative Adversarial Nets (GAN) [Goodfellow et al. (2014)]
min
θ
max
ψ
E
x∼P
log
(
σ
(
Cψ (x)
))
+ E
x∼Qθ
log
(
1 − σ
(
Cψ (x)
))
1 maxψ: Ο κριτής προσπαθεί να διαχωρίσει P και Q
Βήματα κριτή:
Η εκτίμηση και προσέγγιση μιας μετρικής μεταξύ κατανομών
2 minθ: Ο συνθέτης αλλάζει ώστε ο κριτής να προβλέψει λάθος
Βήματα συνθέτη:
Η ελαχιστοποίηση αυτής της προσέγγισης

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Wasserstein ΑΔΣ
Παράδειγμα προσέγγισης διαφορετικής μετρικής από το πρότυπο
εκπαίδευσης ΑΔΣ.
Wasserstein GAN (WGAN) [Arjovsky et al. (2017)]
min
θ
max
ψ
ˆ
M
Cψ(x) dP(x) −
ˆ
M
Cψ(x) dQθ(x)
s.t. ∥Cψ∥L := sup
{
|Cψ(x) − Cψ(y)|
∥x − y∥
: x ̸= y, ∀x, y ∈ M
}
≤ 1
Καλύτερες ιδιότητες από την JSD ως προς την βελτιστοποίηση του
συνθέτη.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
XORGAN βέλτιστες συνθήκες (1/2)
Θεωρούμε ότι P και Q μέτρα απολύτως συνεχή μεταξύ τους
D∗
= arg max
D
2
¨ {
log
(
D (x, y)
)
a (x, y) +
log
(
1 − D (x, y)
)
b (x, y)
}
dν (x) dν (y)
(9)
a (x, y) =
1
2
(
p (x) q (y) + q (x) p (y)
)
(10)
b (x, y) =
1
2
(
p (x) p (y) + q (x) q (y)
)
(11)
D∗
(x, y) =
a (x, y)
a (x, y) + b (x, y)
∀ (x, y) ∈ supp{ν × ν} (12)

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
XORGAN βέλτιστες συνθήκες (2/2)
Κατασκευάζουμε το M = 1
2(A + B)
και αναγνωρίζουμε την Jensen-Shannon Divergence
Q∗
= arg min
Q
2
{ ¨
log
(
dA
dM
)
dA (x, y) +
¨
log
(
dB
dM
)
dB (x, y)
}
− 4 log 2
(13)
= arg min
Q
4 JSD (A, B) − 4 log 2 (14)
A
(
Q∗
)
= B
(
Q∗
)
⇐⇒ (15)
p(x)q∗
(y) + q∗
(x)p(y) = p(x)p(y) + q∗
(x)q∗
(y) ⇐⇒ (16)
(
p(x) − q∗
(x)
)(
p(y) − q∗
(y)
)
= 0 ⇐⇒ Q∗
= P (17)

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
JS-XORGAN αντικειμενικές συναρτήσεις
D(P, Q, C) := E
x∼P
y∼Q
log
(
σ
(
C (x)
)
σ
(
−C (y)
)
+ σ
(
−C (x)
)
σ
(
C (y)
))
S(P, Q, C) := E
x∼P
y∼Q
log
(
σ
(
C (x)
)
σ
(
C (y)
)
+ σ
(
−C (x)
)
σ
(
−C (y)
))
Qθ := Gθ # N(0, I)
JS-XORGAN
max
ψ
E
x∼P
log
(
σ
(
Cψ (x)
))
+ E
x∼Qθ
log
(
σ
(
−Cψ (x)
))
min
θ
S
(
P, P, Cψ
)
+ S
(
Qθ, Qθ, Cψ
)
+ 2 D
(
P, Qθ, Cψ
)

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
JS-XORGAN με και χωρίς Φασματική Ομαλοποίηση
Περιορίζοντας την χωρητικότητα του κριτή με SN:
Διευκολύνουμε την τοπική βελτιστοποίηση
Αποφεύγουμε άλλα, μη-επιθυμητά, σημεία ισορροπίας
JS-XORGAN JS-XORGAN-SN

Christos Tsirigotis

Recommended

Recommended

More Related Content

More from ISSEL

More from ISSEL (20)

Recently uploaded

Recently uploaded (20)

Christos Tsirigotis