Βασίλειος Χούτας

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ
ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ
Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών
Υπολογιστών
Εργαστήριο Επεξεργασίας Πληροφορίας και
Υπολογισμών
Ανάπτυξη Αυτόνομων Πρακτόρων με χρήση
Προσαρμοστικών Μηχανισμών Εστίασης και
Βαθέων Νευρωνικών Δικτύων
Διπλωματική Εργασία
Επιβλέποντες:
Χούτας Βασίλειος Καθ. Περικλής Α. Μήτκας
Α.Ε.Μ.: 7800 Δρ. Κυριάκος Χατζηδημητρίου
Θεσσαλονίκη, 29 Ιουνίου 2017

Πίνακας Περιεχομένων
1. Εισαγωγή
2. Μεθοδολογία
3. Αποτελέσματα
4. Συμπεράσματα
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 2 / 30

Deep RL
Σχήμα: Deeq Q-Learning Network1, πηγή: https://www.nature.com/
1. Mnih, Kavukcuoglu, Silver, Rusu, Veness, Bellemare, Graves, Riedmiller, Fidjeland, Ostrovski, Petersen, Beattie, Sadik,
Antonoglou, King, Kumaran, Wierstra, Legg, and Hassabis, «Human-level control through deep reinforcement
learning», 2015

Attention Models
lt-1
gt
Glimpse
Sensor
xt
ρ(xt , lt-1)
θg
0
θg
1
θg
2
Glimpse Network : fg( θg )
lt-1
gt
ltat
lt
gt+1
lt+1at+1
ht ht+1
fg(θg)
ht-1
fl(θl)fa(θa)
fh(θh)
fg(θg)
fl(θl)fa(θa)
fh(θh)
xt
ρ(xt , lt-1)lt-1
Glimpse Sensor
A)
B)
C)
(αʹ) Ταξινόμηση Εικόνων με Μηχανισμό
Εστίασης1
Σχήμα: Μοντέλο Αυστηρής Εστίασης
(αʹ) Αναγνώριση Δραστηριοτήτων2
Σχήμα: Μοντέλο Ελαστικής Εστίασης
1. Mnih, Heess, Graves, and Kavukcuoglu, «Recurrent Models of Visual Attention», 2014
2. Sharma, Kiros, and Salakhutdinov, «Action Recognition using Visual Attention», 2015

Στόχος της Διπλωματικής
• Συνδυασμός Μηχανισμών Εστίασης με Αλγορίθμους Βαθιάς
Ενισχυτικής Μάθησης.

• Διερεύνηση μεθόδων για δυναμική επιλογή του αριθμού των
βλεμμάτων.

• Διερεύνηση μεθόδων για δυναμική επιλογή του αριθμού των
βλεμμάτων.
• Σύγκριση του πράκτορα που προκύπτει με state-of-the-art
αλγορίθμους Ενισχυτικής Μάθησης.

1. Εισαγωγή
2.1 Ενισχυτική Μάθηση
2.2 Αρχιτεκτονική Δικτύου
2.3 Μηχανισμός Εστίασης
2.4 Δυναμική Επιλογή Αριθμού Βημάτων

Πρόβλημα Ενισχυτικής Μάθησης
Σχήμα: Το πρόβλημα της Ενισχυτικής Μάθησης

Εκμάθηση Πολιτικής
Στόχος του Πράκτορα
Μεγιστοποίηση της προσδοκώμενης ανταμοιβής:
max
πθ
E [R|πθ]

Εκμάθηση Πολιτικής
Στόχος του Πράκτορα
Μεγιστοποίηση της προσδοκώμενης ανταμοιβής:
max
πθ
E [R|πθ]
Θεώρημα Κλίσης Πολιτικής
Αποδεικνύεται1 ότι:
∇θE [R(τ)] =
[T−1∑
t′=0
∇θ log π (αt′ |st′ ; θ)
T−1∑
t=t′
rt
]
1. Sutton, McAllester, Singh, Mansour, et al., «Policy gradient methods for reinforcement
learning with function approximation», 1999.

Ασύγχρονος Δράστης με Κριτή
Σχήμα: Asynchronous Advantage Actor-Critic1 (A3C)
1. Mnih, Badia, Mirza, Graves, Lillicrap, Harley, Silver, and Kavukcuoglu, «Asynchronous
Methods for Deep Reinforcement Learning», 2016.

Δομή Νευρωνικού Δικτύου
Σχήμα: Νευρωνικό Δίκτυο Πολιτικής

Προσθήκη Νευρωνικού Δικτύου Ανάδρασης
Σχήμα: Νευρωνικό Δίκτυο Ανάδρασης Πολιτικής

Δομή Μηχανισμού Εστίασης
Σχήμα: Υπολογισμός Εξόδου Μηχανισμού Εστίασης

Δίκτυο Χωρικών Μετασχηματισμών
Αρχιτεκτονική
Grid
Generator
Localisation Net
Sampler
Spatial Transformer
U V

Δίκτυο Χωρικών Μετασχηματισμών
Αρχιτεκτονική
Grid
Generator
Localisation Net
Sampler
Spatial Transformer
U V
Υπολογισμός Εξόδου μέσω Δειγματοληψίας
U V
(αʹ) Ταυτοτικός
Μετασχηματισμός
U V
(βʹ) Αφινικός
Μετασχηματισμός
Vc
i =
H∑
n
W∑
m
Uc
nm· max (0, 1 − |xs
i − m|) ·
max (0, 1 − |ys
i − n|)

Αρχιτεκτονική Μηχανισμού Εστίασης
Σχήμα: Μηχανισμός Εστίασης

Με ενισχυτική Μάθηση
Ενέργειες Παύσης
• pΠαύση = σ(Wh
⃗ht + bh)
• pΣυνέχεια = 1 − pΠαύση
• σ(x) = 1
1+e−x

⃗ht + bh)
• σ(x) = 1
1+e−x
Συνάρτηση Ανταμοιβής για επιλογή βημάτων
• r
Εστίασης
n =
{
1 n = N
0 n < N
• R =
∑N−1
n=0 γn
Εστrn+1 = γN−1
Εστ rN

⃗ht + bh)
• σ(x) = 1
1+e−x
Συνάρτηση Ανταμοιβής για επιλογή βημάτων
• r
Εστίασης
n =
{
1 n = N
0 n < N
• R =
∑N−1
n=0 γn
Εστrn+1 = γN−1
Εστ rN
Έξοδος Μηχανισμού Εστίασης
⃗y = ⃗hN(t)

Μηχανισμός Προσαρμογής Υπολογιστικού Χρόνου
Ενδιάμεσες Ποσότητες
• sn
t =
{
S(st−1, xn
t ) , n = 1
S(sn−1
t , xn
t ) , διαφορετικά
• yn
t = Wsysn
t + by
• xn
t = xt + δn,1 =
{
xt , διαφορετικά
xt + 1 , n = 1
1. Graves, «Adaptive Computation Time for Recurrent Neural Networks», 2016

Ενδιάμεσες Ποσότητες
• sn
t =
{
S(st−1, xn
t ) , n = 1
S(sn−1
t , xn
t ) , διαφορετικά
• yn
t = Wsysn
t + by
• xn
t = xt + δn,1 =
{
xt , διαφορετικά
xt + 1 , n = 1
Μηχανισμός Παύσης
• Μονάδα Παύσης (Halting Unit): hn
t = σ(Wshsn
t + bh)
• Πιθανότητα Παύσης (Halting Probability): pn
t =
{
R(t) n = N(t)
hn
t διαφορετικά
• Υπόλοιπο (Remainder): R(t) = 1 −
∑N(t)−1
n=1 hn
t
• Αριθμός Βημάτων: N(t) = min
{
M, min
{
n′ :
∑n′
n=1 hn
t ≥ 1 − ϵ
}}

(Συνέχεια)
Έξοδος Προσαρμοστικού Μηχανισμού
• Νέα Εσωτερική Κατάσταση ΝΔΑ: st =
∑N(t)
n=1 pn
t sn
t
• Επόμενη Έξοδος ΝΔΑ: yt =
∑N(t)
n=1 pn
t yn
t

(Συνέχεια)
Έξοδος Προσαρμοστικού Μηχανισμού
• Νέα Εσωτερική Κατάσταση ΝΔΑ: st =
∑N(t)
n=1 pn
t sn
t
• Επόμενη Έξοδος ΝΔΑ: yt =
∑N(t)
n=1 pn
t yn
t
Κόστος Διαδικασίας Επιλογής Αριθμού Βημάτων
• Ακολουθία Συλλογισμού (Ponder Sequence) (ρ1, ρ2, . . . , ρT): ρt = N(t) + R(t)
• Κόστος Συλλογισμού: τ · P (⃗x) = τ ·
∑T
t=1 ρt

1. Εισαγωγή
3.1 Επιλογή Υπερ-Παραμέτρων
3.2 Pong
3.3 Breakout

Περιγραφή Catch
Σχήμα: Παράδειγμα παιχνιδιού Catch

Τελικές Τιμές Υπέρ-Παραμέτρων
Υπέρ-Παράμετροι
Όνομα Παραμέτρου Τιμή
Αριθμός Νημάτων A3C 16
Ρυθμός Μάθησης η = 10−4
Ρυθμός Μάθησης για δίκτυο με ΝΔΑ η = 8 · 10−5
Απόσβεση Ρυθμού Μάθησης Όχι
Μέγιστος Αριθμός Ματιών 20
tmax 20
Αλγόριθμος Βελτιστοποίησης
Adam Kingma και Ba, «Adam: A Method for
Stochastic Optimization», 2014
Χρήση κοινών στατιστικών του αλγορίθμου
βελτιστοποίησης μεταξύ των νημάτων.
Ναι
Ρυθμός μάθησης Δικτύου Χωρικών
Μετασχηματισμών
10−3
· η
Άνω φράγμα του μέτρου της κλίσης 10
Βάρος όρου Εντροπίας β = 10−2
Βάρος όρου Εντροπίας Μηχανισμού Επιλογής
Αριθμού Βλεμμάτων με Ενισχυτική Μάθηση
βglimpse = 10−2
Ρυθμός Έκπτωσης γ = 0.99
Βάρος συνάρτησης κανονικοποίησης πλέγματος
Δικτύου Χωρικών Μετασχηματισμών
λSTN
Reg = 1.0

Περιγραφή Παιχνιδιού
Σχήμα: Στιγμιότυπα παιχνιδιού Pong

Αποτελέσματα Εκπαίδευσης στο Pong

Πίνακας Αποτελεσμάτων
Αλγόριθμος
Εκπαίδευσης
Πολιτικής
Είδος
ΝΔΑ
Είδος Μηχανισμού
Δυναμικής Επιλογής
Βλεμμάτων
Μέγιστος
Αριθμός
Βλεμμάτων
Μέγιστη
Μέση
Ανταμοιβή
A3C-GAE
Ρυθμός Μάθησης
η = 10−4
IRNN
Χωρίς Μηχανισμό
Εστίασης
- 20.976
A3C-GAE LSTM
Μηχανισμός
Προσαρμογής
Υπολογιστικού Χρόνου
σε ΝΔΑ
Παράμετρος Ποινής
Χρονικής Καθυστέρησης
τ = 10−3
20 20.87
A3C-GAE LSTM
σε ΝΔΑ
τ = 10−4
8 20.46
A3C-GAE LSTM
Μηχανισμός Ενισχυτικής
Μάθησης
20 20.312
A3C-GAE LSTM
σε ΝΔΑ
τ = 10−7
20 18.79
A3C-GAE LSTM
Μάθησης
20 17.276

Πίνακας Αποτελεσμάτων
(αʹ) Μοντέλο 1ης
Γραμμής
(βʹ) Μοντέλο 2ης
Γραμμής
(γʹ) Μοντέλο 3ης
Γραμμής
(δʹ) Μοντέλο 4ης
Γραμμής
(αʹ) Μοντέλο 5ης
Γραμμής
(βʹ) Μοντέλο 6ης
Γραμμής

Περιγραφή Παιχνιδιού
Σχήμα: Στιγμιότυπα παιχνιδιού Breakout

Αποτελέσματα Εκπαίδευσης στο Breakout

Πίνακας Αποτελεσμάτων I
Πολιτικής
Είδος
ΝΔΑ
Είδος Μηχανισμού Δυναμικής
Επιλογής Βλεμμάτων
Μέγιστος
Αριθμός
Βλεμμάτων
Μέγιστη
Μέση
Ανταμοιβή
A3C-GAE
Ρυθμός Μάθησης η = 10−4 IRNN Χωρίς Μηχανισμό Εστίασης - 564.87
A3C-GAE
Ρυθμός Μάθησης η = 10−4 LSTM Χωρίς Μηχανισμό Εστίασης - 502.89
A3C-GAE LSTM
Μηχανισμός Προσαρμογής
Υπολογιστικού Χρόνου σε ΝΔΑ
Παράμετρος Ποινής Χρονικής
Καθυστέρησης
τ = 10−3
20 294.1
A3C-GAE
Ρυθμός Μάθησης η = 10−4
Αριθμός Νημάτων = 32
LSTM
Μάθησης
20 234.88

Πίνακας Αποτελεσμάτων II
Πολιτικής
Είδος
ΝΔΑ
Είδος Μηχανισμού Δυναμικής
Επιλογής Βλεμμάτων
Μέγιστος
Αριθμός
Βλεμμάτων
Μέγιστη
Μέση
Ανταμοιβή
A3C-GAE LSTM
τ = 10−7
20 88.33
A3C-GAE
LSTM
τ = 10−7
20 72.032
A3C-GAE LSTM
τ = 10−7
20 66.418
A3C-GAE
η = 5 · 10−5
LSTM
Μάθησης
20 65.808
A3C-GAE
η = 5 · 10−5
LSTM
Μάθησης
20 49.234

1. Εισαγωγή
4.1 Σύνοψη
4.2 Μελλοντικές Επεκτάσεις
4.3 Demo

Σύνοψη
• Ανάπτυξη διαφορίσιμου δυναμικού μηχανισμού εστίασης.
• Αποφασίζει πού θα στρέψει την προσοχή του ο πράκτορας.
• Επιλέγει πότε θα σταματήσει να λαμβάνει παρατηρήσεις.

Σύνοψη
• Ανάπτυξη διαφορίσιμου δυναμικού μηχανισμού εστίασης.
• Αποφασίζει πού θα στρέψει την προσοχή του ο πράκτορας.
• Επιλέγει πότε θα σταματήσει να λαμβάνει παρατηρήσεις.
• Αξιολογούμε τον πράκτορα που σχεδιάσαμε σε ένα υποσύνολο
των παιχνιδιών Atari 2600.
• Εμφανίζει ανταγωνιστική συμπεριφορά.
• Ωστόσο απαιτείται περαιτέρω βελτίωση για την επίτευξη της
μέγιστης δυνατής απόδοσης.

Μελλοντικές Επεκτάσεις
• Βελτίωση Αρχιτεκτονικής.
• Bidirectional RNN.
• Διαφορετικές συναρτήσεις ενεργοποίησης και τεχνικές
κανονικοποίησης.

• Μεταβολή της διαδικασίας εκπαίδευσης.
• Χρήση πιο αποτελεσματικών αλγορίθμων κλίσης πολιτικής.
• Oﬀ-Policy training για τον αλγόριθμο επιλογής αριθμού ματιών.

• Προσθήκη δευτερευόντων στόχων μάθησης.
• Πρόβλεψη μελλοντικών καταστάσεων, αμοιβών, κλπ.

• Προσθήκη δευτερευόντων στόχων μάθησης.
• Πρόβλεψη μελλοντικών καταστάσεων, αμοιβών, κλπ.
• Εφαρμογή σε νέα περιβάλλοντα.

Demo
(αʹ) Μηχανισμός Επιλογής βημάτων με
Ενισχυτική Μάθηση
(βʹ) Μηχανισμός Προσαρμογής

Σας ευχαριστώ για την
προσοχή σας!
Ερωτήσεις;

Κλίση Πολιτικής (Συνέχεια)
Συνάρτηση Βάσης
∇θEτ [R(τ)] = Eτ
[T−1∑
t=0
∇θ log π (αt|st; θ)
(T−1∑
t′=t
rt′ − b(st)
)]
Για παράδειγμα:
• b (st) = E [rt + rt+1 + rt+2 + · · · + rT−1] ≈ 1
m
∑m
i=1 R(τi)

Συνάρτηση Βάσης
[T−1∑
t=0
∇θ log π (αt|st; θ)
(T−1∑
t′=t
rt′ − b(st)
)]
Για παράδειγμα:
• b (st) = E [rt + rt+1 + rt+2 + · · · + rT−1] ≈ 1
m
∑m
i=1 R(τi)
Αλγόριθμοι Δράστη-Κριτή (Actor-Critic)
[T−1∑
t=0
∇θ log π (αt|st; θ)Qπ
(st, at)
]
= Eτ
[T−1∑
t=0
∇θ log π (αt|st; θ)Aπ
(st, at)
]

Εκτίμηση Γενικευμένου Πλεονεκτήματος
ˆA
GAE(γ,λ)
t =
∞∑
l=0
(γλ) δV
t+l
• δt = rt + γV(st+1) − V(st)
• λ, γ παράμετροι που ελέγχουν πόλωση, διασπορά.
• Επιλέγουμε: ˆAt =
∑∞
l=0 γlδV
t+l =
∑∞
l=0 γlrt+l − V(st)
Schulman, Moritz, Levine, Jordan, and Abbeel, «High-Dimensional Continuous Control Using
Generalized Advantage Estimation», 2015

Εκτίμηση Γενικευμένου Πλεονεκτήματος
ˆA
GAE(γ,λ)
t =
∞∑
l=0
(γλ) δV
t+l
• δt = rt + γV(st+1) − V(st)
• λ, γ παράμετροι που ελέγχουν πόλωση, διασπορά.
• Επιλέγουμε: ˆAt =
∑∞
l=0 γlδV
t+l =
∑∞
l=0 γlrt+l − V(st)
Schulman, Moritz, Levine, Jordan, and Abbeel, «High-Dimensional Continuous Control Using
Generalized Advantage Estimation», 2015
Καλύτερη Εξερεύνηση
[T−1∑
t=0
∇θ log π (αt|st; θ)Aπ
(st, at) + β∇θH(π (αt|st; θ))
]

Περιγραφή ΝΔΑ
IRNN: Identity RNN
⃗ht = max(0, Wx⃗xt + Wh
⃗ht−1 + b)

Περιγραφή ΝΔΑ
IRNN: Identity RNN
⃗ht = max(0, Wx⃗xt + Wh
⃗ht−1 + b)
LSTM: Long Short-Term Memory
⃗it = σ(Wxi ⃗xt + Whi
⃗ht−1 +⃗bi)
⃗ft = σ(Wxf ⃗xt + Whf
⃗ht−1 +⃗bf)
⃗ot = σ(Wxo ⃗xt + Who
⃗ht−1 +⃗bo)
⃗gt = tanh(Wxg ⃗xt + Whg
⃗ht−1 +⃗bg)
⃗ct =⃗ft ⊙⃗ct−1 +⃗it ⊙⃗gt
⃗ht = ⃗ot ⊙ tanh(⃗ct)
Hochreiter and
Schmidhuber, Long
Short-term Memory, 1997
Σχήμα: Δίκτυο Μακράς Βραχέας Μνήμης
Πηγή: Chris Olah’s Blog: Understanding LSTM
Networks
http://colah.github.io/posts/
2015-08-Understanding-LSTMs/

Πιθανές Τιμές Υπέρ-Παραμέτρων
Όνομα Παραμέτρου Τιμή
Ρυθμός
Μάθησης
η =
[
10−5, 10−4
]
με βήμα 10−5
Μέγιστος Αριθμός Ματιών {5, 10, 15, 20}
tmax {5, 10, 20, 32}
Βελτιστοποίησης
Adam Kingma και Ba, «Adam: A Method for
Stochastic Optimization», 2014
RMSProp Tieleman και Hinton, Lecture
6.5—RmsProp: Divide the gradient by a running
average of its recent magnitude, 2012

Πιθανές Τιμές Υπέρ-Παραμέτρων II
Ρυθμός μάθησης Δικτύου
Χωρικών Μετασχηματισμών
{
10−3, 10−2, 10−1, 1
}
· η
Άνω φράγμα του μέτρου
της κλίσης
{5, 10}
Βάρος όρου Εντροπίας β =
{
10−2, 10−1, 1
}
Βάρος όρου Εντροπίας
Μηχανισμού Επιλογής
Αριθμού Βλεμμάτων με
Ενισχυτική Μάθηση
βglimpse = 10−2
Βάρος συνάρτησης
κανονικοποίησης πλέγματος
Δικτύου Χωρικών
Μετασχηματισμών
λSTN
Reg =
{
10−7, 10−6, 10−5, 10−4, 10−3, 10−2, 10−1, 1.0
}

[1] Εξισώσεις Adam
• mt = β1mt + (1 − β1) gt
• υt = β2υt−1 + (1 − β2) g2
t
• ˆmt = mt
1−(β1)t
• ˆυt = υt
1−(β2)t
• θt+1 = θt − η ˆmt√
ˆυt+ϵ

Βασίλειος Χούτας

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Mehr von ISSEL

Mehr von ISSEL (20)

Kürzlich hochgeladen

Kürzlich hochgeladen (20)

Βασίλειος Χούτας