SlideShare ist ein Scribd-Unternehmen logo
1 von 61
Downloaden Sie, um offline zu lesen
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ
ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ
Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών
Υπολογιστών
Εργαστήριο Επεξεργασίας Πληροφορίας και
Υπολογισμών
Ανάπτυξη Αυτόνομων Πρακτόρων με χρήση
Προσαρμοστικών Μηχανισμών Εστίασης και
Βαθέων Νευρωνικών Δικτύων
Διπλωματική Εργασία
Επιβλέποντες:
Χούτας Βασίλειος Καθ. Περικλής Α. Μήτκας
Α.Ε.Μ.: 7800 Δρ. Κυριάκος Χατζηδημητρίου
Θεσσαλονίκη, 29 Ιουνίου 2017
Πίνακας Περιεχομένων
1. Εισαγωγή
2. Μεθοδολογία
3. Αποτελέσματα
4. Συμπεράσματα
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 2 / 30
Deep RL
Σχήμα: Deeq Q-Learning Network1, πηγή: https://www.nature.com/
1. Mnih, Kavukcuoglu, Silver, Rusu, Veness, Bellemare, Graves, Riedmiller, Fidjeland, Ostrovski, Petersen, Beattie, Sadik,
Antonoglou, King, Kumaran, Wierstra, Legg, and Hassabis, «Human-level control through deep reinforcement
learning», 2015
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 3 / 30
Attention Models
lt-1
gt
Glimpse
Sensor
xt
ρ(xt , lt-1)
θg
0
θg
1
θg
2
Glimpse Network : fg( θg )
lt-1
gt
ltat
lt
gt+1
lt+1at+1
ht ht+1
fg(θg)
ht-1
fl(θl)fa(θa)
fh(θh)
fg(θg)
fl(θl)fa(θa)
fh(θh)
xt
ρ(xt , lt-1)lt-1
Glimpse Sensor
A)
B)
C)
(αʹ) Ταξινόμηση Εικόνων με Μηχανισμό
Εστίασης1
Σχήμα: Μοντέλο Αυστηρής Εστίασης
(αʹ) Αναγνώριση Δραστηριοτήτων2
Σχήμα: Μοντέλο Ελαστικής Εστίασης
1. Mnih, Heess, Graves, and Kavukcuoglu, «Recurrent Models of Visual Attention», 2014
2. Sharma, Kiros, and Salakhutdinov, «Action Recognition using Visual Attention», 2015
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 4 / 30
Στόχος της Διπλωματικής
• Συνδυασμός Μηχανισμών Εστίασης με Αλγορίθμους Βαθιάς
Ενισχυτικής Μάθησης.
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 5 / 30
Στόχος της Διπλωματικής
• Συνδυασμός Μηχανισμών Εστίασης με Αλγορίθμους Βαθιάς
Ενισχυτικής Μάθησης.
• Διερεύνηση μεθόδων για δυναμική επιλογή του αριθμού των
βλεμμάτων.
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 5 / 30
Στόχος της Διπλωματικής
• Συνδυασμός Μηχανισμών Εστίασης με Αλγορίθμους Βαθιάς
Ενισχυτικής Μάθησης.
• Διερεύνηση μεθόδων για δυναμική επιλογή του αριθμού των
βλεμμάτων.
• Σύγκριση του πράκτορα που προκύπτει με state-of-the-art
αλγορίθμους Ενισχυτικής Μάθησης.
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 5 / 30
1. Εισαγωγή
2. Μεθοδολογία
2.1 Ενισχυτική Μάθηση
2.2 Αρχιτεκτονική Δικτύου
2.3 Μηχανισμός Εστίασης
2.4 Δυναμική Επιλογή Αριθμού Βημάτων
3. Αποτελέσματα
4. Συμπεράσματα
Πρόβλημα Ενισχυτικής Μάθησης
Σχήμα: Το πρόβλημα της Ενισχυτικής Μάθησης
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 6 / 30
Εκμάθηση Πολιτικής
Στόχος του Πράκτορα
Μεγιστοποίηση της προσδοκώμενης ανταμοιβής:
max
πθ
E [R|πθ]
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 7 / 30
Εκμάθηση Πολιτικής
Στόχος του Πράκτορα
Μεγιστοποίηση της προσδοκώμενης ανταμοιβής:
max
πθ
E [R|πθ]
Θεώρημα Κλίσης Πολιτικής
Αποδεικνύεται1 ότι:
∇θE [R(τ)] =
[T−1∑
t′=0
∇θ log π (αt′ |st′ ; θ)
T−1∑
t=t′
rt
]
1. Sutton, McAllester, Singh, Mansour, et al., «Policy gradient methods for reinforcement
learning with function approximation», 1999.
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 7 / 30
Ασύγχρονος Δράστης με Κριτή
Σχήμα: Asynchronous Advantage Actor-Critic1 (A3C)
1. Mnih, Badia, Mirza, Graves, Lillicrap, Harley, Silver, and Kavukcuoglu, «Asynchronous
Methods for Deep Reinforcement Learning», 2016.
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 8 / 30
1. Εισαγωγή
2. Μεθοδολογία
2.1 Ενισχυτική Μάθηση
2.2 Αρχιτεκτονική Δικτύου
2.3 Μηχανισμός Εστίασης
2.4 Δυναμική Επιλογή Αριθμού Βημάτων
3. Αποτελέσματα
4. Συμπεράσματα
Δομή Νευρωνικού Δικτύου
Σχήμα: Νευρωνικό Δίκτυο Πολιτικής
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 9 / 30
Προσθήκη Νευρωνικού Δικτύου Ανάδρασης
Σχήμα: Νευρωνικό Δίκτυο Ανάδρασης Πολιτικής
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 10 / 30
1. Εισαγωγή
2. Μεθοδολογία
2.1 Ενισχυτική Μάθηση
2.2 Αρχιτεκτονική Δικτύου
2.3 Μηχανισμός Εστίασης
2.4 Δυναμική Επιλογή Αριθμού Βημάτων
3. Αποτελέσματα
4. Συμπεράσματα
Δομή Μηχανισμού Εστίασης
Σχήμα: Υπολογισμός Εξόδου Μηχανισμού Εστίασης
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 11 / 30
Δίκτυο Χωρικών Μετασχηματισμών
Αρχιτεκτονική
Grid
Generator
Localisation Net
Sampler
Spatial Transformer
U V
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 12 / 30
Δίκτυο Χωρικών Μετασχηματισμών
Αρχιτεκτονική
Grid
Generator
Localisation Net
Sampler
Spatial Transformer
U V
Υπολογισμός Εξόδου μέσω Δειγματοληψίας
U V
(αʹ) Ταυτοτικός
Μετασχηματισμός
U V
(βʹ) Αφινικός
Μετασχηματισμός
Vc
i =
H∑
n
W∑
m
Uc
nm· max (0, 1 − |xs
i − m|) ·
max (0, 1 − |ys
i − n|)
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 12 / 30
Αρχιτεκτονική Μηχανισμού Εστίασης
Σχήμα: Μηχανισμός Εστίασης
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 13 / 30
1. Εισαγωγή
2. Μεθοδολογία
2.1 Ενισχυτική Μάθηση
2.2 Αρχιτεκτονική Δικτύου
2.3 Μηχανισμός Εστίασης
2.4 Δυναμική Επιλογή Αριθμού Βημάτων
3. Αποτελέσματα
4. Συμπεράσματα
Με ενισχυτική Μάθηση
Ενέργειες Παύσης
• pΠαύση = σ(Wh
⃗ht + bh)
• pΣυνέχεια = 1 − pΠαύση
• σ(x) = 1
1+e−x
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 14 / 30
Με ενισχυτική Μάθηση
Ενέργειες Παύσης
• pΠαύση = σ(Wh
⃗ht + bh)
• pΣυνέχεια = 1 − pΠαύση
• σ(x) = 1
1+e−x
Συνάρτηση Ανταμοιβής για επιλογή βημάτων
• r
Εστίασης
n =
{
1 n = N
0 n < N
• R =
∑N−1
n=0 γn
Εστrn+1 = γN−1
Εστ rN
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 14 / 30
Με ενισχυτική Μάθηση
Ενέργειες Παύσης
• pΠαύση = σ(Wh
⃗ht + bh)
• pΣυνέχεια = 1 − pΠαύση
• σ(x) = 1
1+e−x
Συνάρτηση Ανταμοιβής για επιλογή βημάτων
• r
Εστίασης
n =
{
1 n = N
0 n < N
• R =
∑N−1
n=0 γn
Εστrn+1 = γN−1
Εστ rN
Έξοδος Μηχανισμού Εστίασης
⃗y = ⃗hN(t)
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 14 / 30
Μηχανισμός Προσαρμογής Υπολογιστικού Χρόνου
Ενδιάμεσες Ποσότητες
• sn
t =
{
S(st−1, xn
t ) , n = 1
S(sn−1
t , xn
t ) , διαφορετικά
• yn
t = Wsysn
t + by
• xn
t = xt + δn,1 =
{
xt , διαφορετικά
xt + 1 , n = 1
1. Graves, «Adaptive Computation Time for Recurrent Neural Networks», 2016
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 15 / 30
Μηχανισμός Προσαρμογής Υπολογιστικού Χρόνου
Ενδιάμεσες Ποσότητες
• sn
t =
{
S(st−1, xn
t ) , n = 1
S(sn−1
t , xn
t ) , διαφορετικά
• yn
t = Wsysn
t + by
• xn
t = xt + δn,1 =
{
xt , διαφορετικά
xt + 1 , n = 1
Μηχανισμός Παύσης
• Μονάδα Παύσης (Halting Unit): hn
t = σ(Wshsn
t + bh)
• Πιθανότητα Παύσης (Halting Probability): pn
t =
{
R(t) n = N(t)
hn
t διαφορετικά
• Υπόλοιπο (Remainder): R(t) = 1 −
∑N(t)−1
n=1 hn
t
• Αριθμός Βημάτων: N(t) = min
{
M, min
{
n′ :
∑n′
n=1 hn
t ≥ 1 − ϵ
}}
1. Graves, «Adaptive Computation Time for Recurrent Neural Networks», 2016
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 15 / 30
Μηχανισμός Προσαρμογής Υπολογιστικού Χρόνου
(Συνέχεια)
Έξοδος Προσαρμοστικού Μηχανισμού
• Νέα Εσωτερική Κατάσταση ΝΔΑ: st =
∑N(t)
n=1 pn
t sn
t
• Επόμενη Έξοδος ΝΔΑ: yt =
∑N(t)
n=1 pn
t yn
t
1. Graves, «Adaptive Computation Time for Recurrent Neural Networks», 2016
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 16 / 30
Μηχανισμός Προσαρμογής Υπολογιστικού Χρόνου
(Συνέχεια)
Έξοδος Προσαρμοστικού Μηχανισμού
• Νέα Εσωτερική Κατάσταση ΝΔΑ: st =
∑N(t)
n=1 pn
t sn
t
• Επόμενη Έξοδος ΝΔΑ: yt =
∑N(t)
n=1 pn
t yn
t
Κόστος Διαδικασίας Επιλογής Αριθμού Βημάτων
• Ακολουθία Συλλογισμού (Ponder Sequence) (ρ1, ρ2, . . . , ρT): ρt = N(t) + R(t)
• Κόστος Συλλογισμού: τ · P (⃗x) = τ ·
∑T
t=1 ρt
1. Graves, «Adaptive Computation Time for Recurrent Neural Networks», 2016
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 16 / 30
1. Εισαγωγή
2. Μεθοδολογία
3. Αποτελέσματα
3.1 Επιλογή Υπερ-Παραμέτρων
3.2 Pong
3.3 Breakout
4. Συμπεράσματα
Περιγραφή Catch
Σχήμα: Παράδειγμα παιχνιδιού Catch
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 17 / 30
Τελικές Τιμές Υπέρ-Παραμέτρων
Υπέρ-Παράμετροι
Όνομα Παραμέτρου Τιμή
Αριθμός Νημάτων A3C 16
Ρυθμός Μάθησης η = 10−4
Ρυθμός Μάθησης για δίκτυο με ΝΔΑ η = 8 · 10−5
Απόσβεση Ρυθμού Μάθησης Όχι
Μέγιστος Αριθμός Ματιών 20
tmax 20
Αλγόριθμος Βελτιστοποίησης
Adam Kingma και Ba, «Adam: A Method for
Stochastic Optimization», 2014
Χρήση κοινών στατιστικών του αλγορίθμου
βελτιστοποίησης μεταξύ των νημάτων.
Ναι
Ρυθμός μάθησης Δικτύου Χωρικών
Μετασχηματισμών
10−3
· η
Άνω φράγμα του μέτρου της κλίσης 10
Βάρος όρου Εντροπίας β = 10−2
Βάρος όρου Εντροπίας Μηχανισμού Επιλογής
Αριθμού Βλεμμάτων με Ενισχυτική Μάθηση
βglimpse = 10−2
Ρυθμός Έκπτωσης γ = 0.99
Βάρος συνάρτησης κανονικοποίησης πλέγματος
Δικτύου Χωρικών Μετασχηματισμών
λSTN
Reg = 1.0
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 18 / 30
1. Εισαγωγή
2. Μεθοδολογία
3. Αποτελέσματα
3.1 Επιλογή Υπερ-Παραμέτρων
3.2 Pong
3.3 Breakout
4. Συμπεράσματα
Περιγραφή Παιχνιδιού
Σχήμα: Στιγμιότυπα παιχνιδιού Pong
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 19 / 30
Αποτελέσματα Εκπαίδευσης στο Pong
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 20 / 30
Πίνακας Αποτελεσμάτων
Αλγόριθμος
Εκπαίδευσης
Πολιτικής
Είδος
ΝΔΑ
Είδος Μηχανισμού
Δυναμικής Επιλογής
Βλεμμάτων
Μέγιστος
Αριθμός
Βλεμμάτων
Μέγιστη
Μέση
Ανταμοιβή
A3C-GAE
Ρυθμός Μάθησης
η = 10−4
IRNN
Χωρίς Μηχανισμό
Εστίασης
- 20.976
A3C-GAE LSTM
Μηχανισμός
Προσαρμογής
Υπολογιστικού Χρόνου
σε ΝΔΑ
Παράμετρος Ποινής
Χρονικής Καθυστέρησης
τ = 10−3
20 20.87
A3C-GAE LSTM
Μηχανισμός
Προσαρμογής
Υπολογιστικού Χρόνου
σε ΝΔΑ
Παράμετρος Ποινής
Χρονικής Καθυστέρησης
τ = 10−4
8 20.46
A3C-GAE LSTM
Μηχανισμός Ενισχυτικής
Μάθησης
20 20.312
A3C-GAE LSTM
Μηχανισμός
Προσαρμογής
Υπολογιστικού Χρόνου
σε ΝΔΑ
Παράμετρος Ποινής
Χρονικής Καθυστέρησης
τ = 10−7
20 18.79
A3C-GAE LSTM
Μηχανισμός Ενισχυτικής
Μάθησης
20 17.276
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 21 / 30
Πίνακας Αποτελεσμάτων
(αʹ) Μοντέλο 1ης
Γραμμής
(βʹ) Μοντέλο 2ης
Γραμμής
(γʹ) Μοντέλο 3ης
Γραμμής
(δʹ) Μοντέλο 4ης
Γραμμής
(αʹ) Μοντέλο 5ης
Γραμμής
(βʹ) Μοντέλο 6ης
Γραμμής
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 22 / 30
1. Εισαγωγή
2. Μεθοδολογία
3. Αποτελέσματα
3.1 Επιλογή Υπερ-Παραμέτρων
3.2 Pong
3.3 Breakout
4. Συμπεράσματα
Περιγραφή Παιχνιδιού
Σχήμα: Στιγμιότυπα παιχνιδιού Breakout
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 23 / 30
Αποτελέσματα Εκπαίδευσης στο Breakout
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 24 / 30
Πίνακας Αποτελεσμάτων I
Αλγόριθμος
Εκπαίδευσης
Πολιτικής
Είδος
ΝΔΑ
Είδος Μηχανισμού Δυναμικής
Επιλογής Βλεμμάτων
Μέγιστος
Αριθμός
Βλεμμάτων
Μέγιστη
Μέση
Ανταμοιβή
A3C-GAE
Ρυθμός Μάθησης η = 10−4 IRNN Χωρίς Μηχανισμό Εστίασης - 564.87
A3C-GAE
Ρυθμός Μάθησης η = 10−4 LSTM Χωρίς Μηχανισμό Εστίασης - 502.89
A3C-GAE LSTM
Μηχανισμός Προσαρμογής
Υπολογιστικού Χρόνου σε ΝΔΑ
Παράμετρος Ποινής Χρονικής
Καθυστέρησης
τ = 10−3
20 294.1
A3C-GAE
Ρυθμός Μάθησης η = 10−4
Αριθμός Νημάτων = 32
LSTM
Μηχανισμός Ενισχυτικής
Μάθησης
20 234.88
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 25 / 30
Πίνακας Αποτελεσμάτων II
Αλγόριθμος
Εκπαίδευσης
Πολιτικής
Είδος
ΝΔΑ
Είδος Μηχανισμού Δυναμικής
Επιλογής Βλεμμάτων
Μέγιστος
Αριθμός
Βλεμμάτων
Μέγιστη
Μέση
Ανταμοιβή
A3C-GAE LSTM
Μηχανισμός Προσαρμογής
Υπολογιστικού Χρόνου σε ΝΔΑ
Παράμετρος Ποινής Χρονικής
Καθυστέρησης
τ = 10−7
20 88.33
A3C-GAE
Αριθμός Νημάτων = 32
LSTM
Μηχανισμός Προσαρμογής
Υπολογιστικού Χρόνου σε ΝΔΑ
Παράμετρος Ποινής Χρονικής
Καθυστέρησης
τ = 10−7
20 72.032
A3C-GAE LSTM
Μηχανισμός Προσαρμογής
Υπολογιστικού Χρόνου σε ΝΔΑ
Παράμετρος Ποινής Χρονικής
Καθυστέρησης
τ = 10−7
20 66.418
A3C-GAE
Ρυθμός Μάθησης
η = 5 · 10−5
LSTM
Μηχανισμός Ενισχυτικής
Μάθησης
20 65.808
A3C-GAE
Ρυθμός Μάθησης
η = 5 · 10−5
Αριθμός Νημάτων = 32
LSTM
Μηχανισμός Ενισχυτικής
Μάθησης
20 49.234
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 26 / 30
1. Εισαγωγή
2. Μεθοδολογία
3. Αποτελέσματα
4. Συμπεράσματα
4.1 Σύνοψη
4.2 Μελλοντικές Επεκτάσεις
4.3 Demo
Σύνοψη
• Ανάπτυξη διαφορίσιμου δυναμικού μηχανισμού εστίασης.
• Αποφασίζει πού θα στρέψει την προσοχή του ο πράκτορας.
• Επιλέγει πότε θα σταματήσει να λαμβάνει παρατηρήσεις.
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 27 / 30
Σύνοψη
• Ανάπτυξη διαφορίσιμου δυναμικού μηχανισμού εστίασης.
• Αποφασίζει πού θα στρέψει την προσοχή του ο πράκτορας.
• Επιλέγει πότε θα σταματήσει να λαμβάνει παρατηρήσεις.
• Αξιολογούμε τον πράκτορα που σχεδιάσαμε σε ένα υποσύνολο
των παιχνιδιών Atari 2600.
• Εμφανίζει ανταγωνιστική συμπεριφορά.
• Ωστόσο απαιτείται περαιτέρω βελτίωση για την επίτευξη της
μέγιστης δυνατής απόδοσης.
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 27 / 30
1. Εισαγωγή
2. Μεθοδολογία
3. Αποτελέσματα
4. Συμπεράσματα
4.1 Σύνοψη
4.2 Μελλοντικές Επεκτάσεις
4.3 Demo
Μελλοντικές Επεκτάσεις
• Βελτίωση Αρχιτεκτονικής.
• Bidirectional RNN.
• Διαφορετικές συναρτήσεις ενεργοποίησης και τεχνικές
κανονικοποίησης.
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 28 / 30
Μελλοντικές Επεκτάσεις
• Βελτίωση Αρχιτεκτονικής.
• Bidirectional RNN.
• Διαφορετικές συναρτήσεις ενεργοποίησης και τεχνικές
κανονικοποίησης.
• Μεταβολή της διαδικασίας εκπαίδευσης.
• Χρήση πιο αποτελεσματικών αλγορίθμων κλίσης πολιτικής.
• Off-Policy training για τον αλγόριθμο επιλογής αριθμού ματιών.
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 28 / 30
Μελλοντικές Επεκτάσεις
• Βελτίωση Αρχιτεκτονικής.
• Bidirectional RNN.
• Διαφορετικές συναρτήσεις ενεργοποίησης και τεχνικές
κανονικοποίησης.
• Μεταβολή της διαδικασίας εκπαίδευσης.
• Χρήση πιο αποτελεσματικών αλγορίθμων κλίσης πολιτικής.
• Off-Policy training για τον αλγόριθμο επιλογής αριθμού ματιών.
• Προσθήκη δευτερευόντων στόχων μάθησης.
• Πρόβλεψη μελλοντικών καταστάσεων, αμοιβών, κλπ.
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 28 / 30
Μελλοντικές Επεκτάσεις
• Βελτίωση Αρχιτεκτονικής.
• Bidirectional RNN.
• Διαφορετικές συναρτήσεις ενεργοποίησης και τεχνικές
κανονικοποίησης.
• Μεταβολή της διαδικασίας εκπαίδευσης.
• Χρήση πιο αποτελεσματικών αλγορίθμων κλίσης πολιτικής.
• Off-Policy training για τον αλγόριθμο επιλογής αριθμού ματιών.
• Προσθήκη δευτερευόντων στόχων μάθησης.
• Πρόβλεψη μελλοντικών καταστάσεων, αμοιβών, κλπ.
• Εφαρμογή σε νέα περιβάλλοντα.
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 28 / 30
1. Εισαγωγή
2. Μεθοδολογία
3. Αποτελέσματα
4. Συμπεράσματα
4.1 Σύνοψη
4.2 Μελλοντικές Επεκτάσεις
4.3 Demo
Demo
(αʹ) Μηχανισμός Επιλογής βημάτων με
Ενισχυτική Μάθηση
(βʹ) Μηχανισμός Προσαρμογής
Υπολογιστικού Χρόνου σε ΝΔΑ
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 29 / 30
Σας ευχαριστώ για την
προσοχή σας!
Ερωτήσεις;
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 30 / 30
Κλίση Πολιτικής (Συνέχεια)
Συνάρτηση Βάσης
∇θEτ [R(τ)] = Eτ
[T−1∑
t=0
∇θ log π (αt|st; θ)
(T−1∑
t′=t
rt′ − b(st)
)]
Για παράδειγμα:
• b (st) = E [rt + rt+1 + rt+2 + · · · + rT−1] ≈ 1
m
∑m
i=1 R(τi)
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 30 / 30
Κλίση Πολιτικής (Συνέχεια)
Συνάρτηση Βάσης
∇θEτ [R(τ)] = Eτ
[T−1∑
t=0
∇θ log π (αt|st; θ)
(T−1∑
t′=t
rt′ − b(st)
)]
Για παράδειγμα:
• b (st) = E [rt + rt+1 + rt+2 + · · · + rT−1] ≈ 1
m
∑m
i=1 R(τi)
Αλγόριθμοι Δράστη-Κριτή (Actor-Critic)
∇θEτ [R(τ)] = Eτ
[T−1∑
t=0
∇θ log π (αt|st; θ)Qπ
(st, at)
]
= Eτ
[T−1∑
t=0
∇θ log π (αt|st; θ)Aπ
(st, at)
]
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 30 / 30
Κλίση Πολιτικής (Συνέχεια)
Εκτίμηση Γενικευμένου Πλεονεκτήματος
ˆA
GAE(γ,λ)
t =
∞∑
l=0
(γλ) δV
t+l
• δt = rt + γV(st+1) − V(st)
• λ, γ παράμετροι που ελέγχουν πόλωση, διασπορά.
• Επιλέγουμε: ˆAt =
∑∞
l=0 γlδV
t+l =
∑∞
l=0 γlrt+l − V(st)
Schulman, Moritz, Levine, Jordan, and Abbeel, «High-Dimensional Continuous Control Using
Generalized Advantage Estimation», 2015
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 30 / 30
Κλίση Πολιτικής (Συνέχεια)
Εκτίμηση Γενικευμένου Πλεονεκτήματος
ˆA
GAE(γ,λ)
t =
∞∑
l=0
(γλ) δV
t+l
• δt = rt + γV(st+1) − V(st)
• λ, γ παράμετροι που ελέγχουν πόλωση, διασπορά.
• Επιλέγουμε: ˆAt =
∑∞
l=0 γlδV
t+l =
∑∞
l=0 γlrt+l − V(st)
Schulman, Moritz, Levine, Jordan, and Abbeel, «High-Dimensional Continuous Control Using
Generalized Advantage Estimation», 2015
Καλύτερη Εξερεύνηση
∇θEτ [R(τ)] = Eτ
[T−1∑
t=0
∇θ log π (αt|st; θ)Aπ
(st, at) + β∇θH(π (αt|st; θ))
]
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 30 / 30
Περιγραφή ΝΔΑ
IRNN: Identity RNN
⃗ht = max(0, Wx⃗xt + Wh
⃗ht−1 + b)
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 30 / 30
Περιγραφή ΝΔΑ
IRNN: Identity RNN
⃗ht = max(0, Wx⃗xt + Wh
⃗ht−1 + b)
LSTM: Long Short-Term Memory
⃗it = σ(Wxi ⃗xt + Whi
⃗ht−1 +⃗bi)
⃗ft = σ(Wxf ⃗xt + Whf
⃗ht−1 +⃗bf)
⃗ot = σ(Wxo ⃗xt + Who
⃗ht−1 +⃗bo)
⃗gt = tanh(Wxg ⃗xt + Whg
⃗ht−1 +⃗bg)
⃗ct =⃗ft ⊙⃗ct−1 +⃗it ⊙⃗gt
⃗ht = ⃗ot ⊙ tanh(⃗ct)
Hochreiter and
Schmidhuber, Long
Short-term Memory, 1997
Σχήμα: Δίκτυο Μακράς Βραχέας Μνήμης
Πηγή: Chris Olah’s Blog: Understanding LSTM
Networks
http://colah.github.io/posts/
2015-08-Understanding-LSTMs/
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 30 / 30
Πιθανές Τιμές Υπέρ-Παραμέτρων
Υπέρ-Παράμετροι
Όνομα Παραμέτρου Τιμή
Ρυθμός
Μάθησης
η =
[
10−5, 10−4
]
με βήμα 10−5
Μέγιστος Αριθμός Ματιών {5, 10, 15, 20}
tmax {5, 10, 20, 32}
Αλγόριθμος
Βελτιστοποίησης
Adam Kingma και Ba, «Adam: A Method for
Stochastic Optimization», 2014
RMSProp Tieleman και Hinton, Lecture
6.5—RmsProp: Divide the gradient by a running
average of its recent magnitude, 2012
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 30 / 30
Πιθανές Τιμές Υπέρ-Παραμέτρων II
Υπέρ-Παράμετροι
Ρυθμός μάθησης Δικτύου
Χωρικών Μετασχηματισμών
{
10−3, 10−2, 10−1, 1
}
· η
Άνω φράγμα του μέτρου
της κλίσης
{5, 10}
Βάρος όρου Εντροπίας β =
{
10−2, 10−1, 1
}
Βάρος όρου Εντροπίας
Μηχανισμού Επιλογής
Αριθμού Βλεμμάτων με
Ενισχυτική Μάθηση
βglimpse = 10−2
Βάρος συνάρτησης
κανονικοποίησης πλέγματος
Δικτύου Χωρικών
Μετασχηματισμών
λSTN
Reg =
{
10−7, 10−6, 10−5, 10−4, 10−3, 10−2, 10−1, 1.0
}
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 30 / 30
[1] Εξισώσεις Adam
• mt = β1mt + (1 − β1) gt
• υt = β2υt−1 + (1 − β2) g2
t
• ˆmt = mt
1−(β1)t
• ˆυt = υt
1−(β2)t
• θt+1 = θt − η ˆmt√
ˆυt+ϵ
Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 30 / 30

Weitere ähnliche Inhalte

Mehr von ISSEL

Implementation of a platform for assessing indoor spaces regarding their frie...
Implementation of a platform for assessing indoor spaces regarding their frie...Implementation of a platform for assessing indoor spaces regarding their frie...
Implementation of a platform for assessing indoor spaces regarding their frie...ISSEL
 
Autonomous car position calculation with particle filters using traffic data ...
Autonomous car position calculation with particle filters using traffic data ...Autonomous car position calculation with particle filters using traffic data ...
Autonomous car position calculation with particle filters using traffic data ...ISSEL
 
Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...
Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...
Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...ISSEL
 
Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...
Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...
Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...ISSEL
 
Ανάπτυξη ∆υναµικού και Προσωποποιηµένου Συστήµατος Ερωταπαντήσεων µε Πηγή το ...
Ανάπτυξη ∆υναµικού και Προσωποποιηµένου Συστήµατος Ερωταπαντήσεων µε Πηγή το ...Ανάπτυξη ∆υναµικού και Προσωποποιηµένου Συστήµατος Ερωταπαντήσεων µε Πηγή το ...
Ανάπτυξη ∆υναµικού και Προσωποποιηµένου Συστήµατος Ερωταπαντήσεων µε Πηγή το ...ISSEL
 
Ανάπτυξη Φίλτρων Ανεπιθύμητων Μηνυμάτων με Χρήση Τεχνικών Τεχνητής Νοημοσύνης
Ανάπτυξη Φίλτρων Ανεπιθύμητων Μηνυμάτων με Χρήση Τεχνικών Τεχνητής ΝοημοσύνηςΑνάπτυξη Φίλτρων Ανεπιθύμητων Μηνυμάτων με Χρήση Τεχνικών Τεχνητής Νοημοσύνης
Ανάπτυξη Φίλτρων Ανεπιθύμητων Μηνυμάτων με Χρήση Τεχνικών Τεχνητής ΝοημοσύνηςISSEL
 
Ανάπτυξη Ελληνικών Μοντέλων Εντοπισμού Ρητορικής Μίσους.pptx
Ανάπτυξη Ελληνικών Μοντέλων Εντοπισμού Ρητορικής Μίσους.pptxΑνάπτυξη Ελληνικών Μοντέλων Εντοπισμού Ρητορικής Μίσους.pptx
Ανάπτυξη Ελληνικών Μοντέλων Εντοπισμού Ρητορικής Μίσους.pptxISSEL
 
Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...
Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...
Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...ISSEL
 
Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...
Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...
Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...ISSEL
 
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...ISSEL
 
Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...
Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...
Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...ISSEL
 
Δημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας Ισχυρισμών
Δημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας ΙσχυρισμώνΔημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας Ισχυρισμών
Δημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας ΙσχυρισμώνISSEL
 
Εξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµατα
Εξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµαταΕξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµατα
Εξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµαταISSEL
 
Ανάπτυξη Μηχανισμών Αυτοματοποίησης των διαδικασιών κατασκευής συστημάτων λο...
Ανάπτυξη Μηχανισμών Αυτοματοποίησης των  διαδικασιών κατασκευής συστημάτων λο...Ανάπτυξη Μηχανισμών Αυτοματοποίησης των  διαδικασιών κατασκευής συστημάτων λο...
Ανάπτυξη Μηχανισμών Αυτοματοποίησης των διαδικασιών κατασκευής συστημάτων λο...ISSEL
 
ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...
ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...
ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...ISSEL
 
Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...
Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...
Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...ISSEL
 
Εξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικού
Εξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικούΕξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικού
Εξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικούISSEL
 
Ανάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία Εφαρµογής
Ανάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία ΕφαρµογήςΑνάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία Εφαρµογής
Ανάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία ΕφαρµογήςISSEL
 
Camera-based localization of annotated objects in indoor environments
Camera-based localization of annotated objects in indoor environmentsCamera-based localization of annotated objects in indoor environments
Camera-based localization of annotated objects in indoor environmentsISSEL
 
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...ISSEL
 

Mehr von ISSEL (20)

Implementation of a platform for assessing indoor spaces regarding their frie...
Implementation of a platform for assessing indoor spaces regarding their frie...Implementation of a platform for assessing indoor spaces regarding their frie...
Implementation of a platform for assessing indoor spaces regarding their frie...
 
Autonomous car position calculation with particle filters using traffic data ...
Autonomous car position calculation with particle filters using traffic data ...Autonomous car position calculation with particle filters using traffic data ...
Autonomous car position calculation with particle filters using traffic data ...
 
Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...
Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...
Ανίχνευση αντικειµένων από λίγα δείγµατα µε χρήση γραφηµάτων και τεχνικών ΜΕΤ...
 
Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...
Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...
Ανάπτυξη Εφαρµογής Προφίλ Μηχανικών Λογισµικού από ∆εδοµένα Αποθετηρίων Λογισ...
 
Ανάπτυξη ∆υναµικού και Προσωποποιηµένου Συστήµατος Ερωταπαντήσεων µε Πηγή το ...
Ανάπτυξη ∆υναµικού και Προσωποποιηµένου Συστήµατος Ερωταπαντήσεων µε Πηγή το ...Ανάπτυξη ∆υναµικού και Προσωποποιηµένου Συστήµατος Ερωταπαντήσεων µε Πηγή το ...
Ανάπτυξη ∆υναµικού και Προσωποποιηµένου Συστήµατος Ερωταπαντήσεων µε Πηγή το ...
 
Ανάπτυξη Φίλτρων Ανεπιθύμητων Μηνυμάτων με Χρήση Τεχνικών Τεχνητής Νοημοσύνης
Ανάπτυξη Φίλτρων Ανεπιθύμητων Μηνυμάτων με Χρήση Τεχνικών Τεχνητής ΝοημοσύνηςΑνάπτυξη Φίλτρων Ανεπιθύμητων Μηνυμάτων με Χρήση Τεχνικών Τεχνητής Νοημοσύνης
Ανάπτυξη Φίλτρων Ανεπιθύμητων Μηνυμάτων με Χρήση Τεχνικών Τεχνητής Νοημοσύνης
 
Ανάπτυξη Ελληνικών Μοντέλων Εντοπισμού Ρητορικής Μίσους.pptx
Ανάπτυξη Ελληνικών Μοντέλων Εντοπισμού Ρητορικής Μίσους.pptxΑνάπτυξη Ελληνικών Μοντέλων Εντοπισμού Ρητορικής Μίσους.pptx
Ανάπτυξη Ελληνικών Μοντέλων Εντοπισμού Ρητορικής Μίσους.pptx
 
Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...
Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...
Σχεδιασμός και υλοποίηση πλήρους και αυτοματοποιημένου εργαλείου ελέγχων ασφά...
 
Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...
Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...
Εφαρµογή Τεχνικών Μηχανικής Μάθησης για την Ανάλυση Αλλαγών Κώδικα µε στόχο τ...
 
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...
Ανάπτυξη συστήματος ιεραρχικής ομαδοποίησης και διαχείρισης κειμένων για αποκ...
 
Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...
Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...
Ανάπτυξη γραφικής διεπαφής σε σύστημα προσομοίωσης ηλεκτρονικών αγορών με στό...
 
Δημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας Ισχυρισμών
Δημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας ΙσχυρισμώνΔημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας Ισχυρισμών
Δημιουργία Ολοκληρωμένου Συστήματος Επαλήθευσης Ορθότητας Ισχυρισμών
 
Εξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµατα
Εξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµαταΕξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµατα
Εξόρυξη δεδοµένων για τη δυναµική ενσωµάτωση γνώσης σε πολυπρακτορικά συστήµατα
 
Ανάπτυξη Μηχανισμών Αυτοματοποίησης των διαδικασιών κατασκευής συστημάτων λο...
Ανάπτυξη Μηχανισμών Αυτοματοποίησης των  διαδικασιών κατασκευής συστημάτων λο...Ανάπτυξη Μηχανισμών Αυτοματοποίησης των  διαδικασιών κατασκευής συστημάτων λο...
Ανάπτυξη Μηχανισμών Αυτοματοποίησης των διαδικασιών κατασκευής συστημάτων λο...
 
ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...
ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...
ΕΥΦΥΗΣ ΜΕΘΟΔΟΛΟΓΙΑ ΑΠΟΤΙΜΗΣΗΣ ΤΟΥ ΒΑΘΜΟΥ ΔΙΑΤΗΡΗΣΙΜΟΤΗΤΑΣ ΕΡΓΩΝ ΛΟΓΙΣΜΙΚΟΥ ΜΕ...
 
Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...
Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...
Μηχανισμοί αυτοματοποίησης διαδικασιών σχεδίασης, υλοποίησης και ανάπτυξης λο...
 
Εξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικού
Εξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικούΕξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικού
Εξόρυξη δεδομένων τεχνολογίας λογισμικού για επαναχρησιμοποίηση λογισμικού
 
Ανάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία Εφαρµογής
Ανάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία ΕφαρµογήςΑνάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία Εφαρµογής
Ανάλυση ∆εδοµένων ΄Εργων Λογισµικού για Ανάπτυξη σε Νέα Πεδία Εφαρµογής
 
Camera-based localization of annotated objects in indoor environments
Camera-based localization of annotated objects in indoor environmentsCamera-based localization of annotated objects in indoor environments
Camera-based localization of annotated objects in indoor environments
 
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...
Εντοπισμός θέσης επισημασμένου αντικειμένου σε εσωτερικό χώρο με χρήση πολλαπ...
 

Kürzlich hochgeladen

9.SPSS και δείκτες περιγραφικής στατιστικής.pdf
9.SPSS και δείκτες περιγραφικής στατιστικής.pdf9.SPSS και δείκτες περιγραφικής στατιστικής.pdf
9.SPSS και δείκτες περιγραφικής στατιστικής.pdfssuser2f8893
 
Επίσκεψη στο 12ο Γυμνάσιο Πάτρας
Επίσκεψη          στο 12ο Γυμνάσιο ΠάτραςΕπίσκεψη          στο 12ο Γυμνάσιο Πάτρας
Επίσκεψη στο 12ο Γυμνάσιο ΠάτραςDimitra Mylonaki
 
ΙΣΤΟΡΙΑ Α' ΓΥΜΝΑΣΙΟΥ : ΕΠΑΝΑΛΗΠΤΙΚΕΣ ΑΣΚΗΣΕΙΣ ΜΕΡΟΣ 2ο
ΙΣΤΟΡΙΑ Α' ΓΥΜΝΑΣΙΟΥ : ΕΠΑΝΑΛΗΠΤΙΚΕΣ ΑΣΚΗΣΕΙΣ ΜΕΡΟΣ 2οΙΣΤΟΡΙΑ Α' ΓΥΜΝΑΣΙΟΥ : ΕΠΑΝΑΛΗΠΤΙΚΕΣ ΑΣΚΗΣΕΙΣ ΜΕΡΟΣ 2ο
ΙΣΤΟΡΙΑ Α' ΓΥΜΝΑΣΙΟΥ : ΕΠΑΝΑΛΗΠΤΙΚΕΣ ΑΣΚΗΣΕΙΣ ΜΕΡΟΣ 2οΧρύσα Παπακωνσταντίνου
 
Η Κινέζικη Αστρολογία - Ημερολόγιο - Ζώδια.docx
Η Κινέζικη Αστρολογία - Ημερολόγιο - Ζώδια.docxΗ Κινέζικη Αστρολογία - Ημερολόγιο - Ζώδια.docx
Η Κινέζικη Αστρολογία - Ημερολόγιο - Ζώδια.docxeucharis
 
2η Διεθνική Συνάντηση μαθητών και καθηγητών στο Σαλέρνο της Ιταλίας
2η Διεθνική Συνάντηση μαθητών και καθηγητών στο Σαλέρνο της Ιταλίας2η Διεθνική Συνάντηση μαθητών και καθηγητών στο Σαλέρνο της Ιταλίας
2η Διεθνική Συνάντηση μαθητών και καθηγητών στο Σαλέρνο της ΙταλίαςKonstantina Katirtzi
 
EKSETASTEA KAI DIDAKTEA YLH G TAKSHS GENIKOY LYKEIOY
EKSETASTEA KAI DIDAKTEA YLH G TAKSHS GENIKOY LYKEIOYEKSETASTEA KAI DIDAKTEA YLH G TAKSHS GENIKOY LYKEIOY
EKSETASTEA KAI DIDAKTEA YLH G TAKSHS GENIKOY LYKEIOYssuser369a35
 
Πασχαλινές λαμπάδες από τη Δ΄ τάξη του σχολείου μας.pptx
Πασχαλινές λαμπάδες από τη Δ΄ τάξη του σχολείου μας.pptxΠασχαλινές λαμπάδες από τη Δ΄ τάξη του σχολείου μας.pptx
Πασχαλινές λαμπάδες από τη Δ΄ τάξη του σχολείου μας.pptx36dimperist
 
Πασχαλινά αυγά από τη Β΄ τάξη του σχολείου μας.pptx
Πασχαλινά αυγά από τη Β΄ τάξη του σχολείου μας.pptxΠασχαλινά αυγά από τη Β΄ τάξη του σχολείου μας.pptx
Πασχαλινά αυγά από τη Β΄ τάξη του σχολείου μας.pptx36dimperist
 
Σουρεαλιστικά ταξίδια μέσα από την τέχνη
Σουρεαλιστικά ταξίδια μέσα από την τέχνηΣουρεαλιστικά ταξίδια μέσα από την τέχνη
Σουρεαλιστικά ταξίδια μέσα από την τέχνηTheodora Chandrinou
 
Μαθητικά συμβούλια .
Μαθητικά συμβούλια                                  .Μαθητικά συμβούλια                                  .
Μαθητικά συμβούλια .Dimitra Mylonaki
 
Επίσκεψη στο 11ο Γυμνάσιο Πάτρας
Επίσκεψη              στο 11ο Γυμνάσιο ΠάτραςΕπίσκεψη              στο 11ο Γυμνάσιο Πάτρας
Επίσκεψη στο 11ο Γυμνάσιο ΠάτραςDimitra Mylonaki
 
Μια νύχτα σε κατάστημα παιχνιδιώνΚΕΙΜΕΝΑ
Μια νύχτα σε κατάστημα παιχνιδιώνΚΕΙΜΕΝΑΜια νύχτα σε κατάστημα παιχνιδιώνΚΕΙΜΕΝΑ
Μια νύχτα σε κατάστημα παιχνιδιώνΚΕΙΜΕΝΑDimitra Mylonaki
 
5ο Κεφάλαιο - Το Λογισμικό του Υπολογιστή.pptx
5ο Κεφάλαιο - Το Λογισμικό του Υπολογιστή.pptx5ο Κεφάλαιο - Το Λογισμικό του Υπολογιστή.pptx
5ο Κεφάλαιο - Το Λογισμικό του Υπολογιστή.pptxAthina Tziaki
 
Επίσκεψη στο 10ο Γυμνάσιο Πάτρας
Επίσκεψη          στο 10ο Γυμνάσιο ΠάτραςΕπίσκεψη          στο 10ο Γυμνάσιο Πάτρας
Επίσκεψη στο 10ο Γυμνάσιο ΠάτραςDimitra Mylonaki
 
Πασχαλινές Λαμπάδες από ΣΤ τάξη του σχολείου μας.pptx
Πασχαλινές Λαμπάδες από ΣΤ τάξη του σχολείου μας.pptxΠασχαλινές Λαμπάδες από ΣΤ τάξη του σχολείου μας.pptx
Πασχαλινές Λαμπάδες από ΣΤ τάξη του σχολείου μας.pptx36dimperist
 
Μαθητικές καταλήψεις
Μαθητικές                                  καταλήψειςΜαθητικές                                  καταλήψεις
Μαθητικές καταλήψειςDimitra Mylonaki
 
Γιορτή της μητέρας-Φύλλα εργασιών για όλες τις τάξεις
Γιορτή της μητέρας-Φύλλα εργασιών για όλες τις τάξειςΓιορτή της μητέρας-Φύλλα εργασιών για όλες τις τάξεις
Γιορτή της μητέρας-Φύλλα εργασιών για όλες τις τάξειςΟΛΓΑ ΤΣΕΧΕΛΙΔΟΥ
 

Kürzlich hochgeladen (20)

9.SPSS και δείκτες περιγραφικής στατιστικής.pdf
9.SPSS και δείκτες περιγραφικής στατιστικής.pdf9.SPSS και δείκτες περιγραφικής στατιστικής.pdf
9.SPSS και δείκτες περιγραφικής στατιστικής.pdf
 
Επίσκεψη στο 12ο Γυμνάσιο Πάτρας
Επίσκεψη          στο 12ο Γυμνάσιο ΠάτραςΕπίσκεψη          στο 12ο Γυμνάσιο Πάτρας
Επίσκεψη στο 12ο Γυμνάσιο Πάτρας
 
ΙΣΤΟΡΙΑ Α' ΓΥΜΝΑΣΙΟΥ : ΕΠΑΝΑΛΗΠΤΙΚΕΣ ΑΣΚΗΣΕΙΣ ΜΕΡΟΣ 2ο
ΙΣΤΟΡΙΑ Α' ΓΥΜΝΑΣΙΟΥ : ΕΠΑΝΑΛΗΠΤΙΚΕΣ ΑΣΚΗΣΕΙΣ ΜΕΡΟΣ 2οΙΣΤΟΡΙΑ Α' ΓΥΜΝΑΣΙΟΥ : ΕΠΑΝΑΛΗΠΤΙΚΕΣ ΑΣΚΗΣΕΙΣ ΜΕΡΟΣ 2ο
ΙΣΤΟΡΙΑ Α' ΓΥΜΝΑΣΙΟΥ : ΕΠΑΝΑΛΗΠΤΙΚΕΣ ΑΣΚΗΣΕΙΣ ΜΕΡΟΣ 2ο
 
Η Κινέζικη Αστρολογία - Ημερολόγιο - Ζώδια.docx
Η Κινέζικη Αστρολογία - Ημερολόγιο - Ζώδια.docxΗ Κινέζικη Αστρολογία - Ημερολόγιο - Ζώδια.docx
Η Κινέζικη Αστρολογία - Ημερολόγιο - Ζώδια.docx
 
2η Διεθνική Συνάντηση μαθητών και καθηγητών στο Σαλέρνο της Ιταλίας
2η Διεθνική Συνάντηση μαθητών και καθηγητών στο Σαλέρνο της Ιταλίας2η Διεθνική Συνάντηση μαθητών και καθηγητών στο Σαλέρνο της Ιταλίας
2η Διεθνική Συνάντηση μαθητών και καθηγητών στο Σαλέρνο της Ιταλίας
 
EKSETASTEA KAI DIDAKTEA YLH G TAKSHS GENIKOY LYKEIOY
EKSETASTEA KAI DIDAKTEA YLH G TAKSHS GENIKOY LYKEIOYEKSETASTEA KAI DIDAKTEA YLH G TAKSHS GENIKOY LYKEIOY
EKSETASTEA KAI DIDAKTEA YLH G TAKSHS GENIKOY LYKEIOY
 
Πασχαλινές λαμπάδες από τη Δ΄ τάξη του σχολείου μας.pptx
Πασχαλινές λαμπάδες από τη Δ΄ τάξη του σχολείου μας.pptxΠασχαλινές λαμπάδες από τη Δ΄ τάξη του σχολείου μας.pptx
Πασχαλινές λαμπάδες από τη Δ΄ τάξη του σχολείου μας.pptx
 
Πασχαλινά αυγά από τη Β΄ τάξη του σχολείου μας.pptx
Πασχαλινά αυγά από τη Β΄ τάξη του σχολείου μας.pptxΠασχαλινά αυγά από τη Β΄ τάξη του σχολείου μας.pptx
Πασχαλινά αυγά από τη Β΄ τάξη του σχολείου μας.pptx
 
Σουρεαλιστικά ταξίδια μέσα από την τέχνη
Σουρεαλιστικά ταξίδια μέσα από την τέχνηΣουρεαλιστικά ταξίδια μέσα από την τέχνη
Σουρεαλιστικά ταξίδια μέσα από την τέχνη
 
Μαθητικά συμβούλια .
Μαθητικά συμβούλια                                  .Μαθητικά συμβούλια                                  .
Μαθητικά συμβούλια .
 
Επίσκεψη στο 11ο Γυμνάσιο Πάτρας
Επίσκεψη              στο 11ο Γυμνάσιο ΠάτραςΕπίσκεψη              στο 11ο Γυμνάσιο Πάτρας
Επίσκεψη στο 11ο Γυμνάσιο Πάτρας
 
Μια νύχτα σε κατάστημα παιχνιδιώνΚΕΙΜΕΝΑ
Μια νύχτα σε κατάστημα παιχνιδιώνΚΕΙΜΕΝΑΜια νύχτα σε κατάστημα παιχνιδιώνΚΕΙΜΕΝΑ
Μια νύχτα σε κατάστημα παιχνιδιώνΚΕΙΜΕΝΑ
 
5ο Κεφάλαιο - Το Λογισμικό του Υπολογιστή.pptx
5ο Κεφάλαιο - Το Λογισμικό του Υπολογιστή.pptx5ο Κεφάλαιο - Το Λογισμικό του Υπολογιστή.pptx
5ο Κεφάλαιο - Το Λογισμικό του Υπολογιστή.pptx
 
Επίσκεψη στο 10ο Γυμνάσιο Πάτρας
Επίσκεψη          στο 10ο Γυμνάσιο ΠάτραςΕπίσκεψη          στο 10ο Γυμνάσιο Πάτρας
Επίσκεψη στο 10ο Γυμνάσιο Πάτρας
 
Πασχαλινές Λαμπάδες από ΣΤ τάξη του σχολείου μας.pptx
Πασχαλινές Λαμπάδες από ΣΤ τάξη του σχολείου μας.pptxΠασχαλινές Λαμπάδες από ΣΤ τάξη του σχολείου μας.pptx
Πασχαλινές Λαμπάδες από ΣΤ τάξη του σχολείου μας.pptx
 
Σεβασμός .
Σεβασμός                                   .Σεβασμός                                   .
Σεβασμός .
 
Μαθητικές καταλήψεις
Μαθητικές                                  καταλήψειςΜαθητικές                                  καταλήψεις
Μαθητικές καταλήψεις
 
Γιορτή της μητέρας-Φύλλα εργασιών για όλες τις τάξεις
Γιορτή της μητέρας-Φύλλα εργασιών για όλες τις τάξειςΓιορτή της μητέρας-Φύλλα εργασιών για όλες τις τάξεις
Γιορτή της μητέρας-Φύλλα εργασιών για όλες τις τάξεις
 
ΙΣΤΟΡΙΑ Γ΄ ΓΥΜΝΑΣΙΟΥ : ΕΠΑΝΑΛΗΨΗ 2024
ΙΣΤΟΡΙΑ Γ΄ ΓΥΜΝΑΣΙΟΥ : ΕΠΑΝΑΛΗΨΗ 2024ΙΣΤΟΡΙΑ Γ΄ ΓΥΜΝΑΣΙΟΥ : ΕΠΑΝΑΛΗΨΗ 2024
ΙΣΤΟΡΙΑ Γ΄ ΓΥΜΝΑΣΙΟΥ : ΕΠΑΝΑΛΗΨΗ 2024
 
ΙΣΤΟΡΙΑ Α΄ΓΥΜΝΑΣΙΟΥ : ΕΠΑΝΑΛΗΨΗ 2024
ΙΣΤΟΡΙΑ Α΄ΓΥΜΝΑΣΙΟΥ  : ΕΠΑΝΑΛΗΨΗ 2024ΙΣΤΟΡΙΑ Α΄ΓΥΜΝΑΣΙΟΥ  : ΕΠΑΝΑΛΗΨΗ 2024
ΙΣΤΟΡΙΑ Α΄ΓΥΜΝΑΣΙΟΥ : ΕΠΑΝΑΛΗΨΗ 2024
 

Βασίλειος Χούτας

  • 1. ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εργαστήριο Επεξεργασίας Πληροφορίας και Υπολογισμών Ανάπτυξη Αυτόνομων Πρακτόρων με χρήση Προσαρμοστικών Μηχανισμών Εστίασης και Βαθέων Νευρωνικών Δικτύων Διπλωματική Εργασία Επιβλέποντες: Χούτας Βασίλειος Καθ. Περικλής Α. Μήτκας Α.Ε.Μ.: 7800 Δρ. Κυριάκος Χατζηδημητρίου Θεσσαλονίκη, 29 Ιουνίου 2017
  • 2. Πίνακας Περιεχομένων 1. Εισαγωγή 2. Μεθοδολογία 3. Αποτελέσματα 4. Συμπεράσματα Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 2 / 30
  • 3. Deep RL Σχήμα: Deeq Q-Learning Network1, πηγή: https://www.nature.com/ 1. Mnih, Kavukcuoglu, Silver, Rusu, Veness, Bellemare, Graves, Riedmiller, Fidjeland, Ostrovski, Petersen, Beattie, Sadik, Antonoglou, King, Kumaran, Wierstra, Legg, and Hassabis, «Human-level control through deep reinforcement learning», 2015 Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 3 / 30
  • 4. Attention Models lt-1 gt Glimpse Sensor xt ρ(xt , lt-1) θg 0 θg 1 θg 2 Glimpse Network : fg( θg ) lt-1 gt ltat lt gt+1 lt+1at+1 ht ht+1 fg(θg) ht-1 fl(θl)fa(θa) fh(θh) fg(θg) fl(θl)fa(θa) fh(θh) xt ρ(xt , lt-1)lt-1 Glimpse Sensor A) B) C) (αʹ) Ταξινόμηση Εικόνων με Μηχανισμό Εστίασης1 Σχήμα: Μοντέλο Αυστηρής Εστίασης (αʹ) Αναγνώριση Δραστηριοτήτων2 Σχήμα: Μοντέλο Ελαστικής Εστίασης 1. Mnih, Heess, Graves, and Kavukcuoglu, «Recurrent Models of Visual Attention», 2014 2. Sharma, Kiros, and Salakhutdinov, «Action Recognition using Visual Attention», 2015 Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 4 / 30
  • 5. Στόχος της Διπλωματικής • Συνδυασμός Μηχανισμών Εστίασης με Αλγορίθμους Βαθιάς Ενισχυτικής Μάθησης. Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 5 / 30
  • 6. Στόχος της Διπλωματικής • Συνδυασμός Μηχανισμών Εστίασης με Αλγορίθμους Βαθιάς Ενισχυτικής Μάθησης. • Διερεύνηση μεθόδων για δυναμική επιλογή του αριθμού των βλεμμάτων. Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 5 / 30
  • 7. Στόχος της Διπλωματικής • Συνδυασμός Μηχανισμών Εστίασης με Αλγορίθμους Βαθιάς Ενισχυτικής Μάθησης. • Διερεύνηση μεθόδων για δυναμική επιλογή του αριθμού των βλεμμάτων. • Σύγκριση του πράκτορα που προκύπτει με state-of-the-art αλγορίθμους Ενισχυτικής Μάθησης. Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 5 / 30
  • 8. 1. Εισαγωγή 2. Μεθοδολογία 2.1 Ενισχυτική Μάθηση 2.2 Αρχιτεκτονική Δικτύου 2.3 Μηχανισμός Εστίασης 2.4 Δυναμική Επιλογή Αριθμού Βημάτων 3. Αποτελέσματα 4. Συμπεράσματα
  • 9. Πρόβλημα Ενισχυτικής Μάθησης Σχήμα: Το πρόβλημα της Ενισχυτικής Μάθησης Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 6 / 30
  • 10. Εκμάθηση Πολιτικής Στόχος του Πράκτορα Μεγιστοποίηση της προσδοκώμενης ανταμοιβής: max πθ E [R|πθ] Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 7 / 30
  • 11. Εκμάθηση Πολιτικής Στόχος του Πράκτορα Μεγιστοποίηση της προσδοκώμενης ανταμοιβής: max πθ E [R|πθ] Θεώρημα Κλίσης Πολιτικής Αποδεικνύεται1 ότι: ∇θE [R(τ)] = [T−1∑ t′=0 ∇θ log π (αt′ |st′ ; θ) T−1∑ t=t′ rt ] 1. Sutton, McAllester, Singh, Mansour, et al., «Policy gradient methods for reinforcement learning with function approximation», 1999. Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 7 / 30
  • 12. Ασύγχρονος Δράστης με Κριτή Σχήμα: Asynchronous Advantage Actor-Critic1 (A3C) 1. Mnih, Badia, Mirza, Graves, Lillicrap, Harley, Silver, and Kavukcuoglu, «Asynchronous Methods for Deep Reinforcement Learning», 2016. Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 8 / 30
  • 13. 1. Εισαγωγή 2. Μεθοδολογία 2.1 Ενισχυτική Μάθηση 2.2 Αρχιτεκτονική Δικτύου 2.3 Μηχανισμός Εστίασης 2.4 Δυναμική Επιλογή Αριθμού Βημάτων 3. Αποτελέσματα 4. Συμπεράσματα
  • 14. Δομή Νευρωνικού Δικτύου Σχήμα: Νευρωνικό Δίκτυο Πολιτικής Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 9 / 30
  • 15. Προσθήκη Νευρωνικού Δικτύου Ανάδρασης Σχήμα: Νευρωνικό Δίκτυο Ανάδρασης Πολιτικής Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 10 / 30
  • 16. 1. Εισαγωγή 2. Μεθοδολογία 2.1 Ενισχυτική Μάθηση 2.2 Αρχιτεκτονική Δικτύου 2.3 Μηχανισμός Εστίασης 2.4 Δυναμική Επιλογή Αριθμού Βημάτων 3. Αποτελέσματα 4. Συμπεράσματα
  • 17. Δομή Μηχανισμού Εστίασης Σχήμα: Υπολογισμός Εξόδου Μηχανισμού Εστίασης Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 11 / 30
  • 18. Δίκτυο Χωρικών Μετασχηματισμών Αρχιτεκτονική Grid Generator Localisation Net Sampler Spatial Transformer U V Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 12 / 30
  • 19. Δίκτυο Χωρικών Μετασχηματισμών Αρχιτεκτονική Grid Generator Localisation Net Sampler Spatial Transformer U V Υπολογισμός Εξόδου μέσω Δειγματοληψίας U V (αʹ) Ταυτοτικός Μετασχηματισμός U V (βʹ) Αφινικός Μετασχηματισμός Vc i = H∑ n W∑ m Uc nm· max (0, 1 − |xs i − m|) · max (0, 1 − |ys i − n|) Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 12 / 30
  • 20. Αρχιτεκτονική Μηχανισμού Εστίασης Σχήμα: Μηχανισμός Εστίασης Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 13 / 30
  • 21. 1. Εισαγωγή 2. Μεθοδολογία 2.1 Ενισχυτική Μάθηση 2.2 Αρχιτεκτονική Δικτύου 2.3 Μηχανισμός Εστίασης 2.4 Δυναμική Επιλογή Αριθμού Βημάτων 3. Αποτελέσματα 4. Συμπεράσματα
  • 22. Με ενισχυτική Μάθηση Ενέργειες Παύσης • pΠαύση = σ(Wh ⃗ht + bh) • pΣυνέχεια = 1 − pΠαύση • σ(x) = 1 1+e−x Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 14 / 30
  • 23. Με ενισχυτική Μάθηση Ενέργειες Παύσης • pΠαύση = σ(Wh ⃗ht + bh) • pΣυνέχεια = 1 − pΠαύση • σ(x) = 1 1+e−x Συνάρτηση Ανταμοιβής για επιλογή βημάτων • r Εστίασης n = { 1 n = N 0 n < N • R = ∑N−1 n=0 γn Εστrn+1 = γN−1 Εστ rN Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 14 / 30
  • 24. Με ενισχυτική Μάθηση Ενέργειες Παύσης • pΠαύση = σ(Wh ⃗ht + bh) • pΣυνέχεια = 1 − pΠαύση • σ(x) = 1 1+e−x Συνάρτηση Ανταμοιβής για επιλογή βημάτων • r Εστίασης n = { 1 n = N 0 n < N • R = ∑N−1 n=0 γn Εστrn+1 = γN−1 Εστ rN Έξοδος Μηχανισμού Εστίασης ⃗y = ⃗hN(t) Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 14 / 30
  • 25. Μηχανισμός Προσαρμογής Υπολογιστικού Χρόνου Ενδιάμεσες Ποσότητες • sn t = { S(st−1, xn t ) , n = 1 S(sn−1 t , xn t ) , διαφορετικά • yn t = Wsysn t + by • xn t = xt + δn,1 = { xt , διαφορετικά xt + 1 , n = 1 1. Graves, «Adaptive Computation Time for Recurrent Neural Networks», 2016 Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 15 / 30
  • 26. Μηχανισμός Προσαρμογής Υπολογιστικού Χρόνου Ενδιάμεσες Ποσότητες • sn t = { S(st−1, xn t ) , n = 1 S(sn−1 t , xn t ) , διαφορετικά • yn t = Wsysn t + by • xn t = xt + δn,1 = { xt , διαφορετικά xt + 1 , n = 1 Μηχανισμός Παύσης • Μονάδα Παύσης (Halting Unit): hn t = σ(Wshsn t + bh) • Πιθανότητα Παύσης (Halting Probability): pn t = { R(t) n = N(t) hn t διαφορετικά • Υπόλοιπο (Remainder): R(t) = 1 − ∑N(t)−1 n=1 hn t • Αριθμός Βημάτων: N(t) = min { M, min { n′ : ∑n′ n=1 hn t ≥ 1 − ϵ }} 1. Graves, «Adaptive Computation Time for Recurrent Neural Networks», 2016 Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 15 / 30
  • 27. Μηχανισμός Προσαρμογής Υπολογιστικού Χρόνου (Συνέχεια) Έξοδος Προσαρμοστικού Μηχανισμού • Νέα Εσωτερική Κατάσταση ΝΔΑ: st = ∑N(t) n=1 pn t sn t • Επόμενη Έξοδος ΝΔΑ: yt = ∑N(t) n=1 pn t yn t 1. Graves, «Adaptive Computation Time for Recurrent Neural Networks», 2016 Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 16 / 30
  • 28. Μηχανισμός Προσαρμογής Υπολογιστικού Χρόνου (Συνέχεια) Έξοδος Προσαρμοστικού Μηχανισμού • Νέα Εσωτερική Κατάσταση ΝΔΑ: st = ∑N(t) n=1 pn t sn t • Επόμενη Έξοδος ΝΔΑ: yt = ∑N(t) n=1 pn t yn t Κόστος Διαδικασίας Επιλογής Αριθμού Βημάτων • Ακολουθία Συλλογισμού (Ponder Sequence) (ρ1, ρ2, . . . , ρT): ρt = N(t) + R(t) • Κόστος Συλλογισμού: τ · P (⃗x) = τ · ∑T t=1 ρt 1. Graves, «Adaptive Computation Time for Recurrent Neural Networks», 2016 Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 16 / 30
  • 29. 1. Εισαγωγή 2. Μεθοδολογία 3. Αποτελέσματα 3.1 Επιλογή Υπερ-Παραμέτρων 3.2 Pong 3.3 Breakout 4. Συμπεράσματα
  • 30. Περιγραφή Catch Σχήμα: Παράδειγμα παιχνιδιού Catch Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 17 / 30
  • 31. Τελικές Τιμές Υπέρ-Παραμέτρων Υπέρ-Παράμετροι Όνομα Παραμέτρου Τιμή Αριθμός Νημάτων A3C 16 Ρυθμός Μάθησης η = 10−4 Ρυθμός Μάθησης για δίκτυο με ΝΔΑ η = 8 · 10−5 Απόσβεση Ρυθμού Μάθησης Όχι Μέγιστος Αριθμός Ματιών 20 tmax 20 Αλγόριθμος Βελτιστοποίησης Adam Kingma και Ba, «Adam: A Method for Stochastic Optimization», 2014 Χρήση κοινών στατιστικών του αλγορίθμου βελτιστοποίησης μεταξύ των νημάτων. Ναι Ρυθμός μάθησης Δικτύου Χωρικών Μετασχηματισμών 10−3 · η Άνω φράγμα του μέτρου της κλίσης 10 Βάρος όρου Εντροπίας β = 10−2 Βάρος όρου Εντροπίας Μηχανισμού Επιλογής Αριθμού Βλεμμάτων με Ενισχυτική Μάθηση βglimpse = 10−2 Ρυθμός Έκπτωσης γ = 0.99 Βάρος συνάρτησης κανονικοποίησης πλέγματος Δικτύου Χωρικών Μετασχηματισμών λSTN Reg = 1.0 Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 18 / 30
  • 32. 1. Εισαγωγή 2. Μεθοδολογία 3. Αποτελέσματα 3.1 Επιλογή Υπερ-Παραμέτρων 3.2 Pong 3.3 Breakout 4. Συμπεράσματα
  • 33. Περιγραφή Παιχνιδιού Σχήμα: Στιγμιότυπα παιχνιδιού Pong Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 19 / 30
  • 34. Αποτελέσματα Εκπαίδευσης στο Pong Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 20 / 30
  • 35. Πίνακας Αποτελεσμάτων Αλγόριθμος Εκπαίδευσης Πολιτικής Είδος ΝΔΑ Είδος Μηχανισμού Δυναμικής Επιλογής Βλεμμάτων Μέγιστος Αριθμός Βλεμμάτων Μέγιστη Μέση Ανταμοιβή A3C-GAE Ρυθμός Μάθησης η = 10−4 IRNN Χωρίς Μηχανισμό Εστίασης - 20.976 A3C-GAE LSTM Μηχανισμός Προσαρμογής Υπολογιστικού Χρόνου σε ΝΔΑ Παράμετρος Ποινής Χρονικής Καθυστέρησης τ = 10−3 20 20.87 A3C-GAE LSTM Μηχανισμός Προσαρμογής Υπολογιστικού Χρόνου σε ΝΔΑ Παράμετρος Ποινής Χρονικής Καθυστέρησης τ = 10−4 8 20.46 A3C-GAE LSTM Μηχανισμός Ενισχυτικής Μάθησης 20 20.312 A3C-GAE LSTM Μηχανισμός Προσαρμογής Υπολογιστικού Χρόνου σε ΝΔΑ Παράμετρος Ποινής Χρονικής Καθυστέρησης τ = 10−7 20 18.79 A3C-GAE LSTM Μηχανισμός Ενισχυτικής Μάθησης 20 17.276 Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 21 / 30
  • 36. Πίνακας Αποτελεσμάτων (αʹ) Μοντέλο 1ης Γραμμής (βʹ) Μοντέλο 2ης Γραμμής (γʹ) Μοντέλο 3ης Γραμμής (δʹ) Μοντέλο 4ης Γραμμής (αʹ) Μοντέλο 5ης Γραμμής (βʹ) Μοντέλο 6ης Γραμμής Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 22 / 30
  • 37. 1. Εισαγωγή 2. Μεθοδολογία 3. Αποτελέσματα 3.1 Επιλογή Υπερ-Παραμέτρων 3.2 Pong 3.3 Breakout 4. Συμπεράσματα
  • 38. Περιγραφή Παιχνιδιού Σχήμα: Στιγμιότυπα παιχνιδιού Breakout Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 23 / 30
  • 39. Αποτελέσματα Εκπαίδευσης στο Breakout Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 24 / 30
  • 40. Πίνακας Αποτελεσμάτων I Αλγόριθμος Εκπαίδευσης Πολιτικής Είδος ΝΔΑ Είδος Μηχανισμού Δυναμικής Επιλογής Βλεμμάτων Μέγιστος Αριθμός Βλεμμάτων Μέγιστη Μέση Ανταμοιβή A3C-GAE Ρυθμός Μάθησης η = 10−4 IRNN Χωρίς Μηχανισμό Εστίασης - 564.87 A3C-GAE Ρυθμός Μάθησης η = 10−4 LSTM Χωρίς Μηχανισμό Εστίασης - 502.89 A3C-GAE LSTM Μηχανισμός Προσαρμογής Υπολογιστικού Χρόνου σε ΝΔΑ Παράμετρος Ποινής Χρονικής Καθυστέρησης τ = 10−3 20 294.1 A3C-GAE Ρυθμός Μάθησης η = 10−4 Αριθμός Νημάτων = 32 LSTM Μηχανισμός Ενισχυτικής Μάθησης 20 234.88 Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 25 / 30
  • 41. Πίνακας Αποτελεσμάτων II Αλγόριθμος Εκπαίδευσης Πολιτικής Είδος ΝΔΑ Είδος Μηχανισμού Δυναμικής Επιλογής Βλεμμάτων Μέγιστος Αριθμός Βλεμμάτων Μέγιστη Μέση Ανταμοιβή A3C-GAE LSTM Μηχανισμός Προσαρμογής Υπολογιστικού Χρόνου σε ΝΔΑ Παράμετρος Ποινής Χρονικής Καθυστέρησης τ = 10−7 20 88.33 A3C-GAE Αριθμός Νημάτων = 32 LSTM Μηχανισμός Προσαρμογής Υπολογιστικού Χρόνου σε ΝΔΑ Παράμετρος Ποινής Χρονικής Καθυστέρησης τ = 10−7 20 72.032 A3C-GAE LSTM Μηχανισμός Προσαρμογής Υπολογιστικού Χρόνου σε ΝΔΑ Παράμετρος Ποινής Χρονικής Καθυστέρησης τ = 10−7 20 66.418 A3C-GAE Ρυθμός Μάθησης η = 5 · 10−5 LSTM Μηχανισμός Ενισχυτικής Μάθησης 20 65.808 A3C-GAE Ρυθμός Μάθησης η = 5 · 10−5 Αριθμός Νημάτων = 32 LSTM Μηχανισμός Ενισχυτικής Μάθησης 20 49.234 Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 26 / 30
  • 42. 1. Εισαγωγή 2. Μεθοδολογία 3. Αποτελέσματα 4. Συμπεράσματα 4.1 Σύνοψη 4.2 Μελλοντικές Επεκτάσεις 4.3 Demo
  • 43. Σύνοψη • Ανάπτυξη διαφορίσιμου δυναμικού μηχανισμού εστίασης. • Αποφασίζει πού θα στρέψει την προσοχή του ο πράκτορας. • Επιλέγει πότε θα σταματήσει να λαμβάνει παρατηρήσεις. Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 27 / 30
  • 44. Σύνοψη • Ανάπτυξη διαφορίσιμου δυναμικού μηχανισμού εστίασης. • Αποφασίζει πού θα στρέψει την προσοχή του ο πράκτορας. • Επιλέγει πότε θα σταματήσει να λαμβάνει παρατηρήσεις. • Αξιολογούμε τον πράκτορα που σχεδιάσαμε σε ένα υποσύνολο των παιχνιδιών Atari 2600. • Εμφανίζει ανταγωνιστική συμπεριφορά. • Ωστόσο απαιτείται περαιτέρω βελτίωση για την επίτευξη της μέγιστης δυνατής απόδοσης. Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 27 / 30
  • 45. 1. Εισαγωγή 2. Μεθοδολογία 3. Αποτελέσματα 4. Συμπεράσματα 4.1 Σύνοψη 4.2 Μελλοντικές Επεκτάσεις 4.3 Demo
  • 46. Μελλοντικές Επεκτάσεις • Βελτίωση Αρχιτεκτονικής. • Bidirectional RNN. • Διαφορετικές συναρτήσεις ενεργοποίησης και τεχνικές κανονικοποίησης. Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 28 / 30
  • 47. Μελλοντικές Επεκτάσεις • Βελτίωση Αρχιτεκτονικής. • Bidirectional RNN. • Διαφορετικές συναρτήσεις ενεργοποίησης και τεχνικές κανονικοποίησης. • Μεταβολή της διαδικασίας εκπαίδευσης. • Χρήση πιο αποτελεσματικών αλγορίθμων κλίσης πολιτικής. • Off-Policy training για τον αλγόριθμο επιλογής αριθμού ματιών. Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 28 / 30
  • 48. Μελλοντικές Επεκτάσεις • Βελτίωση Αρχιτεκτονικής. • Bidirectional RNN. • Διαφορετικές συναρτήσεις ενεργοποίησης και τεχνικές κανονικοποίησης. • Μεταβολή της διαδικασίας εκπαίδευσης. • Χρήση πιο αποτελεσματικών αλγορίθμων κλίσης πολιτικής. • Off-Policy training για τον αλγόριθμο επιλογής αριθμού ματιών. • Προσθήκη δευτερευόντων στόχων μάθησης. • Πρόβλεψη μελλοντικών καταστάσεων, αμοιβών, κλπ. Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 28 / 30
  • 49. Μελλοντικές Επεκτάσεις • Βελτίωση Αρχιτεκτονικής. • Bidirectional RNN. • Διαφορετικές συναρτήσεις ενεργοποίησης και τεχνικές κανονικοποίησης. • Μεταβολή της διαδικασίας εκπαίδευσης. • Χρήση πιο αποτελεσματικών αλγορίθμων κλίσης πολιτικής. • Off-Policy training για τον αλγόριθμο επιλογής αριθμού ματιών. • Προσθήκη δευτερευόντων στόχων μάθησης. • Πρόβλεψη μελλοντικών καταστάσεων, αμοιβών, κλπ. • Εφαρμογή σε νέα περιβάλλοντα. Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 28 / 30
  • 50. 1. Εισαγωγή 2. Μεθοδολογία 3. Αποτελέσματα 4. Συμπεράσματα 4.1 Σύνοψη 4.2 Μελλοντικές Επεκτάσεις 4.3 Demo
  • 51. Demo (αʹ) Μηχανισμός Επιλογής βημάτων με Ενισχυτική Μάθηση (βʹ) Μηχανισμός Προσαρμογής Υπολογιστικού Χρόνου σε ΝΔΑ Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 29 / 30
  • 52. Σας ευχαριστώ για την προσοχή σας! Ερωτήσεις; Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 30 / 30
  • 53. Κλίση Πολιτικής (Συνέχεια) Συνάρτηση Βάσης ∇θEτ [R(τ)] = Eτ [T−1∑ t=0 ∇θ log π (αt|st; θ) (T−1∑ t′=t rt′ − b(st) )] Για παράδειγμα: • b (st) = E [rt + rt+1 + rt+2 + · · · + rT−1] ≈ 1 m ∑m i=1 R(τi) Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 30 / 30
  • 54. Κλίση Πολιτικής (Συνέχεια) Συνάρτηση Βάσης ∇θEτ [R(τ)] = Eτ [T−1∑ t=0 ∇θ log π (αt|st; θ) (T−1∑ t′=t rt′ − b(st) )] Για παράδειγμα: • b (st) = E [rt + rt+1 + rt+2 + · · · + rT−1] ≈ 1 m ∑m i=1 R(τi) Αλγόριθμοι Δράστη-Κριτή (Actor-Critic) ∇θEτ [R(τ)] = Eτ [T−1∑ t=0 ∇θ log π (αt|st; θ)Qπ (st, at) ] = Eτ [T−1∑ t=0 ∇θ log π (αt|st; θ)Aπ (st, at) ] Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 30 / 30
  • 55. Κλίση Πολιτικής (Συνέχεια) Εκτίμηση Γενικευμένου Πλεονεκτήματος ˆA GAE(γ,λ) t = ∞∑ l=0 (γλ) δV t+l • δt = rt + γV(st+1) − V(st) • λ, γ παράμετροι που ελέγχουν πόλωση, διασπορά. • Επιλέγουμε: ˆAt = ∑∞ l=0 γlδV t+l = ∑∞ l=0 γlrt+l − V(st) Schulman, Moritz, Levine, Jordan, and Abbeel, «High-Dimensional Continuous Control Using Generalized Advantage Estimation», 2015 Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 30 / 30
  • 56. Κλίση Πολιτικής (Συνέχεια) Εκτίμηση Γενικευμένου Πλεονεκτήματος ˆA GAE(γ,λ) t = ∞∑ l=0 (γλ) δV t+l • δt = rt + γV(st+1) − V(st) • λ, γ παράμετροι που ελέγχουν πόλωση, διασπορά. • Επιλέγουμε: ˆAt = ∑∞ l=0 γlδV t+l = ∑∞ l=0 γlrt+l − V(st) Schulman, Moritz, Levine, Jordan, and Abbeel, «High-Dimensional Continuous Control Using Generalized Advantage Estimation», 2015 Καλύτερη Εξερεύνηση ∇θEτ [R(τ)] = Eτ [T−1∑ t=0 ∇θ log π (αt|st; θ)Aπ (st, at) + β∇θH(π (αt|st; θ)) ] Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 30 / 30
  • 57. Περιγραφή ΝΔΑ IRNN: Identity RNN ⃗ht = max(0, Wx⃗xt + Wh ⃗ht−1 + b) Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 30 / 30
  • 58. Περιγραφή ΝΔΑ IRNN: Identity RNN ⃗ht = max(0, Wx⃗xt + Wh ⃗ht−1 + b) LSTM: Long Short-Term Memory ⃗it = σ(Wxi ⃗xt + Whi ⃗ht−1 +⃗bi) ⃗ft = σ(Wxf ⃗xt + Whf ⃗ht−1 +⃗bf) ⃗ot = σ(Wxo ⃗xt + Who ⃗ht−1 +⃗bo) ⃗gt = tanh(Wxg ⃗xt + Whg ⃗ht−1 +⃗bg) ⃗ct =⃗ft ⊙⃗ct−1 +⃗it ⊙⃗gt ⃗ht = ⃗ot ⊙ tanh(⃗ct) Hochreiter and Schmidhuber, Long Short-term Memory, 1997 Σχήμα: Δίκτυο Μακράς Βραχέας Μνήμης Πηγή: Chris Olah’s Blog: Understanding LSTM Networks http://colah.github.io/posts/ 2015-08-Understanding-LSTMs/ Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 30 / 30
  • 59. Πιθανές Τιμές Υπέρ-Παραμέτρων Υπέρ-Παράμετροι Όνομα Παραμέτρου Τιμή Ρυθμός Μάθησης η = [ 10−5, 10−4 ] με βήμα 10−5 Μέγιστος Αριθμός Ματιών {5, 10, 15, 20} tmax {5, 10, 20, 32} Αλγόριθμος Βελτιστοποίησης Adam Kingma και Ba, «Adam: A Method for Stochastic Optimization», 2014 RMSProp Tieleman και Hinton, Lecture 6.5—RmsProp: Divide the gradient by a running average of its recent magnitude, 2012 Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 30 / 30
  • 60. Πιθανές Τιμές Υπέρ-Παραμέτρων II Υπέρ-Παράμετροι Ρυθμός μάθησης Δικτύου Χωρικών Μετασχηματισμών { 10−3, 10−2, 10−1, 1 } · η Άνω φράγμα του μέτρου της κλίσης {5, 10} Βάρος όρου Εντροπίας β = { 10−2, 10−1, 1 } Βάρος όρου Εντροπίας Μηχανισμού Επιλογής Αριθμού Βλεμμάτων με Ενισχυτική Μάθηση βglimpse = 10−2 Βάρος συνάρτησης κανονικοποίησης πλέγματος Δικτύου Χωρικών Μετασχηματισμών λSTN Reg = { 10−7, 10−6, 10−5, 10−4, 10−3, 10−2, 10−1, 1.0 } Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 30 / 30
  • 61. [1] Εξισώσεις Adam • mt = β1mt + (1 − β1) gt • υt = β2υt−1 + (1 − β2) g2 t • ˆmt = mt 1−(β1)t • ˆυt = υt 1−(β2)t • θt+1 = θt − η ˆmt√ ˆυt+ϵ Χούτας Βασίλειος (ΤΗΜΜΥ ΑΠΘ) DRL Attention 29 Ιουνίου 2017 30 / 30