Artificial intelligence is one of the most important areas in recent years, as the development of reinforcement learning, heavily influenced by human nature and psychology, bridges the gap between technology and humans. It overcomes the problem of data acquisition by almost completely eliminating the need for data. Reinforcement learning involves training a model to find an optimal solution to a problem, making decisions independently and interacting with the environment. Through rewards, it learns to judge which actions to take to achieve its goal. Traffic congestion is increasing worldwide and the problem needs to be addressed. In a dynamically changing and interconnected transport environment, current traffic regulations are not adaptable. An intelligent transport system is needed to improve the efficiency of the road network of smart cities. The present Diploma Thesis proposes a system for calculating the timing of traffic lights in order to minimize the waiting time of vehicles. Each traffic light at an intersection is trained to learn to change its phase according to traffic. The proposed road system has a flexible structure that is modified by adding more intersections to the original structure of the simple intersection. Q-learning is an RL algorithm used to select the next optimal signal action in a given state. It works by sequentially improving the rewards for the state-action pairs, which are stored in a Q-table as traffic light information. The tool SUMO was used to simulate the road networks. The models were trained and studied in the environments of road networks with N intersections, where N = 1,2,4,6, and the traffic lights of each intersection were trained to reduce traffic. The results of the training are compared with the responses of the current traffic management models. In addition, Q-tables of simple structures (N = 1,2) are applied to the most complex networks to assess the correspondence of systems with the experience of simple structures. According to the results of the training of the models and the experiments, all models responded efficiently to a variety of traffic situations, although the training time increases with complexity. An optimal model requires more training time than a simply good model, so there is a trade-off between training time and optimal response that every researcher should consider.
ΣΧΕΔΙΑΣΗ ΚΑΙ ΑΝΑΠΤΥΞΗ ΜΗΧΑΝΙΣΜΟΥ ΑΥΤΟΜΑΤΟΠΟΙΗΣΗΣ ΤΗΣ ΑΝΑΠΤΥΞΗΣ ΓΡΑΦΙΚΩΝ ΕΝΤΟΛ...
Optimization of traffic lights timing using Reinforcement learning to minimize car queueing time
1. 1
Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική
μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων
Ιούνιος 2022
Υπολογισμός χρονισμού φωτεινών σηματοδοτών με
Ενισχυτική μάθηση προς ελαχιστοποίηση του χρόνου
αναμονής των οχημάτων
Εκπόνηση:
Ιατροπούλου Ζαφειρία
ΑΕΜ: 9332
Επιβλέποντες:
Ανδρέας Συμεωνίδης
Αν. Καθηγητής ΑΠΘ
Εμμανουήλ Τσαρδούλιας
Μεταδιδακτορικός ερευνητής
2. 2
Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική
μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων
Ιούνιος 2022
ΕΙΣΑΓΩΓΗ
01
02
06
04
05
03
ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ
ΠΕΙΡΑΜΑΤΑ &
ΑΠΟΤΕΛΕΣΜΑΤΑ
ΣΥΜΠΕΡΑΣΜΑΤΑ &
ΜΕΛΛΟΝΤΙΚΕΣ ΕΠΕΚΤΑΣΕΙΣ
ΑΠΛΗ ΔΙΑΣΤΑΥΡΩΣΗ
ΠΟΛΛΑΠΛΕΣ ΔΙΑΣΤΑΥΡΩΣΕΙΣ
3. 3
Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική
μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων
Ιούνιος 2022
Περιγραφή Προβλήματος
● Στατικοί χρονισμοί φαναριών Μη ισορροπημένη διέλευση οχημάτων
● Μεγάλος όγκος οχημάτων κυρίως σε διασταυρώσεις
● Αρκετή αναμονή επιβατών - Μη παραγωγικός χρόνος
● Αγανάκτηση οδηγών Παραβίαση σημάτων κυκλοφορίας Ατυχήματα
● Πρόβλημα αναμονής σε απομακρυσμένες περιοχές χωρίς κίνηση
4. 4
Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική
μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων
Ιούνιος 2022
Σκοπός της διπλωματικής
Τεχνική Ενισχυτικής
Μάθησης
Εκπαίδευση Αλγορίθμου
Q-Learning
Περιβάλλον Απλής
Διασταύρωσης
Περιβάλλον Πολλαπλών
Διασταυρώσεων
Έξυπνοι Φωτεινοί
Σηματοδότες
Μείωση Χρόνου
Αναμονής
5. 5
Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική
μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων
Ιούνιος 2022
ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ 02
01
06
04
05
03
ΕΙΣΑΓΩΓΗ
ΠΕΙΡΑΜΑΤΑ &
ΑΠΟΤΕΛΕΣΜΑΤΑ
ΣΥΜΠΕΡΑΣΜΑΤΑ &
ΜΕΛΛΟΝΤΙΚΕΣ ΕΠΕΚΤΑΣΕΙΣ
ΑΠΛΗ ΔΙΑΣΤΑΥΡΩΣΗ
ΠΟΛΛΑΠΛΕΣ ΔΙΑΣΤΑΥΡΩΣΕΙΣ
6. 6
Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική
μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων
Ιούνιος 2022
Ενισχυτική Μάθηση - Reinforcement Learning
Βασική Διαδικασία Μάθησης
Βασική Ορολογία Ενισχυτικής Μάθησης
❏ Πράκτορας - Agent : οντότητα που εξερευνά το περιβάλλον και ενεργεί σε αυτό
❏ Ενέργεια - Action : δυνατές κινήσεις που μπορεί να λάβει ο πράκτορας
❏ Περιβάλλον - Environment : ο χώρος που περιβάλλει τον πράκτορα
❏ Κατάσταση - State : κατάσταση που επιστρέφει το περιβάλλον στον πράκτορα σε κάθε βήμα
❏ Ανταμοιβή - Reward : αξιολόγηση του πράκτορα για την απόφαση που έλαβε
3 Παράμετροι Προβλημάτων RL
❏ Policy : δημιουργεί ζεύγη κατάστασης - ενέργειας
και καθορίζει τη συμπεριφορά του πράκτορα
❏ Q-Value : αντιστοιχεί ζεύγη κατάστασης-δράσης
σε τιμές, καθορίζει πόσο καλό είναι ένα ζεύγος
❏ Discount Factor - γ ε [0, 1] : ορίζει τη σημασία
των μελλοντικών ανταμοιβών
Bellman Equation
Προβλήματα RL
Μαρκοβιανή Διαδικασία
Αποφάσεων
Q(s, a) = E [Rt+1 + γ max Q(s´, a´)]
α’
Διατύπωση εξίσωσης στη μορφή Q-Value
7. 7
Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική
μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων
Ιούνιος 2022
Αλγόριθμος Q - Learning
Δύο κύρια στοιχεία για την εξεύρεση σωστών ενεργειών σε δεδομένη
κατάσταση:
❖ Q - Table : πίνακας που περιέχει τα Q-Value. Οι γραμμές αποτελούν
συγκεκριμένες καταστάσεις του περιβάλλοντος και οι στήλες αναφέρονται στις
επιτρεπτές ενέργειες.
❖ Q - Function : Υπολογίζει τις τιμές Q για το πρόβλημα απόφασης του πράκτορα
σε συγκεκριμένες καταστάσεις. Το Q αντιπροσωπεύει την ποιότητα των
ενεργειών.
Χρησιμοποιεί την εξίσωση Bellman και τον κανόνα Temporal Difference για
την ανανέωση των τιμών Q :
Επιλογή ενέργειας
Υπολογισμός Ανταμοιβής
Ανανέωση Q-Table
Εκτέλεση της ενέργειας
Αρχικοποίηση Q-Table
Διάγραμμα Ροής Λειτουργίας της Μεθόδου
Q (s, a) = (1 − α) Q(s, a) + α(R + γmax Q(s´, a´)
new
a´
learned value
old value
α : ρυθμός εκμάθησης
8. 8
Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική
μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων
Ιούνιος 2022
Πολιτική Epsilon Greedy
Πολιτική που καθορίζει την ενέργεια που θα λάβει ο πράκτορας !
Συμβιβασμόςμεταξύ Εξερεύνησης - Εκμετάλλευσης ( Exploration - Exploitation )
● Exploration : εξερεύνηση του περιβάλλοντος επιλέγοντας τυχαία ενέργεια
● Exploitation : εκμετάλλευση της υπάρχουσας γνώσης από τον πίνακα Q
Εξερεύνηση Εκμετάλλευση
Καλύτερη γνωστή
Ενέργεια
Επιλογή τυχαίας
Ενέργειας
ε 1 - ε
Χρονικό Βήμα
Ξεκινά εξερευνώντας το περιβάλλον και μετά από κάποιες επαναλήψεις
εκμεταλλεύεται περισσότερο τις γνώσεις του.
Παράμετροι Πολιτικής
ε : πιθανότητα εξερεύνησης, αρχικά ίση με 1 και φθίνει κατά την εκπαίδευση μέχρι την
ελάχιστη τιμή εmin
εmin : ελάχιστη τιμή της μεταβλητής ε
decay : σταθερή τιμή κοντά στη μονάδα που μειώνει το ε
9. 9
Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική
μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων
Ιούνιος 2022
ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ 02
01
06
04
05
03
ΕΙΣΑΓΩΓΗ
ΠΕΙΡΑΜΑΤΑ &
ΑΠΟΤΕΛΕΣΜΑΤΑ
ΣΥΜΠΕΡΑΣΜΑΤΑ &
ΜΕΛΛΟΝΤΙΚΕΣ ΕΠΕΚΤΑΣΕΙΣ
ΑΠΛΗ ΔΙΑΣΤΑΥΡΩΣΗ
ΠΟΛΛΑΠΛΕΣ ΔΙΑΣΤΑΥΡΩΣΕΙΣ
10. 10
Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική
μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων
Ιούνιος 2022
Οδικό Δίκτυο Απλής Διασταύρωσης
1. Περιβάλλον Εκπαίδευσης
Simulation of Urban MObility - Εργαλείο SUMO
● Δημιουργία των οδικών δικτύων
● Ανάπτυξη διαδρομών για τα οχήματα
● Ορισμός φωτεινών σηματοδοτών
● Προσομοίωση της εκπαίδευσης σε γραφικό περιβάλλον
Βιβλιοθήκη Traci
● Διεπαφή μεταξύ της προσομοίωσης στο SUMO και της Python
● Πρόσβαση στην προσομοίωση και ανάκτηση τιμών αντικειμένων
της κατά την εκτέλεση
11. 11
Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική
μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων
Ιούνιος 2022
Βασικοί Όροι της Τεχνικής RL
1. Πράκτορας - Agent : ο σηματοδότης κάθε διασταύρωσης εκπαιδεύεται ώστε να ενεργεί σωστά
1. Χώρος Καταστάσεων : ένα σύνολο με 4 τιμές που αντιπροσωπεύουν την πυκνότητα οχημάτων
στις λωρίδες. Οι τιμές είναι ακέραιες και ανήκουν στο σύνολο [0, 9].
1. Χώρος Ενεργειών : ένα διακριτό σύνολο δύο τιμών [0, 1], αποτελεί τις 2 δυνατές φάσεις του
σηματοδότη
1. Ανταμοιβή : συνάρτηση 4 μεταβλητών, οι οποίες αποτελούν άλλες ανταμοιβές και προκύπτουν
από τη μείωση ή αύξηση κάποιων χαρακτηριστικών (π.χ. οχήματα που διέσχισαν τη διασταύρωση)
1. Q-Table : dictionary που αποθηκεύει τιμές Q για ζεύγη κατάστασης-δράσης. Ένα αντικείμενο έχει
τη μορφή : { (2, 4, 0, 5) : [0.364, -0.642] }
s Q(s, α0 ) Q(s, α1 )
12. 12
Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική
μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων
Ιούνιος 2022
Εκπαίδευση Συστήματος Απλής Διασταύρωσης
Τιμές Παραμέτρων ύστερα
από μεθόδους Βελτιστοποίησης
11.7075 sec 0.2939
Μέσος Χρόνος
Αναμονής Τυπική Απόκλιση
Παράμετρος
Βέλτιστη
Τιμή
α 0.0695
γ 0.553
decay 0.999
εmin 0.0003
Εκπαίδευση Συστήματος σε 40 επεισόδια
Αξιολόγηση Μοντέλου σε 10 Προσομοιώσεις
13. 13
Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική
μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων
Ιούνιος 2022
ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ 02
01
06
04
05
03
ΕΙΣΑΓΩΓΗ
ΠΕΙΡΑΜΑΤΑ &
ΑΠΟΤΕΛΕΣΜΑΤΑ
ΣΥΜΠΕΡΑΣΜΑΤΑ &
ΜΕΛΛΟΝΤΙΚΕΣ ΕΠΕΚΤΑΣΕΙΣ
ΑΠΛΗ ΔΙΑΣΤΑΥΡΩΣΗ
ΠΟΛΛΑΠΛΕΣ ΔΙΑΣΤΑΥΡΩΣΕΙΣ
14. 14
Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική
μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων
Ιούνιος 2022
Οδικό Δίκτυο 2 Διασταυρώσεων
Περιβάλλον Εκπαίδευσης
Παράμετρος
Βέλτιστη
Τιμή
α 0.036
γ 0.2
decay 0.999
εmin 0.0002
Νέο Πρόβλημα : Πολυπρακτορικό σύστημα, οι πράκτορες επικοινωνούν.
Απαιτείται βελτιστοποίηση παραμέτρων για τα πολυπρακτορικά συστήματα N =2, 4, 6
Βασικό Σύστημα:
● 2 πράκτορες, κάθε σηματοδότης
εκπαιδεύεται ξεχωριστά
● Ίδιος χώρος ενεργειών
● χώρος κατάστασης ίσος με 5,
παρατηρεί επιπλέον τη φάση του
γειτονικού σηματοδότη.
● Κάθε πράκτορας δημιουργεί το δικό
του πίνακα Q
15. 15
Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική
μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων
Ιούνιος 2022
Εκπαίδευση Συστήματος 2 Διασταυρώσεων
Μέσος Χρόνος
Αναμονής
Τυπική Απόκλιση
8.399 sec 2.0714
Μέσος Χρόνος
Αναμονής
Τυπική Απόκλιση
3.2985 sec 0.0722
Σύστημα με έναν Πράκτορα
Χώρος Ενεργειών 4
Χώρος Καταστάσεων 10
Πολυπρακτορικό Σύστημα με Δύο
Πράκτορες
Χώρος Ενεργειών 2
Χώρος Καταστάσεων 5
Καλύτερο Μοντέλο
Τα πολυπλοκότερα συστήματα πετυχαίνουν
χαμηλότερη απόδοση για ίδιο χρόνο εκπαίδευσης
16. 16
Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική
μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων
Ιούνιος 2022
Οδικό Δίκτυο 4 Διασταυρώσεων
Περιβάλλον Εκπαίδευσης
● Πολυπρακτορικό σύστημα με 4 πράκτορες
● Ίδιος χώρος ενεργειών ίσος με 2 τιμές
● Ως χώρο κατάστασης δέχεται ένα σύνολο 6 τιμών, 4 τιμές
που καθορίζουν τα οχήματα στις λωρίδες και 2 τιμές που
δείχνουν τη φάση των δύο γειτονικών σηματοδοτών
● Η απόδοση του μοντέλου υπολογίζεται συνολικά από την
εκπαίδευση όλων των πρακτόρων
● 4 πίνακες Q, ένας για κάθε πράκτορα.
17. 17
Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική
μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων
Ιούνιος 2022
Εκπαίδευση Συστήματος 4 Διασταυρώσεων
Μέσος Χρόνος
Αναμονής
Τυπική Απόκλιση
4.9963 sec 0.0615
Εκπαίδευση Συστήματος σε 40 επεισόδια
Αξιολόγηση Μοντέλου σε 10 Προσομοιώσεις
18. 18
Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική
μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων
Ιούνιος 2022
Οδικό Δίκτυο 6 Διασταυρώσεων
Περιβάλλον Εκπαίδευσης
● 6 πράκτορες - Ίδιος χώρος ενεργειών ίσος με 2 τιμές
● Έχουμε δύο χώρους καταστάσεων με 6 και 7 τιμές. Οι δύο
μεσαίοι σηματοδότες δέχονται 7 τιμές ως παρατήρηση
καθώς έχουν ένα επιπλέον γειτονικό σηματοδότη
● Η απόδοση του μοντέλου υπολογίζεται συνολικά από την
εκπαίδευση όλων των πρακτόρων
● 6 πίνακες Q, ένας για κάθε πράκτορα.
19. 19
Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική
μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων
Ιούνιος 2022
Εκπαίδευση Συστήματος 6 Διασταυρώσεων
Μέσος Χρόνος
Αναμονής
Τυπική Απόκλιση
11.2477 sec 0.7036
Εκπαίδευση Συστήματος σε 40 επεισόδια
Αξιολόγηση Μοντέλου σε 10 Προσομοιώσεις
20. 20
Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική
μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων
Ιούνιος 2022
ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ 02
01
06
04
05
03
ΕΙΣΑΓΩΓΗ
ΠΕΙΡΑΜΑΤΑ &
ΑΠΟΤΕΛΕΣΜΑΤΑ
ΣΥΜΠΕΡΑΣΜΑΤΑ &
ΜΕΛΛΟΝΤΙΚΕΣ ΕΠΕΚΤΑΣΕΙΣ
ΑΠΛΗ ΔΙΑΣΤΑΥΡΩΣΗ
ΠΟΛΛΑΠΛΕΣ ΔΙΑΣΤΑΥΡΩΣΕΙΣ
21. 21
Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική
μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων
Ιούνιος 2022
Πειράματα
❖ 1ο Πείραμα
Αξιολόγηση μοντέλο σε περισσότερη κίνηση από αυτήν που εκπαιδεύτηκε
Χρήση εμπειρίας εκπαιδευμένων μοντέλων σε πιο πολύπλοκα συστήματα
❖ 2ο Πείραμα
Εφαρμογή Q-Table από την εκπαίδευση της απλής διασταύρωσης σε συστήματα με Ν = 2, 4, 6
❖ 3ο Πείραμα
Εφαρμογή Q-Table από την εκπαίδευση της διπλής διασταύρωσης σε συστήματα με Ν = 4, 6
22. 22
Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική
μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων
Ιούνιος 2022
93.2334
11.7075 14.2865
47.4923
84.4950
23. 23
Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική
μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων
Ιούνιος 2022
76.2765
3.2985 4.2309
7.1760
30.4255
14.3005
24. 24
Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική
μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων
Ιούνιος 2022
113.0369
4.9963 6.2858 9.9877
37.1708
46.9155
18.3856
25. 25
Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική
μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων
Ιούνιος 2022
187.0923
11.2477 14.7232
30.0001
64.7282
22.6531
26. 26
Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική
μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων
Ιούνιος 2022
ΘΕΩΡΗΤΙΚΟ ΥΠΟΒΑΘΡΟ 02
01
06
04
05
03
ΕΙΣΑΓΩΓΗ
ΠΕΙΡΑΜΑΤΑ &
ΑΠΟΤΕΛΕΣΜΑΤΑ
ΣΥΜΠΕΡΑΣΜΑΤΑ &
ΜΕΛΛΟΝΤΙΚΕΣ ΕΠΕΚΤΑΣΕΙΣ
ΑΠΛΗ ΔΙΑΣΤΑΥΡΩΣΗ
ΠΟΛΛΑΠΛΕΣ ΔΙΑΣΤΑΥΡΩΣΕΙΣ
27. 27
Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική
μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων
Ιούνιος 2022
Γενικά Συμπεράσματα
Κλιμάκωση πολυπλοκότητας με το χώρο κατάστασης και τον αριθμό των πρακτόρων
Ο χρόνος εκπαίδευσης εξαρτάται από την πολυπλοκότητα
ΒΕΛΤΙΣΤΟ σύστημα! Πραγματοποίηση εκπαίδευσης στο περιβάλλον του
Εκπαίδευση απλών συστημάτων και εφαρμογή σε πολυπλοκότερα
Μείωση χρόνου εκπαίδευσης - Αποδοτικό σύστημα
Τα πολυπρακτορικά συστήματα αποδίδουν καλύτερα από αυτά με έναν πράκτορα
Εύκολη κλιμάκωση και προσαρμοστικότητα
Συμβιβασμός μεταξύ βέλτιστης λύσης και χρόνου εκπαίδευσης!
28. 28
Υπολογισμός χρονισμού φωτεινών σηματοδοτών με Ενισχυτική
μάθηση προς ελαχιστοποίηση του χρόνου αναμονής των οχημάτων
Ιούνιος 2022
Μελλοντικές Επεκτάσεις
Πολυπλοκότερα Οδικά Δίκτυα
Διαφοροποίηση Χώρου
Ενεργειών
Μετατροπή
Συνάρτησης Ανταμοιβής
Μείωση Πολυπλοκότητας
1 2
3
Εκπαίδευση Εξερευνώντας
Περισσότερες Καταστάσεις