Παρουσιάση της διδακτορικής μου διατριβής - My PhD thesis defense presentation "Reinforcement learning and evolutionary computing mechanisms for autonomous agents"
15. 1. Αρχικοποίθςθ Πλθκυςμοφ
• Ν = 1 (XOR)
• D ∈ (0,1]
• ρ ∈(0,1)
• Αρχικοποίθςθ και με
περιςςότερουσ νευρϊνεσ
ταμιευτθρίου
15
16. 2. Αξιολόγθςθ Γονιδιϊματοσ
• Υπολογιςμόσ fitness για
ζναν αρικμό επειςοδίων
• Δυνατότθτα μάκθςθσ κατά
τθ διάρκεια των επειςοδίων
– π.χ. SARSA TD-learning με GD
16
17. 3. Ομαδοποίθςθ ςε είδθ και επιλογι
Ομαδοποίθςθ με βάςθ μακροςκοπικά
χαρακτθριςτικά του δικτφου:
Για κάκε γονιδίωμα - adjusted fitness:
Για κάκε είδοσ - αρικμόσ απογόνων:
Intra-species αναπαραγωγι και με μικρι
πικανότθτα inter-species
17
20. Τφποι εξζλιξθσ
• Λαμαρκιανι (Lamarckian)
– Ο Wout μεταφζρεται από γενιά ςε γενιά
• Δαρβίνια (Darwinian)
– Ο Wout δθμιουργείται εκ νζου ςε κάκε γενιά
– Baldwin effect: Η μάκθςθ βοθκάει να επιλζξει θ
εξζλιξθ το γονιδίωμα που μακαίνει καλφτερα,
ζτςι επικυμθτά χαρ/κά του δικτφου μεταφζρονται
χωρίσ να μεταφζρεται και θ γνϊςθ που απζκτθςε
20
23. Προβλιματα και Μζκοδοι
Π1. 2D Mountain Car – Markov NEAT
Π2. 2D Mountain Car – Non-Markov NEAR+TD+L
Π3. 3D Mountain Car – Markov NEAR+TD+D
Π4. 3D Mountain Car – Non-Markov
NEAR+PS
Π5. Server Job Scheduling
Π6. Single Pole Balancing – Markov ESN
Π7. Single Pole Balancing – Non-Markov
Π8. Double Pole Balancing – Markov
Π9. Double Pole Balancing – Non-Markov
Π10. Double Pole Balancing – Non Markov NEAR+PS vs. 12 different
with dumping fitness function algorithms [GMZ2006]
23
24. Αποτελζςματα
Π1-Π5 Π6-Π10
Μζκοδοσ GP μ(ranks)
NEAT 3.8
NEAR+TD+L 1.8
NEAR+TD+D 3.2
NEAR+PS 1.6
ESN 4.8 • 1 επειςόδιο: solution found or not!
• Όχι τυχαίεσ επανεκκινιςεισ
• NEAR+PS
• Μετρικι: # αξιολογθμζνων δικτφων
Συμπεράςματα:
• Στατιςτικι ςθμαντικότθτα ςτθν υπεροχι του NEAR ζναντι του NEAT και των ESN
• Lamarckian evolution > Darwinian evolution
• Περιςςότεροι νευρϊνεσ ςτα NM
• μ(D) ~ 0.5
• Η βελτιςτοποίθςθ καταργεί τθν ζννοια του αραιοφ ΔΗΚ (Fully connected RNN)
24
34. Πλαίςιο αξιολόγθςθσ
Χρονοςειρά
W Training Val.
Target
Επιλογι καλφτερου δικτφου χωρίσ το validation set
W W … W
Πρόβλεψθ
…
Σφάλμα γενίκευςθ ςτο validation set
W Πρόβλεψθ
34
40. Pr(offer=accepted|bid)
• Logistic Regression
1
f (z) = -z
, z = w1 x1 + w2 x2 +... + wn xn
1+ e
Feature w
Current Date -0.19
Base Price -0.67
Due Date -1.26
Quantity 0.80
Max Price 17.96
Min Price 1.61
Total Quantity 0.52
Reserve Price 2.39
Offer Price -22.94 40
41. Τιμι προςφοράσ
• Πρόβλεψθ από ιςτορικά δεδομζνα τιμισ αποδοχισ
– Regression Trees
• M5’
• CART
• Βελτιςτοποίθςθ με ςμινοσ ςωματιδίων (Particle
Swarm Optimization)
– Κάκε ςωματίδιο αποτελεί μία λφςθ (p1,p2, … ,pn)
– Προςομοίωςθ, 100 ςωμ. 100 επαν., 1’’
• Ευριςτικόσ ζλεγχοσ με κανόνεσ
– bid = f * max price
– κανόνεσ μεταβολισ του f : factory utilization = 100%
41
42. Προςζγγιςθ με NEAR
• Μοντελοποίθςθ ευριςτικοφ ελζγχου ωσ MDP
– Ιδζα: Κακθμερινά κζλω να κερδίηω παραγγελίεσ
φψουσ 2000 κφκλων εργοςταςίου και να ζχω
2000 κφκλουσ ςτθν ουρά
– States: {WonCycles/Cap., QueuedCycles/Cap.}
– Actions: f={0.9, 0.91, 0.92, … , 1.14, 1.15}, |f| = 16
– Scalar Reward:
r = -[|(WonCycles – Cap)/Cap| + |(QueuedCycles – Cap)/Cap|)]
42
43. Αποτελζςματα
Adjusted Total Revenue ($M) Μζςοσ όροσ κφκλων εργοςταςίου
Εκπαίδευςθ: TAC SCM 2011 semifinals Στατιςτικά ςθμαντικι διαφορά
Τεςτ: TAC SCM 2011 finals ςυνολικά και ανά δφο
Μετρικι: Λαμβάνει υπόψιν τθν υπζρβαςθ των κφκλων (Friedman - Wilcoxon)
του εργοςταςίου
43
59. Δθμοςιεφςεισ
Περιοδικά με ςφςτθμα κριτϊν
1. Kyriakos C. Chatzidimitriou and Pericles A. Mitkas. Adaptive Reservoir Computing through Learning and Evolution.
Neurocomputing, Elsevier, Available online. (1.840)
2. Kyriakos C. Chatzidimitriou and Andreas L. Symeonidis. Agents in Dynamic Supply Chain Management Environments: Data
Mining-Driven Design Choices. Intelligent Systems, 24(3):54–63, 2009. Special issue on Agents and Data Mining. (2.693)
3. Kyriakos C. Chatzidimitriou, Andreas L. Symeonidis, Ioannis Kontogounis, and Pericles A. Mitkas. Agent Mertacor: A robust
design for dealing with uncertainty and variation in SCM environments. Expert Systems with Applications, 35(3):591–603,
October 2008. (2.539)
Πρακτικά ςυνεδρίων με ςφςτθμα κριτϊν
1. Kyriakos C. Chatzidimitriou, Andreas L. Symeonidis, and Pericles A. Mitkas. Policy search through adaptive function
approximation for bidding in TAC SCM. In Trading Agent Design and Analysis (TADA) 2012 Workshop held in conjunction with
the International Conference on AAMAS 2012, Lecture Notes in Business Information Processing, Springer, 2012.
2. Kyriakos C. Chatzidimitriou, Ioannis Partalas, Pericles A. Mitkas, and Ioannis Vlahavas. Transferring evolved reservoir features
in reinforcement learning tasks. In European Workshop on Reinforcement Learning, Lecture Notes in Computer Science,
Volume 7188, pages 213-224, 2011.
3. Kyriakos C. Chatzidimitriou, Antonios C. Chrysopoulos, Andreas L. Symeonidis, and Pericles A. Mitkas. Enhancing agent
intelligence through evolving reservoir networks for prediction in power stock markets. In Agent and Data Mining Interaction
2011 Workshop held in conjunction with the conference on AAMAS 2011, 2011.
4. Kyriakos C. Chatzidimitriou, Lampros C. Stavrogiannis, Andreas L. Symeonidis, and Pericles A. Mitkas. An adaptive proportional
value-per-click agent for bidding in ad auctions. In Trading Agent Design and Analysis (TADA) 2011 Workshop held in
conjunction with IJCAI 2011, 2011.
5. Michalis Tsapanos, Kyriakos C. Chatzidimitriou, and Pericles A. Mitkas. A zeroth-level classifier system for real time strategy
games. In 2011 IEEE/WIC/ACM International Conference on Intelligent Agent Technology, volume 2, pages 244–247, 2011.
6. Kyriakos C. Chatzidimitriou and Pericles A. Mitkas. A neat way for evolving echo state networks. In European Conference on
Artificial Intelligence, IOS Press, August 2010.
7. Kyriakos C. Chatzidimitriou, Andreas L. Symeonidis, and Pericles A. Mitkas. Data mining-driven analysis and decomposition in
agent supply chain management networks. In IEEE/WIC/ACM Workshop on Agents and Data Mining Interaction, Sydney,
Australia, 9-12 December 2008.
59
60. Δθμοςιεφςεισ/Διακρίςεισ
Ανακοινϊςεισ ςε Συνζδρια με Κριτζσ χωρίσ Πρακτικά
1. Kyriakos C. Chatzidimitriou, Fotis Psomopoulos, and Pericles A. Mitkas. Grid-enabled parameter initialization for high
performance machine learning tasks. In 5th EGEE User Forum, April 2010.
2. Christos Dimou, Kyriakos C. Chatzidimitriou, Andreas L. Symeonidis, and Pericles A. Mitkas. Creating and reusing metric
graphs for evaluating agent performance in the supply chain management domain. In First Workshop on Knowledge Reuse
(KREUSE’2008) hosted at the 10th International Conference on Software Reuse, Beijing (China), May 25-29 2008.
Διακρίςεισ
• 1θ κζςθ ςτον παγκόςμιο διαγωνιςμό ςυναλλαγϊν και εμπορίου με πράκτορεσ λογιςμικοφ – διαδικτυακϊν διαφθμίςεων
(Trading Agent Competition – TAC 2012, Ad Auctions game)
• Συμμετοχι ςτα τελικά του φοιτθτικοφ διαγωνιςμοφ business plan, e-nnovation 2011, (πρόκριςθ ςτισ 16 κορυφαίεσ από 102
ομάδεσ)
• 3θ κζςθ ςτον παγκόςμιο διαγωνιςμό ελεγκτϊν Pac-Man, 2011
• 3θ κζςθ ςτον παγκόςμιο διαγωνιςμό ςυναλλαγϊν και εμπορίου με πράκτορεσ λογιςμικοφ – διαδικτυακϊν διαφθμίςεων
(Trading Agent Competition – TAC 2010, Ad Auctions game)
• Υποτροφία Αριςτείασ για υποψιφιουσ διδάκτορεσ, 2009, Επιτροπι Ερευνϊν, Α.Π.Θ.
60