Successfully reported this slideshow.
Universität zu Köln. Historisch-Kulturwissenschaftliche Informationsverarbeitung
Dr. Jan G. Wieners // jan.wieners@uni-koe...
 “MarI/O” - Machine Learning for Video Games
 Künstliche neuronale Netze / Evolution künstlicher
neuronaler Netze: “NEAT...
„Inceptionism: Going Deeper
into Neural Networks”http://googleresearch.blogspot.de/2015/06/inceptionism-going-deeper-into-...
 http://googleresearch.blogspot.de/2015/06/inceptionism-going-deeper-into-neural.html
“MarI/O”
Machine Learning for Video Games
Einfaches Modell eines künstlichen Neurons i mit:
 ℎ𝑖:Summe der gewichteten Eingabeimpulse 𝑤𝑖1…𝑤𝑖𝑛, die das Neuron
von ve...
Verarbeitung der Eingabeimpulse 𝑤𝑖1…𝑤𝑖𝑛 erfolgt in zwei Schritten:
 ℎ𝑖: gewichtete Summe der Eingabeimpulse bestimmen, di...
Selbstorganisierende Karte (Kohonen-Karte)
Quelle: http://nn.cs.utexas.edu/downloads/papers/stanley.ec02.pdf
NeuroEvolution of Augmenting Topologies (NEAT)
 Evolvin...
Links
Video: https://www.youtube.com/watch?v=qv6UVOQ0F44
Lua-Implementation: http://pastebin.com/ZZmSNaHX
Paper: http://nn...
Verstärkendes Lernen
Q-Learning
Quelle: http://presse.immowelt.de/fileadmin/images/Pressedienst/Wohnen-Einrichten/img/2013/Saugroboter_Vorwerk.jpg
Endlicher Markov-Entscheidungsprozess
Verlauf von Entscheidungen, bei dem die
Belohnung des Agenten einzig von dem
Zustan...
Endlicher Markov-Entscheidungsprozess
Verlauf von Entscheidungen, bei dem die
Belohnung des Agenten einzig von dem
Zustan...
Endlicher Markov-Entscheidungsprozess
𝑆, 𝐴, 𝑃, 𝑅, 𝛾 :
• 𝑎 𝑡 ∈ 𝐴(𝑠𝑡): von dem Agenten ausgeführte Aktion zum
Zeitpunkt 𝑡.
•...
𝜋∗
(𝑠) → 𝑎∗
|𝑠
𝑄 𝐶, 𝐹
= 𝑅 𝐶, 𝐹 + 0.5 × 𝑀𝑎𝑥 𝑄 𝐹, 𝐶 , 𝑄 𝐹, 𝐹
= 100 + 0.5 × 𝑀𝑎𝑥 0,0
= 100 + 0.5 × 0 = 100.
Monte Carlo Spielbaumsuche
Quelle: Juul, Jesper: „255,168 ways of playing Tic Tac Toe” (http://www.jesperjuul.net/ludologist/255168-ways-of-playing-t...
Monte Carlo Spielbaumsuche
Mehrarmiges-Banditen-Problem: UCB1 (Auer et al. 1995)
𝑋𝑗: durchschnittliche Auszahlung des Automatenarmes 𝑗; 𝑛𝑗:
Anzahl, w...
Upper Confidence Bounds applied to Trees (Kocsis und Szepesvári 2006)
𝑛 𝑝 : Besuchshäufigkeit des Elternknotens 𝑝
𝑛𝑖 : Bes...
C = 1.0
C = 0.0
SpoookyJS
„A JavaScript Multiagent Board Game Framework
Based On Monte Carlo Methods”
 http://www.spoookyjs.de
 https://...
 http://togelius.blogspot.de/2014/07/mcts-for-arcade-games.html
/
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Net...
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Net...
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Net...
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Net...
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Net...
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Net...
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Net...
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Net...
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Net...
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Net...
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Net...
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Net...
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Net...
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Net...
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Net...
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Net...
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Net...
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Net...
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Net...
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Net...
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Net...
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Net...
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Net...
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Net...
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Net...
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Net...
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Net...
Nächste SlideShare
Wird geladen in …5
×

BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Netze, Q-Lernen, Monte Carlo Simulationen

1.058 Aufrufe

Veröffentlicht am

Artificial Neural Networks, Q-Learning, Monte Carlo Tree Search

SpoookyJS - A JavaScript Multiagent Board Game Framework Based On Monte Carlo Methods
http://www.spoookyjs.de
https://github.com/janwieners/SpoookyJS

Veröffentlicht in: Bildung
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Netze, Q-Lernen, Monte Carlo Simulationen

  1. 1. Universität zu Köln. Historisch-Kulturwissenschaftliche Informationsverarbeitung Dr. Jan G. Wieners // jan.wieners@uni-koeln.de Basisinformationstechnologie II Sommersemester 2015 24. Juni 2015 – Künstliche Intelligenz in Computergames: Künstliche Neuronale Netze, Q-Lernen, Monte Carlo Simulationen Universität zu Köln. Historisch-Kulturwissenschaftliche Informationsverarbeitung Dr. Jan G. Wieners // jan.wieners@uni-koeln.de
  2. 2.  “MarI/O” - Machine Learning for Video Games  Künstliche neuronale Netze / Evolution künstlicher neuronaler Netze: “NEAT”  Q-Lernen  Verstärkendes Lernen, Markov-Entscheidungsprozess  „SpoookyJS“ und „MCTS Super Mario“  Monte Carlo Methoden / Monte Carlo Spielbaumsuche Themenüberblick
  3. 3. „Inceptionism: Going Deeper into Neural Networks”http://googleresearch.blogspot.de/2015/06/inceptionism-going-deeper-into-neural.html
  4. 4.  http://googleresearch.blogspot.de/2015/06/inceptionism-going-deeper-into-neural.html
  5. 5. “MarI/O” Machine Learning for Video Games
  6. 6. Einfaches Modell eines künstlichen Neurons i mit:  ℎ𝑖:Summe der gewichteten Eingabeimpulse 𝑤𝑖1…𝑤𝑖𝑛, die das Neuron von verknüpften externen Einheiten oder von Sensoren (𝜉1…𝜉𝑛) erhält  𝑎𝑖: Aktivierungsmaß  𝑔(ℎ𝑖): Aktivierungsfunktion  𝑜𝑖: Ausgabe des Neurons
  7. 7. Verarbeitung der Eingabeimpulse 𝑤𝑖1…𝑤𝑖𝑛 erfolgt in zwei Schritten:  ℎ𝑖: gewichtete Summe der Eingabeimpulse bestimmen, die an dem Neuron anliegen:  Bestimmung des Aktivierungsmaßes (in den meisten Fällen: Ausgabe) des Neurons:
  8. 8. Selbstorganisierende Karte (Kohonen-Karte)
  9. 9. Quelle: http://nn.cs.utexas.edu/downloads/papers/stanley.ec02.pdf NeuroEvolution of Augmenting Topologies (NEAT)  Evolving NN’s through Augmenting Topologies
  10. 10. Links Video: https://www.youtube.com/watch?v=qv6UVOQ0F44 Lua-Implementation: http://pastebin.com/ZZmSNaHX Paper: http://nn.cs.utexas.edu/downloads/papers/stanley.ec02.pdf
  11. 11. Verstärkendes Lernen Q-Learning
  12. 12. Quelle: http://presse.immowelt.de/fileadmin/images/Pressedienst/Wohnen-Einrichten/img/2013/Saugroboter_Vorwerk.jpg
  13. 13. Endlicher Markov-Entscheidungsprozess Verlauf von Entscheidungen, bei dem die Belohnung des Agenten einzig von dem Zustand der Umwelt und der Aktion des Agenten abhängt. Definiert als Tupel 𝑆, 𝐴, 𝑃, 𝑅, 𝛾 mit: • 𝑆 = 𝑠1, 𝑠2, … , 𝑠 𝑛 : Zustandsraum, d.h. die möglichen Zustände der Umwelt; 𝑠𝑡 ∈ 𝑆 repräsentiert den Zustand der Agentenumwelt zum Zeitpunkt 𝑡.
  14. 14. Endlicher Markov-Entscheidungsprozess Verlauf von Entscheidungen, bei dem die Belohnung des Agenten einzig von dem Zustand der Umwelt und der Aktion des Agenten abhängt. Definiert als Tupel 𝑆, 𝐴, 𝑃, 𝑅, 𝛾 : • 𝑆 = 𝑠1, 𝑠2, … , 𝑠 𝑛 : Zustandsraum, d.h. die möglichen Zustände der Umwelt; 𝑠𝑡 ∈ 𝑆 repräsentiert den Zustand der Agentenumwelt zum Zeitpunkt 𝑡. • 𝐴: Menge der Entscheidungen bzw. Zugmöglichkeiten, die dem Agenten zu jedem Umweltzustand 𝐴(𝑠) zur Verfügung stehen.
  15. 15. Endlicher Markov-Entscheidungsprozess 𝑆, 𝐴, 𝑃, 𝑅, 𝛾 : • 𝑎 𝑡 ∈ 𝐴(𝑠𝑡): von dem Agenten ausgeführte Aktion zum Zeitpunkt 𝑡. • Übergangsfunktion 𝑃 𝑠, 𝑎, 𝑠′ : führt die Umwelt in ihrem Zustand 𝑠 aufgrund der Handlung 𝑎 des Agenten zu einem neuen möglichen Nachfolgezustand 𝑠′. • 𝑅(𝑠, 𝑎, 𝑠′ ): Belohnungsfunktion, Feedback, das der Agent aufgrund seiner Handlung erhält. • Diskontierungsfaktor 𝛾 mit 0 ≤ 𝛾 ≤ 1 lässt sich dazu verwenden, um das Lernverhalten des Agenten feinzujustieren. Dient dazu, künftige Belohnungen gegenüber zeitnahen Belohnungen abzuschwächen.
  16. 16. 𝜋∗ (𝑠) → 𝑎∗ |𝑠
  17. 17. 𝑄 𝐶, 𝐹 = 𝑅 𝐶, 𝐹 + 0.5 × 𝑀𝑎𝑥 𝑄 𝐹, 𝐶 , 𝑄 𝐹, 𝐹 = 100 + 0.5 × 𝑀𝑎𝑥 0,0 = 100 + 0.5 × 0 = 100.
  18. 18. Monte Carlo Spielbaumsuche
  19. 19. Quelle: Juul, Jesper: „255,168 ways of playing Tic Tac Toe” (http://www.jesperjuul.net/ludologist/255168-ways-of-playing-tic-tac-toe)
  20. 20. Monte Carlo Spielbaumsuche
  21. 21. Mehrarmiges-Banditen-Problem: UCB1 (Auer et al. 1995) 𝑋𝑗: durchschnittliche Auszahlung des Automatenarmes 𝑗; 𝑛𝑗: Anzahl, wie häufig der Arm 𝑗 gespielt wurde 𝑛 : Gesamtzahl der bereits gespielten Spiele. Browne et al. 2012: Belohnungsterm 𝑋𝑗: Exploitation 2 ln(𝑛) 𝑛 𝑗 : Exploration bislang vernachlässigter Strategiewahlen.
  22. 22. Upper Confidence Bounds applied to Trees (Kocsis und Szepesvári 2006) 𝑛 𝑝 : Besuchshäufigkeit des Elternknotens 𝑝 𝑛𝑖 : Besuchsfrequenz des Kindknotens 𝑖 𝑣𝑖 : Wert des Knotens 𝑖 (durchschnittliche Gewinnhäufigkeit des betrachteten Kindknotens 𝐶 im Intervall [0,1] dient dem Zweck, den Grad der Erkundung (exploration) noch nicht betrachteter Strategien feinzujustieren UCT wählt den Kindknoten 𝑘 des aktuell betrachteten Knotens 𝑝 aus, der den folgenden Ausdruck maximiert:
  23. 23. C = 1.0 C = 0.0
  24. 24. SpoookyJS „A JavaScript Multiagent Board Game Framework Based On Monte Carlo Methods”  http://www.spoookyjs.de  https://github.com/janwieners/SpoookyJS
  25. 25.  http://togelius.blogspot.de/2014/07/mcts-for-arcade-games.html
  26. 26. /

×