Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.
Universität zu Köln. Historisch-Kulturwissenschaftliche Informationsverarbeitung
Dr. Jan G. Wieners // jan.wieners@uni-koe...
 “MarI/O” - Machine Learning for Video Games
 Künstliche neuronale Netze / Evolution künstlicher
neuronaler Netze: “NEAT...
„Inceptionism: Going Deeper
into Neural Networks”http://googleresearch.blogspot.de/2015/06/inceptionism-going-deeper-into-...
 http://googleresearch.blogspot.de/2015/06/inceptionism-going-deeper-into-neural.html
“MarI/O”
Machine Learning for Video Games
Einfaches Modell eines künstlichen Neurons i mit:
 ℎ𝑖:Summe der gewichteten Eingabeimpulse 𝑤𝑖1…𝑤𝑖𝑛, die das Neuron
von ve...
Verarbeitung der Eingabeimpulse 𝑤𝑖1…𝑤𝑖𝑛 erfolgt in zwei Schritten:
 ℎ𝑖: gewichtete Summe der Eingabeimpulse bestimmen, di...
Selbstorganisierende Karte (Kohonen-Karte)
Quelle: http://nn.cs.utexas.edu/downloads/papers/stanley.ec02.pdf
NeuroEvolution of Augmenting Topologies (NEAT)
 Evolvin...
Links
Video: https://www.youtube.com/watch?v=qv6UVOQ0F44
Lua-Implementation: http://pastebin.com/ZZmSNaHX
Paper: http://nn...
Verstärkendes Lernen
Q-Learning
Quelle: http://presse.immowelt.de/fileadmin/images/Pressedienst/Wohnen-Einrichten/img/2013/Saugroboter_Vorwerk.jpg
Endlicher Markov-Entscheidungsprozess
Verlauf von Entscheidungen, bei dem die
Belohnung des Agenten einzig von dem
Zustan...
Endlicher Markov-Entscheidungsprozess
Verlauf von Entscheidungen, bei dem die
Belohnung des Agenten einzig von dem
Zustan...
Endlicher Markov-Entscheidungsprozess
𝑆, 𝐴, 𝑃, 𝑅, 𝛾 :
• 𝑎 𝑡 ∈ 𝐴(𝑠𝑡): von dem Agenten ausgeführte Aktion zum
Zeitpunkt 𝑡.
•...
𝜋∗
(𝑠) → 𝑎∗
|𝑠
𝑄 𝐶, 𝐹
= 𝑅 𝐶, 𝐹 + 0.5 × 𝑀𝑎𝑥 𝑄 𝐹, 𝐶 , 𝑄 𝐹, 𝐹
= 100 + 0.5 × 𝑀𝑎𝑥 0,0
= 100 + 0.5 × 0 = 100.
Monte Carlo Spielbaumsuche
Quelle: Juul, Jesper: „255,168 ways of playing Tic Tac Toe” (http://www.jesperjuul.net/ludologist/255168-ways-of-playing-t...
Monte Carlo Spielbaumsuche
Mehrarmiges-Banditen-Problem: UCB1 (Auer et al. 1995)
𝑋𝑗: durchschnittliche Auszahlung des Automatenarmes 𝑗; 𝑛𝑗:
Anzahl, w...
Upper Confidence Bounds applied to Trees (Kocsis und Szepesvári 2006)
𝑛 𝑝 : Besuchshäufigkeit des Elternknotens 𝑝
𝑛𝑖 : Bes...
C = 1.0
C = 0.0
SpoookyJS
„A JavaScript Multiagent Board Game Framework
Based On Monte Carlo Methods”
 http://www.spoookyjs.de
 https://...
 http://togelius.blogspot.de/2014/07/mcts-for-arcade-games.html
/
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Net...
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Net...
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Net...
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Net...
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Net...
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Net...
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Net...
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Net...
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Net...
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Net...
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Net...
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Net...
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Net...
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Net...
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Net...
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Net...
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Net...
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Net...
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Net...
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Net...
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Net...
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Net...
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Net...
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Net...
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Net...
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Net...
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Net...
Nächste SlideShare
Wird geladen in …5
×

BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Netze, Q-Lernen, Monte Carlo Simulationen

1.062 Aufrufe

Veröffentlicht am

Artificial Neural Networks, Q-Learning, Monte Carlo Tree Search

SpoookyJS - A JavaScript Multiagent Board Game Framework Based On Monte Carlo Methods
http://www.spoookyjs.de
https://github.com/janwieners/SpoookyJS

Veröffentlicht in: Bildung
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Netze, Q-Lernen, Monte Carlo Simulationen

  1. 1. Universität zu Köln. Historisch-Kulturwissenschaftliche Informationsverarbeitung Dr. Jan G. Wieners // jan.wieners@uni-koeln.de Basisinformationstechnologie II Sommersemester 2015 24. Juni 2015 – Künstliche Intelligenz in Computergames: Künstliche Neuronale Netze, Q-Lernen, Monte Carlo Simulationen Universität zu Köln. Historisch-Kulturwissenschaftliche Informationsverarbeitung Dr. Jan G. Wieners // jan.wieners@uni-koeln.de
  2. 2.  “MarI/O” - Machine Learning for Video Games  Künstliche neuronale Netze / Evolution künstlicher neuronaler Netze: “NEAT”  Q-Lernen  Verstärkendes Lernen, Markov-Entscheidungsprozess  „SpoookyJS“ und „MCTS Super Mario“  Monte Carlo Methoden / Monte Carlo Spielbaumsuche Themenüberblick
  3. 3. „Inceptionism: Going Deeper into Neural Networks”http://googleresearch.blogspot.de/2015/06/inceptionism-going-deeper-into-neural.html
  4. 4.  http://googleresearch.blogspot.de/2015/06/inceptionism-going-deeper-into-neural.html
  5. 5. “MarI/O” Machine Learning for Video Games
  6. 6. Einfaches Modell eines künstlichen Neurons i mit:  ℎ𝑖:Summe der gewichteten Eingabeimpulse 𝑤𝑖1…𝑤𝑖𝑛, die das Neuron von verknüpften externen Einheiten oder von Sensoren (𝜉1…𝜉𝑛) erhält  𝑎𝑖: Aktivierungsmaß  𝑔(ℎ𝑖): Aktivierungsfunktion  𝑜𝑖: Ausgabe des Neurons
  7. 7. Verarbeitung der Eingabeimpulse 𝑤𝑖1…𝑤𝑖𝑛 erfolgt in zwei Schritten:  ℎ𝑖: gewichtete Summe der Eingabeimpulse bestimmen, die an dem Neuron anliegen:  Bestimmung des Aktivierungsmaßes (in den meisten Fällen: Ausgabe) des Neurons:
  8. 8. Selbstorganisierende Karte (Kohonen-Karte)
  9. 9. Quelle: http://nn.cs.utexas.edu/downloads/papers/stanley.ec02.pdf NeuroEvolution of Augmenting Topologies (NEAT)  Evolving NN’s through Augmenting Topologies
  10. 10. Links Video: https://www.youtube.com/watch?v=qv6UVOQ0F44 Lua-Implementation: http://pastebin.com/ZZmSNaHX Paper: http://nn.cs.utexas.edu/downloads/papers/stanley.ec02.pdf
  11. 11. Verstärkendes Lernen Q-Learning
  12. 12. Quelle: http://presse.immowelt.de/fileadmin/images/Pressedienst/Wohnen-Einrichten/img/2013/Saugroboter_Vorwerk.jpg
  13. 13. Endlicher Markov-Entscheidungsprozess Verlauf von Entscheidungen, bei dem die Belohnung des Agenten einzig von dem Zustand der Umwelt und der Aktion des Agenten abhängt. Definiert als Tupel 𝑆, 𝐴, 𝑃, 𝑅, 𝛾 mit: • 𝑆 = 𝑠1, 𝑠2, … , 𝑠 𝑛 : Zustandsraum, d.h. die möglichen Zustände der Umwelt; 𝑠𝑡 ∈ 𝑆 repräsentiert den Zustand der Agentenumwelt zum Zeitpunkt 𝑡.
  14. 14. Endlicher Markov-Entscheidungsprozess Verlauf von Entscheidungen, bei dem die Belohnung des Agenten einzig von dem Zustand der Umwelt und der Aktion des Agenten abhängt. Definiert als Tupel 𝑆, 𝐴, 𝑃, 𝑅, 𝛾 : • 𝑆 = 𝑠1, 𝑠2, … , 𝑠 𝑛 : Zustandsraum, d.h. die möglichen Zustände der Umwelt; 𝑠𝑡 ∈ 𝑆 repräsentiert den Zustand der Agentenumwelt zum Zeitpunkt 𝑡. • 𝐴: Menge der Entscheidungen bzw. Zugmöglichkeiten, die dem Agenten zu jedem Umweltzustand 𝐴(𝑠) zur Verfügung stehen.
  15. 15. Endlicher Markov-Entscheidungsprozess 𝑆, 𝐴, 𝑃, 𝑅, 𝛾 : • 𝑎 𝑡 ∈ 𝐴(𝑠𝑡): von dem Agenten ausgeführte Aktion zum Zeitpunkt 𝑡. • Übergangsfunktion 𝑃 𝑠, 𝑎, 𝑠′ : führt die Umwelt in ihrem Zustand 𝑠 aufgrund der Handlung 𝑎 des Agenten zu einem neuen möglichen Nachfolgezustand 𝑠′. • 𝑅(𝑠, 𝑎, 𝑠′ ): Belohnungsfunktion, Feedback, das der Agent aufgrund seiner Handlung erhält. • Diskontierungsfaktor 𝛾 mit 0 ≤ 𝛾 ≤ 1 lässt sich dazu verwenden, um das Lernverhalten des Agenten feinzujustieren. Dient dazu, künftige Belohnungen gegenüber zeitnahen Belohnungen abzuschwächen.
  16. 16. 𝜋∗ (𝑠) → 𝑎∗ |𝑠
  17. 17. 𝑄 𝐶, 𝐹 = 𝑅 𝐶, 𝐹 + 0.5 × 𝑀𝑎𝑥 𝑄 𝐹, 𝐶 , 𝑄 𝐹, 𝐹 = 100 + 0.5 × 𝑀𝑎𝑥 0,0 = 100 + 0.5 × 0 = 100.
  18. 18. Monte Carlo Spielbaumsuche
  19. 19. Quelle: Juul, Jesper: „255,168 ways of playing Tic Tac Toe” (http://www.jesperjuul.net/ludologist/255168-ways-of-playing-tic-tac-toe)
  20. 20. Monte Carlo Spielbaumsuche
  21. 21. Mehrarmiges-Banditen-Problem: UCB1 (Auer et al. 1995) 𝑋𝑗: durchschnittliche Auszahlung des Automatenarmes 𝑗; 𝑛𝑗: Anzahl, wie häufig der Arm 𝑗 gespielt wurde 𝑛 : Gesamtzahl der bereits gespielten Spiele. Browne et al. 2012: Belohnungsterm 𝑋𝑗: Exploitation 2 ln(𝑛) 𝑛 𝑗 : Exploration bislang vernachlässigter Strategiewahlen.
  22. 22. Upper Confidence Bounds applied to Trees (Kocsis und Szepesvári 2006) 𝑛 𝑝 : Besuchshäufigkeit des Elternknotens 𝑝 𝑛𝑖 : Besuchsfrequenz des Kindknotens 𝑖 𝑣𝑖 : Wert des Knotens 𝑖 (durchschnittliche Gewinnhäufigkeit des betrachteten Kindknotens 𝐶 im Intervall [0,1] dient dem Zweck, den Grad der Erkundung (exploration) noch nicht betrachteter Strategien feinzujustieren UCT wählt den Kindknoten 𝑘 des aktuell betrachteten Knotens 𝑝 aus, der den folgenden Ausdruck maximiert:
  23. 23. C = 1.0 C = 0.0
  24. 24. SpoookyJS „A JavaScript Multiagent Board Game Framework Based On Monte Carlo Methods”  http://www.spoookyjs.de  https://github.com/janwieners/SpoookyJS
  25. 25.  http://togelius.blogspot.de/2014/07/mcts-for-arcade-games.html
  26. 26. /

×