SlideShare ist ein Scribd-Unternehmen logo
1 von 53
Downloaden Sie, um offline zu lesen
Universität zu Köln. Historisch-Kulturwissenschaftliche Informationsverarbeitung
Dr. Jan G. Wieners // jan.wieners@uni-koeln.de
Basisinformationstechnologie II
Sommersemester 2015
24. Juni 2015 – Künstliche Intelligenz in Computergames: Künstliche Neuronale Netze,
Q-Lernen, Monte Carlo Simulationen
Universität zu Köln. Historisch-Kulturwissenschaftliche Informationsverarbeitung
Dr. Jan G. Wieners // jan.wieners@uni-koeln.de
 “MarI/O” - Machine Learning for Video Games
 Künstliche neuronale Netze / Evolution künstlicher
neuronaler Netze: “NEAT”
 Q-Lernen
 Verstärkendes Lernen, Markov-Entscheidungsprozess
 „SpoookyJS“ und „MCTS Super Mario“
 Monte Carlo Methoden / Monte Carlo Spielbaumsuche
Themenüberblick
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Netze, Q-Lernen, Monte Carlo Simulationen
„Inceptionism: Going Deeper
into Neural Networks”http://googleresearch.blogspot.de/2015/06/inceptionism-going-deeper-into-neural.html
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Netze, Q-Lernen, Monte Carlo Simulationen
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Netze, Q-Lernen, Monte Carlo Simulationen
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Netze, Q-Lernen, Monte Carlo Simulationen
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Netze, Q-Lernen, Monte Carlo Simulationen
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Netze, Q-Lernen, Monte Carlo Simulationen
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Netze, Q-Lernen, Monte Carlo Simulationen
 http://googleresearch.blogspot.de/2015/06/inceptionism-going-deeper-into-neural.html
“MarI/O”
Machine Learning for Video Games
Einfaches Modell eines künstlichen Neurons i mit:
 ℎ𝑖:Summe der gewichteten Eingabeimpulse 𝑤𝑖1…𝑤𝑖𝑛, die das Neuron
von verknüpften externen Einheiten oder von Sensoren (𝜉1…𝜉𝑛) erhält
 𝑎𝑖: Aktivierungsmaß
 𝑔(ℎ𝑖): Aktivierungsfunktion
 𝑜𝑖: Ausgabe des Neurons
Verarbeitung der Eingabeimpulse 𝑤𝑖1…𝑤𝑖𝑛 erfolgt in zwei Schritten:
 ℎ𝑖: gewichtete Summe der Eingabeimpulse bestimmen, die an dem
Neuron anliegen:
 Bestimmung des Aktivierungsmaßes (in den meisten Fällen: Ausgabe)
des Neurons:
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Netze, Q-Lernen, Monte Carlo Simulationen
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Netze, Q-Lernen, Monte Carlo Simulationen
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Netze, Q-Lernen, Monte Carlo Simulationen
Selbstorganisierende Karte (Kohonen-Karte)
Quelle: http://nn.cs.utexas.edu/downloads/papers/stanley.ec02.pdf
NeuroEvolution of Augmenting Topologies (NEAT)
 Evolving NN’s through Augmenting Topologies
Links
Video: https://www.youtube.com/watch?v=qv6UVOQ0F44
Lua-Implementation: http://pastebin.com/ZZmSNaHX
Paper: http://nn.cs.utexas.edu/downloads/papers/stanley.ec02.pdf
Verstärkendes Lernen
Q-Learning
Quelle: http://presse.immowelt.de/fileadmin/images/Pressedienst/Wohnen-Einrichten/img/2013/Saugroboter_Vorwerk.jpg
Endlicher Markov-Entscheidungsprozess
Verlauf von Entscheidungen, bei dem die
Belohnung des Agenten einzig von dem
Zustand der Umwelt und der Aktion des
Agenten abhängt. Definiert als Tupel
𝑆, 𝐴, 𝑃, 𝑅, 𝛾 mit:
• 𝑆 = 𝑠1, 𝑠2, … , 𝑠 𝑛 : Zustandsraum, d.h. die
möglichen Zustände der Umwelt; 𝑠𝑡 ∈ 𝑆
repräsentiert den Zustand der
Agentenumwelt zum Zeitpunkt 𝑡.
Endlicher Markov-Entscheidungsprozess
Verlauf von Entscheidungen, bei dem die
Belohnung des Agenten einzig von dem
Zustand der Umwelt und der Aktion des
Agenten abhängt. Definiert als Tupel
𝑆, 𝐴, 𝑃, 𝑅, 𝛾 :
• 𝑆 = 𝑠1, 𝑠2, … , 𝑠 𝑛 : Zustandsraum, d.h. die
möglichen Zustände der Umwelt; 𝑠𝑡 ∈ 𝑆
repräsentiert den Zustand der
Agentenumwelt zum Zeitpunkt 𝑡.
• 𝐴: Menge der Entscheidungen bzw.
Zugmöglichkeiten, die dem Agenten zu
jedem Umweltzustand 𝐴(𝑠) zur Verfügung
stehen.
Endlicher Markov-Entscheidungsprozess
𝑆, 𝐴, 𝑃, 𝑅, 𝛾 :
• 𝑎 𝑡 ∈ 𝐴(𝑠𝑡): von dem Agenten ausgeführte Aktion zum
Zeitpunkt 𝑡.
• Übergangsfunktion 𝑃 𝑠, 𝑎, 𝑠′ : führt die Umwelt in
ihrem Zustand 𝑠 aufgrund der Handlung 𝑎 des
Agenten zu einem neuen möglichen
Nachfolgezustand 𝑠′.
• 𝑅(𝑠, 𝑎, 𝑠′
): Belohnungsfunktion, Feedback, das der
Agent aufgrund seiner Handlung erhält.
• Diskontierungsfaktor 𝛾 mit 0 ≤ 𝛾 ≤ 1 lässt sich dazu
verwenden, um das Lernverhalten des Agenten
feinzujustieren. Dient dazu, künftige Belohnungen
gegenüber zeitnahen Belohnungen abzuschwächen.
𝜋∗
(𝑠) → 𝑎∗
|𝑠
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Netze, Q-Lernen, Monte Carlo Simulationen
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Netze, Q-Lernen, Monte Carlo Simulationen
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Netze, Q-Lernen, Monte Carlo Simulationen
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Netze, Q-Lernen, Monte Carlo Simulationen
𝑄 𝐶, 𝐹
= 𝑅 𝐶, 𝐹 + 0.5 × 𝑀𝑎𝑥 𝑄 𝐹, 𝐶 , 𝑄 𝐹, 𝐹
= 100 + 0.5 × 𝑀𝑎𝑥 0,0
= 100 + 0.5 × 0 = 100.
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Netze, Q-Lernen, Monte Carlo Simulationen
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Netze, Q-Lernen, Monte Carlo Simulationen
Monte Carlo Spielbaumsuche
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Netze, Q-Lernen, Monte Carlo Simulationen
Quelle: Juul, Jesper: „255,168 ways of playing Tic Tac Toe” (http://www.jesperjuul.net/ludologist/255168-ways-of-playing-tic-tac-toe)
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Netze, Q-Lernen, Monte Carlo Simulationen
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Netze, Q-Lernen, Monte Carlo Simulationen
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Netze, Q-Lernen, Monte Carlo Simulationen
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Netze, Q-Lernen, Monte Carlo Simulationen
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Netze, Q-Lernen, Monte Carlo Simulationen
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Netze, Q-Lernen, Monte Carlo Simulationen
Monte Carlo Spielbaumsuche
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Netze, Q-Lernen, Monte Carlo Simulationen
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Netze, Q-Lernen, Monte Carlo Simulationen
Mehrarmiges-Banditen-Problem: UCB1 (Auer et al. 1995)
𝑋𝑗: durchschnittliche Auszahlung des Automatenarmes 𝑗; 𝑛𝑗:
Anzahl, wie häufig der Arm 𝑗 gespielt wurde
𝑛 : Gesamtzahl der bereits gespielten Spiele.
Browne et al. 2012: Belohnungsterm 𝑋𝑗: Exploitation
2 ln(𝑛)
𝑛 𝑗
: Exploration bislang vernachlässigter Strategiewahlen.
Upper Confidence Bounds applied to Trees (Kocsis und Szepesvári 2006)
𝑛 𝑝 : Besuchshäufigkeit des Elternknotens 𝑝
𝑛𝑖 : Besuchsfrequenz des Kindknotens 𝑖
𝑣𝑖 : Wert des Knotens 𝑖 (durchschnittliche Gewinnhäufigkeit des
betrachteten Kindknotens
𝐶 im Intervall [0,1] dient dem Zweck, den Grad der Erkundung
(exploration) noch nicht betrachteter Strategien feinzujustieren
UCT wählt den Kindknoten 𝑘 des aktuell betrachteten Knotens 𝑝
aus, der den folgenden Ausdruck maximiert:
C = 1.0
C = 0.0
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Netze, Q-Lernen, Monte Carlo Simulationen
BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Netze, Q-Lernen, Monte Carlo Simulationen
SpoookyJS
„A JavaScript Multiagent Board Game Framework
Based On Monte Carlo Methods”
 http://www.spoookyjs.de
 https://github.com/janwieners/SpoookyJS
 http://togelius.blogspot.de/2014/07/mcts-for-arcade-games.html
/

Más contenido relacionado

Andere mochten auch

Atlas numero 2 Atlas Variaciones en Intervenciones de Cirugía General en el S...
Atlas numero 2 Atlas Variaciones en Intervenciones de Cirugía General en el S...Atlas numero 2 Atlas Variaciones en Intervenciones de Cirugía General en el S...
Atlas numero 2 Atlas Variaciones en Intervenciones de Cirugía General en el S...Atlas VPM
 
EuroBLECH2016: Zeit für Neues in der Oberflächenbearbeitung der Gerd Eisenblä...
EuroBLECH2016: Zeit für Neues in der Oberflächenbearbeitung der Gerd Eisenblä...EuroBLECH2016: Zeit für Neues in der Oberflächenbearbeitung der Gerd Eisenblä...
EuroBLECH2016: Zeit für Neues in der Oberflächenbearbeitung der Gerd Eisenblä...ghv Antriebstechnik Grafing bei München
 
Breve Analisis Sobre La Ti Cs
Breve Analisis Sobre La Ti CsBreve Analisis Sobre La Ti Cs
Breve Analisis Sobre La Ti CsFelipe Maldonado
 
Presentacion En Power Point
Presentacion En Power PointPresentacion En Power Point
Presentacion En Power PointMary Luz Ruiz
 
Acting On The International PR Stage
Acting On The International PR StageActing On The International PR Stage
Acting On The International PR StageSympra GmbH (GPRA)
 

Andere mochten auch (11)

Atlas numero 2 Atlas Variaciones en Intervenciones de Cirugía General en el S...
Atlas numero 2 Atlas Variaciones en Intervenciones de Cirugía General en el S...Atlas numero 2 Atlas Variaciones en Intervenciones de Cirugía General en el S...
Atlas numero 2 Atlas Variaciones en Intervenciones de Cirugía General en el S...
 
EuroBLECH2016: Zeit für Neues in der Oberflächenbearbeitung der Gerd Eisenblä...
EuroBLECH2016: Zeit für Neues in der Oberflächenbearbeitung der Gerd Eisenblä...EuroBLECH2016: Zeit für Neues in der Oberflächenbearbeitung der Gerd Eisenblä...
EuroBLECH2016: Zeit für Neues in der Oberflächenbearbeitung der Gerd Eisenblä...
 
Breve Analisis Sobre La Ti Cs
Breve Analisis Sobre La Ti CsBreve Analisis Sobre La Ti Cs
Breve Analisis Sobre La Ti Cs
 
Workshop börsenverein upload
Workshop börsenverein uploadWorkshop börsenverein upload
Workshop börsenverein upload
 
Presentacion En Power Point
Presentacion En Power PointPresentacion En Power Point
Presentacion En Power Point
 
AticPreescolar
AticPreescolarAticPreescolar
AticPreescolar
 
TCP/IP VS OSI COMPARACION
TCP/IP VS OSI COMPARACIONTCP/IP VS OSI COMPARACION
TCP/IP VS OSI COMPARACION
 
PAVONE Project Management 10 - Was ist neu?
PAVONE Project Management 10 - Was ist neu?PAVONE Project Management 10 - Was ist neu?
PAVONE Project Management 10 - Was ist neu?
 
Atic3º
Atic3ºAtic3º
Atic3º
 
Tema5.2. crisis
Tema5.2.  crisisTema5.2.  crisis
Tema5.2. crisis
 
Acting On The International PR Stage
Acting On The International PR StageActing On The International PR Stage
Acting On The International PR Stage
 

Mehr von Institute for Digital Humanities, University of Cologne

Mehr von Institute for Digital Humanities, University of Cologne (20)

Künstliche Intelligenz und visuelle Erzählungen: Comicanalyse | 17.04.2019 | ...
Künstliche Intelligenz und visuelle Erzählungen: Comicanalyse | 17.04.2019 | ...Künstliche Intelligenz und visuelle Erzählungen: Comicanalyse | 17.04.2019 | ...
Künstliche Intelligenz und visuelle Erzählungen: Comicanalyse | 17.04.2019 | ...
 
Augmented City –Street Art, Embodiment, Cultural Heritage & AR | 03.04.2019 |...
Augmented City –Street Art, Embodiment, Cultural Heritage & AR | 03.04.2019 |...Augmented City –Street Art, Embodiment, Cultural Heritage & AR | 03.04.2019 |...
Augmented City –Street Art, Embodiment, Cultural Heritage & AR | 03.04.2019 |...
 
Künstliche Intelligenz und visuelle Erzählungen: Comicanalyse | 03.04.2019 | ...
Künstliche Intelligenz und visuelle Erzählungen: Comicanalyse | 03.04.2019 | ...Künstliche Intelligenz und visuelle Erzählungen: Comicanalyse | 03.04.2019 | ...
Künstliche Intelligenz und visuelle Erzählungen: Comicanalyse | 03.04.2019 | ...
 
Transformation mittelhochdeutscher Erfahrungswelten – vom Text zum Computerga...
Transformation mittelhochdeutscher Erfahrungswelten – vom Text zum Computerga...Transformation mittelhochdeutscher Erfahrungswelten – vom Text zum Computerga...
Transformation mittelhochdeutscher Erfahrungswelten – vom Text zum Computerga...
 
Transformation mittelhochdeutscher Erfahrungswelten – vom Text zum Computerga...
Transformation mittelhochdeutscher Erfahrungswelten – vom Text zum Computerga...Transformation mittelhochdeutscher Erfahrungswelten – vom Text zum Computerga...
Transformation mittelhochdeutscher Erfahrungswelten – vom Text zum Computerga...
 
Bit sosem 2016-wieners-sitzung-13_ki-in-games
Bit sosem 2016-wieners-sitzung-13_ki-in-gamesBit sosem 2016-wieners-sitzung-13_ki-in-games
Bit sosem 2016-wieners-sitzung-13_ki-in-games
 
Bit sosem 2016-wieners-sitzung-12_bild-iv-computer-vision
Bit sosem 2016-wieners-sitzung-12_bild-iv-computer-visionBit sosem 2016-wieners-sitzung-12_bild-iv-computer-vision
Bit sosem 2016-wieners-sitzung-12_bild-iv-computer-vision
 
Bit sosem 2016-wieners-sitzung-11_bild-iii-filter
Bit sosem 2016-wieners-sitzung-11_bild-iii-filterBit sosem 2016-wieners-sitzung-11_bild-iii-filter
Bit sosem 2016-wieners-sitzung-11_bild-iii-filter
 
Bit sosem 2016-wieners-sitzung-10_bild-ii-punktoperationen
Bit sosem 2016-wieners-sitzung-10_bild-ii-punktoperationenBit sosem 2016-wieners-sitzung-10_bild-ii-punktoperationen
Bit sosem 2016-wieners-sitzung-10_bild-ii-punktoperationen
 
Bit sosem 2016-wieners-sitzung-09_bild-i-kompression
Bit sosem 2016-wieners-sitzung-09_bild-i-kompressionBit sosem 2016-wieners-sitzung-09_bild-i-kompression
Bit sosem 2016-wieners-sitzung-09_bild-i-kompression
 
Bit sosem 2016-wieners-sitzung-08_semantic-web
Bit sosem 2016-wieners-sitzung-08_semantic-webBit sosem 2016-wieners-sitzung-08_semantic-web
Bit sosem 2016-wieners-sitzung-08_semantic-web
 
Bit sosem 2016-wieners-sitzung-07_rechnerkommunikation-ii
Bit sosem 2016-wieners-sitzung-07_rechnerkommunikation-iiBit sosem 2016-wieners-sitzung-07_rechnerkommunikation-ii
Bit sosem 2016-wieners-sitzung-07_rechnerkommunikation-ii
 
Bit sosem 2016-wieners-sitzung-06_rechnerkommunikation
Bit sosem 2016-wieners-sitzung-06_rechnerkommunikationBit sosem 2016-wieners-sitzung-06_rechnerkommunikation
Bit sosem 2016-wieners-sitzung-06_rechnerkommunikation
 
Bit sosem 2016-wieners-sitzung-05_zellulaere-automaten-conway
Bit sosem 2016-wieners-sitzung-05_zellulaere-automaten-conwayBit sosem 2016-wieners-sitzung-05_zellulaere-automaten-conway
Bit sosem 2016-wieners-sitzung-05_zellulaere-automaten-conway
 
Bit sosem 2016-wieners-sitzung-04_theoretische-informatik
Bit sosem 2016-wieners-sitzung-04_theoretische-informatikBit sosem 2016-wieners-sitzung-04_theoretische-informatik
Bit sosem 2016-wieners-sitzung-04_theoretische-informatik
 
Bit sosem 2016-wieners-sitzung-03_algorithmen
Bit sosem 2016-wieners-sitzung-03_algorithmenBit sosem 2016-wieners-sitzung-03_algorithmen
Bit sosem 2016-wieners-sitzung-03_algorithmen
 
Bit sosem 2016-wieners-sitzung-02_datenstrukturen
Bit sosem 2016-wieners-sitzung-02_datenstrukturenBit sosem 2016-wieners-sitzung-02_datenstrukturen
Bit sosem 2016-wieners-sitzung-02_datenstrukturen
 
Bit sosem 2016-wieners-sitzung-01_auffrischung
Bit sosem 2016-wieners-sitzung-01_auffrischungBit sosem 2016-wieners-sitzung-01_auffrischung
Bit sosem 2016-wieners-sitzung-01_auffrischung
 
Bit sosem 2016-wieners-sitzung-00_themenueberblick
Bit sosem 2016-wieners-sitzung-00_themenueberblickBit sosem 2016-wieners-sitzung-00_themenueberblick
Bit sosem 2016-wieners-sitzung-00_themenueberblick
 
Bit wisem 2015-wieners-sitzung-13_Zusammenfassung II
Bit wisem 2015-wieners-sitzung-13_Zusammenfassung IIBit wisem 2015-wieners-sitzung-13_Zusammenfassung II
Bit wisem 2015-wieners-sitzung-13_Zusammenfassung II
 

BIT II SoSem 2015 | Basisinformationstechnologie II - 09_Künstliche Intelligenz in Computergames: Künstliche Neuronale Netze, Q-Lernen, Monte Carlo Simulationen

Hinweis der Redaktion

  1. Hierbei signifiziert 𝑤𝑖𝑗𝑜𝑗 die Ausgabe 𝑜𝑗 des Knotens 𝑗, die das betrachtete Neuron 𝑖 durch eine gewichtete Verbindung 𝑤𝑖𝑗 erreicht. Ist ℎ𝑖 berechnet, wird anschließend die Aktivierungsfunktion 𝑔(ℎ𝑖) ausgeführt, die das Aktivierungsmaß 𝑎𝑖 des Neurons 𝑖 kalkuliert:
  2. Netztopologien Ein vorwärtsgerichtetes künstliches neuronales Netz mit einer Eingabe-, einer versteckten- und einer Ausgabeschicht.
  3. NeuroEvolution of Augmenting Topologies (NEAT)
  4. NeuroEvolution of Augmenting Topologies (NEAT)
  5. Andrei Andrejewitsch Markow Als endlicher Markov-Entscheidungsprozess ist ein Verlauf von Entscheidungen signifiziert, bei dem die Belohnung des Agenten einzig von dem Zustand der Umwelt und der Aktion des Agenten abhängt und ist definiert als Tupel (𝑆, 𝐴, 𝑃, 𝑅, 𝛾). Hierbei beizeichnet Vgl. Ertel 2013, S. 291.
  6. Andrei Andrejewitsch Markow Als endlicher Markov-Entscheidungsprozess ist ein Verlauf von Entscheidungen signifiziert, bei dem die Belohnung des Agenten einzig von dem Zustand der Umwelt und der Aktion des Agenten abhängt und ist definiert als Tupel (𝑆, 𝐴, 𝑃, 𝑅, 𝛾). Hierbei beizeichnet Vgl. Ertel 2013, S. 291.
  7. Andrei Andrejewitsch Markow Als endlicher Markov-Entscheidungsprozess ist ein Verlauf von Entscheidungen signifiziert, bei dem die Belohnung des Agenten einzig von dem Zustand der Umwelt und der Aktion des Agenten abhängt und ist definiert als Tupel (𝑆, 𝐴, 𝑃, 𝑅, 𝛾). Hierbei beizeichnet Vgl. Ertel 2013, S. 291.
  8. Verstärkendes Lernen intendiert, den Agenten aufgrund seiner Erfahrungen mit der Umwelt eine optimale Strategie 𝜋 ∗ (𝑠)→ 𝑎 ∗ |𝑠 identifizieren und lernen zu lassen. Eine Strategie – in der Literatur zumeist mit dem Begriff policy bezeichnet und häufig auch als Politik oder Taktik übersetzt – ist optimal, wenn sie die Belohnung des Agenten auf lange Sicht maximiert. Die an Verfahren des verstärkenden Lernens gestellte Herausforderung besteht darin, eine optimale Strategie 𝜋 ∗ für beliebige Agentenumgebungen zu lernen.
  9. Das Ziel des Agenten besteht darin, möglichst schnell den Ausgang (Raum F) zu erreichen. Wüsste der Agent erfahrungsunabhängig von der Anordnung und Verknüpfung der Räume miteinander, könnte er mit der Aktionsfolge D  C  F das Problem optimal lösen. Der Agent weiß zu Beginn des Verfahrens jedoch nichts von seiner Umwelt und muss den Weg zum Ausgang durch Ausprobieren der verschiedenen Aktionsmöglichkeiten zuallererst lernen, um in späteren Erfahrungsepisoden von seinem gespeicherten Umweltwissen zu profitieren. Das Q-Lernverfahren, wie es im Folgenden beispielhaft vorgestellt wird, ermöglicht es dem Agenten, aus vergangenen Erfahrungen zu lernen und implementiert das verhaltenssteuernde Gedächtnis des Agenten.
  10. Umweltzustände – d.h. im vorliegenden Falle der Raum, in dem sich der Agent befindet – und Aktionen, die Zustandstransformationen bewirken, lassen sich darstellen in einer Matrix, die über die ganzzahligen Belohnungen (positive Werte) und Bestrafungen (negative Werte) informiert, die der Agent bei jeder seiner Aktionen von der Umwelt erhält. Wie am Rande der Belohnungsmatrix angemerkt, verzeichnet die Matrix das Umweltfeedback, das der Agent erhält, wenn er sich durch seine ausgeführte Handlung von einem Umweltzustand (im vorliegenden Beispiel ein Raum) in einen anderen Zustand seiner Umwelt bewegt. Querstriche in der Matrix signifizieren hierbei, dass keine Zustandsübergänge möglich sind – so ist es im obigen Beispiel nicht möglich, auf direktem Wege von Raum B nach Raum D, wohl aber nach Raum A zu gelangen.
  11. Zu Beginn des Verfahrens verzeichnet das Gedächtnis des Agenten keine verarbeiteten Erfahrungen – die Q-Wertetabelle des Agenten ist folglich leer bzw. alle Q-Werte werden mit Zufallswerten belegt oder mit Null initialisiert, wie mit der folgenden Q-Wertematrix veranschaulicht
  12. Im ersten Schritt des Algorithmus‘ wird ein zufälliger Initialzustand ausgewählt, der Agent im vorliegenden Beispiel somit in Raum C platziert. Ausgehend von Raum C bieten sich dem Agenten zwei Aktionsmöglichkeiten: Entweder er wechselt in den Raum D oder er erreicht den Zielzustand F. Das unmittelbare Umweltfeedback beträgt im einen Falle 0, im anderen Falle 100, wie in der folgenden Matrix veranschaulicht Sei die Lernrate 𝛼=1 und der Diskontierungsfaktor 𝛾=0.5 und sei jede Aktionswahl des Agenten in den folgenden Erfahrungsepisoden vollständig dem Zufall anheimgestellt, wählt der Agent zufallsbasiert den Zielzustand F als seinen nächsten Schritt. Im Zielzustand F angelangt, bietet sich dem Agenten die Möglichkeit, zu Raum C zurückzukehren oder im Zielraum F zu bleiben. Basierend auf dem Umweltfeedback aktualisiert der Agent den Q-Wert der von Raum C nach Raum F führenden Aktion basierend auf der Q-Lernregel
  13. Lernegel Diskontierungsfaktor
  14. Im ersten Schritt des Algorithmus‘ wird ein zufälliger Initialzustand ausgewählt, der Agent im vorliegenden Beispiel somit in Raum C platziert. Ausgehend von Raum C bieten sich dem Agenten zwei Aktionsmöglichkeiten: Entweder er wechselt in den Raum D oder er erreicht den Zielzustand F. Das unmittelbare Umweltfeedback beträgt im einen Falle 0, im anderen Falle 100, wie in der folgenden Matrix veranschaulicht Sei die Lernrate 𝛼=1 und der Diskontierungsfaktor 𝛾=0.5 und sei jede Aktionswahl des Agenten in den folgenden Erfahrungsepisoden vollständig dem Zufall anheimgestellt, wählt der Agent zufallsbasiert den Zielzustand F als seinen nächsten Schritt. Im Zielzustand F angelangt, bietet sich dem Agenten die Möglichkeit, zu Raum C zurückzukehren oder im Zielraum F zu bleiben. Basierend auf dem Umweltfeedback aktualisiert der Agent den Q-Wert der von Raum C nach Raum F führenden Aktion basierend auf der Q-Lernregel
  15. In der neuen Episode startet der Agent in Raum A und entscheidet sich zwischen den beiden Räumen B und D. Die Aktionswahl fällt auf Raum D, so dass sich der Agent in den Raum bewegt und anschließend den entsprechenden Q-Wert bestimmt: 𝑄 𝐴,𝐷 =𝑅 𝐴,𝐷 +0.5×𝑀𝑎𝑥 𝑄 𝐷,𝐴 ,𝑄 𝐷,𝐶 , 𝑄 𝐷,𝐸 =0+0.5×0=0. Anschließend entscheidet sich der Agent dafür, in den benachbarten Raum C zu wechseln. Der Q-Wert für den Zustandsübergang bestimmt sich nun als 𝑄 𝐷,𝐶 =𝑅 𝐷,𝐶 +0.5×𝑀𝑎𝑥 𝑄 𝐶,𝐹 ,𝑄 𝐶,𝐷 =0+0.5×100=50 und die Q-Wertematrix des Agenten findet sich wie folgend dargestellt ergänzt:
  16. Minimax
  17. Weiß kann mit zwei Zügen gewinnen
  18. 33 unterschiedliche Zugmöglichkeiten Durchschnittliche Gewinnhäufigkeit Mehrarmiges-Banditen-Problem Selektion, Expansion, Simulation und Rückpropagation UCT
  19. Monte Carlo Spielbaumsuche
  20. Mehrarmiges-Banditen-Problem