SlideShare ist ein Scribd-Unternehmen logo
1 von 55
Universität zu Köln. Historisch-Kulturwissenschaftliche Informationsverarbeitung
Dr. Jan G. Wieners // jan.wieners@uni-koeln.de
Basisinformationstechnologie II
Sommersemester 2016
20. Juni 2016 – Künstliche Intelligenz in Computergames: Künstliche Neuronale Netze,
Q-Lernen, Monte Carlo Simulationen
Universität zu Köln. Historisch-Kulturwissenschaftliche Informationsverarbeitung
Dr. Jan G. Wieners // jan.wieners@uni-koeln.de
Formulieren Sie bitte bis zum 24.06.2016(!) fünf
Klausurfragen zu der Veranstaltung “Einführung in
die Informationsverarbeitung” (Eide, WS 2015 /
2016).
Reichen Sie Ihre Klausurfragen in “WoMS” ein.
<pre>Modulabschluss BM1 – Einführungsvorlesung</pre>
Formulieren Sie bitte bis zum 01.07.2016(!) fünf
Klausurfragen zu der Veranstaltung “Einführung in
die Informationsverarbeitung” (Eide, WS 2015 /
2016).
Reichen Sie Ihre Klausurfragen in “WoMS” ein.
<pre>Modulabschluss BM1 – Einführungsvorlesung</pre>
 “MarI/O” - Machine Learning for Video Games
 Künstliche neuronale Netze / Evolution künstlicher
neuronaler Netze: “NEAT”
 Q-Lernen
 Verstärkendes Lernen, Markov-Entscheidungsprozess
 „SpoookyJS“ und „MCTS Super Mario“
 Monte Carlo Methoden / Monte Carlo Spielbaumsuche
Themenüberblick
„Inceptionism: Going Deeper
into Neural Networks”http://googleresearch.blogspot.de/2015/06/inceptionism-going-deeper-into-neural.html
 http://googleresearch.blogspot.de/2015/06/inceptionism-going-deeper-into-neural.html
“MarI/O”
Machine Learning for Video Games
Einfaches Modell eines künstlichen Neurons i mit:
 ℎ𝑖:Summe der gewichteten Eingabeimpulse 𝑤𝑖1…𝑤𝑖𝑛, die das Neuron
von verknüpften externen Einheiten oder von Sensoren (𝜉1…𝜉𝑛) erhält
 𝑎𝑖: Aktivierungsmaß
 𝑔(ℎ𝑖): Aktivierungsfunktion
 𝑜𝑖: Ausgabe des Neurons
Verarbeitung der Eingabeimpulse 𝑤𝑖1…𝑤𝑖𝑛 erfolgt in zwei Schritten:
 ℎ𝑖: gewichtete Summe der Eingabeimpulse bestimmen, die an dem
Neuron anliegen:
 Bestimmung des Aktivierungsmaßes (in den meisten Fällen: Ausgabe)
des Neurons:
Selbstorganisierende Karte (Kohonen-Karte)
Quelle: http://nn.cs.utexas.edu/downloads/papers/stanley.ec02.pdf
NeuroEvolution of Augmenting Topologies (NEAT)
 Evolving NN’s through Augmenting Topologies
Links
Video: https://www.youtube.com/watch?v=qv6UVOQ0F44
Lua-Implementation: http://pastebin.com/ZZmSNaHX
Paper: http://nn.cs.utexas.edu/downloads/papers/stanley.ec02.pdf
Verstärkendes Lernen
Q-Learning
Quelle: http://presse.immowelt.de/fileadmin/images/Pressedienst/Wohnen-Einrichten/img/2013/Saugroboter_Vorwerk.jpg
Endlicher Markov-Entscheidungsprozess
Verlauf von Entscheidungen, bei dem die
Belohnung des Agenten einzig von dem
Zustand der Umwelt und der Aktion des
Agenten abhängt. Definiert als Tupel
𝑆, 𝐴, 𝑃, 𝑅, 𝛾 mit:
• 𝑆 = 𝑠1, 𝑠2, … , 𝑠 𝑛 : Zustandsraum, d.h. die
möglichen Zustände der Umwelt; 𝑠𝑡 ∈ 𝑆
repräsentiert den Zustand der
Agentenumwelt zum Zeitpunkt 𝑡.
Endlicher Markov-Entscheidungsprozess
Verlauf von Entscheidungen, bei dem die
Belohnung des Agenten einzig von dem
Zustand der Umwelt und der Aktion des
Agenten abhängt. Definiert als Tupel
𝑆, 𝐴, 𝑃, 𝑅, 𝛾 :
• 𝑆 = 𝑠1, 𝑠2, … , 𝑠 𝑛 : Zustandsraum, d.h. die
möglichen Zustände der Umwelt; 𝑠𝑡 ∈ 𝑆
repräsentiert den Zustand der
Agentenumwelt zum Zeitpunkt 𝑡.
• 𝐴: Menge der Entscheidungen bzw.
Zugmöglichkeiten, die dem Agenten zu
jedem Umweltzustand 𝐴(𝑠) zur Verfügung
stehen.
Endlicher Markov-Entscheidungsprozess
𝑆, 𝐴, 𝑃, 𝑅, 𝛾 :
• 𝑎 𝑡 ∈ 𝐴(𝑠𝑡): von dem Agenten ausgeführte Aktion zum
Zeitpunkt 𝑡.
• Übergangsfunktion 𝑃 𝑠, 𝑎, 𝑠′ : führt die Umwelt in
ihrem Zustand 𝑠 aufgrund der Handlung 𝑎 des
Agenten zu einem neuen möglichen
Nachfolgezustand 𝑠′.
• 𝑅(𝑠, 𝑎, 𝑠′): Belohnungsfunktion, Feedback, das der
Agent aufgrund seiner Handlung erhält.
• Diskontierungsfaktor 𝛾 mit 0 ≤ 𝛾 ≤ 1 lässt sich dazu
verwenden, um das Lernverhalten des Agenten
feinzujustieren. Dient dazu, künftige Belohnungen
gegenüber zeitnahen Belohnungen abzuschwächen.
𝜋∗
(𝑠) → 𝑎∗
|𝑠
𝑄 𝐶, 𝐹
= 𝑅 𝐶, 𝐹 + 0.5 × 𝑀𝑎𝑥 𝑄 𝐹, 𝐶 , 𝑄 𝐹, 𝐹
= 100 + 0.5 × 𝑀𝑎𝑥 0,0
= 100 + 0.5 × 0 = 100.
Monte Carlo Spielbaumsuche
Quelle: Juul, Jesper: „255,168 ways of playing Tic Tac Toe” (http://www.jesperjuul.net/ludologist/255168-ways-of-playing-tic-tac-toe)
Monte Carlo Spielbaumsuche
Mehrarmiges-Banditen-Problem: UCB1 (Auer et al. 1995)
𝑋𝑗: durchschnittliche Auszahlung des Automatenarmes 𝑗; 𝑛𝑗:
Anzahl, wie häufig der Arm 𝑗 gespielt wurde
𝑛 : Gesamtzahl der bereits gespielten Spiele.
Browne et al. 2012: Belohnungsterm 𝑋𝑗: Exploitation
2 ln(𝑛)
𝑛 𝑗
: Exploration bislang vernachlässigter Strategiewahlen.
Upper Confidence Bounds applied to Trees (Kocsis und Szepesvári 2006)
𝑛 𝑝 : Besuchshäufigkeit des Elternknotens 𝑝
𝑛𝑖 : Besuchsfrequenz des Kindknotens 𝑖
𝑣𝑖 : Wert des Knotens 𝑖 (durchschnittliche Gewinnhäufigkeit des
betrachteten Kindknotens
𝐶 im Intervall [0,1] dient dem Zweck, den Grad der Erkundung
(exploration) noch nicht betrachteter Strategien feinzujustieren
UCT wählt den Kindknoten 𝑘 des aktuell betrachteten Knotens 𝑝
aus, der den folgenden Ausdruck maximiert:
C = 1.0
C = 0.0
SpoookyJS
„A JavaScript Multiagent Board Game Framework
Based On Monte Carlo Methods”
http://www.spoookyjs.de
https://github.com/janwieners/SpoookyJS
 http://togelius.blogspot.de/2014/07/mcts-for-arcade-games.html
/

Weitere ähnliche Inhalte

Andere mochten auch

7. Wykonywanie rysunków z wykorzystaniem komputerowego wspomagania projektowania
7. Wykonywanie rysunków z wykorzystaniem komputerowego wspomagania projektowania7. Wykonywanie rysunków z wykorzystaniem komputerowego wspomagania projektowania
7. Wykonywanie rysunków z wykorzystaniem komputerowego wspomagania projektowaniaAdam Osa
 
ใบเสร็จน้ำท่วม
ใบเสร็จน้ำท่วมใบเสร็จน้ำท่วม
ใบเสร็จน้ำท่วมVirat Han
 
12. Zastosowanie podstawowych technik wytwarzania części maszyn
12. Zastosowanie podstawowych technik wytwarzania części maszyn12. Zastosowanie podstawowych technik wytwarzania części maszyn
12. Zastosowanie podstawowych technik wytwarzania części maszynAdam Osa
 
9. Badanie układów elektrycznych i elektronicznych
9. Badanie układów elektrycznych i elektronicznych9. Badanie układów elektrycznych i elektronicznych
9. Badanie układów elektrycznych i elektronicznychAdam Osa
 
美团点评技术沙龙07 - 外卖订单系统架构演进与实践
美团点评技术沙龙07 - 外卖订单系统架构演进与实践美团点评技术沙龙07 - 外卖订单系统架构演进与实践
美团点评技术沙龙07 - 外卖订单系统架构演进与实践美团点评技术团队
 
Introduction to Information Architecture & Design - 6/25/16
Introduction to Information Architecture & Design - 6/25/16Introduction to Information Architecture & Design - 6/25/16
Introduction to Information Architecture & Design - 6/25/16Robert Stribley
 
Interneti dhe studentet
Interneti dhe studentet Interneti dhe studentet
Interneti dhe studentet Klodjan Hoxha
 
美团点评技术沙龙09 - 外卖O2O的用户画像实践
美团点评技术沙龙09 - 外卖O2O的用户画像实践美团点评技术沙龙09 - 外卖O2O的用户画像实践
美团点评技术沙龙09 - 外卖O2O的用户画像实践美团点评技术团队
 
美团点评技术沙龙13-前端工程化开发方案app-proto介绍
美团点评技术沙龙13-前端工程化开发方案app-proto介绍美团点评技术沙龙13-前端工程化开发方案app-proto介绍
美团点评技术沙龙13-前端工程化开发方案app-proto介绍美团点评技术团队
 
Hypnotic Content: What Direct Response Can Teach Software Companies - Susan S...
Hypnotic Content: What Direct Response Can Teach Software Companies - Susan S...Hypnotic Content: What Direct Response Can Teach Software Companies - Susan S...
Hypnotic Content: What Direct Response Can Teach Software Companies - Susan S...Traction Conf
 
Crea y Gestiona tu propia web profesional | Colegio Oficial de Psicólogos de ...
Crea y Gestiona tu propia web profesional | Colegio Oficial de Psicólogos de ...Crea y Gestiona tu propia web profesional | Colegio Oficial de Psicólogos de ...
Crea y Gestiona tu propia web profesional | Colegio Oficial de Psicólogos de ...José Ramón Sahuquillo Caballero
 
Home Design in SketchUp Pro
Home Design in SketchUp ProHome Design in SketchUp Pro
Home Design in SketchUp ProMARKITECT.me
 
美团点评沙龙12-LBS空间搜索架构的优化历程
美团点评沙龙12-LBS空间搜索架构的优化历程美团点评沙龙12-LBS空间搜索架构的优化历程
美团点评沙龙12-LBS空间搜索架构的优化历程美团点评技术团队
 
美团点评技术沙龙14:美团四层负载均衡
美团点评技术沙龙14:美团四层负载均衡美团点评技术沙龙14:美团四层负载均衡
美团点评技术沙龙14:美团四层负载均衡美团点评技术团队
 

Andere mochten auch (20)

Bit sosem 2016-wieners-sitzung-10_bild-ii-punktoperationen
Bit sosem 2016-wieners-sitzung-10_bild-ii-punktoperationenBit sosem 2016-wieners-sitzung-10_bild-ii-punktoperationen
Bit sosem 2016-wieners-sitzung-10_bild-ii-punktoperationen
 
PORTFOLIO
PORTFOLIOPORTFOLIO
PORTFOLIO
 
Jason O'Dwyer - Holistic
Jason O'Dwyer - HolisticJason O'Dwyer - Holistic
Jason O'Dwyer - Holistic
 
7. Wykonywanie rysunków z wykorzystaniem komputerowego wspomagania projektowania
7. Wykonywanie rysunków z wykorzystaniem komputerowego wspomagania projektowania7. Wykonywanie rysunków z wykorzystaniem komputerowego wspomagania projektowania
7. Wykonywanie rysunków z wykorzystaniem komputerowego wspomagania projektowania
 
US Patent 8978450
US Patent 8978450US Patent 8978450
US Patent 8978450
 
ใบเสร็จน้ำท่วม
ใบเสร็จน้ำท่วมใบเสร็จน้ำท่วม
ใบเสร็จน้ำท่วม
 
12. Zastosowanie podstawowych technik wytwarzania części maszyn
12. Zastosowanie podstawowych technik wytwarzania części maszyn12. Zastosowanie podstawowych technik wytwarzania części maszyn
12. Zastosowanie podstawowych technik wytwarzania części maszyn
 
9. Badanie układów elektrycznych i elektronicznych
9. Badanie układów elektrycznych i elektronicznych9. Badanie układów elektrycznych i elektronicznych
9. Badanie układów elektrycznych i elektronicznych
 
美团点评技术沙龙07 - 外卖订单系统架构演进与实践
美团点评技术沙龙07 - 外卖订单系统架构演进与实践美团点评技术沙龙07 - 外卖订单系统架构演进与实践
美团点评技术沙龙07 - 外卖订单系统架构演进与实践
 
Introduction to Information Architecture & Design - 6/25/16
Introduction to Information Architecture & Design - 6/25/16Introduction to Information Architecture & Design - 6/25/16
Introduction to Information Architecture & Design - 6/25/16
 
Interneti dhe studentet
Interneti dhe studentet Interneti dhe studentet
Interneti dhe studentet
 
Historia de la penicilina
Historia de la penicilinaHistoria de la penicilina
Historia de la penicilina
 
美团点评技术沙龙09 - 外卖O2O的用户画像实践
美团点评技术沙龙09 - 外卖O2O的用户画像实践美团点评技术沙龙09 - 外卖O2O的用户画像实践
美团点评技术沙龙09 - 外卖O2O的用户画像实践
 
美团点评技术沙龙13-前端工程化开发方案app-proto介绍
美团点评技术沙龙13-前端工程化开发方案app-proto介绍美团点评技术沙龙13-前端工程化开发方案app-proto介绍
美团点评技术沙龙13-前端工程化开发方案app-proto介绍
 
Hypnotic Content: What Direct Response Can Teach Software Companies - Susan S...
Hypnotic Content: What Direct Response Can Teach Software Companies - Susan S...Hypnotic Content: What Direct Response Can Teach Software Companies - Susan S...
Hypnotic Content: What Direct Response Can Teach Software Companies - Susan S...
 
Crea y Gestiona tu propia web profesional | Colegio Oficial de Psicólogos de ...
Crea y Gestiona tu propia web profesional | Colegio Oficial de Psicólogos de ...Crea y Gestiona tu propia web profesional | Colegio Oficial de Psicólogos de ...
Crea y Gestiona tu propia web profesional | Colegio Oficial de Psicólogos de ...
 
Home Design in SketchUp Pro
Home Design in SketchUp ProHome Design in SketchUp Pro
Home Design in SketchUp Pro
 
美团点评沙龙12-LBS空间搜索架构的优化历程
美团点评沙龙12-LBS空间搜索架构的优化历程美团点评沙龙12-LBS空间搜索架构的优化历程
美团点评沙龙12-LBS空间搜索架构的优化历程
 
美团点评技术沙龙14:美团四层负载均衡
美团点评技术沙龙14:美团四层负载均衡美团点评技术沙龙14:美团四层负载均衡
美团点评技术沙龙14:美团四层负载均衡
 
BIT I WiSe 2014 | Basisinformationstechnologie I - 00: Organisation und Semin...
BIT I WiSe 2014 | Basisinformationstechnologie I - 00: Organisation und Semin...BIT I WiSe 2014 | Basisinformationstechnologie I - 00: Organisation und Semin...
BIT I WiSe 2014 | Basisinformationstechnologie I - 00: Organisation und Semin...
 

Mehr von Institute for Digital Humanities, University of Cologne

Mehr von Institute for Digital Humanities, University of Cologne (20)

Künstliche Intelligenz und visuelle Erzählungen: Comicanalyse | 17.04.2019 | ...
Künstliche Intelligenz und visuelle Erzählungen: Comicanalyse | 17.04.2019 | ...Künstliche Intelligenz und visuelle Erzählungen: Comicanalyse | 17.04.2019 | ...
Künstliche Intelligenz und visuelle Erzählungen: Comicanalyse | 17.04.2019 | ...
 
Augmented City –Street Art, Embodiment, Cultural Heritage & AR | 03.04.2019 |...
Augmented City –Street Art, Embodiment, Cultural Heritage & AR | 03.04.2019 |...Augmented City –Street Art, Embodiment, Cultural Heritage & AR | 03.04.2019 |...
Augmented City –Street Art, Embodiment, Cultural Heritage & AR | 03.04.2019 |...
 
Künstliche Intelligenz und visuelle Erzählungen: Comicanalyse | 03.04.2019 | ...
Künstliche Intelligenz und visuelle Erzählungen: Comicanalyse | 03.04.2019 | ...Künstliche Intelligenz und visuelle Erzählungen: Comicanalyse | 03.04.2019 | ...
Künstliche Intelligenz und visuelle Erzählungen: Comicanalyse | 03.04.2019 | ...
 
Transformation mittelhochdeutscher Erfahrungswelten – vom Text zum Computerga...
Transformation mittelhochdeutscher Erfahrungswelten – vom Text zum Computerga...Transformation mittelhochdeutscher Erfahrungswelten – vom Text zum Computerga...
Transformation mittelhochdeutscher Erfahrungswelten – vom Text zum Computerga...
 
Transformation mittelhochdeutscher Erfahrungswelten – vom Text zum Computerga...
Transformation mittelhochdeutscher Erfahrungswelten – vom Text zum Computerga...Transformation mittelhochdeutscher Erfahrungswelten – vom Text zum Computerga...
Transformation mittelhochdeutscher Erfahrungswelten – vom Text zum Computerga...
 
Bit sosem 2016-wieners-sitzung-12_bild-iv-computer-vision
Bit sosem 2016-wieners-sitzung-12_bild-iv-computer-visionBit sosem 2016-wieners-sitzung-12_bild-iv-computer-vision
Bit sosem 2016-wieners-sitzung-12_bild-iv-computer-vision
 
Bit sosem 2016-wieners-sitzung-11_bild-iii-filter
Bit sosem 2016-wieners-sitzung-11_bild-iii-filterBit sosem 2016-wieners-sitzung-11_bild-iii-filter
Bit sosem 2016-wieners-sitzung-11_bild-iii-filter
 
Bit sosem 2016-wieners-sitzung-09_bild-i-kompression
Bit sosem 2016-wieners-sitzung-09_bild-i-kompressionBit sosem 2016-wieners-sitzung-09_bild-i-kompression
Bit sosem 2016-wieners-sitzung-09_bild-i-kompression
 
Bit sosem 2016-wieners-sitzung-08_semantic-web
Bit sosem 2016-wieners-sitzung-08_semantic-webBit sosem 2016-wieners-sitzung-08_semantic-web
Bit sosem 2016-wieners-sitzung-08_semantic-web
 
Bit sosem 2016-wieners-sitzung-07_rechnerkommunikation-ii
Bit sosem 2016-wieners-sitzung-07_rechnerkommunikation-iiBit sosem 2016-wieners-sitzung-07_rechnerkommunikation-ii
Bit sosem 2016-wieners-sitzung-07_rechnerkommunikation-ii
 
Bit sosem 2016-wieners-sitzung-06_rechnerkommunikation
Bit sosem 2016-wieners-sitzung-06_rechnerkommunikationBit sosem 2016-wieners-sitzung-06_rechnerkommunikation
Bit sosem 2016-wieners-sitzung-06_rechnerkommunikation
 
Bit sosem 2016-wieners-sitzung-05_zellulaere-automaten-conway
Bit sosem 2016-wieners-sitzung-05_zellulaere-automaten-conwayBit sosem 2016-wieners-sitzung-05_zellulaere-automaten-conway
Bit sosem 2016-wieners-sitzung-05_zellulaere-automaten-conway
 
Bit sosem 2016-wieners-sitzung-04_theoretische-informatik
Bit sosem 2016-wieners-sitzung-04_theoretische-informatikBit sosem 2016-wieners-sitzung-04_theoretische-informatik
Bit sosem 2016-wieners-sitzung-04_theoretische-informatik
 
Bit sosem 2016-wieners-sitzung-03_algorithmen
Bit sosem 2016-wieners-sitzung-03_algorithmenBit sosem 2016-wieners-sitzung-03_algorithmen
Bit sosem 2016-wieners-sitzung-03_algorithmen
 
Bit sosem 2016-wieners-sitzung-02_datenstrukturen
Bit sosem 2016-wieners-sitzung-02_datenstrukturenBit sosem 2016-wieners-sitzung-02_datenstrukturen
Bit sosem 2016-wieners-sitzung-02_datenstrukturen
 
Bit sosem 2016-wieners-sitzung-00_themenueberblick
Bit sosem 2016-wieners-sitzung-00_themenueberblickBit sosem 2016-wieners-sitzung-00_themenueberblick
Bit sosem 2016-wieners-sitzung-00_themenueberblick
 
Bit wisem 2015-wieners-sitzung-11_Software-Entwicklung II: Entwurfsmuster
Bit wisem 2015-wieners-sitzung-11_Software-Entwicklung II: EntwurfsmusterBit wisem 2015-wieners-sitzung-11_Software-Entwicklung II: Entwurfsmuster
Bit wisem 2015-wieners-sitzung-11_Software-Entwicklung II: Entwurfsmuster
 
Bit wisem 2015-wieners-sitzung-10_Programmiersprachen
Bit wisem 2015-wieners-sitzung-10_ProgrammiersprachenBit wisem 2015-wieners-sitzung-10_Programmiersprachen
Bit wisem 2015-wieners-sitzung-10_Programmiersprachen
 
Bit wisem 2015-wieners-sitzung-09_Software-Entwicklung
Bit wisem 2015-wieners-sitzung-09_Software-EntwicklungBit wisem 2015-wieners-sitzung-09_Software-Entwicklung
Bit wisem 2015-wieners-sitzung-09_Software-Entwicklung
 
Bit wisem 2015-wieners-sitzung-08_Betriebssysteme: Metaphern, Datei- und Ress...
Bit wisem 2015-wieners-sitzung-08_Betriebssysteme: Metaphern, Datei- und Ress...Bit wisem 2015-wieners-sitzung-08_Betriebssysteme: Metaphern, Datei- und Ress...
Bit wisem 2015-wieners-sitzung-08_Betriebssysteme: Metaphern, Datei- und Ress...
 

Bit sosem 2016-wieners-sitzung-13_ki-in-games

  • 1. Universität zu Köln. Historisch-Kulturwissenschaftliche Informationsverarbeitung Dr. Jan G. Wieners // jan.wieners@uni-koeln.de Basisinformationstechnologie II Sommersemester 2016 20. Juni 2016 – Künstliche Intelligenz in Computergames: Künstliche Neuronale Netze, Q-Lernen, Monte Carlo Simulationen Universität zu Köln. Historisch-Kulturwissenschaftliche Informationsverarbeitung Dr. Jan G. Wieners // jan.wieners@uni-koeln.de
  • 2. Formulieren Sie bitte bis zum 24.06.2016(!) fünf Klausurfragen zu der Veranstaltung “Einführung in die Informationsverarbeitung” (Eide, WS 2015 / 2016). Reichen Sie Ihre Klausurfragen in “WoMS” ein. <pre>Modulabschluss BM1 – Einführungsvorlesung</pre>
  • 3. Formulieren Sie bitte bis zum 01.07.2016(!) fünf Klausurfragen zu der Veranstaltung “Einführung in die Informationsverarbeitung” (Eide, WS 2015 / 2016). Reichen Sie Ihre Klausurfragen in “WoMS” ein. <pre>Modulabschluss BM1 – Einführungsvorlesung</pre>
  • 4.  “MarI/O” - Machine Learning for Video Games  Künstliche neuronale Netze / Evolution künstlicher neuronaler Netze: “NEAT”  Q-Lernen  Verstärkendes Lernen, Markov-Entscheidungsprozess  „SpoookyJS“ und „MCTS Super Mario“  Monte Carlo Methoden / Monte Carlo Spielbaumsuche Themenüberblick
  • 5.
  • 6. „Inceptionism: Going Deeper into Neural Networks”http://googleresearch.blogspot.de/2015/06/inceptionism-going-deeper-into-neural.html
  • 7.
  • 8.
  • 9.
  • 10.
  • 11.
  • 12.
  • 15. Einfaches Modell eines künstlichen Neurons i mit:  ℎ𝑖:Summe der gewichteten Eingabeimpulse 𝑤𝑖1…𝑤𝑖𝑛, die das Neuron von verknüpften externen Einheiten oder von Sensoren (𝜉1…𝜉𝑛) erhält  𝑎𝑖: Aktivierungsmaß  𝑔(ℎ𝑖): Aktivierungsfunktion  𝑜𝑖: Ausgabe des Neurons
  • 16. Verarbeitung der Eingabeimpulse 𝑤𝑖1…𝑤𝑖𝑛 erfolgt in zwei Schritten:  ℎ𝑖: gewichtete Summe der Eingabeimpulse bestimmen, die an dem Neuron anliegen:  Bestimmung des Aktivierungsmaßes (in den meisten Fällen: Ausgabe) des Neurons:
  • 17.
  • 18.
  • 19.
  • 21. Quelle: http://nn.cs.utexas.edu/downloads/papers/stanley.ec02.pdf NeuroEvolution of Augmenting Topologies (NEAT)  Evolving NN’s through Augmenting Topologies
  • 25. Endlicher Markov-Entscheidungsprozess Verlauf von Entscheidungen, bei dem die Belohnung des Agenten einzig von dem Zustand der Umwelt und der Aktion des Agenten abhängt. Definiert als Tupel 𝑆, 𝐴, 𝑃, 𝑅, 𝛾 mit: • 𝑆 = 𝑠1, 𝑠2, … , 𝑠 𝑛 : Zustandsraum, d.h. die möglichen Zustände der Umwelt; 𝑠𝑡 ∈ 𝑆 repräsentiert den Zustand der Agentenumwelt zum Zeitpunkt 𝑡.
  • 26. Endlicher Markov-Entscheidungsprozess Verlauf von Entscheidungen, bei dem die Belohnung des Agenten einzig von dem Zustand der Umwelt und der Aktion des Agenten abhängt. Definiert als Tupel 𝑆, 𝐴, 𝑃, 𝑅, 𝛾 : • 𝑆 = 𝑠1, 𝑠2, … , 𝑠 𝑛 : Zustandsraum, d.h. die möglichen Zustände der Umwelt; 𝑠𝑡 ∈ 𝑆 repräsentiert den Zustand der Agentenumwelt zum Zeitpunkt 𝑡. • 𝐴: Menge der Entscheidungen bzw. Zugmöglichkeiten, die dem Agenten zu jedem Umweltzustand 𝐴(𝑠) zur Verfügung stehen.
  • 27. Endlicher Markov-Entscheidungsprozess 𝑆, 𝐴, 𝑃, 𝑅, 𝛾 : • 𝑎 𝑡 ∈ 𝐴(𝑠𝑡): von dem Agenten ausgeführte Aktion zum Zeitpunkt 𝑡. • Übergangsfunktion 𝑃 𝑠, 𝑎, 𝑠′ : führt die Umwelt in ihrem Zustand 𝑠 aufgrund der Handlung 𝑎 des Agenten zu einem neuen möglichen Nachfolgezustand 𝑠′. • 𝑅(𝑠, 𝑎, 𝑠′): Belohnungsfunktion, Feedback, das der Agent aufgrund seiner Handlung erhält. • Diskontierungsfaktor 𝛾 mit 0 ≤ 𝛾 ≤ 1 lässt sich dazu verwenden, um das Lernverhalten des Agenten feinzujustieren. Dient dazu, künftige Belohnungen gegenüber zeitnahen Belohnungen abzuschwächen.
  • 29.
  • 30.
  • 31.
  • 32.
  • 33. 𝑄 𝐶, 𝐹 = 𝑅 𝐶, 𝐹 + 0.5 × 𝑀𝑎𝑥 𝑄 𝐹, 𝐶 , 𝑄 𝐹, 𝐹 = 100 + 0.5 × 𝑀𝑎𝑥 0,0 = 100 + 0.5 × 0 = 100.
  • 34.
  • 35.
  • 37.
  • 38. Quelle: Juul, Jesper: „255,168 ways of playing Tic Tac Toe” (http://www.jesperjuul.net/ludologist/255168-ways-of-playing-tic-tac-toe)
  • 39.
  • 40.
  • 41.
  • 42.
  • 43.
  • 44.
  • 46.
  • 47.
  • 48. Mehrarmiges-Banditen-Problem: UCB1 (Auer et al. 1995) 𝑋𝑗: durchschnittliche Auszahlung des Automatenarmes 𝑗; 𝑛𝑗: Anzahl, wie häufig der Arm 𝑗 gespielt wurde 𝑛 : Gesamtzahl der bereits gespielten Spiele. Browne et al. 2012: Belohnungsterm 𝑋𝑗: Exploitation 2 ln(𝑛) 𝑛 𝑗 : Exploration bislang vernachlässigter Strategiewahlen.
  • 49. Upper Confidence Bounds applied to Trees (Kocsis und Szepesvári 2006) 𝑛 𝑝 : Besuchshäufigkeit des Elternknotens 𝑝 𝑛𝑖 : Besuchsfrequenz des Kindknotens 𝑖 𝑣𝑖 : Wert des Knotens 𝑖 (durchschnittliche Gewinnhäufigkeit des betrachteten Kindknotens 𝐶 im Intervall [0,1] dient dem Zweck, den Grad der Erkundung (exploration) noch nicht betrachteter Strategien feinzujustieren UCT wählt den Kindknoten 𝑘 des aktuell betrachteten Knotens 𝑝 aus, der den folgenden Ausdruck maximiert:
  • 50. C = 1.0 C = 0.0
  • 51.
  • 52.
  • 53. SpoookyJS „A JavaScript Multiagent Board Game Framework Based On Monte Carlo Methods” http://www.spoookyjs.de https://github.com/janwieners/SpoookyJS
  • 55. /

Hinweis der Redaktion

  1. Hierbei signifiziert 𝑤𝑖𝑗𝑜𝑗 die Ausgabe 𝑜𝑗 des Knotens 𝑗, die das betrachtete Neuron 𝑖 durch eine gewichtete Verbindung 𝑤𝑖𝑗 erreicht. Ist ℎ𝑖 berechnet, wird anschließend die Aktivierungsfunktion 𝑔(ℎ𝑖) ausgeführt, die das Aktivierungsmaß 𝑎𝑖 des Neurons 𝑖 kalkuliert:
  2. Netztopologien Ein vorwärtsgerichtetes künstliches neuronales Netz mit einer Eingabe-, einer versteckten- und einer Ausgabeschicht.
  3. NeuroEvolution of Augmenting Topologies (NEAT)
  4. NeuroEvolution of Augmenting Topologies (NEAT)
  5. Andrei Andrejewitsch Markow Als endlicher Markov-Entscheidungsprozess ist ein Verlauf von Entscheidungen signifiziert, bei dem die Belohnung des Agenten einzig von dem Zustand der Umwelt und der Aktion des Agenten abhängt und ist definiert als Tupel (𝑆, 𝐴, 𝑃, 𝑅, 𝛾). Hierbei beizeichnet Vgl. Ertel 2013, S. 291.
  6. Andrei Andrejewitsch Markow Als endlicher Markov-Entscheidungsprozess ist ein Verlauf von Entscheidungen signifiziert, bei dem die Belohnung des Agenten einzig von dem Zustand der Umwelt und der Aktion des Agenten abhängt und ist definiert als Tupel (𝑆, 𝐴, 𝑃, 𝑅, 𝛾). Hierbei beizeichnet Vgl. Ertel 2013, S. 291.
  7. Andrei Andrejewitsch Markow Als endlicher Markov-Entscheidungsprozess ist ein Verlauf von Entscheidungen signifiziert, bei dem die Belohnung des Agenten einzig von dem Zustand der Umwelt und der Aktion des Agenten abhängt und ist definiert als Tupel (𝑆, 𝐴, 𝑃, 𝑅, 𝛾). Hierbei beizeichnet Vgl. Ertel 2013, S. 291.
  8. Verstärkendes Lernen intendiert, den Agenten aufgrund seiner Erfahrungen mit der Umwelt eine optimale Strategie 𝜋 ∗ (𝑠)→ 𝑎 ∗ |𝑠 identifizieren und lernen zu lassen. Eine Strategie – in der Literatur zumeist mit dem Begriff policy bezeichnet und häufig auch als Politik oder Taktik übersetzt – ist optimal, wenn sie die Belohnung des Agenten auf lange Sicht maximiert. Die an Verfahren des verstärkenden Lernens gestellte Herausforderung besteht darin, eine optimale Strategie 𝜋 ∗ für beliebige Agentenumgebungen zu lernen.
  9. Das Ziel des Agenten besteht darin, möglichst schnell den Ausgang (Raum F) zu erreichen. Wüsste der Agent erfahrungsunabhängig von der Anordnung und Verknüpfung der Räume miteinander, könnte er mit der Aktionsfolge D  C  F das Problem optimal lösen. Der Agent weiß zu Beginn des Verfahrens jedoch nichts von seiner Umwelt und muss den Weg zum Ausgang durch Ausprobieren der verschiedenen Aktionsmöglichkeiten zuallererst lernen, um in späteren Erfahrungsepisoden von seinem gespeicherten Umweltwissen zu profitieren. Das Q-Lernverfahren, wie es im Folgenden beispielhaft vorgestellt wird, ermöglicht es dem Agenten, aus vergangenen Erfahrungen zu lernen und implementiert das verhaltenssteuernde Gedächtnis des Agenten.
  10. Umweltzustände – d.h. im vorliegenden Falle der Raum, in dem sich der Agent befindet – und Aktionen, die Zustandstransformationen bewirken, lassen sich darstellen in einer Matrix, die über die ganzzahligen Belohnungen (positive Werte) und Bestrafungen (negative Werte) informiert, die der Agent bei jeder seiner Aktionen von der Umwelt erhält. Wie am Rande der Belohnungsmatrix angemerkt, verzeichnet die Matrix das Umweltfeedback, das der Agent erhält, wenn er sich durch seine ausgeführte Handlung von einem Umweltzustand (im vorliegenden Beispiel ein Raum) in einen anderen Zustand seiner Umwelt bewegt. Querstriche in der Matrix signifizieren hierbei, dass keine Zustandsübergänge möglich sind – so ist es im obigen Beispiel nicht möglich, auf direktem Wege von Raum B nach Raum D, wohl aber nach Raum A zu gelangen.
  11. Zu Beginn des Verfahrens verzeichnet das Gedächtnis des Agenten keine verarbeiteten Erfahrungen – die Q-Wertetabelle des Agenten ist folglich leer bzw. alle Q-Werte werden mit Zufallswerten belegt oder mit Null initialisiert, wie mit der folgenden Q-Wertematrix veranschaulicht
  12. Im ersten Schritt des Algorithmus‘ wird ein zufälliger Initialzustand ausgewählt, der Agent im vorliegenden Beispiel somit in Raum C platziert. Ausgehend von Raum C bieten sich dem Agenten zwei Aktionsmöglichkeiten: Entweder er wechselt in den Raum D oder er erreicht den Zielzustand F. Das unmittelbare Umweltfeedback beträgt im einen Falle 0, im anderen Falle 100, wie in der folgenden Matrix veranschaulicht Sei die Lernrate 𝛼=1 und der Diskontierungsfaktor 𝛾=0.5 und sei jede Aktionswahl des Agenten in den folgenden Erfahrungsepisoden vollständig dem Zufall anheimgestellt, wählt der Agent zufallsbasiert den Zielzustand F als seinen nächsten Schritt. Im Zielzustand F angelangt, bietet sich dem Agenten die Möglichkeit, zu Raum C zurückzukehren oder im Zielraum F zu bleiben. Basierend auf dem Umweltfeedback aktualisiert der Agent den Q-Wert der von Raum C nach Raum F führenden Aktion basierend auf der Q-Lernregel
  13. Lernegel Diskontierungsfaktor
  14. Im ersten Schritt des Algorithmus‘ wird ein zufälliger Initialzustand ausgewählt, der Agent im vorliegenden Beispiel somit in Raum C platziert. Ausgehend von Raum C bieten sich dem Agenten zwei Aktionsmöglichkeiten: Entweder er wechselt in den Raum D oder er erreicht den Zielzustand F. Das unmittelbare Umweltfeedback beträgt im einen Falle 0, im anderen Falle 100, wie in der folgenden Matrix veranschaulicht Sei die Lernrate 𝛼=1 und der Diskontierungsfaktor 𝛾=0.5 und sei jede Aktionswahl des Agenten in den folgenden Erfahrungsepisoden vollständig dem Zufall anheimgestellt, wählt der Agent zufallsbasiert den Zielzustand F als seinen nächsten Schritt. Im Zielzustand F angelangt, bietet sich dem Agenten die Möglichkeit, zu Raum C zurückzukehren oder im Zielraum F zu bleiben. Basierend auf dem Umweltfeedback aktualisiert der Agent den Q-Wert der von Raum C nach Raum F führenden Aktion basierend auf der Q-Lernregel
  15. In der neuen Episode startet der Agent in Raum A und entscheidet sich zwischen den beiden Räumen B und D. Die Aktionswahl fällt auf Raum D, so dass sich der Agent in den Raum bewegt und anschließend den entsprechenden Q-Wert bestimmt: 𝑄 𝐴,𝐷 =𝑅 𝐴,𝐷 +0.5×𝑀𝑎𝑥 𝑄 𝐷,𝐴 ,𝑄 𝐷,𝐶 , 𝑄 𝐷,𝐸 =0+0.5×0=0. Anschließend entscheidet sich der Agent dafür, in den benachbarten Raum C zu wechseln. Der Q-Wert für den Zustandsübergang bestimmt sich nun als 𝑄 𝐷,𝐶 =𝑅 𝐷,𝐶 +0.5×𝑀𝑎𝑥 𝑄 𝐶,𝐹 ,𝑄 𝐶,𝐷 =0+0.5×100=50 und die Q-Wertematrix des Agenten findet sich wie folgend dargestellt ergänzt:
  16. Minimax
  17. Weiß kann mit zwei Zügen gewinnen
  18. 33 unterschiedliche Zugmöglichkeiten Durchschnittliche Gewinnhäufigkeit Mehrarmiges-Banditen-Problem Selektion, Expansion, Simulation und Rückpropagation UCT
  19. Monte Carlo Spielbaumsuche
  20. Mehrarmiges-Banditen-Problem