Cs221 rl

CS 221: Artificial Intelligence Reinforcement Learning Peter Norvig and Sebastian Thrun Slide credit: Dan Klein, Stuart Russell, Andrew Moore

Review: Markov Decision Processes ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Value Iteration ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Reinforcement Learning ,[object Object]

Example: Backgammon ,[object Object],[object Object],[object Object]

Example: Animal Learning ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

What to Learn ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Example +1 -1 0 0 0 0 0 0 0 0 0

Example +1 -1 0 0 0 0 0 0 0.9 0 0

Example +1 -1 0 0 0 0 0 0.8 0.92 0 0

Example +1 -1 -0.01 -.16 .12 -.12 .17 .28 .36 .20 -.2

Problem ,[object Object],[object Object],[object Object],[object Object],[object Object]

Quiz ,[object Object],[object Object]

Greedy TD-Agent ,[object Object],[object Object],[object Object]

Greedy Agent Results ,[object Object],[object Object],[object Object]

Exploratory Agent ,[object Object]

Alternative: Q-Learning ,[object Object],[object Object],[object Object],[object Object]

Q-Learning 0 0 0 +1 -1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Q-Learning 0 0 0 +1 -1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ?? 0 0 0 0 0 0 0 0 0 0 0 0

Q-Learning 0 0 0 +1 -1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 .45 0 0 0 0 0 0 0 0 0 0 0 0

Q-Learning 0 0 0 +1 -1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 .33 .78 0 0 0 0 0 0 0 0 0 0 0 0

Q-Learning Properties ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],S E S E

Practical Q-Learning ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Generalization Example ,[object Object],[object Object],[object Object]

Feature-Based Representations ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Linear Feature Functions ,[object Object],[object Object],[object Object]

Function Approximation ,[object Object],[object Object],[object Object],[object Object]

Summary: MDPs and RL ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Things we know how to do: Techniques:

Cs221 rl

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Andere mochten auch

Andere mochten auch (20)

Ähnlich wie Cs221 rl

Ähnlich wie Cs221 rl (20)

Mehr von darwinrlo

Mehr von darwinrlo (9)

Kürzlich hochgeladen

Kürzlich hochgeladen (20)

Cs221 rl