Hierarchical Reinforcement Learning

Hierarchical Reinforcement Learning Mausam [A Survey and Comparison of HRL techniques]

The Outline of the Talk ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Decision Making Slide courtesy Dan Weld Environment Percept Action What action next?

Personal Printerbot ,[object Object],[object Object],[object Object],[object Object],[object Object]

Episodic Markov Decision Process ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],* Markovian assumption. ** bounds R for infinite horizon. Episodic MDP ´ MDP with absorbing goals

Goal of an Episodic MDP ,[object Object],[object Object],[object Object],[object Object],* Non-noisy complete information perceptors

Solution of an Episodic MDP ,[object Object],[object Object]

Complexity of Value Iteration ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],* Bellman’s curse of dimensionality

Learning Environment Data ,[object Object],[object Object],[object Object],[object Object]

Decision Making while Learning* Environment Percepts Datum Action * Known as Reinforcement Learning What action next? ,[object Object],[object Object],[object Object],[object Object]

Reinforcement Learning ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Planning vs. MDP vs. RL ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Exploration vs. Exploitation ,[object Object],[object Object],[object Object],[object Object]

Model Based Learning ,[object Object],[object Object],[object Object],[object Object],[object Object]

Model Free Learning ,[object Object],[object Object],[object Object],[object Object]

Learning ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Q-Learning ,[object Object],[object Object],[object Object],Optimal policy is the action with maximum Q * value.

Q-Learning ,[object Object],[object Object],New estimate of Q value Old estimate of Q value

Semi-MDP: When actions take time. ,[object Object],[object Object],[object Object],[object Object]

Printerbot ,[object Object],[object Object],[object Object],[object Object],[object Object]

1. The Mathematical Perspective A Structure Paradigm ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

2. Modular Decision Making ,[object Object],[object Object],[object Object]

3. Background Knowledge ,[object Object],[object Object],[object Object],[object Object],[object Object]

A mechanism that exploits all three avenues : Hierarchies ,[object Object],[object Object],[object Object]

Hierarchy ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Hierarchical Algos ´ Gating Mechanism ,[object Object],[object Object],[object Object],[object Object],* *Can be a multi- level hierarchy. g is a gate b i is a behaviour

Option : Move e until end of hallway ,[object Object],[object Object],[object Object]

Options [Sutton, Precup, Singh’99] ,[object Object],[object Object],[object Object],[object Object],[object Object],*Can be a policy over lower level options.

Learning ,[object Object],[object Object],[object Object],[object Object]

Machine: Move e + Collision Avoidance Move e Choose Return End of hallway : End of hallway Obstacle Call M1 Call M2 M1 M2 Move w Move n Move n Return Move w Move s Move s Return

Hierarchies of Abstract Machines [Parr, Russell’97] ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Hierarchies of Abstract Machines ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Task Hierarchy: MAXQ Decomposition [Dietterich’00] Root Take Give Navigate(loc) Deliver Fetch Extend-arm Extend-arm Grab Release Move e Move w Move s Move n Children of a task are unordered

MAXQ Decomposition ,[object Object],[object Object],[object Object],[object Object],[object Object],*Observe the context-free nature of Q -value Reward received while navigating Reward received after navigation

1. State Abstraction ,[object Object],[object Object],[object Object]

State Abstraction in MAXQ ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

State Abstraction in Options, HAM ,[object Object],[object Object],[object Object],[object Object],[object Object],*[Andre,Russell’02]

2. Optimality Hierarchical Optimality vs. Recursive Optimality

Optimality ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],* Can define eqns for both optimalities **Adv. of using macro-actions maybe lost.

3. Language Expressiveness ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

4. Knowledge Requirements ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

5. Models advanced ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

6. Structure Paradigm ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Directions for Future Research ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Applications ,[object Object],[object Object],[object Object],[object Object],Images courtesy various sources Parts Assemblies Ware-house P2 P1 P3 P4 D2 D3 D4 D1

Thinking Big… ,[object Object],[object Object]

How to choose appropriate hierarchy ,[object Object],[object Object],[object Object],[object Object],[object Object]

The Structure Paradigm ,[object Object],[object Object]

Main ideas in HRL community ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Hierarchical Reinforcement Learning

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Andere mochten auch

Andere mochten auch (6)

Ähnlich wie Hierarchical Reinforcement Learning

Ähnlich wie Hierarchical Reinforcement Learning (20)

Mehr von ahmad bassiouny

Mehr von ahmad bassiouny (20)

Kürzlich hochgeladen

Kürzlich hochgeladen (20)

Hierarchical Reinforcement Learning