Planejamento Probabilístico - Uma introdução aos MDPs e aos algoritmos IV e RTDP

Processos Markovianos de Decisõ (MDPs)
a
Algoritmos
Conclusõ
a

Planejamento Probabil´
ıstico
Uma introdu¸õ aos MDPs e aos algoritmos IV e RTDP
ca

Daniel Baptista Dias

Grupo de Planejamento, IME/USP
27 de julho de 2011

Daniel Baptista Dias Planejamento Probabil´
ıstico

a
Algoritmos
Conclusõ
a

Agenda

1 Processos Markovianos de Decisõ (MDPs)
a
Introdu¸õ
ca
Modelo Formal
Modelo Conceitual

2 Algoritmos
Itera¸õ de Valor
ca
RTDP

3 Conclusõ
a
Bibliografia
D´vidas?
u

ıstico

a Introdu¸õ
ca
Algoritmos Modelo Formal
Conclusõ
a Modelo Conceitual

Introdu¸õ
ca

No planejamento cl´ssico, assumimos que as a¸˜es tˆm um
a co e
apenas um efeito, que pode ser predito;
Por´m em alguns momentos isto nõ ´ verdade.
e a e
Exemplo: sistema de manuseio de caixotes em um armaz´m.
e

ıstico

a Introdu¸õ
ca
Conclusõ
a Modelo Conceitual

Introdu¸õ
ca

A incerteza destas a¸˜es pode ocorrer devido:
co
Falha nas a¸˜es: instigada por um agente com a finalidade de
co
mudar o estado do sistema, a mesma nõ foi bem sucedida;
a
ex: a garra nõ segura a caixa corretamente;
a
Evento ex´geno: que ocorre no sistema sem o controle o
o
agente; ex: a caixa quebra devido a sua fragilidade,
derrubando seu conte´do.
u

ıstico

a Introdu¸õ
ca
Conclusõ
a Modelo Conceitual

Um exemplo: Navega¸õ de robˆs
ca o

ıstico

a Introdu¸õ
ca
Conclusõ
a Modelo Conceitual

Navega¸õ de robˆs
ca o

Problema:
Um robˆ deve ir do:
o
ponto de origem (1, 1) at´
e
ponto de destino (6, 4)
Ele pode se mover em quatro dire¸˜es:
co
norte, sul, leste e oeste.
Devido a um defeito no mecanismo de locomo¸õ:
ca
em 20% dos movimentos ele erra dire¸õ em 90 graus,
ca
tornando-os incertos;
Desafio:

Como ir at´ o destino apesar das adversidades?
e

ıstico

a Introdu¸õ
ca
Conclusõ
a Modelo Conceitual

MDP - O que ´?
e

Uma forma de resolver o desafio ´ modelar e resolver ele como
e
um Processo Markoviano de Decisõ (Markov Decision
a
Process, MDP);

Um MDP ´ um sistema estoc´stico, que:
e a
Fica em um determinado estado em um ponto no tempo,
podendo transitar para outros estados a medida que o sistema
evolui;
´
E alterado em respostas a eventos (a¸˜es ou eventos
co
ex´genos);
o
Evolui em est´gios, transitando de um est´gio para outro ap´s
a a o
a ocorrˆncia de um evento.
e

ıstico

a Introdu¸õ
ca
Conclusõ
a Modelo Conceitual

MDP - Modelo Formal

Formalmente, ele pode ser definido como um tupla
M = S, A, p, r , c , onde:
S ´ um conjunto finito de estados poss´
e ıveis do ambiente;
A ´ um conjunto finito de a¸˜es execut´veis pelo agente;
e co a
p : S × A × S → [0, 1] ´ uma fun¸õ de transi¸õ
e ca ca
probabil´
ıstica;
r : S → + ´ uma fun¸õ que associa uma recompensa a
e ca
cada estado;
c :A→ + ´ uma fun¸õ que associa um custo a cada a¸õ;
e ca ca

ıstico

a Introdu¸õ
ca
Conclusõ
a Modelo Conceitual

MDP - Estados

Um estado s representa uma configura¸õ de como o
ca
sistema est´ em um per´
a ıodo de tempo;

No nosso exemplo...
O estado pode ser representado com a varia¸õ da posi¸õ do
ca ca
robˆ no campo;
o
Sendo assim, temos S = s1 , s2 , . . . , s18 , um conjunto com 18
estados, com s1 representando a posi¸õ (1, 1), s2 a posi¸õ
ca ca
(1, 2), etc.

ıstico

a Introdu¸˜o
ca
Conclus˜o
a Modelo Conceitual

MDP - Estados

ıstico

a Introdu¸õ
ca
Conclusõ
a Modelo Conceitual

MDP - A¸oes e Transi¸õ de Estado
c˜ ca

Uma a¸õ a, escolhida pelo agente, altera o sistema, fazendo-o
ca
transitar de um estado s para um estado s desejado;
Essa transi¸õ ´ incerta e est´ sujeita a uma probabilidade
ca e a
p(s, a, s );
Para cada a¸õ, temos uma tabela de transi¸õ entre estados,
ca ca
indicando as probabilidades de mudan¸a de um estado para
c
outro, respeitando que dado um estado s temos
s ∈S p(s, a, s ) = 1.

ıstico

a Introdu¸õ
ca
Conclusõ
a Modelo Conceitual

MDP - A¸oes e Transi¸õ de Estado
c˜ ca
Ex: na navega¸õ de robˆs, o robˆ escolhe a a¸õ leste para ir
ca o o ca
de s11 para s14 com p(s11 , leste, s14) = 0.8

ıstico

a Introdu¸õ
ca
Conclusõ
a Modelo Conceitual

MDP - Fun¸õ Valor, Custo e Recompensa
ca

Para decidir qual tipo de a¸õ o agente ir´ tomar e qual
ca a
estado ele ir´, ele precisa julgar a qualidade da decisõ;
a a
Isto ´ feito definindo uma fun¸õ valor V (·), que mapeia o
e ca
hist´rico do sistema (quais a¸˜es foram tomadas e quais
o co
estados foram visitados at´ o presente momento) em n´meros
e u
reais, i. e. V : Hs → ;

Compondo esta medida, temos:
a fun¸õ custo, que associa um gasto a uma determinada
ca
a¸õ, sendo subtraido de V (·);
ca
a fun¸õ recompensa, que associa um incentivo ao se alcan¸ar
ca c
um determinado estado, sendo acrescentado a V (·);

ıstico

a Introdu¸õ
ca
Conclusõ
a Modelo Conceitual

MDP - Horizonte

Define quanto est´gios do sistema devem ser considerados
a
para avaliar o curso da a¸õ.
ca

Horizonte finito: a performance do agente ´ avaliada em um
e
n´mero T finito de estados.
u
Neste caso a fun¸õ valor ´ avaliada como:
ca e

T −1
V (h) = {R(s t ) − C (at )} + R(s T )
t=0

ıstico

a Introdu¸õ
ca
Conclusõ
a Modelo Conceitual

MDP - Horizonte

Horizonte infinito: a performance do agente ´ avaliada sob
e
uma evolu¸õ infinita do sistema.
ca
Neste caso a fun¸õ valor ´ avaliada considerando um fator de
ca e
desconto γ, que ´ fixado entre 0 e 1:
e

∞
V (h) = γ t (R(s t ) − C (at ))
t=0

ıstico

a Introdu¸õ
ca
Conclusõ
a Modelo Conceitual

MDP - Pol´
ıticas

Tamb´m conhecida como curso de a¸õ ou plano, define qual
e ca
ser´ a a¸õ a tomada pelo agente quando o mesmo se
a ca
encontrar em um determinado estado s;
Ela ´ representada pela fun¸õ π : S → A, que associa cada
e ca
estado a uma a¸õ.
ca

Exemplo:
π(s1 ) = norte
...
π(s5 ) = leste
...
π(s13 ) = sul
...

ıstico

a Introdu¸õ
ca
Conclusõ
a Modelo Conceitual

MDP - Solu¸õ
ca
Para solucionarmos um MDP, podemos encar´-lo como um
a
problema de otimiza¸õ, onde devemos encontrar a fun¸õ
ca ca
valor ´tima para cada estado.
o
Uma forma de se conseguir alcan¸ar este objetivo ´ atrav´s da
c e e
programa¸õ dinˆmica, considerando o princ´ de
ca a ıpio
otimalidade de Bellman:

Vt∗ (s) = R(s) + maxa∈A {−C (a) + ∗
p(s, a, s )Vt−1 (s )}
s ∈S

Uma pol´ıtica ´tima
o ∗
πt (s) encontrada como solu¸õ ser´
ca a
aquela que satisfaz:

Vt∗ (s) = R(s) + −C (πt (s)) +
∗ ∗ ∗
p(πt (s), a, s )Vt−1 (s )
s ∈S
ıstico

a Introdu¸˜o
ca
Conclus˜o
a Modelo Conceitual

MDP - Modelo Conceitual

baseado em [Boutilier, 2007] e [Barros, 2011]

ıstico

a Introdu¸õ
ca
Conclusõ
a Modelo Conceitual

Quais a¸˜es sõ poss´
co a ıveis? Que decisõ tomar?
a


ıstico

a Introdu¸õ
ca
Conclusõ
a Modelo Conceitual


Decisõ tomada !
a


ıstico

a Introdu¸˜o
ca
Conclus˜o
a Modelo Conceitual


Sucesso !


ıstico

a Introdu¸˜o
ca
Conclus˜o
a Modelo Conceitual


Falha !


ıstico

a Introdu¸˜o
ca
Conclus˜o
a Modelo Conceitual


O efeito da recompensa


ıstico

a
Itera¸õ de Valor
ca
Algoritmos
RTDP
Conclusõ
a

Algoritmos

Para obter uma pol´
ıtica ´tima, alguns algoritmos conhecidos
o
baseados em programa¸õ dinˆmica, utilizando a equa¸õ de
ca a ca
Bellman, sõ:
a
Itera¸õ de Valor (IV);
ca
Itera¸õ de Pol´
ca ıtica (IP);
Programa¸õ Dinˆmica em Tempo Real (Real Time Dynamic
ca a
Programming, RTDP).

Iremos abordar nesta apresenta¸õ o IV e o RTDP.
ca

ıstico

a
Itera¸õ de Valor
ca
Algoritmos
RTDP
Conclusõ
a

IV

Utilizando a equa¸õ de Bellman, para cada etapa t a fun¸õ
ca ca
V ´ calculada para cada estado, considerando v0 (s) = R(s).
e

ıstico

a
Itera¸õ de Valor
ca
Algoritmos
RTDP
Conclusõ
a

IV - Considera¸oes
c˜

A complexidade do algoritmo ´: O(|A| |S|2 );
e
Consideramos que o algoritmo encontrou um π ∗ quando todos
os estados convergirem;
Esta convergˆncia ´ alcan¸ada quando o res´
e e c ıduo
(|vn (s) − vn−1 (s)|) para estes estado for menor que ;
Problema:
Por considerar todos os estados para executar o c´lculo,
a
inclusive aquele que nõ sõ alcan¸´veis pelo agente;
a a ca
Com o crescimento do conjunto S

ıstico

a
Itera¸õ de Valor
ca
Algoritmos
RTDP
Conclusõ
a

RTDP

Considerando um conjunto de estados iniciais e estados meta,
o algoritmo realiza uma busca heur´ıstica, considerando apenas
os estados relevantes para serem atualizados;
Baseado na idía de execu¸õ e simula¸õ, executa uma s´rie
e ca ca e
de trials, simulando uma pol´ıtica gulosa iniciando no estado
inicial e realizando um Bellman Backup nos estados visitados;
Desta forma, os estados mais provavís de serem visitados
e
convergem primeiro;
A pol´ıtica encontrada no algoritmo ser´ parcial, obtendo
a
valores ´timos para os estados relevantes.
o

ıstico

a
Bibliografia
Algoritmos
D´vidas?
u
Conclusõ
a

Bibliografia
Boutilier, Craig; Dean, Thomas; Hanks, Steve.
Decision-Theoretic Planning: Structural Assumptions and
Computational Leverage.
Journal of Artificial Intelligence Research, 11:1-94, 1999.
Boutilier, Craig;
Logical Representations and Computational Methods for
Markov Decision Processes.
Apresenta¸õ em curso, 2007.
ca
Ghallab, Malik; Nau, Dana; Traverso, Paolo;
Automated Planning: Theory and Practice.
San Francisco, California: Morgan Kaufmann Publishers, 2004.
Barros, Leliane Nunes de;
Planejamento em Inteligˆncia Artifical - Planejamento
e
Probabilistico
Slides de aula, 2011.
ıstico

a
Bibliografia
Algoritmos
D´vidas?
u
Conclusõ
a

Bibliografia

Pereira, Silvio do Lago; Barros, Leliane Nunes de;
Planejamento baseado em Processos de Decisõ Markovianos
a
Relat´rio Tćnico do IME/USP (RT-MAC-2007-04), 2007.
o e
Russell, Stuart J.; Norvig, Peter;
Artificial Intelligence: A Modern Approach.
Englewood Cliffs, New Jersey: Prentice Hall, 1995.

ıstico

a
Bibliografia
Algoritmos
D´vidas?
u
Conclusõ
a

Planejamento Probabil´
ıstico
Uma introdu¸õ aos MDPs e aos algoritmos IV e RTDP
ca

Daniel Baptista Dias

Grupo de Planejamento, IME/USP
27 de julho de 2011

ıstico

Planejamento Probabilístico - Uma introdução aos MDPs e aos algoritmos IV e RTDP

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Mehr von Daniel Baptista Dias

Mehr von Daniel Baptista Dias (8)

Planejamento Probabilístico - Uma introdução aos MDPs e aos algoritmos IV e RTDP