SlideShare ist ein Scribd-Unternehmen logo
1 von 30
Downloaden Sie, um offline zu lesen
Processos Markovianos de Decis˜o (MDPs)
                              a
                              Algoritmos
                                Conclus˜o
                                       a




               Planejamento Probabil´
                                    ıstico
Uma introdu¸˜o aos MDPs e aos algoritmos IV e RTDP
           ca


                           Daniel Baptista Dias


                      Grupo de Planejamento, IME/USP
                               27 de julho de 2011




                     Daniel Baptista Dias   Planejamento Probabil´
                                                                 ıstico
Processos Markovianos de Decis˜o (MDPs)
                                       a
                                       Algoritmos
                                         Conclus˜o
                                                a


Agenda

  1   Processos Markovianos de Decis˜o (MDPs)
                                    a
        Introdu¸˜o
               ca
        Modelo Formal
        Modelo Conceitual

  2   Algoritmos
        Itera¸˜o de Valor
             ca
        RTDP

  3   Conclus˜o
              a
        Bibliografia
        D´vidas?
         u


                              Daniel Baptista Dias   Planejamento Probabil´
                                                                          ıstico
Processos Markovianos de Decis˜o (MDPs)
                                     a             Introdu¸˜o
                                                          ca
                                     Algoritmos    Modelo Formal
                                       Conclus˜o
                                              a    Modelo Conceitual


Introdu¸˜o
       ca

     No planejamento cl´ssico, assumimos que as a¸˜es tˆm um
                        a                        co    e
     apenas um efeito, que pode ser predito;
     Por´m em alguns momentos isto n˜o ´ verdade.
        e                              a e
            Exemplo: sistema de manuseio de caixotes em um armaz´m.
                                                                e




                            Daniel Baptista Dias   Planejamento Probabil´
                                                                        ıstico
Processos Markovianos de Decis˜o (MDPs)
                                     a             Introdu¸˜o
                                                          ca
                                     Algoritmos    Modelo Formal
                                       Conclus˜o
                                              a    Modelo Conceitual


Introdu¸˜o
       ca

     A incerteza destas a¸˜es pode ocorrer devido:
                         co
            Falha nas a¸˜es: instigada por um agente com a finalidade de
                         co
            mudar o estado do sistema, a mesma n˜o foi bem sucedida;
                                                   a
            ex: a garra n˜o segura a caixa corretamente;
                         a
            Evento ex´geno: que ocorre no sistema sem o controle o
                       o
            agente; ex: a caixa quebra devido a sua fragilidade,
            derrubando seu conte´do.
                                 u




                            Daniel Baptista Dias   Planejamento Probabil´
                                                                        ıstico
Processos Markovianos de Decis˜o (MDPs)
                                    a             Introdu¸˜o
                                                         ca
                                    Algoritmos    Modelo Formal
                                      Conclus˜o
                                             a    Modelo Conceitual


Um exemplo: Navega¸˜o de robˆs
                  ca        o




                           Daniel Baptista Dias   Planejamento Probabil´
                                                                       ıstico
Processos Markovianos de Decis˜o (MDPs)
                                     a             Introdu¸˜o
                                                          ca
                                     Algoritmos    Modelo Formal
                                       Conclus˜o
                                              a    Modelo Conceitual


Navega¸˜o de robˆs
      ca        o

  Problema:
      Um robˆ deve ir do:
            o
            ponto de origem (1, 1) at´
                                     e
            ponto de destino (6, 4)
      Ele pode se mover em quatro dire¸˜es:
                                      co
            norte, sul, leste e oeste.
      Devido a um defeito no mecanismo de locomo¸˜o:
                                                ca
            em 20% dos movimentos ele erra dire¸˜o em 90 graus,
                                               ca
            tornando-os incertos;
  Desafio:

        Como ir at´ o destino apesar das adversidades?
                  e



                            Daniel Baptista Dias   Planejamento Probabil´
                                                                        ıstico
Processos Markovianos de Decis˜o (MDPs)
                                    a             Introdu¸˜o
                                                         ca
                                    Algoritmos    Modelo Formal
                                      Conclus˜o
                                             a    Modelo Conceitual


MDP - O que ´?
            e


     Uma forma de resolver o desafio ´ modelar e resolver ele como
                                    e
     um Processo Markoviano de Decis˜o (Markov Decision
                                        a
     Process, MDP);

     Um MDP ´ um sistema estoc´stico, que:
            e                 a
           Fica em um determinado estado em um ponto no tempo,
           podendo transitar para outros estados a medida que o sistema
           evolui;
           ´
           E alterado em respostas a eventos (a¸˜es ou eventos
                                               co
           ex´genos);
             o
           Evolui em est´gios, transitando de um est´gio para outro ap´s
                        a                           a                 o
           a ocorrˆncia de um evento.
                   e



                           Daniel Baptista Dias   Planejamento Probabil´
                                                                       ıstico
Processos Markovianos de Decis˜o (MDPs)
                                     a             Introdu¸˜o
                                                          ca
                                     Algoritmos    Modelo Formal
                                       Conclus˜o
                                              a    Modelo Conceitual


MDP - Modelo Formal


  Formalmente, ele pode ser definido como um tupla
  M = S, A, p, r , c , onde:
      S ´ um conjunto finito de estados poss´
        e                                  ıveis do ambiente;
      A ´ um conjunto finito de a¸˜es execut´veis pelo agente;
        e                       co         a
      p : S × A × S → [0, 1] ´ uma fun¸˜o de transi¸˜o
                             e        ca           ca
      probabil´
              ıstica;
      r : S → + ´ uma fun¸˜o que associa uma recompensa a
                  e      ca
      cada estado;
      c :A→          +   ´ uma fun¸˜o que associa um custo a cada a¸˜o;
                         e        ca                               ca




                            Daniel Baptista Dias   Planejamento Probabil´
                                                                        ıstico
Processos Markovianos de Decis˜o (MDPs)
                                    a             Introdu¸˜o
                                                         ca
                                    Algoritmos    Modelo Formal
                                      Conclus˜o
                                             a    Modelo Conceitual


MDP - Estados



     Um estado s representa uma configura¸˜o de como o
                                          ca
     sistema est´ em um per´
                a          ıodo de tempo;

     No nosso exemplo...
           O estado pode ser representado com a varia¸˜o da posi¸˜o do
                                                            ca        ca
           robˆ no campo;
               o
           Sendo assim, temos S = s1 , s2 , . . . , s18 , um conjunto com 18
           estados, com s1 representando a posi¸˜o (1, 1), s2 a posi¸˜o
                                                     ca                 ca
           (1, 2), etc.




                           Daniel Baptista Dias   Planejamento Probabil´
                                                                       ıstico
Processos Markovianos de Decis˜o (MDPs)
                                    a             Introdu¸˜o
                                                         ca
                                    Algoritmos    Modelo Formal
                                      Conclus˜o
                                             a    Modelo Conceitual


MDP - Estados




                           Daniel Baptista Dias   Planejamento Probabil´
                                                                       ıstico
Processos Markovianos de Decis˜o (MDPs)
                                    a             Introdu¸˜o
                                                         ca
                                    Algoritmos    Modelo Formal
                                      Conclus˜o
                                             a    Modelo Conceitual


MDP - A¸oes e Transi¸˜o de Estado
       c˜           ca



     Uma a¸˜o a, escolhida pelo agente, altera o sistema, fazendo-o
            ca
     transitar de um estado s para um estado s desejado;
     Essa transi¸˜o ´ incerta e est´ sujeita a uma probabilidade
                  ca e             a
     p(s, a, s );
     Para cada a¸˜o, temos uma tabela de transi¸˜o entre estados,
                  ca                           ca
     indicando as probabilidades de mudan¸a de um estado para
                                         c
     outro, respeitando que dado um estado s temos
        s ∈S p(s, a, s ) = 1.




                           Daniel Baptista Dias   Planejamento Probabil´
                                                                       ıstico
Processos Markovianos de Decis˜o (MDPs)
                                    a             Introdu¸˜o
                                                         ca
                                    Algoritmos    Modelo Formal
                                      Conclus˜o
                                             a    Modelo Conceitual


MDP - A¸oes e Transi¸˜o de Estado
       c˜           ca
     Ex: na navega¸˜o de robˆs, o robˆ escolhe a a¸˜o leste para ir
                    ca       o           o         ca
     de s11 para s14 com p(s11 , leste, s14) = 0.8




                           Daniel Baptista Dias   Planejamento Probabil´
                                                                       ıstico
Processos Markovianos de Decis˜o (MDPs)
                                    a             Introdu¸˜o
                                                         ca
                                    Algoritmos    Modelo Formal
                                      Conclus˜o
                                             a    Modelo Conceitual


MDP - Fun¸˜o Valor, Custo e Recompensa
         ca


     Para decidir qual tipo de a¸˜o o agente ir´ tomar e qual
                                  ca             a
     estado ele ir´, ele precisa julgar a qualidade da decis˜o;
                  a                                         a
     Isto ´ feito definindo uma fun¸˜o valor V (·), que mapeia o
          e                        ca
     hist´rico do sistema (quais a¸˜es foram tomadas e quais
         o                        co
     estados foram visitados at´ o presente momento) em n´meros
                               e                           u
     reais, i. e. V : Hs → ;

     Compondo esta medida, temos:
           a fun¸˜o custo, que associa um gasto a uma determinada
                ca
           a¸˜o, sendo subtraido de V (·);
            ca
           a fun¸˜o recompensa, que associa um incentivo ao se alcan¸ar
                ca                                                  c
           um determinado estado, sendo acrescentado a V (·);



                           Daniel Baptista Dias   Planejamento Probabil´
                                                                       ıstico
Processos Markovianos de Decis˜o (MDPs)
                                    a             Introdu¸˜o
                                                         ca
                                    Algoritmos    Modelo Formal
                                      Conclus˜o
                                             a    Modelo Conceitual


MDP - Horizonte


     Define quanto est´gios do sistema devem ser considerados
                       a
     para avaliar o curso da a¸˜o.
                              ca

     Horizonte finito: a performance do agente ´ avaliada em um
                                                e
     n´mero T finito de estados.
      u
     Neste caso a fun¸˜o valor ´ avaliada como:
                     ca        e

                                T −1
                   V (h) =             {R(s t ) − C (at )} + R(s T )
                                 t=0




                           Daniel Baptista Dias   Planejamento Probabil´
                                                                       ıstico
Processos Markovianos de Decis˜o (MDPs)
                                    a             Introdu¸˜o
                                                         ca
                                    Algoritmos    Modelo Formal
                                      Conclus˜o
                                             a    Modelo Conceitual


MDP - Horizonte



     Horizonte infinito: a performance do agente ´ avaliada sob
                                                   e
     uma evolu¸˜o infinita do sistema.
               ca
     Neste caso a fun¸˜o valor ´ avaliada considerando um fator de
                     ca        e
     desconto γ, que ´ fixado entre 0 e 1:
                     e

                                       ∞
                         V (h) =            γ t (R(s t ) − C (at ))
                                      t=0




                           Daniel Baptista Dias   Planejamento Probabil´
                                                                       ıstico
Processos Markovianos de Decis˜o (MDPs)
                                     a             Introdu¸˜o
                                                          ca
                                     Algoritmos    Modelo Formal
                                       Conclus˜o
                                              a    Modelo Conceitual


MDP - Pol´
         ıticas


     Tamb´m conhecida como curso de a¸˜o ou plano, define qual
           e                            ca
     ser´ a a¸˜o a tomada pelo agente quando o mesmo se
        a    ca
     encontrar em um determinado estado s;
     Ela ´ representada pela fun¸˜o π : S → A, que associa cada
         e                      ca
     estado a uma a¸˜o.
                     ca

     Exemplo:
           π(s1 ) = norte
           ...
           π(s5 ) = leste
           ...
           π(s13 ) = sul
           ...


                            Daniel Baptista Dias   Planejamento Probabil´
                                                                        ıstico
Processos Markovianos de Decis˜o (MDPs)
                                    a             Introdu¸˜o
                                                         ca
                                    Algoritmos    Modelo Formal
                                      Conclus˜o
                                             a    Modelo Conceitual


MDP - Solu¸˜o
          ca
     Para solucionarmos um MDP, podemos encar´-lo como um
                                               a
     problema de otimiza¸˜o, onde devemos encontrar a fun¸˜o
                         ca                              ca
     valor ´tima para cada estado.
           o
     Uma forma de se conseguir alcan¸ar este objetivo ´ atrav´s da
                                    c                 e      e
     programa¸˜o dinˆmica, considerando o princ´ de
              ca     a                          ıpio
     otimalidade de Bellman:


     Vt∗ (s) = R(s) + maxa∈A {−C (a) +                                      ∗
                                                                p(s, a, s )Vt−1 (s )}
                                                         s ∈S

     Uma pol´ıtica ´tima
                   o                ∗
                                   πt (s)     encontrada como solu¸˜o ser´
                                                                  ca     a
     aquela que satisfaz:

     Vt∗ (s) = R(s) + −C (πt (s)) +
                           ∗                                ∗             ∗
                                                         p(πt (s), a, s )Vt−1 (s )
                                                  s ∈S
                           Daniel Baptista Dias   Planejamento Probabil´
                                                                       ıstico
Processos Markovianos de Decis˜o (MDPs)
                                    a             Introdu¸˜o
                                                         ca
                                    Algoritmos    Modelo Formal
                                      Conclus˜o
                                             a    Modelo Conceitual


MDP - Modelo Conceitual




                                          baseado em [Boutilier, 2007] e [Barros, 2011]


                           Daniel Baptista Dias   Planejamento Probabil´
                                                                       ıstico
Processos Markovianos de Decis˜o (MDPs)
                                      a             Introdu¸˜o
                                                           ca
                                      Algoritmos    Modelo Formal
                                        Conclus˜o
                                               a    Modelo Conceitual


MDP - Modelo Conceitual
  Quais a¸˜es s˜o poss´
         co    a      ıveis? Que decis˜o tomar?
                                      a




                                            baseado em [Boutilier, 2007] e [Barros, 2011]


                             Daniel Baptista Dias   Planejamento Probabil´
                                                                         ıstico
Processos Markovianos de Decis˜o (MDPs)
                                     a             Introdu¸˜o
                                                          ca
                                     Algoritmos    Modelo Formal
                                       Conclus˜o
                                              a    Modelo Conceitual


MDP - Modelo Conceitual

  Decis˜o tomada !
       a




                                           baseado em [Boutilier, 2007] e [Barros, 2011]



                            Daniel Baptista Dias   Planejamento Probabil´
                                                                        ıstico
Processos Markovianos de Decis˜o (MDPs)
                                      a             Introdu¸˜o
                                                           ca
                                      Algoritmos    Modelo Formal
                                        Conclus˜o
                                               a    Modelo Conceitual


MDP - Modelo Conceitual


  Sucesso !




                                            baseado em [Boutilier, 2007] e [Barros, 2011]




                             Daniel Baptista Dias   Planejamento Probabil´
                                                                         ıstico
Processos Markovianos de Decis˜o (MDPs)
                                      a             Introdu¸˜o
                                                           ca
                                      Algoritmos    Modelo Formal
                                        Conclus˜o
                                               a    Modelo Conceitual


MDP - Modelo Conceitual

  Falha !




                                            baseado em [Boutilier, 2007] e [Barros, 2011]




                             Daniel Baptista Dias   Planejamento Probabil´
                                                                         ıstico
Processos Markovianos de Decis˜o (MDPs)
                                     a             Introdu¸˜o
                                                          ca
                                     Algoritmos    Modelo Formal
                                       Conclus˜o
                                              a    Modelo Conceitual


MDP - Modelo Conceitual

  O efeito da recompensa




                                           baseado em [Boutilier, 2007] e [Barros, 2011]



                            Daniel Baptista Dias   Planejamento Probabil´
                                                                        ıstico
Processos Markovianos de Decis˜o (MDPs)
                                     a
                                                   Itera¸˜o de Valor
                                                        ca
                                     Algoritmos
                                                   RTDP
                                       Conclus˜o
                                              a


Algoritmos



     Para obter uma pol´
                       ıtica ´tima, alguns algoritmos conhecidos
                             o
     baseados em programa¸˜o dinˆmica, utilizando a equa¸˜o de
                           ca     a                       ca
     Bellman, s˜o:
               a
            Itera¸˜o de Valor (IV);
                 ca
            Itera¸˜o de Pol´
                 ca        ıtica (IP);
            Programa¸˜o Dinˆmica em Tempo Real (Real Time Dynamic
                      ca      a
            Programming, RTDP).

     Iremos abordar nesta apresenta¸˜o o IV e o RTDP.
                                   ca




                            Daniel Baptista Dias   Planejamento Probabil´
                                                                        ıstico
Processos Markovianos de Decis˜o (MDPs)
                                    a
                                                  Itera¸˜o de Valor
                                                       ca
                                    Algoritmos
                                                  RTDP
                                      Conclus˜o
                                             a


IV


     Utilizando a equa¸˜o de Bellman, para cada etapa t a fun¸˜o
                      ca                                      ca
     V ´ calculada para cada estado, considerando v0 (s) = R(s).
       e




                           Daniel Baptista Dias   Planejamento Probabil´
                                                                       ıstico
Processos Markovianos de Decis˜o (MDPs)
                                     a
                                                   Itera¸˜o de Valor
                                                        ca
                                     Algoritmos
                                                   RTDP
                                       Conclus˜o
                                              a


IV - Considera¸oes
              c˜


      A complexidade do algoritmo ´: O(|A| |S|2 );
                                  e
      Consideramos que o algoritmo encontrou um π ∗ quando todos
      os estados convergirem;
      Esta convergˆncia ´ alcan¸ada quando o res´
                    e      e      c                 ıduo
      (|vn (s) − vn−1 (s)|) para estes estado for menor que ;
  Problema:
      Por considerar todos os estados para executar o c´lculo,
                                                       a
      inclusive aquele que n˜o s˜o alcan¸´veis pelo agente;
                            a a         ca
      Com o crescimento do conjunto S



                            Daniel Baptista Dias   Planejamento Probabil´
                                                                        ıstico
Processos Markovianos de Decis˜o (MDPs)
                                     a
                                                   Itera¸˜o de Valor
                                                        ca
                                     Algoritmos
                                                   RTDP
                                       Conclus˜o
                                              a


RTDP


   Considerando um conjunto de estados iniciais e estados meta,
   o algoritmo realiza uma busca heur´ıstica, considerando apenas
   os estados relevantes para serem atualizados;
   Baseado na id´ia de execu¸˜o e simula¸˜o, executa uma s´rie
                   e          ca           ca                 e
   de trials, simulando uma pol´ıtica gulosa iniciando no estado
   inicial e realizando um Bellman Backup nos estados visitados;
   Desta forma, os estados mais provav´is de serem visitados
                                      e
   convergem primeiro;
   A pol´ıtica encontrada no algoritmo ser´ parcial, obtendo
                                          a
   valores ´timos para os estados relevantes.
            o



                            Daniel Baptista Dias   Planejamento Probabil´
                                                                        ıstico
Processos Markovianos de Decis˜o (MDPs)
                                     a
                                                   Bibliografia
                                     Algoritmos
                                                   D´vidas?
                                                    u
                                       Conclus˜o
                                              a


Bibliografia
     Boutilier, Craig; Dean, Thomas; Hanks, Steve.
     Decision-Theoretic Planning: Structural Assumptions and
     Computational Leverage.
     Journal of Artificial Intelligence Research, 11:1-94, 1999.
     Boutilier, Craig;
     Logical Representations and Computational Methods for
     Markov Decision Processes.
     Apresenta¸˜o em curso, 2007.
                ca
     Ghallab, Malik; Nau, Dana; Traverso, Paolo;
     Automated Planning: Theory and Practice.
     San Francisco, California: Morgan Kaufmann Publishers, 2004.
     Barros, Leliane Nunes de;
     Planejamento em Inteligˆncia Artifical - Planejamento
                                    e
     Probabilistico
     Slides de aula, 2011.
                     Daniel Baptista Dias Planejamento Probabil´
                                                               ıstico
Processos Markovianos de Decis˜o (MDPs)
                                     a
                                                   Bibliografia
                                     Algoritmos
                                                   D´vidas?
                                                    u
                                       Conclus˜o
                                              a


Bibliografia




     Pereira, Silvio do Lago; Barros, Leliane Nunes de;
     Planejamento baseado em Processos de Decis˜o Markovianos
                                                   a
     Relat´rio T´cnico do IME/USP (RT-MAC-2007-04), 2007.
          o      e
     Russell, Stuart J.; Norvig, Peter;
     Artificial Intelligence: A Modern Approach.
     Englewood Cliffs, New Jersey: Prentice Hall, 1995.




                            Daniel Baptista Dias   Planejamento Probabil´
                                                                        ıstico
Processos Markovianos de Decis˜o (MDPs)
                              a
                                            Bibliografia
                              Algoritmos
                                            D´vidas?
                                             u
                                Conclus˜o
                                       a




               Planejamento Probabil´
                                    ıstico
Uma introdu¸˜o aos MDPs e aos algoritmos IV e RTDP
           ca


                           Daniel Baptista Dias


                      Grupo de Planejamento, IME/USP
                               27 de julho de 2011




                     Daniel Baptista Dias   Planejamento Probabil´
                                                                 ıstico

Weitere ähnliche Inhalte

Mehr von Daniel Baptista Dias

Microserviços: uma introdução
Microserviços: uma introduçãoMicroserviços: uma introdução
Microserviços: uma introduçãoDaniel Baptista Dias
 
TDC - Processamento de dados em alta escala com Node.js e AWS Lambda
TDC - Processamento de dados em alta escala com Node.js e AWS LambdaTDC - Processamento de dados em alta escala com Node.js e AWS Lambda
TDC - Processamento de dados em alta escala com Node.js e AWS LambdaDaniel Baptista Dias
 
Domain Driven Design: como modelar uma aplicação em Node.js com DDD
Domain Driven Design: como modelar uma aplicação em Node.js com DDDDomain Driven Design: como modelar uma aplicação em Node.js com DDD
Domain Driven Design: como modelar uma aplicação em Node.js com DDDDaniel Baptista Dias
 
Domain Driven Design - Uma introdução
Domain Driven Design - Uma introduçãoDomain Driven Design - Uma introdução
Domain Driven Design - Uma introduçãoDaniel Baptista Dias
 
Processamento de dados com Node.js, AWS Lambda e Kinesis Streams
Processamento de dados com Node.js, AWS Lambda e Kinesis StreamsProcessamento de dados com Node.js, AWS Lambda e Kinesis Streams
Processamento de dados com Node.js, AWS Lambda e Kinesis StreamsDaniel Baptista Dias
 

Mehr von Daniel Baptista Dias (8)

Domain Driven Design Tático
Domain Driven Design TáticoDomain Driven Design Tático
Domain Driven Design Tático
 
Microserviços: uma introdução
Microserviços: uma introduçãoMicroserviços: uma introdução
Microserviços: uma introdução
 
Microservices: an introduction
Microservices: an introductionMicroservices: an introduction
Microservices: an introduction
 
Serverless API
Serverless APIServerless API
Serverless API
 
TDC - Processamento de dados em alta escala com Node.js e AWS Lambda
TDC - Processamento de dados em alta escala com Node.js e AWS LambdaTDC - Processamento de dados em alta escala com Node.js e AWS Lambda
TDC - Processamento de dados em alta escala com Node.js e AWS Lambda
 
Domain Driven Design: como modelar uma aplicação em Node.js com DDD
Domain Driven Design: como modelar uma aplicação em Node.js com DDDDomain Driven Design: como modelar uma aplicação em Node.js com DDD
Domain Driven Design: como modelar uma aplicação em Node.js com DDD
 
Domain Driven Design - Uma introdução
Domain Driven Design - Uma introduçãoDomain Driven Design - Uma introdução
Domain Driven Design - Uma introdução
 
Processamento de dados com Node.js, AWS Lambda e Kinesis Streams
Processamento de dados com Node.js, AWS Lambda e Kinesis StreamsProcessamento de dados com Node.js, AWS Lambda e Kinesis Streams
Processamento de dados com Node.js, AWS Lambda e Kinesis Streams
 

Planejamento Probabilístico - Uma introdução aos MDPs e aos algoritmos IV e RTDP

  • 1. Processos Markovianos de Decis˜o (MDPs) a Algoritmos Conclus˜o a Planejamento Probabil´ ıstico Uma introdu¸˜o aos MDPs e aos algoritmos IV e RTDP ca Daniel Baptista Dias Grupo de Planejamento, IME/USP 27 de julho de 2011 Daniel Baptista Dias Planejamento Probabil´ ıstico
  • 2. Processos Markovianos de Decis˜o (MDPs) a Algoritmos Conclus˜o a Agenda 1 Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Modelo Formal Modelo Conceitual 2 Algoritmos Itera¸˜o de Valor ca RTDP 3 Conclus˜o a Bibliografia D´vidas? u Daniel Baptista Dias Planejamento Probabil´ ıstico
  • 3. Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Algoritmos Modelo Formal Conclus˜o a Modelo Conceitual Introdu¸˜o ca No planejamento cl´ssico, assumimos que as a¸˜es tˆm um a co e apenas um efeito, que pode ser predito; Por´m em alguns momentos isto n˜o ´ verdade. e a e Exemplo: sistema de manuseio de caixotes em um armaz´m. e Daniel Baptista Dias Planejamento Probabil´ ıstico
  • 4. Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Algoritmos Modelo Formal Conclus˜o a Modelo Conceitual Introdu¸˜o ca A incerteza destas a¸˜es pode ocorrer devido: co Falha nas a¸˜es: instigada por um agente com a finalidade de co mudar o estado do sistema, a mesma n˜o foi bem sucedida; a ex: a garra n˜o segura a caixa corretamente; a Evento ex´geno: que ocorre no sistema sem o controle o o agente; ex: a caixa quebra devido a sua fragilidade, derrubando seu conte´do. u Daniel Baptista Dias Planejamento Probabil´ ıstico
  • 5. Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Algoritmos Modelo Formal Conclus˜o a Modelo Conceitual Um exemplo: Navega¸˜o de robˆs ca o Daniel Baptista Dias Planejamento Probabil´ ıstico
  • 6. Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Algoritmos Modelo Formal Conclus˜o a Modelo Conceitual Navega¸˜o de robˆs ca o Problema: Um robˆ deve ir do: o ponto de origem (1, 1) at´ e ponto de destino (6, 4) Ele pode se mover em quatro dire¸˜es: co norte, sul, leste e oeste. Devido a um defeito no mecanismo de locomo¸˜o: ca em 20% dos movimentos ele erra dire¸˜o em 90 graus, ca tornando-os incertos; Desafio: Como ir at´ o destino apesar das adversidades? e Daniel Baptista Dias Planejamento Probabil´ ıstico
  • 7. Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Algoritmos Modelo Formal Conclus˜o a Modelo Conceitual MDP - O que ´? e Uma forma de resolver o desafio ´ modelar e resolver ele como e um Processo Markoviano de Decis˜o (Markov Decision a Process, MDP); Um MDP ´ um sistema estoc´stico, que: e a Fica em um determinado estado em um ponto no tempo, podendo transitar para outros estados a medida que o sistema evolui; ´ E alterado em respostas a eventos (a¸˜es ou eventos co ex´genos); o Evolui em est´gios, transitando de um est´gio para outro ap´s a a o a ocorrˆncia de um evento. e Daniel Baptista Dias Planejamento Probabil´ ıstico
  • 8. Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Algoritmos Modelo Formal Conclus˜o a Modelo Conceitual MDP - Modelo Formal Formalmente, ele pode ser definido como um tupla M = S, A, p, r , c , onde: S ´ um conjunto finito de estados poss´ e ıveis do ambiente; A ´ um conjunto finito de a¸˜es execut´veis pelo agente; e co a p : S × A × S → [0, 1] ´ uma fun¸˜o de transi¸˜o e ca ca probabil´ ıstica; r : S → + ´ uma fun¸˜o que associa uma recompensa a e ca cada estado; c :A→ + ´ uma fun¸˜o que associa um custo a cada a¸˜o; e ca ca Daniel Baptista Dias Planejamento Probabil´ ıstico
  • 9. Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Algoritmos Modelo Formal Conclus˜o a Modelo Conceitual MDP - Estados Um estado s representa uma configura¸˜o de como o ca sistema est´ em um per´ a ıodo de tempo; No nosso exemplo... O estado pode ser representado com a varia¸˜o da posi¸˜o do ca ca robˆ no campo; o Sendo assim, temos S = s1 , s2 , . . . , s18 , um conjunto com 18 estados, com s1 representando a posi¸˜o (1, 1), s2 a posi¸˜o ca ca (1, 2), etc. Daniel Baptista Dias Planejamento Probabil´ ıstico
  • 10. Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Algoritmos Modelo Formal Conclus˜o a Modelo Conceitual MDP - Estados Daniel Baptista Dias Planejamento Probabil´ ıstico
  • 11. Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Algoritmos Modelo Formal Conclus˜o a Modelo Conceitual MDP - A¸oes e Transi¸˜o de Estado c˜ ca Uma a¸˜o a, escolhida pelo agente, altera o sistema, fazendo-o ca transitar de um estado s para um estado s desejado; Essa transi¸˜o ´ incerta e est´ sujeita a uma probabilidade ca e a p(s, a, s ); Para cada a¸˜o, temos uma tabela de transi¸˜o entre estados, ca ca indicando as probabilidades de mudan¸a de um estado para c outro, respeitando que dado um estado s temos s ∈S p(s, a, s ) = 1. Daniel Baptista Dias Planejamento Probabil´ ıstico
  • 12. Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Algoritmos Modelo Formal Conclus˜o a Modelo Conceitual MDP - A¸oes e Transi¸˜o de Estado c˜ ca Ex: na navega¸˜o de robˆs, o robˆ escolhe a a¸˜o leste para ir ca o o ca de s11 para s14 com p(s11 , leste, s14) = 0.8 Daniel Baptista Dias Planejamento Probabil´ ıstico
  • 13. Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Algoritmos Modelo Formal Conclus˜o a Modelo Conceitual MDP - Fun¸˜o Valor, Custo e Recompensa ca Para decidir qual tipo de a¸˜o o agente ir´ tomar e qual ca a estado ele ir´, ele precisa julgar a qualidade da decis˜o; a a Isto ´ feito definindo uma fun¸˜o valor V (·), que mapeia o e ca hist´rico do sistema (quais a¸˜es foram tomadas e quais o co estados foram visitados at´ o presente momento) em n´meros e u reais, i. e. V : Hs → ; Compondo esta medida, temos: a fun¸˜o custo, que associa um gasto a uma determinada ca a¸˜o, sendo subtraido de V (·); ca a fun¸˜o recompensa, que associa um incentivo ao se alcan¸ar ca c um determinado estado, sendo acrescentado a V (·); Daniel Baptista Dias Planejamento Probabil´ ıstico
  • 14. Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Algoritmos Modelo Formal Conclus˜o a Modelo Conceitual MDP - Horizonte Define quanto est´gios do sistema devem ser considerados a para avaliar o curso da a¸˜o. ca Horizonte finito: a performance do agente ´ avaliada em um e n´mero T finito de estados. u Neste caso a fun¸˜o valor ´ avaliada como: ca e T −1 V (h) = {R(s t ) − C (at )} + R(s T ) t=0 Daniel Baptista Dias Planejamento Probabil´ ıstico
  • 15. Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Algoritmos Modelo Formal Conclus˜o a Modelo Conceitual MDP - Horizonte Horizonte infinito: a performance do agente ´ avaliada sob e uma evolu¸˜o infinita do sistema. ca Neste caso a fun¸˜o valor ´ avaliada considerando um fator de ca e desconto γ, que ´ fixado entre 0 e 1: e ∞ V (h) = γ t (R(s t ) − C (at )) t=0 Daniel Baptista Dias Planejamento Probabil´ ıstico
  • 16. Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Algoritmos Modelo Formal Conclus˜o a Modelo Conceitual MDP - Pol´ ıticas Tamb´m conhecida como curso de a¸˜o ou plano, define qual e ca ser´ a a¸˜o a tomada pelo agente quando o mesmo se a ca encontrar em um determinado estado s; Ela ´ representada pela fun¸˜o π : S → A, que associa cada e ca estado a uma a¸˜o. ca Exemplo: π(s1 ) = norte ... π(s5 ) = leste ... π(s13 ) = sul ... Daniel Baptista Dias Planejamento Probabil´ ıstico
  • 17. Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Algoritmos Modelo Formal Conclus˜o a Modelo Conceitual MDP - Solu¸˜o ca Para solucionarmos um MDP, podemos encar´-lo como um a problema de otimiza¸˜o, onde devemos encontrar a fun¸˜o ca ca valor ´tima para cada estado. o Uma forma de se conseguir alcan¸ar este objetivo ´ atrav´s da c e e programa¸˜o dinˆmica, considerando o princ´ de ca a ıpio otimalidade de Bellman: Vt∗ (s) = R(s) + maxa∈A {−C (a) + ∗ p(s, a, s )Vt−1 (s )} s ∈S Uma pol´ıtica ´tima o ∗ πt (s) encontrada como solu¸˜o ser´ ca a aquela que satisfaz: Vt∗ (s) = R(s) + −C (πt (s)) + ∗ ∗ ∗ p(πt (s), a, s )Vt−1 (s ) s ∈S Daniel Baptista Dias Planejamento Probabil´ ıstico
  • 18. Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Algoritmos Modelo Formal Conclus˜o a Modelo Conceitual MDP - Modelo Conceitual baseado em [Boutilier, 2007] e [Barros, 2011] Daniel Baptista Dias Planejamento Probabil´ ıstico
  • 19. Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Algoritmos Modelo Formal Conclus˜o a Modelo Conceitual MDP - Modelo Conceitual Quais a¸˜es s˜o poss´ co a ıveis? Que decis˜o tomar? a baseado em [Boutilier, 2007] e [Barros, 2011] Daniel Baptista Dias Planejamento Probabil´ ıstico
  • 20. Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Algoritmos Modelo Formal Conclus˜o a Modelo Conceitual MDP - Modelo Conceitual Decis˜o tomada ! a baseado em [Boutilier, 2007] e [Barros, 2011] Daniel Baptista Dias Planejamento Probabil´ ıstico
  • 21. Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Algoritmos Modelo Formal Conclus˜o a Modelo Conceitual MDP - Modelo Conceitual Sucesso ! baseado em [Boutilier, 2007] e [Barros, 2011] Daniel Baptista Dias Planejamento Probabil´ ıstico
  • 22. Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Algoritmos Modelo Formal Conclus˜o a Modelo Conceitual MDP - Modelo Conceitual Falha ! baseado em [Boutilier, 2007] e [Barros, 2011] Daniel Baptista Dias Planejamento Probabil´ ıstico
  • 23. Processos Markovianos de Decis˜o (MDPs) a Introdu¸˜o ca Algoritmos Modelo Formal Conclus˜o a Modelo Conceitual MDP - Modelo Conceitual O efeito da recompensa baseado em [Boutilier, 2007] e [Barros, 2011] Daniel Baptista Dias Planejamento Probabil´ ıstico
  • 24. Processos Markovianos de Decis˜o (MDPs) a Itera¸˜o de Valor ca Algoritmos RTDP Conclus˜o a Algoritmos Para obter uma pol´ ıtica ´tima, alguns algoritmos conhecidos o baseados em programa¸˜o dinˆmica, utilizando a equa¸˜o de ca a ca Bellman, s˜o: a Itera¸˜o de Valor (IV); ca Itera¸˜o de Pol´ ca ıtica (IP); Programa¸˜o Dinˆmica em Tempo Real (Real Time Dynamic ca a Programming, RTDP). Iremos abordar nesta apresenta¸˜o o IV e o RTDP. ca Daniel Baptista Dias Planejamento Probabil´ ıstico
  • 25. Processos Markovianos de Decis˜o (MDPs) a Itera¸˜o de Valor ca Algoritmos RTDP Conclus˜o a IV Utilizando a equa¸˜o de Bellman, para cada etapa t a fun¸˜o ca ca V ´ calculada para cada estado, considerando v0 (s) = R(s). e Daniel Baptista Dias Planejamento Probabil´ ıstico
  • 26. Processos Markovianos de Decis˜o (MDPs) a Itera¸˜o de Valor ca Algoritmos RTDP Conclus˜o a IV - Considera¸oes c˜ A complexidade do algoritmo ´: O(|A| |S|2 ); e Consideramos que o algoritmo encontrou um π ∗ quando todos os estados convergirem; Esta convergˆncia ´ alcan¸ada quando o res´ e e c ıduo (|vn (s) − vn−1 (s)|) para estes estado for menor que ; Problema: Por considerar todos os estados para executar o c´lculo, a inclusive aquele que n˜o s˜o alcan¸´veis pelo agente; a a ca Com o crescimento do conjunto S Daniel Baptista Dias Planejamento Probabil´ ıstico
  • 27. Processos Markovianos de Decis˜o (MDPs) a Itera¸˜o de Valor ca Algoritmos RTDP Conclus˜o a RTDP Considerando um conjunto de estados iniciais e estados meta, o algoritmo realiza uma busca heur´ıstica, considerando apenas os estados relevantes para serem atualizados; Baseado na id´ia de execu¸˜o e simula¸˜o, executa uma s´rie e ca ca e de trials, simulando uma pol´ıtica gulosa iniciando no estado inicial e realizando um Bellman Backup nos estados visitados; Desta forma, os estados mais provav´is de serem visitados e convergem primeiro; A pol´ıtica encontrada no algoritmo ser´ parcial, obtendo a valores ´timos para os estados relevantes. o Daniel Baptista Dias Planejamento Probabil´ ıstico
  • 28. Processos Markovianos de Decis˜o (MDPs) a Bibliografia Algoritmos D´vidas? u Conclus˜o a Bibliografia Boutilier, Craig; Dean, Thomas; Hanks, Steve. Decision-Theoretic Planning: Structural Assumptions and Computational Leverage. Journal of Artificial Intelligence Research, 11:1-94, 1999. Boutilier, Craig; Logical Representations and Computational Methods for Markov Decision Processes. Apresenta¸˜o em curso, 2007. ca Ghallab, Malik; Nau, Dana; Traverso, Paolo; Automated Planning: Theory and Practice. San Francisco, California: Morgan Kaufmann Publishers, 2004. Barros, Leliane Nunes de; Planejamento em Inteligˆncia Artifical - Planejamento e Probabilistico Slides de aula, 2011. Daniel Baptista Dias Planejamento Probabil´ ıstico
  • 29. Processos Markovianos de Decis˜o (MDPs) a Bibliografia Algoritmos D´vidas? u Conclus˜o a Bibliografia Pereira, Silvio do Lago; Barros, Leliane Nunes de; Planejamento baseado em Processos de Decis˜o Markovianos a Relat´rio T´cnico do IME/USP (RT-MAC-2007-04), 2007. o e Russell, Stuart J.; Norvig, Peter; Artificial Intelligence: A Modern Approach. Englewood Cliffs, New Jersey: Prentice Hall, 1995. Daniel Baptista Dias Planejamento Probabil´ ıstico
  • 30. Processos Markovianos de Decis˜o (MDPs) a Bibliografia Algoritmos D´vidas? u Conclus˜o a Planejamento Probabil´ ıstico Uma introdu¸˜o aos MDPs e aos algoritmos IV e RTDP ca Daniel Baptista Dias Grupo de Planejamento, IME/USP 27 de julho de 2011 Daniel Baptista Dias Planejamento Probabil´ ıstico