Apprentissage par renforcement

Reinforcement Learning Par Nicolas Richard Jimmy Perron

Quiz ,[object Object],[object Object],[object Object],[object Object],[object Object]

Motivation ,[object Object],[object Object],[object Object],[object Object]

Plan ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

2 - Éléments du RL ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

3 - Schéma général ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

3 - Schéma général Agent Environnement Action Récompense + État t + 1

Notre exemple ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],s a1 a2 S(s,a1) = s1’ S(s,a2) = s2’

Récompenses ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],100 0 0

Apprentissage Maximiser ses récompenses Apprendre à choisir la meilleure action Attribuer une valeur caractérisant l’utilité d’une action Q( s, a )

Apprentissage Environnement Agent Récompense Q( s, a ) But 100 100 90 81 90 81 81 72 72 81 81 90 But 100 0 0 0 0 0

4 – Q-Learning ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

A - Choisir l’action à exécuter ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

A – Choisir l’action à exécuter ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

B – Recevoir la récompense ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

C – Observer le nouvel état s’ ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

D – Mettre à jour Q( s, a ) ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

D - Mettre à jour Q( s, a ) ,[object Object],[object Object],[object Object],[object Object]

D - Mettre à jour Q( s, a ) ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Exemple : La Sim ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

6 – Limitations ,[object Object],[object Object],[object Object],[object Object],[object Object]

Critiques ,[object Object],[object Object],[object Object],[object Object],[object Object]

Conclusion ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Apprentissage par renforcement

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Andere mochten auch

Andere mochten auch (20)

Mehr von NSim Technology

Mehr von NSim Technology (8)

Apprentissage par renforcement