SlideShare ist ein Scribd-Unternehmen logo
1 von 29
Reinforcement Learning Par Nicolas Richard Jimmy Perron
Quiz ,[object Object],[object Object],[object Object],[object Object],[object Object]
Motivation ,[object Object],[object Object],[object Object],[object Object]
Plan ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
1 - Problème…
2 - Éléments du RL ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Plan ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
3 - Schéma général ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
3 - Schéma général Agent Environnement Action Récompense + État t + 1
Notre exemple ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],s a1 a2 S(s,a1) = s1’ S(s,a2) = s2’
Récompenses ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],100 0 0
Apprentissage Maximiser ses récompenses Apprendre à choisir la meilleure action Attribuer une valeur caractérisant l’utilité d’une action Q( s, a )
Apprentissage Environnement Agent Récompense Q( s, a ) But 100 100 90 81 90 81 81 72 72 81 81 90 But 100 0 0 0 0 0
Plan ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
4 – Q-Learning ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
A - Choisir l’action à exécuter ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
A – Choisir l’action à exécuter ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
B – Recevoir la récompense ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
C – Observer le nouvel état s’ ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
D – Mettre à jour Q( s, a ) ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
D - Mettre à jour Q( s, a )  ,[object Object],[object Object],[object Object],[object Object]
D - Mettre à jour Q( s, a ) ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Plan ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Exemple : La Sim ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Plan ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
6 – Limitations ,[object Object],[object Object],[object Object],[object Object],[object Object]
6 – Limitations ,[object Object],[object Object],[object Object],[object Object],[object Object]
Critiques ,[object Object],[object Object],[object Object],[object Object],[object Object]
Conclusion ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Weitere ähnliche Inhalte

Was ist angesagt?

Chapitre v algorithmes gloutons
Chapitre v algorithmes gloutonsChapitre v algorithmes gloutons
Chapitre v algorithmes gloutons
Sana Aroussi
 
Machine Learning et Intelligence Artificielle
Machine Learning et Intelligence ArtificielleMachine Learning et Intelligence Artificielle
Machine Learning et Intelligence Artificielle
Soft Computing
 
Chapitre 3 la recherche tabou
Chapitre 3 la recherche tabouChapitre 3 la recherche tabou
Chapitre 3 la recherche tabou
Achraf Manaa
 

Was ist angesagt? (20)

Intelligence Artificielle - Algorithmes de recherche
Intelligence Artificielle - Algorithmes de rechercheIntelligence Artificielle - Algorithmes de recherche
Intelligence Artificielle - Algorithmes de recherche
 
Comprendre l’intelligence artificielle [webinaire]
Comprendre l’intelligence artificielle [webinaire]Comprendre l’intelligence artificielle [webinaire]
Comprendre l’intelligence artificielle [webinaire]
 
Introduction of Deep Reinforcement Learning
Introduction of Deep Reinforcement LearningIntroduction of Deep Reinforcement Learning
Introduction of Deep Reinforcement Learning
 
Les reseaux profonds
Les reseaux profondsLes reseaux profonds
Les reseaux profonds
 
Chapitre v algorithmes gloutons
Chapitre v algorithmes gloutonsChapitre v algorithmes gloutons
Chapitre v algorithmes gloutons
 
Machine Learning et Intelligence Artificielle
Machine Learning et Intelligence ArtificielleMachine Learning et Intelligence Artificielle
Machine Learning et Intelligence Artificielle
 
Proximal Policy Optimization (Reinforcement Learning)
Proximal Policy Optimization (Reinforcement Learning)Proximal Policy Optimization (Reinforcement Learning)
Proximal Policy Optimization (Reinforcement Learning)
 
L'algorithme du Recuit simule
L'algorithme du Recuit simuleL'algorithme du Recuit simule
L'algorithme du Recuit simule
 
Actor critic algorithm
Actor critic algorithmActor critic algorithm
Actor critic algorithm
 
Chapitre 3 la recherche tabou
Chapitre 3 la recherche tabouChapitre 3 la recherche tabou
Chapitre 3 la recherche tabou
 
Exercice 1 java Héritage
Exercice 1 java HéritageExercice 1 java Héritage
Exercice 1 java Héritage
 
Les applications du Deep Learning
Les applications du Deep LearningLes applications du Deep Learning
Les applications du Deep Learning
 
파이썬과 케라스로 배우는 강화학습 저자특강
파이썬과 케라스로 배우는 강화학습 저자특강파이썬과 케라스로 배우는 강화학습 저자특강
파이썬과 케라스로 배우는 강화학습 저자특강
 
AI Apprentissage Automatique, Machine Learnig
AI Apprentissage Automatique, Machine LearnigAI Apprentissage Automatique, Machine Learnig
AI Apprentissage Automatique, Machine Learnig
 
Q-learning and Deep Q Network (Reinforcement Learning)
Q-learning and Deep Q Network (Reinforcement Learning)Q-learning and Deep Q Network (Reinforcement Learning)
Q-learning and Deep Q Network (Reinforcement Learning)
 
Continuous control with deep reinforcement learning (DDPG)
Continuous control with deep reinforcement learning (DDPG)Continuous control with deep reinforcement learning (DDPG)
Continuous control with deep reinforcement learning (DDPG)
 
L’optimisation par essaims de particules
L’optimisation par essaims de particulesL’optimisation par essaims de particules
L’optimisation par essaims de particules
 
Reinforcement learning:policy gradient (part 1)
Reinforcement learning:policy gradient (part 1)Reinforcement learning:policy gradient (part 1)
Reinforcement learning:policy gradient (part 1)
 
Exposé réseaux des neurones (NN) - (RN)
Exposé réseaux des neurones (NN) - (RN)Exposé réseaux des neurones (NN) - (RN)
Exposé réseaux des neurones (NN) - (RN)
 
Deep Reinforcement Learning: Q-Learning
Deep Reinforcement Learning: Q-LearningDeep Reinforcement Learning: Q-Learning
Deep Reinforcement Learning: Q-Learning
 

Andere mochten auch

L’analyse de construit pour comprendre comment les adolescents construisent l...
L’analyse de construit pour comprendre comment les adolescents construisent l...L’analyse de construit pour comprendre comment les adolescents construisent l...
L’analyse de construit pour comprendre comment les adolescents construisent l...
Ann Davidson
 
Futur pub dossierpresse
Futur pub dossierpresseFutur pub dossierpresse
Futur pub dossierpresse
Denis Verloes
 
PréSentation1
PréSentation1PréSentation1
PréSentation1
maxime2203
 
A vueltas con nuevas sentencias de los Tribunales Superiores de Justicia (Paí...
A vueltas con nuevas sentencias de los Tribunales Superiores de Justicia (Paí...A vueltas con nuevas sentencias de los Tribunales Superiores de Justicia (Paí...
A vueltas con nuevas sentencias de los Tribunales Superiores de Justicia (Paí...
Universidad Autónoma de Barcelona
 

Andere mochten auch (20)

Simulation de comportements de foule
Simulation de comportements de fouleSimulation de comportements de foule
Simulation de comportements de foule
 
Radares
Radares Radares
Radares
 
L’analyse de construit pour comprendre comment les adolescents construisent l...
L’analyse de construit pour comprendre comment les adolescents construisent l...L’analyse de construit pour comprendre comment les adolescents construisent l...
L’analyse de construit pour comprendre comment les adolescents construisent l...
 
Tessellations
TessellationsTessellations
Tessellations
 
Semaine Ecole Entreprise 2014 : Bilan de l'édition 2013
Semaine Ecole Entreprise 2014 : Bilan de l'édition 2013Semaine Ecole Entreprise 2014 : Bilan de l'édition 2013
Semaine Ecole Entreprise 2014 : Bilan de l'édition 2013
 
Wikicité - Pierre-Léonard Harvey
Wikicité - Pierre-Léonard HarveyWikicité - Pierre-Léonard Harvey
Wikicité - Pierre-Léonard Harvey
 
Bordeaux
BordeauxBordeaux
Bordeaux
 
Google Grupos
Google GruposGoogle Grupos
Google Grupos
 
Jo ven! DiSueña tu comunidad
Jo ven! DiSueña tu comunidadJo ven! DiSueña tu comunidad
Jo ven! DiSueña tu comunidad
 
Les bonnes pratiques PLM chez BOLLHOFF OTALU
Les bonnes pratiques PLM chez BOLLHOFF OTALULes bonnes pratiques PLM chez BOLLHOFF OTALU
Les bonnes pratiques PLM chez BOLLHOFF OTALU
 
Así que quieres mejorar tus títulos
Así que quieres mejorar tus títulosAsí que quieres mejorar tus títulos
Así que quieres mejorar tus títulos
 
Transformez vos contacts en abonnés (webinaire)
Transformez vos contacts en abonnés (webinaire)Transformez vos contacts en abonnés (webinaire)
Transformez vos contacts en abonnés (webinaire)
 
Futur pub dossierpresse
Futur pub dossierpresseFutur pub dossierpresse
Futur pub dossierpresse
 
Unidad 2
Unidad 2Unidad 2
Unidad 2
 
Horizons Économiques-Journal Étudiant ESG UQAM-septembre 2014
Horizons Économiques-Journal Étudiant ESG UQAM-septembre 2014Horizons Économiques-Journal Étudiant ESG UQAM-septembre 2014
Horizons Économiques-Journal Étudiant ESG UQAM-septembre 2014
 
Sites femeninos en España. Febrero 2011. Women sites in Spain. February 2011.
Sites femeninos en España. Febrero 2011. Women sites in Spain. February 2011.Sites femeninos en España. Febrero 2011. Women sites in Spain. February 2011.
Sites femeninos en España. Febrero 2011. Women sites in Spain. February 2011.
 
PréSentation1
PréSentation1PréSentation1
PréSentation1
 
Recursos 2.0
Recursos 2.0Recursos 2.0
Recursos 2.0
 
Cahier Acfci Cci International 3 Janvier 2010
Cahier Acfci Cci International 3 Janvier 2010Cahier Acfci Cci International 3 Janvier 2010
Cahier Acfci Cci International 3 Janvier 2010
 
A vueltas con nuevas sentencias de los Tribunales Superiores de Justicia (Paí...
A vueltas con nuevas sentencias de los Tribunales Superiores de Justicia (Paí...A vueltas con nuevas sentencias de los Tribunales Superiores de Justicia (Paí...
A vueltas con nuevas sentencias de los Tribunales Superiores de Justicia (Paí...
 

Mehr von NSim Technology

Mehr von NSim Technology (8)

Agilité pour la PME faisant face à plusieurs projets
Agilité pour la PME faisant face à plusieurs projetsAgilité pour la PME faisant face à plusieurs projets
Agilité pour la PME faisant face à plusieurs projets
 
Modélisation de la perception dans un monde virtuel 3D
Modélisation de la perception dans un monde virtuel 3DModélisation de la perception dans un monde virtuel 3D
Modélisation de la perception dans un monde virtuel 3D
 
Approche qualitative en intelligence artificielle
Approche qualitative en intelligence artificielleApproche qualitative en intelligence artificielle
Approche qualitative en intelligence artificielle
 
Framework Orienté objet
Framework Orienté objetFramework Orienté objet
Framework Orienté objet
 
Modèle cognitif de mémoire dans un environnement virtuel
Modèle cognitif de mémoire dans un environnement virtuelModèle cognitif de mémoire dans un environnement virtuel
Modèle cognitif de mémoire dans un environnement virtuel
 
Modèle cognitif de mémoire dans un environnement virtuel
Modèle cognitif de mémoire dans un environnement virtuelModèle cognitif de mémoire dans un environnement virtuel
Modèle cognitif de mémoire dans un environnement virtuel
 
Mags Project
Mags ProjectMags Project
Mags Project
 
Présentation NSim Contour à Geomatique 2009
Présentation NSim Contour à Geomatique 2009Présentation NSim Contour à Geomatique 2009
Présentation NSim Contour à Geomatique 2009
 

Apprentissage par renforcement