SlideShare ist ein Scribd-Unternehmen logo
1 von 29
Reinforcement Learning Par Nicolas Richard Jimmy Perron
Quiz ,[object Object],[object Object],[object Object],[object Object],[object Object]
Motivation ,[object Object],[object Object],[object Object],[object Object]
Plan ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
1 - Problème…
2 - Éléments du RL ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Plan ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
3 - Schéma général ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
3 - Schéma général Agent Environnement Action Récompense + État t + 1
Notre exemple ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],s a1 a2 S(s,a1) = s1’ S(s,a2) = s2’
Récompenses ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],100 0 0
Apprentissage Maximiser ses récompenses Apprendre à choisir la meilleure action Attribuer une valeur caractérisant l’utilité d’une action Q( s, a )
Apprentissage Environnement Agent Récompense Q( s, a ) But 100 100 90 81 90 81 81 72 72 81 81 90 But 100 0 0 0 0 0
Plan ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
4 – Q-Learning ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
A - Choisir l’action à exécuter ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
A – Choisir l’action à exécuter ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
B – Recevoir la récompense ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
C – Observer le nouvel état s’ ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
D – Mettre à jour Q( s, a ) ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
D - Mettre à jour Q( s, a )  ,[object Object],[object Object],[object Object],[object Object]
D - Mettre à jour Q( s, a ) ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Plan ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Exemple : La Sim ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Plan ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
6 – Limitations ,[object Object],[object Object],[object Object],[object Object],[object Object]
6 – Limitations ,[object Object],[object Object],[object Object],[object Object],[object Object]
Critiques ,[object Object],[object Object],[object Object],[object Object],[object Object]
Conclusion ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Weitere ähnliche Inhalte

Was ist angesagt?

Les systèmes experts
Les systèmes expertsLes systèmes experts
Les systèmes expertsBruno Delb
 
Intro to Deep Reinforcement Learning
Intro to Deep Reinforcement LearningIntro to Deep Reinforcement Learning
Intro to Deep Reinforcement LearningKhaled Saleh
 
Reinforcement Learning
Reinforcement LearningReinforcement Learning
Reinforcement LearningCloudxLab
 
Machine Learning et Intelligence Artificielle
Machine Learning et Intelligence ArtificielleMachine Learning et Intelligence Artificielle
Machine Learning et Intelligence ArtificielleSoft Computing
 
Intelligence Artificielle : Introduction à l'intelligence artificielle
Intelligence Artificielle : Introduction à l'intelligence artificielleIntelligence Artificielle : Introduction à l'intelligence artificielle
Intelligence Artificielle : Introduction à l'intelligence artificielleECAM Brussels Engineering School
 
Deep Reinforcement Learning: Q-Learning
Deep Reinforcement Learning: Q-LearningDeep Reinforcement Learning: Q-Learning
Deep Reinforcement Learning: Q-LearningKai-Wen Zhao
 
L’optimisation par essaims de particules
L’optimisation par essaims de particulesL’optimisation par essaims de particules
L’optimisation par essaims de particuleschagra bassem
 
Deep Reinforcement Learning and Its Applications
Deep Reinforcement Learning and Its ApplicationsDeep Reinforcement Learning and Its Applications
Deep Reinforcement Learning and Its ApplicationsBill Liu
 
Reinforcement Learning
Reinforcement LearningReinforcement Learning
Reinforcement LearningDongHyun Kwak
 
réseaux de neurones artificiels
réseaux de neurones artificiels réseaux de neurones artificiels
réseaux de neurones artificiels Oussama Werfelli
 
Deep sarsa, Deep Q-learning, DQN
Deep sarsa, Deep Q-learning, DQNDeep sarsa, Deep Q-learning, DQN
Deep sarsa, Deep Q-learning, DQNEuijin Jeong
 
Hierarchical Reinforcement Learning
Hierarchical Reinforcement LearningHierarchical Reinforcement Learning
Hierarchical Reinforcement Learningahmad bassiouny
 
Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)Mohamed Heny SELMI
 
Quelques points sur les métaheuristiques
Quelques points sur les métaheuristiquesQuelques points sur les métaheuristiques
Quelques points sur les métaheuristiquesBENSMAINE Abderrahmane
 
Système de recommandations de films
Système de recommandations de filmsSystème de recommandations de films
Système de recommandations de filmsIbn Tofail University
 

Was ist angesagt? (20)

Les systèmes experts
Les systèmes expertsLes systèmes experts
Les systèmes experts
 
Intro to Deep Reinforcement Learning
Intro to Deep Reinforcement LearningIntro to Deep Reinforcement Learning
Intro to Deep Reinforcement Learning
 
Reinforcement Learning
Reinforcement LearningReinforcement Learning
Reinforcement Learning
 
Agents intelligents
Agents intelligentsAgents intelligents
Agents intelligents
 
Deep Q-Learning
Deep Q-LearningDeep Q-Learning
Deep Q-Learning
 
Machine Learning et Intelligence Artificielle
Machine Learning et Intelligence ArtificielleMachine Learning et Intelligence Artificielle
Machine Learning et Intelligence Artificielle
 
Intelligence Artificielle : Introduction à l'intelligence artificielle
Intelligence Artificielle : Introduction à l'intelligence artificielleIntelligence Artificielle : Introduction à l'intelligence artificielle
Intelligence Artificielle : Introduction à l'intelligence artificielle
 
Aide au diagnostic
Aide au diagnosticAide au diagnostic
Aide au diagnostic
 
Deep Reinforcement Learning: Q-Learning
Deep Reinforcement Learning: Q-LearningDeep Reinforcement Learning: Q-Learning
Deep Reinforcement Learning: Q-Learning
 
L’optimisation par essaims de particules
L’optimisation par essaims de particulesL’optimisation par essaims de particules
L’optimisation par essaims de particules
 
Deep Reinforcement Learning and Its Applications
Deep Reinforcement Learning and Its ApplicationsDeep Reinforcement Learning and Its Applications
Deep Reinforcement Learning and Its Applications
 
Reinforcement Learning
Reinforcement LearningReinforcement Learning
Reinforcement Learning
 
Présentation pfe
Présentation pfePrésentation pfe
Présentation pfe
 
réseaux de neurones artificiels
réseaux de neurones artificiels réseaux de neurones artificiels
réseaux de neurones artificiels
 
Deep sarsa, Deep Q-learning, DQN
Deep sarsa, Deep Q-learning, DQNDeep sarsa, Deep Q-learning, DQN
Deep sarsa, Deep Q-learning, DQN
 
Hierarchical Reinforcement Learning
Hierarchical Reinforcement LearningHierarchical Reinforcement Learning
Hierarchical Reinforcement Learning
 
Systèmes multi-agents
Systèmes multi-agentsSystèmes multi-agents
Systèmes multi-agents
 
Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)
 
Quelques points sur les métaheuristiques
Quelques points sur les métaheuristiquesQuelques points sur les métaheuristiques
Quelques points sur les métaheuristiques
 
Système de recommandations de films
Système de recommandations de filmsSystème de recommandations de films
Système de recommandations de films
 

Andere mochten auch

Simulation de comportements de foule
Simulation de comportements de fouleSimulation de comportements de foule
Simulation de comportements de fouleNSim Technology
 
L’analyse de construit pour comprendre comment les adolescents construisent l...
L’analyse de construit pour comprendre comment les adolescents construisent l...L’analyse de construit pour comprendre comment les adolescents construisent l...
L’analyse de construit pour comprendre comment les adolescents construisent l...Ann Davidson
 
Les bonnes pratiques PLM chez BOLLHOFF OTALU
Les bonnes pratiques PLM chez BOLLHOFF OTALULes bonnes pratiques PLM chez BOLLHOFF OTALU
Les bonnes pratiques PLM chez BOLLHOFF OTALUEntreprises & Numérique
 
Así que quieres mejorar tus títulos
Así que quieres mejorar tus títulosAsí que quieres mejorar tus títulos
Así que quieres mejorar tus títulosÓscar Pech Lara
 
Transformez vos contacts en abonnés (webinaire)
Transformez vos contacts en abonnés (webinaire)Transformez vos contacts en abonnés (webinaire)
Transformez vos contacts en abonnés (webinaire)Dialog Insight
 
Futur pub dossierpresse
Futur pub dossierpresseFutur pub dossierpresse
Futur pub dossierpresseDenis Verloes
 
Horizons Économiques-Journal Étudiant ESG UQAM-septembre 2014
Horizons Économiques-Journal Étudiant ESG UQAM-septembre 2014Horizons Économiques-Journal Étudiant ESG UQAM-septembre 2014
Horizons Économiques-Journal Étudiant ESG UQAM-septembre 2014Katy Borges
 
Sites femeninos en España. Febrero 2011. Women sites in Spain. February 2011.
Sites femeninos en España. Febrero 2011. Women sites in Spain. February 2011.Sites femeninos en España. Febrero 2011. Women sites in Spain. February 2011.
Sites femeninos en España. Febrero 2011. Women sites in Spain. February 2011.Jorge Segado
 
PréSentation1
PréSentation1PréSentation1
PréSentation1maxime2203
 
Cahier Acfci Cci International 3 Janvier 2010
Cahier Acfci Cci International 3 Janvier 2010Cahier Acfci Cci International 3 Janvier 2010
Cahier Acfci Cci International 3 Janvier 2010Renaud Favier
 
A vueltas con nuevas sentencias de los Tribunales Superiores de Justicia (Paí...
A vueltas con nuevas sentencias de los Tribunales Superiores de Justicia (Paí...A vueltas con nuevas sentencias de los Tribunales Superiores de Justicia (Paí...
A vueltas con nuevas sentencias de los Tribunales Superiores de Justicia (Paí...Universidad Autónoma de Barcelona
 

Andere mochten auch (20)

Simulation de comportements de foule
Simulation de comportements de fouleSimulation de comportements de foule
Simulation de comportements de foule
 
Radares
Radares Radares
Radares
 
L’analyse de construit pour comprendre comment les adolescents construisent l...
L’analyse de construit pour comprendre comment les adolescents construisent l...L’analyse de construit pour comprendre comment les adolescents construisent l...
L’analyse de construit pour comprendre comment les adolescents construisent l...
 
Tessellations
TessellationsTessellations
Tessellations
 
Semaine Ecole Entreprise 2014 : Bilan de l'édition 2013
Semaine Ecole Entreprise 2014 : Bilan de l'édition 2013Semaine Ecole Entreprise 2014 : Bilan de l'édition 2013
Semaine Ecole Entreprise 2014 : Bilan de l'édition 2013
 
Wikicité - Pierre-Léonard Harvey
Wikicité - Pierre-Léonard HarveyWikicité - Pierre-Léonard Harvey
Wikicité - Pierre-Léonard Harvey
 
Bordeaux
BordeauxBordeaux
Bordeaux
 
Google Grupos
Google GruposGoogle Grupos
Google Grupos
 
Jo ven! DiSueña tu comunidad
Jo ven! DiSueña tu comunidadJo ven! DiSueña tu comunidad
Jo ven! DiSueña tu comunidad
 
Les bonnes pratiques PLM chez BOLLHOFF OTALU
Les bonnes pratiques PLM chez BOLLHOFF OTALULes bonnes pratiques PLM chez BOLLHOFF OTALU
Les bonnes pratiques PLM chez BOLLHOFF OTALU
 
Así que quieres mejorar tus títulos
Así que quieres mejorar tus títulosAsí que quieres mejorar tus títulos
Así que quieres mejorar tus títulos
 
Transformez vos contacts en abonnés (webinaire)
Transformez vos contacts en abonnés (webinaire)Transformez vos contacts en abonnés (webinaire)
Transformez vos contacts en abonnés (webinaire)
 
Futur pub dossierpresse
Futur pub dossierpresseFutur pub dossierpresse
Futur pub dossierpresse
 
Unidad 2
Unidad 2Unidad 2
Unidad 2
 
Horizons Économiques-Journal Étudiant ESG UQAM-septembre 2014
Horizons Économiques-Journal Étudiant ESG UQAM-septembre 2014Horizons Économiques-Journal Étudiant ESG UQAM-septembre 2014
Horizons Économiques-Journal Étudiant ESG UQAM-septembre 2014
 
Sites femeninos en España. Febrero 2011. Women sites in Spain. February 2011.
Sites femeninos en España. Febrero 2011. Women sites in Spain. February 2011.Sites femeninos en España. Febrero 2011. Women sites in Spain. February 2011.
Sites femeninos en España. Febrero 2011. Women sites in Spain. February 2011.
 
PréSentation1
PréSentation1PréSentation1
PréSentation1
 
Recursos 2.0
Recursos 2.0Recursos 2.0
Recursos 2.0
 
Cahier Acfci Cci International 3 Janvier 2010
Cahier Acfci Cci International 3 Janvier 2010Cahier Acfci Cci International 3 Janvier 2010
Cahier Acfci Cci International 3 Janvier 2010
 
A vueltas con nuevas sentencias de los Tribunales Superiores de Justicia (Paí...
A vueltas con nuevas sentencias de los Tribunales Superiores de Justicia (Paí...A vueltas con nuevas sentencias de los Tribunales Superiores de Justicia (Paí...
A vueltas con nuevas sentencias de los Tribunales Superiores de Justicia (Paí...
 

Mehr von NSim Technology

Agilité pour la PME faisant face à plusieurs projets
Agilité pour la PME faisant face à plusieurs projetsAgilité pour la PME faisant face à plusieurs projets
Agilité pour la PME faisant face à plusieurs projetsNSim Technology
 
Modélisation de la perception dans un monde virtuel 3D
Modélisation de la perception dans un monde virtuel 3DModélisation de la perception dans un monde virtuel 3D
Modélisation de la perception dans un monde virtuel 3DNSim Technology
 
Approche qualitative en intelligence artificielle
Approche qualitative en intelligence artificielleApproche qualitative en intelligence artificielle
Approche qualitative en intelligence artificielleNSim Technology
 
Framework Orienté objet
Framework Orienté objetFramework Orienté objet
Framework Orienté objetNSim Technology
 
Modèle cognitif de mémoire dans un environnement virtuel
Modèle cognitif de mémoire dans un environnement virtuelModèle cognitif de mémoire dans un environnement virtuel
Modèle cognitif de mémoire dans un environnement virtuelNSim Technology
 
Modèle cognitif de mémoire dans un environnement virtuel
Modèle cognitif de mémoire dans un environnement virtuelModèle cognitif de mémoire dans un environnement virtuel
Modèle cognitif de mémoire dans un environnement virtuelNSim Technology
 
Présentation NSim Contour à Geomatique 2009
Présentation NSim Contour à Geomatique 2009Présentation NSim Contour à Geomatique 2009
Présentation NSim Contour à Geomatique 2009NSim Technology
 

Mehr von NSim Technology (8)

Agilité pour la PME faisant face à plusieurs projets
Agilité pour la PME faisant face à plusieurs projetsAgilité pour la PME faisant face à plusieurs projets
Agilité pour la PME faisant face à plusieurs projets
 
Modélisation de la perception dans un monde virtuel 3D
Modélisation de la perception dans un monde virtuel 3DModélisation de la perception dans un monde virtuel 3D
Modélisation de la perception dans un monde virtuel 3D
 
Approche qualitative en intelligence artificielle
Approche qualitative en intelligence artificielleApproche qualitative en intelligence artificielle
Approche qualitative en intelligence artificielle
 
Framework Orienté objet
Framework Orienté objetFramework Orienté objet
Framework Orienté objet
 
Modèle cognitif de mémoire dans un environnement virtuel
Modèle cognitif de mémoire dans un environnement virtuelModèle cognitif de mémoire dans un environnement virtuel
Modèle cognitif de mémoire dans un environnement virtuel
 
Modèle cognitif de mémoire dans un environnement virtuel
Modèle cognitif de mémoire dans un environnement virtuelModèle cognitif de mémoire dans un environnement virtuel
Modèle cognitif de mémoire dans un environnement virtuel
 
Mags Project
Mags ProjectMags Project
Mags Project
 
Présentation NSim Contour à Geomatique 2009
Présentation NSim Contour à Geomatique 2009Présentation NSim Contour à Geomatique 2009
Présentation NSim Contour à Geomatique 2009
 

Apprentissage par renforcement