SlideShare ist ein Scribd-Unternehmen logo
1 von 24
Aprendizaje por Refuerzo Framework Aplicado a robots en RealTime Battle José Luis Marina Máster Investigación Informática Universidad Complutense de Madrid Obra Creative Commons Febrero  de 2009 Aprendizaje Automático
Introducción Introducción   Entorno  Estrategia  Conclusiones  Futuro José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots Problema genérico a resolver: “ Cómo un agente autónomo que  siente  y  reacciona  con su entorno, puede  aprender a elegir  acciones óptimas para la consecución de sus objetivos .” Machine Learning - Tom Mitchell Aprendizaje por refuerzo
Introducción Introducción   Entorno  Estrategia  Conclusiones  Futuro José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Aprendizaje por refuerzo
Introducción Introducción   Entorno  Estrategia  Conclusiones  Futuro José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots Elegir  política de control  o acciones que maximizen: Aprendizaje por refuerzo s 0 s 1 s 2 a 2 a 1 a 0 r 0 r 1 r 2 r 0  + Ɣ r 1  + Ɣ²r 2  + ... donde 0  ≤  Ɣ < 1 ... Agente Entorno
Introducción Introducción   Entorno  Estrategia  Conclusiones  Futuro José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Aprendizaje por refuerzo
Introducción Introducción   Entorno  Estrategia  Conclusiones  Futuro José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots ,[object Object],[object Object],[object Object],[object Object],[object Object],Aprendizaje por refuerzo
Introducción Introducción   Entorno  Estrategia  Conclusiones  Futuro José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Aprendizaje por refuerzo ,[object Object]
Introducción Introducción   Entorno  Estrategia  Conclusiones  Futuro José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots ,[object Object],Aprendizaje por refuerzo ,[object Object],[object Object],[object Object],[object Object],[object Object]
Real Time Battle Introducción   Entorno   Estrategia  Conclusiones  Futuro José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Real Time Battle Introducción   Entorno   Estrategia  Conclusiones  Futuro José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Real Time Battle Introducción   Entorno   Estrategia  Conclusiones  Futuro José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Trabajo Introducción   Entorno   Estrategia   Conclusiones  Futuro José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Trabajo Introducción   Entorno   Estrategia   Conclusiones  Futuro José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Trabajo Introducción   Entorno   Estrategia   Conclusiones  Futuro José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots Sensores, estados y Acciones X SEE_COOKIE – SEE_WALL  - SEE_ROBOT No Lejos Cerca NUM_ROBOTS ENERGY UNDER_FIRE Poco Medio Mucho -> S 1  S 2  . S n  n=3 8 (6561)   3 8 PATROL  FIRE_AROUND  BE_QUIET  GO_FOR_COOKIES FIRE_CRAZY  RAMBOW  STOP  ACELERAR GIRAR ROBOT GIRAR RADAR Y CAÑÓN FRENAR DISPARAR ....  Acciones Básicas Acciones Elaboradas 7 Q(s,a) 3 8  x 7 45927 elementos NUMROBOTS  = 0, SEE_ROBOT  = 1, SEE_WALL  = 2, SEE_COOKIE = 3, SEE_MINE  = 4, SEE_BULLET = 5, MY_ENERGY  = 6, UNDER_FIRE = 7, LEVEL_1 = 0 LEVEL_2 = 1 LEVEL_3 = 2
Trabajo Introducción   Entorno   Estrategia   Conclusiones  Futuro José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots Clase Qtable y Rebote MAIN: RTB_Rebote Rebote(&quot;Nombre&quot;,&quot;Color&quot;); Rebote. run() ; Rebote.run() RTB_QTable Qt; Qt.open (num_actions  , num_states ,init_val “ qtable_file&quot;,explore_rate ,learning); While (!end_game) get_sensor_values();  calculate_state();  reward = energy + 400 / (robots_left *  robots_left); action = Qt.next_action(state, reward); execute_action(action);
Resultados Introducción   Entorno   Estrategia   Conclusiones   Futuro José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Introducción José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots Al Azar Gamma = 1.0 Explore = 10% Learning Gamma = 0.8 Explore = 10% Gamma = 1.0 No Learning Introducción   Entorno   Estrategia   Conclusiones   Futuro
Datos de Resultados José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots Introducción   Entorno   Estrategia   Conclusiones   Futuro ,[object Object],[object Object],[object Object],[object Object],[object Object]
Datos de Resultados José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots Introducción   Entorno   Estrategia   Conclusiones   Futuro
Conclusiones sobre los resultados  José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots Introducción   Entorno   Estrategia   Conclusiones   Futuro ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Acciones Futuras José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots Introducción   Entorno   Estrategia   Conclusiones   Futuro ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Principales Referencias José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots Introducción   Entorno   Estrategia   Conclusiones   Futuro Machine Learning: C13 – Reiforcement Learning Tom Mitchell -  1997 RETALIATE: Learning Winning Policies in First-Person Shooter Games Megan Smith, Stephen Lee-Urban, Héctor Muñoz-Avila –  2007 Learning to be a Bot: Reiforcement Learning in Shooter Games. Michelle McPartland and Marcus Gallagher –  2008 Sutton, R. S. & Barto, A. G. Reinforcement Learning:An Introduction,  MIT Press, Cambridge, MA -  1998 . Recognizing the Enemy: Combining RL with Strategy Selection using CBR. B. auslander, S. Lee-Urban, Chad Hogg and H. Muñoz -  2008 Real Time Battle: Web page and documentation. http://realtimebattle.sourceforge.net/ Imágenes de: http://www.sxc.hu
Fin José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots Introducción   Entorno   Estrategia   Conclusiones   Futuro ¿Preguntas? [email_address]
Introducción Introducción   Entorno  Estrategia  Conclusiones  Futuro José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots ,[object Object],[object Object],[object Object],[object Object],[object Object],Aprendizaje por refuerzo

Weitere ähnliche Inhalte

Ähnlich wie Aprendizaje por Refuerzo: Luchas de Robots

Algoritmos Voraces (Greedy)
Algoritmos Voraces (Greedy)Algoritmos Voraces (Greedy)
Algoritmos Voraces (Greedy)luzenith_g
 
Introduccion a la Simulación de Sistemas
Introduccion a la Simulación de SistemasIntroduccion a la Simulación de Sistemas
Introduccion a la Simulación de SistemasP.A. Ortiz Bochard
 
Competencias de simulación
Competencias de simulaciónCompetencias de simulación
Competencias de simulaciónAlejandra Pérez
 
Automatizando el aprendizaje basado en datos
Automatizando el aprendizaje basado en datosAutomatizando el aprendizaje basado en datos
Automatizando el aprendizaje basado en datosManuel Martín
 
Proyecto final MODELADO DE ROBOTS UPC TABASCO
Proyecto final MODELADO DE ROBOTS UPC TABASCOProyecto final MODELADO DE ROBOTS UPC TABASCO
Proyecto final MODELADO DE ROBOTS UPC TABASCODave R Rdez
 
Memoria intermedia
Memoria intermediaMemoria intermedia
Memoria intermediasinchan607
 
2010-10-15 (upm) eMadrid arcarrio uc3m algoritmos aprendizaje patrones
2010-10-15 (upm) eMadrid arcarrio uc3m algoritmos aprendizaje patrones2010-10-15 (upm) eMadrid arcarrio uc3m algoritmos aprendizaje patrones
2010-10-15 (upm) eMadrid arcarrio uc3m algoritmos aprendizaje patroneseMadrid network
 
Final Degree Project SMIT
Final Degree Project SMITFinal Degree Project SMIT
Final Degree Project SMITIvan Pretel
 

Ähnlich wie Aprendizaje por Refuerzo: Luchas de Robots (20)

Algoritmos Voraces (Greedy)
Algoritmos Voraces (Greedy)Algoritmos Voraces (Greedy)
Algoritmos Voraces (Greedy)
 
Colisiones (2) (1)
Colisiones (2) (1)Colisiones (2) (1)
Colisiones (2) (1)
 
EVALUACION DE ALGORTIMOS
EVALUACION DE ALGORTIMOSEVALUACION DE ALGORTIMOS
EVALUACION DE ALGORTIMOS
 
Introduccion a la Simulación de Sistemas
Introduccion a la Simulación de SistemasIntroduccion a la Simulación de Sistemas
Introduccion a la Simulación de Sistemas
 
Competencias de simulación
Competencias de simulaciónCompetencias de simulación
Competencias de simulación
 
ISO 13053
ISO 13053ISO 13053
ISO 13053
 
Automatizando el aprendizaje basado en datos
Automatizando el aprendizaje basado en datosAutomatizando el aprendizaje basado en datos
Automatizando el aprendizaje basado en datos
 
Proyecto final MODELADO DE ROBOTS UPC TABASCO
Proyecto final MODELADO DE ROBOTS UPC TABASCOProyecto final MODELADO DE ROBOTS UPC TABASCO
Proyecto final MODELADO DE ROBOTS UPC TABASCO
 
Presentacion fermath
Presentacion fermathPresentacion fermath
Presentacion fermath
 
Presentacion robotica
Presentacion roboticaPresentacion robotica
Presentacion robotica
 
talleres de lpp
talleres de lpptalleres de lpp
talleres de lpp
 
Memoria intermedia
Memoria intermediaMemoria intermedia
Memoria intermedia
 
Sesion 04 NXT
Sesion 04 NXTSesion 04 NXT
Sesion 04 NXT
 
Complejidad Computacional
Complejidad ComputacionalComplejidad Computacional
Complejidad Computacional
 
2010-10-15 (upm) eMadrid arcarrio uc3m algoritmos aprendizaje patrones
2010-10-15 (upm) eMadrid arcarrio uc3m algoritmos aprendizaje patrones2010-10-15 (upm) eMadrid arcarrio uc3m algoritmos aprendizaje patrones
2010-10-15 (upm) eMadrid arcarrio uc3m algoritmos aprendizaje patrones
 
Teoria optimizacion
Teoria optimizacionTeoria optimizacion
Teoria optimizacion
 
TOminer-1.2
TOminer-1.2TOminer-1.2
TOminer-1.2
 
trabajo final
trabajo finaltrabajo final
trabajo final
 
Final Degree Project SMIT
Final Degree Project SMITFinal Degree Project SMIT
Final Degree Project SMIT
 
2do encuentro - Mayo.pptx
2do encuentro - Mayo.pptx2do encuentro - Mayo.pptx
2do encuentro - Mayo.pptx
 

Mehr von Joselu Marina

La vida real: Presentando un proyecto innovador a H2020
La vida real: Presentando un proyecto innovador a H2020La vida real: Presentando un proyecto innovador a H2020
La vida real: Presentando un proyecto innovador a H2020Joselu Marina
 
Kubernetes: Caso de uso real con mememtum y Taniwa
Kubernetes: Caso de uso real con mememtum y TaniwaKubernetes: Caso de uso real con mememtum y Taniwa
Kubernetes: Caso de uso real con mememtum y TaniwaJoselu Marina
 
Visión sobre tecnología y medicina
Visión sobre tecnología y medicinaVisión sobre tecnología y medicina
Visión sobre tecnología y medicinaJoselu Marina
 
mememtum: presentación para inversores - IESE Jul 2013
mememtum: presentación para inversores - IESE Jul 2013mememtum: presentación para inversores - IESE Jul 2013
mememtum: presentación para inversores - IESE Jul 2013Joselu Marina
 
mememtum: Móviles para la salud
mememtum: Móviles para la saludmememtum: Móviles para la salud
mememtum: Móviles para la saludJoselu Marina
 
Taniwa: Servicios y productos
Taniwa: Servicios y productosTaniwa: Servicios y productos
Taniwa: Servicios y productosJoselu Marina
 
Sharing Osmius experiences in Startup Boot Camp Ma
Sharing Osmius experiences in Startup Boot Camp MaSharing Osmius experiences in Startup Boot Camp Ma
Sharing Osmius experiences in Startup Boot Camp MaJoselu Marina
 
Osmius: RoadMap (MadridOnRails)
Osmius: RoadMap (MadridOnRails)Osmius: RoadMap (MadridOnRails)
Osmius: RoadMap (MadridOnRails)Joselu Marina
 
Osmius: Monitoriza tu negocio
Osmius: Monitoriza tu negocioOsmius: Monitoriza tu negocio
Osmius: Monitoriza tu negocioJoselu Marina
 
bioLabeler para primerViernes
bioLabeler para primerViernesbioLabeler para primerViernes
bioLabeler para primerViernesJoselu Marina
 
Uso GPUs para alineación de secuencias de Genes
Uso GPUs para alineación de secuencias de GenesUso GPUs para alineación de secuencias de Genes
Uso GPUs para alineación de secuencias de GenesJoselu Marina
 
Priorización de Requisitos
Priorización de RequisitosPriorización de Requisitos
Priorización de RequisitosJoselu Marina
 
Extracción automática de conceptos de Textos Biomédicos
Extracción automática de conceptos de Textos BiomédicosExtracción automática de conceptos de Textos Biomédicos
Extracción automática de conceptos de Textos BiomédicosJoselu Marina
 

Mehr von Joselu Marina (15)

La vida real: Presentando un proyecto innovador a H2020
La vida real: Presentando un proyecto innovador a H2020La vida real: Presentando un proyecto innovador a H2020
La vida real: Presentando un proyecto innovador a H2020
 
Kubernetes: Caso de uso real con mememtum y Taniwa
Kubernetes: Caso de uso real con mememtum y TaniwaKubernetes: Caso de uso real con mememtum y Taniwa
Kubernetes: Caso de uso real con mememtum y Taniwa
 
Visión sobre tecnología y medicina
Visión sobre tecnología y medicinaVisión sobre tecnología y medicina
Visión sobre tecnología y medicina
 
mememtum: presentación para inversores - IESE Jul 2013
mememtum: presentación para inversores - IESE Jul 2013mememtum: presentación para inversores - IESE Jul 2013
mememtum: presentación para inversores - IESE Jul 2013
 
mememtum: Móviles para la salud
mememtum: Móviles para la saludmememtum: Móviles para la salud
mememtum: Móviles para la salud
 
Taniwa: Servicios y productos
Taniwa: Servicios y productosTaniwa: Servicios y productos
Taniwa: Servicios y productos
 
Sharing Osmius experiences in Startup Boot Camp Ma
Sharing Osmius experiences in Startup Boot Camp MaSharing Osmius experiences in Startup Boot Camp Ma
Sharing Osmius experiences in Startup Boot Camp Ma
 
Abredatos2011
Abredatos2011Abredatos2011
Abredatos2011
 
Osmius: RoadMap (MadridOnRails)
Osmius: RoadMap (MadridOnRails)Osmius: RoadMap (MadridOnRails)
Osmius: RoadMap (MadridOnRails)
 
Osmius: Monitoriza tu negocio
Osmius: Monitoriza tu negocioOsmius: Monitoriza tu negocio
Osmius: Monitoriza tu negocio
 
bioLabeler para primerViernes
bioLabeler para primerViernesbioLabeler para primerViernes
bioLabeler para primerViernes
 
Uso GPUs para alineación de secuencias de Genes
Uso GPUs para alineación de secuencias de GenesUso GPUs para alineación de secuencias de Genes
Uso GPUs para alineación de secuencias de Genes
 
Priorización de Requisitos
Priorización de RequisitosPriorización de Requisitos
Priorización de Requisitos
 
Extracción automática de conceptos de Textos Biomédicos
Extracción automática de conceptos de Textos BiomédicosExtracción automática de conceptos de Textos Biomédicos
Extracción automática de conceptos de Textos Biomédicos
 
Osmius morfeo2010
Osmius morfeo2010Osmius morfeo2010
Osmius morfeo2010
 

Kürzlich hochgeladen

Contextualización y aproximación al objeto de estudio de investigación cualit...
Contextualización y aproximación al objeto de estudio de investigación cualit...Contextualización y aproximación al objeto de estudio de investigación cualit...
Contextualización y aproximación al objeto de estudio de investigación cualit...Angélica Soledad Vega Ramírez
 
HISPANIDAD - La cultura común de la HISPANOAMERICA
HISPANIDAD - La cultura común de la HISPANOAMERICAHISPANIDAD - La cultura común de la HISPANOAMERICA
HISPANIDAD - La cultura común de la HISPANOAMERICAJesus Gonzalez Losada
 
Uses of simple past and time expressions
Uses of simple past and time expressionsUses of simple past and time expressions
Uses of simple past and time expressionsConsueloSantana3
 
DETALLES EN EL DISEÑO DE INTERIOR
DETALLES EN EL DISEÑO DE INTERIORDETALLES EN EL DISEÑO DE INTERIOR
DETALLES EN EL DISEÑO DE INTERIORGonella
 
4° SES COM MAR 09 Leemos una noticia del dengue e identificamos sus partes (1...
4° SES COM MAR 09 Leemos una noticia del dengue e identificamos sus partes (1...4° SES COM MAR 09 Leemos una noticia del dengue e identificamos sus partes (1...
4° SES COM MAR 09 Leemos una noticia del dengue e identificamos sus partes (1...MagalyDacostaPea
 
SESIÓN DE APRENDIZAJE Leemos un texto para identificar los sinónimos y los an...
SESIÓN DE APRENDIZAJE Leemos un texto para identificar los sinónimos y los an...SESIÓN DE APRENDIZAJE Leemos un texto para identificar los sinónimos y los an...
SESIÓN DE APRENDIZAJE Leemos un texto para identificar los sinónimos y los an...GIANCARLOORDINOLAORD
 
EJEMPLO MODELO DE PLAN DE REFUERZO ESCOLAR.docx
EJEMPLO MODELO DE PLAN DE REFUERZO ESCOLAR.docxEJEMPLO MODELO DE PLAN DE REFUERZO ESCOLAR.docx
EJEMPLO MODELO DE PLAN DE REFUERZO ESCOLAR.docxFabianValenciaJabo
 
DIDÁCTICA DE LA EDUCACIÓN SUPERIOR- DR LENIN CARI MOGROVEJO
DIDÁCTICA DE LA EDUCACIÓN SUPERIOR- DR LENIN CARI MOGROVEJODIDÁCTICA DE LA EDUCACIÓN SUPERIOR- DR LENIN CARI MOGROVEJO
DIDÁCTICA DE LA EDUCACIÓN SUPERIOR- DR LENIN CARI MOGROVEJOLeninCariMogrovejo
 
Fichas de Matemática DE SEGUNDO DE SECUNDARIA.pdf
Fichas de Matemática DE SEGUNDO DE SECUNDARIA.pdfFichas de Matemática DE SEGUNDO DE SECUNDARIA.pdf
Fichas de Matemática DE SEGUNDO DE SECUNDARIA.pdfssuser50d1252
 
Actividad transversal 2-bloque 2. Actualización 2024
Actividad transversal 2-bloque 2. Actualización 2024Actividad transversal 2-bloque 2. Actualización 2024
Actividad transversal 2-bloque 2. Actualización 2024Rosabel UA
 
FICHA PL PACO YUNQUE.docx PRIMARIA CUARTO GRADO
FICHA  PL PACO YUNQUE.docx PRIMARIA CUARTO GRADOFICHA  PL PACO YUNQUE.docx PRIMARIA CUARTO GRADO
FICHA PL PACO YUNQUE.docx PRIMARIA CUARTO GRADOMARIBEL DIAZ
 
Secuencia didáctica.DOÑA CLEMENTINA.2024.docx
Secuencia didáctica.DOÑA CLEMENTINA.2024.docxSecuencia didáctica.DOÑA CLEMENTINA.2024.docx
Secuencia didáctica.DOÑA CLEMENTINA.2024.docxNataliaGonzalez619348
 
05 Fenomenos fisicos y quimicos de la materia.pdf
05 Fenomenos fisicos y quimicos de la materia.pdf05 Fenomenos fisicos y quimicos de la materia.pdf
05 Fenomenos fisicos y quimicos de la materia.pdfRAMON EUSTAQUIO CARO BAYONA
 
IV SES LUN 15 TUTO CUIDO MI MENTE CUIDANDO MI CUERPO YESSENIA 933623393 NUEV...
IV SES LUN 15 TUTO CUIDO MI MENTE CUIDANDO MI CUERPO  YESSENIA 933623393 NUEV...IV SES LUN 15 TUTO CUIDO MI MENTE CUIDANDO MI CUERPO  YESSENIA 933623393 NUEV...
IV SES LUN 15 TUTO CUIDO MI MENTE CUIDANDO MI CUERPO YESSENIA 933623393 NUEV...YobanaZevallosSantil1
 
CUADERNILLO DE EJERCICIOS PARA EL TERCER TRIMESTRE, SEXTO GRADO
CUADERNILLO DE EJERCICIOS PARA EL TERCER TRIMESTRE, SEXTO GRADOCUADERNILLO DE EJERCICIOS PARA EL TERCER TRIMESTRE, SEXTO GRADO
CUADERNILLO DE EJERCICIOS PARA EL TERCER TRIMESTRE, SEXTO GRADOEveliaHernandez8
 
MODELO DE INFORME DE INDAGACION CIENTIFICA .docx
MODELO DE INFORME DE INDAGACION CIENTIFICA .docxMODELO DE INFORME DE INDAGACION CIENTIFICA .docx
MODELO DE INFORME DE INDAGACION CIENTIFICA .docxRAMON EUSTAQUIO CARO BAYONA
 
4º SOY LECTOR PART2- MD EDUCATIVO.p df PARTE
4º SOY LECTOR PART2- MD  EDUCATIVO.p df PARTE4º SOY LECTOR PART2- MD  EDUCATIVO.p df PARTE
4º SOY LECTOR PART2- MD EDUCATIVO.p df PARTESaraNolasco4
 
PRIMER GRADO SOY LECTOR PART1- MD EDUCATIVO.pdf
PRIMER GRADO SOY LECTOR PART1- MD  EDUCATIVO.pdfPRIMER GRADO SOY LECTOR PART1- MD  EDUCATIVO.pdf
PRIMER GRADO SOY LECTOR PART1- MD EDUCATIVO.pdfGabrieldeJesusLopezG
 
SISTEMA INMUNE FISIOLOGIA MEDICA UNSL 2024
SISTEMA INMUNE FISIOLOGIA MEDICA UNSL 2024SISTEMA INMUNE FISIOLOGIA MEDICA UNSL 2024
SISTEMA INMUNE FISIOLOGIA MEDICA UNSL 2024gharce
 

Kürzlich hochgeladen (20)

Contextualización y aproximación al objeto de estudio de investigación cualit...
Contextualización y aproximación al objeto de estudio de investigación cualit...Contextualización y aproximación al objeto de estudio de investigación cualit...
Contextualización y aproximación al objeto de estudio de investigación cualit...
 
HISPANIDAD - La cultura común de la HISPANOAMERICA
HISPANIDAD - La cultura común de la HISPANOAMERICAHISPANIDAD - La cultura común de la HISPANOAMERICA
HISPANIDAD - La cultura común de la HISPANOAMERICA
 
Uses of simple past and time expressions
Uses of simple past and time expressionsUses of simple past and time expressions
Uses of simple past and time expressions
 
La luz brilla en la oscuridad. Necesitamos luz
La luz brilla en la oscuridad. Necesitamos luzLa luz brilla en la oscuridad. Necesitamos luz
La luz brilla en la oscuridad. Necesitamos luz
 
DETALLES EN EL DISEÑO DE INTERIOR
DETALLES EN EL DISEÑO DE INTERIORDETALLES EN EL DISEÑO DE INTERIOR
DETALLES EN EL DISEÑO DE INTERIOR
 
4° SES COM MAR 09 Leemos una noticia del dengue e identificamos sus partes (1...
4° SES COM MAR 09 Leemos una noticia del dengue e identificamos sus partes (1...4° SES COM MAR 09 Leemos una noticia del dengue e identificamos sus partes (1...
4° SES COM MAR 09 Leemos una noticia del dengue e identificamos sus partes (1...
 
SESIÓN DE APRENDIZAJE Leemos un texto para identificar los sinónimos y los an...
SESIÓN DE APRENDIZAJE Leemos un texto para identificar los sinónimos y los an...SESIÓN DE APRENDIZAJE Leemos un texto para identificar los sinónimos y los an...
SESIÓN DE APRENDIZAJE Leemos un texto para identificar los sinónimos y los an...
 
EJEMPLO MODELO DE PLAN DE REFUERZO ESCOLAR.docx
EJEMPLO MODELO DE PLAN DE REFUERZO ESCOLAR.docxEJEMPLO MODELO DE PLAN DE REFUERZO ESCOLAR.docx
EJEMPLO MODELO DE PLAN DE REFUERZO ESCOLAR.docx
 
DIDÁCTICA DE LA EDUCACIÓN SUPERIOR- DR LENIN CARI MOGROVEJO
DIDÁCTICA DE LA EDUCACIÓN SUPERIOR- DR LENIN CARI MOGROVEJODIDÁCTICA DE LA EDUCACIÓN SUPERIOR- DR LENIN CARI MOGROVEJO
DIDÁCTICA DE LA EDUCACIÓN SUPERIOR- DR LENIN CARI MOGROVEJO
 
Fichas de Matemática DE SEGUNDO DE SECUNDARIA.pdf
Fichas de Matemática DE SEGUNDO DE SECUNDARIA.pdfFichas de Matemática DE SEGUNDO DE SECUNDARIA.pdf
Fichas de Matemática DE SEGUNDO DE SECUNDARIA.pdf
 
Actividad transversal 2-bloque 2. Actualización 2024
Actividad transversal 2-bloque 2. Actualización 2024Actividad transversal 2-bloque 2. Actualización 2024
Actividad transversal 2-bloque 2. Actualización 2024
 
FICHA PL PACO YUNQUE.docx PRIMARIA CUARTO GRADO
FICHA  PL PACO YUNQUE.docx PRIMARIA CUARTO GRADOFICHA  PL PACO YUNQUE.docx PRIMARIA CUARTO GRADO
FICHA PL PACO YUNQUE.docx PRIMARIA CUARTO GRADO
 
Secuencia didáctica.DOÑA CLEMENTINA.2024.docx
Secuencia didáctica.DOÑA CLEMENTINA.2024.docxSecuencia didáctica.DOÑA CLEMENTINA.2024.docx
Secuencia didáctica.DOÑA CLEMENTINA.2024.docx
 
05 Fenomenos fisicos y quimicos de la materia.pdf
05 Fenomenos fisicos y quimicos de la materia.pdf05 Fenomenos fisicos y quimicos de la materia.pdf
05 Fenomenos fisicos y quimicos de la materia.pdf
 
IV SES LUN 15 TUTO CUIDO MI MENTE CUIDANDO MI CUERPO YESSENIA 933623393 NUEV...
IV SES LUN 15 TUTO CUIDO MI MENTE CUIDANDO MI CUERPO  YESSENIA 933623393 NUEV...IV SES LUN 15 TUTO CUIDO MI MENTE CUIDANDO MI CUERPO  YESSENIA 933623393 NUEV...
IV SES LUN 15 TUTO CUIDO MI MENTE CUIDANDO MI CUERPO YESSENIA 933623393 NUEV...
 
CUADERNILLO DE EJERCICIOS PARA EL TERCER TRIMESTRE, SEXTO GRADO
CUADERNILLO DE EJERCICIOS PARA EL TERCER TRIMESTRE, SEXTO GRADOCUADERNILLO DE EJERCICIOS PARA EL TERCER TRIMESTRE, SEXTO GRADO
CUADERNILLO DE EJERCICIOS PARA EL TERCER TRIMESTRE, SEXTO GRADO
 
MODELO DE INFORME DE INDAGACION CIENTIFICA .docx
MODELO DE INFORME DE INDAGACION CIENTIFICA .docxMODELO DE INFORME DE INDAGACION CIENTIFICA .docx
MODELO DE INFORME DE INDAGACION CIENTIFICA .docx
 
4º SOY LECTOR PART2- MD EDUCATIVO.p df PARTE
4º SOY LECTOR PART2- MD  EDUCATIVO.p df PARTE4º SOY LECTOR PART2- MD  EDUCATIVO.p df PARTE
4º SOY LECTOR PART2- MD EDUCATIVO.p df PARTE
 
PRIMER GRADO SOY LECTOR PART1- MD EDUCATIVO.pdf
PRIMER GRADO SOY LECTOR PART1- MD  EDUCATIVO.pdfPRIMER GRADO SOY LECTOR PART1- MD  EDUCATIVO.pdf
PRIMER GRADO SOY LECTOR PART1- MD EDUCATIVO.pdf
 
SISTEMA INMUNE FISIOLOGIA MEDICA UNSL 2024
SISTEMA INMUNE FISIOLOGIA MEDICA UNSL 2024SISTEMA INMUNE FISIOLOGIA MEDICA UNSL 2024
SISTEMA INMUNE FISIOLOGIA MEDICA UNSL 2024
 

Aprendizaje por Refuerzo: Luchas de Robots

  • 1. Aprendizaje por Refuerzo Framework Aplicado a robots en RealTime Battle José Luis Marina Máster Investigación Informática Universidad Complutense de Madrid Obra Creative Commons Febrero de 2009 Aprendizaje Automático
  • 2. Introducción Introducción Entorno Estrategia Conclusiones Futuro José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots Problema genérico a resolver: “ Cómo un agente autónomo que siente y reacciona con su entorno, puede aprender a elegir acciones óptimas para la consecución de sus objetivos .” Machine Learning - Tom Mitchell Aprendizaje por refuerzo
  • 3.
  • 4. Introducción Introducción Entorno Estrategia Conclusiones Futuro José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots Elegir política de control o acciones que maximizen: Aprendizaje por refuerzo s 0 s 1 s 2 a 2 a 1 a 0 r 0 r 1 r 2 r 0 + Ɣ r 1 + Ɣ²r 2 + ... donde 0 ≤ Ɣ < 1 ... Agente Entorno
  • 5.
  • 6.
  • 7.
  • 8.
  • 9.
  • 10.
  • 11.
  • 12.
  • 13.
  • 14. Trabajo Introducción Entorno Estrategia Conclusiones Futuro José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots Sensores, estados y Acciones X SEE_COOKIE – SEE_WALL - SEE_ROBOT No Lejos Cerca NUM_ROBOTS ENERGY UNDER_FIRE Poco Medio Mucho -> S 1 S 2 . S n n=3 8 (6561) 3 8 PATROL FIRE_AROUND BE_QUIET GO_FOR_COOKIES FIRE_CRAZY RAMBOW STOP ACELERAR GIRAR ROBOT GIRAR RADAR Y CAÑÓN FRENAR DISPARAR .... Acciones Básicas Acciones Elaboradas 7 Q(s,a) 3 8 x 7 45927 elementos NUMROBOTS = 0, SEE_ROBOT = 1, SEE_WALL = 2, SEE_COOKIE = 3, SEE_MINE = 4, SEE_BULLET = 5, MY_ENERGY = 6, UNDER_FIRE = 7, LEVEL_1 = 0 LEVEL_2 = 1 LEVEL_3 = 2
  • 15. Trabajo Introducción Entorno Estrategia Conclusiones Futuro José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots Clase Qtable y Rebote MAIN: RTB_Rebote Rebote(&quot;Nombre&quot;,&quot;Color&quot;); Rebote. run() ; Rebote.run() RTB_QTable Qt; Qt.open (num_actions , num_states ,init_val “ qtable_file&quot;,explore_rate ,learning); While (!end_game) get_sensor_values(); calculate_state(); reward = energy + 400 / (robots_left * robots_left); action = Qt.next_action(state, reward); execute_action(action);
  • 16.
  • 17. Introducción José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots Al Azar Gamma = 1.0 Explore = 10% Learning Gamma = 0.8 Explore = 10% Gamma = 1.0 No Learning Introducción Entorno Estrategia Conclusiones Futuro
  • 18.
  • 19. Datos de Resultados José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots Introducción Entorno Estrategia Conclusiones Futuro
  • 20.
  • 21.
  • 22. Principales Referencias José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots Introducción Entorno Estrategia Conclusiones Futuro Machine Learning: C13 – Reiforcement Learning Tom Mitchell - 1997 RETALIATE: Learning Winning Policies in First-Person Shooter Games Megan Smith, Stephen Lee-Urban, Héctor Muñoz-Avila – 2007 Learning to be a Bot: Reiforcement Learning in Shooter Games. Michelle McPartland and Marcus Gallagher – 2008 Sutton, R. S. & Barto, A. G. Reinforcement Learning:An Introduction, MIT Press, Cambridge, MA - 1998 . Recognizing the Enemy: Combining RL with Strategy Selection using CBR. B. auslander, S. Lee-Urban, Chad Hogg and H. Muñoz - 2008 Real Time Battle: Web page and documentation. http://realtimebattle.sourceforge.net/ Imágenes de: http://www.sxc.hu
  • 23. Fin José Luis Marina – Aprendizaje Automático - UCM Febrero de 2009 Reinforcement Learning Bots Introducción Entorno Estrategia Conclusiones Futuro ¿Preguntas? [email_address]
  • 24.