Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.

Ciencia de Datos Reproducible

485 Aufrufe

Veröffentlicht am

La reproducibilidad es la capacidad de obtener los mismos resultados o inferencias en base a los datos crudos y programas provistos por los investigadores. En sistemas de recolección de datos es fundamental poder reproducir los procesos de manipulación y gestión de datos con el fin de poder verificar resultados previos o extraer nueva información. Muchas veces estos procesos son manuales y difíciles de repetir. En esta charla presentamos Docker como una solución a dicho problema y lo hacemos extensivo a otras ramas de la ciencia que enfrentan dificultades similares.

Veröffentlicht in: Daten & Analysen
  • Sex in your area is here: www.bit.ly/sexinarea
       Antworten 
    Sind Sie sicher, dass Sie …  Ja  Nein
    Ihre Nachricht erscheint hier
  • Dating for everyone is here: www.bit.ly/2AJerkH
       Antworten 
    Sind Sie sicher, dass Sie …  Ja  Nein
    Ihre Nachricht erscheint hier
  • Sex in your area for one night is there tinyurl.com/hotsexinarea Copy and paste link in your browser to visit a site)
       Antworten 
    Sind Sie sicher, dass Sie …  Ja  Nein
    Ihre Nachricht erscheint hier
  • Girls for sex are waiting for you https://bit.ly/2TQ8UAY
       Antworten 
    Sind Sie sicher, dass Sie …  Ja  Nein
    Ihre Nachricht erscheint hier
  • Meetings for sex in your area are there: https://bit.ly/2TQ8UAY
       Antworten 
    Sind Sie sicher, dass Sie …  Ja  Nein
    Ihre Nachricht erscheint hier

Ciencia de Datos Reproducible

  1. 1. Ciencia de Datos Reproducible Edgardo Hames Gabriel Miretti
  2. 2. Paradigmas de la Ciencia
  3. 3. https://www.wallpaperup.com/193472/landscapes_Egypt_digital_art_pyramids_night_sky.html Ciencia Experimental: Observaciones
  4. 4. Ciencia Teórica: Modelos
  5. 5. Ciencia Computacional: Simulaciones
  6. 6. eCiencia: Teoría + Experimentos +
  7. 7. 50 PB Volumen estimado por el CERN para 2018 (tras limpiar el 99% de los datos colectados)
  8. 8. Reproducibilidad: capacidad de recomputar mismos resultados con los datos originales (dentro del lab). Replicabilidad: posibilidad de que otros experimentadores obtengan resultados consistentes (entre labs). Crisis de Reproducibilidad
  9. 9. 1. Disponibilidad de los datos crudos de los experimentos 2. Código y documentación para repetir los análisis (*) 3. Capacidad de analizar correctamente los datos Solución a la Crisis de Reproducibilidad
  10. 10. Ciencia de Datos
  11. 11. Ciencia de Datos Métodos científicos, procesos, algoritmos y sistemas para extraer conocimiento o información de datos en diversas formas (estructurados o no). Objetivo: un producto de software capaz de automatizar tareas de análisis complejas, ampliando la utilidad de un modelo, algoritmo o inferencia basada en datos (producto de datos)
  12. 12. ML Extracción de Atributos Infraestructura Herramientas de Análisis Verificación Monitoreo Configuración Gestión de Proceso Recursos Computacionales Recolección de Datos https://youtu.be/vdG7uKQ2eKk?t=107 Producto de Software
  13. 13. Pipeline de datos Limpieza Análisis Entrena miento Modelado Modelo Datos Crudos Verifica ción Estructuración, manejo de duplicados, errores, etc Visualización, cálculos estadísticos, correlaciones, etc Descripción matemática de los datos y sus relaciones
  14. 14. ● Compilación o instalación fallidas por falta de dependencias o documentación incorrecta ● Evolución/Erosión del software ● Barreras para la adopción y el reuso Desafíos para reproducir análisis COMUNES AL DESARROLLO DE SOFTWARE
  15. 15. Aproximación Sistemática
  16. 16. ¿Cómo resolverlo? Notebook en Docker Modelo como servicio REST
  17. 17. Limpieza Análisis Entrena miento Modelado Modelo Limpieza Modelo Datos Crudos Verifica ción Construcción Prueba Data Science & Software Pipelines
  18. 18. DEMO
  19. 19. Otras Consideraciones
  20. 20. Limpieza Análisis Entrena miento Modelado Modelo Limpieza Modelo Datos Crudos Verifica ción Construcción Prueba Múltiples Modelos en Producción Modelado Modelo Modelado Modelo
  21. 21. CI para flujo de datos Se puede programar el flujo en el motor de integración continua con pipeline as code.
  22. 22. Pachyderm.io Pachyderm lets you deploy and manage multi-stage, language-agnostic data pipelines while maintaining complete reproducibility and provenance.
  23. 23. Debemos alinear la Ciencia de Datos con las prácticas de Ingeniería de Software.
  24. 24. Edgardo Hames ehames@bitlogic.io Gabriel Miretti about.me/gmiretti Gracias!

×