SlideShare ist ein Scribd-Unternehmen logo
1 von 27
Trabajando con
Datos
DATA PIPELINE
Julio Lopez
@jalp_ec
@EscuelaDeDatos
¿OPEN DATA?
Hola
Mi nombre es Julio (@jalp_ec), soy de Ecuador tengo 27 años, peso
75 kg (no es cierto) y me encanta andar en bicicleta
Hola
Nombre, País, Edad, Peso, Pasatiempo, Twitter
Julio, Ecuador, 27, 75, bicicleta, @mexflow
Alvaro, Chile, 200, 90, rock, @redmatriz
Daniel, Uruguay, 20, 120, mate, @danielcarranza
Hola
Nombre, País, Edad, Peso, Pasatiempo, Twitter
Julio, Ecuador, 27, 75, bicicleta, @mexflow
Alvaro, Chile, 18, 90, rock, @redmatriz
Daniel, Uruguay, 20, 120, mate, @danielcarranza
Hola.csv
Nombre, País, Edad, Peso, Pasatiempo, Twitter
Julio, Ecuador, 27, 75, bicicleta, @mexflow
Alvaro, Chile, 18, 90, rock, @redmatriz
Daniel, Uruguay, 20, 120, mate, @danielcarranza
Datos
• Dataset: Una colección de Datos, usualmente el
mismo tipo de datos. Ejemplo: Alumnos de este taller; un
Álbum de Canciones
• Metadata: Datos sobre los Datos. De dónde vienen,
cuándo se recolectaron, cómo, sus parámetros. Ejemplo: Sus
nombres, medio en el cual trabajan, sección, rol, desdecuándo.
Nombre del álbum, autor, canciones, duración, sello, estilo, etc.
• Datos Abiertos: Datos liberados y que cualquiera
tiene permitido usar,reusar, construir cosas con ellos y compartir
los resultados
¿Cómo empezamos a trabajar?
El “Data Pipeline” inicia
planteándose una pregunta para
luego encontrar la información,
extraerla, limpiarla, verificarla,
analizarla y presentarla.
http://es.schoolofdata.org/tag/pipeline/#sth
ash.1hteD09x.dpuf
Data Pipeline
Comenzamos con una o más preguntas
¿Qué sucede en mi país?
¿En qué se gasta el presupuesto público?
¿Cuántos partidos ganó mi selección?
Y así…..
1
2 Obtener la información
Algunas fuentes y portales
oficiales de datos
O haciendo uso de pedidos de
acceso a la información
HACKEANDO
Nerd Moment
Extracción (Hackeand0). Acá los datos se
convierten desde cualquier formato de entrada
que se ha adquirido (por ejemplo, archivos
XLS, PDF o incluso documentos de texto
plano) en una forma que se puede utilizar para
su posterior procesamiento y análisis.
La mayoría de veces implica cargar los datos en un
sistema de base de datos, como MySQL o
PostgreSQL.
O si eres más c00l MongoDB, Redis, SQLite, etc.
SCRAPPING
• Scraping es un término que, traducido al español,
literalmente quiere decir “rascado”. Sin embargo, en
este contexto, se refiere a la limpieza y filtro de los
datos.
• http://es.schoolofdata.org/introduccion-a-la-extraccion-de-datos-de-
sitios-web-scraping/#sthash.0qgjKaad.dpuf
• ImportHTML en Google Spreadsheets
3 Extraer
• The Google spreadsheet formula:
=importHTML("","table",N)
=importHTML("http://en.wikipedia.org/wiki/List_of_largest_United
_Kingdom_settlements_by_population","table",2) - See more at:
http://schoolofdata.org/handbook/recipes/liberating-html-
tables/#sthash.tDFCZOhd.dpuf
IMPORTDATA o
IMPORTXML
Extraer los datos
• Tabula Permite extraer tablas de PDFs.
• SmallPDF y Nitro Permiten convertir archivos de
PDF a csv. La versión gratuita de Nitro permite un
máximo de 50 páginas.
• Import.io Permite scrappear de manera fácil
algunos sitios web
Limpiar los datos
• Buscar+Reemplazar: Permite fácilmente buscar
términos en la hoja de cálculo y reemplazarlos por
otros (google docs)
• Open Refine: Permite limpiar, modificar y exportar
bases de datos. Además es gratuita.
4
Análisis de datos
• Pivot Tables Una herramienta simple pero
poderosa que permite hacer y responder preguntas
con los datos.
• R para los usuarios más avanzados, R es un
lenguaje y entorno de programación para el análisis
estadístico. Es gratuito y de software libre.
5
Visualización6
• Con infogram se pueden crear gráficos e infografías
con un par de clicks. La herramienta es gratuita aunque
para usar todas sus opciones se requiere pagar una
cuota.
• CartoDB es ideal para visualizar información
geolocalizada.
• Tableau Public El programa se descarga y offline
permite hacer diferentes tipos de visualizaciones.
• Datawrapper Útil para hacer diferentes tipos de
gráficos, todo de forma gratuita.
• Google Fusion Tables Permite organizar, visualizar y
compartir información organizada en tablas de datos.
Data Pipeline
¿Cómo se implementa?
• Skillshares (online)
• Blog y web
• Data workshops (offline)
• Expedición de datos (online y offline)
• Other events and Data Projects – Collaborations
Expedición de Datos
¡Muchas gracias!
@jalp_ec
@EscuelaDeDatos
@SchoolOfData
10 min
Tarea: Encuentra una página web con una tabla y obtén
información de ella.
http://schoolofdata.org/handbook/recipes/liberating-
html-tables/
http://schoolofdata.org/handbook/recipes/scraper-
extension-for-chrome/
• Una vez que tengas la tabla en tu hoja de cálculo, lo más
seguro es que quieras jugar con los datos o cambiarlos
de hoja. Haz clic en el botón superior izquierdo y
selecciona paste special (pegado especial) y luego paste
values only (pegar sólo valores).
Desafío: Ayuda a liberar el
presupuesto
Tarea: ¡Encuentra un PDF encarcelado que puedas
liberar!
• Por ejemplo, existen muchos PDFs que necesitan tu
ayuda en este link: Budget Library of the
International Budget Partnership.
Liberar el presupuesto
Una vez que liberes tus datos, compártelos con
alguien y ahórrales el penoso trabajo. Incluso los pues
subir al OpenSpending group en Datahub o al
OpenSpending Mailing List , complementado con una
explicación de lo que hiciste.

Weitere ähnliche Inhalte

Andere mochten auch

From Marketing Program to Movement
From Marketing Program to MovementFrom Marketing Program to Movement
From Marketing Program to MovementNina O'Neil
 
Exe learning arbol de contenidos
Exe learning   arbol de contenidosExe learning   arbol de contenidos
Exe learning arbol de contenidosluchito2013
 
Social entrepreneurship bb citizenship bagde work
Social entrepreneurship bb citizenship bagde workSocial entrepreneurship bb citizenship bagde work
Social entrepreneurship bb citizenship bagde workZhuo Wei Awesomable
 
Social entrepreneurship bb citizenship bagde work
Social entrepreneurship bb citizenship bagde workSocial entrepreneurship bb citizenship bagde work
Social entrepreneurship bb citizenship bagde workZhuo Wei Awesomable
 
Data Security Breach – knowing the risks and protecting your business
Data Security Breach – knowing the risks and protecting your businessData Security Breach – knowing the risks and protecting your business
Data Security Breach – knowing the risks and protecting your businessEversheds Sutherland
 
La ética y la tecnología I
La ética y la tecnología I La ética y la tecnología I
La ética y la tecnología I danielonb2010
 
Transportation & Green House Gas Pollution Claudia Girrbach
Transportation & Green House Gas Pollution Claudia GirrbachTransportation & Green House Gas Pollution Claudia Girrbach
Transportation & Green House Gas Pollution Claudia GirrbachClaudia Girrbach
 
Xcellity Home appliance control_using_android_application
Xcellity Home appliance control_using_android_application Xcellity Home appliance control_using_android_application
Xcellity Home appliance control_using_android_application Reliance Jio USA, Inc.
 
Rabobank horecarecreatietrendscijfers
Rabobank horecarecreatietrendscijfersRabobank horecarecreatietrendscijfers
Rabobank horecarecreatietrendscijfersHenk Oosterhuis
 
Leandro paez
Leandro paezLeandro paez
Leandro paezLean_dru
 
Presentacion dadaista
Presentacion dadaistaPresentacion dadaista
Presentacion dadaistaPackCampos
 
Gerencia de proyectos mapa
Gerencia de proyectos mapaGerencia de proyectos mapa
Gerencia de proyectos mapaabdiascarp
 
1.1 призначення промислових комунікацій
1.1 призначення промислових комунікацій1.1 призначення промислових комунікацій
1.1 призначення промислових комунікаційПупена Александр
 
Експресионизъм и група Мост / Expressionism and "Die Brücke"
Експресионизъм и група Мост / Expressionism and "Die Brücke"Експресионизъм и група Мост / Expressionism and "Die Brücke"
Експресионизъм и група Мост / Expressionism and "Die Brücke"Denitza Tchakarova
 
Refuerzan facultades para eliminar barreras burocráticas
Refuerzan facultades para eliminar barreras burocráticas Refuerzan facultades para eliminar barreras burocráticas
Refuerzan facultades para eliminar barreras burocráticas Yanira Becerra
 
Matriz tpack enriquecida claudia
Matriz tpack enriquecida claudiaMatriz tpack enriquecida claudia
Matriz tpack enriquecida claudiaclaudiamolina911
 

Andere mochten auch (20)

From Marketing Program to Movement
From Marketing Program to MovementFrom Marketing Program to Movement
From Marketing Program to Movement
 
Exe learning arbol de contenidos
Exe learning   arbol de contenidosExe learning   arbol de contenidos
Exe learning arbol de contenidos
 
Social entrepreneurship bb citizenship bagde work
Social entrepreneurship bb citizenship bagde workSocial entrepreneurship bb citizenship bagde work
Social entrepreneurship bb citizenship bagde work
 
Social entrepreneurship bb citizenship bagde work
Social entrepreneurship bb citizenship bagde workSocial entrepreneurship bb citizenship bagde work
Social entrepreneurship bb citizenship bagde work
 
Data Security Breach – knowing the risks and protecting your business
Data Security Breach – knowing the risks and protecting your businessData Security Breach – knowing the risks and protecting your business
Data Security Breach – knowing the risks and protecting your business
 
La ética y la tecnología I
La ética y la tecnología I La ética y la tecnología I
La ética y la tecnología I
 
Transportation & Green House Gas Pollution Claudia Girrbach
Transportation & Green House Gas Pollution Claudia GirrbachTransportation & Green House Gas Pollution Claudia Girrbach
Transportation & Green House Gas Pollution Claudia Girrbach
 
Xcellity Home appliance control_using_android_application
Xcellity Home appliance control_using_android_application Xcellity Home appliance control_using_android_application
Xcellity Home appliance control_using_android_application
 
Contenido esencial Derecho a la consulta
Contenido esencial Derecho a la consultaContenido esencial Derecho a la consulta
Contenido esencial Derecho a la consulta
 
Ppt compost (2)
Ppt compost (2)Ppt compost (2)
Ppt compost (2)
 
10 partes gerenciales
10 partes gerenciales10 partes gerenciales
10 partes gerenciales
 
Rabobank horecarecreatietrendscijfers
Rabobank horecarecreatietrendscijfersRabobank horecarecreatietrendscijfers
Rabobank horecarecreatietrendscijfers
 
Leandro paez
Leandro paezLeandro paez
Leandro paez
 
Presentacion dadaista
Presentacion dadaistaPresentacion dadaista
Presentacion dadaista
 
Gerencia de proyectos mapa
Gerencia de proyectos mapaGerencia de proyectos mapa
Gerencia de proyectos mapa
 
1.1 призначення промислових комунікацій
1.1 призначення промислових комунікацій1.1 призначення промислових комунікацій
1.1 призначення промислових комунікацій
 
Експресионизъм и група Мост / Expressionism and "Die Brücke"
Експресионизъм и група Мост / Expressionism and "Die Brücke"Експресионизъм и група Мост / Expressionism and "Die Brücke"
Експресионизъм и група Мост / Expressionism and "Die Brücke"
 
Refuerzan facultades para eliminar barreras burocráticas
Refuerzan facultades para eliminar barreras burocráticas Refuerzan facultades para eliminar barreras burocráticas
Refuerzan facultades para eliminar barreras burocráticas
 
Internet
InternetInternet
Internet
 
Matriz tpack enriquecida claudia
Matriz tpack enriquecida claudiaMatriz tpack enriquecida claudia
Matriz tpack enriquecida claudia
 

Ähnlich wie Data pipeline

Visualización de datos con Tableau Public - Comité de Investigación
Visualización de datos con Tableau Public - Comité de InvestigaciónVisualización de datos con Tableau Public - Comité de Investigación
Visualización de datos con Tableau Public - Comité de InvestigaciónIAB México
 
Monta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu EmpresaMonta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu EmpresaUrko Zurutuza
 
Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE
Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVEPresentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE
Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVEProgramaMediosCentroCarterVE
 
Técnicas y herramientas de extracción de datos
Técnicas y herramientas de extracción de datos Técnicas y herramientas de extracción de datos
Técnicas y herramientas de extracción de datos Juan Sixto
 
Familiarización básica a métodos y herramientas para soluciones de Big Data
Familiarización básica a métodos y herramientas para soluciones de Big DataFamiliarización básica a métodos y herramientas para soluciones de Big Data
Familiarización básica a métodos y herramientas para soluciones de Big DataSebastián Ramírez Montaño
 
Monta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión IMonta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión IUrko Zurutuza
 
Bibliotecari@s en la ‪Big Data‬
Bibliotecari@s en la ‪Big Data‬Bibliotecari@s en la ‪Big Data‬
Bibliotecari@s en la ‪Big Data‬Fernando-Ariel Lopez
 
Big Data Introducción
Big Data IntroducciónBig Data Introducción
Big Data IntroducciónGorka Armentia
 
Cómo construir una plataforma poderosa de datos en un ambiente con recursos r...
Cómo construir una plataforma poderosa de datos en un ambiente con recursos r...Cómo construir una plataforma poderosa de datos en un ambiente con recursos r...
Cómo construir una plataforma poderosa de datos en un ambiente con recursos r...Software Guru
 
Clase 01 Que Es El Internet
Clase 01 Que Es El InternetClase 01 Que Es El Internet
Clase 01 Que Es El InternetEdson Solórzano
 
Redis, base de datos NoSQL clave-valor
Redis, base de datos NoSQL clave-valorRedis, base de datos NoSQL clave-valor
Redis, base de datos NoSQL clave-valorAlberto Gimeno
 
Big Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesBig Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesJuan José Domenech
 
Visualización de Big Data con Power View
Visualización de Big Data con Power ViewVisualización de Big Data con Power View
Visualización de Big Data con Power ViewEduardo Castro
 

Ähnlich wie Data pipeline (20)

Visualización de datos con Tableau Public - Comité de Investigación
Visualización de datos con Tableau Public - Comité de InvestigaciónVisualización de datos con Tableau Public - Comité de Investigación
Visualización de datos con Tableau Public - Comité de Investigación
 
Monta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu EmpresaMonta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu Empresa
 
Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE
Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVEPresentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE
Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE
 
Clase 4 tecno i- periodismo 2015
Clase 4  tecno i- periodismo 2015Clase 4  tecno i- periodismo 2015
Clase 4 tecno i- periodismo 2015
 
Técnicas y herramientas de extracción de datos
Técnicas y herramientas de extracción de datos Técnicas y herramientas de extracción de datos
Técnicas y herramientas de extracción de datos
 
Familiarización básica a métodos y herramientas para soluciones de Big Data
Familiarización básica a métodos y herramientas para soluciones de Big DataFamiliarización básica a métodos y herramientas para soluciones de Big Data
Familiarización básica a métodos y herramientas para soluciones de Big Data
 
#Cappacitate2015 Bogota
#Cappacitate2015 Bogota#Cappacitate2015 Bogota
#Cappacitate2015 Bogota
 
Cappacitate Pereira
Cappacitate PereiraCappacitate Pereira
Cappacitate Pereira
 
Gestion del conocimiento
Gestion del conocimientoGestion del conocimiento
Gestion del conocimiento
 
Gestion del conocimiento
Gestion del conocimientoGestion del conocimiento
Gestion del conocimiento
 
Monta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión IMonta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión I
 
Bibliotecari@s en la ‪Big Data‬
Bibliotecari@s en la ‪Big Data‬Bibliotecari@s en la ‪Big Data‬
Bibliotecari@s en la ‪Big Data‬
 
Big Data Introducción
Big Data IntroducciónBig Data Introducción
Big Data Introducción
 
Cómo construir una plataforma poderosa de datos en un ambiente con recursos r...
Cómo construir una plataforma poderosa de datos en un ambiente con recursos r...Cómo construir una plataforma poderosa de datos en un ambiente con recursos r...
Cómo construir una plataforma poderosa de datos en un ambiente con recursos r...
 
Clase 4 periodismo de base de datos
Clase 4  periodismo de base de datosClase 4  periodismo de base de datos
Clase 4 periodismo de base de datos
 
Anatomía de un proyecto de Big Data
Anatomía de un proyecto de Big DataAnatomía de un proyecto de Big Data
Anatomía de un proyecto de Big Data
 
Clase 01 Que Es El Internet
Clase 01 Que Es El InternetClase 01 Que Es El Internet
Clase 01 Que Es El Internet
 
Redis, base de datos NoSQL clave-valor
Redis, base de datos NoSQL clave-valorRedis, base de datos NoSQL clave-valor
Redis, base de datos NoSQL clave-valor
 
Big Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesBig Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patrones
 
Visualización de Big Data con Power View
Visualización de Big Data con Power ViewVisualización de Big Data con Power View
Visualización de Big Data con Power View
 

Kürzlich hochgeladen

HABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdfHABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdfGEINER22
 
Mapa de riesgos de un cine, equipo 4.pdf
Mapa de riesgos de un cine, equipo 4.pdfMapa de riesgos de un cine, equipo 4.pdf
Mapa de riesgos de un cine, equipo 4.pdfhees071224mmcrpna1
 
que son los planes de ordenamiento predial POP.pptx
que son los planes de ordenamiento predial  POP.pptxque son los planes de ordenamiento predial  POP.pptx
que son los planes de ordenamiento predial POP.pptxSergiothaine2
 
2024 2024 202420242024PPT SESIÓN 03.pptx
2024 2024 202420242024PPT SESIÓN 03.pptx2024 2024 202420242024PPT SESIÓN 03.pptx
2024 2024 202420242024PPT SESIÓN 03.pptxccordovato
 
PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024
PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024
PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024eluniversocom
 
Módulo mapa de riesgos de tienda de abarrotes
Módulo mapa de riesgos de tienda de abarrotesMódulo mapa de riesgos de tienda de abarrotes
Módulo mapa de riesgos de tienda de abarrotessald071205mmcnrna9
 
Análisis de un mapa de riesgos de una tortillería
Análisis de un mapa de riesgos de una tortillería Análisis de un mapa de riesgos de una tortillería
Análisis de un mapa de riesgos de una tortillería yocelynsanchezerasmo
 
Mapa de riesgos de un taller mecánico 405
Mapa de riesgos de un taller mecánico 405Mapa de riesgos de un taller mecánico 405
Mapa de riesgos de un taller mecánico 405rodrimarxim
 
Croquis de riesgo de trabajo gasolinera.pdf
Croquis de riesgo de trabajo gasolinera.pdfCroquis de riesgo de trabajo gasolinera.pdf
Croquis de riesgo de trabajo gasolinera.pdfhernestosoto82
 
El sistema solar el gran descubrimiento del sistema solar .pptx
El sistema solar el gran descubrimiento del sistema solar .pptxEl sistema solar el gran descubrimiento del sistema solar .pptx
El sistema solar el gran descubrimiento del sistema solar .pptxYoladsCabarcasTous
 
FORMATO INVENTARIO MOBILIARIO PASO A PASO
FORMATO INVENTARIO MOBILIARIO PASO A PASOFORMATO INVENTARIO MOBILIARIO PASO A PASO
FORMATO INVENTARIO MOBILIARIO PASO A PASOsecundariatecnica891
 
Presentación informe 'Fondos Next Generation European Union destinados a actu...
Presentación informe 'Fondos Next Generation European Union destinados a actu...Presentación informe 'Fondos Next Generation European Union destinados a actu...
Presentación informe 'Fondos Next Generation European Union destinados a actu...Ivie
 
LA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechoLA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechojuliosabino1
 
PREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRIL
PREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRILPREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRIL
PREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRILeluniversocom
 
PREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRIL
PREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRILPREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRIL
PREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRILeluniversocom
 
PREGUNTA H DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA H DE CONSULTA POPULAR 21 DE ABRILPREGUNTA H DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA H DE CONSULTA POPULAR 21 DE ABRILeluniversocom
 
ESTUDIO DE IMPACTO AMBIENTAL de explotación minera.pptx
ESTUDIO DE IMPACTO AMBIENTAL de  explotación minera.pptxESTUDIO DE IMPACTO AMBIENTAL de  explotación minera.pptx
ESTUDIO DE IMPACTO AMBIENTAL de explotación minera.pptxKatherineFabianLoza1
 
MAPA DE RIESGOS DE UN ZOOLOGICO ..pdf
MAPA DE RIESGOS DE UN ZOOLOGICO    ..pdfMAPA DE RIESGOS DE UN ZOOLOGICO    ..pdf
MAPA DE RIESGOS DE UN ZOOLOGICO ..pdfCamilaArzate2
 
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docxmarthaarroyo16
 
AREA TECNOLOGIA E INFORMATICA.pdf Santiago
AREA TECNOLOGIA E INFORMATICA.pdf SantiagoAREA TECNOLOGIA E INFORMATICA.pdf Santiago
AREA TECNOLOGIA E INFORMATICA.pdf SantiagoSantiagoRodriguezLoz
 

Kürzlich hochgeladen (20)

HABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdfHABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdf
 
Mapa de riesgos de un cine, equipo 4.pdf
Mapa de riesgos de un cine, equipo 4.pdfMapa de riesgos de un cine, equipo 4.pdf
Mapa de riesgos de un cine, equipo 4.pdf
 
que son los planes de ordenamiento predial POP.pptx
que son los planes de ordenamiento predial  POP.pptxque son los planes de ordenamiento predial  POP.pptx
que son los planes de ordenamiento predial POP.pptx
 
2024 2024 202420242024PPT SESIÓN 03.pptx
2024 2024 202420242024PPT SESIÓN 03.pptx2024 2024 202420242024PPT SESIÓN 03.pptx
2024 2024 202420242024PPT SESIÓN 03.pptx
 
PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024
PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024
PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024
 
Módulo mapa de riesgos de tienda de abarrotes
Módulo mapa de riesgos de tienda de abarrotesMódulo mapa de riesgos de tienda de abarrotes
Módulo mapa de riesgos de tienda de abarrotes
 
Análisis de un mapa de riesgos de una tortillería
Análisis de un mapa de riesgos de una tortillería Análisis de un mapa de riesgos de una tortillería
Análisis de un mapa de riesgos de una tortillería
 
Mapa de riesgos de un taller mecánico 405
Mapa de riesgos de un taller mecánico 405Mapa de riesgos de un taller mecánico 405
Mapa de riesgos de un taller mecánico 405
 
Croquis de riesgo de trabajo gasolinera.pdf
Croquis de riesgo de trabajo gasolinera.pdfCroquis de riesgo de trabajo gasolinera.pdf
Croquis de riesgo de trabajo gasolinera.pdf
 
El sistema solar el gran descubrimiento del sistema solar .pptx
El sistema solar el gran descubrimiento del sistema solar .pptxEl sistema solar el gran descubrimiento del sistema solar .pptx
El sistema solar el gran descubrimiento del sistema solar .pptx
 
FORMATO INVENTARIO MOBILIARIO PASO A PASO
FORMATO INVENTARIO MOBILIARIO PASO A PASOFORMATO INVENTARIO MOBILIARIO PASO A PASO
FORMATO INVENTARIO MOBILIARIO PASO A PASO
 
Presentación informe 'Fondos Next Generation European Union destinados a actu...
Presentación informe 'Fondos Next Generation European Union destinados a actu...Presentación informe 'Fondos Next Generation European Union destinados a actu...
Presentación informe 'Fondos Next Generation European Union destinados a actu...
 
LA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechoLA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derecho
 
PREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRIL
PREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRILPREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRIL
PREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRIL
 
PREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRIL
PREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRILPREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRIL
PREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRIL
 
PREGUNTA H DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA H DE CONSULTA POPULAR 21 DE ABRILPREGUNTA H DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA H DE CONSULTA POPULAR 21 DE ABRIL
 
ESTUDIO DE IMPACTO AMBIENTAL de explotación minera.pptx
ESTUDIO DE IMPACTO AMBIENTAL de  explotación minera.pptxESTUDIO DE IMPACTO AMBIENTAL de  explotación minera.pptx
ESTUDIO DE IMPACTO AMBIENTAL de explotación minera.pptx
 
MAPA DE RIESGOS DE UN ZOOLOGICO ..pdf
MAPA DE RIESGOS DE UN ZOOLOGICO    ..pdfMAPA DE RIESGOS DE UN ZOOLOGICO    ..pdf
MAPA DE RIESGOS DE UN ZOOLOGICO ..pdf
 
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
 
AREA TECNOLOGIA E INFORMATICA.pdf Santiago
AREA TECNOLOGIA E INFORMATICA.pdf SantiagoAREA TECNOLOGIA E INFORMATICA.pdf Santiago
AREA TECNOLOGIA E INFORMATICA.pdf Santiago
 

Data pipeline

  • 1. Trabajando con Datos DATA PIPELINE Julio Lopez @jalp_ec @EscuelaDeDatos
  • 2.
  • 4. Hola Mi nombre es Julio (@jalp_ec), soy de Ecuador tengo 27 años, peso 75 kg (no es cierto) y me encanta andar en bicicleta
  • 5. Hola Nombre, País, Edad, Peso, Pasatiempo, Twitter Julio, Ecuador, 27, 75, bicicleta, @mexflow Alvaro, Chile, 200, 90, rock, @redmatriz Daniel, Uruguay, 20, 120, mate, @danielcarranza
  • 6. Hola Nombre, País, Edad, Peso, Pasatiempo, Twitter Julio, Ecuador, 27, 75, bicicleta, @mexflow Alvaro, Chile, 18, 90, rock, @redmatriz Daniel, Uruguay, 20, 120, mate, @danielcarranza
  • 7. Hola.csv Nombre, País, Edad, Peso, Pasatiempo, Twitter Julio, Ecuador, 27, 75, bicicleta, @mexflow Alvaro, Chile, 18, 90, rock, @redmatriz Daniel, Uruguay, 20, 120, mate, @danielcarranza
  • 8.
  • 9. Datos • Dataset: Una colección de Datos, usualmente el mismo tipo de datos. Ejemplo: Alumnos de este taller; un Álbum de Canciones • Metadata: Datos sobre los Datos. De dónde vienen, cuándo se recolectaron, cómo, sus parámetros. Ejemplo: Sus nombres, medio en el cual trabajan, sección, rol, desdecuándo. Nombre del álbum, autor, canciones, duración, sello, estilo, etc. • Datos Abiertos: Datos liberados y que cualquiera tiene permitido usar,reusar, construir cosas con ellos y compartir los resultados
  • 10. ¿Cómo empezamos a trabajar? El “Data Pipeline” inicia planteándose una pregunta para luego encontrar la información, extraerla, limpiarla, verificarla, analizarla y presentarla. http://es.schoolofdata.org/tag/pipeline/#sth ash.1hteD09x.dpuf
  • 12. Comenzamos con una o más preguntas ¿Qué sucede en mi país? ¿En qué se gasta el presupuesto público? ¿Cuántos partidos ganó mi selección? Y así….. 1
  • 13. 2 Obtener la información Algunas fuentes y portales oficiales de datos O haciendo uso de pedidos de acceso a la información HACKEANDO
  • 14. Nerd Moment Extracción (Hackeand0). Acá los datos se convierten desde cualquier formato de entrada que se ha adquirido (por ejemplo, archivos XLS, PDF o incluso documentos de texto plano) en una forma que se puede utilizar para su posterior procesamiento y análisis. La mayoría de veces implica cargar los datos en un sistema de base de datos, como MySQL o PostgreSQL. O si eres más c00l MongoDB, Redis, SQLite, etc.
  • 15. SCRAPPING • Scraping es un término que, traducido al español, literalmente quiere decir “rascado”. Sin embargo, en este contexto, se refiere a la limpieza y filtro de los datos. • http://es.schoolofdata.org/introduccion-a-la-extraccion-de-datos-de- sitios-web-scraping/#sthash.0qgjKaad.dpuf • ImportHTML en Google Spreadsheets 3 Extraer
  • 16. • The Google spreadsheet formula: =importHTML("","table",N) =importHTML("http://en.wikipedia.org/wiki/List_of_largest_United _Kingdom_settlements_by_population","table",2) - See more at: http://schoolofdata.org/handbook/recipes/liberating-html- tables/#sthash.tDFCZOhd.dpuf IMPORTDATA o IMPORTXML
  • 17. Extraer los datos • Tabula Permite extraer tablas de PDFs. • SmallPDF y Nitro Permiten convertir archivos de PDF a csv. La versión gratuita de Nitro permite un máximo de 50 páginas. • Import.io Permite scrappear de manera fácil algunos sitios web
  • 18. Limpiar los datos • Buscar+Reemplazar: Permite fácilmente buscar términos en la hoja de cálculo y reemplazarlos por otros (google docs) • Open Refine: Permite limpiar, modificar y exportar bases de datos. Además es gratuita. 4
  • 19. Análisis de datos • Pivot Tables Una herramienta simple pero poderosa que permite hacer y responder preguntas con los datos. • R para los usuarios más avanzados, R es un lenguaje y entorno de programación para el análisis estadístico. Es gratuito y de software libre. 5
  • 20. Visualización6 • Con infogram se pueden crear gráficos e infografías con un par de clicks. La herramienta es gratuita aunque para usar todas sus opciones se requiere pagar una cuota. • CartoDB es ideal para visualizar información geolocalizada. • Tableau Public El programa se descarga y offline permite hacer diferentes tipos de visualizaciones. • Datawrapper Útil para hacer diferentes tipos de gráficos, todo de forma gratuita. • Google Fusion Tables Permite organizar, visualizar y compartir información organizada en tablas de datos.
  • 22. ¿Cómo se implementa? • Skillshares (online) • Blog y web • Data workshops (offline) • Expedición de datos (online y offline) • Other events and Data Projects – Collaborations
  • 25. 10 min Tarea: Encuentra una página web con una tabla y obtén información de ella. http://schoolofdata.org/handbook/recipes/liberating- html-tables/ http://schoolofdata.org/handbook/recipes/scraper- extension-for-chrome/ • Una vez que tengas la tabla en tu hoja de cálculo, lo más seguro es que quieras jugar con los datos o cambiarlos de hoja. Haz clic en el botón superior izquierdo y selecciona paste special (pegado especial) y luego paste values only (pegar sólo valores).
  • 26. Desafío: Ayuda a liberar el presupuesto Tarea: ¡Encuentra un PDF encarcelado que puedas liberar! • Por ejemplo, existen muchos PDFs que necesitan tu ayuda en este link: Budget Library of the International Budget Partnership.
  • 27. Liberar el presupuesto Una vez que liberes tus datos, compártelos con alguien y ahórrales el penoso trabajo. Incluso los pues subir al OpenSpending group en Datahub o al OpenSpending Mailing List , complementado con una explicación de lo que hiciste.