SlideShare ist ein Scribd-Unternehmen logo
1 von 38
Downloaden Sie, um offline zu lesen
Workshop
“Análisis, preparación y visualización de
datos usando herramientas Open Source”
05 - Marzo - 2016
Open Data Day - UIO
OPEN DATA
¿QUÉ ES OPEN DATA?
❏ Poner a disposición de la sociedad los datos
gestionados por la administración pública
❏ Sin restricciones de derecho de autor
❏ Los datos son abiertos cuando:
➔ Accedidos
➔ Usados
➔ Modificados
➔ Compartidos
HISTORIA
❏ El 17 de noviembre de 2003, la Directiva del
Parlamento Europeo, presentaba un Tratado
sobre el acceso de los datos
❏ En el año 2009 el gobierno de Estados Unidos
comunicaba su iniciativa de liberar los datos
❏ El 30 de Noviembre de 2010 el Reino Unido
liberó una licencia gubernamental
PRINCIPIOS DEL OPEN DATA
❏ Los datos deben ser:
➔ Públicos
➔ Detallados
➔ Actualizados
➔ Accesibles
➔ Automatizados
➔ Sin Registro
➔ Abiertos
➔ Libres
BENEFICIOS DEL OPEN DATA
❏ Construir nuevo conocimiento
❏ Más eficiencia en los servicios gubernamentales
y la administración pública
❏ Genera nuevos indicadores económicos y
sociales
❏ Mide el impacto de las políticas públicas
OPEN DATA Y POLITICA
FUNDACIÓN CIUDADANO INTELIGENTE
PROYECTOS
OBSERVATORIO ANTICORRUPCION
ENFOQUE DE
SOLUCIÓN
PROCEDIMIENTO
1
Preguntas a
responder
2 Obtener los
Datos
3 Explorar los
Datos
4Modelar los
Datos
Comunicar y
Visualizar
Resultados
5
ALGUNAS FUENTES DE DATOS
❏ Archivos
➔ Formatos Abiertos: CSV, XML, JSON
➔ Formatos Propietarios: Excel, SPSS
❏ Bases de Datos
➔ PostgreSQL, MySQL, Oracle
❏ APIs
➔ Servicios Web SOAP: XML
➔ Servicios REST: XML/JSON
❏ Documentos (PDFs, páginas web, etc.)
❏ Redes Sociales
FORMATOS ABIERTOS - CSV
Cabecera (Header) Separador (, ; |)
Enclosure (")
Registros (Rows)
FORMATOS ABIERTOS - XML
Etiquetas (Tags)
<tag>...</tag>
Codificación
FORMATOS ABIERTOS - JSON
Valor
Atributo
Arreglo
[ ]
Objeto
{ }
APIs - OPEN DATA BANCO MUNDIAL
http://api.worldbank.org/countries/all/indicators/DT.DOD.DECT.
CD?date=2010:2015&format=xml
❏ Invocación para obtener XML
http://api.worldbank.org/countries/all/indicators/DT.DOD.DECT.
CD?date=2010:2015&format=json
❏ Invocación para obtener JSON
http://api.worldbank.org/countries/all/indicators/DT.DOD.DECT.
CD?date=2010:2015&format=csv
❏ Invocación para obtener CSV
ARQUITECTURA DE
LA SOLUCIÓN
ARQUITECTURA
DATA_MODEL
(DIMENSIONAL)
CSV
ETLsCSV
CUBO DE
DATOS
ANÁLISIS
Y
VISUALIZACIÓN
SQL POWER
ARCHITECT
PENTAHO DATA
INTEGRATION
PENTAHO SCHEMA
WORKBENCH
PENTAHO BI SERVER
SAIKU ANALYTICS
SOFTWARE OPEN SOURCE A USAR
❏ Procesamiento de Datos
➔ Pentaho Data Integration CE v5.4
❏ Entrega de Información
➔ Pentaho Schema Workbench v5.4
➔ Pentaho BI Server CE v5.4, Saiku Analytics
➔ PostgreSQL v9.3
➔ SQL Power Architect v1.0.8
❏ Modelamiento
➔ Oracle JDK v1.7 (Java)
❏ Base de Datos
❏ Software Base
MODELAMIENTO
DIMENSIONAL
CONCEPTOS
❏ Consiste en modelar hechos y dimensiones
para llegar a lo que se conoce como Modelo
Estrella
DIMENSIÓN 1
DIMENSIÓN 2
...
DIMENSIÓN N
HECHOS
CONCEPTOS
DIMENSIONES
❏ Datos Cualitativos
❏ Representan información de una entidad. Ej.
País, Región, Sucursal, Producto
HECHOS
❏ Datos Cuantitativos
❏ Representan un indicador o medida. Ej. ventas,
deuda externa, comisiones
❏ Los indicadores pueden ser agregados (sum,
avg, max, min, count)
EJEMPLO
FECHA
CLIENTE PRODUCTO
LOCAL
VENDEDOR
HECHOS
VENTAS
1..*
POSTGRESQL
❏ Abrir Terminal y abrir pgAdmin III
❏ Ir a File > Add Server
❏ Crear la base de datos data_model
SQL POWER ARCHITECT
❏ Abrir Files
❏ Ir al siguiente directorio
Computer > /opt/pentaho/architect-1.0.8
❏ Iniciar la aplicación architect.jar
❏ Conexión: Connections > Add Source
Connection > New Connection
❏ Creación del modelo: Tools > Forward
Engineer
PROCESAMIENTO DE
DATOS
PENTAHO DATA INTEGRATION
❏ Descargar archivos CSV: http://bit.ly/1TfVKd9 en
el directorio src_data y descomprimir
❏ Crear el directorio src_data en
➔ /home/vagrant/Documents/workshop
../workshop/src_data/DeudaExterna
catalogo_indicadores.csv
catalogo_paises.csv
deuda_externa.csv
PENTAHO DATA INTEGRATION
❏ Abrir Terminal
❏ Ejecutar los siguientes comandos:
➔ cd /opt/pentaho/data-integration
➔ ./spoon.sh
❏ Seleccionar el repositorio workshop
❏ Conexión: Tools > Repository >
Connections > data_model
CUBOS DE DATOS
CONCEPTOS
❏ Un cubo es una colección de múltiples
dimensiones y medidas
FECHA TABLET
VENDEDOR
2013
2014
PRODUCTOPC
2015
SMARTPHONE
JUAN
PEDRO
ANDREA
MEDIDAS
- VENTAS
- COMISIONES
- CANTIDAD
DIMENSIONES
CUBOS, DIMENSIONES Y MEDIDAS
Analogía
❏ Las dimensiones del cubo son a las
dimensiones del modelo dimensional
❏ Las medidas del cubo son a los hechos del
modelo dimensional
Visualización
❏ Un cubo se lo visualiza como una tabla
cruzada o tabla pivot
VISUALIZACIÓN DE UN CUBO
FECHA TABLET
VENDEDOR
2013
2014
PRODUCTOPC
2015
SMARTPHONE
JUAN
PEDRO
ANDREA
TABLET PC SMARTPHONE
2013 2014 2015 2013 2014 2015 2013 2014 2015
JUAN 12 8 14 - - - - - -
PEDRO - - - 22 45 16 - - -
ANDREA - - - - - - 134 122 245
TABLA PIVOT / CRUZADA
PENTAHO SCHEMA WORKBENCH
❏ Conexión: Options > Connection >
data_model
❏ Publicación del Cubo: File > Publish
Admin|password|data_model
❏ Abrir Terminal
❏ Ejecutar los siguientes comandos:
➔ cd /opt/pentaho/schema-workbench
➔ ./workbench.sh
PENTAHO BI-SERVER
❏ Abrir Firefox: http://localhost:8080
❏ Abrir Terminal
❏ Ejecutar los siguientes comandos:
➔ cd /opt/pentaho/biserver-ce
➔ ./start-pentaho.sh
➔ sudo su - pentaho
❏ Conexión: Manage Data Sources > New
Connection > data_model
LINKS DE INTERÉS
❏ Blog Data Warehousing / Business Intelligence
con herramientas Open Source: http:
//ingmmurillo-dwh-bi.blogspot.com/
❏ Documentación API Banco Mundial: http:
//data.worldbank.org/developers/api-
overview/basic-call-structure
❏ Evaluador JSONPath en línea: http://jsonpath.
com
❏ Pentaho CE https://sourceforge.
net/projects/pentaho/files https://sourceforge.
net/projects/mondrian/files
MUCHAS GRACIAS
Para preguntas o sugerencias:
Gabriela Chasifan | gchasifan@thoughtworks.com
Byron Torres | btorres@thoughtworks.com
Mauricio Murillo | mmurillo@thoughtworks.com
Carlos Fuentes | cfuentes@thoughtworks.com

Weitere ähnliche Inhalte

Ähnlich wie Análisis, preparación y visualización de datos usando herramientas Open Source

SESION 1-PRESENTACIÓN.pdf
SESION 1-PRESENTACIÓN.pdfSESION 1-PRESENTACIÓN.pdf
SESION 1-PRESENTACIÓN.pdfmikel544786
 
sdasdasdasdasdasda
sdasdasdasdasdasdasdasdasdasdasdasda
sdasdasdasdasdasdajayerxD
 
Cómo construir una plataforma poderosa de datos en un ambiente con recursos r...
Cómo construir una plataforma poderosa de datos en un ambiente con recursos r...Cómo construir una plataforma poderosa de datos en un ambiente con recursos r...
Cómo construir una plataforma poderosa de datos en un ambiente con recursos r...Software Guru
 
Migrando mis datos a la nube con Azure Data Factory
Migrando mis datos a la nube con Azure Data FactoryMigrando mis datos a la nube con Azure Data Factory
Migrando mis datos a la nube con Azure Data FactoryRaul Martin Sarachaga Diaz
 
Adaptive Big Data Pipelines
Adaptive Big Data PipelinesAdaptive Big Data Pipelines
Adaptive Big Data PipelinesCarlos Fuentes
 
Cómo construir tu propia data platform. From zero to hero.
Cómo construir tu propia data platform. From zero to hero. Cómo construir tu propia data platform. From zero to hero.
Cómo construir tu propia data platform. From zero to hero. GustavoMartin46
 
Introduccion a las Bodegas de Datos
Introduccion a las Bodegas de DatosIntroduccion a las Bodegas de Datos
Introduccion a las Bodegas de DatosJoseph Lopez
 
Trabajo de empresa
Trabajo de empresaTrabajo de empresa
Trabajo de empresaDITHOR
 
Normas icontec carlos andres murCia
Normas icontec carlos andres murCiaNormas icontec carlos andres murCia
Normas icontec carlos andres murCiacarlosmurciaxD
 
TRABAJO ACCESS
TRABAJO ACCESSTRABAJO ACCESS
TRABAJO ACCESSCAMSAN
 

Ähnlich wie Análisis, preparación y visualización de datos usando herramientas Open Source (20)

El super
El superEl super
El super
 
El super
El superEl super
El super
 
El super
El superEl super
El super
 
Clase 4 tecno i- periodismo 2015
Clase 4  tecno i- periodismo 2015Clase 4  tecno i- periodismo 2015
Clase 4 tecno i- periodismo 2015
 
298965214-s10-Costos-y-Presupuestos-Cap-1.pdf
298965214-s10-Costos-y-Presupuestos-Cap-1.pdf298965214-s10-Costos-y-Presupuestos-Cap-1.pdf
298965214-s10-Costos-y-Presupuestos-Cap-1.pdf
 
SESION 1-PRESENTACIÓN.pdf
SESION 1-PRESENTACIÓN.pdfSESION 1-PRESENTACIÓN.pdf
SESION 1-PRESENTACIÓN.pdf
 
SESION 1-PRESENTACIÓN.pdf
SESION 1-PRESENTACIÓN.pdfSESION 1-PRESENTACIÓN.pdf
SESION 1-PRESENTACIÓN.pdf
 
Bd
BdBd
Bd
 
sdasdasdasdasdasda
sdasdasdasdasdasdasdasdasdasdasdasda
sdasdasdasdasdasda
 
Cómo construir una plataforma poderosa de datos en un ambiente con recursos r...
Cómo construir una plataforma poderosa de datos en un ambiente con recursos r...Cómo construir una plataforma poderosa de datos en un ambiente con recursos r...
Cómo construir una plataforma poderosa de datos en un ambiente con recursos r...
 
Azure DataFactory
Azure DataFactoryAzure DataFactory
Azure DataFactory
 
Migrando mis datos a la nube con Azure Data Factory
Migrando mis datos a la nube con Azure Data FactoryMigrando mis datos a la nube con Azure Data Factory
Migrando mis datos a la nube con Azure Data Factory
 
Bd
BdBd
Bd
 
Explorando los Sabores de Azure Data Factory
Explorando los Sabores de Azure Data FactoryExplorando los Sabores de Azure Data Factory
Explorando los Sabores de Azure Data Factory
 
Adaptive Big Data Pipelines
Adaptive Big Data PipelinesAdaptive Big Data Pipelines
Adaptive Big Data Pipelines
 
Cómo construir tu propia data platform. From zero to hero.
Cómo construir tu propia data platform. From zero to hero. Cómo construir tu propia data platform. From zero to hero.
Cómo construir tu propia data platform. From zero to hero.
 
Introduccion a las Bodegas de Datos
Introduccion a las Bodegas de DatosIntroduccion a las Bodegas de Datos
Introduccion a las Bodegas de Datos
 
Trabajo de empresa
Trabajo de empresaTrabajo de empresa
Trabajo de empresa
 
Normas icontec carlos andres murCia
Normas icontec carlos andres murCiaNormas icontec carlos andres murCia
Normas icontec carlos andres murCia
 
TRABAJO ACCESS
TRABAJO ACCESSTRABAJO ACCESS
TRABAJO ACCESS
 

Mehr von Carlos Fuentes

Descubriendo el poder de la Ciencia de Datos.pdf
Descubriendo el poder de la Ciencia de Datos.pdfDescubriendo el poder de la Ciencia de Datos.pdf
Descubriendo el poder de la Ciencia de Datos.pdfCarlos Fuentes
 
Deep learning algo mas que una moda
Deep learning algo mas que una modaDeep learning algo mas que una moda
Deep learning algo mas que una modaCarlos Fuentes
 
Introducción a Data Science
Introducción a Data ScienceIntroducción a Data Science
Introducción a Data ScienceCarlos Fuentes
 

Mehr von Carlos Fuentes (8)

Descubriendo el poder de la Ciencia de Datos.pdf
Descubriendo el poder de la Ciencia de Datos.pdfDescubriendo el poder de la Ciencia de Datos.pdf
Descubriendo el poder de la Ciencia de Datos.pdf
 
soda-sql
soda-sqlsoda-sql
soda-sql
 
Firebolt vs Snowflake
Firebolt vs SnowflakeFirebolt vs Snowflake
Firebolt vs Snowflake
 
Data Ingestion in AWS
Data Ingestion in AWSData Ingestion in AWS
Data Ingestion in AWS
 
Data Mesh
Data MeshData Mesh
Data Mesh
 
CD4ML
CD4MLCD4ML
CD4ML
 
Deep learning algo mas que una moda
Deep learning algo mas que una modaDeep learning algo mas que una moda
Deep learning algo mas que una moda
 
Introducción a Data Science
Introducción a Data ScienceIntroducción a Data Science
Introducción a Data Science
 

Kürzlich hochgeladen

2024 2024 202420242024PPT SESIÓN 03.pptx
2024 2024 202420242024PPT SESIÓN 03.pptx2024 2024 202420242024PPT SESIÓN 03.pptx
2024 2024 202420242024PPT SESIÓN 03.pptxccordovato
 
PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024
PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024
PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024eluniversocom
 
que son los planes de ordenamiento predial POP.pptx
que son los planes de ordenamiento predial  POP.pptxque son los planes de ordenamiento predial  POP.pptx
que son los planes de ordenamiento predial POP.pptxSergiothaine2
 
PREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRIL
PREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRILPREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRIL
PREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRILeluniversocom
 
Mapa de riesgos de un taller mecánico 405
Mapa de riesgos de un taller mecánico 405Mapa de riesgos de un taller mecánico 405
Mapa de riesgos de un taller mecánico 405rodrimarxim
 
El sistema solar el gran descubrimiento del sistema solar .pptx
El sistema solar el gran descubrimiento del sistema solar .pptxEl sistema solar el gran descubrimiento del sistema solar .pptx
El sistema solar el gran descubrimiento del sistema solar .pptxYoladsCabarcasTous
 
Niveles de organización biologica clase de biologia
Niveles de organización biologica clase de biologiaNiveles de organización biologica clase de biologia
Niveles de organización biologica clase de biologiatongailustraconcienc
 
El guion museográfico. definición. componentes. parte 1.pptx
El guion museográfico. definición. componentes. parte 1.pptxEl guion museográfico. definición. componentes. parte 1.pptx
El guion museográfico. definición. componentes. parte 1.pptxAngelaMarquez27
 
HABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdfHABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdfGEINER22
 
AREA TECNOLOGIA E INFORMATICA.pdf Santiago
AREA TECNOLOGIA E INFORMATICA.pdf SantiagoAREA TECNOLOGIA E INFORMATICA.pdf Santiago
AREA TECNOLOGIA E INFORMATICA.pdf SantiagoSantiagoRodriguezLoz
 
PREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRIL
PREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRILPREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRIL
PREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRILeluniversocom
 
DEFINICION DE GLOBALIZACION Y SU IMPACTOI EN LA EN LA CULTURA.pptx
DEFINICION DE GLOBALIZACION Y SU IMPACTOI EN LA EN LA CULTURA.pptxDEFINICION DE GLOBALIZACION Y SU IMPACTOI EN LA EN LA CULTURA.pptx
DEFINICION DE GLOBALIZACION Y SU IMPACTOI EN LA EN LA CULTURA.pptxYamile Divina Acevedo
 
PREGUNTA A DEL REFERÉNDUM 21 DE ABRIL.pdf
PREGUNTA A DEL REFERÉNDUM 21 DE ABRIL.pdfPREGUNTA A DEL REFERÉNDUM 21 DE ABRIL.pdf
PREGUNTA A DEL REFERÉNDUM 21 DE ABRIL.pdfeluniversocom
 
Croquis de riesgo de trabajo gasolinera.pdf
Croquis de riesgo de trabajo gasolinera.pdfCroquis de riesgo de trabajo gasolinera.pdf
Croquis de riesgo de trabajo gasolinera.pdfhernestosoto82
 
INTRODUCCION A LA ESTADISTICA RECOLECCION DE DATOS.pdf
INTRODUCCION A LA ESTADISTICA RECOLECCION DE DATOS.pdfINTRODUCCION A LA ESTADISTICA RECOLECCION DE DATOS.pdf
INTRODUCCION A LA ESTADISTICA RECOLECCION DE DATOS.pdfmaryisabelpantojavar
 
PREGUNTA H DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA H DE CONSULTA POPULAR 21 DE ABRILPREGUNTA H DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA H DE CONSULTA POPULAR 21 DE ABRILeluniversocom
 
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docxmarthaarroyo16
 
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRILPREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRILeluniversocom
 
Análisis de un mapa de riesgos de una tortillería
Análisis de un mapa de riesgos de una tortillería Análisis de un mapa de riesgos de una tortillería
Análisis de un mapa de riesgos de una tortillería yocelynsanchezerasmo
 
Las familias más ricas dentro del sionismo (2024).pdf
Las familias más ricas dentro del sionismo (2024).pdfLas familias más ricas dentro del sionismo (2024).pdf
Las familias más ricas dentro del sionismo (2024).pdfJC Díaz Herrera
 

Kürzlich hochgeladen (20)

2024 2024 202420242024PPT SESIÓN 03.pptx
2024 2024 202420242024PPT SESIÓN 03.pptx2024 2024 202420242024PPT SESIÓN 03.pptx
2024 2024 202420242024PPT SESIÓN 03.pptx
 
PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024
PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024
PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024
 
que son los planes de ordenamiento predial POP.pptx
que son los planes de ordenamiento predial  POP.pptxque son los planes de ordenamiento predial  POP.pptx
que son los planes de ordenamiento predial POP.pptx
 
PREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRIL
PREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRILPREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRIL
PREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRIL
 
Mapa de riesgos de un taller mecánico 405
Mapa de riesgos de un taller mecánico 405Mapa de riesgos de un taller mecánico 405
Mapa de riesgos de un taller mecánico 405
 
El sistema solar el gran descubrimiento del sistema solar .pptx
El sistema solar el gran descubrimiento del sistema solar .pptxEl sistema solar el gran descubrimiento del sistema solar .pptx
El sistema solar el gran descubrimiento del sistema solar .pptx
 
Niveles de organización biologica clase de biologia
Niveles de organización biologica clase de biologiaNiveles de organización biologica clase de biologia
Niveles de organización biologica clase de biologia
 
El guion museográfico. definición. componentes. parte 1.pptx
El guion museográfico. definición. componentes. parte 1.pptxEl guion museográfico. definición. componentes. parte 1.pptx
El guion museográfico. definición. componentes. parte 1.pptx
 
HABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdfHABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdf
 
AREA TECNOLOGIA E INFORMATICA.pdf Santiago
AREA TECNOLOGIA E INFORMATICA.pdf SantiagoAREA TECNOLOGIA E INFORMATICA.pdf Santiago
AREA TECNOLOGIA E INFORMATICA.pdf Santiago
 
PREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRIL
PREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRILPREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRIL
PREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRIL
 
DEFINICION DE GLOBALIZACION Y SU IMPACTOI EN LA EN LA CULTURA.pptx
DEFINICION DE GLOBALIZACION Y SU IMPACTOI EN LA EN LA CULTURA.pptxDEFINICION DE GLOBALIZACION Y SU IMPACTOI EN LA EN LA CULTURA.pptx
DEFINICION DE GLOBALIZACION Y SU IMPACTOI EN LA EN LA CULTURA.pptx
 
PREGUNTA A DEL REFERÉNDUM 21 DE ABRIL.pdf
PREGUNTA A DEL REFERÉNDUM 21 DE ABRIL.pdfPREGUNTA A DEL REFERÉNDUM 21 DE ABRIL.pdf
PREGUNTA A DEL REFERÉNDUM 21 DE ABRIL.pdf
 
Croquis de riesgo de trabajo gasolinera.pdf
Croquis de riesgo de trabajo gasolinera.pdfCroquis de riesgo de trabajo gasolinera.pdf
Croquis de riesgo de trabajo gasolinera.pdf
 
INTRODUCCION A LA ESTADISTICA RECOLECCION DE DATOS.pdf
INTRODUCCION A LA ESTADISTICA RECOLECCION DE DATOS.pdfINTRODUCCION A LA ESTADISTICA RECOLECCION DE DATOS.pdf
INTRODUCCION A LA ESTADISTICA RECOLECCION DE DATOS.pdf
 
PREGUNTA H DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA H DE CONSULTA POPULAR 21 DE ABRILPREGUNTA H DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA H DE CONSULTA POPULAR 21 DE ABRIL
 
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
 
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRILPREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
 
Análisis de un mapa de riesgos de una tortillería
Análisis de un mapa de riesgos de una tortillería Análisis de un mapa de riesgos de una tortillería
Análisis de un mapa de riesgos de una tortillería
 
Las familias más ricas dentro del sionismo (2024).pdf
Las familias más ricas dentro del sionismo (2024).pdfLas familias más ricas dentro del sionismo (2024).pdf
Las familias más ricas dentro del sionismo (2024).pdf
 

Análisis, preparación y visualización de datos usando herramientas Open Source

  • 1. Workshop “Análisis, preparación y visualización de datos usando herramientas Open Source” 05 - Marzo - 2016 Open Data Day - UIO
  • 3. ¿QUÉ ES OPEN DATA? ❏ Poner a disposición de la sociedad los datos gestionados por la administración pública ❏ Sin restricciones de derecho de autor ❏ Los datos son abiertos cuando: ➔ Accedidos ➔ Usados ➔ Modificados ➔ Compartidos
  • 4. HISTORIA ❏ El 17 de noviembre de 2003, la Directiva del Parlamento Europeo, presentaba un Tratado sobre el acceso de los datos ❏ En el año 2009 el gobierno de Estados Unidos comunicaba su iniciativa de liberar los datos ❏ El 30 de Noviembre de 2010 el Reino Unido liberó una licencia gubernamental
  • 5. PRINCIPIOS DEL OPEN DATA ❏ Los datos deben ser: ➔ Públicos ➔ Detallados ➔ Actualizados ➔ Accesibles ➔ Automatizados ➔ Sin Registro ➔ Abiertos ➔ Libres
  • 6. BENEFICIOS DEL OPEN DATA ❏ Construir nuevo conocimiento ❏ Más eficiencia en los servicios gubernamentales y la administración pública ❏ Genera nuevos indicadores económicos y sociales ❏ Mide el impacto de las políticas públicas
  • 7. OPEN DATA Y POLITICA
  • 11.
  • 13. PROCEDIMIENTO 1 Preguntas a responder 2 Obtener los Datos 3 Explorar los Datos 4Modelar los Datos Comunicar y Visualizar Resultados 5
  • 14. ALGUNAS FUENTES DE DATOS ❏ Archivos ➔ Formatos Abiertos: CSV, XML, JSON ➔ Formatos Propietarios: Excel, SPSS ❏ Bases de Datos ➔ PostgreSQL, MySQL, Oracle ❏ APIs ➔ Servicios Web SOAP: XML ➔ Servicios REST: XML/JSON ❏ Documentos (PDFs, páginas web, etc.) ❏ Redes Sociales
  • 15. FORMATOS ABIERTOS - CSV Cabecera (Header) Separador (, ; |) Enclosure (") Registros (Rows)
  • 16. FORMATOS ABIERTOS - XML Etiquetas (Tags) <tag>...</tag> Codificación
  • 17. FORMATOS ABIERTOS - JSON Valor Atributo Arreglo [ ] Objeto { }
  • 18. APIs - OPEN DATA BANCO MUNDIAL http://api.worldbank.org/countries/all/indicators/DT.DOD.DECT. CD?date=2010:2015&format=xml ❏ Invocación para obtener XML http://api.worldbank.org/countries/all/indicators/DT.DOD.DECT. CD?date=2010:2015&format=json ❏ Invocación para obtener JSON http://api.worldbank.org/countries/all/indicators/DT.DOD.DECT. CD?date=2010:2015&format=csv ❏ Invocación para obtener CSV
  • 20. ARQUITECTURA DATA_MODEL (DIMENSIONAL) CSV ETLsCSV CUBO DE DATOS ANÁLISIS Y VISUALIZACIÓN SQL POWER ARCHITECT PENTAHO DATA INTEGRATION PENTAHO SCHEMA WORKBENCH PENTAHO BI SERVER SAIKU ANALYTICS
  • 21. SOFTWARE OPEN SOURCE A USAR ❏ Procesamiento de Datos ➔ Pentaho Data Integration CE v5.4 ❏ Entrega de Información ➔ Pentaho Schema Workbench v5.4 ➔ Pentaho BI Server CE v5.4, Saiku Analytics ➔ PostgreSQL v9.3 ➔ SQL Power Architect v1.0.8 ❏ Modelamiento ➔ Oracle JDK v1.7 (Java) ❏ Base de Datos ❏ Software Base
  • 23. CONCEPTOS ❏ Consiste en modelar hechos y dimensiones para llegar a lo que se conoce como Modelo Estrella DIMENSIÓN 1 DIMENSIÓN 2 ... DIMENSIÓN N HECHOS
  • 24. CONCEPTOS DIMENSIONES ❏ Datos Cualitativos ❏ Representan información de una entidad. Ej. País, Región, Sucursal, Producto HECHOS ❏ Datos Cuantitativos ❏ Representan un indicador o medida. Ej. ventas, deuda externa, comisiones ❏ Los indicadores pueden ser agregados (sum, avg, max, min, count)
  • 26. POSTGRESQL ❏ Abrir Terminal y abrir pgAdmin III ❏ Ir a File > Add Server ❏ Crear la base de datos data_model
  • 27. SQL POWER ARCHITECT ❏ Abrir Files ❏ Ir al siguiente directorio Computer > /opt/pentaho/architect-1.0.8 ❏ Iniciar la aplicación architect.jar ❏ Conexión: Connections > Add Source Connection > New Connection ❏ Creación del modelo: Tools > Forward Engineer
  • 29. PENTAHO DATA INTEGRATION ❏ Descargar archivos CSV: http://bit.ly/1TfVKd9 en el directorio src_data y descomprimir ❏ Crear el directorio src_data en ➔ /home/vagrant/Documents/workshop ../workshop/src_data/DeudaExterna catalogo_indicadores.csv catalogo_paises.csv deuda_externa.csv
  • 30. PENTAHO DATA INTEGRATION ❏ Abrir Terminal ❏ Ejecutar los siguientes comandos: ➔ cd /opt/pentaho/data-integration ➔ ./spoon.sh ❏ Seleccionar el repositorio workshop ❏ Conexión: Tools > Repository > Connections > data_model
  • 32. CONCEPTOS ❏ Un cubo es una colección de múltiples dimensiones y medidas FECHA TABLET VENDEDOR 2013 2014 PRODUCTOPC 2015 SMARTPHONE JUAN PEDRO ANDREA MEDIDAS - VENTAS - COMISIONES - CANTIDAD DIMENSIONES
  • 33. CUBOS, DIMENSIONES Y MEDIDAS Analogía ❏ Las dimensiones del cubo son a las dimensiones del modelo dimensional ❏ Las medidas del cubo son a los hechos del modelo dimensional Visualización ❏ Un cubo se lo visualiza como una tabla cruzada o tabla pivot
  • 34. VISUALIZACIÓN DE UN CUBO FECHA TABLET VENDEDOR 2013 2014 PRODUCTOPC 2015 SMARTPHONE JUAN PEDRO ANDREA TABLET PC SMARTPHONE 2013 2014 2015 2013 2014 2015 2013 2014 2015 JUAN 12 8 14 - - - - - - PEDRO - - - 22 45 16 - - - ANDREA - - - - - - 134 122 245 TABLA PIVOT / CRUZADA
  • 35. PENTAHO SCHEMA WORKBENCH ❏ Conexión: Options > Connection > data_model ❏ Publicación del Cubo: File > Publish Admin|password|data_model ❏ Abrir Terminal ❏ Ejecutar los siguientes comandos: ➔ cd /opt/pentaho/schema-workbench ➔ ./workbench.sh
  • 36. PENTAHO BI-SERVER ❏ Abrir Firefox: http://localhost:8080 ❏ Abrir Terminal ❏ Ejecutar los siguientes comandos: ➔ cd /opt/pentaho/biserver-ce ➔ ./start-pentaho.sh ➔ sudo su - pentaho ❏ Conexión: Manage Data Sources > New Connection > data_model
  • 37. LINKS DE INTERÉS ❏ Blog Data Warehousing / Business Intelligence con herramientas Open Source: http: //ingmmurillo-dwh-bi.blogspot.com/ ❏ Documentación API Banco Mundial: http: //data.worldbank.org/developers/api- overview/basic-call-structure ❏ Evaluador JSONPath en línea: http://jsonpath. com ❏ Pentaho CE https://sourceforge. net/projects/pentaho/files https://sourceforge. net/projects/mondrian/files
  • 38. MUCHAS GRACIAS Para preguntas o sugerencias: Gabriela Chasifan | gchasifan@thoughtworks.com Byron Torres | btorres@thoughtworks.com Mauricio Murillo | mmurillo@thoughtworks.com Carlos Fuentes | cfuentes@thoughtworks.com