SlideShare ist ein Scribd-Unternehmen logo
1 von 63
Trucos en el procesamiento y análisis de
datos con Open Source
Ignacio Bustillo
@IgnacioBustillo
info@stratebi.com
Business Analytics
Cómo hacer menos tonta
la empresa
Periodismo de datos
Periodismo de datos
Visualización
Mapas
Tablas
Gráficos
…
Fuga2: data.elperiodico.com
Dashboard Smartcities
Lo esencial al analizar
la información
Análisis eficiente de datos
Data Warehouse – Almacén de datos
Repositorio centralizado de datos. Permite correlacionar indicadores y
velocidad en consultas
Análisis eficiente de datos
Análisis eficiente de datos
Transaccional DW
Orientados a software Orientados a temas
Utilizados para el funcionamiento del negocio Utilizados para analizar negocio
Usados por empleados comunes Usados por ejecutivos y analistas
Contiene datos detallados Contiene datos resumidos y refinados
Contiene datos aislados Contiene datos integrados
Acceso repetitivo y transac. pequeñas Acceso a medida con consultas complejas
No hay redundancia (3FN) Se prima la rapidez al tamaño en disco
Análisis eficiente de datos
Análisis eficiente de datos
Análisis eficiente de datos
Análisis eficiente de datos
HECHOS
• Responden a la pregunta ¿Qué queremos medir?
• Euros gastados, ventas, edad, unidades, coste, litros, kilos….
• Se agrupan en una tabla: La tabla de hechos o Fact Table:
• Tabla central en un modelo multidimensional.
• Almacena datos numéricos e indicadores clave (PKIs)
• Están almacenados a un determinado nivel de detalle.
• La mayoría de las veces, contiene hechos aditivos.
• Las tablas de hechos tienden a crecen a “lo alto”
Clave del
Producto
Clave de la
tienda
Clave del
Tiempo
Euros Unidades
1 2 12 300 5
1 7 3 1000 7
2 9 5 227 2
Análisis eficiente de datos
DIMENSIONES
• Responden a la pregunta ¿Desde que puntos de vista quieres analizar los hechos?
Por Mes o Año, Ciudad, Sede, Partida, Tipo de cliente …
• Contienen los descriptores textuales de los hechos.
• Están contenidas en tablas, cada dimensión en una tabla
• Las tablas de dimensión tienden a crecen a “lo ancho”
Clave_mes Mes
1 Enero
2 Febrero
Producto Clave_producto
1 Libros
2 DVD
Tienda Clave_tienda
7 Sevilla
2 Córdoba
Análisis eficiente de datos
Análisis eficiente de datos
VS
Canalizando los datos
Herramientas de Extracción, Transformación y
Carga (Load)
ETL
Periodismo de datos
Herramientas ETL
Software libre
Herramientas ETL
Herramientas ETL
Algunas fuentes…
Herramientas ETL
Problemas que surgen:
¿Sabemos programar?
SQL? Javascript? Java? Python? Php?
¿Tenemos paciencia?
…De procesar tantas miles de filas a mano….
…De procesar tantos archivos a mano…
¿Qué significan los datos?
¿Sabemos usar todas las tecnologías?
…Parseo JSON…
…Lectura XLS…
PENTAHO DATA INTEGRATION
PENTAHO DATA INTEGRATION
¿Qué es Pentaho Data Integration?
• PDI es un set de herramientas, que permite diseñar ETLs, mediante transformaciones y trabajos que pueden ser
ejecutadas por las herramientas de Spoon, Pan y Kitchen. Antes se le conocía con el nombre de Kettle.
•Spoon interfaz gráfica para diseño de trasformaciones y trabajos ETL.
•Pan es un motor capaz de ejecutar múltiples transformaciones de datos como leer, manipular y escribir
desde y en distintos orígenes de datos.
•Kitchen es un programa que ejecuta los trabajos diseñados por Spoon. Normalmente estos trabajos son
planificados en modo batch para ejecutar automáticamente a periodos regulares (crontab -e).
PENTAHO DATA INTEGRATION
Características y beneficios
• Permite trabajar con un repositorio en Base de Datos o en Ficheros.
• Su interfaz gráfica te permitirá crear de transformaciones y trabajos de manera intuitiva mediante pasos
modulares ya creados, conexiones con múltiples fuentes, etc...
• Distribución y combinación de diferentes fuentes, en diferentes hosts.
• Interfaz SQL y generador de código automático.
• Crear cálculos de una manera muy sencilla.
• Define qué quieres hacer, no como quieres hacerlo.
• Genera código XML y Java.
• Instalación sencilla – sólo extraer los ficheros, aplicación Java. (ojo con la versión java -version)
• Fácil de mantener, con alto rendimiento y escalabilidad.
• Es posible parametrizar bastantes configuraciones (directorios, conexiones, mail).
• Posee una arquitectura de Plug-in que te permitirá expandir sus funcionalidades.
PENTAHO DATA INTEGRATION
Spoon
• Menú principal (rojo)
• Pestaña vista (verde)
• Pestaña design (azul)
• Menú iconos (amarillo)
• Zona de Trabajo
PENTAHO DATA INTEGRATION
Pestañas
• Pestaña Vista (View):
• Orígenes de Datos.
• Pasos
• Saltos
• Esquemas
• Servidores Esclavos
• Esquemas en Cluster.
• Pestaña Diseño (Design):
• Entrada
• Salida
• Búsqueda
• Transformar
• Uniones
• Scripting
• Data Warehouse
• Mapeado
• Trabajo
• Embebido
• Experimental
PENTAHO DATA INTEGRATION
Menú de Iconos
Icono Descripción
Crear un nuevo trabajo o transformación o CNTRL - N
Abrir un trabajo/transformación de un fichero o del repositorio si estas conectado a él.
Guardar el trabajo/transformación a un fichero o al repositorio
Guardar el trabajo/transformación con un nombre distinto.
Abrir la ventana de impresora.
Ejecutar el trabajo/transformación: ejecuta la transformación actual desde el fichero XML o el repositorio.
Previsualizar la transformación: ejecuta la transformación actual desde memoria. Puedes previsualizar las filas producidas
por el paso seleccionado
Ejecutar la transformación en modo de pruebas permitiéndote la solución de errores de ejecución.
Repetir el proceso de una transformación para una cierta fecha y hora. Esto causará que ciertos pasos (TextFile Input
y Excel Input) sólo procesarán las filas que fallaron para ser interpretadas correctamente a esa fecha y hora particular.
Ejecutar un análisis de impacto: que impacto tiene la transformación en la base de datos usada.
Generar el SQL que es necesario para ejecutar la transformación.
Lanza el explorador de la base de datos permitiéndote previsualizar los datos, ejecutar consultas SQL, generar DDL y más.
PENTAHO DATA INTEGRATION
Componentes de PDI (I)
• Los procesos ETL se dividen en dos componentes principales:
• Transformaciones (.ktr): es el conjunto de pasos básicos que componen el nivel
más bajo de una ETL.
• Trabajos (.kjb): es un conjunto de pasos, trabajos y transformaciones.
PENTAHO DATA INTEGRATION
Componentes de PDI (II)
• Transformaciones:
• Paso: son los elementos atómicos de PDI y cada uno realiza una transformación en
el flujo de datos. (Leer datos, escribir en BBDD, crear cálculos, añadir constantes, ....)
• Salto: es la representación gráfica del flujo de datos entre 2 pasos.
PENTAHO DATA INTEGRATION
Componentes de PDI (III)
• Trabajos:
• Paso: son los elementos atómicos de PDI y cada uno realiza una trabajo. (No
modifican el flujo de datos)
• Salto: representa el orden de ejecución de transformaciones y trabajos.
• Trabajo y Transformación: dentro de un trabajo podemos incluir llamadas a otras
transformaciones y/o trabajos para que sean ejecutadas.
• Un trabajo procesa todos los registros antes de continuar, en cambio, una
transformación es un flujo de datos continuo de manera que los registros avanzan
por los pasos según llegan.
A trabajar!
PASO 1: Download & Instalación
http://sourceforge.net/projects/pentaho/files/Data Integration/
PASO 2: Descomprimir & abrir
PASO 2: Desomprimir & abrir
PASO 2: Let’s play!
Ejercicios!
Charts for dummies
Generar Nombres aleatorios
1) Generar 10 filas
2) Generar aleatorios
3) Filtrar salida
4) Exportar Excel
Estadísticas de Paro
1) Abrir csv
2) Seleccionar valores
3) Agrupaciones
4) Pintar
Estadísticas de Paro
Estadísticas de Paro
EJERCICIO 2
1) Abrir Excel 1 y 2
2) Cruzar Excels
3) Agrupaciones
4) Pintar
Excel con índices de innovación por países Maestro paises EN y ES
+
EJERCICIO 2
Estadísticas innovación
Comentarios Twitter #jdp14
1) Parsear JSON de monitorización #jpd14
2) Pintar
Comentarios Twitter #jdp14

Weitere ähnliche Inhalte

Was ist angesagt?

Data Visualization con Pentaho
Data Visualization con PentahoData Visualization con Pentaho
Data Visualization con PentahoDatalytics
 
Aplicaciones Big Data Marketing
Aplicaciones Big Data MarketingAplicaciones Big Data Marketing
Aplicaciones Big Data MarketingStratebi
 
Unidad iii componentes de entorno de inteligencia de negocios
Unidad iii componentes de entorno de inteligencia de negociosUnidad iii componentes de entorno de inteligencia de negocios
Unidad iii componentes de entorno de inteligencia de negociosDéjatte Guiar Por Jesucristo
 
Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Penta...
Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Penta...Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Penta...
Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Penta...Pentaho
 
SAP - PowerBI integration
SAP - PowerBI integrationSAP - PowerBI integration
SAP - PowerBI integrationStratebi
 
Introducción al BI con pentaho
Introducción al BI con pentahoIntroducción al BI con pentaho
Introducción al BI con pentahoIván Ruiz-Rube
 
066 como implementar un data warehouse de manera paulatina
066 como implementar un data warehouse de manera paulatina066 como implementar un data warehouse de manera paulatina
066 como implementar un data warehouse de manera paulatinaGeneXus
 
Comparativa herramientas Business Intelligence
Comparativa herramientas Business IntelligenceComparativa herramientas Business Intelligence
Comparativa herramientas Business IntelligenceStratebi
 
Destinos turisticos inteligentes
Destinos turisticos inteligentesDestinos turisticos inteligentes
Destinos turisticos inteligentesStratebi
 
Herramientas de business intelligence
Herramientas de business intelligenceHerramientas de business intelligence
Herramientas de business intelligencelears0
 
Charla Pentaho - UTN
Charla Pentaho - UTNCharla Pentaho - UTN
Charla Pentaho - UTNDatalytics
 
Inteligencia De Negocios, en Software Libre
Inteligencia De Negocios, en Software LibreInteligencia De Negocios, en Software Libre
Inteligencia De Negocios, en Software LibreSantiago Zarate
 
Presentacion Starting Pack BI Open Source
Presentacion Starting Pack BI Open SourcePresentacion Starting Pack BI Open Source
Presentacion Starting Pack BI Open SourceStratebi
 
Big Data Architecture con Pentaho
Big Data Architecture con PentahoBig Data Architecture con Pentaho
Big Data Architecture con PentahoDatalytics
 
Cursos Big Data Open Source
Cursos Big Data Open SourceCursos Big Data Open Source
Cursos Big Data Open SourceStratebi
 
Business Intelligence (B.I.). La Plataforma Pentaho
Business Intelligence (B.I.). La Plataforma PentahoBusiness Intelligence (B.I.). La Plataforma Pentaho
Business Intelligence (B.I.). La Plataforma PentahoT.I.C
 

Was ist angesagt? (20)

Data Visualization con Pentaho
Data Visualization con PentahoData Visualization con Pentaho
Data Visualization con Pentaho
 
Porque Pentaho ?
Porque Pentaho ?Porque Pentaho ?
Porque Pentaho ?
 
Aplicaciones Big Data Marketing
Aplicaciones Big Data MarketingAplicaciones Big Data Marketing
Aplicaciones Big Data Marketing
 
Unidad iii componentes de entorno de inteligencia de negocios
Unidad iii componentes de entorno de inteligencia de negociosUnidad iii componentes de entorno de inteligencia de negocios
Unidad iii componentes de entorno de inteligencia de negocios
 
Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Penta...
Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Penta...Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Penta...
Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Penta...
 
SAP - PowerBI integration
SAP - PowerBI integrationSAP - PowerBI integration
SAP - PowerBI integration
 
Introducción al BI con pentaho
Introducción al BI con pentahoIntroducción al BI con pentaho
Introducción al BI con pentaho
 
066 como implementar un data warehouse de manera paulatina
066 como implementar un data warehouse de manera paulatina066 como implementar un data warehouse de manera paulatina
066 como implementar un data warehouse de manera paulatina
 
Comparativa herramientas Business Intelligence
Comparativa herramientas Business IntelligenceComparativa herramientas Business Intelligence
Comparativa herramientas Business Intelligence
 
Destinos turisticos inteligentes
Destinos turisticos inteligentesDestinos turisticos inteligentes
Destinos turisticos inteligentes
 
Herramientas de business intelligence
Herramientas de business intelligenceHerramientas de business intelligence
Herramientas de business intelligence
 
Charla Pentaho - UTN
Charla Pentaho - UTNCharla Pentaho - UTN
Charla Pentaho - UTN
 
Inteligencia De Negocios, en Software Libre
Inteligencia De Negocios, en Software LibreInteligencia De Negocios, en Software Libre
Inteligencia De Negocios, en Software Libre
 
Presentacion Starting Pack BI Open Source
Presentacion Starting Pack BI Open SourcePresentacion Starting Pack BI Open Source
Presentacion Starting Pack BI Open Source
 
Sap Business Objects - Sector Banca
Sap Business Objects - Sector BancaSap Business Objects - Sector Banca
Sap Business Objects - Sector Banca
 
Big Data Architecture con Pentaho
Big Data Architecture con PentahoBig Data Architecture con Pentaho
Big Data Architecture con Pentaho
 
Sesion 1 pentaho special-edition 2013
Sesion 1  pentaho special-edition 2013Sesion 1  pentaho special-edition 2013
Sesion 1 pentaho special-edition 2013
 
Ciclo de vida de la inteligencia de negocios
Ciclo de vida de la inteligencia de negociosCiclo de vida de la inteligencia de negocios
Ciclo de vida de la inteligencia de negocios
 
Cursos Big Data Open Source
Cursos Big Data Open SourceCursos Big Data Open Source
Cursos Big Data Open Source
 
Business Intelligence (B.I.). La Plataforma Pentaho
Business Intelligence (B.I.). La Plataforma PentahoBusiness Intelligence (B.I.). La Plataforma Pentaho
Business Intelligence (B.I.). La Plataforma Pentaho
 

Andere mochten auch

Employing Google Refine to publish Linked Data
Employing Google Refine to publish Linked DataEmploying Google Refine to publish Linked Data
Employing Google Refine to publish Linked DataFadi Maali
 
A Quick Tour of OpenRefine
A Quick Tour of OpenRefineA Quick Tour of OpenRefine
A Quick Tour of OpenRefineTony Hirst
 
Índice Global de Apertura de Datos [Global Open Data Index presentation Span...
Índice Global de Apertura de Datos [Global Open Data Index presentation Span...Índice Global de Apertura de Datos [Global Open Data Index presentation Span...
Índice Global de Apertura de Datos [Global Open Data Index presentation Span...okfn
 
Definición de un Modelo de Gestión Documental para la BNE
Definición de un Modelo de Gestión Documental para la BNEDefinición de un Modelo de Gestión Documental para la BNE
Definición de un Modelo de Gestión Documental para la BNEAna Carrillo Pozas
 
SmartCity Presentation
SmartCity PresentationSmartCity Presentation
SmartCity PresentationStratebi
 
Smart City Analytics
Smart City Analytics Smart City Analytics
Smart City Analytics Stratebi
 
Reutilización de datos gracias a la visualización de datos
Reutilización de datos gracias a la visualización de datosReutilización de datos gracias a la visualización de datos
Reutilización de datos gracias a la visualización de datosXavier Badosa
 
Retos y oportunidades en Archivos y Gestión Documental ante la Web Semántica
Retos y oportunidades en Archivos y Gestión Documental ante la Web SemánticaRetos y oportunidades en Archivos y Gestión Documental ante la Web Semántica
Retos y oportunidades en Archivos y Gestión Documental ante la Web SemánticaAna Carrillo Pozas
 
Biblioapps, o cómo crear aplicaciones móviles para bibliotecas
Biblioapps, o cómo crear aplicaciones móviles para bibliotecasBiblioapps, o cómo crear aplicaciones móviles para bibliotecas
Biblioapps, o cómo crear aplicaciones móviles para bibliotecasSocialBiblio
 

Andere mochten auch (9)

Employing Google Refine to publish Linked Data
Employing Google Refine to publish Linked DataEmploying Google Refine to publish Linked Data
Employing Google Refine to publish Linked Data
 
A Quick Tour of OpenRefine
A Quick Tour of OpenRefineA Quick Tour of OpenRefine
A Quick Tour of OpenRefine
 
Índice Global de Apertura de Datos [Global Open Data Index presentation Span...
Índice Global de Apertura de Datos [Global Open Data Index presentation Span...Índice Global de Apertura de Datos [Global Open Data Index presentation Span...
Índice Global de Apertura de Datos [Global Open Data Index presentation Span...
 
Definición de un Modelo de Gestión Documental para la BNE
Definición de un Modelo de Gestión Documental para la BNEDefinición de un Modelo de Gestión Documental para la BNE
Definición de un Modelo de Gestión Documental para la BNE
 
SmartCity Presentation
SmartCity PresentationSmartCity Presentation
SmartCity Presentation
 
Smart City Analytics
Smart City Analytics Smart City Analytics
Smart City Analytics
 
Reutilización de datos gracias a la visualización de datos
Reutilización de datos gracias a la visualización de datosReutilización de datos gracias a la visualización de datos
Reutilización de datos gracias a la visualización de datos
 
Retos y oportunidades en Archivos y Gestión Documental ante la Web Semántica
Retos y oportunidades en Archivos y Gestión Documental ante la Web SemánticaRetos y oportunidades en Archivos y Gestión Documental ante la Web Semántica
Retos y oportunidades en Archivos y Gestión Documental ante la Web Semántica
 
Biblioapps, o cómo crear aplicaciones móviles para bibliotecas
Biblioapps, o cómo crear aplicaciones móviles para bibliotecasBiblioapps, o cómo crear aplicaciones móviles para bibliotecas
Biblioapps, o cómo crear aplicaciones móviles para bibliotecas
 

Ähnlich wie Periodismo de Datos y Visualización con herramientas Open Source

Integración de Datos sin límites con Pentaho
Integración de Datos sin límites con PentahoIntegración de Datos sin límites con Pentaho
Integración de Datos sin límites con PentahoDatalytics
 
Software Libre para la Toma de Decisiones
Software Libre para la Toma de DecisionesSoftware Libre para la Toma de Decisiones
Software Libre para la Toma de DecisionesHéctor Neri
 
Dts y analysis services 2000
Dts y analysis services 2000Dts y analysis services 2000
Dts y analysis services 2000Salvador Ramos
 
slides-del-curso-de-analisis-de-datos-con-power-bi_cf66119b-6f4c-4e91-9eab-72...
slides-del-curso-de-analisis-de-datos-con-power-bi_cf66119b-6f4c-4e91-9eab-72...slides-del-curso-de-analisis-de-datos-con-power-bi_cf66119b-6f4c-4e91-9eab-72...
slides-del-curso-de-analisis-de-datos-con-power-bi_cf66119b-6f4c-4e91-9eab-72...SALAZARCOLLASABELANG
 
Dts y analysis services 2000
Dts y analysis services 2000Dts y analysis services 2000
Dts y analysis services 2000Salvador Ramos
 
Nuevas Herramientas De Bi De Oracle
Nuevas Herramientas De Bi De OracleNuevas Herramientas De Bi De Oracle
Nuevas Herramientas De Bi De Oracleaitorvasco
 
Curso introduccion microsoft_sql_server_business_intelligence
Curso introduccion microsoft_sql_server_business_intelligenceCurso introduccion microsoft_sql_server_business_intelligence
Curso introduccion microsoft_sql_server_business_intelligenceSalvador Ramos
 
Manual Analysis Services
Manual Analysis ServicesManual Analysis Services
Manual Analysis Servicesbrobelo
 
Operations & Data Graph
Operations & Data GraphOperations & Data Graph
Operations & Data GraphNeo4j
 
BusinessIntelligence Introduction
BusinessIntelligence IntroductionBusinessIntelligence Introduction
BusinessIntelligence Introductionandres hurtado
 
Semana 3 - Bases de Datos Avanzadas - Big Data - Sesion 3.pdf
Semana 3 - Bases de Datos Avanzadas - Big Data - Sesion 3.pdfSemana 3 - Bases de Datos Avanzadas - Big Data - Sesion 3.pdf
Semana 3 - Bases de Datos Avanzadas - Big Data - Sesion 3.pdfromaldonolascorojas1
 
Analisis multidemensional.pdf
Analisis multidemensional.pdfAnalisis multidemensional.pdf
Analisis multidemensional.pdfmgl27
 
Big Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasBig Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasJoseph Lopez
 

Ähnlich wie Periodismo de Datos y Visualización con herramientas Open Source (20)

Integración de Datos sin límites con Pentaho
Integración de Datos sin límites con PentahoIntegración de Datos sin límites con Pentaho
Integración de Datos sin límites con Pentaho
 
Software Libre para la Toma de Decisiones
Software Libre para la Toma de DecisionesSoftware Libre para la Toma de Decisiones
Software Libre para la Toma de Decisiones
 
Grupo eGlu Bi
Grupo eGlu BiGrupo eGlu Bi
Grupo eGlu Bi
 
Dts y analysis services 2000
Dts y analysis services 2000Dts y analysis services 2000
Dts y analysis services 2000
 
slides-del-curso-de-analisis-de-datos-con-power-bi_cf66119b-6f4c-4e91-9eab-72...
slides-del-curso-de-analisis-de-datos-con-power-bi_cf66119b-6f4c-4e91-9eab-72...slides-del-curso-de-analisis-de-datos-con-power-bi_cf66119b-6f4c-4e91-9eab-72...
slides-del-curso-de-analisis-de-datos-con-power-bi_cf66119b-6f4c-4e91-9eab-72...
 
Base de datos
Base de datosBase de datos
Base de datos
 
Dts y analysis services 2000
Dts y analysis services 2000Dts y analysis services 2000
Dts y analysis services 2000
 
Presentacion1 convertido
Presentacion1 convertidoPresentacion1 convertido
Presentacion1 convertido
 
Nuevas Herramientas De Bi De Oracle
Nuevas Herramientas De Bi De OracleNuevas Herramientas De Bi De Oracle
Nuevas Herramientas De Bi De Oracle
 
Base de datos
Base de datosBase de datos
Base de datos
 
Curso introduccion microsoft_sql_server_business_intelligence
Curso introduccion microsoft_sql_server_business_intelligenceCurso introduccion microsoft_sql_server_business_intelligence
Curso introduccion microsoft_sql_server_business_intelligence
 
Manual Analysis Services
Manual Analysis ServicesManual Analysis Services
Manual Analysis Services
 
Operations & Data Graph
Operations & Data GraphOperations & Data Graph
Operations & Data Graph
 
Business Analytics 101
Business Analytics 101Business Analytics 101
Business Analytics 101
 
BusinessIntelligence Introduction
BusinessIntelligence IntroductionBusinessIntelligence Introduction
BusinessIntelligence Introduction
 
Semana 3 - Bases de Datos Avanzadas - Big Data - Sesion 3.pdf
Semana 3 - Bases de Datos Avanzadas - Big Data - Sesion 3.pdfSemana 3 - Bases de Datos Avanzadas - Big Data - Sesion 3.pdf
Semana 3 - Bases de Datos Avanzadas - Big Data - Sesion 3.pdf
 
Analisis multidemensional.pdf
Analisis multidemensional.pdfAnalisis multidemensional.pdf
Analisis multidemensional.pdf
 
Big Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasBig Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivas
 
Data Warehouse
Data WarehouseData Warehouse
Data Warehouse
 
Josue
JosueJosue
Josue
 

Mehr von Stratebi

Azure Synapse
Azure SynapseAzure Synapse
Azure SynapseStratebi
 
Options for Dashboards with Python
Options for Dashboards with PythonOptions for Dashboards with Python
Options for Dashboards with PythonStratebi
 
Dashboards with Python
Dashboards with PythonDashboards with Python
Dashboards with PythonStratebi
 
PowerBI Tips y buenas practicas
PowerBI Tips y buenas practicasPowerBI Tips y buenas practicas
PowerBI Tips y buenas practicasStratebi
 
Machine Learning Meetup Spain
Machine Learning Meetup SpainMachine Learning Meetup Spain
Machine Learning Meetup SpainStratebi
 
LinceBI IIoT (Industrial Internet of Things)
LinceBI IIoT (Industrial Internet of Things)LinceBI IIoT (Industrial Internet of Things)
LinceBI IIoT (Industrial Internet of Things)Stratebi
 
A federated information infrastructure that works
A federated information infrastructure that works A federated information infrastructure that works
A federated information infrastructure that works Stratebi
 
9 problemas en proyectos Data Analytics
9 problemas en proyectos Data Analytics9 problemas en proyectos Data Analytics
9 problemas en proyectos Data AnalyticsStratebi
 
PowerBI: Soluciones, Aplicaciones y Cursos
PowerBI: Soluciones, Aplicaciones y CursosPowerBI: Soluciones, Aplicaciones y Cursos
PowerBI: Soluciones, Aplicaciones y CursosStratebi
 
Sports Analytics
Sports AnalyticsSports Analytics
Sports AnalyticsStratebi
 
Vertica Extreme Analysis
Vertica Extreme AnalysisVertica Extreme Analysis
Vertica Extreme AnalysisStratebi
 
Businesss Intelligence con Vertica y PowerBI
Businesss Intelligence con Vertica y PowerBIBusinesss Intelligence con Vertica y PowerBI
Businesss Intelligence con Vertica y PowerBIStratebi
 
Vertica Analytics Database general overview
Vertica Analytics Database general overviewVertica Analytics Database general overview
Vertica Analytics Database general overviewStratebi
 
Talend Cloud en detalle
Talend Cloud en detalleTalend Cloud en detalle
Talend Cloud en detalleStratebi
 
Master Data Management (MDM) con Talend
Master Data Management (MDM) con TalendMaster Data Management (MDM) con Talend
Master Data Management (MDM) con TalendStratebi
 
Talend Introducion
Talend IntroducionTalend Introducion
Talend IntroducionStratebi
 
Talent Analytics
Talent AnalyticsTalent Analytics
Talent AnalyticsStratebi
 
El Futuro del Business Intelligence
El Futuro del Business IntelligenceEl Futuro del Business Intelligence
El Futuro del Business IntelligenceStratebi
 
Talend Solutions
Talend SolutionsTalend Solutions
Talend SolutionsStratebi
 
PowerBI Salesforce integration
PowerBI Salesforce integrationPowerBI Salesforce integration
PowerBI Salesforce integrationStratebi
 

Mehr von Stratebi (20)

Azure Synapse
Azure SynapseAzure Synapse
Azure Synapse
 
Options for Dashboards with Python
Options for Dashboards with PythonOptions for Dashboards with Python
Options for Dashboards with Python
 
Dashboards with Python
Dashboards with PythonDashboards with Python
Dashboards with Python
 
PowerBI Tips y buenas practicas
PowerBI Tips y buenas practicasPowerBI Tips y buenas practicas
PowerBI Tips y buenas practicas
 
Machine Learning Meetup Spain
Machine Learning Meetup SpainMachine Learning Meetup Spain
Machine Learning Meetup Spain
 
LinceBI IIoT (Industrial Internet of Things)
LinceBI IIoT (Industrial Internet of Things)LinceBI IIoT (Industrial Internet of Things)
LinceBI IIoT (Industrial Internet of Things)
 
A federated information infrastructure that works
A federated information infrastructure that works A federated information infrastructure that works
A federated information infrastructure that works
 
9 problemas en proyectos Data Analytics
9 problemas en proyectos Data Analytics9 problemas en proyectos Data Analytics
9 problemas en proyectos Data Analytics
 
PowerBI: Soluciones, Aplicaciones y Cursos
PowerBI: Soluciones, Aplicaciones y CursosPowerBI: Soluciones, Aplicaciones y Cursos
PowerBI: Soluciones, Aplicaciones y Cursos
 
Sports Analytics
Sports AnalyticsSports Analytics
Sports Analytics
 
Vertica Extreme Analysis
Vertica Extreme AnalysisVertica Extreme Analysis
Vertica Extreme Analysis
 
Businesss Intelligence con Vertica y PowerBI
Businesss Intelligence con Vertica y PowerBIBusinesss Intelligence con Vertica y PowerBI
Businesss Intelligence con Vertica y PowerBI
 
Vertica Analytics Database general overview
Vertica Analytics Database general overviewVertica Analytics Database general overview
Vertica Analytics Database general overview
 
Talend Cloud en detalle
Talend Cloud en detalleTalend Cloud en detalle
Talend Cloud en detalle
 
Master Data Management (MDM) con Talend
Master Data Management (MDM) con TalendMaster Data Management (MDM) con Talend
Master Data Management (MDM) con Talend
 
Talend Introducion
Talend IntroducionTalend Introducion
Talend Introducion
 
Talent Analytics
Talent AnalyticsTalent Analytics
Talent Analytics
 
El Futuro del Business Intelligence
El Futuro del Business IntelligenceEl Futuro del Business Intelligence
El Futuro del Business Intelligence
 
Talend Solutions
Talend SolutionsTalend Solutions
Talend Solutions
 
PowerBI Salesforce integration
PowerBI Salesforce integrationPowerBI Salesforce integration
PowerBI Salesforce integration
 

Kürzlich hochgeladen

Adultos Mayores más de 60 años como de la población total (2024).pdf
Adultos Mayores más de 60 años como  de la población total (2024).pdfAdultos Mayores más de 60 años como  de la población total (2024).pdf
Adultos Mayores más de 60 años como de la población total (2024).pdfJC Díaz Herrera
 
Letra de cambio definición y características.ppt
Letra de cambio definición y características.pptLetra de cambio definición y características.ppt
Letra de cambio definición y características.pptssuserbdc329
 
INFORME FINAL ESTADISTICA DESCRIPTIVA E INFERENCIAL
INFORME FINAL ESTADISTICA DESCRIPTIVA E INFERENCIALINFORME FINAL ESTADISTICA DESCRIPTIVA E INFERENCIAL
INFORME FINAL ESTADISTICA DESCRIPTIVA E INFERENCIALMANUELVILELA7
 
Conversacion.pptx en guarani boliviano latino
Conversacion.pptx en guarani boliviano latinoConversacion.pptx en guarani boliviano latino
Conversacion.pptx en guarani boliviano latinoBESTTech1
 
La Guerra Biologica - Emiliano Paico Vilchez.pdf
La Guerra Biologica - Emiliano Paico Vilchez.pdfLa Guerra Biologica - Emiliano Paico Vilchez.pdf
La Guerra Biologica - Emiliano Paico Vilchez.pdfjosellaqtas
 
Las marcas automotrices con más ventas de vehículos (2024).pdf
Las marcas automotrices con más ventas de vehículos (2024).pdfLas marcas automotrices con más ventas de vehículos (2024).pdf
Las marcas automotrices con más ventas de vehículos (2024).pdfJC Díaz Herrera
 
Investigacion cualitativa y cuantitativa....pdf
Investigacion cualitativa y cuantitativa....pdfInvestigacion cualitativa y cuantitativa....pdf
Investigacion cualitativa y cuantitativa....pdfalexanderleonyonange
 
Cesar Vilchis Vieyra Cesar Vilchis Vieyra
Cesar Vilchis Vieyra  Cesar Vilchis VieyraCesar Vilchis Vieyra  Cesar Vilchis Vieyra
Cesar Vilchis Vieyra Cesar Vilchis Vieyraestudiantes2010
 
Alfredo Gabriel Rodriguez Yajure Tarea#1
Alfredo Gabriel Rodriguez Yajure Tarea#1Alfredo Gabriel Rodriguez Yajure Tarea#1
Alfredo Gabriel Rodriguez Yajure Tarea#1alfredo130306
 
procedimiento paran la planificación en los centros educativos tipo v(multig...
procedimiento  paran la planificación en los centros educativos tipo v(multig...procedimiento  paran la planificación en los centros educativos tipo v(multig...
procedimiento paran la planificación en los centros educativos tipo v(multig...claudioluna1121
 
Evolución de la fortuna de la familia Slim (1994-2024).pdf
Evolución de la fortuna de la familia Slim (1994-2024).pdfEvolución de la fortuna de la familia Slim (1994-2024).pdf
Evolución de la fortuna de la familia Slim (1994-2024).pdfJC Díaz Herrera
 
6.3 Hidrologia Geomorfologia Cuenca.pptx
6.3 Hidrologia Geomorfologia Cuenca.pptx6.3 Hidrologia Geomorfologia Cuenca.pptx
6.3 Hidrologia Geomorfologia Cuenca.pptxBrallanDanielRamrezS
 
metodo SOAP utilizado para evaluar el estado de un paciente
metodo SOAP utilizado para evaluar el estado de un pacientemetodo SOAP utilizado para evaluar el estado de un paciente
metodo SOAP utilizado para evaluar el estado de un pacienteMedicinaInternaresid1
 
CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptx
CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptxCUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptx
CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptxfatimacamilainjantem
 
Los idiomas más hablados en el mundo (2024).pdf
Los idiomas más hablados en el mundo  (2024).pdfLos idiomas más hablados en el mundo  (2024).pdf
Los idiomas más hablados en el mundo (2024).pdfJC Díaz Herrera
 
Los primeros 60 países por IDH en el año (2024).pdf
Los primeros 60 países por IDH en el año (2024).pdfLos primeros 60 países por IDH en el año (2024).pdf
Los primeros 60 países por IDH en el año (2024).pdfJC Díaz Herrera
 
AMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docx
AMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docxAMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docx
AMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docxlm8322074
 
Las familias más ricas de África en el año (2024).pdf
Las familias más ricas de África en el año (2024).pdfLas familias más ricas de África en el año (2024).pdf
Las familias más ricas de África en el año (2024).pdfJC Díaz Herrera
 
Principales Retos Demográficos de Puerto Rico
Principales Retos Demográficos de Puerto RicoPrincipales Retos Demográficos de Puerto Rico
Principales Retos Demográficos de Puerto RicoRaúl Figueroa
 
diseño de una linea de produccion de jabon liquido.pptx
diseño de una linea de produccion de jabon liquido.pptxdiseño de una linea de produccion de jabon liquido.pptx
diseño de una linea de produccion de jabon liquido.pptxHhJhv
 

Kürzlich hochgeladen (20)

Adultos Mayores más de 60 años como de la población total (2024).pdf
Adultos Mayores más de 60 años como  de la población total (2024).pdfAdultos Mayores más de 60 años como  de la población total (2024).pdf
Adultos Mayores más de 60 años como de la población total (2024).pdf
 
Letra de cambio definición y características.ppt
Letra de cambio definición y características.pptLetra de cambio definición y características.ppt
Letra de cambio definición y características.ppt
 
INFORME FINAL ESTADISTICA DESCRIPTIVA E INFERENCIAL
INFORME FINAL ESTADISTICA DESCRIPTIVA E INFERENCIALINFORME FINAL ESTADISTICA DESCRIPTIVA E INFERENCIAL
INFORME FINAL ESTADISTICA DESCRIPTIVA E INFERENCIAL
 
Conversacion.pptx en guarani boliviano latino
Conversacion.pptx en guarani boliviano latinoConversacion.pptx en guarani boliviano latino
Conversacion.pptx en guarani boliviano latino
 
La Guerra Biologica - Emiliano Paico Vilchez.pdf
La Guerra Biologica - Emiliano Paico Vilchez.pdfLa Guerra Biologica - Emiliano Paico Vilchez.pdf
La Guerra Biologica - Emiliano Paico Vilchez.pdf
 
Las marcas automotrices con más ventas de vehículos (2024).pdf
Las marcas automotrices con más ventas de vehículos (2024).pdfLas marcas automotrices con más ventas de vehículos (2024).pdf
Las marcas automotrices con más ventas de vehículos (2024).pdf
 
Investigacion cualitativa y cuantitativa....pdf
Investigacion cualitativa y cuantitativa....pdfInvestigacion cualitativa y cuantitativa....pdf
Investigacion cualitativa y cuantitativa....pdf
 
Cesar Vilchis Vieyra Cesar Vilchis Vieyra
Cesar Vilchis Vieyra  Cesar Vilchis VieyraCesar Vilchis Vieyra  Cesar Vilchis Vieyra
Cesar Vilchis Vieyra Cesar Vilchis Vieyra
 
Alfredo Gabriel Rodriguez Yajure Tarea#1
Alfredo Gabriel Rodriguez Yajure Tarea#1Alfredo Gabriel Rodriguez Yajure Tarea#1
Alfredo Gabriel Rodriguez Yajure Tarea#1
 
procedimiento paran la planificación en los centros educativos tipo v(multig...
procedimiento  paran la planificación en los centros educativos tipo v(multig...procedimiento  paran la planificación en los centros educativos tipo v(multig...
procedimiento paran la planificación en los centros educativos tipo v(multig...
 
Evolución de la fortuna de la familia Slim (1994-2024).pdf
Evolución de la fortuna de la familia Slim (1994-2024).pdfEvolución de la fortuna de la familia Slim (1994-2024).pdf
Evolución de la fortuna de la familia Slim (1994-2024).pdf
 
6.3 Hidrologia Geomorfologia Cuenca.pptx
6.3 Hidrologia Geomorfologia Cuenca.pptx6.3 Hidrologia Geomorfologia Cuenca.pptx
6.3 Hidrologia Geomorfologia Cuenca.pptx
 
metodo SOAP utilizado para evaluar el estado de un paciente
metodo SOAP utilizado para evaluar el estado de un pacientemetodo SOAP utilizado para evaluar el estado de un paciente
metodo SOAP utilizado para evaluar el estado de un paciente
 
CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptx
CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptxCUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptx
CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptx
 
Los idiomas más hablados en el mundo (2024).pdf
Los idiomas más hablados en el mundo  (2024).pdfLos idiomas más hablados en el mundo  (2024).pdf
Los idiomas más hablados en el mundo (2024).pdf
 
Los primeros 60 países por IDH en el año (2024).pdf
Los primeros 60 países por IDH en el año (2024).pdfLos primeros 60 países por IDH en el año (2024).pdf
Los primeros 60 países por IDH en el año (2024).pdf
 
AMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docx
AMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docxAMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docx
AMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docx
 
Las familias más ricas de África en el año (2024).pdf
Las familias más ricas de África en el año (2024).pdfLas familias más ricas de África en el año (2024).pdf
Las familias más ricas de África en el año (2024).pdf
 
Principales Retos Demográficos de Puerto Rico
Principales Retos Demográficos de Puerto RicoPrincipales Retos Demográficos de Puerto Rico
Principales Retos Demográficos de Puerto Rico
 
diseño de una linea de produccion de jabon liquido.pptx
diseño de una linea de produccion de jabon liquido.pptxdiseño de una linea de produccion de jabon liquido.pptx
diseño de una linea de produccion de jabon liquido.pptx
 

Periodismo de Datos y Visualización con herramientas Open Source

  • 1. Trucos en el procesamiento y análisis de datos con Open Source Ignacio Bustillo @IgnacioBustillo info@stratebi.com
  • 2.
  • 3.
  • 4. Business Analytics Cómo hacer menos tonta la empresa
  • 10. Lo esencial al analizar la información
  • 11. Análisis eficiente de datos Data Warehouse – Almacén de datos Repositorio centralizado de datos. Permite correlacionar indicadores y velocidad en consultas
  • 13. Análisis eficiente de datos Transaccional DW Orientados a software Orientados a temas Utilizados para el funcionamiento del negocio Utilizados para analizar negocio Usados por empleados comunes Usados por ejecutivos y analistas Contiene datos detallados Contiene datos resumidos y refinados Contiene datos aislados Contiene datos integrados Acceso repetitivo y transac. pequeñas Acceso a medida con consultas complejas No hay redundancia (3FN) Se prima la rapidez al tamaño en disco
  • 17. Análisis eficiente de datos HECHOS • Responden a la pregunta ¿Qué queremos medir? • Euros gastados, ventas, edad, unidades, coste, litros, kilos…. • Se agrupan en una tabla: La tabla de hechos o Fact Table: • Tabla central en un modelo multidimensional. • Almacena datos numéricos e indicadores clave (PKIs) • Están almacenados a un determinado nivel de detalle. • La mayoría de las veces, contiene hechos aditivos. • Las tablas de hechos tienden a crecen a “lo alto” Clave del Producto Clave de la tienda Clave del Tiempo Euros Unidades 1 2 12 300 5 1 7 3 1000 7 2 9 5 227 2
  • 18. Análisis eficiente de datos DIMENSIONES • Responden a la pregunta ¿Desde que puntos de vista quieres analizar los hechos? Por Mes o Año, Ciudad, Sede, Partida, Tipo de cliente … • Contienen los descriptores textuales de los hechos. • Están contenidas en tablas, cada dimensión en una tabla • Las tablas de dimensión tienden a crecen a “lo ancho” Clave_mes Mes 1 Enero 2 Febrero Producto Clave_producto 1 Libros 2 DVD Tienda Clave_tienda 7 Sevilla 2 Córdoba
  • 21. Canalizando los datos Herramientas de Extracción, Transformación y Carga (Load) ETL
  • 27.
  • 28.
  • 29.
  • 30.
  • 31.
  • 32.
  • 33.
  • 34.
  • 35. Herramientas ETL Problemas que surgen: ¿Sabemos programar? SQL? Javascript? Java? Python? Php? ¿Tenemos paciencia? …De procesar tantas miles de filas a mano…. …De procesar tantos archivos a mano… ¿Qué significan los datos? ¿Sabemos usar todas las tecnologías? …Parseo JSON… …Lectura XLS…
  • 36.
  • 38. PENTAHO DATA INTEGRATION ¿Qué es Pentaho Data Integration? • PDI es un set de herramientas, que permite diseñar ETLs, mediante transformaciones y trabajos que pueden ser ejecutadas por las herramientas de Spoon, Pan y Kitchen. Antes se le conocía con el nombre de Kettle. •Spoon interfaz gráfica para diseño de trasformaciones y trabajos ETL. •Pan es un motor capaz de ejecutar múltiples transformaciones de datos como leer, manipular y escribir desde y en distintos orígenes de datos. •Kitchen es un programa que ejecuta los trabajos diseñados por Spoon. Normalmente estos trabajos son planificados en modo batch para ejecutar automáticamente a periodos regulares (crontab -e).
  • 39. PENTAHO DATA INTEGRATION Características y beneficios • Permite trabajar con un repositorio en Base de Datos o en Ficheros. • Su interfaz gráfica te permitirá crear de transformaciones y trabajos de manera intuitiva mediante pasos modulares ya creados, conexiones con múltiples fuentes, etc... • Distribución y combinación de diferentes fuentes, en diferentes hosts. • Interfaz SQL y generador de código automático. • Crear cálculos de una manera muy sencilla. • Define qué quieres hacer, no como quieres hacerlo. • Genera código XML y Java. • Instalación sencilla – sólo extraer los ficheros, aplicación Java. (ojo con la versión java -version) • Fácil de mantener, con alto rendimiento y escalabilidad. • Es posible parametrizar bastantes configuraciones (directorios, conexiones, mail). • Posee una arquitectura de Plug-in que te permitirá expandir sus funcionalidades.
  • 40. PENTAHO DATA INTEGRATION Spoon • Menú principal (rojo) • Pestaña vista (verde) • Pestaña design (azul) • Menú iconos (amarillo) • Zona de Trabajo
  • 41. PENTAHO DATA INTEGRATION Pestañas • Pestaña Vista (View): • Orígenes de Datos. • Pasos • Saltos • Esquemas • Servidores Esclavos • Esquemas en Cluster. • Pestaña Diseño (Design): • Entrada • Salida • Búsqueda • Transformar • Uniones • Scripting • Data Warehouse • Mapeado • Trabajo • Embebido • Experimental
  • 42. PENTAHO DATA INTEGRATION Menú de Iconos Icono Descripción Crear un nuevo trabajo o transformación o CNTRL - N Abrir un trabajo/transformación de un fichero o del repositorio si estas conectado a él. Guardar el trabajo/transformación a un fichero o al repositorio Guardar el trabajo/transformación con un nombre distinto. Abrir la ventana de impresora. Ejecutar el trabajo/transformación: ejecuta la transformación actual desde el fichero XML o el repositorio. Previsualizar la transformación: ejecuta la transformación actual desde memoria. Puedes previsualizar las filas producidas por el paso seleccionado Ejecutar la transformación en modo de pruebas permitiéndote la solución de errores de ejecución. Repetir el proceso de una transformación para una cierta fecha y hora. Esto causará que ciertos pasos (TextFile Input y Excel Input) sólo procesarán las filas que fallaron para ser interpretadas correctamente a esa fecha y hora particular. Ejecutar un análisis de impacto: que impacto tiene la transformación en la base de datos usada. Generar el SQL que es necesario para ejecutar la transformación. Lanza el explorador de la base de datos permitiéndote previsualizar los datos, ejecutar consultas SQL, generar DDL y más.
  • 43. PENTAHO DATA INTEGRATION Componentes de PDI (I) • Los procesos ETL se dividen en dos componentes principales: • Transformaciones (.ktr): es el conjunto de pasos básicos que componen el nivel más bajo de una ETL. • Trabajos (.kjb): es un conjunto de pasos, trabajos y transformaciones.
  • 44. PENTAHO DATA INTEGRATION Componentes de PDI (II) • Transformaciones: • Paso: son los elementos atómicos de PDI y cada uno realiza una transformación en el flujo de datos. (Leer datos, escribir en BBDD, crear cálculos, añadir constantes, ....) • Salto: es la representación gráfica del flujo de datos entre 2 pasos.
  • 45. PENTAHO DATA INTEGRATION Componentes de PDI (III) • Trabajos: • Paso: son los elementos atómicos de PDI y cada uno realiza una trabajo. (No modifican el flujo de datos) • Salto: representa el orden de ejecución de transformaciones y trabajos. • Trabajo y Transformación: dentro de un trabajo podemos incluir llamadas a otras transformaciones y/o trabajos para que sean ejecutadas. • Un trabajo procesa todos los registros antes de continuar, en cambio, una transformación es un flujo de datos continuo de manera que los registros avanzan por los pasos según llegan.
  • 46.
  • 48. PASO 1: Download & Instalación http://sourceforge.net/projects/pentaho/files/Data Integration/
  • 49.
  • 55. Generar Nombres aleatorios 1) Generar 10 filas 2) Generar aleatorios 3) Filtrar salida 4) Exportar Excel
  • 56. Estadísticas de Paro 1) Abrir csv 2) Seleccionar valores 3) Agrupaciones 4) Pintar
  • 59. EJERCICIO 2 1) Abrir Excel 1 y 2 2) Cruzar Excels 3) Agrupaciones 4) Pintar Excel con índices de innovación por países Maestro paises EN y ES +
  • 62. Comentarios Twitter #jdp14 1) Parsear JSON de monitorización #jpd14 2) Pintar