SlideShare ist ein Scribd-Unternehmen logo
1 von 21
Downloaden Sie, um offline zu lesen
Ing. Rubén Obando
www.datalytics.com   Integración de Datos sin límites con Pentaho
Un día en la oficina…

                               Qué nuevas geografías
                               deberíamos incluir en
    Cuán efectivo son        nuestro objetivo de venta?
                                                          Cuántos de nuestros
   nuestras campañas                                      clientes migrarían a
      de MKT? Cuál                                         la competencia en
   debería continuar?                                       caso subamos el
                                                              precio un X%?



     Cuál es la
  rentabilidad del                                          Dónde están
    producto X?                                           nuestros clientes
                                                           más rentables?
                        Nuestras ventas presentan
                             estacionalidad?
El problema de la falta de integración
   Islas de información: datos dispersos en diferentes áreas, sistemas, arquitecturas.
    Imposibilidad de cruzar datos de diferentes sistemas. Visión incompleta.
   Pareto invertido: los analistas pasan mucho tiempo recolectando y procesando
    información, en lugar de analizarla.
   Variedad y diversidad: aumentan las fuentes de información: no sólo bases de datos y
    hojas de cálculo. Se sumaron redes sociales, sistemas en la nube, etc.
   BIG DATA: la información se está duplicando cada 2 años, y el 80% son datos no
    estructurados.
   Pobre calidad de datos: en general los datos de los sistemas transaccionales presentan
    vicios e inconsistencias, producto de errores de carga, malfuncionamiento, etc.
   Falta de una única versión de la verdad: multiplicidad de criterios y terminología. Por
    ejemplo: dos áreas distintas informan diferentes valores para un mismo KPI.
En resumen…
        Datos     Analistas

VSAM
MQSeries
AS/400


DB2 UDB
Informix
Oracle
Microsoft
...
Siebel
PeopleSoft
SAP R/3
XML


Archivos Planos
FTP



Web Logs
Data Integration (ETL)
   La integración de datos es la práctica que consiste en recolectar los datos de diversas
    fuentes, cruzarlos, enriquecerlos, consolidarlos y cargarlos en un Data Warehouse.
   El nombre ETL viene del acrónimo en Inglés Extract, Transform & Load.
        Extract: de los diversos sistemas transaccionales y fuentes.
        Transform: transformar los datos, cruzarlos, enriquecerlos, etc.
        Load: cargar la información en un repositorio centralizado.
   Las herramientas de ETL son herramientas visuales orientadas a Drag & Drop y zero-
    coding, lo que se traduce en mayor productividad del equipo de desarrollo, menor time-
    to-value y un mantenimiento más sencillo.
   La herramienta de ETL debe poder conectarse a diversas fuentes y diversas arquitecturas.
   Los datos en los sistemas fuente suelen tener errores e inconsistencias, por lo cual se suele
    aplicar en esta etapa procesos de validación y limpieza (Data Quality).
   Los procesos ETL generalmente se ejecutan por la noche, para no sobrecargar los sistemas
    transaccionales con pesadas consultas.
La evolución de SQL a ETL


                            Por que hacer esto?
La evolución de SQL a ETL




                            … cuando podríamos hacer
                                    esto???
Donde encaja el ETL?

 ETL
  VSAM
  MQSeries
  AS/400
                                                                Pentaho,
                                                                Oracle/Hyperion,
                                                                Microstrategy,
  DB2 UDB
                                                                SAS, Etc.
  Informix
  Oracle            Extract
  Microsoft         Transform
  ...               Clean
  Siebel            Load
  PeopleSoft
                                                 DW
                      Datastage       ODS                 Data Mart
  SAP R/3
                      Informatica
  XML                               Oracle
                      Oracle DI
                      Pentaho DI    IBM DB2
                      SAS DIS       SQL Server
  Archivos Planos
                      Etc.          Teradata
  FTP
                                    Sybase IQ
                                    Etc.
                                                      SAS, SPSS,
  Web Logs                                            Rapid Miner
Pentaho Data Integration
   Permite tomar información de
    diferentes fuentes, consolidarla y
    cargarla en un repositorio analítico.
   Su entorno de trabajo visual y drag &
    drop se traduce en un menor tiempo de
    desarrollo y un mantenimiento más
    sencillo y agilidad para incorporar
    nuevas fuentes de información e
    indicadores.
   Plug-in de Agile BI:
       Data Discovery:
        Análisis y visualización de información en
        tiempo real
       Data Modeling:
        Modelado y publicación de cubos OLAP
        para prototipado y validación de
        requerimientos
Pentaho Data Integration
   + de 150 steps para manipulación, enriquecimiento de datos y generación de reportes.
   Repositorio integrado: control de versiones para trabajo colaborativo y scheduling de
    procesos.
   Conectividad nativa contra:
       Típicas: SQL Server, Oracle, DB2, Teradata, Sybase IQ, SAP, MySQL, PostgreSQL, etc.
       No tan típicas: AS/400, Hadoop, LDAP/Active Directory, SalesForce, Google Analytics, etc.
   Nuevos Features:
       Soporte para MongoDB, Cassandra, Hbase.
       Capacidad de ejecución de jobs Map/Reduce (Hadoop) y acceso a archivos en Hadoop.
       ElasticSearch.
       Archivos HL7.
       Capacidad de documentación automática.
       Cliente REST.
       Etc…
Usos comunes de PDI
   Carga de Data warehouse y Data Marts:
        Soporte para slowly changing dimensions, cargas bulk,
         merge, sincronización y otros conceptos de Data
         Warehousing
   Exports de bases de datos a archivos planos, XML u otras
    bases de datos.
   Import de datos a bases de datos, desde diversas fuentes
    como archivos planos, hojas de Excel, datos alojados en
    la nube, etc.
   Migración de datos de sistemas Legacy.
   Exploración de datos de diversas fuentes.
   Enriquecimiento de datos mediante la integración de
    diversas fuentes.
   Procesos de Data Quality y Data Cleansing mediante
    transformación de datos.
Usos comunes de PDI (continuación)
   Generación de reportes batch.
   Envío de alertas vía e-mail.
   Integración de aplicaciones (middleware).
   Implementación de procesos a nivel SO (transferencia de
    archivos, limpieza de file system, etc.).
Pentaho Data Integration Server
   Repositorio Enterprise:
       Versionador
       Seguridad y control de acceso
       Almacenamiento
       Scheduling
   Data Integration Web Console:
       Ejecución y monitoreo
       Gestión de procesos
       Análisis de performance, trends, históricos.
       Configuración de umbrales de alerta
   Steps exclusivos:
       Google Docs
       Google Analytics
   Full Agile BI Plug-in
Soporte para BIG DATA
         Hadoop
             MPP storage & processing
             High-availability
             Any data type

         NoSQL (no relacionales)
             Non-relational, flexible
             Low-cost
             High-performance

         Bases de datos analíticas
             Relational
             High-performance load & query
             Tecnologías:
               • Columnar, MPP, in-memory, DW appliances,
                 OLAP databases
Reconocimiento de analistas
   Pentaho Data Integration esta siendo reconocido por los analistas como uno de los
    jugadores de peso en materia de BIG DATA con su herramienta de integración.




             Fuente: Forrester Wave™, Soluciones Hadoop empresariales, 1.er trimestre de 2012
Agile BI para prototipos de BI
   Facilidades para prototipos OLAP, Data Profiling y visualización de datos desde la propia
    herramienta de ETL.
Data Discovery / Visualization
Data Discovery / Visualization
Por qué Pentaho Data Integration?
   Facilidad de uso:
        Orientada a metadatos (definir que queremos hacer, y no como hacerlo).
        Menos código implica menos complejidad y menor tiempo de desarrollo.
        Seteo sencillo, interfaz gráfica intuitiva y fácil de mantener.
   Basada en arquitectura moderna:
        100% Java y multi-plataforma (Windows, Linux, Unix, Mac OS).
        Soporte para múltiples sistemas de datos de manera nativa.
        Procesamiento en paralelo, performance y escalabilidad.
        +150 steps predefinidos para diversas operaciones.
   Bajo costo de ownership:
        Try & Buy (versión Enterprise Edition).
        Ciclos de implementación cortos.
        Costos de mantenimiento reducido.
        Modelo de suscripción anual (versión Enterprise Edition).
Prueba de Concepto
   Clientes      Proveedores      Tiempo   Geografía   Productos

Punto de Venta




Presupuesto      Ventas        Compras
Muchas Gracias!

Weitere ähnliche Inhalte

Was ist angesagt?

Introduccion bases de datos
Introduccion bases de datosIntroduccion bases de datos
Introduccion bases de datosUTN
 
Data quality architecture
Data quality architectureData quality architecture
Data quality architectureanicewick
 
Introducción Base de Datos
Introducción  Base de Datos Introducción  Base de Datos
Introducción Base de Datos Kleber Alban
 
Bechtel Customer Presentation
Bechtel Customer PresentationBechtel Customer Presentation
Bechtel Customer PresentationSplunk
 
Internet of Things (IoT) - Trends, Challenges and Opportunities
Internet of Things (IoT) - Trends, Challenges and OpportunitiesInternet of Things (IoT) - Trends, Challenges and Opportunities
Internet of Things (IoT) - Trends, Challenges and OpportunitiesDr. Mazlan Abbas
 
Mineria de Datos
Mineria de DatosMineria de Datos
Mineria de Datos04071977
 
Logical Data Fabric: Architectural Components
Logical Data Fabric: Architectural ComponentsLogical Data Fabric: Architectural Components
Logical Data Fabric: Architectural ComponentsDenodo
 
How to Strengthen Enterprise Data Governance with Data Quality
How to Strengthen Enterprise Data Governance with Data QualityHow to Strengthen Enterprise Data Governance with Data Quality
How to Strengthen Enterprise Data Governance with Data QualityDATAVERSITY
 
Democratizing Data Quality Through a Centralized Platform
Democratizing Data Quality Through a Centralized PlatformDemocratizing Data Quality Through a Centralized Platform
Democratizing Data Quality Through a Centralized PlatformDatabricks
 
The Evolving Role of the Data Architect – What Does It Mean for Your Career?
The Evolving Role of the Data Architect – What Does It Mean for Your Career?The Evolving Role of the Data Architect – What Does It Mean for Your Career?
The Evolving Role of the Data Architect – What Does It Mean for Your Career?DATAVERSITY
 
Herramientas de visualización de datos
Herramientas de visualización de datosHerramientas de visualización de datos
Herramientas de visualización de datosBBVA API Market
 
Introducción a TOGAF para el desarrollo de Enterprise Architecture
Introducción a TOGAF para el desarrollo de Enterprise ArchitectureIntroducción a TOGAF para el desarrollo de Enterprise Architecture
Introducción a TOGAF para el desarrollo de Enterprise Architecturenetmind
 
Tendencia a futuro de las bases de datos
Tendencia a futuro de las bases de datosTendencia a futuro de las bases de datos
Tendencia a futuro de las bases de datosLeo Brand
 
Data Quality Rules introduction
Data Quality Rules introductionData Quality Rules introduction
Data Quality Rules introductiondatatovalue
 

Was ist angesagt? (20)

Introduccion bases de datos
Introduccion bases de datosIntroduccion bases de datos
Introduccion bases de datos
 
Data quality architecture
Data quality architectureData quality architecture
Data quality architecture
 
Business Intelligence.pptx
Business Intelligence.pptxBusiness Intelligence.pptx
Business Intelligence.pptx
 
Introducción Base de Datos
Introducción  Base de Datos Introducción  Base de Datos
Introducción Base de Datos
 
Bechtel Customer Presentation
Bechtel Customer PresentationBechtel Customer Presentation
Bechtel Customer Presentation
 
Internet of Things (IoT) - Trends, Challenges and Opportunities
Internet of Things (IoT) - Trends, Challenges and OpportunitiesInternet of Things (IoT) - Trends, Challenges and Opportunities
Internet of Things (IoT) - Trends, Challenges and Opportunities
 
Mineria de Datos
Mineria de DatosMineria de Datos
Mineria de Datos
 
Guía power bi
Guía   power biGuía   power bi
Guía power bi
 
Logical Data Fabric: Architectural Components
Logical Data Fabric: Architectural ComponentsLogical Data Fabric: Architectural Components
Logical Data Fabric: Architectural Components
 
Data monetization pov
Data monetization   povData monetization   pov
Data monetization pov
 
How to Strengthen Enterprise Data Governance with Data Quality
How to Strengthen Enterprise Data Governance with Data QualityHow to Strengthen Enterprise Data Governance with Data Quality
How to Strengthen Enterprise Data Governance with Data Quality
 
Democratizing Data Quality Through a Centralized Platform
Democratizing Data Quality Through a Centralized PlatformDemocratizing Data Quality Through a Centralized Platform
Democratizing Data Quality Through a Centralized Platform
 
The Evolving Role of the Data Architect – What Does It Mean for Your Career?
The Evolving Role of the Data Architect – What Does It Mean for Your Career?The Evolving Role of the Data Architect – What Does It Mean for Your Career?
The Evolving Role of the Data Architect – What Does It Mean for Your Career?
 
Herramientas de visualización de datos
Herramientas de visualización de datosHerramientas de visualización de datos
Herramientas de visualización de datos
 
Introducción a TOGAF para el desarrollo de Enterprise Architecture
Introducción a TOGAF para el desarrollo de Enterprise ArchitectureIntroducción a TOGAF para el desarrollo de Enterprise Architecture
Introducción a TOGAF para el desarrollo de Enterprise Architecture
 
Pentaho
PentahoPentaho
Pentaho
 
Tendencia a futuro de las bases de datos
Tendencia a futuro de las bases de datosTendencia a futuro de las bases de datos
Tendencia a futuro de las bases de datos
 
Gobierno TI
Gobierno TIGobierno TI
Gobierno TI
 
Data Quality Rules introduction
Data Quality Rules introductionData Quality Rules introduction
Data Quality Rules introduction
 
Data engineering
Data engineeringData engineering
Data engineering
 

Andere mochten auch

Comparativa herramientas ETL
Comparativa herramientas ETLComparativa herramientas ETL
Comparativa herramientas ETLJorge Bustillos
 
Aplicaciones de BI con Pentaho
Aplicaciones de BI con PentahoAplicaciones de BI con Pentaho
Aplicaciones de BI con PentahoDatalytics
 
Integración de datos de multiples origenes con data explorer
Integración de datos de multiples origenes con data explorerIntegración de datos de multiples origenes con data explorer
Integración de datos de multiples origenes con data explorerJohn Bulla
 
Pentaho Data Integration: Extrayendo, integrando, normalizando y preparando m...
Pentaho Data Integration: Extrayendo, integrando, normalizando y preparando m...Pentaho Data Integration: Extrayendo, integrando, normalizando y preparando m...
Pentaho Data Integration: Extrayendo, integrando, normalizando y preparando m...Alex Rayón Jerez
 
Enterprise Social Media
Enterprise Social MediaEnterprise Social Media
Enterprise Social MediaWeb2Present
 
Abertura: hackeando o governo em rede
Abertura: hackeando o governo em redeAbertura: hackeando o governo em rede
Abertura: hackeando o governo em redenitaibezerra
 
Pentaho OSBI - Consorcio SIU
Pentaho OSBI - Consorcio SIUPentaho OSBI - Consorcio SIU
Pentaho OSBI - Consorcio SIUMarcos Pierri
 
Manual de instalación de pentaho para windows 7
Manual de instalación de pentaho para windows 7Manual de instalación de pentaho para windows 7
Manual de instalación de pentaho para windows 7German Pinchao
 
Introducción al BI con pentaho
Introducción al BI con pentahoIntroducción al BI con pentaho
Introducción al BI con pentahoIván Ruiz-Rube
 
Charla Pentaho - UTN
Charla Pentaho - UTNCharla Pentaho - UTN
Charla Pentaho - UTNDatalytics
 
Elementos ETL - Kettle Pentaho
Elementos ETL - Kettle Pentaho Elementos ETL - Kettle Pentaho
Elementos ETL - Kettle Pentaho valex_haro
 
Procesamiento de datos
Procesamiento de datosProcesamiento de datos
Procesamiento de datoslady
 
Kettle: Pentaho Data Integration tool
Kettle: Pentaho Data Integration toolKettle: Pentaho Data Integration tool
Kettle: Pentaho Data Integration toolAlex Rayón Jerez
 
Pentaho Data Integration Introduction
Pentaho Data Integration IntroductionPentaho Data Integration Introduction
Pentaho Data Integration Introductionmattcasters
 
Overview sap bo girona nib efimatica
Overview sap bo girona nib efimaticaOverview sap bo girona nib efimatica
Overview sap bo girona nib efimaticaEfimatica
 
Informatica Pentaho Etl Tools Comparison
Informatica Pentaho Etl Tools ComparisonInformatica Pentaho Etl Tools Comparison
Informatica Pentaho Etl Tools ComparisonRoberto Espinosa
 

Andere mochten auch (20)

Comparativa herramientas ETL
Comparativa herramientas ETLComparativa herramientas ETL
Comparativa herramientas ETL
 
Porque Pentaho ?
Porque Pentaho ?Porque Pentaho ?
Porque Pentaho ?
 
Aplicaciones de BI con Pentaho
Aplicaciones de BI con PentahoAplicaciones de BI con Pentaho
Aplicaciones de BI con Pentaho
 
Integración de datos de multiples origenes con data explorer
Integración de datos de multiples origenes con data explorerIntegración de datos de multiples origenes con data explorer
Integración de datos de multiples origenes con data explorer
 
Pentaho Data Integration: Extrayendo, integrando, normalizando y preparando m...
Pentaho Data Integration: Extrayendo, integrando, normalizando y preparando m...Pentaho Data Integration: Extrayendo, integrando, normalizando y preparando m...
Pentaho Data Integration: Extrayendo, integrando, normalizando y preparando m...
 
Enterprise Social Media
Enterprise Social MediaEnterprise Social Media
Enterprise Social Media
 
Abertura: hackeando o governo em rede
Abertura: hackeando o governo em redeAbertura: hackeando o governo em rede
Abertura: hackeando o governo em rede
 
Pentaho OSBI - Consorcio SIU
Pentaho OSBI - Consorcio SIUPentaho OSBI - Consorcio SIU
Pentaho OSBI - Consorcio SIU
 
Manual de instalación de pentaho para windows 7
Manual de instalación de pentaho para windows 7Manual de instalación de pentaho para windows 7
Manual de instalación de pentaho para windows 7
 
Introducción al BI con pentaho
Introducción al BI con pentahoIntroducción al BI con pentaho
Introducción al BI con pentaho
 
Charla Pentaho - UTN
Charla Pentaho - UTNCharla Pentaho - UTN
Charla Pentaho - UTN
 
Elementos ETL - Kettle Pentaho
Elementos ETL - Kettle Pentaho Elementos ETL - Kettle Pentaho
Elementos ETL - Kettle Pentaho
 
Procesamiento de datos
Procesamiento de datosProcesamiento de datos
Procesamiento de datos
 
Competidores y productos de mercado de ETL
Competidores y productos de mercado de ETLCompetidores y productos de mercado de ETL
Competidores y productos de mercado de ETL
 
Kettle: Pentaho Data Integration tool
Kettle: Pentaho Data Integration toolKettle: Pentaho Data Integration tool
Kettle: Pentaho Data Integration tool
 
Pentaho Data Integration Introduction
Pentaho Data Integration IntroductionPentaho Data Integration Introduction
Pentaho Data Integration Introduction
 
Overview sap bo girona nib efimatica
Overview sap bo girona nib efimaticaOverview sap bo girona nib efimatica
Overview sap bo girona nib efimatica
 
Informatica Pentaho Etl Tools Comparison
Informatica Pentaho Etl Tools ComparisonInformatica Pentaho Etl Tools Comparison
Informatica Pentaho Etl Tools Comparison
 
Introduction To Pentaho
Introduction To PentahoIntroduction To Pentaho
Introduction To Pentaho
 
Introduction to ETL and Data Integration
Introduction to ETL and Data IntegrationIntroduction to ETL and Data Integration
Introduction to ETL and Data Integration
 

Ähnlich wie Integración de Datos sin límites con Pentaho

JASPERSOFT REPORTERÍA INTEGRADA IT-NOVA.pptx
JASPERSOFT REPORTERÍA INTEGRADA IT-NOVA.pptxJASPERSOFT REPORTERÍA INTEGRADA IT-NOVA.pptx
JASPERSOFT REPORTERÍA INTEGRADA IT-NOVA.pptxIT-NOVA
 
Big Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasBig Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasJoseph Lopez
 
Datawarehouse
DatawarehouseDatawarehouse
Datawarehouseshady85
 
Data lake y virtualización. Ejes para una arquitectura abierta en big data v6
Data lake y virtualización. Ejes para una arquitectura abierta en big data v6Data lake y virtualización. Ejes para una arquitectura abierta en big data v6
Data lake y virtualización. Ejes para una arquitectura abierta en big data v6Dell EMC
 
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...Denodo
 
Big Data - Infraestrucutra de BI para soluciones de BI
Big Data - Infraestrucutra de BI para soluciones de BIBig Data - Infraestrucutra de BI para soluciones de BI
Big Data - Infraestrucutra de BI para soluciones de BIDatalytics
 
Analítica nueva generacion y BD aplicado a los sistemas informacionales
Analítica nueva generacion y BD aplicado a los sistemas informacionalesAnalítica nueva generacion y BD aplicado a los sistemas informacionales
Analítica nueva generacion y BD aplicado a los sistemas informacionalesBEEVA_es
 
Charla sql server 2012 cibertec BI
Charla sql server 2012 cibertec BICharla sql server 2012 cibertec BI
Charla sql server 2012 cibertec BIdbLearner
 
3 formas disponibilizar y acceder rápidamente a tus datos
3 formas disponibilizar y acceder rápidamente a tus datos3 formas disponibilizar y acceder rápidamente a tus datos
3 formas disponibilizar y acceder rápidamente a tus datosIT-NOVA
 
SolidQ Business Analytics Day | Una nueva plataforma de gestión de informació...
SolidQ Business Analytics Day | Una nueva plataforma de gestión de informació...SolidQ Business Analytics Day | Una nueva plataforma de gestión de informació...
SolidQ Business Analytics Day | Una nueva plataforma de gestión de informació...SolidQ
 
Diferencias entre TIBCO Jaspersoft comunidad vs comercial
Diferencias entre TIBCO Jaspersoft comunidad vs comercialDiferencias entre TIBCO Jaspersoft comunidad vs comercial
Diferencias entre TIBCO Jaspersoft comunidad vs comercialIT-NOVA
 
Análisis de datos con HD Insight
Análisis de datos con HD InsightAnálisis de datos con HD Insight
Análisis de datos con HD InsightEduardo Castro
 
SQL Denali Microsoft BI Raona
SQL Denali Microsoft BI RaonaSQL Denali Microsoft BI Raona
SQL Denali Microsoft BI RaonaRaona
 
Text Mining con R en SQL Server 2016
Text Mining con R en SQL Server 2016Text Mining con R en SQL Server 2016
Text Mining con R en SQL Server 2016jorge Muchaypiña
 
Industria 4.0 2017 - Almacenamiento y procesamiento de datos en la nube
Industria 4.0 2017 - Almacenamiento y procesamiento de datos en la nubeIndustria 4.0 2017 - Almacenamiento y procesamiento de datos en la nube
Industria 4.0 2017 - Almacenamiento y procesamiento de datos en la nubeRodrigo Corral
 
Inteligencia de negocio en la nube, una realidad palpable!!!
Inteligencia de negocio en la nube, una realidad palpable!!!Inteligencia de negocio en la nube, una realidad palpable!!!
Inteligencia de negocio en la nube, una realidad palpable!!!Joseph Lopez
 

Ähnlich wie Integración de Datos sin límites con Pentaho (20)

JASPERSOFT REPORTERÍA INTEGRADA IT-NOVA.pptx
JASPERSOFT REPORTERÍA INTEGRADA IT-NOVA.pptxJASPERSOFT REPORTERÍA INTEGRADA IT-NOVA.pptx
JASPERSOFT REPORTERÍA INTEGRADA IT-NOVA.pptx
 
Business Analytics 101
Business Analytics 101Business Analytics 101
Business Analytics 101
 
Big Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasBig Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivas
 
Datawarehouse
DatawarehouseDatawarehouse
Datawarehouse
 
CASO PRACTICO 2.pptx
CASO PRACTICO 2.pptxCASO PRACTICO 2.pptx
CASO PRACTICO 2.pptx
 
Data lake y virtualización. Ejes para una arquitectura abierta en big data v6
Data lake y virtualización. Ejes para una arquitectura abierta en big data v6Data lake y virtualización. Ejes para una arquitectura abierta en big data v6
Data lake y virtualización. Ejes para una arquitectura abierta en big data v6
 
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
 
Big Data - Infraestrucutra de BI para soluciones de BI
Big Data - Infraestrucutra de BI para soluciones de BIBig Data - Infraestrucutra de BI para soluciones de BI
Big Data - Infraestrucutra de BI para soluciones de BI
 
Analítica nueva generacion y BD aplicado a los sistemas informacionales
Analítica nueva generacion y BD aplicado a los sistemas informacionalesAnalítica nueva generacion y BD aplicado a los sistemas informacionales
Analítica nueva generacion y BD aplicado a los sistemas informacionales
 
Charla sql server 2012 cibertec BI
Charla sql server 2012 cibertec BICharla sql server 2012 cibertec BI
Charla sql server 2012 cibertec BI
 
Querona
QueronaQuerona
Querona
 
3 formas disponibilizar y acceder rápidamente a tus datos
3 formas disponibilizar y acceder rápidamente a tus datos3 formas disponibilizar y acceder rápidamente a tus datos
3 formas disponibilizar y acceder rápidamente a tus datos
 
SolidQ Business Analytics Day | Una nueva plataforma de gestión de informació...
SolidQ Business Analytics Day | Una nueva plataforma de gestión de informació...SolidQ Business Analytics Day | Una nueva plataforma de gestión de informació...
SolidQ Business Analytics Day | Una nueva plataforma de gestión de informació...
 
Diferencias entre TIBCO Jaspersoft comunidad vs comercial
Diferencias entre TIBCO Jaspersoft comunidad vs comercialDiferencias entre TIBCO Jaspersoft comunidad vs comercial
Diferencias entre TIBCO Jaspersoft comunidad vs comercial
 
Análisis de datos con HD Insight
Análisis de datos con HD InsightAnálisis de datos con HD Insight
Análisis de datos con HD Insight
 
SQL Denali Microsoft BI Raona
SQL Denali Microsoft BI RaonaSQL Denali Microsoft BI Raona
SQL Denali Microsoft BI Raona
 
Text Mining con R en SQL Server 2016
Text Mining con R en SQL Server 2016Text Mining con R en SQL Server 2016
Text Mining con R en SQL Server 2016
 
Industria 4.0 2017 - Almacenamiento y procesamiento de datos en la nube
Industria 4.0 2017 - Almacenamiento y procesamiento de datos en la nubeIndustria 4.0 2017 - Almacenamiento y procesamiento de datos en la nube
Industria 4.0 2017 - Almacenamiento y procesamiento de datos en la nube
 
AWS Summit Lima 2015: Key Note Presentation
AWS Summit Lima 2015: Key Note PresentationAWS Summit Lima 2015: Key Note Presentation
AWS Summit Lima 2015: Key Note Presentation
 
Inteligencia de negocio en la nube, una realidad palpable!!!
Inteligencia de negocio en la nube, una realidad palpable!!!Inteligencia de negocio en la nube, una realidad palpable!!!
Inteligencia de negocio en la nube, una realidad palpable!!!
 

Kürzlich hochgeladen

Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfsoporteupcology
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIAWilbisVega
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafiosFundación YOD YOD
 
9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudianteAndreaHuertas24
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan JosephBRAYANJOSEPHPEREZGOM
 
Hernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxHernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxJOSEMANUELHERNANDEZH11
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)GDGSucre
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...silviayucra2
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveFagnerLisboa3
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesFundación YOD YOD
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricKeyla Dolores Méndez
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxpabonheidy28
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdfIsabellaMontaomurill
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024GiovanniJavierHidalg
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx241521559
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíassuserf18419
 

Kürzlich hochgeladen (16)

Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdf
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafios
 
9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Joseph
 
Hernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxHernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptx
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial Uninove
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento Protégeles
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docx
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdf
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnología
 

Integración de Datos sin límites con Pentaho

  • 1. Ing. Rubén Obando www.datalytics.com Integración de Datos sin límites con Pentaho
  • 2. Un día en la oficina… Qué nuevas geografías deberíamos incluir en Cuán efectivo son nuestro objetivo de venta? Cuántos de nuestros nuestras campañas clientes migrarían a de MKT? Cuál la competencia en debería continuar? caso subamos el precio un X%? Cuál es la rentabilidad del Dónde están producto X? nuestros clientes más rentables? Nuestras ventas presentan estacionalidad?
  • 3. El problema de la falta de integración  Islas de información: datos dispersos en diferentes áreas, sistemas, arquitecturas. Imposibilidad de cruzar datos de diferentes sistemas. Visión incompleta.  Pareto invertido: los analistas pasan mucho tiempo recolectando y procesando información, en lugar de analizarla.  Variedad y diversidad: aumentan las fuentes de información: no sólo bases de datos y hojas de cálculo. Se sumaron redes sociales, sistemas en la nube, etc.  BIG DATA: la información se está duplicando cada 2 años, y el 80% son datos no estructurados.  Pobre calidad de datos: en general los datos de los sistemas transaccionales presentan vicios e inconsistencias, producto de errores de carga, malfuncionamiento, etc.  Falta de una única versión de la verdad: multiplicidad de criterios y terminología. Por ejemplo: dos áreas distintas informan diferentes valores para un mismo KPI.
  • 4. En resumen… Datos Analistas VSAM MQSeries AS/400 DB2 UDB Informix Oracle Microsoft ... Siebel PeopleSoft SAP R/3 XML Archivos Planos FTP Web Logs
  • 5. Data Integration (ETL)  La integración de datos es la práctica que consiste en recolectar los datos de diversas fuentes, cruzarlos, enriquecerlos, consolidarlos y cargarlos en un Data Warehouse.  El nombre ETL viene del acrónimo en Inglés Extract, Transform & Load.  Extract: de los diversos sistemas transaccionales y fuentes.  Transform: transformar los datos, cruzarlos, enriquecerlos, etc.  Load: cargar la información en un repositorio centralizado.  Las herramientas de ETL son herramientas visuales orientadas a Drag & Drop y zero- coding, lo que se traduce en mayor productividad del equipo de desarrollo, menor time- to-value y un mantenimiento más sencillo.  La herramienta de ETL debe poder conectarse a diversas fuentes y diversas arquitecturas.  Los datos en los sistemas fuente suelen tener errores e inconsistencias, por lo cual se suele aplicar en esta etapa procesos de validación y limpieza (Data Quality).  Los procesos ETL generalmente se ejecutan por la noche, para no sobrecargar los sistemas transaccionales con pesadas consultas.
  • 6. La evolución de SQL a ETL Por que hacer esto?
  • 7. La evolución de SQL a ETL … cuando podríamos hacer esto???
  • 8. Donde encaja el ETL? ETL VSAM MQSeries AS/400 Pentaho, Oracle/Hyperion, Microstrategy, DB2 UDB SAS, Etc. Informix Oracle Extract Microsoft Transform ... Clean Siebel Load PeopleSoft DW Datastage ODS Data Mart SAP R/3 Informatica XML Oracle Oracle DI Pentaho DI IBM DB2 SAS DIS SQL Server Archivos Planos Etc. Teradata FTP Sybase IQ Etc. SAS, SPSS, Web Logs Rapid Miner
  • 9. Pentaho Data Integration  Permite tomar información de diferentes fuentes, consolidarla y cargarla en un repositorio analítico.  Su entorno de trabajo visual y drag & drop se traduce en un menor tiempo de desarrollo y un mantenimiento más sencillo y agilidad para incorporar nuevas fuentes de información e indicadores.  Plug-in de Agile BI:  Data Discovery: Análisis y visualización de información en tiempo real  Data Modeling: Modelado y publicación de cubos OLAP para prototipado y validación de requerimientos
  • 10. Pentaho Data Integration  + de 150 steps para manipulación, enriquecimiento de datos y generación de reportes.  Repositorio integrado: control de versiones para trabajo colaborativo y scheduling de procesos.  Conectividad nativa contra:  Típicas: SQL Server, Oracle, DB2, Teradata, Sybase IQ, SAP, MySQL, PostgreSQL, etc.  No tan típicas: AS/400, Hadoop, LDAP/Active Directory, SalesForce, Google Analytics, etc.  Nuevos Features:  Soporte para MongoDB, Cassandra, Hbase.  Capacidad de ejecución de jobs Map/Reduce (Hadoop) y acceso a archivos en Hadoop.  ElasticSearch.  Archivos HL7.  Capacidad de documentación automática.  Cliente REST.  Etc…
  • 11. Usos comunes de PDI  Carga de Data warehouse y Data Marts:  Soporte para slowly changing dimensions, cargas bulk, merge, sincronización y otros conceptos de Data Warehousing  Exports de bases de datos a archivos planos, XML u otras bases de datos.  Import de datos a bases de datos, desde diversas fuentes como archivos planos, hojas de Excel, datos alojados en la nube, etc.  Migración de datos de sistemas Legacy.  Exploración de datos de diversas fuentes.  Enriquecimiento de datos mediante la integración de diversas fuentes.  Procesos de Data Quality y Data Cleansing mediante transformación de datos.
  • 12. Usos comunes de PDI (continuación)  Generación de reportes batch.  Envío de alertas vía e-mail.  Integración de aplicaciones (middleware).  Implementación de procesos a nivel SO (transferencia de archivos, limpieza de file system, etc.).
  • 13. Pentaho Data Integration Server  Repositorio Enterprise:  Versionador  Seguridad y control de acceso  Almacenamiento  Scheduling  Data Integration Web Console:  Ejecución y monitoreo  Gestión de procesos  Análisis de performance, trends, históricos.  Configuración de umbrales de alerta  Steps exclusivos:  Google Docs  Google Analytics  Full Agile BI Plug-in
  • 14. Soporte para BIG DATA  Hadoop  MPP storage & processing  High-availability  Any data type  NoSQL (no relacionales)  Non-relational, flexible  Low-cost  High-performance  Bases de datos analíticas  Relational  High-performance load & query  Tecnologías: • Columnar, MPP, in-memory, DW appliances, OLAP databases
  • 15. Reconocimiento de analistas  Pentaho Data Integration esta siendo reconocido por los analistas como uno de los jugadores de peso en materia de BIG DATA con su herramienta de integración. Fuente: Forrester Wave™, Soluciones Hadoop empresariales, 1.er trimestre de 2012
  • 16. Agile BI para prototipos de BI  Facilidades para prototipos OLAP, Data Profiling y visualización de datos desde la propia herramienta de ETL.
  • 17. Data Discovery / Visualization
  • 18. Data Discovery / Visualization
  • 19. Por qué Pentaho Data Integration?  Facilidad de uso:  Orientada a metadatos (definir que queremos hacer, y no como hacerlo).  Menos código implica menos complejidad y menor tiempo de desarrollo.  Seteo sencillo, interfaz gráfica intuitiva y fácil de mantener.  Basada en arquitectura moderna:  100% Java y multi-plataforma (Windows, Linux, Unix, Mac OS).  Soporte para múltiples sistemas de datos de manera nativa.  Procesamiento en paralelo, performance y escalabilidad.  +150 steps predefinidos para diversas operaciones.  Bajo costo de ownership:  Try & Buy (versión Enterprise Edition).  Ciclos de implementación cortos.  Costos de mantenimiento reducido.  Modelo de suscripción anual (versión Enterprise Edition).
  • 20. Prueba de Concepto Clientes Proveedores Tiempo Geografía Productos Punto de Venta Presupuesto Ventas Compras