SlideShare ist ein Scribd-Unternehmen logo
1 von 44
Downloaden Sie, um offline zu lesen
DATAWAREHOUSE




              Datawarehouse




               Data Warehouse
                   Fundamentos
CARRERA DE
INGENIERÍA
DE SISTEMAS
DATAWAREHOUSE


    Agenda
     ●       Introducción
                –   Problemas
     ●       Data Warehouse.
                –   Características.
                –   Componentes.
                –   Ventajas.
                –   Problemas.
     ●       OLTP vesrsus Data Warehouse.
     ●       Arquitectura de un Data Warehouse
CARRERA DE
INGENIERÍA
DE SISTEMAS
DATAWAREHOUSE


    Agenda
     ●       Data Mart.
     ●       Diseño de un Datawarehouse.
     ●       OLTP y OLAP
                –   Comparación con OLTP versus OLAP.
                –   Herramientas OLAP
                –   Base de Datos OLAP
     ●       DataWarehouse y Data Mining
     ●       OLAPy Data Mining
     ●
CARRERA DE   Conclusiones
INGENIERÍA
DE SISTEMAS
DATAWAREHOUSE


    Introducción
    • La información que se quiere investigar sobre
      un cierto dominio de la organización se
      encuentra en bases de datos y otras fuentes
      muy diversas, tanto internas como externas.
    • Muchas de estas fuentes son las que se utilizan
      para el trabajo diario (bases de datos
      operacionales).



CARRERA DE
INGENIERÍA
DE SISTEMAS
DATAWAREHOUSE


    Introducción
     ●       Sobre estas mismas bases de datos de trabajo
             ya se puede extraer conocimiento (visión
             tradicional).
     ●       Uso de la base de datos transaccional para:
                –   Se mantiene el trabajo transaccional diario de
                     los sistemas de información originales (OLTP,
                     On-Line Transactional Processing).
                –   Se hace análisis de los datos en tiempo real
                     sobre la misma base de datos (OLAP, On-Line
                     Analytical Processing).
CARRERA DE
INGENIERÍA
DE SISTEMAS
DATAWAREHOUSE


    Introducción
     ●       Problemas:
                –   Perturba el trabajo transaccional diario de los
                     sistemas de información originales (“killer
                     queries”). Se debe hacer por la noche o en
                     fines de semana.
                –   La base de datos está diseñada para el
                     trabajo transaccional, no para el análisis de
                     los datos. Generalmente no puede ser en
                     tiempo real (era AP pero no OLAP).


CARRERA DE
INGENIERÍA
DE SISTEMAS
DATAWAREHOUSE


    Introducción
     ●       Se desea operar eficientemente con esos
             datos...
                –   Costes de almacenamiento y conectividad se
                     han reducido en últimos años,
     ●       Parece razonable recoger los datos
             (información histórica) en un sistema
             separado y específico.
                –   Data warehouses (Almacenes o Bodegas de
                     Datos)
                –   Nace Data-Warehousing.
CARRERA DE
INGENIERÍA
DE SISTEMAS
DATAWAREHOUSE


        Data Warehouse
     Repositorio completo de datos de la empresa,
     donde se almacenan datos estratégicos,
     tácticos y operativos, con el objeto de obtener
     información estratégica y táctica.




CARRERA DE
INGENIERÍA
DE SISTEMAS
DATAWAREHOUSE


         Data Warehouse
     ●       El almacén de datos es ahora el “sistema de
             información central” en todo este proceso.
     ●       Un almacén de datos es una colección de
             datos:
                –   orientada a un dominio
                –   integrada
                –   no volátil
                –   variante en el tiempo
     ●       Para ayudar en la toma de decisiones.
CARRERA DE
INGENIERÍA
DE SISTEMAS
DATAWAREHOUSE


    Data Warehouse
                    Almacenes de Datos (AD)    (data warehouse)



                Disponer de Sistemas de Información de apoyo a la
                               toma de decisiones*


   Disponer de bases de datos que permitan extraer conocimiento
      de la información histórica almacenada en la organización



             Análisis de la       Previsiones de         Diseño de
             Organización           evolución            estratégias

             * DSS: Decision Support Systems
CARRERA DE
INGENIERÍA
DE SISTEMAS
Data Warehouse                                          DATAWAREHOUSE




                              Almacenes de datos


              Base de Datos diseñada con un objetivo de
              explotación distinto que el de las bases de
                 datos de los sistemas operacionales.
              Sistema Operacional             BD orientada al
                     (OLTP)                   proceso



              Sistema de Almacén de           BD orientada al
                      Datos                   análisis
                      (DW)


CARRERA DE
INGENIERÍA
DE SISTEMAS
Data Warehouse                                                   DATAWAREHOUSE




                    Almacenes de Datos
                                        definición

              Colección de datos diseñada para dar apoyo a
                   los procesos de toma de decisiones


                                 características


     orientada hacia         integrada             variable en   no volátil
     la información*                                el tiempo
     relevante de la
      organización

  * subject oriented, not process oriented
CARRERA DE
INGENIERÍA
DE SISTEMAS
Data Warehouse                                                                            DATAWAREHOUSE




                                                            Se diseña para consultar eficientemente
    Orientado hacia la
    información                                             información relativa a las actividades
    relevante de la                                         (ventas, compras, producción, ...) básicas
    organización                                            de la organización, no para soportar los
                                                            procesos que se realizan en ella (gestión
                                                            de pedidos, facturación, etc).
                           Base de Datos
                           Transaccional

                                    PAÍS         GAMA
                 CURSO               ...           ...
                     ...
                                       VENTA                                    Información
             REUNION
                                           ...                                   Necesaria
               ...                               PRODUCTO
                           PROTOTIPO                 ...
                              ...




CARRERA DE
INGENIERÍA
DE SISTEMAS
Data Warehouse                                                                                                                     DATAWAREHOUSE




                                                                     Integra datos recogidos de diferentes
              Integrado                                              sistemas operacionales de la
                                                                     organización (y/o fuentes externas).


                                                                                              Fuente de Datos 3
                                                                         Fuente de Datos 1
                                                                                                                    Fuente de Datos 2

                                                                 texto
                                                                                               HTML
              Base de Datos Transaccional 1


                                                                                                 Fuentes Externas

                                              Fuentes Internas




              Base de Datos Transaccional 2


                                                                                        Almacén de Datos



CARRERA DE
INGENIERÍA
DE SISTEMAS
Data Warehouse                                                    DATAWAREHOUSE




                                         Los datos son relativos a un periodo
     Variable en                         de tiempo y deben ser incrementados
     el tiempo                           periódicamente.
              Los datos son almacenados como fotos (snapshots)
              correspondientes a periodos de tiempo.


              Tiempo           Datos

              01/2003 Datos de Enero

              02/2003 Datos de Febrero

              03/2003 Datos de Marzo




CARRERA DE
INGENIERÍA
DE SISTEMAS
Data Warehouse                                                       DATAWAREHOUSE




                                        Los datos almacenados no son
             No volátil                 actualizados, sólo son incrementados.

                                                 Carga


              Bases de datos operacionales                 Almacén de Datos




                  INSERT     READ
                                                               READ
                  UPDATE
                  DELETE
                                    El periodo de tiempo cubierto por un AD
                                    varía entre 2 y 10 años.
CARRERA DE
INGENIERÍA
DE SISTEMAS
Data Warehouse                                       DATAWAREHOUSE




                       Almacenes de Datos

                                 ventajas para las
                                 organizaciones



     Rentabilidad de las   Aumento de la       Aumento de la
         inversiones       competitividad   productividad de los
      realizadas para su    en el mercado   técnicos de dirección
            creación


CARRERA DE
INGENIERÍA
DE SISTEMAS
Data Warehouse                                          DATAWAREHOUSE




                   Almacenes de Datos

                                problemas

                                                   Privacidad de
                                                     los datos
   Infravaloración del
                                            Incremento continuo
    esfuerzo necesario
                                             de los requisitos de
     para su diseño y
                                                  los usuarios
         creación
                         Infravaloración de los recursos
                            necesarios para la captura,
                             transformación carga y
                           almacenamiento de los datos
CARRERA DE
INGENIERÍA
DE SISTEMAS
DATAWAREHOUSE


    OLTP versus Data Warehouse
              Sistema Operacional (OLTP)                          Almacén de datos (DW)
      almacena datos actuales                        almacena datos históricos

      almacena datos de detalle                      almacena datos de detalle

      bases de datos medianas (100Mb-1Gb)            bases de datos grandes (100Gb-1Tb)

      los datos son dinámicos (actualizables)        los datos son estáticos

      los procesos (transacciones) son repetitivos   los procesos no son previsibles

      el número de transacciones es elevado          el número de transacciones es bajo o medio

      tiempo de respuesta pequeño (segundos)         tiempo de respuesta variable (segundos-horas)

      dedicado al procesamiento de transacciones     dedicado al análisis de datos

      orientado a los procesos de la organización    orientado a la información relevante

      soporta decisiones diarias                     soporta decisiones estratégicas

      sirve a muchos usuarios (administrativos)      sirve a técnicos de dirección


CARRERA DE
INGENIERÍA
DE SISTEMAS
DATAWAREHOUSE



             Arquitectura de un Data Warehouse
      • La Arquitectura de un data warehouse viene
        determinada por su situación central como fuente
        de información para las herramientas de análisis.
                                                 Fuentes                                     Herramientas de
                                                 Internas                                      consultas e
                                                                                                 informes

                        Base de Datos
                        Transaccional
                                                                                                 Herramientas
                                                                                                     EIS


                                                                  Almacén de    Interfaz y
                                                            ETL                Operadores
                                                                     Datos
                     Fuente de
                      Datos 1                                                                    Herramientas
             texto                                                                                  OLAP
                                 Fuente de
                                  Datos 3
                                 HTML
                                                                  Copias de
                                                                  Seguridad
                                                                                             Herramientas de
                     Fuente de
                                             Fuentes                                         Minería de Datos
                      Datos
                                             Externas




CARRERA DE
INGENIERÍA
DE SISTEMAS
Arquitectura de un Data Warehouse                            DATAWAREHOUSE




     • Componentes:
             • Sistema ETL (Extraction, Transformation, Load):
               realiza las funciones de extracción de las fuentes
               de datos (transaccionales o externas),
               transformación (limpieza, consolidación, ...) y la
               carga del Data Warehouse, realizando:
               • Extracción de los datos.
               • Filtrado de los datos: limpieza, consolidación, etc.
               • Carga inicial del almacén: ordenación, agregaciones,
                 etc.
               • Refresco del almacén: operación periódica que
                 propaga los cambios de las fuentes externas al
                 almacén de datos.
CARRERA DE
INGENIERÍA
DE SISTEMAS
Arquitectura de un Data Warehouse                 DATAWAREHOUSE




       • Componentes:
          • Repositorio Propio de Datos: información
            relevante, metadatos.
          • Interfaces y Gestores de Consulta: permiten
            acceder a los datos y sobre ellos se conectan
            herramientas más sofisticadas (OLAP, EIS,
            minería de datos).
          • Sistemas de Integridad y Seguridad: se
            encargan de un mantenimiento global, copias de
            seguridad, ...

CARRERA DE
INGENIERÍA
DE SISTEMAS
Arquitectura de un Data Warehouse                           DATAWAREHOUSE




       • Organización (Externa) de los datos…


                  Las herramientas de explotación de los
               almacenes de datos han adoptado un modelo
                       multidimensional de datos.




              Se ofrece al usuario una visión multidimensional
                   de los datos que son objeto de análisis.

CARRERA DE
INGENIERÍA
DE SISTEMAS
Arquitectura de un Data Warehouse                               DATAWAREHOUSE




     EJEMPLO
     Organización: Cadena de supermercados.

     Actividad objeto de análisis: ventas de productos.

     Información registrada sobre una venta: “del producto
     “Tauritón 33cl” se han vendido en el almacén “Almacén nro.1”
     el día 17/7/2003, 5 unidades por un importe de 103,19 euros.”

        Para hacer el análisis no interesa la venta individual
        (ticket) realizada a un cliente sino las ventas diarias de
        productos en los distintos almacenes de la cadena.

CARRERA DE
INGENIERÍA
DE SISTEMAS
Arquitectura de un Data Warehouse                                                       DATAWAREHOUSE




              Marca

              Descripción
                                                                Semana
                      Categoría
              Departamento                                           Mes
                             Nro_producto                                        Trimestre
                                                        Día




                                               as
               Tipo                                                        Año




                                              nt
                                            Ve
                                            importe
                                            unidades

                                                         Almacén

                                                       Ciudad
                                                                    Tipo

                                                           Región




CARRERA DE
INGENIERÍA
DE SISTEMAS
Arquitectura de un Data Warehouse                                                                       DATAWAREHOUSE



                                             Dimensiones (puntos de
                                             vista) desde los que se
                                             puede analizar la actividad.
                         Marca
              Producto



                         Descripción                                           Semana

                                 Categoría

                         Departamento                                              Mes
                                                                       Día                       Trimestre
                                        Nro_producto




                                                             as
                          Tipo                                                          Año




                                                          nt
                                                        Ve
                                                        importe
                                                        unidades

                                                                     Almacén

                                                                     Ciudad




                                                                                              Almacén
                                                                                 Tipo
             Actividad que es objeto de
             análisis con los indicadores                               Región
             que interesa analizar

CARRERA DE
INGENIERÍA
DE SISTEMAS
Arquitectura de un Data Warehouse                  DATAWAREHOUSE




      • El almacén de datos puede estar formado por
        varios datamarts y, opcionalmente, por tablas
        adicionales.
                          Subconjunto de un almacén de
             Data mart    datos, generalmente en forma de
                          estrella o copo de nieve.

        Se definen para satisfacer las necesidades de un
         departamento o sección de la organización.
        Contiene menos información de detalle y más
         información agregada.
CARRERA DE
INGENIERÍA
DE SISTEMAS
DATAWAREHOUSE


        Data Mart
     Repositorio parcial de datos de la empresa,
     donde se almacenan datos tácticos y
     operativos, con el objeto de obtener información
     táctica.




CARRERA DE
INGENIERÍA
DE SISTEMAS
Diseño de un Data Warehouse           DATAWAREHOUSE




                    Recogida y análisis de
                         requisitos




                     Diseño conceptual



                   Diseño lógico específico



                        Diseño físico



                       Implementación


CARRERA DE
INGENIERÍA
DE SISTEMAS
DATAWAREHOUSE


        OLTP
     OLTP (On-Line Transaction Processing):
     Define el comportamiento habitual de un entorno
     operacional de gestión:
        ●
          Altas/Bajas/Modificaciones/Consultas
        ●
          Consultas rápidas y escuetas
        ●
          Poco volumen de información
        ●
          Transacciones rápidas
        ●
          Gran nivel de concurrencia


CARRERA DE
INGENIERÍA
DE SISTEMAS
DATAWAREHOUSE


        OLAP
     OLAP: On-Line Analytical Processing: Define
     el comportamiento de un sistema de análisis de
     datos y elaboración de información:
        ●
          Sólo Consulta
        ●
          Consultas pesadas y no predecibles
        ●
          Gran volumen de información histórica
        ●
          Operaciones lentas



CARRERA DE
INGENIERÍA
DE SISTEMAS
DATAWAREHOUSE


        OLAP
     OLAP: Datawarehouse de análisis
      ●
        Procesos de consolidación
      ●
        Cambio de tecnología de base de datos
      ●
        Sumarizan datos disgregados
      ●
        Transforman datos
      ●
        Consolidan datos de aplicaciones no integradas




CARRERA DE
INGENIERÍA
DE SISTEMAS
DATAWAREHOUSE


         OLAP
     ●
       Consistencia de consolidación
         ●
             Comprobar la validez de los datos en el entorno
             operacional
             ●
                 Datos que no se usan
             ●
                 Datos que no se mantienen
         ●
             Inconsistencia entre distintas aplicaciones dentro del
             sistema
             ●
                 Datos no igualmente mantenidos
             ●
                 Codificaciones diferentes


CARRERA DE
INGENIERÍA
DE SISTEMAS
DATAWAREHOUSE


        Arquitectura Data Warehouse
     Mecanismos de consolidación
        ●
          Refresco de datos: Volcado completo de los datos
          procedentes del sistema operacional
        ●
          Actualización de datos: Volcado incremental,
          tomando como criterio la fecha de operación
        ●
          Propagación de datos: Creación de logs en el
          entorno transaccional, los cuales se aplican en el
          entorno analítico



CARRERA DE
INGENIERÍA
DE SISTEMAS
OLTP vs. OLAP
                                                                DATAWAREHOUSE




             Características             OLTP           OLAP

         Tamaño BD             GigaBytes        Giga a TeraBytes

         Origen Datos          Interno          Interno y Externo

         Actualización         On-Line          Batch

         Periodos              Actual           Histórico

         Consultas             Predecibles      Ad Hoc

         Actividad             Operacional      Analítica


CARRERA DE
INGENIERÍA
DE SISTEMAS
DATAWAREHOUSE


        OLTP vs OLAP
     Todas estas divergencias hacen que no sea
     posible la convivencia en una única BD de los
     entornos OLAP y OLTP:
        ●
             Pérdida de rendimiento del entorno OLTP
        ●
             Falta de integración entre distintos aplicaciones OLTP
        ●
             Tecnologías de BD sin capacidad para soportar
             aplicaciones OLAP
        ●
             Incorporación de datos externos difícilmente aplicable
             a la BD OLTP
        ●
             Distribución de los datos no adecuada para análisis
             OLAP
CARRERA DE
INGENIERÍA
DE SISTEMAS
DATAWAREHOUSE


        Bases Datos OLAP
     Tipos de BD
      ●
        BD Relacional
      ●
        BD Multidimensional
      ●
        BD Híbrida
      ●
        BD OLAP (BD Relacional con funcionalidad
        OLAP)



CARRERA DE
INGENIERÍA
DE SISTEMAS
Herramientas OLAP                                  DATAWAREHOUSE




     ●       Las herramientas de OLAP presentan al usuario una
             visión multidimensional de los datos (esquema
             multidimensional) para cada actividad que es objeto
             de análisis.
     ●       El usuario formula consultas a la herramienta OLAP
             seleccionando atributos de este esquema
             multidimensional sin conocer la estructura interna
             (esquema físico) del almacén de datos.
     ●       La herramienta OLAP genera la correspondiente
             consulta y la envía al gestor de consultas del
             sistema (p.ej. mediante una sentencia SELECT).
CARRERA DE
INGENIERÍA
DE SISTEMAS
DATAWAREHOUSE


    Data Warehouse y Data Minig
     ●       Los almacenes de datos no son
             imprescindibles para hacer extracción de
             conocimiento a partir de datos.
                –   se puede hacer minería de datos sobre un
                      simple fichero de datos.




CARRERA DE
INGENIERÍA
DE SISTEMAS
DATAWAREHOUSE


    Data Warehouse y Data Minig
     ●       Las ventajas de organizar un almacén de
             datos para realizar minería de datos se
             amortizan sobradamente a medio y largo plazo
             cuando:
                –   tenemos grandes volúmenes de datos, o
                –   éstos aumentan con el tiempo, o
                –   provienen de fuentes heterogéneas o
                –   se van a combinar de maneras arbitrarias y
                      no predefinidas.

CARRERA DE
INGENIERÍA
DE SISTEMAS
DATAWAREHOUSE


    OLAP y Data Mining
     ●       Las herramientas OLAP
                –   proporcionan facilidades para “manejar” y
                      “transformar” los datos.
                –   producen otros “datos” (más agregados,
                      combinados).
                –   ayudan a analizar los datos porque producen
                      diferentes vistas de los mismos.




CARRERA DE
INGENIERÍA
DE SISTEMAS
DATAWAREHOUSE


    OLAP y Data Mining
     ●       Las herramientas de Minería de Datos:
                –   son muy variadas: permiten “extraer”
                      patrones, modelos, descubrir relaciones,
                      regularidades, tendencias, etc.
                –   producen “reglas” o “patrones”
                      (“conocimiento”).




CARRERA DE
INGENIERÍA
DE SISTEMAS
DATAWAREHOUSE


         Conclusiones
     ●       Los almacenes de datos y las técnicas OLAP
             son las maneras más efectivas y avanzadas
             para integrar, transformar y combinar los
             datos para facilitar al usuario o a otros
             sistemas el análisis de la información.




CARRERA DE
INGENIERÍA
DE SISTEMAS
DATAWAREHOUSE


         Conclusiones
     ●       La tecnología OLAP generalmente se asocia
             a los almacenes de datos, aunque:
                –   Podemos tener almacenes de datos sin OLAP y
                     viceversa.
     ●       Todos en la empresa son responsables, no el
             consultor. Todos lo implementan y todos lo
             aseguran.



CARRERA DE
INGENIERÍA
DE SISTEMAS

Weitere ähnliche Inhalte

Was ist angesagt?

Data warehousing - Dr. Radhika Kotecha
Data warehousing - Dr. Radhika KotechaData warehousing - Dr. Radhika Kotecha
Data warehousing - Dr. Radhika KotechaRadhika Kotecha
 
Data warehouse
Data warehouseData warehouse
Data warehouseMarian C.
 
Introducción a DataWarehouse e Inteligencia de Negocios
Introducción a DataWarehouse e Inteligencia de NegociosIntroducción a DataWarehouse e Inteligencia de Negocios
Introducción a DataWarehouse e Inteligencia de NegociosSebastian Rodriguez Robotham
 
Qué Son Las Bases De Datos
Qué Son Las Bases De DatosQué Son Las Bases De Datos
Qué Son Las Bases De DatosMarichelo Gómez
 
IMPLEMENTACION DE UNA BASE DE DATOS
IMPLEMENTACION DE UNA BASE DE DATOS IMPLEMENTACION DE UNA BASE DE DATOS
IMPLEMENTACION DE UNA BASE DE DATOS Paul steven Quiñonez
 
Introducción a Microsoft Power BI. Uso de Herramientas de Apoyo para la Toma ...
Introducción a Microsoft Power BI. Uso de Herramientas de Apoyo para la Toma ...Introducción a Microsoft Power BI. Uso de Herramientas de Apoyo para la Toma ...
Introducción a Microsoft Power BI. Uso de Herramientas de Apoyo para la Toma ...Jesus Carroll
 
What is ETL testing & how to enforce it in Data Wharehouse
What is ETL testing & how to enforce it in Data WharehouseWhat is ETL testing & how to enforce it in Data Wharehouse
What is ETL testing & how to enforce it in Data WharehouseBugRaptors
 
Big Data Tutorial | What Is Big Data | Big Data Hadoop Tutorial For Beginners...
Big Data Tutorial | What Is Big Data | Big Data Hadoop Tutorial For Beginners...Big Data Tutorial | What Is Big Data | Big Data Hadoop Tutorial For Beginners...
Big Data Tutorial | What Is Big Data | Big Data Hadoop Tutorial For Beginners...Simplilearn
 
INDICES EN SQL SERVER
INDICES EN SQL SERVERINDICES EN SQL SERVER
INDICES EN SQL SERVERDarwin Durand
 
Best Practices for Migrating your Data Warehouse to Amazon Redshift
Best Practices for Migrating your Data Warehouse to Amazon RedshiftBest Practices for Migrating your Data Warehouse to Amazon Redshift
Best Practices for Migrating your Data Warehouse to Amazon RedshiftAmazon Web Services
 
Bases de datos.ppt presentacion
Bases de datos.ppt presentacionBases de datos.ppt presentacion
Bases de datos.ppt presentacionandreaydarlys
 
Big Data and Hadoop
Big Data and HadoopBig Data and Hadoop
Big Data and HadoopFlavio Vit
 
Introduction To Msbi By Yasir
Introduction To Msbi By YasirIntroduction To Msbi By Yasir
Introduction To Msbi By Yasiryasir873
 
Introduction to Data Warehousing
Introduction to Data WarehousingIntroduction to Data Warehousing
Introduction to Data WarehousingJason S
 
Web Intelligence - Tutorial1
Web Intelligence - Tutorial1Web Intelligence - Tutorial1
Web Intelligence - Tutorial1Obily W
 
Data mining concepts and work
Data mining concepts and workData mining concepts and work
Data mining concepts and workAmr Abd El Latief
 

Was ist angesagt? (20)

Data warehousing - Dr. Radhika Kotecha
Data warehousing - Dr. Radhika KotechaData warehousing - Dr. Radhika Kotecha
Data warehousing - Dr. Radhika Kotecha
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
Introducción a DataWarehouse e Inteligencia de Negocios
Introducción a DataWarehouse e Inteligencia de NegociosIntroducción a DataWarehouse e Inteligencia de Negocios
Introducción a DataWarehouse e Inteligencia de Negocios
 
Mapa mental BD y DBMS
Mapa mental BD y DBMSMapa mental BD y DBMS
Mapa mental BD y DBMS
 
Hadoop and Big Data
Hadoop and Big DataHadoop and Big Data
Hadoop and Big Data
 
Qué Son Las Bases De Datos
Qué Son Las Bases De DatosQué Son Las Bases De Datos
Qué Son Las Bases De Datos
 
IMPLEMENTACION DE UNA BASE DE DATOS
IMPLEMENTACION DE UNA BASE DE DATOS IMPLEMENTACION DE UNA BASE DE DATOS
IMPLEMENTACION DE UNA BASE DE DATOS
 
NoSQL: Introducción a las Bases de Datos no estructuradas
NoSQL: Introducción a las Bases de Datos no estructuradasNoSQL: Introducción a las Bases de Datos no estructuradas
NoSQL: Introducción a las Bases de Datos no estructuradas
 
Introducción a Microsoft Power BI. Uso de Herramientas de Apoyo para la Toma ...
Introducción a Microsoft Power BI. Uso de Herramientas de Apoyo para la Toma ...Introducción a Microsoft Power BI. Uso de Herramientas de Apoyo para la Toma ...
Introducción a Microsoft Power BI. Uso de Herramientas de Apoyo para la Toma ...
 
What is ETL testing & how to enforce it in Data Wharehouse
What is ETL testing & how to enforce it in Data WharehouseWhat is ETL testing & how to enforce it in Data Wharehouse
What is ETL testing & how to enforce it in Data Wharehouse
 
Big Data Tutorial | What Is Big Data | Big Data Hadoop Tutorial For Beginners...
Big Data Tutorial | What Is Big Data | Big Data Hadoop Tutorial For Beginners...Big Data Tutorial | What Is Big Data | Big Data Hadoop Tutorial For Beginners...
Big Data Tutorial | What Is Big Data | Big Data Hadoop Tutorial For Beginners...
 
INDICES EN SQL SERVER
INDICES EN SQL SERVERINDICES EN SQL SERVER
INDICES EN SQL SERVER
 
Best Practices for Migrating your Data Warehouse to Amazon Redshift
Best Practices for Migrating your Data Warehouse to Amazon RedshiftBest Practices for Migrating your Data Warehouse to Amazon Redshift
Best Practices for Migrating your Data Warehouse to Amazon Redshift
 
Hypertable ld
Hypertable ldHypertable ld
Hypertable ld
 
Bases de datos.ppt presentacion
Bases de datos.ppt presentacionBases de datos.ppt presentacion
Bases de datos.ppt presentacion
 
Big Data and Hadoop
Big Data and HadoopBig Data and Hadoop
Big Data and Hadoop
 
Introduction To Msbi By Yasir
Introduction To Msbi By YasirIntroduction To Msbi By Yasir
Introduction To Msbi By Yasir
 
Introduction to Data Warehousing
Introduction to Data WarehousingIntroduction to Data Warehousing
Introduction to Data Warehousing
 
Web Intelligence - Tutorial1
Web Intelligence - Tutorial1Web Intelligence - Tutorial1
Web Intelligence - Tutorial1
 
Data mining concepts and work
Data mining concepts and workData mining concepts and work
Data mining concepts and work
 

Andere mochten auch

Fundamentos de DataWarehouse
Fundamentos de DataWarehouseFundamentos de DataWarehouse
Fundamentos de DataWarehouseHermes Romero
 
Business Intelligence PFS GRUPO
Business Intelligence PFS GRUPOBusiness Intelligence PFS GRUPO
Business Intelligence PFS GRUPOPFSGRUPO
 
CreacióN De Objetos En MySQL
CreacióN De Objetos En MySQLCreacióN De Objetos En MySQL
CreacióN De Objetos En MySQLalexmerono
 
Repositorio Datos Ambientales Guayana2008
Repositorio Datos Ambientales Guayana2008Repositorio Datos Ambientales Guayana2008
Repositorio Datos Ambientales Guayana2008Rodrigo Torrens
 
Datamart,victor mamani catachura,boreasH,Topicos
Datamart,victor mamani catachura,boreasH,TopicosDatamart,victor mamani catachura,boreasH,Topicos
Datamart,victor mamani catachura,boreasH,Topicosvictor mamani
 
04 Primeros pasos con my sql
04 Primeros pasos con my sql04 Primeros pasos con my sql
04 Primeros pasos con my sqltoniserna
 
Data mart-data-warehouse-data-mining
Data mart-data-warehouse-data-miningData mart-data-warehouse-data-mining
Data mart-data-warehouse-data-miningNintendo
 
05 exposicion data warehouse no. 5
05   exposicion data warehouse              no. 505   exposicion data warehouse              no. 5
05 exposicion data warehouse no. 5Gustavo Cuxum
 
Introduccion datawarehouse
Introduccion datawarehouseIntroduccion datawarehouse
Introduccion datawarehouseEduardo Castro
 
Modelo dimensional de un proceso de negocio
Modelo dimensional de un proceso de negocioModelo dimensional de un proceso de negocio
Modelo dimensional de un proceso de negocioMiguel Orquera
 
BI Geoposicionando
BI GeoposicionandoBI Geoposicionando
BI GeoposicionandoSolidQ
 
In memory
In memoryIn memory
In memorySolidQ
 

Andere mochten auch (20)

Fundamentos de DataWarehouse
Fundamentos de DataWarehouseFundamentos de DataWarehouse
Fundamentos de DataWarehouse
 
Business Intelligence PFS GRUPO
Business Intelligence PFS GRUPOBusiness Intelligence PFS GRUPO
Business Intelligence PFS GRUPO
 
Gbd81
Gbd81Gbd81
Gbd81
 
Ddl
DdlDdl
Ddl
 
CreacióN De Objetos En MySQL
CreacióN De Objetos En MySQLCreacióN De Objetos En MySQL
CreacióN De Objetos En MySQL
 
Repositorio Datos Ambientales Guayana2008
Repositorio Datos Ambientales Guayana2008Repositorio Datos Ambientales Guayana2008
Repositorio Datos Ambientales Guayana2008
 
Guía taller de invest. en ti
Guía taller de invest. en tiGuía taller de invest. en ti
Guía taller de invest. en ti
 
Datamart,victor mamani catachura,boreasH,Topicos
Datamart,victor mamani catachura,boreasH,TopicosDatamart,victor mamani catachura,boreasH,Topicos
Datamart,victor mamani catachura,boreasH,Topicos
 
04 Primeros pasos con my sql
04 Primeros pasos con my sql04 Primeros pasos con my sql
04 Primeros pasos con my sql
 
Gbd7
Gbd7Gbd7
Gbd7
 
Que es ddl
Que es ddlQue es ddl
Que es ddl
 
Data mart-data-warehouse-data-mining
Data mart-data-warehouse-data-miningData mart-data-warehouse-data-mining
Data mart-data-warehouse-data-mining
 
05 exposicion data warehouse no. 5
05   exposicion data warehouse              no. 505   exposicion data warehouse              no. 5
05 exposicion data warehouse no. 5
 
Introduccion datawarehouse
Introduccion datawarehouseIntroduccion datawarehouse
Introduccion datawarehouse
 
Creacion de data mart
Creacion de data martCreacion de data mart
Creacion de data mart
 
Modelo dimensional de un proceso de negocio
Modelo dimensional de un proceso de negocioModelo dimensional de un proceso de negocio
Modelo dimensional de un proceso de negocio
 
Datawarehouse2
Datawarehouse2Datawarehouse2
Datawarehouse2
 
BI Geoposicionando
BI GeoposicionandoBI Geoposicionando
BI Geoposicionando
 
Modelo gestion conocimiento e innovacion abierta
Modelo gestion conocimiento e innovacion abiertaModelo gestion conocimiento e innovacion abierta
Modelo gestion conocimiento e innovacion abierta
 
In memory
In memoryIn memory
In memory
 

Ähnlich wie Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouse

DATAWAREHOUSE, importancia del almacén de datos
DATAWAREHOUSE, importancia del almacén de datosDATAWAREHOUSE, importancia del almacén de datos
DATAWAREHOUSE, importancia del almacén de datosMaría Isabel Bautista
 
Datawarehouse
DatawarehouseDatawarehouse
Datawarehouseshady85
 
Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración...
Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración...Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración...
Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración...Luis Fernando Aguas Bucheli
 
Data warehouse
Data warehouseData warehouse
Data warehousemaggybe
 
3 t218162dw t_construcciondatawarehouse
3 t218162dw t_construcciondatawarehouse3 t218162dw t_construcciondatawarehouse
3 t218162dw t_construcciondatawarehouseJulio Pari
 
Que Es Un Data Warehouse
Que Es Un Data WarehouseQue Es Un Data Warehouse
Que Es Un Data Warehouseguest10616d
 
Topicos de ingeneria_de_sistema_sii_calzada1
Topicos de ingeneria_de_sistema_sii_calzada1Topicos de ingeneria_de_sistema_sii_calzada1
Topicos de ingeneria_de_sistema_sii_calzada1Calzada Meza
 
MINERIA DE DATOS
MINERIA DE DATOSMINERIA DE DATOS
MINERIA DE DATOSLosMorales
 
Bussiness inteligence
Bussiness inteligenceBussiness inteligence
Bussiness inteligenceIrene Lorza
 
Presentación Sistemas
Presentación SistemasPresentación Sistemas
Presentación Sistemasvickyderas17
 

Ähnlich wie Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouse (20)

Almacen de datos
Almacen de datosAlmacen de datos
Almacen de datos
 
BASE DE DATOS
BASE DE DATOSBASE DE DATOS
BASE DE DATOS
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
Kdd fase1
Kdd fase1Kdd fase1
Kdd fase1
 
DATAWAREHOUSE, importancia del almacén de datos
DATAWAREHOUSE, importancia del almacén de datosDATAWAREHOUSE, importancia del almacén de datos
DATAWAREHOUSE, importancia del almacén de datos
 
Datawarehouse
DatawarehouseDatawarehouse
Datawarehouse
 
Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración...
Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración...Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración...
Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración...
 
Diseño de un Datamart
Diseño de un DatamartDiseño de un Datamart
Diseño de un Datamart
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
ALMACEN DE DATOS.pptx
ALMACEN DE DATOS.pptxALMACEN DE DATOS.pptx
ALMACEN DE DATOS.pptx
 
Negocios inteligentes
Negocios inteligentesNegocios inteligentes
Negocios inteligentes
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
3 t218162dw t_construcciondatawarehouse
3 t218162dw t_construcciondatawarehouse3 t218162dw t_construcciondatawarehouse
3 t218162dw t_construcciondatawarehouse
 
Que Es Un Data Warehouse
Que Es Un Data WarehouseQue Es Un Data Warehouse
Que Es Un Data Warehouse
 
Topicos de ingeneria_de_sistema_sii_calzada1
Topicos de ingeneria_de_sistema_sii_calzada1Topicos de ingeneria_de_sistema_sii_calzada1
Topicos de ingeneria_de_sistema_sii_calzada1
 
MINERIA DE DATOS
MINERIA DE DATOSMINERIA DE DATOS
MINERIA DE DATOS
 
Bussiness inteligence
Bussiness inteligenceBussiness inteligence
Bussiness inteligence
 
S15 bi v1-1
S15 bi v1-1S15 bi v1-1
S15 bi v1-1
 
Presentación Sistemas
Presentación SistemasPresentación Sistemas
Presentación Sistemas
 

Mehr von Julio Pari

Evento - Virtual Lab Despliegue de aplicaciones en Kubernetes #Ibm virtual la...
Evento - Virtual Lab Despliegue de aplicaciones en Kubernetes #Ibm virtual la...Evento - Virtual Lab Despliegue de aplicaciones en Kubernetes #Ibm virtual la...
Evento - Virtual Lab Despliegue de aplicaciones en Kubernetes #Ibm virtual la...Julio Pari
 
Links kubernetes - Evento - Virtual Lab Despliegue de aplicaciones en Kubernetes
Links kubernetes - Evento - Virtual Lab Despliegue de aplicaciones en KubernetesLinks kubernetes - Evento - Virtual Lab Despliegue de aplicaciones en Kubernetes
Links kubernetes - Evento - Virtual Lab Despliegue de aplicaciones en KubernetesJulio Pari
 
Comandos - Evento - Virtual Lab Despliegue de aplicaciones en Kubernetes
Comandos - Evento - Virtual Lab Despliegue de aplicaciones en KubernetesComandos - Evento - Virtual Lab Despliegue de aplicaciones en Kubernetes
Comandos - Evento - Virtual Lab Despliegue de aplicaciones en KubernetesJulio Pari
 
Indice General Tesis Sistemas UPC
Indice General Tesis Sistemas UPCIndice General Tesis Sistemas UPC
Indice General Tesis Sistemas UPCJulio Pari
 
Arquitectura Web FISI UNMSM
Arquitectura Web FISI UNMSMArquitectura Web FISI UNMSM
Arquitectura Web FISI UNMSMJulio Pari
 
Jelastic Enterprise
Jelastic EnterpriseJelastic Enterprise
Jelastic EnterpriseJulio Pari
 
Marketing Examen Parcial Profesor Osorio
Marketing Examen Parcial Profesor OsorioMarketing Examen Parcial Profesor Osorio
Marketing Examen Parcial Profesor OsorioJulio Pari
 
Ingenieria Software Examen Parcial 2013 2 Profesor Cordero
Ingenieria Software Examen Parcial 2013 2 Profesor CorderoIngenieria Software Examen Parcial 2013 2 Profesor Cordero
Ingenieria Software Examen Parcial 2013 2 Profesor CorderoJulio Pari
 
Documento de Arquitectura
Documento de ArquitecturaDocumento de Arquitectura
Documento de ArquitecturaJulio Pari
 
Solucion Examen Parcial Sistemas Digitales UNMSM FISI
Solucion Examen Parcial Sistemas Digitales UNMSM FISISolucion Examen Parcial Sistemas Digitales UNMSM FISI
Solucion Examen Parcial Sistemas Digitales UNMSM FISIJulio Pari
 
Práctica de Inventarios - Investigación Operativa II
Práctica de Inventarios - Investigación Operativa IIPráctica de Inventarios - Investigación Operativa II
Práctica de Inventarios - Investigación Operativa IIJulio Pari
 
Armas silenciosas para guerras tranquilas
Armas silenciosas para guerras tranquilasArmas silenciosas para guerras tranquilas
Armas silenciosas para guerras tranquilasJulio Pari
 
Formato de presentación de Proyecto UNMSM FISI
Formato de presentación de Proyecto UNMSM FISIFormato de presentación de Proyecto UNMSM FISI
Formato de presentación de Proyecto UNMSM FISIJulio Pari
 
Cuento para nuestro hijo y nuestra hija
Cuento para nuestro hijo y nuestra hijaCuento para nuestro hijo y nuestra hija
Cuento para nuestro hijo y nuestra hijaJulio Pari
 
Ingeniería de Software Examen Parcial
Ingeniería de Software Examen ParcialIngeniería de Software Examen Parcial
Ingeniería de Software Examen ParcialJulio Pari
 
Sistemas Distribuidos Examen Parcial
Sistemas Distribuidos Examen ParcialSistemas Distribuidos Examen Parcial
Sistemas Distribuidos Examen ParcialJulio Pari
 
Php07 consultas bd
Php07 consultas bdPhp07 consultas bd
Php07 consultas bdJulio Pari
 
Php06 instalacion my_sql
Php06 instalacion my_sqlPhp06 instalacion my_sql
Php06 instalacion my_sqlJulio Pari
 
Php05 funciones usuario
Php05 funciones usuarioPhp05 funciones usuario
Php05 funciones usuarioJulio Pari
 

Mehr von Julio Pari (20)

Evento - Virtual Lab Despliegue de aplicaciones en Kubernetes #Ibm virtual la...
Evento - Virtual Lab Despliegue de aplicaciones en Kubernetes #Ibm virtual la...Evento - Virtual Lab Despliegue de aplicaciones en Kubernetes #Ibm virtual la...
Evento - Virtual Lab Despliegue de aplicaciones en Kubernetes #Ibm virtual la...
 
Links kubernetes - Evento - Virtual Lab Despliegue de aplicaciones en Kubernetes
Links kubernetes - Evento - Virtual Lab Despliegue de aplicaciones en KubernetesLinks kubernetes - Evento - Virtual Lab Despliegue de aplicaciones en Kubernetes
Links kubernetes - Evento - Virtual Lab Despliegue de aplicaciones en Kubernetes
 
Comandos - Evento - Virtual Lab Despliegue de aplicaciones en Kubernetes
Comandos - Evento - Virtual Lab Despliegue de aplicaciones en KubernetesComandos - Evento - Virtual Lab Despliegue de aplicaciones en Kubernetes
Comandos - Evento - Virtual Lab Despliegue de aplicaciones en Kubernetes
 
Indice General Tesis Sistemas UPC
Indice General Tesis Sistemas UPCIndice General Tesis Sistemas UPC
Indice General Tesis Sistemas UPC
 
Arquitectura Web FISI UNMSM
Arquitectura Web FISI UNMSMArquitectura Web FISI UNMSM
Arquitectura Web FISI UNMSM
 
Jelastic Enterprise
Jelastic EnterpriseJelastic Enterprise
Jelastic Enterprise
 
Marketing Examen Parcial Profesor Osorio
Marketing Examen Parcial Profesor OsorioMarketing Examen Parcial Profesor Osorio
Marketing Examen Parcial Profesor Osorio
 
Ingenieria Software Examen Parcial 2013 2 Profesor Cordero
Ingenieria Software Examen Parcial 2013 2 Profesor CorderoIngenieria Software Examen Parcial 2013 2 Profesor Cordero
Ingenieria Software Examen Parcial 2013 2 Profesor Cordero
 
Documento de Arquitectura
Documento de ArquitecturaDocumento de Arquitectura
Documento de Arquitectura
 
Solucion Examen Parcial Sistemas Digitales UNMSM FISI
Solucion Examen Parcial Sistemas Digitales UNMSM FISISolucion Examen Parcial Sistemas Digitales UNMSM FISI
Solucion Examen Parcial Sistemas Digitales UNMSM FISI
 
Práctica de Inventarios - Investigación Operativa II
Práctica de Inventarios - Investigación Operativa IIPráctica de Inventarios - Investigación Operativa II
Práctica de Inventarios - Investigación Operativa II
 
Armas silenciosas para guerras tranquilas
Armas silenciosas para guerras tranquilasArmas silenciosas para guerras tranquilas
Armas silenciosas para guerras tranquilas
 
UML Java
UML JavaUML Java
UML Java
 
Formato de presentación de Proyecto UNMSM FISI
Formato de presentación de Proyecto UNMSM FISIFormato de presentación de Proyecto UNMSM FISI
Formato de presentación de Proyecto UNMSM FISI
 
Cuento para nuestro hijo y nuestra hija
Cuento para nuestro hijo y nuestra hijaCuento para nuestro hijo y nuestra hija
Cuento para nuestro hijo y nuestra hija
 
Ingeniería de Software Examen Parcial
Ingeniería de Software Examen ParcialIngeniería de Software Examen Parcial
Ingeniería de Software Examen Parcial
 
Sistemas Distribuidos Examen Parcial
Sistemas Distribuidos Examen ParcialSistemas Distribuidos Examen Parcial
Sistemas Distribuidos Examen Parcial
 
Php07 consultas bd
Php07 consultas bdPhp07 consultas bd
Php07 consultas bd
 
Php06 instalacion my_sql
Php06 instalacion my_sqlPhp06 instalacion my_sql
Php06 instalacion my_sql
 
Php05 funciones usuario
Php05 funciones usuarioPhp05 funciones usuario
Php05 funciones usuario
 

Fundamentos de DataWareHouse - FISI - UNMSM - DataWareHouse

  • 1. DATAWAREHOUSE Datawarehouse Data Warehouse Fundamentos CARRERA DE INGENIERÍA DE SISTEMAS
  • 2. DATAWAREHOUSE Agenda ● Introducción – Problemas ● Data Warehouse. – Características. – Componentes. – Ventajas. – Problemas. ● OLTP vesrsus Data Warehouse. ● Arquitectura de un Data Warehouse CARRERA DE INGENIERÍA DE SISTEMAS
  • 3. DATAWAREHOUSE Agenda ● Data Mart. ● Diseño de un Datawarehouse. ● OLTP y OLAP – Comparación con OLTP versus OLAP. – Herramientas OLAP – Base de Datos OLAP ● DataWarehouse y Data Mining ● OLAPy Data Mining ● CARRERA DE Conclusiones INGENIERÍA DE SISTEMAS
  • 4. DATAWAREHOUSE Introducción • La información que se quiere investigar sobre un cierto dominio de la organización se encuentra en bases de datos y otras fuentes muy diversas, tanto internas como externas. • Muchas de estas fuentes son las que se utilizan para el trabajo diario (bases de datos operacionales). CARRERA DE INGENIERÍA DE SISTEMAS
  • 5. DATAWAREHOUSE Introducción ● Sobre estas mismas bases de datos de trabajo ya se puede extraer conocimiento (visión tradicional). ● Uso de la base de datos transaccional para: – Se mantiene el trabajo transaccional diario de los sistemas de información originales (OLTP, On-Line Transactional Processing). – Se hace análisis de los datos en tiempo real sobre la misma base de datos (OLAP, On-Line Analytical Processing). CARRERA DE INGENIERÍA DE SISTEMAS
  • 6. DATAWAREHOUSE Introducción ● Problemas: – Perturba el trabajo transaccional diario de los sistemas de información originales (“killer queries”). Se debe hacer por la noche o en fines de semana. – La base de datos está diseñada para el trabajo transaccional, no para el análisis de los datos. Generalmente no puede ser en tiempo real (era AP pero no OLAP). CARRERA DE INGENIERÍA DE SISTEMAS
  • 7. DATAWAREHOUSE Introducción ● Se desea operar eficientemente con esos datos... – Costes de almacenamiento y conectividad se han reducido en últimos años, ● Parece razonable recoger los datos (información histórica) en un sistema separado y específico. – Data warehouses (Almacenes o Bodegas de Datos) – Nace Data-Warehousing. CARRERA DE INGENIERÍA DE SISTEMAS
  • 8. DATAWAREHOUSE Data Warehouse Repositorio completo de datos de la empresa, donde se almacenan datos estratégicos, tácticos y operativos, con el objeto de obtener información estratégica y táctica. CARRERA DE INGENIERÍA DE SISTEMAS
  • 9. DATAWAREHOUSE Data Warehouse ● El almacén de datos es ahora el “sistema de información central” en todo este proceso. ● Un almacén de datos es una colección de datos: – orientada a un dominio – integrada – no volátil – variante en el tiempo ● Para ayudar en la toma de decisiones. CARRERA DE INGENIERÍA DE SISTEMAS
  • 10. DATAWAREHOUSE Data Warehouse Almacenes de Datos (AD) (data warehouse) Disponer de Sistemas de Información de apoyo a la toma de decisiones* Disponer de bases de datos que permitan extraer conocimiento de la información histórica almacenada en la organización Análisis de la Previsiones de Diseño de Organización evolución estratégias * DSS: Decision Support Systems CARRERA DE INGENIERÍA DE SISTEMAS
  • 11. Data Warehouse DATAWAREHOUSE Almacenes de datos Base de Datos diseñada con un objetivo de explotación distinto que el de las bases de datos de los sistemas operacionales. Sistema Operacional BD orientada al (OLTP) proceso Sistema de Almacén de BD orientada al Datos análisis (DW) CARRERA DE INGENIERÍA DE SISTEMAS
  • 12. Data Warehouse DATAWAREHOUSE Almacenes de Datos definición Colección de datos diseñada para dar apoyo a los procesos de toma de decisiones características orientada hacia integrada variable en no volátil la información* el tiempo relevante de la organización * subject oriented, not process oriented CARRERA DE INGENIERÍA DE SISTEMAS
  • 13. Data Warehouse DATAWAREHOUSE Se diseña para consultar eficientemente Orientado hacia la información información relativa a las actividades relevante de la (ventas, compras, producción, ...) básicas organización de la organización, no para soportar los procesos que se realizan en ella (gestión de pedidos, facturación, etc). Base de Datos Transaccional PAÍS GAMA CURSO ... ... ... VENTA Información REUNION ... Necesaria ... PRODUCTO PROTOTIPO ... ... CARRERA DE INGENIERÍA DE SISTEMAS
  • 14. Data Warehouse DATAWAREHOUSE Integra datos recogidos de diferentes Integrado sistemas operacionales de la organización (y/o fuentes externas). Fuente de Datos 3 Fuente de Datos 1 Fuente de Datos 2 texto HTML Base de Datos Transaccional 1 Fuentes Externas Fuentes Internas Base de Datos Transaccional 2 Almacén de Datos CARRERA DE INGENIERÍA DE SISTEMAS
  • 15. Data Warehouse DATAWAREHOUSE Los datos son relativos a un periodo Variable en de tiempo y deben ser incrementados el tiempo periódicamente. Los datos son almacenados como fotos (snapshots) correspondientes a periodos de tiempo. Tiempo Datos 01/2003 Datos de Enero 02/2003 Datos de Febrero 03/2003 Datos de Marzo CARRERA DE INGENIERÍA DE SISTEMAS
  • 16. Data Warehouse DATAWAREHOUSE Los datos almacenados no son No volátil actualizados, sólo son incrementados. Carga Bases de datos operacionales Almacén de Datos INSERT READ READ UPDATE DELETE El periodo de tiempo cubierto por un AD varía entre 2 y 10 años. CARRERA DE INGENIERÍA DE SISTEMAS
  • 17. Data Warehouse DATAWAREHOUSE Almacenes de Datos ventajas para las organizaciones Rentabilidad de las Aumento de la Aumento de la inversiones competitividad productividad de los realizadas para su en el mercado técnicos de dirección creación CARRERA DE INGENIERÍA DE SISTEMAS
  • 18. Data Warehouse DATAWAREHOUSE Almacenes de Datos problemas Privacidad de los datos Infravaloración del Incremento continuo esfuerzo necesario de los requisitos de para su diseño y los usuarios creación Infravaloración de los recursos necesarios para la captura, transformación carga y almacenamiento de los datos CARRERA DE INGENIERÍA DE SISTEMAS
  • 19. DATAWAREHOUSE OLTP versus Data Warehouse Sistema Operacional (OLTP) Almacén de datos (DW) almacena datos actuales almacena datos históricos almacena datos de detalle almacena datos de detalle bases de datos medianas (100Mb-1Gb) bases de datos grandes (100Gb-1Tb) los datos son dinámicos (actualizables) los datos son estáticos los procesos (transacciones) son repetitivos los procesos no son previsibles el número de transacciones es elevado el número de transacciones es bajo o medio tiempo de respuesta pequeño (segundos) tiempo de respuesta variable (segundos-horas) dedicado al procesamiento de transacciones dedicado al análisis de datos orientado a los procesos de la organización orientado a la información relevante soporta decisiones diarias soporta decisiones estratégicas sirve a muchos usuarios (administrativos) sirve a técnicos de dirección CARRERA DE INGENIERÍA DE SISTEMAS
  • 20. DATAWAREHOUSE Arquitectura de un Data Warehouse • La Arquitectura de un data warehouse viene determinada por su situación central como fuente de información para las herramientas de análisis. Fuentes Herramientas de Internas consultas e informes Base de Datos Transaccional Herramientas EIS Almacén de Interfaz y ETL Operadores Datos Fuente de Datos 1 Herramientas texto OLAP Fuente de Datos 3 HTML Copias de Seguridad Herramientas de Fuente de Fuentes Minería de Datos Datos Externas CARRERA DE INGENIERÍA DE SISTEMAS
  • 21. Arquitectura de un Data Warehouse DATAWAREHOUSE • Componentes: • Sistema ETL (Extraction, Transformation, Load): realiza las funciones de extracción de las fuentes de datos (transaccionales o externas), transformación (limpieza, consolidación, ...) y la carga del Data Warehouse, realizando: • Extracción de los datos. • Filtrado de los datos: limpieza, consolidación, etc. • Carga inicial del almacén: ordenación, agregaciones, etc. • Refresco del almacén: operación periódica que propaga los cambios de las fuentes externas al almacén de datos. CARRERA DE INGENIERÍA DE SISTEMAS
  • 22. Arquitectura de un Data Warehouse DATAWAREHOUSE • Componentes: • Repositorio Propio de Datos: información relevante, metadatos. • Interfaces y Gestores de Consulta: permiten acceder a los datos y sobre ellos se conectan herramientas más sofisticadas (OLAP, EIS, minería de datos). • Sistemas de Integridad y Seguridad: se encargan de un mantenimiento global, copias de seguridad, ... CARRERA DE INGENIERÍA DE SISTEMAS
  • 23. Arquitectura de un Data Warehouse DATAWAREHOUSE • Organización (Externa) de los datos… Las herramientas de explotación de los almacenes de datos han adoptado un modelo multidimensional de datos. Se ofrece al usuario una visión multidimensional de los datos que son objeto de análisis. CARRERA DE INGENIERÍA DE SISTEMAS
  • 24. Arquitectura de un Data Warehouse DATAWAREHOUSE EJEMPLO Organización: Cadena de supermercados. Actividad objeto de análisis: ventas de productos. Información registrada sobre una venta: “del producto “Tauritón 33cl” se han vendido en el almacén “Almacén nro.1” el día 17/7/2003, 5 unidades por un importe de 103,19 euros.” Para hacer el análisis no interesa la venta individual (ticket) realizada a un cliente sino las ventas diarias de productos en los distintos almacenes de la cadena. CARRERA DE INGENIERÍA DE SISTEMAS
  • 25. Arquitectura de un Data Warehouse DATAWAREHOUSE Marca Descripción Semana Categoría Departamento Mes Nro_producto Trimestre Día as Tipo Año nt Ve importe unidades Almacén Ciudad Tipo Región CARRERA DE INGENIERÍA DE SISTEMAS
  • 26. Arquitectura de un Data Warehouse DATAWAREHOUSE Dimensiones (puntos de vista) desde los que se puede analizar la actividad. Marca Producto Descripción Semana Categoría Departamento Mes Día Trimestre Nro_producto as Tipo Año nt Ve importe unidades Almacén Ciudad Almacén Tipo Actividad que es objeto de análisis con los indicadores Región que interesa analizar CARRERA DE INGENIERÍA DE SISTEMAS
  • 27. Arquitectura de un Data Warehouse DATAWAREHOUSE • El almacén de datos puede estar formado por varios datamarts y, opcionalmente, por tablas adicionales. Subconjunto de un almacén de Data mart datos, generalmente en forma de estrella o copo de nieve. Se definen para satisfacer las necesidades de un departamento o sección de la organización. Contiene menos información de detalle y más información agregada. CARRERA DE INGENIERÍA DE SISTEMAS
  • 28. DATAWAREHOUSE Data Mart Repositorio parcial de datos de la empresa, donde se almacenan datos tácticos y operativos, con el objeto de obtener información táctica. CARRERA DE INGENIERÍA DE SISTEMAS
  • 29. Diseño de un Data Warehouse DATAWAREHOUSE Recogida y análisis de requisitos Diseño conceptual Diseño lógico específico Diseño físico Implementación CARRERA DE INGENIERÍA DE SISTEMAS
  • 30. DATAWAREHOUSE OLTP OLTP (On-Line Transaction Processing): Define el comportamiento habitual de un entorno operacional de gestión: ● Altas/Bajas/Modificaciones/Consultas ● Consultas rápidas y escuetas ● Poco volumen de información ● Transacciones rápidas ● Gran nivel de concurrencia CARRERA DE INGENIERÍA DE SISTEMAS
  • 31. DATAWAREHOUSE OLAP OLAP: On-Line Analytical Processing: Define el comportamiento de un sistema de análisis de datos y elaboración de información: ● Sólo Consulta ● Consultas pesadas y no predecibles ● Gran volumen de información histórica ● Operaciones lentas CARRERA DE INGENIERÍA DE SISTEMAS
  • 32. DATAWAREHOUSE OLAP OLAP: Datawarehouse de análisis ● Procesos de consolidación ● Cambio de tecnología de base de datos ● Sumarizan datos disgregados ● Transforman datos ● Consolidan datos de aplicaciones no integradas CARRERA DE INGENIERÍA DE SISTEMAS
  • 33. DATAWAREHOUSE OLAP ● Consistencia de consolidación ● Comprobar la validez de los datos en el entorno operacional ● Datos que no se usan ● Datos que no se mantienen ● Inconsistencia entre distintas aplicaciones dentro del sistema ● Datos no igualmente mantenidos ● Codificaciones diferentes CARRERA DE INGENIERÍA DE SISTEMAS
  • 34. DATAWAREHOUSE Arquitectura Data Warehouse Mecanismos de consolidación ● Refresco de datos: Volcado completo de los datos procedentes del sistema operacional ● Actualización de datos: Volcado incremental, tomando como criterio la fecha de operación ● Propagación de datos: Creación de logs en el entorno transaccional, los cuales se aplican en el entorno analítico CARRERA DE INGENIERÍA DE SISTEMAS
  • 35. OLTP vs. OLAP DATAWAREHOUSE Características OLTP OLAP Tamaño BD GigaBytes Giga a TeraBytes Origen Datos Interno Interno y Externo Actualización On-Line Batch Periodos Actual Histórico Consultas Predecibles Ad Hoc Actividad Operacional Analítica CARRERA DE INGENIERÍA DE SISTEMAS
  • 36. DATAWAREHOUSE OLTP vs OLAP Todas estas divergencias hacen que no sea posible la convivencia en una única BD de los entornos OLAP y OLTP: ● Pérdida de rendimiento del entorno OLTP ● Falta de integración entre distintos aplicaciones OLTP ● Tecnologías de BD sin capacidad para soportar aplicaciones OLAP ● Incorporación de datos externos difícilmente aplicable a la BD OLTP ● Distribución de los datos no adecuada para análisis OLAP CARRERA DE INGENIERÍA DE SISTEMAS
  • 37. DATAWAREHOUSE Bases Datos OLAP Tipos de BD ● BD Relacional ● BD Multidimensional ● BD Híbrida ● BD OLAP (BD Relacional con funcionalidad OLAP) CARRERA DE INGENIERÍA DE SISTEMAS
  • 38. Herramientas OLAP DATAWAREHOUSE ● Las herramientas de OLAP presentan al usuario una visión multidimensional de los datos (esquema multidimensional) para cada actividad que es objeto de análisis. ● El usuario formula consultas a la herramienta OLAP seleccionando atributos de este esquema multidimensional sin conocer la estructura interna (esquema físico) del almacén de datos. ● La herramienta OLAP genera la correspondiente consulta y la envía al gestor de consultas del sistema (p.ej. mediante una sentencia SELECT). CARRERA DE INGENIERÍA DE SISTEMAS
  • 39. DATAWAREHOUSE Data Warehouse y Data Minig ● Los almacenes de datos no son imprescindibles para hacer extracción de conocimiento a partir de datos. – se puede hacer minería de datos sobre un simple fichero de datos. CARRERA DE INGENIERÍA DE SISTEMAS
  • 40. DATAWAREHOUSE Data Warehouse y Data Minig ● Las ventajas de organizar un almacén de datos para realizar minería de datos se amortizan sobradamente a medio y largo plazo cuando: – tenemos grandes volúmenes de datos, o – éstos aumentan con el tiempo, o – provienen de fuentes heterogéneas o – se van a combinar de maneras arbitrarias y no predefinidas. CARRERA DE INGENIERÍA DE SISTEMAS
  • 41. DATAWAREHOUSE OLAP y Data Mining ● Las herramientas OLAP – proporcionan facilidades para “manejar” y “transformar” los datos. – producen otros “datos” (más agregados, combinados). – ayudan a analizar los datos porque producen diferentes vistas de los mismos. CARRERA DE INGENIERÍA DE SISTEMAS
  • 42. DATAWAREHOUSE OLAP y Data Mining ● Las herramientas de Minería de Datos: – son muy variadas: permiten “extraer” patrones, modelos, descubrir relaciones, regularidades, tendencias, etc. – producen “reglas” o “patrones” (“conocimiento”). CARRERA DE INGENIERÍA DE SISTEMAS
  • 43. DATAWAREHOUSE Conclusiones ● Los almacenes de datos y las técnicas OLAP son las maneras más efectivas y avanzadas para integrar, transformar y combinar los datos para facilitar al usuario o a otros sistemas el análisis de la información. CARRERA DE INGENIERÍA DE SISTEMAS
  • 44. DATAWAREHOUSE Conclusiones ● La tecnología OLAP generalmente se asocia a los almacenes de datos, aunque: – Podemos tener almacenes de datos sin OLAP y viceversa. ● Todos en la empresa son responsables, no el consultor. Todos lo implementan y todos lo aseguran. CARRERA DE INGENIERÍA DE SISTEMAS