SlideShare una empresa de Scribd logo
1 de 23
Descargar para leer sin conexión
Petabytes de información:
         Repensando el 
         modelamiento 
        de base de datos

                   Ernesto Quiñones Azcárate
                         ernestoq@apesol.org
                 Presidencia Apesol 2006­2008



            
Modelos de  bases de datos para todos los gustos (según la organización de los 
    datos) :




       Jerárquicas                                  Relacionales




                                             Orientadas al objeto
         Multidimensional

                                               
A donde camina la información:

    ● Existen al menos 50 dbms “famosos” entre libres y privativos y 
      un número al menos 4 ó 5 veces superior entre los de uso 
      académico/experimental etc.
    ● En 2006 existían 161 Exabytes de información  (1 Exabyte = 1000 


      Petas), Actualmente (2008) debe existir 330­340 Exabytes.
    ● En 2011 debemos tener cerca de 1,800 Exabytes de información.

    ● En 2007 la cantidad de información generada supero a la 


      capacidad instalada mundial de contenerla, actualmente se 
      calcula un déficit de 60 a 70 Exabytes de infraestructura.
    ● Existen 1,000 millones de dispositivos de capturas de imágenes

    ● El 95% de la data del mundo no tiene                                   


      estructura.
    ● 65k filmaciones nuevas en Youtube por día.

    ● 60 millones de emails diarios.

    ● Google puede indexar 20 Petabytes en un solo día.



                                         
●   La data esta cambiando

●   La información sigue creciendo nadie va a parar eso, es 
                      mas va a ser peor

●   Actualmente el % de usuarios que provee información a 
          la red es mucho menor de los que lo usan.

          ●Cada vez es mas difícil catalogar la información

    ●   Cada vez será mas difícil encontrar la información que 
                            uno quiere

               ..... y como administramos tanta data?

                                      
El 22 de Mayo Yahoo dio esta noticia : 

●   Yahoo anuncia tener la base de datos mas grande del mundo (2 
    Peta bytes) en funcionamiento.

●   La base de datos de 1 año de antigüedad esta procesando 24,000 
    millones de eventos diarios.

●   El administrador de la data es un PostgreSQL (
    http://www.postgresql.org) modificado especialmente para ellos.

●   La tecnología usada es la “base de datos basada en columnas” 
    donde no existen “registros”, esto hace que la grabación de datos 
    sea lenta pero la lectura es muy rápida.

Noticia original:
http://tinyurl.com/68avgt
                                      
Que es una base de datos basa en columnas
     Convencionalmente guardamos la data así :



                                    Ahora la data la guardamos así :




      Otra representación :
                                          Dudas:
                                          ● ¿Porque hacer esto?
                                          ● ¿Donde queda la normalización?

                                          ● ¿Existen “engines” para este tipo de base 


                                            de datos?




                                            
La ventaja de una base de datos basada en columnas.
    El principal motivo es el tiempo de acceso al disco, la velocidad del disco suele 
    ser el cuello de botella en los sistemas de almacenamiento ya que es 
    notablemente mas lento que el poder de procesamiento.




                                                 
La ventaja de una base de datos basada en columnas.
    Tradicionalmente las bases de datos hacen esto para guardar la data

                                                   No       No       Esto es rápido para 
      Páginas      8k        8k        8k                            operaciones de 
                                                  usada    usada
                                                                     escritura pero no de 
                            No                              No       lectura.
        8k         8k                  8k          8k
                           usada                           usada




                                        Cada página tiene una 
                                        estructura de este tipo 
                                        (generalmente)




                                               
La ventaja de una base de datos basada en columnas.
     Este es un ejemplo aproximado 
     de data masiva




Esta data se organizará bajo este esquema lógico




                                             
La ventaja de una base de datos basada en columnas.
    Esta es la representación de la organización física de la data


                                             El engine de la db tomará la data y la guardará 
                                             en archivos llamados CellStores subdivididos en 
                                             bloques de data comprimida de 64k (podría 
                                             variar) en su propio sistema de archivos por 
                                             sobre el que tiene el sistema operativo.

                                             Por ejemplo:
                                             Juan, Pedro, Lucho, Lima, Lima, Callao, 25,25,25
                                             Sería convertida a :
                                             Juan, Pedro, Lucho, Lima x 2, Callao, 25 x 3

                                             Mientras en los dbms convencionales la data se 
                                             guarda en varias secciones/espacios del disco, 
                                             en las c­dbms se guarda junta y continua en el 
                                             mismo CellStore.



                                                 
La ventaja de una base de datos basada en columnas.

    Los Querys:




     Este es un ejemplo de como funciona 
     Bigtable de Google
                                             
¿El fin de los RDBMS?
    ●   El problema del modelo relacional es que suele ser un consumidor alto 
        de recursos al momento de ejecutar transacciones, especialmente 
        cuando uno tiene data masiva.
                                                 Imagines que deseamos borrar 
                                                 registros en “Cuotas” y el engine 
                                                 debe verificar que no se hagan 
                                                 modificaciones que rompan la 
                                                 relación con “Pagos”.

                                                 1,000 registros
                                                 100,000 
                                                 10,000,000 
                                                 1,000,000,000
                                                 100,000,000,000
                                                 1,000,000,000,000




                                           
¿El fin de los RDBMS?
    ●   El problema del modelo relacional es que suele ser un consumidor alto 
        de recursos al momento de ejecutar transacciones, especialmente 
        cuando uno tiene data masiva.
                                               Cada delete debe ejecutar un select 
                                               en la tabla “Pagos”, ¿cuanto demora?
                                               1,000 ­­­> 1s
                                               100,000  ­­> 1m40s
                                               10,000,000  ­­> 2.77h
                                               1,000,000,000 ­­> 11.57d
                                               100,000,000,000 ­­> 3.17a
                                               1,000,000,000,000 ­­> 317a (y algunos 
                                               días mas :D

                                               Recordemos Yahoo hace 
                                               24,000,000,000 de transacciones por 
                                               día, en 41.6 días genera 1 billón de 
                                               registros (como mínimo).


                                           
¿El fin de los RDBMS?
    ● Los sistemas Relacionales tienes mas de 25 años de existencia.
    ● Básicamente fueron pensada con una orientación de guardar data de 


      negocios.
    ● Cuando empezó a explotarse la data masiva (hace poco mas de una 


      década) el sistema relacional demostró tener problemas, se tuvo que 
      mejorar/modificar para atender esta nueva necesidad.
    ● La data a pasado a ser no­precisa, imposible de “normalizar”.

    ● Los joins son lentos cuanto tienes cantidades de data monstruosa.

    ● Los procesos de ABC se vuelven muy costosos cuando hay muchas 


      relaciones entre las tablas.




    Sin embargo el fin de los RDBMS fue predicho antes; OODBMS, XML, 
    etc., esta todavía lejos de ser considerada “tecnología legacy”.


                                        
ENGINES

    BigTable (privativo – Google)

    ● Desarrollo y uso exclusivo de Google.
    ● Tiene 2 componentes esenciales: (1) Google File System (GFS) el cual 


      asegura disponibilidad de los datos por medio de copias redundantes, 
      mientras mas sea consultado un dato mas veces de duplicado 
      asignándosele mas recursos. (2) Chubby Lock Service, el cual es un 
      componente que permite la sincronización de accesos a recursos 
      compartidos.
    ● Las tablas se subdividen en tablets con filas que llegan a medir hasta 


      200mb.
    ● A estas filas se les aplica ademas un algoritmo de compresión secreto 


      para optimizar aún mas el espacio.
    ● A enero 2008 existían 600 clusters, el mas grande con 2000 servers, el 


      store mas grande es de 700Tbytes y atiende 100k operaciones por 
      segundo.
    ● Se utiliza un lenguaje llamado  Sawzall.


                                         
ENGINES

    BigTable (privativo – Google)




                                     
ENGINES

    Hypertable http://hypertable.org/ 

    ● Proyecto libre que aplica “buenas practicas” en la administración de db 
      de gran cantidad de datos y alto volumen de trabajo.
    ● La data es guardada como cadenas de bytes, las tablas que lo 


      almacenan son cortadas en secciones continuas y divididas en 
      diversos servidores, estos son conocidos como Range Servers, 
      adicionalmente existen Master Servers que se encargan de tareas 
      administrativas y supervisar los Range Servers (ambos servicios 
      pueden correr en una misma pc).
    ● Se utiliza un lenguaje llamado Hypertable Query Language (HQL)

    ● Puede usar diferentes sistemas de archivos, pero se recomienda 


      Hadoop Distributed File System (HDFS) http://hadoop.apache.org/




                                          
ENGINES

      Hypertable http://hypertable.org/ 

Coordinador de 
concurrencia
(lock manager)




Administra 
data en 
memoria




Cache de 
transacciones


                         Aquí se encuentran 
   
                         las celdas de datos    
ENGINES

      Hypertable http://hypertable.org/ 

Servicio que da 
la cara al cliente, 
coordina las ABC 
en los Datanodes




                                               Guarda la 
                                               data


La misma data
se guarda en diferentes 
Datanodes



                                            
ENGINES

    LucidDB http://luciddb.sourceforge.net/ 

    ● Esta basada en EigenBase http://www.eigenbase.org/ un software base 
      que permite crear sistemas administradores de datos.
    ● LucidDB esta pensada con el propósito de hacer data warehousing y 


      business intelligence.
    ● Esta pensada para ser básicamente solo read­only, las actualizaciones 


      crean nuevas páginas que reemplazan a las existentes y se guardan 
      versiones de estas.
    ● Las páginas miden 32K, se maneja un buffer de 5,000 páginas con la 


      información mas leida.
    ● Se usa una técnica de indexación conocida como “bitmap”, indices y 


      data son comprimidos y se utiliza la técnica del “semijoin” para 
      determinar la data que es únicamente necesaria acceder por los 
      querys.
    ● LucidDB puede acceder directamente a repositorios externos via 


      SQLMED
                                         
Se uso Java pensando
    ENGINES                                    en la expansión del 
                                               producto.
    LucidDB http://luciddb.sourceforge.net/ 


                                                                 Acceso a 
                                                                 repositorio
                                                                 s de datos 
                                                                 externos




Engine principal de
LucidDB

                            Data
                                         
Para leer mas:

Toda la información con la cual se a documentado esta presentación es recopilada en este 
enlace :


http://tinyurl.com/6xfwvg 

Y mas información :


http://www.eqsoft.net/wiki/doku.php?id=start 



                                              
Muchas Gracias!!!

               Visite APESOL
           http://www.apesol.org

    Inscríbete en las listas de interés en
        http://apesol.org/listas.php

         Conversemos en vivo en
         server: irc.freenode.net
              sala:#apesol
                       

Más contenido relacionado

La actualidad más candente

La actualidad más candente (18)

taller de bd
taller de bdtaller de bd
taller de bd
 
BASE DE DATOS MICROSOFT SQL SERVER
BASE DE DATOS MICROSOFT SQL SERVERBASE DE DATOS MICROSOFT SQL SERVER
BASE DE DATOS MICROSOFT SQL SERVER
 
Sql o NoSql en Informática Médica
Sql o NoSql en Informática MédicaSql o NoSql en Informática Médica
Sql o NoSql en Informática Médica
 
Base datos-romero
Base datos-romeroBase datos-romero
Base datos-romero
 
Glosario de base de datoss
Glosario de base de datossGlosario de base de datoss
Glosario de base de datoss
 
Base de datos
Base de datosBase de datos
Base de datos
 
El disco duro y la gerencia
El disco duro y la gerenciaEl disco duro y la gerencia
El disco duro y la gerencia
 
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
 
BASES DE DATOS
BASES DE DATOSBASES DE DATOS
BASES DE DATOS
 
Introducción a NoSQL y MongoDB Webinar
Introducción a NoSQL y MongoDB WebinarIntroducción a NoSQL y MongoDB Webinar
Introducción a NoSQL y MongoDB Webinar
 
MongoDB: la BBDD NoSQL más popular del mercado
MongoDB: la BBDD NoSQL más popular del mercadoMongoDB: la BBDD NoSQL más popular del mercado
MongoDB: la BBDD NoSQL más popular del mercado
 
Desarrollo de Almacenes de Datos con Sistemas Gestores de Bases de Datos NOSQL
Desarrollo de Almacenes de Datos con Sistemas Gestores de Bases de Datos NOSQLDesarrollo de Almacenes de Datos con Sistemas Gestores de Bases de Datos NOSQL
Desarrollo de Almacenes de Datos con Sistemas Gestores de Bases de Datos NOSQL
 
Mongodb
MongodbMongodb
Mongodb
 
Introducción mongodb y desarrollo
Introducción mongodb y desarrolloIntroducción mongodb y desarrollo
Introducción mongodb y desarrollo
 
Bases de Datos Analiticas-Columnares
Bases de Datos Analiticas-ColumnaresBases de Datos Analiticas-Columnares
Bases de Datos Analiticas-Columnares
 
Presentacion BD NoSQL
Presentacion  BD NoSQLPresentacion  BD NoSQL
Presentacion BD NoSQL
 
02 base de datos hernandez_luis
02 base de datos hernandez_luis02 base de datos hernandez_luis
02 base de datos hernandez_luis
 
Mongodb vs couchdb
Mongodb vs couchdb Mongodb vs couchdb
Mongodb vs couchdb
 

Destacado

Empresas con BDOO
Empresas con BDOOEmpresas con BDOO
Empresas con BDOO
tec lerdo
 

Destacado (20)

Ciudades Inteligentes
Ciudades InteligentesCiudades Inteligentes
Ciudades Inteligentes
 
10 4
10 410 4
10 4
 
Bigtable and Boxwood
Bigtable and BoxwoodBigtable and Boxwood
Bigtable and Boxwood
 
Presentación city camp santiago
Presentación city camp santiagoPresentación city camp santiago
Presentación city camp santiago
 
24a sessió web: Open Data. José Manuel Alonso
24a sessió web: Open Data. José Manuel Alonso24a sessió web: Open Data. José Manuel Alonso
24a sessió web: Open Data. José Manuel Alonso
 
Smart Cities: Sostenibilidad de una comunidad Impulsada por la tecnología.
Smart Cities: Sostenibilidad de una comunidad Impulsada por la tecnología.Smart Cities: Sostenibilidad de una comunidad Impulsada por la tecnología.
Smart Cities: Sostenibilidad de una comunidad Impulsada por la tecnología.
 
Ciudades inteligentes
Ciudades inteligentesCiudades inteligentes
Ciudades inteligentes
 
Big Data en Latinoamerica
Big Data en LatinoamericaBig Data en Latinoamerica
Big Data en Latinoamerica
 
Smart city y las zonas verdes
Smart city y las zonas verdesSmart city y las zonas verdes
Smart city y las zonas verdes
 
ciudades inteligentes
ciudades inteligentesciudades inteligentes
ciudades inteligentes
 
Presentación corporativa de Ingenia
Presentación corporativa de IngeniaPresentación corporativa de Ingenia
Presentación corporativa de Ingenia
 
Google - Bigtable
Google - BigtableGoogle - Bigtable
Google - Bigtable
 
Empresas con BDOO
Empresas con BDOOEmpresas con BDOO
Empresas con BDOO
 
¿Qué necesitan las ciudades para convertirse en inteligentes?
¿Qué necesitan las ciudades para convertirse en inteligentes?¿Qué necesitan las ciudades para convertirse en inteligentes?
¿Qué necesitan las ciudades para convertirse en inteligentes?
 
Open Data: ¿por qué? y ¿cómo?
Open Data: ¿por qué? y ¿cómo?Open Data: ¿por qué? y ¿cómo?
Open Data: ¿por qué? y ¿cómo?
 
Mesa Open Data: Transparentar las organizaciones políticas mediante una estra...
Mesa Open Data: Transparentar las organizaciones políticas mediante una estra...Mesa Open Data: Transparentar las organizaciones políticas mediante una estra...
Mesa Open Data: Transparentar las organizaciones políticas mediante una estra...
 
Soluciones para la convocatoria de ciudades inteligentes red.es 2015
Soluciones para la convocatoria de ciudades inteligentes red.es 2015Soluciones para la convocatoria de ciudades inteligentes red.es 2015
Soluciones para la convocatoria de ciudades inteligentes red.es 2015
 
Google Bigtable Paper Presentation
Google Bigtable Paper PresentationGoogle Bigtable Paper Presentation
Google Bigtable Paper Presentation
 
Ciudades inteligentes
Ciudades inteligentesCiudades inteligentes
Ciudades inteligentes
 
Big table
Big tableBig table
Big table
 

Similar a Petabytes De Informacion Repensando El Modelamiento De Datos

Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter,...
Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter,...Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter,...
Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter,...
Antoni Riveros
 
Caracteristicas dbms (1)
Caracteristicas dbms (1)Caracteristicas dbms (1)
Caracteristicas dbms (1)
Javier Plazas
 
Talleres 1, 2 y 3
Talleres 1, 2 y 3Talleres 1, 2 y 3
Talleres 1, 2 y 3
guest928f6e
 
Big table por Matias tesoriero
Big table por Matias tesorieroBig table por Matias tesoriero
Big table por Matias tesoriero
mtesoriero
 

Similar a Petabytes De Informacion Repensando El Modelamiento De Datos (20)

Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter,...
Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter,...Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter,...
Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter,...
 
Caracteristicas dbms (1)
Caracteristicas dbms (1)Caracteristicas dbms (1)
Caracteristicas dbms (1)
 
Unidad 1 - Introducción a los Sistemas de Gestión de Bases de Datos.pdf
Unidad 1 - Introducción a los Sistemas de Gestión de Bases de Datos.pdfUnidad 1 - Introducción a los Sistemas de Gestión de Bases de Datos.pdf
Unidad 1 - Introducción a los Sistemas de Gestión de Bases de Datos.pdf
 
Base de datos
Base de datos Base de datos
Base de datos
 
Continuacion
ContinuacionContinuacion
Continuacion
 
Taller 1, 2 y 3
Taller 1, 2 y 3Taller 1, 2 y 3
Taller 1, 2 y 3
 
Talleres 1,2 y 3
Talleres 1,2 y 3Talleres 1,2 y 3
Talleres 1,2 y 3
 
Talleres 1-2-3
Talleres 1-2-3Talleres 1-2-3
Talleres 1-2-3
 
Talleres 1, 2 y 3
Talleres 1, 2 y 3Talleres 1, 2 y 3
Talleres 1, 2 y 3
 
Bases de Datos I_primer cuatrimestre.pptx
Bases de Datos I_primer cuatrimestre.pptxBases de Datos I_primer cuatrimestre.pptx
Bases de Datos I_primer cuatrimestre.pptx
 
04 presentacion acosta_claudio
04 presentacion acosta_claudio04 presentacion acosta_claudio
04 presentacion acosta_claudio
 
Base de Datos
Base de DatosBase de Datos
Base de Datos
 
Big table por Matias tesoriero
Big table por Matias tesorieroBig table por Matias tesoriero
Big table por Matias tesoriero
 
Introducción a Microsoft Azure SQL Data Warehouse
Introducción a Microsoft Azure SQL Data WarehouseIntroducción a Microsoft Azure SQL Data Warehouse
Introducción a Microsoft Azure SQL Data Warehouse
 
Base de datos
Base de datos Base de datos
Base de datos
 
Tipos de BDD y SGBD
Tipos de BDD y SGBDTipos de BDD y SGBD
Tipos de BDD y SGBD
 
Bases de datos
Bases de datosBases de datos
Bases de datos
 
Base de datos
Base de datosBase de datos
Base de datos
 
Clase 1 - Introducción a Bases de Datos
Clase 1 - Introducción a Bases de DatosClase 1 - Introducción a Bases de Datos
Clase 1 - Introducción a Bases de Datos
 
Futuro bd
Futuro bdFuturo bd
Futuro bd
 

Más de EQ SOFT EIRL

Más de EQ SOFT EIRL (20)

Libro sobre exportación de servicios post Covid-19
Libro sobre exportación de servicios post Covid-19Libro sobre exportación de servicios post Covid-19
Libro sobre exportación de servicios post Covid-19
 
Peruanos en Twitter
Peruanos en TwitterPeruanos en Twitter
Peruanos en Twitter
 
Recomendaciones Para el Tratamiento de Datos en Inteligencia Artificial
Recomendaciones Para el Tratamiento de Datos en Inteligencia ArtificialRecomendaciones Para el Tratamiento de Datos en Inteligencia Artificial
Recomendaciones Para el Tratamiento de Datos en Inteligencia Artificial
 
Centros Regionales de Innovación Aplicada
Centros Regionales de Innovación AplicadaCentros Regionales de Innovación Aplicada
Centros Regionales de Innovación Aplicada
 
EQ Soft: Soluciones de innovación agraria
EQ Soft: Soluciones de innovación agrariaEQ Soft: Soluciones de innovación agraria
EQ Soft: Soluciones de innovación agraria
 
Transformación Digital en Logística
Transformación Digital en LogísticaTransformación Digital en Logística
Transformación Digital en Logística
 
Propuestas de innovacón financiera
Propuestas de innovacón financieraPropuestas de innovacón financiera
Propuestas de innovacón financiera
 
Clusters Empresariales en Latinoamérica
Clusters Empresariales en LatinoaméricaClusters Empresariales en Latinoamérica
Clusters Empresariales en Latinoamérica
 
Inteligencia Artificial en la Administración Pública
Inteligencia Artificial en la Administración PúblicaInteligencia Artificial en la Administración Pública
Inteligencia Artificial en la Administración Pública
 
Inteligencia artificial para las empresas 2019
Inteligencia artificial para las empresas 2019Inteligencia artificial para las empresas 2019
Inteligencia artificial para las empresas 2019
 
Platique.me solución integral de Smart ChatBot
Platique.me solución integral de Smart ChatBotPlatique.me solución integral de Smart ChatBot
Platique.me solución integral de Smart ChatBot
 
Logos Dictados - solución de Speech to Text
Logos Dictados - solución de Speech to TextLogos Dictados - solución de Speech to Text
Logos Dictados - solución de Speech to Text
 
Logos Biblios - Gestión de Conocimientos
Logos Biblios - Gestión de ConocimientosLogos Biblios - Gestión de Conocimientos
Logos Biblios - Gestión de Conocimientos
 
Logos, Framework de Inteligencia Artificial
Logos, Framework de Inteligencia ArtificialLogos, Framework de Inteligencia Artificial
Logos, Framework de Inteligencia Artificial
 
Internet of Food
Internet of FoodInternet of Food
Internet of Food
 
Logos: Framework de Inteligencia Artificial
Logos: Framework de Inteligencia ArtificialLogos: Framework de Inteligencia Artificial
Logos: Framework de Inteligencia Artificial
 
Presentación de Logos en el Cade Digital
Presentación de Logos en el Cade DigitalPresentación de Logos en el Cade Digital
Presentación de Logos en el Cade Digital
 
Logos Codex: Plataforma de Big Data
Logos Codex: Plataforma de Big DataLogos Codex: Plataforma de Big Data
Logos Codex: Plataforma de Big Data
 
Portafolio de Productos y Servicios de EqSoft
Portafolio de Productos y Servicios de EqSoftPortafolio de Productos y Servicios de EqSoft
Portafolio de Productos y Servicios de EqSoft
 
Soluciones de RPA para automatizar procesos
Soluciones de RPA para automatizar procesosSoluciones de RPA para automatizar procesos
Soluciones de RPA para automatizar procesos
 

Último

Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx
241521559
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
silviayucra2
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial Uninove
FagnerLisboa3
 

Último (10)

Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Joseph
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnología
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNIT
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial Uninove
 
Desarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdfDesarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdf
 
Presentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxPresentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptx
 

Petabytes De Informacion Repensando El Modelamiento De Datos

  • 1. Petabytes de información: Repensando el  modelamiento  de base de datos Ernesto Quiñones Azcárate ernestoq@apesol.org Presidencia Apesol 2006­2008    
  • 2. Modelos de  bases de datos para todos los gustos (según la organización de los  datos) : Jerárquicas Relacionales Orientadas al objeto Multidimensional    
  • 3. A donde camina la información: ● Existen al menos 50 dbms “famosos” entre libres y privativos y  un número al menos 4 ó 5 veces superior entre los de uso  académico/experimental etc. ● En 2006 existían 161 Exabytes de información  (1 Exabyte = 1000  Petas), Actualmente (2008) debe existir 330­340 Exabytes. ● En 2011 debemos tener cerca de 1,800 Exabytes de información. ● En 2007 la cantidad de información generada supero a la  capacidad instalada mundial de contenerla, actualmente se  calcula un déficit de 60 a 70 Exabytes de infraestructura. ● Existen 1,000 millones de dispositivos de capturas de imágenes ● El 95% de la data del mundo no tiene                                    estructura. ● 65k filmaciones nuevas en Youtube por día. ● 60 millones de emails diarios. ● Google puede indexar 20 Petabytes en un solo día.    
  • 4. La data esta cambiando ● La información sigue creciendo nadie va a parar eso, es  mas va a ser peor ● Actualmente el % de usuarios que provee información a  la red es mucho menor de los que lo usan. ●Cada vez es mas difícil catalogar la información ● Cada vez será mas difícil encontrar la información que  uno quiere ..... y como administramos tanta data?    
  • 5. El 22 de Mayo Yahoo dio esta noticia :  ● Yahoo anuncia tener la base de datos mas grande del mundo (2  Peta bytes) en funcionamiento. ● La base de datos de 1 año de antigüedad esta procesando 24,000  millones de eventos diarios. ● El administrador de la data es un PostgreSQL ( http://www.postgresql.org) modificado especialmente para ellos. ● La tecnología usada es la “base de datos basada en columnas”  donde no existen “registros”, esto hace que la grabación de datos  sea lenta pero la lectura es muy rápida. Noticia original: http://tinyurl.com/68avgt    
  • 6. Que es una base de datos basa en columnas Convencionalmente guardamos la data así : Ahora la data la guardamos así : Otra representación : Dudas: ● ¿Porque hacer esto? ● ¿Donde queda la normalización? ● ¿Existen “engines” para este tipo de base  de datos?    
  • 7. La ventaja de una base de datos basada en columnas. El principal motivo es el tiempo de acceso al disco, la velocidad del disco suele  ser el cuello de botella en los sistemas de almacenamiento ya que es  notablemente mas lento que el poder de procesamiento.    
  • 8. La ventaja de una base de datos basada en columnas. Tradicionalmente las bases de datos hacen esto para guardar la data No No Esto es rápido para  Páginas 8k 8k 8k operaciones de  usada usada escritura pero no de  No No lectura. 8k 8k 8k 8k usada usada Cada página tiene una  estructura de este tipo  (generalmente)    
  • 9. La ventaja de una base de datos basada en columnas. Este es un ejemplo aproximado  de data masiva Esta data se organizará bajo este esquema lógico    
  • 10. La ventaja de una base de datos basada en columnas. Esta es la representación de la organización física de la data El engine de la db tomará la data y la guardará  en archivos llamados CellStores subdivididos en  bloques de data comprimida de 64k (podría  variar) en su propio sistema de archivos por  sobre el que tiene el sistema operativo. Por ejemplo: Juan, Pedro, Lucho, Lima, Lima, Callao, 25,25,25 Sería convertida a : Juan, Pedro, Lucho, Lima x 2, Callao, 25 x 3 Mientras en los dbms convencionales la data se  guarda en varias secciones/espacios del disco,  en las c­dbms se guarda junta y continua en el  mismo CellStore.    
  • 11. La ventaja de una base de datos basada en columnas. Los Querys: Este es un ejemplo de como funciona  Bigtable de Google    
  • 12. ¿El fin de los RDBMS? ● El problema del modelo relacional es que suele ser un consumidor alto  de recursos al momento de ejecutar transacciones, especialmente  cuando uno tiene data masiva. Imagines que deseamos borrar  registros en “Cuotas” y el engine  debe verificar que no se hagan  modificaciones que rompan la  relación con “Pagos”. 1,000 registros 100,000  10,000,000  1,000,000,000 100,000,000,000 1,000,000,000,000    
  • 13. ¿El fin de los RDBMS? ● El problema del modelo relacional es que suele ser un consumidor alto  de recursos al momento de ejecutar transacciones, especialmente  cuando uno tiene data masiva. Cada delete debe ejecutar un select  en la tabla “Pagos”, ¿cuanto demora? 1,000 ­­­> 1s 100,000  ­­> 1m40s 10,000,000  ­­> 2.77h 1,000,000,000 ­­> 11.57d 100,000,000,000 ­­> 3.17a 1,000,000,000,000 ­­> 317a (y algunos  días mas :D Recordemos Yahoo hace  24,000,000,000 de transacciones por  día, en 41.6 días genera 1 billón de  registros (como mínimo).    
  • 14. ¿El fin de los RDBMS? ● Los sistemas Relacionales tienes mas de 25 años de existencia. ● Básicamente fueron pensada con una orientación de guardar data de  negocios. ● Cuando empezó a explotarse la data masiva (hace poco mas de una  década) el sistema relacional demostró tener problemas, se tuvo que  mejorar/modificar para atender esta nueva necesidad. ● La data a pasado a ser no­precisa, imposible de “normalizar”. ● Los joins son lentos cuanto tienes cantidades de data monstruosa. ● Los procesos de ABC se vuelven muy costosos cuando hay muchas  relaciones entre las tablas. Sin embargo el fin de los RDBMS fue predicho antes; OODBMS, XML,  etc., esta todavía lejos de ser considerada “tecnología legacy”.    
  • 15. ENGINES BigTable (privativo – Google) ● Desarrollo y uso exclusivo de Google. ● Tiene 2 componentes esenciales: (1) Google File System (GFS) el cual  asegura disponibilidad de los datos por medio de copias redundantes,  mientras mas sea consultado un dato mas veces de duplicado  asignándosele mas recursos. (2) Chubby Lock Service, el cual es un  componente que permite la sincronización de accesos a recursos  compartidos. ● Las tablas se subdividen en tablets con filas que llegan a medir hasta  200mb. ● A estas filas se les aplica ademas un algoritmo de compresión secreto  para optimizar aún mas el espacio. ● A enero 2008 existían 600 clusters, el mas grande con 2000 servers, el  store mas grande es de 700Tbytes y atiende 100k operaciones por  segundo. ● Se utiliza un lenguaje llamado  Sawzall.    
  • 16. ENGINES BigTable (privativo – Google)    
  • 17. ENGINES Hypertable http://hypertable.org/  ● Proyecto libre que aplica “buenas practicas” en la administración de db  de gran cantidad de datos y alto volumen de trabajo. ● La data es guardada como cadenas de bytes, las tablas que lo  almacenan son cortadas en secciones continuas y divididas en  diversos servidores, estos son conocidos como Range Servers,  adicionalmente existen Master Servers que se encargan de tareas  administrativas y supervisar los Range Servers (ambos servicios  pueden correr en una misma pc). ● Se utiliza un lenguaje llamado Hypertable Query Language (HQL) ● Puede usar diferentes sistemas de archivos, pero se recomienda  Hadoop Distributed File System (HDFS) http://hadoop.apache.org/    
  • 18. ENGINES Hypertable http://hypertable.org/  Coordinador de  concurrencia (lock manager) Administra  data en  memoria Cache de  transacciones Aquí se encuentran    las celdas de datos  
  • 19. ENGINES Hypertable http://hypertable.org/  Servicio que da  la cara al cliente,  coordina las ABC  en los Datanodes Guarda la  data La misma data se guarda en diferentes  Datanodes    
  • 20. ENGINES LucidDB http://luciddb.sourceforge.net/  ● Esta basada en EigenBase http://www.eigenbase.org/ un software base  que permite crear sistemas administradores de datos. ● LucidDB esta pensada con el propósito de hacer data warehousing y  business intelligence. ● Esta pensada para ser básicamente solo read­only, las actualizaciones  crean nuevas páginas que reemplazan a las existentes y se guardan  versiones de estas. ● Las páginas miden 32K, se maneja un buffer de 5,000 páginas con la  información mas leida. ● Se usa una técnica de indexación conocida como “bitmap”, indices y  data son comprimidos y se utiliza la técnica del “semijoin” para  determinar la data que es únicamente necesaria acceder por los  querys. ● LucidDB puede acceder directamente a repositorios externos via  SQLMED    
  • 21. Se uso Java pensando ENGINES en la expansión del  producto. LucidDB http://luciddb.sourceforge.net/  Acceso a  repositorio s de datos  externos Engine principal de LucidDB Data    
  • 23. Muchas Gracias!!! Visite APESOL http://www.apesol.org Inscríbete en las listas de interés en http://apesol.org/listas.php Conversemos en vivo en server: irc.freenode.net sala:#apesol