SlideShare ist ein Scribd-Unternehmen logo
1 von 12
Downloaden Sie, um offline zu lesen
UNIVERSIDAD TECNICA DEL NORTE
Ing. Lenin Omar Lara Castro.
BIG DATA
Historia del Arte:
El Big Data o Datos Masivos se refieren a sistemas informáticos basados en la acumulación a gran escala
de datos y de los procedimientos usados para identificar patrones recurrentes dentro de esos datos. La
disciplina dedicada a los datos masivos se enmarca en el sector de las tecnologías de la información y la
comunicación.
Esta disciplina se ocupa de todas las actividades relacionadas con los sistemas que manipulan grandes
conjuntos de datos. Las dificultades más habituales vinculadas a la gestión de estas cantidades de datos
se centran en la captura, el almacenamiento, búsqueda, compartición, análisis, y visualización.
La tendencia a manipular ingentes cantidades de datos se debe a la necesidad en muchos casos de incluir
los datos relacionados del análisis en un gran conjunto de datos, como los análisis de negocio,
publicitarios, los datos de enfermedades infecciosas, el espionaje y seguimiento a la población o la lucha
contra el crimen organizado Los Big Data pueden ser tanto estructurados como no estructurados. Las
bases de datos relacionales tradicionales, como Informix y DB2, proporcionan soluciones comprobadas
para datos estructurados. A través de la extensibilidad, también gestionan datos no estructurados. La
tecnología Hadoop trae técnicas de programación nuevas y más accesibles para trabajar en
almacenamientos de datos masivos con datos tanto estructurados como no estructurados.
Apache Hadoop es un framework que permite el procesamiento de grandes volúmenes de datos a través
de clusters, usando un modelo simple de programación. Además su diseño permite pasar de pocos nodos
a miles de nodos de forma ágil. Hadoop es un sistema distribuido usando una arquitectura Master-Slave,
usando para almacenar su Hadoop Distributed File System (HDFS) y algoritmos deMapReduce para hacer
cálculos.
CARACTERISTICAS
HDFS
Si tenemos más de 4000 computadoras trabajando en sus datos, entonces más vale que distribuya sus
datos a lo largo de más de 4000 computadoras. HDFS hace esto para usted. HDFS es el sistema de
almacenamiento, es un sistema de ficheros distribuido. Fue creado a partir del Google File System (GFS).
HDFS se encuentra optimizado para grandes flujos y trabajar con ficheros grandes en sus lecturas y
escrituras. Su diseño reduce la E/S en la red. La escalabilidad y disponibilidad son otras de sus claves,
gracias a la replicación de los datos y tolerancia a los fallos. Los elementos importantes del cluster:
o NameNode: Sólo hay uno en el cluster. Regula el acceso a los ficheros por parte de los clientes.
Mantiene en memoria la metadata del sistema de ficheros y control de los bloques de fichero
que tiene cada DataNode.
o DataNode: Son los responsables de leer y escribir las peticiones de los clientes. Los ficheros están
formados por bloques, estos se encuentran replicados en diferentes nodos.
MAP REDUCE
MapReduce es un proceso batch, creado para el proceso distribuido de los datos. Permite de una forma
simple, paralelizar trabajo sobre los grandes volúmenes de datos, como combinar web logs con los datos
relacionales de una base de datos OLTP, de esta forma ver como los usuarios interactúan con el website.
El modelo de MapReduce simplifica el procesamiento en paralelo, abstrayéndonos de la complejidad que
hay en los sistemas distribuidos. Básicamente las funciones Maptransforman un conjunto de datos a un
número de pares key/value. Cada uno de estos elementos se encontrará ordenado por su clave, y la
función reduce es usada para combinar los valores (con la misma clave) en un mismo resultado.
Un programa en MapReduce, se suele conocer como Job, la ejecución de un Job empieza cuando el cliente
manda la configuración de Job al JobTracker, esta configuración especifica las
funciones Map, Combine (shuttle) y Reduce, además de la entrada y salida de los datos.
ARQUITECTURA:
HDFS, la capa inferior, yace sobre un clúster de hardware de producto. Servidores sencillos montados en
bastidor, cada uno con 2 núcleos Hex, 6 a 12 discos, y Ram de 32 GB. Para un trabajo de map-reduce, la
capa del correlacionador lee a partir de los discos a muy alta velocidad. El correlacionador emite pares de
valores claves que son ordenados y presentados al reductor, y la capa de reductor resume los pares de
valor clave. No, usted no necesita resumir, usted de hecho puede tener un trabajo map-reduce que solo
tiene correlacionadores. Esto debe ser más fácil de comprender cuando usted llegue al ejemplo python-
awk.
VENTAJAS
Ventajas Bajo coste: Clusters baratos o cloud
Facilidad de uso
Tolerancia a fallos
CASOS DE ÉXITO
Facebook
Twitter
Yahoo
Apache CouchDB, comúnmente llamada CouchDB, es un gestor de bases de datos de código abierto, cuyo
foco está puesto en la facilidad de su uso y en ser "una base de datos que asume la web de manera
completa". Se trata de una base de datos NoSQL que emplea JSON para almacenar los
datos, JavaScript como lenguaje de consulta por medio de MapReduce y HTTP como API. Una de sus
características más peculiares es la facilidad con la que permite hacer replicaciones. CouchDB fue liberada
por primera vez en 2005, transformándose en un proyecto Apache en 2008.
A diferencia de una base de datos relacional, CouchDB no almacena los datos y sus relaciones en tablas.
En cambio, cada base de datos es una colección de documentos independientes. Cada documento
mantiene sus propios datos y su esquema autocontenido. Una aplicación puede acceder a múltiples bases
de datos, por ejemplo una residente en el teléfono móvil del usuario y otra residente en un servidor. Los
metadatos del documento contienen información acerca de la versión del mismo, permitiendo refundir
cualesquiera diferencias que puedan haberse producido mientras las bases de datos estaban
desconectadas.
CouchDB implementa una forma de control de concurrencia multiversión (MVCC) a fin de evitar la
necesidad de bloquear el archivo de base de datos durante las escrituras. La resolución de conflictos se
delega a la aplicación. Para resolver un conflicto generalmente se requiere primero refundir los datos en
uno de los documentos para luego eliminar el otro.
Otras características son una semántica ACID con consistencia eventual, MapReduce, replicación
incremental y tolerancia a los fallos. Las labores de administración se facilitan por medio de una aplicación
web incorporada, llamada Futon.
CARACTERÍSTICAS PRINCIPALES
Almacenamiento de documentos
CouchDB almacena los datos como "documentos", esto es, uno o más pares campo/valor expresados en
JSON. Los valores de los campos pueden ser datos simples como cadenas de caracteres, números o fechas.
Pero también se pueden usar listas ordenadas y vectores asociativos. Todos los documentos en una base
de datos CouchDB tienen un identificador único y no requieren un esquema determinado.
Semántica ACID
CouchDB provee una semántica de atomicidad, consistencia, aislamiento y durabilidad.8 Lo hace
implementando una forma de control de concurrencia multiversión, lo que significa que CouchDB puede
manejar un gran número de lectores y escritores en paralelo, sin que surjan conflictos.
Vistas e índices Map/Reduce
Los datos almacenados se estructuran por medio de vistas. En CouchDB, cada vista se construye por medio
de una función JavaScript que actúa como la mitad Map de una operación map/reduce. La función recibe
un documento y lo transforma en un único valor, retornándolo. CouchDB puede indexar vistas y mantener
actualizados esos índices a medida de que se agregan, eliminan o actualizan documentos.
Arquitectura distribuida con replicación
CouchDB se diseñó con teniendo en mente la replicación bidireccional (o sincronización) y la operación
off-line. Eso significa que múltiples réplicas pueden tener cada una sus propias copias de los mismos datos,
modificarlas y luego sincronizar esos cambios en un momento posterior.
Interfaz REST
Todos los ítems tienen una URI única que queda expuesta vía HTTP. REST usa los métodos HTTP POST,
GET, PUT y DELETE para las cuatro operaciones básicas CRUD (Create, Read, Update, Delete) con todos
los recursos.
Consistencia Eventual
CouchDB garantiza consistencia eventual para poder ofrecer tanto disponibilidad como tolerancia a las
particiones.
Hecha para operar offline
CouchDB puede replicar datos a dispositivos (como smartphones) que pueden quedar offline y manejar
automáticamente la sincronización de los datos cuando el dispositivo vuelve a estar en línea. CouchDB
también ofrece una interfaz de administración incorporada y accesible vía web llamada Futon.
CASOS DE ÉXITO
CouchDB se usa en determinadas aplicaciones para Android, tales como "SpreadLyrics", así como
aplicaciones para Facebook como "Will you Kissme" o "Birthday Greeting Cards", o bien sitios web como
"Friendpaste"
Entre las empresas que han usado o actualmente usan CouchDB se pueden mencionar:
Ubuntu para su servicio de sincronización "Ubuntu One" hasta noviembre de 2011pero fue
descontinuado por problemas de escalabilidad.
La BBC, para sus plataformas de contenidos dinámicos14
Credit Suisse, para usos internos en el departamento de commodities para su framework de
mercados.11
Meebo, para su plataforma social (web y aplicaciones) - Meebo fue adquirido por Google y cesó
sus operaciones el 12 de julio de 2012.
ARQUITECTURA
Cuando las bases de datos relacionales son costosas para replicar debido a la complejidad de hacer el
seguimiento de los cambios en las bases de datos. Después de una sincronización inicial CouchDB sólo
replica los cambios. Sería bastante fácil de dar a cada nodo de su propio ejemplo CouchDB y replicar los
cambios necesarios a partir de una base de datos master central; creando así (casi) nodos autónomos:
NEW SQL
NewSQL es una clase de modernos relacionales sistemas de gestión de bases de datos que tratan de
ofrecer el mismo rendimiento escalable de NoSQL sistemas para el procesamiento de transacciones en
línea (OLTP) las cargas de trabajo, manteniendo los de escritura lectura ACID garantías de un sistema de
base de datos tradicional.
Nuevas Arquitecturas
El primer tipo de sistemas NewSQL son plataformas de bases de datos completamente nuevas. Están
diseñadas para funcionar en un clúster distribuido shared-nothing, en el que cada nodo posee un
subconjunto de los datos. Aunque en muchas de las nuevas bases de datos se han usado diferentes
enfoques de diseño, hay dos categorías principales en evolución.
El primer tipo envía la ejecución de transacciones y consultas a los nodos que contienen los datos
necesarios. Las consultas SQL se dividen en fragmentos y se envían a los nodos, que son los que procesan
y contienen de los datos. Estas bases de datos son capaces de escalar linealmente a medida que se agregan
nodos adicionales.
Bases de datos de uso general: Estas mantienen la funcionalidad completa de bases de datos tradicionales
y el manejo de todo tipo de consultas. Estas bases de datos se escriben a menudo a partir de cero con una
arquitectura distribuida en mente, e incluyen componentes como el control distribuido de concurrencia,
el control de flujo, y el procesamiento de consultas distribuidas. Entre ellas están Google Spanner, Clustrix,
NuoDB y TransLattice.
Base de datos en memoria: Las solicitudes dirigidas por estos sistemas NewSQL se caracterizan por tener
un gran número de transacciones de corta duración (es decir, sin puestos de usuario), que tocan un
pequeño subconjunto de datos utilizando las búsquedas de índice (es decir, no hay recorridos de tablas
completos o grandes joins distribuidos) y repetitivas (es decir, ejecutan las mismas consultas con
diferentes entradas). Estos sistemas NewSQL logran un alto rendimiento y escalabilidad al evitar que gran
parte de la arquitectura sea heredada del diseño original del Sistema R, tales como los algoritmos de
recuperación o de control de concurrencia. Dos sistemas de ejemplo de esta categoría son VoltDB y
SQLFire de GoPivotal.
Motores MySQL.
La segunda categoría está muy optimizada como motor de almacenamiento de SQL. Estos sistemas
proporcionan la misma interfaz de programación que MySQL, pero con mejor escala incorporada en los
motores, como InnoDB. Varios ejemplos de estos nuevos motores son: TokuDB, MemSQL y Akiban.
Protección transparente
Estos sistemas proporcionan una capa protectora intermedia para dividir automáticamente las bases de
datos a través de múltiples nodos. Algunos ejemplos de este tipo de sistema son dbShards, Scalearc,
Scalebase y MySQL Cluster.
CARACTERISTICAS
Real-Time Analytics en datos operativos en Vivo
Clustrix DB le permite manejar los datos masivos y necesidades de transacción de su aplicación,
simplemente, sin cambios en el código y sin reemplazar la base de datos o el hardware a medida que
crecen sus necesidades de aplicación.
Análisis en tiempo real le permiten obtener una fracción de segundo respuesta a consultas complejas
sobre los datos del cliente en marcha hasta la fecha, sin necesidad de crear bases de datos redundantes.
Clustrix DB emplea procesamiento paralelo masivo (MPP) a través de su grupo de distribución para
paralelizar y distribuir las consultas SQL, y utiliza todos los recursos disponibles de la agrupación para
acelerar las consultas. Clustrix DB emplea múltiples versión control de concurrencia (MVCC) para asegurar
que lee y escribe no interfieren entre sí, lo que permite el análisis para correr en paralelo con las escrituras
y actualizaciones sin afectar el rendimiento.
En la memoria de análisis en Clustrix DB utilizan memoria respaldada por los SSD. Los datos calientes de
uso común se queda en la memoria y el resto de los datos es sólo unos microsegundos de distancia, en
los SSD. Mediante el uso de esta combinación efectiva, Clustrix ofrece la mezcla perfecta de durabilidad,
velocidad y costo. Por el contrario, puras bases de datos en memoria son caros para las bases de datos de
TB-escala y carecen de durabilidad para las necesidades de bases de datos operacionales.
Self-Managing Operación
Prácticamente elimina tareas de operaciones DBA porque la dirección está incorporado en la base de
datos en sí. Se construye con muchos puntos de instrumentación y Clustrix Rebalancer siempre está
trabajando en un segundo plano, dejando el grupo saludable con una sobrecarga mínima.
Además permite ejecutar análisis en tiempo real sobre los datos operacionales en vivo sin moverlo a otro
sistema. Puede ejecutar consultas e informes sobre sus datos más valiosos.
Fácil Migración
Le permite seguir utilizando su código y lenguaje SQL. Para los usuarios de MySQL, los cambios de código
requeridos son mínimos. Clustrix se puede configurar como esclavo a MySQL y ascendido a maestro,
mientras que su base de datos y aplicaciones se están ejecutando.
Massive volumen de transacciones
Maneja el enorme volumen de transacciones que las aplicaciones grandes y de rápido crecimiento
necesitan, con facilidad. Agrega escalas cerca linealmente a medida que agrega los nodos, incluso con
cargas de trabajo altamente concurrentes.
Le permite manejar los datos masivos y necesidades de transacción de su aplicación, simplemente, sin
cambios en el código y sin reemplazar la base de datos o el hardware a medida que crecen sus necesidades
de aplicación.
Cada nodo puede recibir y procesar las transacciones. La base de datos cuenta con una arquitectura de
nada compartido, conocido a escala linealmente con distribuida.
BIBLIOGRAFIA:
• Carrillo Ruiz, Jose Antonio; Marco de Lucas, Jesus E.; Cases Vega, Fernando; Dueñas Lopez, Juan
Carlos; Cristino Fernandez, Jose; Gonzalez Muñoz de Morales, Guillermo; Pereda Laredo, Luis
Fernando (Marzo 2013). «Big Data en los entornos de Defensa y Seguridad». Instituto Español de
Estudios Estratégicos.
• Martín, Adriana; Chávez, Susana; Rodríguez, Nelson R.; Valenzuela, Adriana; Murazzo, Maria A.
(2013). «Bases de datos NoSql en cloud computing». WICC. Consultado el 18 de octubre de 2014.
• Kohlwey, Edmund; Sussman, Abel; Trost, Jason; Maurer, Amber (2011). «Leveraging the Cloud for
Big Data Biometrics». IEEE World Congress on Services.

Weitere ähnliche Inhalte

Was ist angesagt? (20)

Act 04 rivera_alfredo_bd
Act 04 rivera_alfredo_bdAct 04 rivera_alfredo_bd
Act 04 rivera_alfredo_bd
 
Bases de datos
Bases de datosBases de datos
Bases de datos
 
Sistemas gestores de bases de datos
Sistemas gestores de bases de datosSistemas gestores de bases de datos
Sistemas gestores de bases de datos
 
Los sistemas gestores de bases de datos actuales
Los sistemas gestores de bases de datos actualesLos sistemas gestores de bases de datos actuales
Los sistemas gestores de bases de datos actuales
 
Base de datos 1.2
Base de datos 1.2Base de datos 1.2
Base de datos 1.2
 
Conceptos y motores
Conceptos y motoresConceptos y motores
Conceptos y motores
 
Base de datos rodrigo
Base de datos rodrigoBase de datos rodrigo
Base de datos rodrigo
 
Base de datos
Base de datosBase de datos
Base de datos
 
Gestor de base de datos
Gestor de base de datosGestor de base de datos
Gestor de base de datos
 
Base de datos
Base de datosBase de datos
Base de datos
 
Las principales bases de datos existentes
Las principales bases de datos existentesLas principales bases de datos existentes
Las principales bases de datos existentes
 
Bases de Datos
Bases de DatosBases de Datos
Bases de Datos
 
elsy
elsyelsy
elsy
 
SIstemas Manejadores De Base De Datos
SIstemas Manejadores De Base De DatosSIstemas Manejadores De Base De Datos
SIstemas Manejadores De Base De Datos
 
Bases de datos
Bases de datosBases de datos
Bases de datos
 
Base de datos
Base de datosBase de datos
Base de datos
 
Base de datos
Base de datosBase de datos
Base de datos
 
Actividad 4 base de datos antonia
Actividad 4 base de datos antoniaActividad 4 base de datos antonia
Actividad 4 base de datos antonia
 
Base de datos (programacion)
Base de datos (programacion)Base de datos (programacion)
Base de datos (programacion)
 
Bases de datos
Bases de datosBases de datos
Bases de datos
 

Ähnlich wie Big Data

Ähnlich wie Big Data (20)

Taller N° 2 Modelos de bases de datos
Taller N° 2 Modelos de bases de datosTaller N° 2 Modelos de bases de datos
Taller N° 2 Modelos de bases de datos
 
GESTOR DE BASE DE DATOS
GESTOR DE BASE DE DATOSGESTOR DE BASE DE DATOS
GESTOR DE BASE DE DATOS
 
Las principales bases de datos existentes
Las principales bases de datos existentesLas principales bases de datos existentes
Las principales bases de datos existentes
 
GESTOR DE BASE DE DATOS
GESTOR DE BASE DE DATOSGESTOR DE BASE DE DATOS
GESTOR DE BASE DE DATOS
 
Actividad 4
Actividad 4Actividad 4
Actividad 4
 
Bases de datos
Bases de datosBases de datos
Bases de datos
 
diapositivasdesgbd-170504023703.pdf
diapositivasdesgbd-170504023703.pdfdiapositivasdesgbd-170504023703.pdf
diapositivasdesgbd-170504023703.pdf
 
Diapositivas de sgbd
Diapositivas de sgbdDiapositivas de sgbd
Diapositivas de sgbd
 
Topicos base de datos
Topicos base de datosTopicos base de datos
Topicos base de datos
 
Bases de datos
Bases de datos Bases de datos
Bases de datos
 
Gestor
GestorGestor
Gestor
 
Practica 2 base de datos
Practica 2 base de datosPractica 2 base de datos
Practica 2 base de datos
 
Sistema gestor de base de datos para moviles
Sistema gestor de base de datos para movilesSistema gestor de base de datos para moviles
Sistema gestor de base de datos para moviles
 
Big data y las apis (big data spain)
Big data y las apis (big data spain)Big data y las apis (big data spain)
Big data y las apis (big data spain)
 
El mundo Big Data y las APIs
El mundo Big Data y las APIsEl mundo Big Data y las APIs
El mundo Big Data y las APIs
 
Imagenes asociadas
Imagenes asociadasImagenes asociadas
Imagenes asociadas
 
BD para dispositivos móviles, Tipos de Base de Datos.
BD para dispositivos móviles, Tipos de Base de Datos.BD para dispositivos móviles, Tipos de Base de Datos.
BD para dispositivos móviles, Tipos de Base de Datos.
 
Cluster Multinodo en Apache Hadoop - Arquitectura Lambda
Cluster Multinodo en Apache Hadoop - Arquitectura LambdaCluster Multinodo en Apache Hadoop - Arquitectura Lambda
Cluster Multinodo en Apache Hadoop - Arquitectura Lambda
 
Introduccion big data
Introduccion  big dataIntroduccion  big data
Introduccion big data
 
BASE DE DATOS
BASE DE DATOSBASE DE DATOS
BASE DE DATOS
 

Mehr von Universidad Técnica del Norte

Urkund report tesis carmen-quintanchala_03-12-2020 (1).docx (d87810847)
Urkund report   tesis carmen-quintanchala_03-12-2020 (1).docx (d87810847)Urkund report   tesis carmen-quintanchala_03-12-2020 (1).docx (d87810847)
Urkund report tesis carmen-quintanchala_03-12-2020 (1).docx (d87810847)Universidad Técnica del Norte
 
Acompañamiento: el profesor tutor y la soledad del estudiante
Acompañamiento: el profesor tutor y la soledad del estudianteAcompañamiento: el profesor tutor y la soledad del estudiante
Acompañamiento: el profesor tutor y la soledad del estudianteUniversidad Técnica del Norte
 

Mehr von Universidad Técnica del Norte (20)

Urkund report tesis carmen-quintanchala_03-12-2020 (1).docx (d87810847)
Urkund report   tesis carmen-quintanchala_03-12-2020 (1).docx (d87810847)Urkund report   tesis carmen-quintanchala_03-12-2020 (1).docx (d87810847)
Urkund report tesis carmen-quintanchala_03-12-2020 (1).docx (d87810847)
 
Planificación Acompañamiento del Profesor
Planificación Acompañamiento del ProfesorPlanificación Acompañamiento del Profesor
Planificación Acompañamiento del Profesor
 
Interacción en Entornos Virtuales
Interacción en Entornos VirtualesInteracción en Entornos Virtuales
Interacción en Entornos Virtuales
 
Clase Remota en Vivo con Trabajo Previo y Posterior
Clase Remota en Vivo con Trabajo Previo y PosteriorClase Remota en Vivo con Trabajo Previo y Posterior
Clase Remota en Vivo con Trabajo Previo y Posterior
 
Importancia Objetos de Aprendizaje
Importancia Objetos de AprendizajeImportancia Objetos de Aprendizaje
Importancia Objetos de Aprendizaje
 
Acompañamiento: el profesor tutor y la soledad del estudiante
Acompañamiento: el profesor tutor y la soledad del estudianteAcompañamiento: el profesor tutor y la soledad del estudiante
Acompañamiento: el profesor tutor y la soledad del estudiante
 
Seguimiento: Herramientas del profesor Autor
Seguimiento: Herramientas del profesor AutorSeguimiento: Herramientas del profesor Autor
Seguimiento: Herramientas del profesor Autor
 
Evaluación del Proceso de Aprendizaje
Evaluación del Proceso de AprendizajeEvaluación del Proceso de Aprendizaje
Evaluación del Proceso de Aprendizaje
 
Comunicación Eficaz
Comunicación EficazComunicación Eficaz
Comunicación Eficaz
 
Metodología PACIE
Metodología PACIEMetodología PACIE
Metodología PACIE
 
Moodle
MoodleMoodle
Moodle
 
Elearning
ElearningElearning
Elearning
 
Funciones del Tutor Virtual
Funciones del Tutor VirtualFunciones del Tutor Virtual
Funciones del Tutor Virtual
 
Malla textilf11042018
Malla textilf11042018Malla textilf11042018
Malla textilf11042018
 
TIC en la Educación
TIC en la EducaciónTIC en la Educación
TIC en la Educación
 
Generación de certifcados con OpenSSL para Servidor
Generación de certifcados con OpenSSL para ServidorGeneración de certifcados con OpenSSL para Servidor
Generación de certifcados con OpenSSL para Servidor
 
Generacion de certifcados con OpenSSL para email
Generacion de certifcados con OpenSSL para emailGeneracion de certifcados con OpenSSL para email
Generacion de certifcados con OpenSSL para email
 
Silabo capacitacion educacion virtual facae
Silabo capacitacion educacion virtual facaeSilabo capacitacion educacion virtual facae
Silabo capacitacion educacion virtual facae
 
Web superficial y web profunda
Web superficial y web profundaWeb superficial y web profunda
Web superficial y web profunda
 
Metodología WEB NDT
Metodología WEB NDTMetodología WEB NDT
Metodología WEB NDT
 

Kürzlich hochgeladen

origen y desarrollo del ensayo literario
origen y desarrollo del ensayo literarioorigen y desarrollo del ensayo literario
origen y desarrollo del ensayo literarioELIASAURELIOCHAVEZCA1
 
EL HABITO DEL AHORRO en tu idea emprendedora22-04-24.pptx
EL HABITO DEL AHORRO en tu idea emprendedora22-04-24.pptxEL HABITO DEL AHORRO en tu idea emprendedora22-04-24.pptx
EL HABITO DEL AHORRO en tu idea emprendedora22-04-24.pptxsisimosolorzano
 
Tema 10. Dinámica y funciones de la Atmosfera 2024
Tema 10. Dinámica y funciones de la Atmosfera 2024Tema 10. Dinámica y funciones de la Atmosfera 2024
Tema 10. Dinámica y funciones de la Atmosfera 2024IES Vicent Andres Estelles
 
TIENDAS MASS MINIMARKET ESTUDIO DE MERCADO
TIENDAS MASS MINIMARKET ESTUDIO DE MERCADOTIENDAS MASS MINIMARKET ESTUDIO DE MERCADO
TIENDAS MASS MINIMARKET ESTUDIO DE MERCADOPsicoterapia Holística
 
Prueba libre de Geografía para obtención título Bachillerato - 2024
Prueba libre de Geografía para obtención título Bachillerato - 2024Prueba libre de Geografía para obtención título Bachillerato - 2024
Prueba libre de Geografía para obtención título Bachillerato - 2024Juan Martín Martín
 
Abril 2024 - Maestra Jardinera Ediba.pdf
Abril 2024 -  Maestra Jardinera Ediba.pdfAbril 2024 -  Maestra Jardinera Ediba.pdf
Abril 2024 - Maestra Jardinera Ediba.pdfValeriaCorrea29
 
Revista Apuntes de Historia. Mayo 2024.pdf
Revista Apuntes de Historia. Mayo 2024.pdfRevista Apuntes de Historia. Mayo 2024.pdf
Revista Apuntes de Historia. Mayo 2024.pdfapunteshistoriamarmo
 
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURAFORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURAEl Fortí
 
Diapositivas de animales reptiles secundaria
Diapositivas de animales reptiles secundariaDiapositivas de animales reptiles secundaria
Diapositivas de animales reptiles secundariaAlejandraFelizDidier
 
Prueba de evaluación Geografía e Historia Comunidad de Madrid 4ºESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 4ºESOPrueba de evaluación Geografía e Historia Comunidad de Madrid 4ºESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 4ºESOluismii249
 
Procedimientos para la planificación en los Centros Educativos tipo V ( multi...
Procedimientos para la planificación en los Centros Educativos tipo V ( multi...Procedimientos para la planificación en los Centros Educativos tipo V ( multi...
Procedimientos para la planificación en los Centros Educativos tipo V ( multi...Katherine Concepcion Gonzalez
 
SEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptx
SEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptxSEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptx
SEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptxYadi Campos
 
SESION DE PERSONAL SOCIAL. La convivencia en familia 22-04-24 -.doc
SESION DE PERSONAL SOCIAL.  La convivencia en familia 22-04-24  -.docSESION DE PERSONAL SOCIAL.  La convivencia en familia 22-04-24  -.doc
SESION DE PERSONAL SOCIAL. La convivencia en familia 22-04-24 -.docRodneyFrankCUADROSMI
 
TEMA 14.DERIVACIONES ECONÓMICAS, SOCIALES Y POLÍTICAS DEL PROCESO DE INTEGRAC...
TEMA 14.DERIVACIONES ECONÓMICAS, SOCIALES Y POLÍTICAS DEL PROCESO DE INTEGRAC...TEMA 14.DERIVACIONES ECONÓMICAS, SOCIALES Y POLÍTICAS DEL PROCESO DE INTEGRAC...
TEMA 14.DERIVACIONES ECONÓMICAS, SOCIALES Y POLÍTICAS DEL PROCESO DE INTEGRAC...jlorentemartos
 
semana 4 9NO Estudios sociales.pptxnnnn
semana 4  9NO Estudios sociales.pptxnnnnsemana 4  9NO Estudios sociales.pptxnnnn
semana 4 9NO Estudios sociales.pptxnnnnlitzyleovaldivieso
 
PLAN DE REFUERZO ESCOLAR MERC 2024-2.docx
PLAN DE REFUERZO ESCOLAR MERC 2024-2.docxPLAN DE REFUERZO ESCOLAR MERC 2024-2.docx
PLAN DE REFUERZO ESCOLAR MERC 2024-2.docxiemerc2024
 
Prueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESOPrueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESOluismii249
 
6°_GRADO_-_MAYO_06 para sexto grado de primaria
6°_GRADO_-_MAYO_06 para sexto grado de primaria6°_GRADO_-_MAYO_06 para sexto grado de primaria
6°_GRADO_-_MAYO_06 para sexto grado de primariaWilian24
 

Kürzlich hochgeladen (20)

origen y desarrollo del ensayo literario
origen y desarrollo del ensayo literarioorigen y desarrollo del ensayo literario
origen y desarrollo del ensayo literario
 
EL HABITO DEL AHORRO en tu idea emprendedora22-04-24.pptx
EL HABITO DEL AHORRO en tu idea emprendedora22-04-24.pptxEL HABITO DEL AHORRO en tu idea emprendedora22-04-24.pptx
EL HABITO DEL AHORRO en tu idea emprendedora22-04-24.pptx
 
Tema 10. Dinámica y funciones de la Atmosfera 2024
Tema 10. Dinámica y funciones de la Atmosfera 2024Tema 10. Dinámica y funciones de la Atmosfera 2024
Tema 10. Dinámica y funciones de la Atmosfera 2024
 
TIENDAS MASS MINIMARKET ESTUDIO DE MERCADO
TIENDAS MASS MINIMARKET ESTUDIO DE MERCADOTIENDAS MASS MINIMARKET ESTUDIO DE MERCADO
TIENDAS MASS MINIMARKET ESTUDIO DE MERCADO
 
Prueba libre de Geografía para obtención título Bachillerato - 2024
Prueba libre de Geografía para obtención título Bachillerato - 2024Prueba libre de Geografía para obtención título Bachillerato - 2024
Prueba libre de Geografía para obtención título Bachillerato - 2024
 
Abril 2024 - Maestra Jardinera Ediba.pdf
Abril 2024 -  Maestra Jardinera Ediba.pdfAbril 2024 -  Maestra Jardinera Ediba.pdf
Abril 2024 - Maestra Jardinera Ediba.pdf
 
Revista Apuntes de Historia. Mayo 2024.pdf
Revista Apuntes de Historia. Mayo 2024.pdfRevista Apuntes de Historia. Mayo 2024.pdf
Revista Apuntes de Historia. Mayo 2024.pdf
 
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURAFORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
 
Diapositivas de animales reptiles secundaria
Diapositivas de animales reptiles secundariaDiapositivas de animales reptiles secundaria
Diapositivas de animales reptiles secundaria
 
Prueba de evaluación Geografía e Historia Comunidad de Madrid 4ºESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 4ºESOPrueba de evaluación Geografía e Historia Comunidad de Madrid 4ºESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 4ºESO
 
Procedimientos para la planificación en los Centros Educativos tipo V ( multi...
Procedimientos para la planificación en los Centros Educativos tipo V ( multi...Procedimientos para la planificación en los Centros Educativos tipo V ( multi...
Procedimientos para la planificación en los Centros Educativos tipo V ( multi...
 
SEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptx
SEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptxSEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptx
SEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptx
 
Supuestos_prácticos_funciones.docx
Supuestos_prácticos_funciones.docxSupuestos_prácticos_funciones.docx
Supuestos_prácticos_funciones.docx
 
SESION DE PERSONAL SOCIAL. La convivencia en familia 22-04-24 -.doc
SESION DE PERSONAL SOCIAL.  La convivencia en familia 22-04-24  -.docSESION DE PERSONAL SOCIAL.  La convivencia en familia 22-04-24  -.doc
SESION DE PERSONAL SOCIAL. La convivencia en familia 22-04-24 -.doc
 
TEMA 14.DERIVACIONES ECONÓMICAS, SOCIALES Y POLÍTICAS DEL PROCESO DE INTEGRAC...
TEMA 14.DERIVACIONES ECONÓMICAS, SOCIALES Y POLÍTICAS DEL PROCESO DE INTEGRAC...TEMA 14.DERIVACIONES ECONÓMICAS, SOCIALES Y POLÍTICAS DEL PROCESO DE INTEGRAC...
TEMA 14.DERIVACIONES ECONÓMICAS, SOCIALES Y POLÍTICAS DEL PROCESO DE INTEGRAC...
 
semana 4 9NO Estudios sociales.pptxnnnn
semana 4  9NO Estudios sociales.pptxnnnnsemana 4  9NO Estudios sociales.pptxnnnn
semana 4 9NO Estudios sociales.pptxnnnn
 
PLAN DE REFUERZO ESCOLAR MERC 2024-2.docx
PLAN DE REFUERZO ESCOLAR MERC 2024-2.docxPLAN DE REFUERZO ESCOLAR MERC 2024-2.docx
PLAN DE REFUERZO ESCOLAR MERC 2024-2.docx
 
Prueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESOPrueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESO
 
6°_GRADO_-_MAYO_06 para sexto grado de primaria
6°_GRADO_-_MAYO_06 para sexto grado de primaria6°_GRADO_-_MAYO_06 para sexto grado de primaria
6°_GRADO_-_MAYO_06 para sexto grado de primaria
 
Tema 11. Dinámica de la hidrosfera 2024
Tema 11.  Dinámica de la hidrosfera 2024Tema 11.  Dinámica de la hidrosfera 2024
Tema 11. Dinámica de la hidrosfera 2024
 

Big Data

  • 1. UNIVERSIDAD TECNICA DEL NORTE Ing. Lenin Omar Lara Castro. BIG DATA Historia del Arte: El Big Data o Datos Masivos se refieren a sistemas informáticos basados en la acumulación a gran escala de datos y de los procedimientos usados para identificar patrones recurrentes dentro de esos datos. La disciplina dedicada a los datos masivos se enmarca en el sector de las tecnologías de la información y la comunicación. Esta disciplina se ocupa de todas las actividades relacionadas con los sistemas que manipulan grandes conjuntos de datos. Las dificultades más habituales vinculadas a la gestión de estas cantidades de datos se centran en la captura, el almacenamiento, búsqueda, compartición, análisis, y visualización. La tendencia a manipular ingentes cantidades de datos se debe a la necesidad en muchos casos de incluir los datos relacionados del análisis en un gran conjunto de datos, como los análisis de negocio, publicitarios, los datos de enfermedades infecciosas, el espionaje y seguimiento a la población o la lucha contra el crimen organizado Los Big Data pueden ser tanto estructurados como no estructurados. Las bases de datos relacionales tradicionales, como Informix y DB2, proporcionan soluciones comprobadas para datos estructurados. A través de la extensibilidad, también gestionan datos no estructurados. La tecnología Hadoop trae técnicas de programación nuevas y más accesibles para trabajar en almacenamientos de datos masivos con datos tanto estructurados como no estructurados.
  • 2. Apache Hadoop es un framework que permite el procesamiento de grandes volúmenes de datos a través de clusters, usando un modelo simple de programación. Además su diseño permite pasar de pocos nodos a miles de nodos de forma ágil. Hadoop es un sistema distribuido usando una arquitectura Master-Slave, usando para almacenar su Hadoop Distributed File System (HDFS) y algoritmos deMapReduce para hacer cálculos. CARACTERISTICAS HDFS Si tenemos más de 4000 computadoras trabajando en sus datos, entonces más vale que distribuya sus datos a lo largo de más de 4000 computadoras. HDFS hace esto para usted. HDFS es el sistema de almacenamiento, es un sistema de ficheros distribuido. Fue creado a partir del Google File System (GFS). HDFS se encuentra optimizado para grandes flujos y trabajar con ficheros grandes en sus lecturas y escrituras. Su diseño reduce la E/S en la red. La escalabilidad y disponibilidad son otras de sus claves, gracias a la replicación de los datos y tolerancia a los fallos. Los elementos importantes del cluster:
  • 3. o NameNode: Sólo hay uno en el cluster. Regula el acceso a los ficheros por parte de los clientes. Mantiene en memoria la metadata del sistema de ficheros y control de los bloques de fichero que tiene cada DataNode. o DataNode: Son los responsables de leer y escribir las peticiones de los clientes. Los ficheros están formados por bloques, estos se encuentran replicados en diferentes nodos. MAP REDUCE MapReduce es un proceso batch, creado para el proceso distribuido de los datos. Permite de una forma simple, paralelizar trabajo sobre los grandes volúmenes de datos, como combinar web logs con los datos relacionales de una base de datos OLTP, de esta forma ver como los usuarios interactúan con el website. El modelo de MapReduce simplifica el procesamiento en paralelo, abstrayéndonos de la complejidad que hay en los sistemas distribuidos. Básicamente las funciones Maptransforman un conjunto de datos a un número de pares key/value. Cada uno de estos elementos se encontrará ordenado por su clave, y la función reduce es usada para combinar los valores (con la misma clave) en un mismo resultado. Un programa en MapReduce, se suele conocer como Job, la ejecución de un Job empieza cuando el cliente manda la configuración de Job al JobTracker, esta configuración especifica las funciones Map, Combine (shuttle) y Reduce, además de la entrada y salida de los datos. ARQUITECTURA:
  • 4. HDFS, la capa inferior, yace sobre un clúster de hardware de producto. Servidores sencillos montados en bastidor, cada uno con 2 núcleos Hex, 6 a 12 discos, y Ram de 32 GB. Para un trabajo de map-reduce, la capa del correlacionador lee a partir de los discos a muy alta velocidad. El correlacionador emite pares de valores claves que son ordenados y presentados al reductor, y la capa de reductor resume los pares de valor clave. No, usted no necesita resumir, usted de hecho puede tener un trabajo map-reduce que solo tiene correlacionadores. Esto debe ser más fácil de comprender cuando usted llegue al ejemplo python- awk. VENTAJAS Ventajas Bajo coste: Clusters baratos o cloud Facilidad de uso Tolerancia a fallos CASOS DE ÉXITO Facebook Twitter Yahoo
  • 5. Apache CouchDB, comúnmente llamada CouchDB, es un gestor de bases de datos de código abierto, cuyo foco está puesto en la facilidad de su uso y en ser "una base de datos que asume la web de manera completa". Se trata de una base de datos NoSQL que emplea JSON para almacenar los datos, JavaScript como lenguaje de consulta por medio de MapReduce y HTTP como API. Una de sus características más peculiares es la facilidad con la que permite hacer replicaciones. CouchDB fue liberada por primera vez en 2005, transformándose en un proyecto Apache en 2008. A diferencia de una base de datos relacional, CouchDB no almacena los datos y sus relaciones en tablas. En cambio, cada base de datos es una colección de documentos independientes. Cada documento mantiene sus propios datos y su esquema autocontenido. Una aplicación puede acceder a múltiples bases de datos, por ejemplo una residente en el teléfono móvil del usuario y otra residente en un servidor. Los metadatos del documento contienen información acerca de la versión del mismo, permitiendo refundir cualesquiera diferencias que puedan haberse producido mientras las bases de datos estaban desconectadas. CouchDB implementa una forma de control de concurrencia multiversión (MVCC) a fin de evitar la necesidad de bloquear el archivo de base de datos durante las escrituras. La resolución de conflictos se delega a la aplicación. Para resolver un conflicto generalmente se requiere primero refundir los datos en uno de los documentos para luego eliminar el otro. Otras características son una semántica ACID con consistencia eventual, MapReduce, replicación incremental y tolerancia a los fallos. Las labores de administración se facilitan por medio de una aplicación web incorporada, llamada Futon. CARACTERÍSTICAS PRINCIPALES
  • 6. Almacenamiento de documentos CouchDB almacena los datos como "documentos", esto es, uno o más pares campo/valor expresados en JSON. Los valores de los campos pueden ser datos simples como cadenas de caracteres, números o fechas. Pero también se pueden usar listas ordenadas y vectores asociativos. Todos los documentos en una base de datos CouchDB tienen un identificador único y no requieren un esquema determinado. Semántica ACID CouchDB provee una semántica de atomicidad, consistencia, aislamiento y durabilidad.8 Lo hace implementando una forma de control de concurrencia multiversión, lo que significa que CouchDB puede manejar un gran número de lectores y escritores en paralelo, sin que surjan conflictos. Vistas e índices Map/Reduce Los datos almacenados se estructuran por medio de vistas. En CouchDB, cada vista se construye por medio de una función JavaScript que actúa como la mitad Map de una operación map/reduce. La función recibe un documento y lo transforma en un único valor, retornándolo. CouchDB puede indexar vistas y mantener actualizados esos índices a medida de que se agregan, eliminan o actualizan documentos. Arquitectura distribuida con replicación CouchDB se diseñó con teniendo en mente la replicación bidireccional (o sincronización) y la operación off-line. Eso significa que múltiples réplicas pueden tener cada una sus propias copias de los mismos datos, modificarlas y luego sincronizar esos cambios en un momento posterior. Interfaz REST Todos los ítems tienen una URI única que queda expuesta vía HTTP. REST usa los métodos HTTP POST, GET, PUT y DELETE para las cuatro operaciones básicas CRUD (Create, Read, Update, Delete) con todos los recursos. Consistencia Eventual
  • 7. CouchDB garantiza consistencia eventual para poder ofrecer tanto disponibilidad como tolerancia a las particiones. Hecha para operar offline CouchDB puede replicar datos a dispositivos (como smartphones) que pueden quedar offline y manejar automáticamente la sincronización de los datos cuando el dispositivo vuelve a estar en línea. CouchDB también ofrece una interfaz de administración incorporada y accesible vía web llamada Futon. CASOS DE ÉXITO CouchDB se usa en determinadas aplicaciones para Android, tales como "SpreadLyrics", así como aplicaciones para Facebook como "Will you Kissme" o "Birthday Greeting Cards", o bien sitios web como "Friendpaste" Entre las empresas que han usado o actualmente usan CouchDB se pueden mencionar: Ubuntu para su servicio de sincronización "Ubuntu One" hasta noviembre de 2011pero fue descontinuado por problemas de escalabilidad. La BBC, para sus plataformas de contenidos dinámicos14 Credit Suisse, para usos internos en el departamento de commodities para su framework de mercados.11 Meebo, para su plataforma social (web y aplicaciones) - Meebo fue adquirido por Google y cesó sus operaciones el 12 de julio de 2012. ARQUITECTURA Cuando las bases de datos relacionales son costosas para replicar debido a la complejidad de hacer el seguimiento de los cambios en las bases de datos. Después de una sincronización inicial CouchDB sólo replica los cambios. Sería bastante fácil de dar a cada nodo de su propio ejemplo CouchDB y replicar los cambios necesarios a partir de una base de datos master central; creando así (casi) nodos autónomos:
  • 8. NEW SQL NewSQL es una clase de modernos relacionales sistemas de gestión de bases de datos que tratan de ofrecer el mismo rendimiento escalable de NoSQL sistemas para el procesamiento de transacciones en línea (OLTP) las cargas de trabajo, manteniendo los de escritura lectura ACID garantías de un sistema de base de datos tradicional. Nuevas Arquitecturas El primer tipo de sistemas NewSQL son plataformas de bases de datos completamente nuevas. Están diseñadas para funcionar en un clúster distribuido shared-nothing, en el que cada nodo posee un subconjunto de los datos. Aunque en muchas de las nuevas bases de datos se han usado diferentes enfoques de diseño, hay dos categorías principales en evolución. El primer tipo envía la ejecución de transacciones y consultas a los nodos que contienen los datos necesarios. Las consultas SQL se dividen en fragmentos y se envían a los nodos, que son los que procesan y contienen de los datos. Estas bases de datos son capaces de escalar linealmente a medida que se agregan nodos adicionales.
  • 9. Bases de datos de uso general: Estas mantienen la funcionalidad completa de bases de datos tradicionales y el manejo de todo tipo de consultas. Estas bases de datos se escriben a menudo a partir de cero con una arquitectura distribuida en mente, e incluyen componentes como el control distribuido de concurrencia, el control de flujo, y el procesamiento de consultas distribuidas. Entre ellas están Google Spanner, Clustrix, NuoDB y TransLattice. Base de datos en memoria: Las solicitudes dirigidas por estos sistemas NewSQL se caracterizan por tener un gran número de transacciones de corta duración (es decir, sin puestos de usuario), que tocan un pequeño subconjunto de datos utilizando las búsquedas de índice (es decir, no hay recorridos de tablas completos o grandes joins distribuidos) y repetitivas (es decir, ejecutan las mismas consultas con diferentes entradas). Estos sistemas NewSQL logran un alto rendimiento y escalabilidad al evitar que gran parte de la arquitectura sea heredada del diseño original del Sistema R, tales como los algoritmos de recuperación o de control de concurrencia. Dos sistemas de ejemplo de esta categoría son VoltDB y SQLFire de GoPivotal. Motores MySQL. La segunda categoría está muy optimizada como motor de almacenamiento de SQL. Estos sistemas proporcionan la misma interfaz de programación que MySQL, pero con mejor escala incorporada en los motores, como InnoDB. Varios ejemplos de estos nuevos motores son: TokuDB, MemSQL y Akiban. Protección transparente Estos sistemas proporcionan una capa protectora intermedia para dividir automáticamente las bases de datos a través de múltiples nodos. Algunos ejemplos de este tipo de sistema son dbShards, Scalearc, Scalebase y MySQL Cluster.
  • 10. CARACTERISTICAS Real-Time Analytics en datos operativos en Vivo Clustrix DB le permite manejar los datos masivos y necesidades de transacción de su aplicación, simplemente, sin cambios en el código y sin reemplazar la base de datos o el hardware a medida que crecen sus necesidades de aplicación. Análisis en tiempo real le permiten obtener una fracción de segundo respuesta a consultas complejas sobre los datos del cliente en marcha hasta la fecha, sin necesidad de crear bases de datos redundantes. Clustrix DB emplea procesamiento paralelo masivo (MPP) a través de su grupo de distribución para paralelizar y distribuir las consultas SQL, y utiliza todos los recursos disponibles de la agrupación para
  • 11. acelerar las consultas. Clustrix DB emplea múltiples versión control de concurrencia (MVCC) para asegurar que lee y escribe no interfieren entre sí, lo que permite el análisis para correr en paralelo con las escrituras y actualizaciones sin afectar el rendimiento. En la memoria de análisis en Clustrix DB utilizan memoria respaldada por los SSD. Los datos calientes de uso común se queda en la memoria y el resto de los datos es sólo unos microsegundos de distancia, en los SSD. Mediante el uso de esta combinación efectiva, Clustrix ofrece la mezcla perfecta de durabilidad, velocidad y costo. Por el contrario, puras bases de datos en memoria son caros para las bases de datos de TB-escala y carecen de durabilidad para las necesidades de bases de datos operacionales. Self-Managing Operación Prácticamente elimina tareas de operaciones DBA porque la dirección está incorporado en la base de datos en sí. Se construye con muchos puntos de instrumentación y Clustrix Rebalancer siempre está trabajando en un segundo plano, dejando el grupo saludable con una sobrecarga mínima. Además permite ejecutar análisis en tiempo real sobre los datos operacionales en vivo sin moverlo a otro sistema. Puede ejecutar consultas e informes sobre sus datos más valiosos. Fácil Migración Le permite seguir utilizando su código y lenguaje SQL. Para los usuarios de MySQL, los cambios de código requeridos son mínimos. Clustrix se puede configurar como esclavo a MySQL y ascendido a maestro, mientras que su base de datos y aplicaciones se están ejecutando. Massive volumen de transacciones Maneja el enorme volumen de transacciones que las aplicaciones grandes y de rápido crecimiento necesitan, con facilidad. Agrega escalas cerca linealmente a medida que agrega los nodos, incluso con cargas de trabajo altamente concurrentes.
  • 12. Le permite manejar los datos masivos y necesidades de transacción de su aplicación, simplemente, sin cambios en el código y sin reemplazar la base de datos o el hardware a medida que crecen sus necesidades de aplicación. Cada nodo puede recibir y procesar las transacciones. La base de datos cuenta con una arquitectura de nada compartido, conocido a escala linealmente con distribuida. BIBLIOGRAFIA: • Carrillo Ruiz, Jose Antonio; Marco de Lucas, Jesus E.; Cases Vega, Fernando; Dueñas Lopez, Juan Carlos; Cristino Fernandez, Jose; Gonzalez Muñoz de Morales, Guillermo; Pereda Laredo, Luis Fernando (Marzo 2013). «Big Data en los entornos de Defensa y Seguridad». Instituto Español de Estudios Estratégicos. • Martín, Adriana; Chávez, Susana; Rodríguez, Nelson R.; Valenzuela, Adriana; Murazzo, Maria A. (2013). «Bases de datos NoSql en cloud computing». WICC. Consultado el 18 de octubre de 2014. • Kohlwey, Edmund; Sussman, Abel; Trost, Jason; Maurer, Amber (2011). «Leveraging the Cloud for Big Data Biometrics». IEEE World Congress on Services.