Más contenido relacionado La actualidad más candente (20) Similar a Big Data y su impacto en la Inteligencia de Negocios (20) Big Data y su impacto en la Inteligencia de Negocios1. INGENIERÍA DE ORGANIZACIÓN
INDUSTRIAL
Inteligencia de negocios
Tema 6
Big Data: Los grandes volúmenes
de datos y su impacto en la
inteligencia de negocios
Curso 2012/13 – 2º C
Prof. Luis Joyanes Aguilar
1
2. EXPANSIÓN, de Wall Street Journal, 1 de
abril 2013
01.04.2013 S. Rosenbush / M. Totty. WSJ. Las empresas
están buscando la mejor forma de aprovechar el exceso
de información.
La información abunda y las empresas están buscando la
mejor forma de aprovecharla. Los expertos ya bautizaron
este fenómeno como big data. La definición es amorfa,
pero normalmente significa lo siguiente: las empresas
tienen acceso a mucha más información que antes, que
proviene de muchas más fuentes y la obtienen casi al
momento en que se genera.
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –2–
Abril 2013.Curso 2012/13
3. EXPANSIÓN, de Wall Street Journal, 1 de
abril 2013
El concepto de big data a menudo se relaciona con las empresas que
ya operan en el mundo de la información, como Google, Facebook y
Amazon. Pero compañías en múltiples industrias están
colocando los datos en el corazón de sus operaciones. Están
recolectando cantidades enormes de información, a menudo
combinando indicadores tradicionales como las ventas, con
comentarios de redes sociales e información de ubicación que
viene de los dispositivos móviles. Las empresas escudriñan esta
información para mejorar sus productos, recortar gastos y mantener
la fidelidad de sus clientes.
Las firmas de logística, por ejemplo, instalan sensores en sus
camiones para detectar formas de acelerar las entregas. Los
fabricantes revisan miles de publicaciones en foros de Internet para
determinar si a los clientes les gusta una nueva característica. Los
gerentes de personal estudian cómo los candidatos a un empleo
responden preguntas para ver si encajan bien con la compañía.
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –3–
Abril 2013.Curso 2012/13
4. EXPANSIÓN, de Wall Street Journal, 1 de
abril 2013
Aún quedan numerosos obstáculos en el camino. Algunos
son técnicos, pero en la mayoría de las empresas las
decisiones se siguen basando en la opinión de la persona
con el salario más alto y podría ser difícil convencer a un
ejecutivo de que los datos superan su intuición.
Los recursos humanos, las operaciones, el desarrollo de
productos o el márketing son las diferentes formas a
través de las cuales las empresas usan el poder de la
información para transformar sus negocios.
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –4–
Abril 2013.Curso 2012/13
5. EXPANSIÓN, de Wall Street Journal, 1 de
abril 2013 (casos de estudio)
UPS
UPS comenzó a instalar sensores en sus vehículos de
reparto para conocer su velocidad y ubicación, si el
cinturón de seguridad del conductor está abrochado... Al
combinar su información de GPS y los datos de sensores
sobre rendimiento en más de 46.000 vehículos, UPS
recortó 136 millones de kilómetros de sus rutas.
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –5–
Abril 2013.Curso 2012/13
6. EXPANSIÓN, de Wall Street Journal, 1 de
abril 2013 (casos de estudio)
InterContinental
La cadena hotelera InterContinental ha recabado
información sobre los 71 millones de miembros de su
programa Priority Club, como niveles de ingresos y
preferencias sobre las instalaciones. El grupo consolidó la
información en un solo almacén de datos que reúne
información de redes sociales y procesa búsquedas más
rápido
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –6–
Abril 2013.Curso 2012/13
7. Tabla de unidades de almacenamiento
(The Economist, febrero 2010): ―data, data everywhere‖
www.economist.com/specialreports/displaystory.cfm?story_id=15557421
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –7–
Abril 2013.Curso 2012/13
8. LA AVALANCHA DE DATOS
Según Eric Schmidt, presidente ejecutivo de Google, entre el
origen de la tierra y el 2003 se crearon cinco exabytes de
información. Hoy en día creamos la misma cifra cada dos
días2. Las previsiones aseguran que en esta década
crearemos alrededor de 35 zettabytes (40 ZB, informe de
diciembre de 2012)
Según la consultora IDC, cifran en 1,8 Zettabytes la
información generada en 2011. Si tratáramos de almacenar
esa información en iPads (del modelo de 32GB)
necesitaríamos 57.500 millones; puestos unos al lado de
otro formaríamos una línea que daría 3 veces la vuelta al
mundo y, si tratáramos de apilarlos, la ―montaña‖ resultante
sería 25 veces más alta que el monte Fuji.
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –8–
Abril 2013.Curso 2012/13
9. EL UNIVERSO DIGITAL DE DATOS
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –9–
Abril 2013.Curso 2012/13
10. LA AVALANCHA DE DATOS
Twitter: (redes sociales)
90 millones de Tweets por día que representa 8
Terabytes.
Boeing: (industria)
Vuelo transoceánico de un jumbo puede generar 640
Terabytes.
Wal-Mart: (comercio)
1 millón de transacciones por hora que se estima que
alimenta una base de datos de 2.5 petabytes.
Google procesa al día 20 petabytes de información
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –10–
Abril 2013.Curso 2012/13
11. Big Data – McKinsey. Junio 2011
Big data: The next frontier for
innovation, competition, and
productivity.
http://www.mckinsey.com/Insights/MGI/
Research/Technology_and_Innovation/Big
_data_The_next_frontier_for_innovation
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –11–
Abril 2013.Curso 2012/13
12. Big Data – McKinsey. Junio 2011
Big data: The next frontier for innovation,
competition, and productivity.
The amount of data in our world has been
exploding. Companies capture trillions of bytes of
information about their customers, suppliers, and
operations, and millions of networked sensors are
being embedded in the physical world in devices
such as mobile phones and automobiles,
sensing, creating, and communicating data.
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –12–
Abril 2013.Curso 2012/13
13. Big Data – McKinsey. Junio 2011
Multimedia and individuals with smartphones and
on social network sites will continue to fuel
exponential growth. Big data—large pools of data
that can be captured, communicated, aggregated,
stored, and analyzed—is now part of every sector
and function of the global economy. Like other
essential factors of production such as hard
assets and human capital, it is increasingly the
case that much of modern economic activity,
innovation, and growth simply couldn’t take place
without data.
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –13–
Abril 2013.Curso 2012/13
14. Big Data – McKinsey. Junio 2011
The question is what this phenomenon means. Is the
proliferation of data simply evidence of an increasingly
intrusive world? Or can big data play a useful economic
role? While most research into big data thus far has
focused on the question of its volume, our study makes the
case that the business and economic possibilities of big
data and its wider implications are important issues that
business leaders and policy makers must tackle. To inform
the debate, this study examines the potential value that big
data can create for organizations and sectors of the
economy and seeks to illustrate and quantify that value. We
also explore what leaders of organizations and policy
makers need to do to capture it.
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –14–
Abril 2013.Curso 2012/13
15. What do we mean by "big data"?―
: McKinsey 2011
―Big data‖ refers to datasets whose size is
beyond the ability of typical database software
tools to capture, store, manage, and analyze.
This definition is intentionally subjective and incorporates a
moving definition of how big a dataset needs to be in order to be
considered big data—i.e., we don’t define big data in terms of
being larger than a certain number of terabytes (thousands of
gigabytes). We assume that, as technology advances over time,
the size of datasets that qualify as big data will also increase. Also
note that the definition can vary by sector, depending on what
kinds of software tools are commonly available and what sizes of
datasets are common in a particular industry. With those caveats,
big data in many sectors today will range from a few dozen
terabytes to multiple petabytes (thousands of terabytes).
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –15–
Abril 2013.Curso 2012/13
16. DEFINICIÓN DE BIG DATA: IBM
What is big data?*
Every day, we create 2.5 quintillion bytes of data — so
much that 90% of the data in the world today has been
created in the last two years alone. This data comes from
everywhere: sensors used to gather climate information,
posts to social media sites, digital pictures and videos,
purchase transaction records, and cell phone GPS signals
to name a few. This data is big data.
*http://www-
01.ibm.com/software/data/bigdata/
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –16–
Abril 2013.Curso 2012/13
17. DEFINICIÓN DE BIG DATA: IBM
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –17–
Abril 2013.Curso 2012/13
18. DEFINICIÓN DE BIG DATA: IBM
Big data spans four dimensions: Volume, Velocity,
Variety, and Veracity.
Volume: Enterprises are awash with ever-growing data
of all types, easily amassing terabytes—even petabytes—
of information.
• Turn 12 terabytes of Tweets created each day into
improved product sentiment analysis
• Convert 350 billion annual meter readings to better
predict power consumption
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –18–
Abril 2013.Curso 2012/13
19. DEFINICIÓN DE BIG DATA: IBM
Velocity: Sometimes 2 minutes is too late. For time-
sensitive processes such as catching fraud, big data must
be used as it streams into your enterprise in order to
maximize its value.
• Scrutinize 5 million trade events created each day to
identify potential fraud
• Analyze 500 million daily call detail records in real-time to
predict customer churn faster
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –19–
Abril 2013.Curso 2012/13
20. DEFINICIÓN DE BIG DATA: IBM
Variety: Big data is any type of data - structured and
unstructured data such as text, sensor data, audio, video,
click streams, log files and more. New insights are found
when analyzing these data types together.
Monitor 100’s of live video feeds from surveillance
cameras to target points of interest
Exploit the 80% data growth in images, video and
documents to improve customer satisfaction
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –20–
Abril 2013.Curso 2012/13
21. DEFINICIÓN DE BIG DATA: IBM
Veracity: 1 in 3 business leaders don’t trust the
information they use to make decisions. How can you act
upon information if you don’t trust it? Establishing trust in
big data presents a huge challenge as the variety and
number of sources grows.
Big data is more than simply a matter of size; it is an opportunity to
find insights in new and emerging types of data and content, to make
your business more agile, and to answer questions that were
previously considered beyond your reach. Until now, there was no
practical way to harvest this opportunity. Today, IBM’s platform for
big data uses state of the art technologies including patented
advanced analytics to open the door to a world of possibilities.
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –21–
Abril 2013.Curso 2012/13
22. Modelo 3V de Big Data
VOLUMEN
• Terabytes
• Records
• Transactions
• Tables, files
VELOCIDAD VARIEDAD
• Batch (por lotes) Estructurado
• Near time (casi a tiempo) No estructurado
• Real time (tiempo real) Semi-estructurado
• Streams (flujos) Todos los demás
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –22–
Abril 2013.Curso 2012/13
23. Fuentes de Big Data
Herramientas para análisis de datos en grandes
volúmenes de datos.
Infraestructuras de Big Data
Fuentes de Big Data (Soares 2012):
Web y Social media
Machine-to-Machine (M2M, Internet de las
cosas)
Biometria
Datos de transacciones de grandes datos (salud,
telecomunicaciones…)
Datos generados por las personas (humanos)
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –23–
Abril 2013.Curso 2012/13
24. Store.com
Sunil Soares (2003). Big Data Governance. An
Emerging Imperative. Boise. MC Press Online. El
autor de este libro mantiene un blog excelente sobre
Big Data y Gobierno de Big Data
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –24–
Abril 2013.Curso 2012/13
25. Big Data. Joyanes, MéxicoDF: Alfaomega (2013)
1. Web y Social Media: Incluye contenido web e información
que es obtenida de las medios sociales como Facebook, Twitter,
LinkedIn, Foursquare, Tuenti, etc, blogs como Technorati, blogs
de periódicos y televisiones, wikis como MediaWiki, Wikipedia,
marcadores sociales como Del.icio.us, Stumbleupon…
agregadores de contenidos como Dig, Meneame… En esta
categoría los datos se capturan, almacenan o distribuyen
teniendo presente las características siguientes: Datos de los
flujos de clics, tuits, retuits o entradas en general (feeds) de
Twitter, Tumblr…, Entradas (posting) de Facebook y contenidos
web diversos.
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –25–
Abril 2013.Curso 2012/13
26. Big Data. Joyanes, MéxicoDF: Alfaomega (2013)
2. Machine-to-Machine (M2M)/ Internet de las
cosas: M2M se refiere a las tecnologías que permiten conectarse a
otros diferentes dispositivos entre sí. M2M utiliza dispositivos como
sensores o medidores que capturan algún evento en particular
(humedad, velocidad, temperatura, presión, variables meteorológicas,
variables químicas como la salinidad, etc.) los cuales transmiten a
través de cableadas, inalámbricas y móviles a otras aplicaciones que
traducen estos eventos en información significativa. La comunicación
M2M ha originado el conocido Internet de las cosas o de los objetos.
Entre los dispositivos que se emplean para capturar datos de esta
categoría podemos considerar chips o etiquetas RFID, chips NFC,
medidores (de temperaturas, de electricidad, presión…). sensores,
dispositivos GPS… y ocasionan la generación de datos mediante la
lectura de los medidores, lecturas de los RFID y NFC, lectura de los
sensores, señales GPS, señales de GIS, etc.
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –26–
Abril 2013.Curso 2012/13
27. Big Data. Joyanes, MéxicoDF: Alfaomega (2013)
3.Big Data transaccionales: Grandes datos transaccionales
procedentes de operaciones normales de transacciones de todo
tipo. Incluye registros de facturación, en telecomunicaciones
registros detallados de las llamadas (CDR), etc. Estos datos
transaccionales están disponibles en formatos tanto
semiestructurados como no estructurados. Los datos generados
procederán de registros de llamada de centros de llamada,
departamentos de facturación, reclamaciones de las personas,
presentación de documentos…
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –27–
Abril 2013.Curso 2012/13
28. Big Data. Joyanes, MéxicoDF: Alfaomega (2013)
4. Biometría: La biometría o reconocimiento biométrico.
La información biométrica se refiere a la identificación
automática de una persona basada en sus características
anatómicas o trazos personales. Los datos anatómicos se
crean a partir de las características físicas de una persona
incluyendo huellas digitales, iris, escaneo de la retina,
reconocimiento facial, genética, DNA, reconocimiento de
voz, incluso olor corporal etc. Los datos de
comportamiento incluyen análisis de pulsaciones y
escritura a mano. Los avances tecnológicos han
incrementado considerablemente los datos biométricos
disponibles
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –28–
Abril 2013.Curso 2012/13
29. Big Data. Joyanes, MéxicoDF: Alfaomega (2013)
. En el área de seguridad e inteligencia, los datos
biométricos han sido información importante para las
agencias de investigación. En el área de negocios y de
comercio electrónico los datos biométricos se pueden
combinar con datos procedentes de medios sociales lo
que hace aumentar el volumen de datos contenidos en los
datos biométricos. Los datos generados por la biometría
se pueden agrupar en dos grandes categorías: Genética y
Reconocimiento facial.
―An Overview of Biometric Recpgnition‖.
http://biometrics.cse.nsu.edu/info.html
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –29–
Abril 2013.Curso 2012/13
30. Big Data. Joyanes, MéxicoDF: Alfaomega (2013)
5. Datos generados por las personas: Las personas
generan enormes y diversas cantidades de datos como la
información que guarda un centro de llamadas telefónicas
(call center) al establecer una llamada telefónica, notas de
voz, correos electrónicos, documentos electrónicos,
estudios y registros médicos electrónicos, recetas
médicas, documentos papel, faxes, etc. El problema que
acompaña a los documentos generados por las personas es que
pueden contener información sensible de las personas que necesita,
normalmente ser oculta, enmascarada o cifrada de alguna forma para
conservar la privacidad de dichas personas. Estos datos al ser
sensibles necesitan ser protegidos por las leyes nacionales o
supranacionales (como es el caso de la Unión Europea o Mercosur)
relativas a protección de datos y privacidad.
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –30–
Abril 2013.Curso 2012/13
31. Estructura de Big Data: tipos de datos
Estructurados
No estructurados
No estructurados (texto, datos de vídeo, datos de audio,,,)
Semiestructurados ( a veces se conocen como
―multiestructurados‖. Tienen un formato y flujo lógico de modo
que pueden ser entendidos pero el formato no es amistoso al
usuario(HTML. XML…, datos de web logs)
Normalmente, se suelen asociar los datos
estructurados a los tradicionales y los datos no
estructurados a los Big Data
Objetivo principal de los sistemas de gestión de
datos: Integración de datos estructurados y no
estructurados
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –31–
Abril 2013.Curso 2012/13
32. ESTADO ACTUAL DE BIG DATA
1. Almacenamiento:
hacen falta nuevas tecnologías de almacenamiento
2. Bases de datos:
las BD relacionales no pueden con todo
3. Procesado:
se requieren nuevos modelos de programación
4. Obtención de valor:
los datos no se pueden comer crudos (en bruto)
La información no es conocimiento ―accionable‖
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –32–
Abril 2013.Curso 2012/13
33. Bases de datos
In-Memory (en-memoria)
SAP Hana
Oracle Times Ten In.Memory Database
IBM solidDB
Relacional
Sistemas RDBMS (SGBDR). Oracle, IBM, Microsoft…
Transeferencia de datos entre Hadoop y bases de datos
relacionales
Legacy (jerárquicas, en red… primeras relacionales…)
In-Memory (SAP, Oracle, Microsoft…)
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –33–
Abril 2013.Curso 2012/13
34. 1. Almacenamiento
Hacen falta nuevas tecnologías de almacenamiento
RAM vs HHD
HHD 100 más barato que RAM
Pero 1000 veces más lento
Solución actual:
Solid- state drive (SSD) además no volátil
Investigación:
Storage Class Memory (SCM)
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –34–
Abril 2013.Curso 2012/13
35. 2. Base de datos
Las BD relacionales no pueden con todo
Base de datos
volumen de la información
GBs
PBs Tiempo de ejecución
Limitadas para almacenar ―big data‖
(ACID, SQL, …)
ACID: Atomicity, Consistency, Isolation & Durability
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –35–
Abril 2013.Curso 2012/13
36. 2. Bases de datos
In-Memory (en-memoria)
SAP Hana
Oracle Times Ten In-Memory Database
IBM solidDB
NoSQL (Not only SQL)
Relacional
Sistemas RDBMS
Transferencia de datos entre Hadoop y bases de datos
relacionales
Legacy (heredadas, antiguas…)
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –36–
Abril 2013.Curso 2012/13
37. 3. Procesado
Se requieren nuevos modelos de programación
para manejarse con estos datos
Solución: Para conseguir procesar grandes conjuntos de
datos: MapReduce
Pero fue el desarrollo de Hadoop MapReduce,
por parte de Yahoo, el que ha propiciado un ecosistema
de herramientas open source os Google creó el modelo
de programación MapReduce
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –37–
Abril 2013.Curso 2012/13
38. 4. Obtención de valor
los datos no se pueden comer crudos la
información no es conocimiento accionable
Para ello tenemos tecnicas de Data Mining
• Asociación
• Clasificación
• Clustering
• Predicción
• ...
Pero la mayoría de algoritmos se ejecutan bien en
miles de registros, pero son hoy por hoy
impracticables en miles de millones.
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –38–
Abril 2013.Curso 2012/13
39. 4. Obtención de valor
Solución: Dentro del ecosistema open source Hadoop
existe la iniciativa Mahout
El objetivo es producir una implementación libre de un
paquete que incluya los principales algoritmos de Data
mining que escalen sobre la plataforma Hadoop.
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –39–
Abril 2013.Curso 2012/13
41. Bases de datos NoSQL (Not only SQL)
NoSQL – es un término utilizado para describir
un subconjunto de bases de datos que difiere en
varios modos de bases de datos tradicionales
(RDBMS).
No tienen schemas, no permiten JOINs, no intentan
garantizar ACID y escalan horizontalmente
El término fue acuñado en 1998 por Carlo
Strozzi y resucitado en 2009 por Eric Evans
El propio Evans sugiere mejor referirse a esta familia
de BBDD de nueva generación como ―Big Data‖
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –41–
Abril 2013.Curso 2012/13
42. Bases de datos NoSQL (Not only SQL)
Categoría de sistemas de gestión de bases de datos que
no utilizan el lenguaje SQL como su principal lenguaje de
consulta.
Incluyen una amplia oferta tal como Apache Hbase,
Apache Cassandra, MongoDB, Apache CpuchDB,
Riak, Neo4J, Redis, Membase, Amazon DynamoDB
que constituye el software como servicio de Amazon Web
Services
Cassandra se utiliza en organizaciones tales como Netflix,
Twitter, Cisco…
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –42–
Abril 2013.Curso 2012/13
43. Bases de datos NoSQL (Not only SQL)
• NoSQL – "not only SQL” – es una categoría general de
sistemas de gestión de bases de datos que difiere de
modelos relacionales clásicos (RDBMS) en diferente
modos:
– Estos datastores no requieren esquemas de información
fijas
– Evitan las operaciones JOIN y escalan horizontalmente
• De hecho, tanto las bases de datos NoSQL como las
relacionales son tipos de Almacenamiento
Estructurado
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –43–
Abril 2013.Curso 2012/13
44. Bases de datos NoSQL (Not only SQL)
La principal diferencia radica en cómo guardan los datos
(por ejemplo, almacenamiento de un recibo):
En una RDBMS tendríamos que partir la información en
diferentes tablas y luego usar un lenguaje de programación
en la parte servidora para transformar estos datos en
objetos de la vida real.
En NoSQL, simplemente guardas el recibo:
NoSQL es libre de schemas, tú no diseñas tus
tablas y su estructura por adelantado
¡¡¡NoSQL no es la panacea!!!
Si tus datos son relacionales, quedarte con tu RDBMS sería la
opción correcta
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –44–
Abril 2013.Curso 2012/13
45. ¿Por qué necesitamos NoSQL?
Las BBDD relacionales ofrecen bajo rendimiento ante ciertas
aplicaciones intensivas de datos:
Indexación de un gran número de documentos
Servir páginas en sitios de mucho tráfico
Envío de datos destreaming
Las RDBMS están optimizadas para pequeñas pero frecuentes
transacciones de lectura/escritura o largas transacciones con pocos
acceso de escritura.
NoSQL puede dar servicio a grandes cargas de lectura/escritura:
Digg mantiene 3 TB de green badges (marcadores que indican las
historias votadas por otros en una red social)
Facebook que ha de realizar búsqueda en bandejas de mensajes de
más de 50 TB
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –45–
Abril 2013.Curso 2012/13
46. Arquitectura de las BBDD NoSQL
A menudo ofrecen sólo garantías de consistencia
débiles, como por ejemplo eventual consistency, o
transacciones restringidas a elementos de datos simples
Emplean una arquitectura distribuida, donde los datos
se guardan de modo redundante en distintos servidores, a
menudo usando tablas hash distribuidas
Suelen ofrecer estructuras de datos sencillas como
arrays asociativos o almacenes de pares clave-valor
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –46–
Abril 2013.Curso 2012/13
47. ¿Quién usa NoSQL?
No lo usan para todo, sólo para algunas partes de sus sistemas
empresariales:
Ubuntu DesktopCouch (CouchDB)
Adobe y Mozilla (Hbase)
Twitter
(http://www.readwriteweb.com/cloud/2011/01/how-
twitter-uses-nosql.php)
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –47–
Abril 2013.Curso 2012/13
48. Taxonomía de soluciones NoSQL
Los principales tipos de BBDD de acuerdo
con su implementación son los siguientes:
Almacenes de Clave-Valor
Almacenes de Familia de Columnas
(columnares)
Almacenes de documentos
Grafos
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –48–
Abril 2013.Curso 2012/13
49. Características BBDD
orientadas a Clave-Valor
Su precursor fue Amazon Dynamo
Basadas en DHT (Distributed Hash
Tables)
Modelo de datos: colección de pares
clave/valor
Ejemplos: Dynomite, Voldemort, Tokyo
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –49–
Abril 2013.Curso 2012/13
50. Características BBDD
orientadas a Familia de Columnas
Su precursor es Google BigTable
Modelo de datos: familia de columnas, esto es, un
modelo tabular donde cada fila puede tener una
configuración diferente de columnas
Ejemplos: HBase, Hypertable, Cassandra, Riak
Buenas en:
Gestión de tamaño
Cargas de escrituras masivas orientas al stream
Alta disponibilidad
MapReduce
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –50–
Abril 2013.Curso 2012/13
51. Características BBDD
orientadas a Documentos
La precursora fue Lotus Notes
Modelo de datos: colecciones de documentos que
contienen colecciones de claves-valor
Ejemplos: CouchDB, MongoDB
Buenas en:
Modelado de datos natural
Amigables al programador
Desarrollo rápido
Orientas a la web: CRUD
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –51–
Abril 2013.Curso 2012/13
52. Características Bases de
Datos Basadas en Grafos
Inspiradas por la teoría de grafos
Modelo de datos: nodos, relaciones con pares clave valor
en ambos
Ejemplos: AllegroGraph, VertexBD, Neo4j
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –52–
Abril 2013.Curso 2012/13
53. Apache Cassandra
Es un almacén altamente escalable, eventualmente
consistente y distribuido de estructuras clave-valor.
Iniciado por Facebook
Código abierto
Proyecto apache
Licencia: Apache License 2.0
Escrito en Java
Multiplataforma
Versión actual: 1.1.6
Web:http://cassandra.apache.org/
Documentación:
http://www.datastax.com/docs/1.0/index
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –53–
Abril 2013.Curso 2012/13
54. ¿Quién usa Apache Cassandra?
Algunos usuarios famosos de Cassandra son:
Digg
Facebook
Twitter
Rackspace
SimpleGEO
…
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –54–
Abril 2013.Curso 2012/13
55. Comparación de BBDD NoSQL
Cassandra vs MongoDB vs CouchDB vs Redis vs
Riak vs HBase vs Membase vs Neo4j comparison
http://kkovacs.eu/cassandra-vs-mongodb-vs-couchdb-vs-redis
NoSQL: Comparing the Different Solutions
http://www.readwriteweb.com/cloud/2010/11/nosql-comparison.php
Is the Relational Database Doomed?
http://www.readwriteweb.com/enterprise/2009/02/is-the-relational-
database-doomed.php
Comparing Document Databases to Key-Value
Stores
http://nosql.mypopescu.com/post/659390374/comparing-
document-databases-to-key-value-stores
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –55–
Abril 2013.Curso 2012/13
56. Bases de datos
NoSQL (not only SQL)… Bases de datos NoSQL:
Cassandra
MongoDB
Apache CouchDB
CouchBase
Riak
Amazon DynamoDB
Noo4J
Redis
Membase
Hbase
Bases de datos columnares (por columnas) en lugar de por
filas como las bases de datos relacionales
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –56–
Abril 2013.Curso 2012/13
57. NoSQL or not NoSQL?
En NoSQL, generalmente los datos son recuperados de manera mucho más
rápida que en un RDBMS, sin embargo las consultas que se pueden hacer son
más limitadas y requieren trasladar complejidad a la aplicación
RDBMS para escribir usan locks y redos para garantizar ACID, pero NoSQL no
soporta a menudo Atomicy, Consistency o Durability
Si quieres soporte transaccional integral debes seguir usando RDBMS
Aplicaciones que generan informes emplean consultas complejas para las que
NoSQL no es muy adecuado
Aplicando MapReduce, las bases de datos NoSQL pueden paralelizar
operaciones complejas como agregaciones estadísticas, filtros, agrupaciones
o ordenación.
Desde un punto de vista de sistemas deberíamos considerar
la combinación de SQL y NoSQL:
LinkedIn comenzó sólo con un RDBMS, pero desarrolló su propia BBDD NoSQL
(Voldemort)
Facebook tienen una arquitectura híbrida con Memcached y MySQL junto a un
OLTP (envío de mensajes al Wall), y Cassandra para la búsqueda en la bandeja de
entrada
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –57–
Abril 2013.Curso 2012/13
58. NoSQL or not NoSQL?
Los principales problemas de NoSQL son:
Su complejidad:
Instalación
Consultas (comprender bien MapReduce)
Los modelos de datos usados
Su falta de madurez
¿Dónde usarlas?
Datos sociales
Procesado de datos (Hadoop)
Búsqueda (Lucene)
Caching (Memcache)
Data Warehousing
¿Qué problema quieres resolver?
Transacciones
Grandes volúmenes de datos (Exabytes)
Estructura de los datos
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –58–
Abril 2013.Curso 2012/13
59. Conclusiones NoSQL
Las BBDD NoSQL son una clara alternativa a los
RDBMS
Sobre todo para algunas aplicaciones sociales y web que
requieren elevada escalabilidad
No son idóneas para todo, de hecho en la mayoría
de los casos las RDBMS deberían seguir siendo la
primera opción:
La capacidad de hacer JOIN y las garantías ACID son muy
importantes para muchas aplicaciones
Es muy posible que los RDBMS actuales
evolucionen para incorporar capacidades de
NoSQL
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –59–
Abril 2013.Curso 2012/13
61. Computación en memoria ―In-Memory‖
La computación en memoria es una
tecnología que permite el procesamiento de cantidades
masivas de datos en memoria principal para proporcionar
resultados inmediatos del análisis y de las transacciones.
Los datos a procesar, idealmente son datos en tiempo
real (es decir, datos que están disponibles para su
procesamiento o análisis inmediatamente después
que se han creado). (IBM)
Existen un amplio conjunto de tecnologías que emplean
bases de datos en memoria. SAP HANA es una de las
más acreditadas y populares.
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –61–
Abril 2013.Curso 2012/13
62. Bases de datos ―en memoria‖
Los sistemas de gestión de bases de datos confian en la
memoria principal para almacenamiento de datos.
Comparados con los sistemas de gestión de bases datos
tradicionales que almacenan datos en disco, las bases de
datos en memoria están optimizadas para alcanzar
grandes velocidades.
Las bases de datos en memoria buscan procesar
volúmenes masivos de grandes datos. SAP HANA, Oracle
In-Memory Database, IBM solidDB… son ejemplos de
bases de datos en memoria.
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –62–
Abril 2013.Curso 2012/13
63. Bases de datos ―In-Memory‖
Para conseguir el rendimiento deseado, la computación en
memoria utiliza estos principios básicos:
Mantener datos en memoria principal para aumentar
la velocidad de acceso a los datos.
Minimizar el movimiento de datos potenciando el
concepto de almacenamiento en columna, compresión y
ejecución de cálculos al nivel de base de datos.
Divide y vencerás. La potenciación de la arquitectura
multi-core de los procesadores modernos y de los
servidores multi-procesador, o incluso ―escalar‖ en bases
de datos distribuídas para poder crecer de lo que puede
proporcionar un solo servidor.
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –63–
Abril 2013.Curso 2012/13
64. Bases de datos ―In-Memory‖
La capacidad de la memoria principal en servidores
ha incrementado de modo continuo durante los
últimos años, mientras que los precios han caído
drásticamente. Hoy, un simple servidor empresarial puede
contener varios terabytes de memoria principal.
Al mismo tiempo, los precios de la memoria principal del
servidor ha caído también en las últimas décadas. Este
aumento de capacidad y reducción de costes hacen muy
viable el sistema de mantener cantidades de datos
de negocios en memoria.
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –64–
Abril 2013.Curso 2012/13
65. Bases de datos ―In-Memory‖
Memoria principal como almacén de datos
(tiempos de acceso de datos de diferentes
dispositivos de almacenamiento, en relación a
RAM, escala logarítmica)
Volátil.
Registros CPU (0,005)
Caché CPU (0,4-0,5)
RAM (0.0 – 1.2)
No volátil
SSD/Flash (2.000)
Disco duro (100.000 a 400.000)
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –65–
Abril 2013.Curso 2012/13
66. © Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –66–
Abril 2013.Curso 2012/13
67. © Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –67–
Abril 2013.Curso 2012/13
68. TECNOLOGÍAS BIG DATA (HADOOP)
Datos de la consultora IDC de agosto de 2012 prevén que el
mercado del software relacionado con los framework
open source Apache Hadoop y el MapReduce de
Google crecerá a un ritmo anual de más del 60% hasta el
año 2016.
La popularidad de Hadoop se ha ido incrementando durante
los últimos meses, a medida que las empresas necesitan
manejar grandes cantidades de datos estructurados y no
estructurados para después analizarlos y ser capaces de
tomar decisiones lo más favorables posible para sus negocios.
IDC también espera que el mercado de Hadoop-MapReduce evolucione y
que poco a poco comienza a introducirse en los sistemas empresariales.
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –68–
Abril 2013.Curso 2012/13
69. TECNOLOGÍAS BIG DATA (HADOOP)
Hadoop es un proyecto de software open source que
provee un framework para habilitar el procesamiento
distribuido de grandes conjuntos de datos sobre clusters
construidos con hardware genérico. En esencia, Hadoop
consiste de dos elementos base: un sistema de archivos
distribuido (Hadoop Distributed File System, HDFS) y un
motor de procesamiento de datos que implementa el
modelo Map/Reduce (Hadoop MapReduce). Sin embargo,
conforme ha ido ganando adopción y madurez, también
se han ido creando tecnologías para complementarlo y
ampliar sus escenarios de uso, de tal forma que hoy en
día el nombre ―Hadoop‖ no se refiere a una sola
herramienta sino a una familia de herramientas alrededor
de HDFS y MapReduce.
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –69–
Abril 2013.Curso 2012/13
70. Historia de HADOOP
● 2004-2006
– Google publica los papers de GFS y MapReduce
– Doug Cutting implementa una version Open Source en
Nutch
● 2006-2008
– Hadoop se separa de Nutch
– Se alcanza la escala web en 2008
● 2008-Hasta ahora
– Hadoop se populariza y se comienza a explotar
comercialmente.
Fuente: Hadoop: a brief history. Doug Cutting
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –70–
Abril 2013.Curso 2012/13
71. Componentes fundamentales de Open
Source
Apache Hadoop (biblioteca de software de open source)
Apache Hadoop consta de los siguientes subproyectos
HDFS (Haoop Distributed File System)
MapREduce
Hadoop Commons
y de las siguientes tecnologías
Hbase
Hive
Pig
Otras
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –71–
Abril 2013.Curso 2012/13
72. TECNOLOGÍAS BIG DATA (HADOOP)
Almacenamiento y acceso a datos
Como su nombre lo indica, estos componentes son los
que proveen la capacidad de almacenar y acceder
grandes volúmenes de datos. Aquí tenemos dos
tecnologías principalmente: HDFS y HBase.
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –72–
Abril 2013.Curso 2012/13
73. HADOOP
HDFS (Hadoop Distributed File System). Es
un sistema de archivos distribuido que está optimizado
para almacenar grandes cantidades de datos utilizando un
patrón de acceso write-once read-many (escribe una vez,
lee muchas). Esto hace que HDFS sea una opción
adecuada cuando es necesario escribir pocos archivos
grandes, que son leídos muchas veces. Un cluster HDFS
tiene dos tipos de nodos: un nodo de nombre (namenode)
y múltiples nodos de datos (datanodes). El primero es
responsable del árbol del sistema de archivos y los
metadatos, mientras que los segundos son los que
realizan el acceso a los datos.
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –73–
Abril 2013.Curso 2012/13
74. HADOOP
HBase (Hadoop Database). HBase es una base
de datos distribuida, versionada y orientada a columnas,
diseñada para almacenar tablas muy grandes (millones de
registros con millones de columnas). HBase funciona
encima de HDFS y usa la misma arquitectura de nodos:
un nodo maestro que divide y distribuye los datos, y
múltiples nodos de trabajo que realizan las operaciones de
acceso a datos. Los datos de HBase típicamente se
acceden por medio de tareas MapReduce, aunque
también ofrece interfaces tipo REST.
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –74–
Abril 2013.Curso 2012/13
75. HADOOP
Procesamiento de datos
Encima de la capa de datos necesitamos frameworks para
procesar dichos datos. La herramienta principal en este
capa es un motor de procesamiento de tareas
MapReduce.
MapReduce es un modelo de programación creado
originalmente por Google para procesar grandes
cantidades de datos. Está inspirado en las funciones map
y reduce de la programación funcional, aunque en
realidad aquí funcionan de forma un poco distinta:
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –75–
Abril 2013.Curso 2012/13
76. HADOOP
Map: En este paso, un nodo maestro recibe una tarea y la
divide en tareas más pequeñas que distribuye hacia otros
nodos para que las procesen. Cada uno de estos nodos
puede a su vez volver a dividir y repartir tareas, lo cual lleva
a una estructura de árbol de varios niveles. Cada nodo de
procesamiento, una vez que termina su tarea la regresa a su
nodo maestro.
Reduce: El nodo maestro colecciona todas las respuestas
recibidas y las combina para generar la salida, es decir, la
respuesta al problema que originalmente se trata de resolver.
Los beneficios principales de MapReduce son su escalabilidad y la
variedad de datos que puede procesar tales como archivos, tablas de
bases de datos, sitios web (web crawling).
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –76–
Abril 2013.Curso 2012/13
77. Obstáculos de MapReduce+NoSQL
Difícil pensar en MapReduce+NoSQL hace falta
―desaprender
Solución (open source):
– HIVE, sistema DW basado en Hadoop desarrollado por
Facebook que permite escribir consultas en SQL.
– PIG, lenguaje de alto nivel para ejecutar trabajos sobre
MapReduce (desarrollado per Yahoo).
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –77–
Abril 2013.Curso 2012/13
78. Obstáculos de MapReduce+NoSQL
Propuestas de la industria para integrar NoSQL con SQL:
– Sqoop de Cloudera
– Greenplum database
– Aster Data's nCluster DW system
–…
Muchas soluciones DW han optado por conectores
Hadoop en vez de integrar sus propias funcionalidades
MapReduce.
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –78–
Abril 2013.Curso 2012/13
79. Hadoop
―The Apache Hadoop software library is a
framework that allows for the distributed
processing of large data sets across
clusters of computers using a simple
Programming model‖
De la página de Hadoop
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –79–
Abril 2013.Curso 2012/13
80. Componentes fundamentales de Open
Source
Apache Hadoop (biblioteca de software de open source)
Apache Hadoop consta de los siguientes subproyectos
HDFS (Haoop Distributed File System)
MapREduce
Hadoop Commons
y de las siguientes tecnologías
Hbase
Hive
Pig
Otras
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –80–
Abril 2013.Curso 2012/13
81. Hadoop
Apache Hadoop es un framework que permite el
tratamiento distribuido de grandes cantidades de datos
(del orden de peta bytes) y trabajar con miles de
máquinas de forma distribuida. Se inspiró en los
documentos sobre MapReduce y Google File System
publicados por Google.
Está desarrollado en Java y se ejecuta dentro de la JVM.
Actualmente está soportado por Google, Yahoo e IBM
entre otros. También existen empresas como Cloudera
(http://www.cloudera.com/) que ofrecen soluciones
empresariales Open Source basadas en Hadoop.
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –81–
Abril 2013.Curso 2012/13
82. Hadoop
Las características principales de Hadoop son
Económico: Está diseñado para ejecutarse en equipos de
bajo coste formando clústeres. Estos clústeres pueden
llevarnos a pensar en miles de nodos de procesamiento
disponibles para el procesado de información.
• Escalable: Si se necesita más poder de procesamiento o
capacidad de almacenamiento solo hay que añadir más
nodos al clúster de forma sencilla.
• Eficiente: Hadoop distribuye los datos y los procesa en
paralelo en los nodos donde los datos se encuentran
localizados.
• Confiable: Es capaz de mantener Es capaz de mantener
múltiples copias de los datos y
© Luis Joyanes Aguilar
automáticamente hacer un re-despliegue de las tareas
Universidad Pontificia de Salamanca - Página –82–
Abril 2013.Curso 2012/13
83. Hadoop
El diseño de Hadoop se divide en dos partes
principales:
Por un lado la implementación de MapReduce que se
encarga del
procesamiento de la información de forma distribuida.
Por otro lado está el sistema de ficheros distribuido
Hadoop Distributed File System (HDFS) que
se encarga de almacenar todos los datos repartiéndolos
entre cada nodo de la red Hadoop.
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –83–
Abril 2013.Curso 2012/13
84. Hadoop
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –84–
Abril 2013.Curso 2012/13
85. Sistema de Ficheros Distribuido
Sistema de ficheros distribuido (HDFS)
– Bloques grandes: 64 Mb
● Almacenados en el sistema de ficheros del SO
– Tolerante a Fallos (replicacion)
– Formatos habituales:
● Ficheros en formato texto (CSV)
● SequenceFiles
– Ristras de pares [clave, valor]
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –85–
Abril 2013.Curso 2012/13
86. © Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –86–
Abril 2013.Curso 2012/13
87. Hadoop en la actualidad
Hadoop se puede utilizar en teoría para casi cualquier tipo
de trabajo batch, mejor que ha trabajos en tiempo real,
ya que son más fáciles de dividir y ejecutar en paralelo.
Entre lo campos actuales a aplicación se encuentran:
• Análisis de logs
• Análisis de mercado
• Machine learning y data mining
• Procesamiento de imágenes
• Procesamiento de mensajes XML
• Web crawling
• Indexación
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –87–
Abril 2013.Curso 2012/13
88. Hadoop en la actualidad
Actualmente Hadoop es un framework muy extendido en
el ámbito empresarial, sobre todo en compañías que
manejan grandes volúmenes de datos. Entre las que
podemos descarta las siguientes empresas:
Yahoo: La aplicación Yahoo! Search Webmap está
implementado con Hadoop sobre un clúster de mas de
10.000 nodos Linux y la información que produce es la
utilizada por el buscador de Yahoo.
Facebook: Tiene ha día de hoy el mayor clúster Hadoop
del mundo que almacena hasta 30 peta bytes de
información
Amazon A9: Se utiliza para la generar índices de búsqueda de los
productos ofertados en el portal. Disponen de varios clústeres de entre 1 y
100 nodos
© Luis Joyanes Aguilar
cada uno.
Universidad Pontificia de Salamanca - Página –88–
Abril 2013.Curso 2012/13
89. Hadoop en la actualidad
The New York Times: Utiliza Hadoop y EC2 (Amazon
Elastic Compute Cloud) para convertir 4 Tera bytes de
imágenes TIFF en imágenes PNG de 800 K para ser
mostradas en la Web en 36 horas.
Además existen compañías cuyo negocio es principal es
Hadoop, como Cloudera, que comercializa CDH
(Cloudera's Distribution including Apache Hadoop), que da
soporte en la configuración y despliegue de clústeres
Hadoop. Además proporciona servicios de consultoría y
formación en estas tecnología. Todo el software que
distribuyen es Open Source.
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –89–
Abril 2013.Curso 2012/13
90. Distribuciones de Hadoop
Cloudera
mapR
Hortonworks
IBM… ofrece una distribución llamada InfoSphere
BigInsights
Amazon Web Services ofrece una marco de trabajo
Hadoop que forma parte del servicio Amazon Elastic
MapReduce
EMC ofrece Greenplus HD
Microsoft ofrece Hadoop como un servicio basado en
la nube de Microsoft Azure
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –90–
Abril 2013.Curso 2012/13
91. Proveedores de Big Data
Algunos han desarrollado sus propias distribuciones de
Hadoop (con diferentes niveles de personalización:
disponibilidad, rendimiento, replicas …). Una distribución
muy popular
Otros ejemplos: MapR, Greenplum, Hortonworks, …
Hay docenas
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –91–
Abril 2013.Curso 2012/13
92. Empresas que ya utilizan “Big Data”
. IBM
Intel
HP
Oracle
Teradata
Fujitsu
CSC
Accenture
Dell
Seagate
Capgemini
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –92–
Abril 2013.Curso 2012/13
93. Definición de Analítica de Big Data
BIG DATA ANALYTICS : (TDWI): 4Q 2011
Big data analytics is where advanced analytic
techniques operate on big data sets. Hence, big
data analytics is really about two things—big data
and analytics—plus how the two have teamed up
to create one of the most profound trends in
business intelligence (BI) today.
The definition is easy to understand, but do users actually
use the term? To quantify this question, the survey for
this report asked: ―Which of the following best
characterizes your familiarity with big data analytics and
how you name it?‖ The survey results show that most
users understand the concept of big data analytics,
whether they have a name for it or not:
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –93–
Abril 2013.Curso 2012/13
94. ANALÍTICA DE BIG DATA
Cloudera
EMC Greenplum
IBM
Impetus Technologies
Kognitio
ParAccel
SAP
SAND Technology
SAS
Tableau Software
Teradata
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –94–
Abril 2013.Curso 2012/13
95. BIBLIOGRAFÍA
SOARES, Sunil (2013). Big Data Governance. An
emerging Imperative. Boise, USA: MC Press.
FRANKS, Bill (2012). Taming the Big Data Tidal Wave.
New York: Wiley.
JOYANES, Luis (2012). Computación en la nube.
Estrategias de cloud computing en las empresas.
Marcombo/Alfaomega: Barcelona/México
JOYANES, Luis (2013). Big Data. Análisis de los grandes
volúmenes de datos. Marcombo/Alfaomega:
Barcelona/México.
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –95–
Abril 2013.Curso 2012/13
96. ZIKOPOULOS, Paul C. et al (2012). Understanding Big
Data. Analytics for Enterprise Class Hadoop and Streaming
Data. New York: McGraw-Hill.
www-01.ibm.com/software/data/bigdata/
ZIKOPOULOS, Paul C. et al (2013). Harness the Power
of Big Data. The IBM Big Data Platform. New York:
McGraw-Hill. Descargable libre en IBM
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –96–
Abril 2013.Curso 2012/13
97. © Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –97–
Abril 2013.Curso 2012/13
98. REFERENCIAS
McKinsey Global Institute . Big data: The
next frontier for innovation, competition, and
productivity. June 2011
James G. Kobielus. The Forrester Wave™:
Enterprise Hadoop Solutions, Q1 2012, February
2, 2012.
www-01.ibm.com/software/data/bigdata/
Diego Lz. de Ipiña Glz. de Artaza. Bases de Datos No
Relacionales (NoSQL). Facultad de Ingeniería,
Universidad de Deusto. www.morelab.deusto.es
http://paginaspersonales.deusto.es/dipina
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –98–
Abril 2013.Curso 2012/13
99. BIBLIOGRAFÍA
Philip Russom. BIG DATA ANALYTICS. FOURTH QUARTER
2011. TDWI.org
IBM. http://www-01.ibm.com/software/data/bigdata/
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –99–
Abril 2013.Curso 2012/13
100. Referencias, Ipiña Glz. de Artaza
NoSQL vs. RDBMS
Riyaz -- Thanks for the question regarding "NOSQL vs. RDBMS
databases", version 10r2
http://asktom.oracle.com/pls/asktom/f?p=100:11:0::::P11_QUESTION_ID:266
4632900346253817
NoSQL or not NoSQL?
http://www.slideshare.net/ruflin/nosql-or-not-nosql/download
Comparativa de diferentes soluciones NoSQL:
http://kkovacs.eu/cassandra-vs-mongodb-vs-couchdb-vs-redis
SQL vs. NoSQL. http://www.linuxjournal.com/article/10770
Cassandra. ―NoSQL – Not only SQL (Introduction to
Apache Cassandra)‖.
http://www.scriptandscroll.com/3508/technology/nosql-not-only-sql-
introduction-to-apache-cassandra/#.TtonPmMk6nA
http://www.datastax.com/docs/0.8/dml/using_cql
http://cassandra.apache.org/
© Luis Joyanes Aguilar
Universidad Pontificia de Salamanca - Página –100–
Abril 2013.Curso 2012/13