SlideShare ist ein Scribd-Unternehmen logo
1 von 148
BIG DATA Y LA
REVOLUCIÓN DE LOS
DATOS
Retos y oportunidades

TECNOLÓGICO DE SAN LUIS POTOSÍ

San Luis Potosí, 7de noviembre, 2013

Prof. Luis Joyanes Aguilar

1
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –2–
ESTADO DEL ARTE DE

CLOUD COMPUTING

COMPUTACIÓN
EN LA NUBE
La nueva era de la
computación
Prof. Luis Joyanes Aguilar

3
4
5
TECNOLÓGICO DE
SAN LUIS POTOSÍ

BIG DATA

El universo digital de
datos

Prof. Luis Joyanes Aguilar
6
LA ERA DEL PETABYTE (1.000 TB),
Wired , julio 2008 (www.wired.com)
Sensores en todas partes, almacenamiento infinito
y Nubes (clouds) de procesadores
 Nuestra capacidad para capturar, almacenar y comprender
cantidades masivas de datos está cambiando la ciencia,
medicina, negocios y tecnología. A medida que aumenta
nuestra colección de hechos y figuras, crece la oportunidad
de encontrar respuestas a preguntas fundamentales.

Because in the era of big data,

more isn´t just more. More is
different
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –7–
LA ERA DEL PETABYTE -2- . Wired ,
julio 2008 (www.wired.com)

 1TB (250.000 canciones)

20 TB (fotos ―uploaded‖ a Facebook
cada mes)
 120 TB (todos los datos e imágenes recogidos por el telescopio
espacial Hubble) ; 460 TB (todos los datos del tiempo climático en
EEUÜ compilados por el National Climatic Data Center); 530 TB
(Todos los vídeos de YouTube); 600 TB (base de datos de
genealogía, incluye todos los censos de EEUU 1790-2000)

1 PB (datos procesados por los
servidores de Google cada 75 minutos)
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –8–
Tabla de unidades de almacenamiento

(The Economist, febrero 2010): ―data, data everywhere‖
www.economist.com/specialreports/displaystory.cfm?story_id=15557421

© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –9–
El Universo Digital – EMC / IDC

© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –10–
El Universo Digital – EMC / IDC

© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –11–
EL UNIVERSO DIGITAL DE DATOS, 2013
 EMC Corporation PUBLICÓ en diciembre de 2013, su
estudio anual sobre el Universo Digital de IDC,
patrocinado por EMC: ―Big Data, Bigger Digital
Shadows, and Biggest Growth in the Far East‖. El

a pesar de la expansión sin
precedentes del Universo Digital debido a el
Big Data que se generan a diario por
personas y máquinas, IDC estima que solo
0,5% de los datos mundiales se analizan.
estudio arrojó que,

© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –12–
EL UNIVERSO DIGITAL DE DATOS, 2013
 La proliferación a nivel mundial de dispositivos, como PC y
teléfonos inteligentes, aumentó el acceso a Internet
dentro de los mercados emergentes, y el incremento de
datos generados por máquinas, como cámaras de
vigilancia o contadores inteligentes, ha contribuido a la

duplicación del Universo Digital en los
últimos dos años solamente, hasta alcanzar
un tamaño descomunal de 2,8 ZB. IDC
proyecta que, para el 2020, el Universo Digital
alcanzará 40 ZB, cifra que supera las
proyecciones anteriores por 14%.
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –13–
EL UNIVERSO DIGITAL DE DATOS, 2013
 En términos de volumen, 40 ZB de datos son
equivalentes a lo siguiente:
 Existen 700.500.000.000.000.000.000 granos de arena en todas las
playas del mundo (o setecientos trillones quinientos mil billones). Esto
significa que 40 ZB equivalen a 57 veces la cantidad de
granos de arena de todas las playas del mundo. Si
pudiéramos guardar los 40 ZB en los discos Blue-ray de la actualidad,
el peso de dichos discos (sin fundas ni estuches) sería equivalente a
424 portaaviones Nimitz. En 2020, 40 ZB serán 5.247 GB por persona
a nivel mundial.

 Referencia: America Economia:
http://tecno.americaeconomia.com/noticias/el-granuniverso-digital-la-data-crece-mas-rapido-de-lo-quepodemos-protegerla
© Luis Joyanes Aguilar
Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –14–
El universo digital de datos, IDC 2013

© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Pina –15–
El universo digital de datos, 2013

© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –16–
LA ERA DEL EXABYTE/ZETTABYTE CISCO
LA ERA DEL EXABYTE, CISCO . Estudio
―Cisco Visual Networking Index (VNI)
2007-2012. Tráfico mundial de datos.
LA ERA DEL ZETTABYTE:Cisco VNI:
Forecast and Methodology 2012:
22017. Tráfico mundial de datos
(publicado en 2013)

© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –17–
Informe VNI CISCO 2012-2107
Durante 2012, empresas, gobiernos, industria y
usuarios finales generan cada mes del año, una
tasa de tráfico mensual de 44 EB (aprox. 44
millones de discos duros de 1TB apilados u
11.000 millones de DVDs).

México produjo en 2012 un tráfico de 0,6

ExaBytes/mes. Se estima que en 2017 producirá
unos 1,3 EB.
Para ese momento el 56% de la población
contará con acceso a Internet de acuerdo con el
INEGI de México
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –18–
Informe VNI CISCO 2012-2107
Los dispositivos que más ayudan a generar
los 44 EB por mes, según CISCO:
0,6 EB, smartphones
2,7 tabletas
5,8 televisores
7,6 consolas de videojuegos
18,6 computadoras personales
…
En 2017 se espera una tasa global de tráfico
mensual de 121 EB aprox. 1 ZB
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –19–
TECNOLÓGICO de

San Luis de Potosí
BIG DATA Y MINERÍA
/ ANALÍTICA
DE DATOS.
Nuevas bases de datos
NoSQL, ―In-Memory‖…
Prof. Luis Joyanes Aguilar
20
Harvard Business Review, octubre 2012

© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –21–
Foreign Affairs, mayo 2013

© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –22–
Revista BBVA, innovation edge, junio 2013

© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –23–
ORIGEN DEL TÉRMINO
 Grandes volúmenes de datos
Datos masivos

Macrodatos (Fundación Fundeú BBVA)
―La era de los datos masivos se refiere a cosas
que se pueden hacer a gran escala, y pone en
cuestión la forma en que vivimos e
interactuamos con el mundo‖ (Mayer-Schömberg,
Cukier, The Economist)

Correlación: ya no importa el

el qué

© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

porqué sino sólo

Página –24–
LA AVALANCHA / DILUVIO DE DATOS
 Según Eric Schmidt, presidente ejecutivo de Google, entre el
origen de la tierra y el 2003 se crearon cinco exabytes de
información. Hoy en día creamos la misma cifra cada dos
días2. Las previsiones aseguran que en esta década
crearemos alrededor de 40 zettabytes (informe de IDC de
diciembre de 2012)
 Según la consultora IDC, cifran en 1,8 Zettabytes la
información generada en 2011. Si tratáramos de almacenar
esa información en iPads (del modelo de 32GB)
necesitaríamos 57.500 millones; puestos unos al lado de
otro formaríamos una línea que daría 3 veces la vuelta al
mundo y, si tratáramos de apilarlos, la ―montaña‖ resultante
sería 25 veces más alta que el monte Fuji.
© Luis Joyanes Aguilar
Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –25–
LA AVALANCHA / DILUVIO DE DATOS
Twitter: (redes sociales)
 90 millones de tuits (tweets) por día que representan 12
Terabytes (datos de 2011)

Boeing: (industria)
 Vuelo transoceánico de un jumbo puede generar 640
Terabytes.

Wal-Mart: (comercio)
 1 millón de transacciones por hora que se estima que
alimenta una base de datos de 2.5 petabytes.

Google procesa al día 20 PB de información
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –26–
LA AVALANCHA / DILUVIO DE DATOS
El 90% de los datos acumulados en todo el
mundo se han creado en los dos últimos
años. Cada día se escriben 400 millones de
tuits, cada minuto se crean 600 nuevos
blogs y cada segundo se registran 10.000
transacciones de pagos con tarjetas.
Objetos cotidianos como los carros, los
relojes o las gafas están comenzando a
conectarse a Internet para alimentar
nuevos servicios que requieren un
constante intercambio de información.
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –27–
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –28–
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –29–
BIG DATA, bbva edge, junio 2013
Fuentes:
SAS | Big Data: www.sas.com/big-data.
IBM | Big Data at the Speed of Business
McKinsey Global Institute | Big Data: The next
frontier for innovation, competition, and
productivity, junio 2011.

Fuente:
Intel | What Happens in an Internet Minute?
www.intel.com/content/www/us/en/communic
ations/internet-minute-infographic.html
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –30–
LA AVALANCHA / DILUVIO DE DATOS
Los Ayuntamientos siembran las calles con sensores
de recogida de datos para facilitar la vida de los
ciudadanos. Cada día se recogen 2,5 trillones de
bytes de datos, y los directivos de las empresas
apenas pueden manejar la mitad de los generados
en su entorno porque el 80% de ellos están
―desestructurados·.
 El número de dispositivos en red duplicará a
la población mundial en 2015 y los datos que
generen se convertirán en información utilizada por las
empresas para anticipar las necesidades de los
consumidores.
© Luis Joyanes Aguilar
Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –31–
LA AVALANCHA / DILUVIO DE DATOS
La respuesta para ordenar este caos es big

data, la nueva herramienta para

sistematizar los datos procedentes de
cualquier soporte —incluyendo imagen
sonido, fotos, textos…— y convertirlos de
forma automática en información.
 Big data ayudó a ganar las elecciones a
Barak Obama y ha reducido de días a
minutos la detección de uso de información
privilegiada en Wall Street
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –32–
LA AVALANCHA / DILUVIO DE DATOS
En torno a ella se está creando un
mercado evaluado por la firma de
análisis Gartner en 132.000 millones de
dólares para 2015. Ese año se crearán
4,4 millones de puestos de trabajo para
abastecerlo. Los expertos comparan la
herramienta con una revolución
industrial en el mundo de los datos y
afirman que con ella cambiará nuestra
forma de vida.
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –33–
APLICACIONES DE BIG DATA
 Los Gigantes de Internet como Google, Amazon o Facebook
basan su éxito en el valor de los ―big data‖ sin ellos tendrían
serias dudas de supervivencia.

Big data es el nuevo petróleo, oro o maná de
la década. IBM, SAP ,Oracle, Cisco… los han
sistematizado para adaptarlas a todo tipo de
empresas.
 Google comenzó a gestionar Big Data desde su
nacimiento en 1998, para indexar sus búsquedas‖
 Big data ha saltado de Internet al mundo real, y las
empresas investigan sus aplicaciones para mejorar la gestión,
ahorrar consumos o lanzar nuevos servicios.
© Luis Joyanes Aguilar
Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –34–
APLICACIONES DE BIG DATA
 Big data empieza a dar los primeros pasos en Europa.

La británica Tesco, cuarta cadena minorista
mundial, lo acaba de implantar para controlar
la energía en 120 tiendas irlandesas y quiere
extenderlo a las 3.000 tiendas que tiene entre
Irlanda y Reino Unido para lograr un ahorro de
20 millones de euros en consumos energéticos.

 ING Direct ha lanzado en Holanda un servicio para
vigilar la interacción de los clientes con la web que
genera llamadas telefónicas automáticas para ayudar a
quienes no logran terminar su operación ―una forma de
fidelizar clientes‖
© Luis Joyanes Aguilar
Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –35–
APLICACIONES DE BIG DATA
La central de reservas Amadeus (líneas aéreas)
insta a las empresas a que incorporen la
herramienta junto con el uso ya creciente de
MINERÍA DE DATOS.
 Investigación realizada por el profesor Thomas Davenport, de
la escuela de negocios de Harvard, sobre la experiencia de Air
France-KLM, Lufthansa, British Airways, Cathay, Eurostar,
Hoteles Marriott, aeropuerto de Múnich.
 El informe indica que ―las aerolíneas, los aeropuertos, los
hoteles, las empresas ferroviarias y los distribuidores
de productos turísticos deben plantearse una estrategia
big data para situarse a la vanguardia‖.
© Luis Joyanes Aguilar
Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –36–
APLICACIONES DE BIG DATA
La industria aérea comercial podría ahorrar 30
millones de dólares en 15 años con la

recogida de datos realizada por los
sensores que GE coloca en los motores
de los aviones.

 Trece de las 25 mayores cadenas hoteleras de todo el
mundo efectúan ya sus inversiones y sus ofertas
comerciales, incluso el color de las paredes de los
restaurantes o las habitaciones, cada vez más en
función de sofisticados sistemas

de análisis de
datos de clientes (MINERÍA DE DATOS)
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –37–
APLICACIONES DE BIG DATA
 En España, un sistema privado de seguridad, Sanitas

ha puesto en marcha un sistema para prevenir
enfermedades entre sus 2,3 millones de
clientes.
 ―En un año hemos realizado 800.000
contactos a 100.000 clientes para darles
consejos o indicarles la conveniencia de hacer
pruebas de detección precoz cuando
detectamos que por su perfil puede ser
conveniente y ofrecer mejores servicios‖
[Portavoz de Sanitas al periódico El País]
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –38–
APLICACIONES DE BIG DATA
Las farmacéuticas y las aseguradoras de
todo el mundo han sumado la fuerza de sus
datos para acelerar la investigación contra
el cáncer, el alzhéimer y otras lacras de la
sociedad.
―hacer predicciones de comportamientos
futuros de pacientes‖ son grandes
ventajas de big data, que puede
―mejorarnos la vida hasta límites
insospechados‖.
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –39–
APLICACIONES DE BIG DATA
Una línea de negocio importante de
big data estará en las empresas de
servicios.
Mezclarán la información procedente de
distintas fuentes y harán campañas de
marketing (mercadotecnia) personalizado
asociado a la geolocalización con datos de
su perfil de riesgo, sus gustos y sus hábitos
…
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –40–
EXPANSIÓN, de Wall Street Journal, 1 de
abril 2013
 01.04.2013 S. Rosenbush / M. Totty. WSJ. Las empresas
están buscando la mejor forma de aprovechar el exceso
de información.
 La información abunda y las empresas están buscando la
mejor forma de aprovecharla. Los expertos ya bautizaron
este fenómeno como big data. La definición es amorfa,
pero normalmente significa lo siguiente: las empresas
tienen acceso a mucha más información que antes, que
proviene de muchas más fuentes y la obtienen casi al
momento en que se genera.

© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –41–
EXPANSIÓN, de Wall Street Journal, 1 de
abril 2013
 El concepto de big data a menudo se relaciona con las empresas que
ya operan en el mundo de la información, como Google, Facebook y
Amazon. Pero compañías en múltiples industrias están
colocando los datos en el corazón de sus operaciones. Están
recolectando cantidades enormes de información, a menudo
combinando indicadores tradicionales como las ventas, con
comentarios de redes sociales e información de ubicación que
viene de los dispositivos móviles. Las empresas escudriñan esta
información para mejorar sus productos, recortar gastos y mantener
la fidelidad de sus clientes.
 Las firmas de logística, por ejemplo, instalan sensores en sus
camiones para detectar formas de acelerar las entregas. Los
fabricantes revisan miles de publicaciones en foros de Internet para
determinar si a los clientes les gusta una nueva característica. Los
gerentes de personal estudian cómo los candidatos a un empleo
responden preguntas para ver si encajan bien con la compañía.

© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –42–
EXPANSIÓN, de Wall Street Journal, 1 de
abril 2013
Aún quedan numerosos obstáculos en el camino.
Algunos son técnicos, pero en la mayoría de las
empresas las decisiones se siguen basando en la
opinión de la persona con el salario más alto y
podría ser difícil convencer a un ejecutivo de que
los datos superan su intuición.
Los recursos humanos, las operaciones, el
desarrollo de productos o el márketing son las
diferentes formas a través de las cuales las
empresas usan el poder de la información para
transformar sus negocios.
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –43–
EXPANSIÓN, de Wall Street Journal, 1 de
abril 2013 (casos de estudio)
 UPS
UPS comenzó a instalar sensores en sus vehículos de
reparto para conocer su velocidad y ubicación, si el
cinturón de seguridad del conductor está abrochado... Al
combinar su información de GPS y los datos de sensores
sobre rendimiento en más de 46.000 vehículos, UPS
recortó 136 millones de kilómetros de sus rutas.

© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –44–
EXPANSIÓN, de Wall Street Journal, 1 de
abril 2013 (casos de estudio)
 InterContinental

La cadena hotelera InterContinental ha recabado
información sobre los 71 millones de miembros de
su programa Priority Club, como niveles de
ingresos y preferencias sobre las instalaciones. El
grupo consolidó la información en un solo
almacén de datos que reúne información de redes
sociales y procesa búsquedas más rápido

© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –45–
DEFINICIÓN DE BIG DATA: IBM
What is big data?*
Every day, we create 2.5 quintillion bytes of data — so
much that 90% of the data in the world today has
been created in the last two years alone. This data

comes from everywhere: sensors used to gather
climate information, posts to social media sites, digital
pictures and videos, purchase transaction records, and
cell phone GPS signals to name a few. This data is big

data.
 * www-01.ibm.com/software/data/bigdata/
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –46–
DEFINICIÓN DE BIG DATA: Gartner
Gartner* define ―Biga data‖ como un
conjunto de datos de gran volumen,
de gran velocidad y procedente de
gran variedad de fuentes de
información que demandan formas
innovadoras y efectivas de procesar la
información


www.gartner.com/id=2100215
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –47–
DEFINICIÓN DE BIG DATA: IBM

© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –48–
Modelo 3V de Big Data
 VOLUMEN
 • Terabytes
 • Records
 • Transactions
 • Tables, files
 VELOCIDAD
 • Batch (por lotes)
 • Near time (casi a tiempo)
 • Real time (tiempo real)
 • Streams (flujos)
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

VARIEDAD
Estructurado
No estructurado
Semi-estructurado
Todos los demás

Página –49–
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –50–
DEFINICIÓN DE BIG DATA: IBM
 VOLUMEN de datos

procesados por las
empresas ha crecido significativamente.

Google procesa 20 petabytes al día
En 2020 se esperan 42.000 millones
de pagos electrónicos.
La Bolsa de Nueva York genera UN
terabyte de datos al día
Twitter genera 8 TB
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –51–
DEFINICIÓN DE BIG DATA: IBM
VELOCIDAD. Rapidez con la que se accede
a los datos. La velocidad del movimiento,
proceso y captura de datos, dentro y fuera
de la empresa ha aumentado
considerablemente.
Flujo de datos a alta velocidad.

eBay se enfrenta al fraude a través

de PayPal analizando cinco millones
de transacciones en tiempo real al día.
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –52–
DEFINICIÓN DE BIG DATA: IBM
VARIEDAD: Big data es cualquier tipo de

dato – estructurado y no estrutcturado - tales
como texto, datos de sensores, datos entre
máquinas (M2M), archivos ―logs‖, audio,
vídeo, flujos de clicks, XML, datos en
streaming, cotizaciones bursátiles, medios
sociales,

Una creciente variedad de datos
necesitan ser procesados y convertidos a
información
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –53–
DEFINICIÓN DE BIG DATA: IBM
Según otras definiciones de Big Data
de fabricantes, consultoras, NIST, etc.
existen otras propiedades de los big
data:
Veracidad de los datos
Valor de los datos
Viabilidad de la infraestructuras y las
herramientas de almacenamiento
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –54–
Fuentes de Big Data
 Herramientas para análisis de datos en grandes
volúmenes de datos. Infraestructuras de Big Data
 Fuentes de Big Data (Soares 2012):
 Web y Social media
 Machine-to-Machine (M2M, Internet de

las cosas)
 Biometria
 Datos de transacciones de grandes datos
(salud, telecomunicaciones…)
 Datos generados por las personas
(humanos)

© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –55–
Store.com
Sunil Soares (2003). Big Data Governance Emerging
Imperative. Boise. MC Press Online. El autor de este
libro mantiene un blog excelente sobre Big Data y
Gobierno de Big Data

© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –56–
Big Data. Joyanes, MéxicoDF: Alfaomega (2013)
 1. Web y Social Media: Incluye contenido web e información
que es obtenida de las medios sociales como Facebook, Twitter,
LinkedIn, Foursquare, Tuenti, etc, blogs como Technorati, blogs
de periódicos y televisiones, wikis como MediaWiki, Wikipedia,
marcadores sociales como Del.icio.us, Stumbleupon…
agregadores de contenidos como Dig, Meneame… En esta
categoría los datos se capturan, almacenan o distribuyen
teniendo presente las características siguientes: Datos de los
flujos de clics, tuits, retuits o entradas en general (feeds) de
Twitter, Tumblr…, Entradas (posting) de Facebook y contenidos
web diversos.
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –57–
Big Data. Joyanes, MéxicoDF: Alfaomega (2013)
 2. Machine-to-Machine (M2M)/ Internet de las
cosas: M2M se refiere a las tecnologías que permiten conectarse a

otros diferentes dispositivos entre sí. M2M utiliza dispositivos como
sensores o medidores que capturan algún evento en particular
(humedad, velocidad, temperatura, presión, variables meteorológicas,
variables químicas como la salinidad, etc.) los cuales transmiten a
través de cableadas, inalámbricas y móviles a otras aplicaciones que
traducen estos eventos en información significativa. La comunicación
M2M ha originado el conocido Internet de las cosas o de los objetos.
Entre los dispositivos que se emplean para capturar datos de esta
categoría podemos considerar chips o etiquetas RFID, chips NFC,
medidores (de temperaturas, de electricidad, presión…). sensores,
dispositivos GPS… y ocasionan la generación de datos mediante la
lectura de los medidores, lecturas de los RFID y NFC, lectura de los
sensores, señales GPS, señales de GIS, etc.

© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –58–
Big Data. Joyanes, MéxicoDF: Alfaomega (2013)
 3.Big Data transaccionales: Grandes datos transaccionales
procedentes de operaciones normales de transacciones de todo
tipo. Incluye registros de facturación, en telecomunicaciones
registros detallados de las llamadas (CDR), etc. Estos datos
transaccionales están disponibles en formatos tanto
semiestructurados como no estructurados. Los datos generados
procederán de registros de llamada de centros de llamada,
departamentos de facturación, reclamaciones de las personas,
presentación de documentos…

© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –59–
Big Data. Joyanes, MéxicoDF: Alfaomega (2013)
 4. Biometría: La biometría o reconocimiento biométrico.
La información biométrica se refiere a la identificación
automática de una persona basada en sus características
anatómicas o trazos personales. Los datos anatómicos se
crean a partir de las características físicas de una persona
incluyendo huellas digitales, iris, escaneo de la retina,
reconocimiento facial, genética, DNA, reconocimiento de
voz, incluso olor corporal etc. Los datos de
comportamiento incluyen análisis de pulsaciones y
escritura a mano. Los avances tecnológicos han
incrementado considerablemente los datos biométricos
disponibles
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –60–
Big Data. Joyanes, MéxicoDF: Alfaomega (2013)
 . En el área de seguridad e inteligencia, los datos
biométricos han sido información importante para las
agencias de investigación. En el área de negocios y de
comercio electrónico los datos biométricos se pueden
combinar con datos procedentes de medios sociales lo
que hace aumentar el volumen de datos contenidos en los
datos biométricos. Los datos generados por la biometría
se pueden agrupar en dos grandes categorías: Genética y
Reconocimiento facial.
 ―An Overview of Biometric Recpgnition‖.
http://biometrics.cse.nsu.edu/info.html
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –61–
Big Data. Joyanes, MéxicoDF: Alfaomega (2013)
 5. Datos generados por las personas: Las personas
generan enormes y diversas cantidades de datos como la
información que guarda un centro de llamadas telefónicas
(call center) al establecer una llamada telefónica, notas de
voz, correos electrónicos, documentos electrónicos,
estudios y registros médicos electrónicos, recetas
médicas, documentos papel, faxes, etc. El problema que
acompaña a los documentos generados por las personas es que
pueden contener información sensible de las personas que necesita,
normalmente ser oculta, enmascarada o cifrada de alguna forma para
conservar la privacidad de dichas personas. Estos datos al ser
sensibles necesitan ser protegidos por las leyes nacionales o
supranacionales (como es el caso de la Unión Europea o Mercosur)
relativas a protección de datos y privacidad.

© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –62–
Estructura de Big Data: tipos de datos
Estructurados
No estructurados
 No estructurados (texto, datos de vídeo, datos de audio,,,)

 Semiestructurados ( a veces se conocen como

―multiestructurados‖. Tienen un formato y flujo lógico de modo
que pueden ser entendidos pero el formato no es amistoso al
usuario(HTML. XML…, datos de web logs)

 Normalmente, se suelen asociar los datos
estructurados a los tradicionales y los datos no
estructurados a los Big Data
 Objetivo principal de los sistemas de gestión de
datos: Integración de datos estructurados y no
estructurados
© Luis Joyanes Aguilar
Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –63–
ESTADO ACTUAL DE BIG DATA
1. Almacenamiento:
hacen falta nuevas tecnologías de almacenamiento
2. Bases de datos:
las BD relacionales no pueden con todo
3. Procesamiento:
se requieren nuevos modelos de programación
4. Obtención de valor:
los datos no se pueden comer crudos (en bruto)
La información no es conocimiento ―accionable‖
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –64–
1. Almacenamiento
Hacen falta nuevas tecnologías de
almacenamiento
 RAM vs HHD
 Memorias hardware. HHD 100 más barato que RAM
pero 1000 veces más lento
 Solución actual:

Solid- state drive (SSD) además no volátil
 Tecnologías ―in-memory‖ (SAP HANA…)
 Investigación:
 Storage Class Memory (SCM)
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –65–
2. Base de datos
Las BD relacionales no pueden con
todo
 volumen de la información

GBs
PBs
Exabytes …. Cada día más populares
 Limitadas para almacenamiento de ―big data‖
 (ACID, SQL, …)
 ACID: Atomicity, Consistency, Isolation & Durability
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –66–
3. Procesamiento … HADOOP
 Se requieren nuevos modelos de programación
para manejarse con estos datos
 Solución: Para conseguir procesar grandes conjuntos de
datos:

MapReduce de Google

 Pero fue el desarrollo de

Hadoop (Yahoo -

Apache) por parte de Yahoo, el que ha propiciado un
ecosistema de herramientas open source.
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –67–
4. Obtención de valor
 Los datos no se pueden comer ·crudos‖ (en bruto)
la información no es conocimiento accionable
 Para ello tenemos técnicas de

Data Mining

 • Asociación
 • Clasificación
 • Clustering
 • Predicción
 • ...

La mayoría de algoritmos se ejecutan bien
en miles de registros, pero son hoy por hoy
impracticables en miles de millones.
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –68–
Bases de datos
 In-Memory (en-memoria)
 SAP Hana

 Oracle Times Ten

In-Memory Database

 IBM solidDB

Relacionales
 Sistemas RDBMS (SGBDR). Oracle, IBM, Microsoft…
 Transferencia de datos entre Hadoop y bases de datos

relacionales

Legacy (jerárquicas, en red… primeras relacionales…)
NoSQL (Cassandra, Hive, mongoDB,
CouchDB, Hbase…)
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –69–
BASES DE DATOS RELACIONALES (REPASO)
 La mayoría de las bases de datos cumplen con las
propiedades ACID (atomicity, consistency,

isolation, durability).

Estas propiedades garantizan un
comportamiento de las base de datos relacionales y el mejor de los
argumentos para su utilización.

© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –70–
BASES DE DATOS ANALÍTICAS
 Analíticas: para permitir a múltiples usuarios contestar
rápidamente preguntas de negocio que requieran de grandes
volúmenes de información.

Bases de datos de procesamiento
paralelo masivo (MPP)
Bases de datos ―en memoria‖
Almacenamiento en columnas
 Históricamente estas bases de datos tan especializadas
tenían un costo muy elevado, pero hoy el mercado nos
ofrece varias alternativas que se adaptan al presupuesto de
cada organización.
© Luis Joyanes Aguilar
Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –71–
Bases de datos analíticas
 Bases de datos diseñadas específicamente para ser
utilizadas como motores de Data Warehouse.
 Estas bases de datos logran procesar grandes volúmenes de
información a velocidades asombrosas, gracias a la aplicación de
diferentes conceptos y tecnologías:

 Almacenamiento en columnas en lugar de filas
(registros)
 Massively parallel processing (MPP)
 In-Memory Analytics

© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –72–
Almacenamiento en columnas, no filas:
FUENTE: datalytics.com

© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –73–
Computación en memoria ―In-Memory‖
La computación en memoria es una

tecnología que permite el procesamiento de cantidades
masivas de datos en memoria principal para proporcionar
resultados inmediatos del análisis y de las transacciones.
Los datos a procesar, idealmente son datos en tiempo
real (es decir, datos que están disponibles para su
procesamiento o análisis inmediatamente después
que se han creado).
Existen un amplio conjunto de tecnologías que emplean
bases de datos en memoria. SAP HANA es una de las
más acreditadas y populares… (Oracle, IBM,…)
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –74–
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –75–
BASES DE DATOS NoSQL
 Las bases de datos no-relacionales son comúnmente
llamadas bases de datos NoSQL ya que la gran mayoría
de ellas comparte el hecho de no utilizar el lenguaje SQL
para realizar las consultas
 Es una definición controvertida, aunque la definición más
aceptada es ―Not only SQL‖.
 Una de las características de las bases de datos no
relacionales es que la mayoría de ellas no utilizan
esquemas de datos rígidos como las bases de datos
relacionales. Esto hace que estas bases de datos también
se les llame ―Schema-less‖ o ―Schema-free
(―almacenamiento des-estructurado‖).
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –76–
Taxonomía de Bases de datos NoSQL
 Los principales tipos de BBDD de acuerdo con su
implementación son los siguientes:
 – Almacenes de Clave-Valor
 – Almacenes de Familia de Columnas (columnares)
 – Almacenes de documentos (orientadas a
documentos)
 – Almacenes de Grafos (orientadas a grafos)
 - Cachés de memoria

© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –77–
SOLUCIONES DE BASES DE DATOS NoSQL

© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –78–
MongoDB
MongoDB es un sistema de base de
datos NoSQL orientado a documentos,
desarrollado bajo el concepto de
código abierto.
MongoDB forma parte de los sistemas de
base de datos NoSQL, almacena los datos
no en tablas, sino en documentos tipo
JSON con un esquema dinámico (formato
BSON), haciendo que la integración de los
datos sea más fácil y rápida.
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –79–
Neo4j
Neo4j es una base de datos de
gráficos, de código abierto
soportada por Neo Technology.
Neo4j almacena los datos en nodos
conectados por relaciones dirigidas y
tipificadas, con las propiedades de
ambos, también conocidas como
Gráfico de Propiedad (Property
Graph).
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –80–
Apache CouchDB
Base de datos de código abierto,
NoSQL que emplea JSON para
documentos, JavaScript como
lenguaje de consulta para MapReduce
y HTTP como API.
 Se distribuye bajo una licencia Apache 2.0 y es utilizada
por múltiples organizaciones, como la BBC que usa
CouchDB para su plataforma dinámica de contenidos,
mientras que Credit Suisse's lo utiliza para almacenar
los detalles de configuración de su framework Python de
mercado de datos49.
© Luis Joyanes Aguilar
Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –81–
HyPertable
Sistema Gestor de Bases de Datos de código
abierto desarrollado en C++ por la
compañía Zvents, basado en el modelo Big
Table de Google.
 Es un sistema de almacenamiento de datos distribuido,
escalable, no relacional, no soporta transacciones y de
alto desempeño, ideal para aplicaciones que necesitan
manejar datos que evolucionan rápidamente y diseñado
para soportar una gran demanda de datos en tiempo real.
Entre sus clientes51 se encuentran empresas como

Ebay, Tiscali o Reddiff.com
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –82–
Hive
Sistema data warehouse para Hadoop que
facilita resúmenes de datos, consultas ad-

hoc, y el análisis de grandes conjuntos de
datos almacenados en los sistemas de
archivos compatibles con Hadoop.

Hive proporciona un mecanismo para
proyectar la estructura sobre estos datos y
consultar los datos utilizando un lenguaje
SQL, llamado HiveQL.
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –83–
Lenguaje R
R es el lenguaje de programación líder
en el mundo para el análisis
estadístico y la realización de gráficos.
R, es un lenguaje para la minería de datos
y un entorno de programación. Se trata de
un proyecto GNU, que es similar al lenguaje
y al entorno de programación S
desarrollado en Bell Laboratories (antes
AT&T, ahora Lucent Technologies).
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –84–
Lenguaje R
R ofrece una gran variedad de técnicas
estadísticas (modelos lineales y no
lineales, tests estadísticos, análisis de
series
temporales,
clasificación,
clustering, ...) y técnicas gráficas, y es
altamente extensible.
R está disponible como software libre bajo
licencia de GNU Free Software Foundation. Se

compila y ejecuta en una variedad de plataformas UNIX y
sistemas similares (incluyendo FreeBSD y Linux), Windows y
MacOS.
© Luis Joyanes Aguilar
Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –85–
Redis
Redis es un motor de base de datos en
memoria, basado en el
almacenamiento en tablas de hashes
clave, valor) pero que opcionalmente
puede ser usada como una base de
datos durable o persistente.
 Está escrito en ANSI C patrocinado
por VMware.1 2 y esta liberado bajo
licencia BSD.
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –86–
¿Quién usa Apache Cassandra?
Algunos usuarios importantes de Cassandra
son:
 Digg
 Facebook
 Twitter
 Rackspace
 SimpleGEO
…

© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –87–
Integración con Big Data.

© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

FUENTE: datalytics.com

Página –88–
Integración con Big Data.

© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

FUENTE: datalytics.com

Página –89–
Tecnologías BIG DATA

HADOOP
Prof. Luis Joyanes Aguilar

90
Logo de HADOOP

© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –91–
Logo de HADOOP

© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –92–
93
TECNOLOGÍAS BIG DATA (HADOOP)
 Datos de la consultora IDC de agosto de 2012 prevén que el
mercado del software relacionado con los framework
open source Apache Hadoop y el MapReduce de
Google crecerá a un ritmo anual de más del 60% hasta el
año 2016.
 La popularidad de Hadoop se ha ido incrementando durante
los últimos meses, a medida que las empresas necesitan
manejar grandes cantidades de datos estructurados y no
estructurados para después analizarlos y ser capaces de
tomar decisiones lo más favorables posible para sus negocios.
 IDC también espera que el mercado de Hadoop-MapReduce evolucione y
que poco a poco comienza a introducirse en los sistemas empresariales.

© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –94–
Hadoop
―The Apache Hadoop software library is a
framework that allows for the distributed
processing of large data sets across
clusters of computers using a simple
Programming model‖
 De la página de Hadoop

© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –95–
Hadoop
Apache Hadoop es un framework que permite
el tratamiento distribuido de grandes
cantidades de datos (del orden de peta bytes)
y trabajar con miles de máquinas de forma
distribuida. Se inspiró en los documentos sobre
MapReduce y Google File System publicados
por Google. Está desarrollado en Java y se ejecuta dentro
de la JVM.
 Actualmente está soportado por Google, Yahoo e IBM
entre otros. También existen empresas como
Cloudera (http://www.cloudera.com/) que ofrecen
soluciones empresariales Open Source.
© Luis Joyanes Aguilar
Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –96–
Hadoop: características principales
Económico: Está diseñado para ejecutarse en equipos
de bajo coste formando clústeres. Estos clústeres pueden
llevarnos a pensar en miles de nodos de procesamiento
disponibles para el procesado de información.

 • Escalable: Si se necesita más poder de
procesamiento o capacidad de almacenamiento solo hay
que añadir más nodos al clúster de forma sencilla.
 • Eficiente: Hadoop distribuye los datos y los procesa
en paralelo en los nodos donde los datos se encuentran
localizados.
 • Confiable (fiable)
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –97–
TECNOLOGÍAS BIG DATA (HADOOP)
Hadoop es un proyecto de software open
source que provee un framework para
habilitar el procesamiento distribuido de
grandes conjuntos de datos sobre clusteres
construidos con hardware genérico. En esencia,
Hadoop consiste de dos elementos base: un

sistema de archivos distribuido (Hadoop
Distributed File System, HDFS) y un
motor de procesamiento de datos que
implementa el modelo Map/Reduce
(Hadoop MapReduce)..
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –98–
Hadoop
 El diseño de Hadoop se divide en dos partes

principales:

Por un lado está el sistema de ficheros distribuido

Hadoop Distributed File System
(HDFS) que se encarga de almacenar todos los

datos repartiéndolos entre cada nodo de la red
Hadoop.
Por otro lado la implementación de
MapReduce que se encarga del procesamiento
de la información de forma distribuida.
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –99–
Historia de HADOOP
 ● 2004-2006
 – Google publica los papers de GFS y MapReduce
 – Doug Cutting implementa una version Open Source en
 Nutch
 ● 2006-2008
 – Hadoop se separa de Nutch
 – Se alcanza la escala web en 2008
 ● 2008-Hasta ahora
 – Hadoop se populariza y se comienza a explotar
 comercialmente.
 Fuente: Hadoop: a brief history. Doug Cutting
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –100–
Historia de Hadoop: Doug Cutting

© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –101–
Fundación Apache: proyectos open source
 The Apache Software Foundation provides support
for the Apache community of open-source software
projects, which provide software products for the
public good
 The Apache Software Foundation provides support for the
Apache community of open-source software projects,
which provide software products for the public good

© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –102–
Componentes HADOOP (Apache)
 The project includes these modules:

Hadoop Distributed File System (HDFS™): A
distributed file system that provides high-throughput
access to application data.

Hadoop MapReduce: A YARN-based system for

parallel processing of large data sets.
 Hadoop Common: The common utilities that support
the other Hadoop modules.
 Hadoop YARN: A framework for job scheduling and
cluster resource management
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –103–
Hadoop

© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –104–
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –105–
Hadoop en la actualidad
 Hadoop se puede utilizar en teoría para casi cualquier tipo
de trabajo batch, mejor que ha trabajos en tiempo real, ya
que son más fáciles de dividir y ejecutar en paralelo. Entre
lo campos actuales a aplicación se encuentran:

 Análisis de logs; • Análisis de mercado
 Machine learning y data mining
 Procesamiento de imágenes
 Procesamiento de mensajes XML
 Web crawling e • Indexación
…
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –106–
Hadoop en la actualidad
 Actualmente Hadoop es un framework
muy extendido en el ámbito empresarial, sobre
todo en compañías que manejan grandes
volúmenes de datos.

Yahoo:

La aplicación Yahoo! Search Webmap está implementado
con Hadoop sobre un clúster de mas de 10.000 nodos Linux y la
información que produce es la utilizada por el buscador de Yahoo.

Facebook: Tiene ha día de hoy el mayor clúster

Hadoop del mundo que almacena hasta 30 peta bytes de
información

Amazon A9:

Se utiliza para generar índices de búsqueda de los
productos ofertados en el portal. Disponen de varios clústeres de entre 1 y
100 nodos cada uno.

© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –107–
Hadoop en la actualidad
The New York Times: Utiliza Hadoop y EC2

(Amazon Elastic Compute Cloud) para convertir 4 Tera
bytes de imágenes TIFF en imágenes PNG de 800 K para
ser mostradas en la Web en 36 horas.
 Además existen compañías cuyo negocio es principal es

Hadoop, como Cloudera, que comercializa CDH
(Cloudera's Distribution including Apache Hadoop), que da
soporte en la configuración y despliegue de clústeres
 Hadoop. Además proporciona servicios de consultoría y
formación en estas tecnología. Todo el software que
distribuyen es Open Source.
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –108–
Distribuciones de Hadoop

© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –109–
Proveedores de Big Data
 Algunos han desarrollado sus propias distribuciones de
Hadoop (con diferentes niveles de personalización:
disponibilidad, rendimiento, replicas …). Una distribución
muy popular

MapR, Greenplum,
Hortonworks, …

 Otros distribuidores:

© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –110–
ANALÍTICA DE BIG DATA
 Cloudera
 EMC Greenplum
 IBM
 Impetus Technologies
 Kognitio
 ParAccel
 SAP
 SAND Technology
 SAS
 Tableau Software
 Teradata
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –111–
OPORTUNIDADES Y NUEVAS
PROFESIONES TECNOLÓGICAS
Y DE COMUNICACIÓN
DEMANDADAS POR LAS
EMPRESAS

Prof. Luis Joyanes Aguilar

112
NECESIDAD DE FORMACIÓN PROFESIONAL
AVANZADA EN CLOUD COMPUTING-BIG

DATA

 El mercado tiene carencia de especialistas en Cloud
Computing y sobre todo en Big Data. Hay miles de puestos que se
deberán cubrir en los próximos cinco años según estadísticas fiables de IDC,
Gartner, Forrester, McKinsey…

 UNA DE LAS PROFESIONES MÁS DEMANDADAS SERÁ DE
ESPECIALISTAS EN CIENCIAS DE DATOS (Científicos de
datos) y además ANALISTAS DE DATOS (formados en
Analytics y tecnologías Big Data ·Hadoop‖, ―InMemory‖…)
 Se necesitan certificaciones profesionales en CLOUD

COMPUTING Y BIG DATA… ―TECNOLÓGICAS Y DE
NEGOCIOS‖
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –113–
NUEVAS CARRERAS UNIVERSITARIAS:
maestrias,ingeniería, diplomados…

Community Manager, Social Media
Manager y Analista Web y SEO
Ingeniero de Cloud Computing (En España hay
una universidad privada que lo lanza el próximo curso)

Ingeniero de negocios digitales (Digital
Business Intelligence)
Ingeniero de datos (Infraestructuras, Bases de datos
NoSQL, Hadoop, Tecnologías ―in-memory‖…)

Analítica de datos (Analytics) y Analítica de

Big Data

© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –114–
NUEVAS CARRERAS Y PROFESIONES
Community Manager , Social Media Manager,
SEO, Analistas Web … cada día son más demandadas y.
Sin embargo la profesión del futuro será:

EL CIENTÍFICO DE DATOS (Data Scientist). Un
profesional con formación de Sistemas,
Estadística, Analítica, Ciencias Físicas y
Biológicas… que analizará los Big Data para la
toma de decisiones eficientes y obtener
rentabilidad en los negocios.

HBR (Harvard Business Review lo declaró la
profesión ―MÁS SEXY del siglo XXI‖…)
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –115–
LAS TITULACIONES-PROFESIONES MÁS
DEMANDADAS en TIC EN PRÓXIMOS AÑOS
(HBR, Harvard Business Review) número de
octubre de 2012 (Los datos el nuevo petróleo/oro
del siglo XXI):

Ciencia de los datos: Data Science
(Maestría/Doctorado) … En Estados
Unidos, México y Europa… ya existen
iniciativas. (EN MÉXICO, el ITAM)

LA PROFESIÓN MÁS SEXY DEL SIGLO XXI : EL
CIENTÍFICO DE DATOS (Data Scientist)
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –116–
MUCHAS GRACIAS … ¿Preguntas?
Portal GISSIC ―El Ágora de Latinoamérica‖:
gissic.wordpress.com

Twitter:@luisjoyanes
www.facebook.com/joyanesluis
www.slideshare.net/joyanes
PORTAL NTICS : luisjoyanes.wordpress.com
CORREO-e:

joyanes@gmail.com

© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –117–
BIBLIOGRAFÍA
Prof. Luis Joyanes Aguilar

118
ESTADO DEL ARTE DE

CLOUD COMPUTING

COMPUTACIÓN
EN LA NUBE
La nueva era de la
computación
Prof. Luis Joyanes Aguilar

119
120
121
BIBLIOGRAFÍA BÁSICA
JOYANES, Luis (2012). Computación en

la nube. Estrategias de cloud
computing para las empresas. México
DF: Alfaomega; Barcelona: Marcombo

BIG DATA. El
análisis de los grandes volúmenes de
datos. México DF: Alfaomega; Barcelona:

JOYANES, Luis (2013).

Marcombo

 Colección de libros NTiCS (Negocios, Tecnología, Innovación,
Conocimiento y Sociedad) dirigida por el profesor Luis
Joyanes y publicada en la editorial Alfaomega de México DF.

© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –122–
BIBLIOGRAFÍA BÁSICA
 JOYANES, Luis. ―Computación en "Nube" (Cloud
Computing) y Centros de Datos la nueva revolución
industrial ¿cómo cambiará el trabajo en
organizaciones y empresas?‖. Sociedad y Utopía.
UPSA: Madrid. , ISSN 1133-6706, Nº 36, 2010, págs.
111-127.
 JOYANES, Luis (2009a) ―La Computación en
Nube(Cloud Computing) :El nuevo paradigma
tecnológico para empresas y organizaciones en la
Sociedad del Conocimiento‖ , ICADE, nº 76, eneromarzo 2009, Madrid: Universidad Pontificia Comillas.
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –123–
ÚLTIMOS LIBROS DEL prof. LUIS

JOYANES

 Ciberseguridad. Retos y desafíos para la

defensa nacional en el ciberespacio.

Madrid: IEEE (Instituto Español de Estudios
Estratégicos). 2011. Editor y Coordinador.
www.ieee.org. Cuadernos de estrategia,
nº 149.
 Fundamentos generales de programación;

Programación en C/C++, Java y UML;
Programación en Java 6: Editorial McGrawHill, México DF.
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –124–
Blogs tecnológicos
 TechCrunch (www.techcrunch.com)
 Gizmodo (www.gizmodo.com, www.gizmodo.es)
 Boing Boing (www.boingboing.com)
 Engadget (www.engadget.com)
 The Official Google Blog (googleblog.blospot.com)
 O´Reilly (www.oreillynet.com)
 Slahdot (www.slahdot.com)
 Microsiervos (www.microsiervos.com)
 Xataca (www.xataca.com)
 All Things Digital (allthingsd.com)
 Mashable (www.mashable.com)
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –125–
LECTURAS RECOMENDADAS
NIST
Cloud Security Alliance
ISACA
BBVA, BANKINTER, Accenture…
ENISA
Cio.com, Computing.es, Computerworld
ONTSI. Cloud computing. Retos y
oportunidades.

www.ontsi.red.es/ontsi/sites/default/files/1_estudio_cloud_computing_retos_y_oportunidades_vdef.pdf
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –126–
BIBLIOGRAFÍA
 Innovation Edge , revista BBVA, junio 2013
https://www.centrodeinnovacionbbva.com/innova
tion-edge/21-big-data
 SOARES, Sunil (2013). Big Data Governance. An
emerging Imperative. Boise, USA: MC Press.
 DAVENPORT, Thomas H. y DYCHÉ, Jill. Big Data in Big

Companies. SAS. International Institute for Analytics.
 Datalytics. 18D – Pentaho Big Data Architecture,

www.datalytics.com (Pentaho)
 Gereon Vey, Tomas Krojzl. Ilya Krutov (2012) . Inmemory Computing with SAP HANA on IBM eX5
Systems. ibm.com/redbooks. Draft Document for
Review December 7, 2012 1:59 pm SG24-8086-00
© Luis Joyanes Aguilar
Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –127–
BIBLIOGRAFÍA
 ZIKOPOULOS, Paul C. et al (2012). Understanding Big

Data. Analytics for Enterprise Class Hadoop and Streaming
Data. New York: McGraw-Hill.

www-01.ibm.com/software/data/bigdata/
 ZIKOPOULOS, Paul C. et al (2013). Harness the Power
of Big Data. The IBM Big Data Platform. New York:
McGraw-Hill. Descargable libre en IBM.

© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –128–
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –129–
REFERENCIAS
McKinsey Global Institute . Big data: The

next frontier for innovation, competition, and
productivity. June 2011

James G. Kobielus. The Forrester Wave™:
Enterprise Hadoop Solutions, Q1 2012, February
2, 2012.
www-01.ibm.com/software/data/bigdata/
 Diego Lz. de Ipiña Glz. de Artaza. Bases de Datos No
Relacionales (NoSQL). Facultad de Ingeniería,

Universidad de Deusto. www.morelab.deusto.es
http://paginaspersonales.deusto.es/dipina
© Luis Joyanes Aguilar
Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –130–
REFERENCIAS
 Philip Russom. BIG DATA ANALYTICS. FOURTH QUARTER
2011. TDWI.org

IBM. http://www-01.ibm.com/software/data/bigdata/

© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –131–
LECTURAS RECOMENDADAS (historia
del cloud)
KING, Rachael (2008): ―How Cloud Computing
is Changing the World?‖ en BusinessWeek, New
York, 4 august, 2008
 LEINWAND, Allan (2008): ―It´s 2018: Who
Owns the Cloud?‖ en BusinessWeek, New York, 4
august, 2008
THE ECONOMIST (2008): ―Let it rise. A
Special report on IT Corporate‖ en The
Economist, London, October 25th 2008.
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –132–
ANEXOS

• Informe McKinsey de Big Data
• OPEN DATA
Prof. Luis Joyanes Aguilar

133
Big Data – McKinsey. Junio 2011
Big data: The next frontier for

innovation, competition, and
productivity.

http://www.mckinsey.com/Insights/MGI/
Research/Technology_and_Innovation/Big
_data_The_next_frontier_for_innovation

© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –134–
Big Data – McKinsey. Junio 2011
Big data: The next frontier for innovation,

competition, and productivity.

The amount of data in our world has been
exploding. Companies capture trillions of bytes of
information about their customers, suppliers, and
operations, and millions of networked sensors are
being embedded in the physical world in devices
such as mobile phones and automobiles,
sensing, creating, and communicating data.
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –135–
Big Data – McKinsey. Junio 2011
Multimedia and individuals with smartphones and
on social network sites will continue to fuel
exponential growth. Big data—large pools of data
that can be captured, communicated, aggregated,
stored, and analyzed—is now part of every sector
and function of the global economy. Like other
essential factors of production such as hard
assets and human capital, it is increasingly the
case that much of modern economic activity,
innovation, and growth simply couldn’t take place
without data.
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –136–
Big Data – McKinsey. Junio 2011
 The question is what this phenomenon means. Is the
proliferation of data simply evidence of an increasingly
intrusive world? Or can big data play a useful economic
role? While most research into big data thus far has
focused on the question of its volume, our study makes the
case that the business and economic possibilities of big
data and its wider implications are important issues that
business leaders and policy makers must tackle. To inform
the debate, this study examines the potential value that big
data can create for organizations and sectors of the
economy and seeks to illustrate and quantify that value. We
also explore what leaders of organizations and policy
makers need to do to capture it.
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –137–
What do we mean by "big data"?―
: McKinsey 2011
―Big data‖ refers to datasets whose size is
beyond the ability of typical database software
tools to capture, store, manage, and analyze.

This definition is intentionally subjective and incorporates a
moving definition of how big a dataset needs to be in order to be
considered big data—i.e., we don’t define big data in terms of
being larger than a certain number of terabytes (thousands of
gigabytes). We assume that, as technology advances over time,
the size of datasets that qualify as big data will also increase. Also
note that the definition can vary by sector, depending on what
kinds of software tools are commonly available and what sizes of
datasets are common in a particular industry. With those caveats,
big data in many sectors today will range from a few dozen
terabytes to multiple petabytes (thousands of terabytes).

© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –138–
OPEN DATA (Datos abiertos)

© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –139–
OPEN DATA (Datos abiertos)
Las administraciones públicas [de
cualquier organismo nacional e
internacional] generan gran cantidad de
información en formatos propios de difícil
acceso para la mayoría de los ciudadanos.
Bases de datos, listas, estudios, informes,
estadísticas, etc. son datos abiertos (open
data) en formatos propios que son de
difícil acceso para la mayoría de los
ciudadanos.
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –140–
OPEN DATA (Datos abiertos)
Evidentemente estos datos se almacenan
normalmente en centros de datos propios
de las administraciones que a su vez se
almacenan y gestionan en nubes públicas o
privadas
¿Qué necesitan los profesionales o las
empresas para sacar rentabilidad a esos
datos públicos? Evidentemente la
colaboración de las entidades públicas para
liberar cada día más información y crear
más oportunidades de negocio
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –141–
¿Qué son datos abiertos?
Los Datos Abiertos constituyen una iniciativa
de transparencia y Gobierno Abierto que
consiste en la liberación de conjuntos de
datos que son de interés público. Los Datos Abiertos

son puestos a disposición de la sociedad, se promueve su libre acceso y
reutilización, exceptuando aquellos datos que por razones de seguridad y
privacidad previstas en la normativas vigentes no puedan ser publicados;
La mayor parte de los datos generados o mantenidos por el
estado son públicos. Sin embargo, no sólo el estado puede abrir
sus datos: empresas, organizaciones y comunidades de
información que producen o mantienen datos pueden ponerlos a
disposición, siempre en formatos abiertos y bajo licencias libres.

© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –142–
OPEN DATA (Datos abiertos)
La administración de Estados Unidos
inició la iniciativa Open Data y en
paralelo la Unión Europea ha ido
adoptando también la iniciativa.
En España los primeros gobiernos han
sido los Gobiernos Autonómicos de El
Principado de Asturias y el País
Vasco.
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –143–
OPEN DATA (Datos abiertos)
La iniciativa del Gobierno Vasco se ha
plasmado en la puesta en funcionamiento
de Open Data Euskadi que pretende crear
un sitio web donde la información
reutilizable (contenidos abiertos) estén al
alcance de cualquier ciudadano.
Un estudio de la UE(2010) estima que el
mercado de información pública podría
generar riqueza por valor de 27.000
millones de euros.
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –144–
OPEN DATA EN LATAM…
 MÉXICO
 Portal de Datos Abiertos del DISTRITO FEDERAL

http://df.gob.mx

 Ayuntamiento de Puebla (octubre
2013)
 Iniciativa de Open Data (periódico ―MILENIO‖

ARGENTINA. Portal de datos abiertos
de Buenos Aires
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –145–
OPEN DATA EN LATAM…
Colombia
 Portal de Datos Abiertos del gobierno

http://datosabiertoscolombia.cloudapp.ne
t/frm/buscador/frmBuscador.aspx

Perú
 Portal de Datos Abiertos de la Municipalidad de

Lima
 Portal de Datos Abiertos:
http://www.datosperu.org/
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –146–
INICIATIVAS PIONERAS
INTERNACIONALES EN OPEN DATA
En España… además de los gobiernos autonómicos
de Asturias, País Vasco y Cataluña, la fundación CTIC
ligada al consorcio W3C (www.fundacionctic.org).
http://datos.gob.es/datos/?q=node/232

En Estados Unidos data.gov, en Gran
Bretaña data.gov.uk
 En Google (abril 2011, del número 1) la revista de
negocios. //thinkquarterly.co.uk. El número 1 dedicado
a OPEN DATA.

En la Unión Europea (Iniciativa OPEN DATA):
http://open-data.europa.eu/es
© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –147–
CONFERENCIA EN slideshare.net
http://www.slideshare.net/luismackoy/igdata-y-minera-de-datos-tec-de-monterreyquertaro

© Luis Joyanes Aguilar

Instituto Tecnológico de San Luis Potosí
San Luis Potosí , 7 de noviembre de 2013

Página –148–

Weitere ähnliche Inhalte

Was ist angesagt?

Presentación del Libro "Computación en la Nube" en República Dominicana
Presentación del Libro "Computación en la Nube" en República DominicanaPresentación del Libro "Computación en la Nube" en República Dominicana
Presentación del Libro "Computación en la Nube" en República DominicanaLuis Joyanes
 
Internet de las cosas y Big Data. Los pilares de la cuarta revolución industrial
Internet de las cosas y Big Data. Los pilares de la cuarta revolución industrialInternet de las cosas y Big Data. Los pilares de la cuarta revolución industrial
Internet de las cosas y Big Data. Los pilares de la cuarta revolución industrialLuis Joyanes
 
Computación en la Nube, Big Data y Analitica
Computación en la Nube, Big Data y Analitica Computación en la Nube, Big Data y Analitica
Computación en la Nube, Big Data y Analitica Luis Joyanes
 
Big Data Introducción
Big Data IntroducciónBig Data Introducción
Big Data Introducciónbd4s
 
Cloud Computing - Retos y oportunidades en la educación 2013
Cloud Computing - Retos y oportunidades en la educación 2013Cloud Computing - Retos y oportunidades en la educación 2013
Cloud Computing - Retos y oportunidades en la educación 2013Luis Joyanes
 
Conferencia bigdata uem
Conferencia bigdata uemConferencia bigdata uem
Conferencia bigdata uemLuis Joyanes
 
Big data&data science vfinal
Big data&data science vfinalBig data&data science vfinal
Big data&data science vfinalLuis Joyanes
 
Big Data en Beneficio del Ciudadano
Big Data en Beneficio del CiudadanoBig Data en Beneficio del Ciudadano
Big Data en Beneficio del CiudadanoEQ SOFT EIRL
 
Conferencia ciberseguridad 360º bis: Impacto Big Data, Cloud e Internet de la...
Conferencia ciberseguridad 360º bis: Impacto Big Data, Cloud e Internet de la...Conferencia ciberseguridad 360º bis: Impacto Big Data, Cloud e Internet de la...
Conferencia ciberseguridad 360º bis: Impacto Big Data, Cloud e Internet de la...Luis Joyanes
 
Ciberseguridad: Estado del arte y futuro, mayo 2014
Ciberseguridad: Estado del arte y futuro, mayo 2014Ciberseguridad: Estado del arte y futuro, mayo 2014
Ciberseguridad: Estado del arte y futuro, mayo 2014Luis Joyanes
 
Big Data y Transformación Social: Límites y Posibilidades. FCFORUM 2013
Big Data y Transformación Social: Límites y Posibilidades. FCFORUM 2013Big Data y Transformación Social: Límites y Posibilidades. FCFORUM 2013
Big Data y Transformación Social: Límites y Posibilidades. FCFORUM 2013Outliers Collective
 
Big data en el big bang del universo digital
Big data en el big bang del universo digitalBig data en el big bang del universo digital
Big data en el big bang del universo digitalAna Marcela Peña Nieto
 
Big Data y la innovación Global en Servicios Actual y Futura
Big Data y la innovación Global en Servicios Actual y FuturaBig Data y la innovación Global en Servicios Actual y Futura
Big Data y la innovación Global en Servicios Actual y FuturaHugo Céspedes A.
 
Big Data para Dummies
Big Data para DummiesBig Data para Dummies
Big Data para DummiesStratebi
 
Big Data Introducción
Big Data IntroducciónBig Data Introducción
Big Data IntroducciónGorka Armentia
 
Dirigiendo y gestionando proyectos Big Data
Dirigiendo y gestionando proyectos Big DataDirigiendo y gestionando proyectos Big Data
Dirigiendo y gestionando proyectos Big DataEmilio del Prado
 

Was ist angesagt? (20)

Presentación del Libro "Computación en la Nube" en República Dominicana
Presentación del Libro "Computación en la Nube" en República DominicanaPresentación del Libro "Computación en la Nube" en República Dominicana
Presentación del Libro "Computación en la Nube" en República Dominicana
 
Internet de las cosas y Big Data. Los pilares de la cuarta revolución industrial
Internet de las cosas y Big Data. Los pilares de la cuarta revolución industrialInternet de las cosas y Big Data. Los pilares de la cuarta revolución industrial
Internet de las cosas y Big Data. Los pilares de la cuarta revolución industrial
 
Computación en la Nube, Big Data y Analitica
Computación en la Nube, Big Data y Analitica Computación en la Nube, Big Data y Analitica
Computación en la Nube, Big Data y Analitica
 
Big Data Introducción
Big Data IntroducciónBig Data Introducción
Big Data Introducción
 
Cloud Computing - Retos y oportunidades en la educación 2013
Cloud Computing - Retos y oportunidades en la educación 2013Cloud Computing - Retos y oportunidades en la educación 2013
Cloud Computing - Retos y oportunidades en la educación 2013
 
Conferencia bigdata uem
Conferencia bigdata uemConferencia bigdata uem
Conferencia bigdata uem
 
Big data&data science vfinal
Big data&data science vfinalBig data&data science vfinal
Big data&data science vfinal
 
Big Data en Beneficio del Ciudadano
Big Data en Beneficio del CiudadanoBig Data en Beneficio del Ciudadano
Big Data en Beneficio del Ciudadano
 
Conferencia ciberseguridad 360º bis: Impacto Big Data, Cloud e Internet de la...
Conferencia ciberseguridad 360º bis: Impacto Big Data, Cloud e Internet de la...Conferencia ciberseguridad 360º bis: Impacto Big Data, Cloud e Internet de la...
Conferencia ciberseguridad 360º bis: Impacto Big Data, Cloud e Internet de la...
 
Ciberseguridad: Estado del arte y futuro, mayo 2014
Ciberseguridad: Estado del arte y futuro, mayo 2014Ciberseguridad: Estado del arte y futuro, mayo 2014
Ciberseguridad: Estado del arte y futuro, mayo 2014
 
Big data
Big data Big data
Big data
 
Big Data
Big DataBig Data
Big Data
 
Big Data y Transformación Social: Límites y Posibilidades. FCFORUM 2013
Big Data y Transformación Social: Límites y Posibilidades. FCFORUM 2013Big Data y Transformación Social: Límites y Posibilidades. FCFORUM 2013
Big Data y Transformación Social: Límites y Posibilidades. FCFORUM 2013
 
Big data en el big bang del universo digital
Big data en el big bang del universo digitalBig data en el big bang del universo digital
Big data en el big bang del universo digital
 
Perspectivas cap 14
Perspectivas cap 14Perspectivas cap 14
Perspectivas cap 14
 
Capitulo 14 presentacion hernan
Capitulo 14 presentacion hernanCapitulo 14 presentacion hernan
Capitulo 14 presentacion hernan
 
Big Data y la innovación Global en Servicios Actual y Futura
Big Data y la innovación Global en Servicios Actual y FuturaBig Data y la innovación Global en Servicios Actual y Futura
Big Data y la innovación Global en Servicios Actual y Futura
 
Big Data para Dummies
Big Data para DummiesBig Data para Dummies
Big Data para Dummies
 
Big Data Introducción
Big Data IntroducciónBig Data Introducción
Big Data Introducción
 
Dirigiendo y gestionando proyectos Big Data
Dirigiendo y gestionando proyectos Big DataDirigiendo y gestionando proyectos Big Data
Dirigiendo y gestionando proyectos Big Data
 

Ähnlich wie Big Data Revolution

Big Data y su impacto en la Inteligencia de Negocios
Big Data y su impacto en la Inteligencia de NegociosBig Data y su impacto en la Inteligencia de Negocios
Big Data y su impacto en la Inteligencia de NegociosLuis Joyanes
 
Nuevas formas de comunicación en una escuela hiperconectada. Del Bigdata al ...
Nuevas formas de comunicación  en una escuela hiperconectada. Del Bigdata al ...Nuevas formas de comunicación  en una escuela hiperconectada. Del Bigdata al ...
Nuevas formas de comunicación en una escuela hiperconectada. Del Bigdata al ...Juan Miguel Muñoz
 
Big Data: Impacto del Procesamiento masivo de datos
Big Data: Impacto del Procesamiento masivo de datosBig Data: Impacto del Procesamiento masivo de datos
Big Data: Impacto del Procesamiento masivo de datosEnrique Onieva
 
Big Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y FuturaBig Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y FuturaHCGlobal Group
 
Gestión del conocimiento y de la tecnología en la era digital (aclog)
Gestión del conocimiento y de la tecnología en la era digital (aclog)Gestión del conocimiento y de la tecnología en la era digital (aclog)
Gestión del conocimiento y de la tecnología en la era digital (aclog)Grial - University of Salamanca
 
Cap.14 BIG DATA Y OPEN DATA: EL UNIVERSO DIGITAL DE DATOS
Cap.14 BIG DATA Y OPEN DATA: EL UNIVERSO DIGITAL  DE DATOSCap.14 BIG DATA Y OPEN DATA: EL UNIVERSO DIGITAL  DE DATOS
Cap.14 BIG DATA Y OPEN DATA: EL UNIVERSO DIGITAL DE DATOSEdwin Ruiz
 
La necesidad de la administracion del conocimiento del arte 01
La necesidad de la administracion del conocimiento del arte 01La necesidad de la administracion del conocimiento del arte 01
La necesidad de la administracion del conocimiento del arte 01Angelo Alejandro
 
Abelardo Ibáñez - VP Internacional Weborama
Abelardo Ibáñez - VP Internacional WeboramaAbelardo Ibáñez - VP Internacional Weborama
Abelardo Ibáñez - VP Internacional WeboramaArena Media España
 
Big data y Open Data -Linea de tiempo
Big data y Open Data -Linea de tiempoBig data y Open Data -Linea de tiempo
Big data y Open Data -Linea de tiempoAllan Blanco
 
Noticia nti cx
Noticia nti cxNoticia nti cx
Noticia nti cxMartukaed
 
Semana de la Ciencia 2014 (Martínez-Prieto)
Semana de la Ciencia 2014 (Martínez-Prieto)Semana de la Ciencia 2014 (Martínez-Prieto)
Semana de la Ciencia 2014 (Martínez-Prieto)Carlos Cuesta
 

Ähnlich wie Big Data Revolution (20)

Big Data y su impacto en la Inteligencia de Negocios
Big Data y su impacto en la Inteligencia de NegociosBig Data y su impacto en la Inteligencia de Negocios
Big Data y su impacto en la Inteligencia de Negocios
 
Nuevas formas de comunicación en una escuela hiperconectada. Del Bigdata al ...
Nuevas formas de comunicación  en una escuela hiperconectada. Del Bigdata al ...Nuevas formas de comunicación  en una escuela hiperconectada. Del Bigdata al ...
Nuevas formas de comunicación en una escuela hiperconectada. Del Bigdata al ...
 
La linea del tiempo.
La linea del tiempo.La linea del tiempo.
La linea del tiempo.
 
Big Data: Impacto del Procesamiento masivo de datos
Big Data: Impacto del Procesamiento masivo de datosBig Data: Impacto del Procesamiento masivo de datos
Big Data: Impacto del Procesamiento masivo de datos
 
Big Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y FuturaBig Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y Futura
 
Gestión del conocimiento y de la tecnología en la era digital (aclog)
Gestión del conocimiento y de la tecnología en la era digital (aclog)Gestión del conocimiento y de la tecnología en la era digital (aclog)
Gestión del conocimiento y de la tecnología en la era digital (aclog)
 
Cap.14 BIG DATA Y OPEN DATA: EL UNIVERSO DIGITAL DE DATOS
Cap.14 BIG DATA Y OPEN DATA: EL UNIVERSO DIGITAL  DE DATOSCap.14 BIG DATA Y OPEN DATA: EL UNIVERSO DIGITAL  DE DATOS
Cap.14 BIG DATA Y OPEN DATA: EL UNIVERSO DIGITAL DE DATOS
 
Linea de Tiempo Big Data
Linea de Tiempo Big DataLinea de Tiempo Big Data
Linea de Tiempo Big Data
 
La necesidad de la administracion del conocimiento del arte 01
La necesidad de la administracion del conocimiento del arte 01La necesidad de la administracion del conocimiento del arte 01
La necesidad de la administracion del conocimiento del arte 01
 
Abelardo Ibáñez - VP Internacional Weborama
Abelardo Ibáñez - VP Internacional WeboramaAbelardo Ibáñez - VP Internacional Weborama
Abelardo Ibáñez - VP Internacional Weborama
 
Big data y Open Data -Linea de tiempo
Big data y Open Data -Linea de tiempoBig data y Open Data -Linea de tiempo
Big data y Open Data -Linea de tiempo
 
Perspectiva big data Olman Cruz
Perspectiva big data Olman CruzPerspectiva big data Olman Cruz
Perspectiva big data Olman Cruz
 
Anatomía de un proyecto de Big Data
Anatomía de un proyecto de Big DataAnatomía de un proyecto de Big Data
Anatomía de un proyecto de Big Data
 
Big Data, Big Picture
Big Data, Big PictureBig Data, Big Picture
Big Data, Big Picture
 
Big Data para mortales
Big Data para mortalesBig Data para mortales
Big Data para mortales
 
Big data
Big dataBig data
Big data
 
Noticia nti cx
Noticia nti cxNoticia nti cx
Noticia nti cx
 
¿Qué es el Big Data?
¿Qué es el Big Data?¿Qué es el Big Data?
¿Qué es el Big Data?
 
Semana de la Ciencia 2014 (Martínez-Prieto)
Semana de la Ciencia 2014 (Martínez-Prieto)Semana de la Ciencia 2014 (Martínez-Prieto)
Semana de la Ciencia 2014 (Martínez-Prieto)
 
La forma de las cosas que vendrán m1
La forma de las cosas que vendrán m1La forma de las cosas que vendrán m1
La forma de las cosas que vendrán m1
 

Mehr von Luis Joyanes

Curso doctorado nebrija enero 2014
Curso doctorado nebrija enero 2014Curso doctorado nebrija enero 2014
Curso doctorado nebrija enero 2014Luis Joyanes
 
Tec monterrey ciudadanía_inclusion_digital
Tec monterrey ciudadanía_inclusion_digitalTec monterrey ciudadanía_inclusion_digital
Tec monterrey ciudadanía_inclusion_digitalLuis Joyanes
 
Innovaciones tecnológicas qbit
Innovaciones tecnológicas qbitInnovaciones tecnológicas qbit
Innovaciones tecnológicas qbitLuis Joyanes
 
Innovaciones tecnológicas qbit
Innovaciones tecnológicas qbitInnovaciones tecnológicas qbit
Innovaciones tecnológicas qbitLuis Joyanes
 
Curso de innovaciones tecnológicas y cloud computing
Curso de innovaciones tecnológicas y cloud computingCurso de innovaciones tecnológicas y cloud computing
Curso de innovaciones tecnológicas y cloud computingLuis Joyanes
 
Conferencia businessintelligence
Conferencia businessintelligence Conferencia businessintelligence
Conferencia businessintelligence Luis Joyanes
 
Master salamancamarzo 4_ socialbusiness
Master salamancamarzo 4_ socialbusinessMaster salamancamarzo 4_ socialbusiness
Master salamancamarzo 4_ socialbusinessLuis Joyanes
 
Master salamancamarzo 4_ socialbusiness
Master salamancamarzo 4_ socialbusinessMaster salamancamarzo 4_ socialbusiness
Master salamancamarzo 4_ socialbusinessLuis Joyanes
 
Master salamancamarzo 4_ socialbusiness
Master salamancamarzo 4_ socialbusinessMaster salamancamarzo 4_ socialbusiness
Master salamancamarzo 4_ socialbusinessLuis Joyanes
 

Mehr von Luis Joyanes (9)

Curso doctorado nebrija enero 2014
Curso doctorado nebrija enero 2014Curso doctorado nebrija enero 2014
Curso doctorado nebrija enero 2014
 
Tec monterrey ciudadanía_inclusion_digital
Tec monterrey ciudadanía_inclusion_digitalTec monterrey ciudadanía_inclusion_digital
Tec monterrey ciudadanía_inclusion_digital
 
Innovaciones tecnológicas qbit
Innovaciones tecnológicas qbitInnovaciones tecnológicas qbit
Innovaciones tecnológicas qbit
 
Innovaciones tecnológicas qbit
Innovaciones tecnológicas qbitInnovaciones tecnológicas qbit
Innovaciones tecnológicas qbit
 
Curso de innovaciones tecnológicas y cloud computing
Curso de innovaciones tecnológicas y cloud computingCurso de innovaciones tecnológicas y cloud computing
Curso de innovaciones tecnológicas y cloud computing
 
Conferencia businessintelligence
Conferencia businessintelligence Conferencia businessintelligence
Conferencia businessintelligence
 
Master salamancamarzo 4_ socialbusiness
Master salamancamarzo 4_ socialbusinessMaster salamancamarzo 4_ socialbusiness
Master salamancamarzo 4_ socialbusiness
 
Master salamancamarzo 4_ socialbusiness
Master salamancamarzo 4_ socialbusinessMaster salamancamarzo 4_ socialbusiness
Master salamancamarzo 4_ socialbusiness
 
Master salamancamarzo 4_ socialbusiness
Master salamancamarzo 4_ socialbusinessMaster salamancamarzo 4_ socialbusiness
Master salamancamarzo 4_ socialbusiness
 

Big Data Revolution

  • 1. BIG DATA Y LA REVOLUCIÓN DE LOS DATOS Retos y oportunidades TECNOLÓGICO DE SAN LUIS POTOSÍ San Luis Potosí, 7de noviembre, 2013 Prof. Luis Joyanes Aguilar 1
  • 2. © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –2–
  • 3. ESTADO DEL ARTE DE CLOUD COMPUTING COMPUTACIÓN EN LA NUBE La nueva era de la computación Prof. Luis Joyanes Aguilar 3
  • 4. 4
  • 5. 5
  • 6. TECNOLÓGICO DE SAN LUIS POTOSÍ BIG DATA El universo digital de datos Prof. Luis Joyanes Aguilar 6
  • 7. LA ERA DEL PETABYTE (1.000 TB), Wired , julio 2008 (www.wired.com) Sensores en todas partes, almacenamiento infinito y Nubes (clouds) de procesadores  Nuestra capacidad para capturar, almacenar y comprender cantidades masivas de datos está cambiando la ciencia, medicina, negocios y tecnología. A medida que aumenta nuestra colección de hechos y figuras, crece la oportunidad de encontrar respuestas a preguntas fundamentales. Because in the era of big data, more isn´t just more. More is different © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –7–
  • 8. LA ERA DEL PETABYTE -2- . Wired , julio 2008 (www.wired.com)  1TB (250.000 canciones) 20 TB (fotos ―uploaded‖ a Facebook cada mes)  120 TB (todos los datos e imágenes recogidos por el telescopio espacial Hubble) ; 460 TB (todos los datos del tiempo climático en EEUÜ compilados por el National Climatic Data Center); 530 TB (Todos los vídeos de YouTube); 600 TB (base de datos de genealogía, incluye todos los censos de EEUU 1790-2000) 1 PB (datos procesados por los servidores de Google cada 75 minutos) © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –8–
  • 9. Tabla de unidades de almacenamiento (The Economist, febrero 2010): ―data, data everywhere‖ www.economist.com/specialreports/displaystory.cfm?story_id=15557421 © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –9–
  • 10. El Universo Digital – EMC / IDC © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –10–
  • 11. El Universo Digital – EMC / IDC © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –11–
  • 12. EL UNIVERSO DIGITAL DE DATOS, 2013  EMC Corporation PUBLICÓ en diciembre de 2013, su estudio anual sobre el Universo Digital de IDC, patrocinado por EMC: ―Big Data, Bigger Digital Shadows, and Biggest Growth in the Far East‖. El a pesar de la expansión sin precedentes del Universo Digital debido a el Big Data que se generan a diario por personas y máquinas, IDC estima que solo 0,5% de los datos mundiales se analizan. estudio arrojó que, © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –12–
  • 13. EL UNIVERSO DIGITAL DE DATOS, 2013  La proliferación a nivel mundial de dispositivos, como PC y teléfonos inteligentes, aumentó el acceso a Internet dentro de los mercados emergentes, y el incremento de datos generados por máquinas, como cámaras de vigilancia o contadores inteligentes, ha contribuido a la duplicación del Universo Digital en los últimos dos años solamente, hasta alcanzar un tamaño descomunal de 2,8 ZB. IDC proyecta que, para el 2020, el Universo Digital alcanzará 40 ZB, cifra que supera las proyecciones anteriores por 14%. © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –13–
  • 14. EL UNIVERSO DIGITAL DE DATOS, 2013  En términos de volumen, 40 ZB de datos son equivalentes a lo siguiente:  Existen 700.500.000.000.000.000.000 granos de arena en todas las playas del mundo (o setecientos trillones quinientos mil billones). Esto significa que 40 ZB equivalen a 57 veces la cantidad de granos de arena de todas las playas del mundo. Si pudiéramos guardar los 40 ZB en los discos Blue-ray de la actualidad, el peso de dichos discos (sin fundas ni estuches) sería equivalente a 424 portaaviones Nimitz. En 2020, 40 ZB serán 5.247 GB por persona a nivel mundial.  Referencia: America Economia: http://tecno.americaeconomia.com/noticias/el-granuniverso-digital-la-data-crece-mas-rapido-de-lo-quepodemos-protegerla © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –14–
  • 15. El universo digital de datos, IDC 2013 © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Pina –15–
  • 16. El universo digital de datos, 2013 © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –16–
  • 17. LA ERA DEL EXABYTE/ZETTABYTE CISCO LA ERA DEL EXABYTE, CISCO . Estudio ―Cisco Visual Networking Index (VNI) 2007-2012. Tráfico mundial de datos. LA ERA DEL ZETTABYTE:Cisco VNI: Forecast and Methodology 2012: 22017. Tráfico mundial de datos (publicado en 2013)  © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –17–
  • 18. Informe VNI CISCO 2012-2107 Durante 2012, empresas, gobiernos, industria y usuarios finales generan cada mes del año, una tasa de tráfico mensual de 44 EB (aprox. 44 millones de discos duros de 1TB apilados u 11.000 millones de DVDs). México produjo en 2012 un tráfico de 0,6 ExaBytes/mes. Se estima que en 2017 producirá unos 1,3 EB. Para ese momento el 56% de la población contará con acceso a Internet de acuerdo con el INEGI de México © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –18–
  • 19. Informe VNI CISCO 2012-2107 Los dispositivos que más ayudan a generar los 44 EB por mes, según CISCO: 0,6 EB, smartphones 2,7 tabletas 5,8 televisores 7,6 consolas de videojuegos 18,6 computadoras personales … En 2017 se espera una tasa global de tráfico mensual de 121 EB aprox. 1 ZB © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –19–
  • 20. TECNOLÓGICO de San Luis de Potosí BIG DATA Y MINERÍA / ANALÍTICA DE DATOS. Nuevas bases de datos NoSQL, ―In-Memory‖… Prof. Luis Joyanes Aguilar 20
  • 21. Harvard Business Review, octubre 2012 © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –21–
  • 22. Foreign Affairs, mayo 2013 © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –22–
  • 23. Revista BBVA, innovation edge, junio 2013 © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –23–
  • 24. ORIGEN DEL TÉRMINO  Grandes volúmenes de datos Datos masivos Macrodatos (Fundación Fundeú BBVA) ―La era de los datos masivos se refiere a cosas que se pueden hacer a gran escala, y pone en cuestión la forma en que vivimos e interactuamos con el mundo‖ (Mayer-Schömberg, Cukier, The Economist) Correlación: ya no importa el el qué © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 porqué sino sólo Página –24–
  • 25. LA AVALANCHA / DILUVIO DE DATOS  Según Eric Schmidt, presidente ejecutivo de Google, entre el origen de la tierra y el 2003 se crearon cinco exabytes de información. Hoy en día creamos la misma cifra cada dos días2. Las previsiones aseguran que en esta década crearemos alrededor de 40 zettabytes (informe de IDC de diciembre de 2012)  Según la consultora IDC, cifran en 1,8 Zettabytes la información generada en 2011. Si tratáramos de almacenar esa información en iPads (del modelo de 32GB) necesitaríamos 57.500 millones; puestos unos al lado de otro formaríamos una línea que daría 3 veces la vuelta al mundo y, si tratáramos de apilarlos, la ―montaña‖ resultante sería 25 veces más alta que el monte Fuji. © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –25–
  • 26. LA AVALANCHA / DILUVIO DE DATOS Twitter: (redes sociales)  90 millones de tuits (tweets) por día que representan 12 Terabytes (datos de 2011) Boeing: (industria)  Vuelo transoceánico de un jumbo puede generar 640 Terabytes. Wal-Mart: (comercio)  1 millón de transacciones por hora que se estima que alimenta una base de datos de 2.5 petabytes. Google procesa al día 20 PB de información © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –26–
  • 27. LA AVALANCHA / DILUVIO DE DATOS El 90% de los datos acumulados en todo el mundo se han creado en los dos últimos años. Cada día se escriben 400 millones de tuits, cada minuto se crean 600 nuevos blogs y cada segundo se registran 10.000 transacciones de pagos con tarjetas. Objetos cotidianos como los carros, los relojes o las gafas están comenzando a conectarse a Internet para alimentar nuevos servicios que requieren un constante intercambio de información. © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –27–
  • 28. © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –28–
  • 29. © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –29–
  • 30. BIG DATA, bbva edge, junio 2013 Fuentes: SAS | Big Data: www.sas.com/big-data. IBM | Big Data at the Speed of Business McKinsey Global Institute | Big Data: The next frontier for innovation, competition, and productivity, junio 2011. Fuente: Intel | What Happens in an Internet Minute? www.intel.com/content/www/us/en/communic ations/internet-minute-infographic.html © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –30–
  • 31. LA AVALANCHA / DILUVIO DE DATOS Los Ayuntamientos siembran las calles con sensores de recogida de datos para facilitar la vida de los ciudadanos. Cada día se recogen 2,5 trillones de bytes de datos, y los directivos de las empresas apenas pueden manejar la mitad de los generados en su entorno porque el 80% de ellos están ―desestructurados·.  El número de dispositivos en red duplicará a la población mundial en 2015 y los datos que generen se convertirán en información utilizada por las empresas para anticipar las necesidades de los consumidores. © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –31–
  • 32. LA AVALANCHA / DILUVIO DE DATOS La respuesta para ordenar este caos es big data, la nueva herramienta para sistematizar los datos procedentes de cualquier soporte —incluyendo imagen sonido, fotos, textos…— y convertirlos de forma automática en información.  Big data ayudó a ganar las elecciones a Barak Obama y ha reducido de días a minutos la detección de uso de información privilegiada en Wall Street © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –32–
  • 33. LA AVALANCHA / DILUVIO DE DATOS En torno a ella se está creando un mercado evaluado por la firma de análisis Gartner en 132.000 millones de dólares para 2015. Ese año se crearán 4,4 millones de puestos de trabajo para abastecerlo. Los expertos comparan la herramienta con una revolución industrial en el mundo de los datos y afirman que con ella cambiará nuestra forma de vida. © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –33–
  • 34. APLICACIONES DE BIG DATA  Los Gigantes de Internet como Google, Amazon o Facebook basan su éxito en el valor de los ―big data‖ sin ellos tendrían serias dudas de supervivencia. Big data es el nuevo petróleo, oro o maná de la década. IBM, SAP ,Oracle, Cisco… los han sistematizado para adaptarlas a todo tipo de empresas.  Google comenzó a gestionar Big Data desde su nacimiento en 1998, para indexar sus búsquedas‖  Big data ha saltado de Internet al mundo real, y las empresas investigan sus aplicaciones para mejorar la gestión, ahorrar consumos o lanzar nuevos servicios. © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –34–
  • 35. APLICACIONES DE BIG DATA  Big data empieza a dar los primeros pasos en Europa. La británica Tesco, cuarta cadena minorista mundial, lo acaba de implantar para controlar la energía en 120 tiendas irlandesas y quiere extenderlo a las 3.000 tiendas que tiene entre Irlanda y Reino Unido para lograr un ahorro de 20 millones de euros en consumos energéticos.  ING Direct ha lanzado en Holanda un servicio para vigilar la interacción de los clientes con la web que genera llamadas telefónicas automáticas para ayudar a quienes no logran terminar su operación ―una forma de fidelizar clientes‖ © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –35–
  • 36. APLICACIONES DE BIG DATA La central de reservas Amadeus (líneas aéreas) insta a las empresas a que incorporen la herramienta junto con el uso ya creciente de MINERÍA DE DATOS.  Investigación realizada por el profesor Thomas Davenport, de la escuela de negocios de Harvard, sobre la experiencia de Air France-KLM, Lufthansa, British Airways, Cathay, Eurostar, Hoteles Marriott, aeropuerto de Múnich.  El informe indica que ―las aerolíneas, los aeropuertos, los hoteles, las empresas ferroviarias y los distribuidores de productos turísticos deben plantearse una estrategia big data para situarse a la vanguardia‖. © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –36–
  • 37. APLICACIONES DE BIG DATA La industria aérea comercial podría ahorrar 30 millones de dólares en 15 años con la recogida de datos realizada por los sensores que GE coloca en los motores de los aviones.  Trece de las 25 mayores cadenas hoteleras de todo el mundo efectúan ya sus inversiones y sus ofertas comerciales, incluso el color de las paredes de los restaurantes o las habitaciones, cada vez más en función de sofisticados sistemas de análisis de datos de clientes (MINERÍA DE DATOS) © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –37–
  • 38. APLICACIONES DE BIG DATA  En España, un sistema privado de seguridad, Sanitas ha puesto en marcha un sistema para prevenir enfermedades entre sus 2,3 millones de clientes.  ―En un año hemos realizado 800.000 contactos a 100.000 clientes para darles consejos o indicarles la conveniencia de hacer pruebas de detección precoz cuando detectamos que por su perfil puede ser conveniente y ofrecer mejores servicios‖ [Portavoz de Sanitas al periódico El País] © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –38–
  • 39. APLICACIONES DE BIG DATA Las farmacéuticas y las aseguradoras de todo el mundo han sumado la fuerza de sus datos para acelerar la investigación contra el cáncer, el alzhéimer y otras lacras de la sociedad. ―hacer predicciones de comportamientos futuros de pacientes‖ son grandes ventajas de big data, que puede ―mejorarnos la vida hasta límites insospechados‖. © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –39–
  • 40. APLICACIONES DE BIG DATA Una línea de negocio importante de big data estará en las empresas de servicios. Mezclarán la información procedente de distintas fuentes y harán campañas de marketing (mercadotecnia) personalizado asociado a la geolocalización con datos de su perfil de riesgo, sus gustos y sus hábitos … © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –40–
  • 41. EXPANSIÓN, de Wall Street Journal, 1 de abril 2013  01.04.2013 S. Rosenbush / M. Totty. WSJ. Las empresas están buscando la mejor forma de aprovechar el exceso de información.  La información abunda y las empresas están buscando la mejor forma de aprovecharla. Los expertos ya bautizaron este fenómeno como big data. La definición es amorfa, pero normalmente significa lo siguiente: las empresas tienen acceso a mucha más información que antes, que proviene de muchas más fuentes y la obtienen casi al momento en que se genera. © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –41–
  • 42. EXPANSIÓN, de Wall Street Journal, 1 de abril 2013  El concepto de big data a menudo se relaciona con las empresas que ya operan en el mundo de la información, como Google, Facebook y Amazon. Pero compañías en múltiples industrias están colocando los datos en el corazón de sus operaciones. Están recolectando cantidades enormes de información, a menudo combinando indicadores tradicionales como las ventas, con comentarios de redes sociales e información de ubicación que viene de los dispositivos móviles. Las empresas escudriñan esta información para mejorar sus productos, recortar gastos y mantener la fidelidad de sus clientes.  Las firmas de logística, por ejemplo, instalan sensores en sus camiones para detectar formas de acelerar las entregas. Los fabricantes revisan miles de publicaciones en foros de Internet para determinar si a los clientes les gusta una nueva característica. Los gerentes de personal estudian cómo los candidatos a un empleo responden preguntas para ver si encajan bien con la compañía. © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –42–
  • 43. EXPANSIÓN, de Wall Street Journal, 1 de abril 2013 Aún quedan numerosos obstáculos en el camino. Algunos son técnicos, pero en la mayoría de las empresas las decisiones se siguen basando en la opinión de la persona con el salario más alto y podría ser difícil convencer a un ejecutivo de que los datos superan su intuición. Los recursos humanos, las operaciones, el desarrollo de productos o el márketing son las diferentes formas a través de las cuales las empresas usan el poder de la información para transformar sus negocios. © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –43–
  • 44. EXPANSIÓN, de Wall Street Journal, 1 de abril 2013 (casos de estudio)  UPS UPS comenzó a instalar sensores en sus vehículos de reparto para conocer su velocidad y ubicación, si el cinturón de seguridad del conductor está abrochado... Al combinar su información de GPS y los datos de sensores sobre rendimiento en más de 46.000 vehículos, UPS recortó 136 millones de kilómetros de sus rutas. © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –44–
  • 45. EXPANSIÓN, de Wall Street Journal, 1 de abril 2013 (casos de estudio)  InterContinental La cadena hotelera InterContinental ha recabado información sobre los 71 millones de miembros de su programa Priority Club, como niveles de ingresos y preferencias sobre las instalaciones. El grupo consolidó la información en un solo almacén de datos que reúne información de redes sociales y procesa búsquedas más rápido © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –45–
  • 46. DEFINICIÓN DE BIG DATA: IBM What is big data?* Every day, we create 2.5 quintillion bytes of data — so much that 90% of the data in the world today has been created in the last two years alone. This data comes from everywhere: sensors used to gather climate information, posts to social media sites, digital pictures and videos, purchase transaction records, and cell phone GPS signals to name a few. This data is big data.  * www-01.ibm.com/software/data/bigdata/ © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –46–
  • 47. DEFINICIÓN DE BIG DATA: Gartner Gartner* define ―Biga data‖ como un conjunto de datos de gran volumen, de gran velocidad y procedente de gran variedad de fuentes de información que demandan formas innovadoras y efectivas de procesar la información  www.gartner.com/id=2100215 © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –47–
  • 48. DEFINICIÓN DE BIG DATA: IBM © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –48–
  • 49. Modelo 3V de Big Data  VOLUMEN  • Terabytes  • Records  • Transactions  • Tables, files  VELOCIDAD  • Batch (por lotes)  • Near time (casi a tiempo)  • Real time (tiempo real)  • Streams (flujos) © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 VARIEDAD Estructurado No estructurado Semi-estructurado Todos los demás Página –49–
  • 50. © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –50–
  • 51. DEFINICIÓN DE BIG DATA: IBM  VOLUMEN de datos procesados por las empresas ha crecido significativamente. Google procesa 20 petabytes al día En 2020 se esperan 42.000 millones de pagos electrónicos. La Bolsa de Nueva York genera UN terabyte de datos al día Twitter genera 8 TB © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –51–
  • 52. DEFINICIÓN DE BIG DATA: IBM VELOCIDAD. Rapidez con la que se accede a los datos. La velocidad del movimiento, proceso y captura de datos, dentro y fuera de la empresa ha aumentado considerablemente. Flujo de datos a alta velocidad. eBay se enfrenta al fraude a través de PayPal analizando cinco millones de transacciones en tiempo real al día. © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –52–
  • 53. DEFINICIÓN DE BIG DATA: IBM VARIEDAD: Big data es cualquier tipo de dato – estructurado y no estrutcturado - tales como texto, datos de sensores, datos entre máquinas (M2M), archivos ―logs‖, audio, vídeo, flujos de clicks, XML, datos en streaming, cotizaciones bursátiles, medios sociales, Una creciente variedad de datos necesitan ser procesados y convertidos a información © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –53–
  • 54. DEFINICIÓN DE BIG DATA: IBM Según otras definiciones de Big Data de fabricantes, consultoras, NIST, etc. existen otras propiedades de los big data: Veracidad de los datos Valor de los datos Viabilidad de la infraestructuras y las herramientas de almacenamiento © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –54–
  • 55. Fuentes de Big Data  Herramientas para análisis de datos en grandes volúmenes de datos. Infraestructuras de Big Data  Fuentes de Big Data (Soares 2012):  Web y Social media  Machine-to-Machine (M2M, Internet de las cosas)  Biometria  Datos de transacciones de grandes datos (salud, telecomunicaciones…)  Datos generados por las personas (humanos) © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –55–
  • 56. Store.com Sunil Soares (2003). Big Data Governance Emerging Imperative. Boise. MC Press Online. El autor de este libro mantiene un blog excelente sobre Big Data y Gobierno de Big Data © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –56–
  • 57. Big Data. Joyanes, MéxicoDF: Alfaomega (2013)  1. Web y Social Media: Incluye contenido web e información que es obtenida de las medios sociales como Facebook, Twitter, LinkedIn, Foursquare, Tuenti, etc, blogs como Technorati, blogs de periódicos y televisiones, wikis como MediaWiki, Wikipedia, marcadores sociales como Del.icio.us, Stumbleupon… agregadores de contenidos como Dig, Meneame… En esta categoría los datos se capturan, almacenan o distribuyen teniendo presente las características siguientes: Datos de los flujos de clics, tuits, retuits o entradas en general (feeds) de Twitter, Tumblr…, Entradas (posting) de Facebook y contenidos web diversos. © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –57–
  • 58. Big Data. Joyanes, MéxicoDF: Alfaomega (2013)  2. Machine-to-Machine (M2M)/ Internet de las cosas: M2M se refiere a las tecnologías que permiten conectarse a otros diferentes dispositivos entre sí. M2M utiliza dispositivos como sensores o medidores que capturan algún evento en particular (humedad, velocidad, temperatura, presión, variables meteorológicas, variables químicas como la salinidad, etc.) los cuales transmiten a través de cableadas, inalámbricas y móviles a otras aplicaciones que traducen estos eventos en información significativa. La comunicación M2M ha originado el conocido Internet de las cosas o de los objetos. Entre los dispositivos que se emplean para capturar datos de esta categoría podemos considerar chips o etiquetas RFID, chips NFC, medidores (de temperaturas, de electricidad, presión…). sensores, dispositivos GPS… y ocasionan la generación de datos mediante la lectura de los medidores, lecturas de los RFID y NFC, lectura de los sensores, señales GPS, señales de GIS, etc. © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –58–
  • 59. Big Data. Joyanes, MéxicoDF: Alfaomega (2013)  3.Big Data transaccionales: Grandes datos transaccionales procedentes de operaciones normales de transacciones de todo tipo. Incluye registros de facturación, en telecomunicaciones registros detallados de las llamadas (CDR), etc. Estos datos transaccionales están disponibles en formatos tanto semiestructurados como no estructurados. Los datos generados procederán de registros de llamada de centros de llamada, departamentos de facturación, reclamaciones de las personas, presentación de documentos… © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –59–
  • 60. Big Data. Joyanes, MéxicoDF: Alfaomega (2013)  4. Biometría: La biometría o reconocimiento biométrico. La información biométrica se refiere a la identificación automática de una persona basada en sus características anatómicas o trazos personales. Los datos anatómicos se crean a partir de las características físicas de una persona incluyendo huellas digitales, iris, escaneo de la retina, reconocimiento facial, genética, DNA, reconocimiento de voz, incluso olor corporal etc. Los datos de comportamiento incluyen análisis de pulsaciones y escritura a mano. Los avances tecnológicos han incrementado considerablemente los datos biométricos disponibles © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –60–
  • 61. Big Data. Joyanes, MéxicoDF: Alfaomega (2013)  . En el área de seguridad e inteligencia, los datos biométricos han sido información importante para las agencias de investigación. En el área de negocios y de comercio electrónico los datos biométricos se pueden combinar con datos procedentes de medios sociales lo que hace aumentar el volumen de datos contenidos en los datos biométricos. Los datos generados por la biometría se pueden agrupar en dos grandes categorías: Genética y Reconocimiento facial.  ―An Overview of Biometric Recpgnition‖. http://biometrics.cse.nsu.edu/info.html © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –61–
  • 62. Big Data. Joyanes, MéxicoDF: Alfaomega (2013)  5. Datos generados por las personas: Las personas generan enormes y diversas cantidades de datos como la información que guarda un centro de llamadas telefónicas (call center) al establecer una llamada telefónica, notas de voz, correos electrónicos, documentos electrónicos, estudios y registros médicos electrónicos, recetas médicas, documentos papel, faxes, etc. El problema que acompaña a los documentos generados por las personas es que pueden contener información sensible de las personas que necesita, normalmente ser oculta, enmascarada o cifrada de alguna forma para conservar la privacidad de dichas personas. Estos datos al ser sensibles necesitan ser protegidos por las leyes nacionales o supranacionales (como es el caso de la Unión Europea o Mercosur) relativas a protección de datos y privacidad. © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –62–
  • 63. Estructura de Big Data: tipos de datos Estructurados No estructurados  No estructurados (texto, datos de vídeo, datos de audio,,,)  Semiestructurados ( a veces se conocen como ―multiestructurados‖. Tienen un formato y flujo lógico de modo que pueden ser entendidos pero el formato no es amistoso al usuario(HTML. XML…, datos de web logs)  Normalmente, se suelen asociar los datos estructurados a los tradicionales y los datos no estructurados a los Big Data  Objetivo principal de los sistemas de gestión de datos: Integración de datos estructurados y no estructurados © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –63–
  • 64. ESTADO ACTUAL DE BIG DATA 1. Almacenamiento: hacen falta nuevas tecnologías de almacenamiento 2. Bases de datos: las BD relacionales no pueden con todo 3. Procesamiento: se requieren nuevos modelos de programación 4. Obtención de valor: los datos no se pueden comer crudos (en bruto) La información no es conocimiento ―accionable‖ © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –64–
  • 65. 1. Almacenamiento Hacen falta nuevas tecnologías de almacenamiento  RAM vs HHD  Memorias hardware. HHD 100 más barato que RAM pero 1000 veces más lento  Solución actual: Solid- state drive (SSD) además no volátil  Tecnologías ―in-memory‖ (SAP HANA…)  Investigación:  Storage Class Memory (SCM) © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –65–
  • 66. 2. Base de datos Las BD relacionales no pueden con todo  volumen de la información GBs PBs Exabytes …. Cada día más populares  Limitadas para almacenamiento de ―big data‖  (ACID, SQL, …)  ACID: Atomicity, Consistency, Isolation & Durability © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –66–
  • 67. 3. Procesamiento … HADOOP  Se requieren nuevos modelos de programación para manejarse con estos datos  Solución: Para conseguir procesar grandes conjuntos de datos: MapReduce de Google  Pero fue el desarrollo de Hadoop (Yahoo - Apache) por parte de Yahoo, el que ha propiciado un ecosistema de herramientas open source. © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –67–
  • 68. 4. Obtención de valor  Los datos no se pueden comer ·crudos‖ (en bruto) la información no es conocimiento accionable  Para ello tenemos técnicas de Data Mining  • Asociación  • Clasificación  • Clustering  • Predicción  • ... La mayoría de algoritmos se ejecutan bien en miles de registros, pero son hoy por hoy impracticables en miles de millones. © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –68–
  • 69. Bases de datos  In-Memory (en-memoria)  SAP Hana  Oracle Times Ten In-Memory Database  IBM solidDB Relacionales  Sistemas RDBMS (SGBDR). Oracle, IBM, Microsoft…  Transferencia de datos entre Hadoop y bases de datos relacionales Legacy (jerárquicas, en red… primeras relacionales…) NoSQL (Cassandra, Hive, mongoDB, CouchDB, Hbase…) © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –69–
  • 70. BASES DE DATOS RELACIONALES (REPASO)  La mayoría de las bases de datos cumplen con las propiedades ACID (atomicity, consistency, isolation, durability). Estas propiedades garantizan un comportamiento de las base de datos relacionales y el mejor de los argumentos para su utilización. © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –70–
  • 71. BASES DE DATOS ANALÍTICAS  Analíticas: para permitir a múltiples usuarios contestar rápidamente preguntas de negocio que requieran de grandes volúmenes de información. Bases de datos de procesamiento paralelo masivo (MPP) Bases de datos ―en memoria‖ Almacenamiento en columnas  Históricamente estas bases de datos tan especializadas tenían un costo muy elevado, pero hoy el mercado nos ofrece varias alternativas que se adaptan al presupuesto de cada organización. © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –71–
  • 72. Bases de datos analíticas  Bases de datos diseñadas específicamente para ser utilizadas como motores de Data Warehouse.  Estas bases de datos logran procesar grandes volúmenes de información a velocidades asombrosas, gracias a la aplicación de diferentes conceptos y tecnologías:  Almacenamiento en columnas en lugar de filas (registros)  Massively parallel processing (MPP)  In-Memory Analytics © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –72–
  • 73. Almacenamiento en columnas, no filas: FUENTE: datalytics.com © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –73–
  • 74. Computación en memoria ―In-Memory‖ La computación en memoria es una tecnología que permite el procesamiento de cantidades masivas de datos en memoria principal para proporcionar resultados inmediatos del análisis y de las transacciones. Los datos a procesar, idealmente son datos en tiempo real (es decir, datos que están disponibles para su procesamiento o análisis inmediatamente después que se han creado). Existen un amplio conjunto de tecnologías que emplean bases de datos en memoria. SAP HANA es una de las más acreditadas y populares… (Oracle, IBM,…) © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –74–
  • 75. © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –75–
  • 76. BASES DE DATOS NoSQL  Las bases de datos no-relacionales son comúnmente llamadas bases de datos NoSQL ya que la gran mayoría de ellas comparte el hecho de no utilizar el lenguaje SQL para realizar las consultas  Es una definición controvertida, aunque la definición más aceptada es ―Not only SQL‖.  Una de las características de las bases de datos no relacionales es que la mayoría de ellas no utilizan esquemas de datos rígidos como las bases de datos relacionales. Esto hace que estas bases de datos también se les llame ―Schema-less‖ o ―Schema-free (―almacenamiento des-estructurado‖). © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –76–
  • 77. Taxonomía de Bases de datos NoSQL  Los principales tipos de BBDD de acuerdo con su implementación son los siguientes:  – Almacenes de Clave-Valor  – Almacenes de Familia de Columnas (columnares)  – Almacenes de documentos (orientadas a documentos)  – Almacenes de Grafos (orientadas a grafos)  - Cachés de memoria © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –77–
  • 78. SOLUCIONES DE BASES DE DATOS NoSQL © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –78–
  • 79. MongoDB MongoDB es un sistema de base de datos NoSQL orientado a documentos, desarrollado bajo el concepto de código abierto. MongoDB forma parte de los sistemas de base de datos NoSQL, almacena los datos no en tablas, sino en documentos tipo JSON con un esquema dinámico (formato BSON), haciendo que la integración de los datos sea más fácil y rápida. © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –79–
  • 80. Neo4j Neo4j es una base de datos de gráficos, de código abierto soportada por Neo Technology. Neo4j almacena los datos en nodos conectados por relaciones dirigidas y tipificadas, con las propiedades de ambos, también conocidas como Gráfico de Propiedad (Property Graph). © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –80–
  • 81. Apache CouchDB Base de datos de código abierto, NoSQL que emplea JSON para documentos, JavaScript como lenguaje de consulta para MapReduce y HTTP como API.  Se distribuye bajo una licencia Apache 2.0 y es utilizada por múltiples organizaciones, como la BBC que usa CouchDB para su plataforma dinámica de contenidos, mientras que Credit Suisse's lo utiliza para almacenar los detalles de configuración de su framework Python de mercado de datos49. © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –81–
  • 82. HyPertable Sistema Gestor de Bases de Datos de código abierto desarrollado en C++ por la compañía Zvents, basado en el modelo Big Table de Google.  Es un sistema de almacenamiento de datos distribuido, escalable, no relacional, no soporta transacciones y de alto desempeño, ideal para aplicaciones que necesitan manejar datos que evolucionan rápidamente y diseñado para soportar una gran demanda de datos en tiempo real. Entre sus clientes51 se encuentran empresas como Ebay, Tiscali o Reddiff.com © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –82–
  • 83. Hive Sistema data warehouse para Hadoop que facilita resúmenes de datos, consultas ad- hoc, y el análisis de grandes conjuntos de datos almacenados en los sistemas de archivos compatibles con Hadoop. Hive proporciona un mecanismo para proyectar la estructura sobre estos datos y consultar los datos utilizando un lenguaje SQL, llamado HiveQL. © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –83–
  • 84. Lenguaje R R es el lenguaje de programación líder en el mundo para el análisis estadístico y la realización de gráficos. R, es un lenguaje para la minería de datos y un entorno de programación. Se trata de un proyecto GNU, que es similar al lenguaje y al entorno de programación S desarrollado en Bell Laboratories (antes AT&T, ahora Lucent Technologies). © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –84–
  • 85. Lenguaje R R ofrece una gran variedad de técnicas estadísticas (modelos lineales y no lineales, tests estadísticos, análisis de series temporales, clasificación, clustering, ...) y técnicas gráficas, y es altamente extensible. R está disponible como software libre bajo licencia de GNU Free Software Foundation. Se compila y ejecuta en una variedad de plataformas UNIX y sistemas similares (incluyendo FreeBSD y Linux), Windows y MacOS. © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –85–
  • 86. Redis Redis es un motor de base de datos en memoria, basado en el almacenamiento en tablas de hashes clave, valor) pero que opcionalmente puede ser usada como una base de datos durable o persistente.  Está escrito en ANSI C patrocinado por VMware.1 2 y esta liberado bajo licencia BSD. © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –86–
  • 87. ¿Quién usa Apache Cassandra? Algunos usuarios importantes de Cassandra son:  Digg  Facebook  Twitter  Rackspace  SimpleGEO … © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –87–
  • 88. Integración con Big Data. © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 FUENTE: datalytics.com Página –88–
  • 89. Integración con Big Data. © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 FUENTE: datalytics.com Página –89–
  • 90. Tecnologías BIG DATA HADOOP Prof. Luis Joyanes Aguilar 90
  • 91. Logo de HADOOP © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –91–
  • 92. Logo de HADOOP © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –92–
  • 93. 93
  • 94. TECNOLOGÍAS BIG DATA (HADOOP)  Datos de la consultora IDC de agosto de 2012 prevén que el mercado del software relacionado con los framework open source Apache Hadoop y el MapReduce de Google crecerá a un ritmo anual de más del 60% hasta el año 2016.  La popularidad de Hadoop se ha ido incrementando durante los últimos meses, a medida que las empresas necesitan manejar grandes cantidades de datos estructurados y no estructurados para después analizarlos y ser capaces de tomar decisiones lo más favorables posible para sus negocios.  IDC también espera que el mercado de Hadoop-MapReduce evolucione y que poco a poco comienza a introducirse en los sistemas empresariales. © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –94–
  • 95. Hadoop ―The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using a simple Programming model‖  De la página de Hadoop © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –95–
  • 96. Hadoop Apache Hadoop es un framework que permite el tratamiento distribuido de grandes cantidades de datos (del orden de peta bytes) y trabajar con miles de máquinas de forma distribuida. Se inspiró en los documentos sobre MapReduce y Google File System publicados por Google. Está desarrollado en Java y se ejecuta dentro de la JVM.  Actualmente está soportado por Google, Yahoo e IBM entre otros. También existen empresas como Cloudera (http://www.cloudera.com/) que ofrecen soluciones empresariales Open Source. © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –96–
  • 97. Hadoop: características principales Económico: Está diseñado para ejecutarse en equipos de bajo coste formando clústeres. Estos clústeres pueden llevarnos a pensar en miles de nodos de procesamiento disponibles para el procesado de información.  • Escalable: Si se necesita más poder de procesamiento o capacidad de almacenamiento solo hay que añadir más nodos al clúster de forma sencilla.  • Eficiente: Hadoop distribuye los datos y los procesa en paralelo en los nodos donde los datos se encuentran localizados.  • Confiable (fiable) © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –97–
  • 98. TECNOLOGÍAS BIG DATA (HADOOP) Hadoop es un proyecto de software open source que provee un framework para habilitar el procesamiento distribuido de grandes conjuntos de datos sobre clusteres construidos con hardware genérico. En esencia, Hadoop consiste de dos elementos base: un sistema de archivos distribuido (Hadoop Distributed File System, HDFS) y un motor de procesamiento de datos que implementa el modelo Map/Reduce (Hadoop MapReduce).. © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –98–
  • 99. Hadoop  El diseño de Hadoop se divide en dos partes principales: Por un lado está el sistema de ficheros distribuido Hadoop Distributed File System (HDFS) que se encarga de almacenar todos los datos repartiéndolos entre cada nodo de la red Hadoop. Por otro lado la implementación de MapReduce que se encarga del procesamiento de la información de forma distribuida. © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –99–
  • 100. Historia de HADOOP  ● 2004-2006  – Google publica los papers de GFS y MapReduce  – Doug Cutting implementa una version Open Source en  Nutch  ● 2006-2008  – Hadoop se separa de Nutch  – Se alcanza la escala web en 2008  ● 2008-Hasta ahora  – Hadoop se populariza y se comienza a explotar  comercialmente.  Fuente: Hadoop: a brief history. Doug Cutting © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –100–
  • 101. Historia de Hadoop: Doug Cutting © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –101–
  • 102. Fundación Apache: proyectos open source  The Apache Software Foundation provides support for the Apache community of open-source software projects, which provide software products for the public good  The Apache Software Foundation provides support for the Apache community of open-source software projects, which provide software products for the public good © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –102–
  • 103. Componentes HADOOP (Apache)  The project includes these modules: Hadoop Distributed File System (HDFS™): A distributed file system that provides high-throughput access to application data. Hadoop MapReduce: A YARN-based system for parallel processing of large data sets.  Hadoop Common: The common utilities that support the other Hadoop modules.  Hadoop YARN: A framework for job scheduling and cluster resource management © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –103–
  • 104. Hadoop © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –104–
  • 105. © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –105–
  • 106. Hadoop en la actualidad  Hadoop se puede utilizar en teoría para casi cualquier tipo de trabajo batch, mejor que ha trabajos en tiempo real, ya que son más fáciles de dividir y ejecutar en paralelo. Entre lo campos actuales a aplicación se encuentran:  Análisis de logs; • Análisis de mercado  Machine learning y data mining  Procesamiento de imágenes  Procesamiento de mensajes XML  Web crawling e • Indexación … © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –106–
  • 107. Hadoop en la actualidad  Actualmente Hadoop es un framework muy extendido en el ámbito empresarial, sobre todo en compañías que manejan grandes volúmenes de datos. Yahoo: La aplicación Yahoo! Search Webmap está implementado con Hadoop sobre un clúster de mas de 10.000 nodos Linux y la información que produce es la utilizada por el buscador de Yahoo. Facebook: Tiene ha día de hoy el mayor clúster Hadoop del mundo que almacena hasta 30 peta bytes de información Amazon A9: Se utiliza para generar índices de búsqueda de los productos ofertados en el portal. Disponen de varios clústeres de entre 1 y 100 nodos cada uno. © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –107–
  • 108. Hadoop en la actualidad The New York Times: Utiliza Hadoop y EC2 (Amazon Elastic Compute Cloud) para convertir 4 Tera bytes de imágenes TIFF en imágenes PNG de 800 K para ser mostradas en la Web en 36 horas.  Además existen compañías cuyo negocio es principal es Hadoop, como Cloudera, que comercializa CDH (Cloudera's Distribution including Apache Hadoop), que da soporte en la configuración y despliegue de clústeres  Hadoop. Además proporciona servicios de consultoría y formación en estas tecnología. Todo el software que distribuyen es Open Source. © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –108–
  • 109. Distribuciones de Hadoop © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –109–
  • 110. Proveedores de Big Data  Algunos han desarrollado sus propias distribuciones de Hadoop (con diferentes niveles de personalización: disponibilidad, rendimiento, replicas …). Una distribución muy popular MapR, Greenplum, Hortonworks, …  Otros distribuidores: © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –110–
  • 111. ANALÍTICA DE BIG DATA  Cloudera  EMC Greenplum  IBM  Impetus Technologies  Kognitio  ParAccel  SAP  SAND Technology  SAS  Tableau Software  Teradata © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –111–
  • 112. OPORTUNIDADES Y NUEVAS PROFESIONES TECNOLÓGICAS Y DE COMUNICACIÓN DEMANDADAS POR LAS EMPRESAS Prof. Luis Joyanes Aguilar 112
  • 113. NECESIDAD DE FORMACIÓN PROFESIONAL AVANZADA EN CLOUD COMPUTING-BIG DATA  El mercado tiene carencia de especialistas en Cloud Computing y sobre todo en Big Data. Hay miles de puestos que se deberán cubrir en los próximos cinco años según estadísticas fiables de IDC, Gartner, Forrester, McKinsey…  UNA DE LAS PROFESIONES MÁS DEMANDADAS SERÁ DE ESPECIALISTAS EN CIENCIAS DE DATOS (Científicos de datos) y además ANALISTAS DE DATOS (formados en Analytics y tecnologías Big Data ·Hadoop‖, ―InMemory‖…)  Se necesitan certificaciones profesionales en CLOUD COMPUTING Y BIG DATA… ―TECNOLÓGICAS Y DE NEGOCIOS‖ © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –113–
  • 114. NUEVAS CARRERAS UNIVERSITARIAS: maestrias,ingeniería, diplomados… Community Manager, Social Media Manager y Analista Web y SEO Ingeniero de Cloud Computing (En España hay una universidad privada que lo lanza el próximo curso) Ingeniero de negocios digitales (Digital Business Intelligence) Ingeniero de datos (Infraestructuras, Bases de datos NoSQL, Hadoop, Tecnologías ―in-memory‖…) Analítica de datos (Analytics) y Analítica de Big Data © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –114–
  • 115. NUEVAS CARRERAS Y PROFESIONES Community Manager , Social Media Manager, SEO, Analistas Web … cada día son más demandadas y. Sin embargo la profesión del futuro será: EL CIENTÍFICO DE DATOS (Data Scientist). Un profesional con formación de Sistemas, Estadística, Analítica, Ciencias Físicas y Biológicas… que analizará los Big Data para la toma de decisiones eficientes y obtener rentabilidad en los negocios. HBR (Harvard Business Review lo declaró la profesión ―MÁS SEXY del siglo XXI‖…) © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –115–
  • 116. LAS TITULACIONES-PROFESIONES MÁS DEMANDADAS en TIC EN PRÓXIMOS AÑOS (HBR, Harvard Business Review) número de octubre de 2012 (Los datos el nuevo petróleo/oro del siglo XXI): Ciencia de los datos: Data Science (Maestría/Doctorado) … En Estados Unidos, México y Europa… ya existen iniciativas. (EN MÉXICO, el ITAM) LA PROFESIÓN MÁS SEXY DEL SIGLO XXI : EL CIENTÍFICO DE DATOS (Data Scientist) © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –116–
  • 117. MUCHAS GRACIAS … ¿Preguntas? Portal GISSIC ―El Ágora de Latinoamérica‖: gissic.wordpress.com Twitter:@luisjoyanes www.facebook.com/joyanesluis www.slideshare.net/joyanes PORTAL NTICS : luisjoyanes.wordpress.com CORREO-e: joyanes@gmail.com © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –117–
  • 119. ESTADO DEL ARTE DE CLOUD COMPUTING COMPUTACIÓN EN LA NUBE La nueva era de la computación Prof. Luis Joyanes Aguilar 119
  • 120. 120
  • 121. 121
  • 122. BIBLIOGRAFÍA BÁSICA JOYANES, Luis (2012). Computación en la nube. Estrategias de cloud computing para las empresas. México DF: Alfaomega; Barcelona: Marcombo BIG DATA. El análisis de los grandes volúmenes de datos. México DF: Alfaomega; Barcelona: JOYANES, Luis (2013). Marcombo  Colección de libros NTiCS (Negocios, Tecnología, Innovación, Conocimiento y Sociedad) dirigida por el profesor Luis Joyanes y publicada en la editorial Alfaomega de México DF. © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –122–
  • 123. BIBLIOGRAFÍA BÁSICA  JOYANES, Luis. ―Computación en "Nube" (Cloud Computing) y Centros de Datos la nueva revolución industrial ¿cómo cambiará el trabajo en organizaciones y empresas?‖. Sociedad y Utopía. UPSA: Madrid. , ISSN 1133-6706, Nº 36, 2010, págs. 111-127.  JOYANES, Luis (2009a) ―La Computación en Nube(Cloud Computing) :El nuevo paradigma tecnológico para empresas y organizaciones en la Sociedad del Conocimiento‖ , ICADE, nº 76, eneromarzo 2009, Madrid: Universidad Pontificia Comillas. © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –123–
  • 124. ÚLTIMOS LIBROS DEL prof. LUIS JOYANES  Ciberseguridad. Retos y desafíos para la defensa nacional en el ciberespacio. Madrid: IEEE (Instituto Español de Estudios Estratégicos). 2011. Editor y Coordinador. www.ieee.org. Cuadernos de estrategia, nº 149.  Fundamentos generales de programación; Programación en C/C++, Java y UML; Programación en Java 6: Editorial McGrawHill, México DF. © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –124–
  • 125. Blogs tecnológicos  TechCrunch (www.techcrunch.com)  Gizmodo (www.gizmodo.com, www.gizmodo.es)  Boing Boing (www.boingboing.com)  Engadget (www.engadget.com)  The Official Google Blog (googleblog.blospot.com)  O´Reilly (www.oreillynet.com)  Slahdot (www.slahdot.com)  Microsiervos (www.microsiervos.com)  Xataca (www.xataca.com)  All Things Digital (allthingsd.com)  Mashable (www.mashable.com) © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –125–
  • 126. LECTURAS RECOMENDADAS NIST Cloud Security Alliance ISACA BBVA, BANKINTER, Accenture… ENISA Cio.com, Computing.es, Computerworld ONTSI. Cloud computing. Retos y oportunidades. www.ontsi.red.es/ontsi/sites/default/files/1_estudio_cloud_computing_retos_y_oportunidades_vdef.pdf © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –126–
  • 127. BIBLIOGRAFÍA  Innovation Edge , revista BBVA, junio 2013 https://www.centrodeinnovacionbbva.com/innova tion-edge/21-big-data  SOARES, Sunil (2013). Big Data Governance. An emerging Imperative. Boise, USA: MC Press.  DAVENPORT, Thomas H. y DYCHÉ, Jill. Big Data in Big Companies. SAS. International Institute for Analytics.  Datalytics. 18D – Pentaho Big Data Architecture, www.datalytics.com (Pentaho)  Gereon Vey, Tomas Krojzl. Ilya Krutov (2012) . Inmemory Computing with SAP HANA on IBM eX5 Systems. ibm.com/redbooks. Draft Document for Review December 7, 2012 1:59 pm SG24-8086-00 © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –127–
  • 128. BIBLIOGRAFÍA  ZIKOPOULOS, Paul C. et al (2012). Understanding Big Data. Analytics for Enterprise Class Hadoop and Streaming Data. New York: McGraw-Hill. www-01.ibm.com/software/data/bigdata/  ZIKOPOULOS, Paul C. et al (2013). Harness the Power of Big Data. The IBM Big Data Platform. New York: McGraw-Hill. Descargable libre en IBM. © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –128–
  • 129. © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –129–
  • 130. REFERENCIAS McKinsey Global Institute . Big data: The next frontier for innovation, competition, and productivity. June 2011 James G. Kobielus. The Forrester Wave™: Enterprise Hadoop Solutions, Q1 2012, February 2, 2012. www-01.ibm.com/software/data/bigdata/  Diego Lz. de Ipiña Glz. de Artaza. Bases de Datos No Relacionales (NoSQL). Facultad de Ingeniería, Universidad de Deusto. www.morelab.deusto.es http://paginaspersonales.deusto.es/dipina © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –130–
  • 131. REFERENCIAS  Philip Russom. BIG DATA ANALYTICS. FOURTH QUARTER 2011. TDWI.org IBM. http://www-01.ibm.com/software/data/bigdata/ © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –131–
  • 132. LECTURAS RECOMENDADAS (historia del cloud) KING, Rachael (2008): ―How Cloud Computing is Changing the World?‖ en BusinessWeek, New York, 4 august, 2008  LEINWAND, Allan (2008): ―It´s 2018: Who Owns the Cloud?‖ en BusinessWeek, New York, 4 august, 2008 THE ECONOMIST (2008): ―Let it rise. A Special report on IT Corporate‖ en The Economist, London, October 25th 2008. © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –132–
  • 133. ANEXOS • Informe McKinsey de Big Data • OPEN DATA Prof. Luis Joyanes Aguilar 133
  • 134. Big Data – McKinsey. Junio 2011 Big data: The next frontier for innovation, competition, and productivity. http://www.mckinsey.com/Insights/MGI/ Research/Technology_and_Innovation/Big _data_The_next_frontier_for_innovation © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –134–
  • 135. Big Data – McKinsey. Junio 2011 Big data: The next frontier for innovation, competition, and productivity. The amount of data in our world has been exploding. Companies capture trillions of bytes of information about their customers, suppliers, and operations, and millions of networked sensors are being embedded in the physical world in devices such as mobile phones and automobiles, sensing, creating, and communicating data. © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –135–
  • 136. Big Data – McKinsey. Junio 2011 Multimedia and individuals with smartphones and on social network sites will continue to fuel exponential growth. Big data—large pools of data that can be captured, communicated, aggregated, stored, and analyzed—is now part of every sector and function of the global economy. Like other essential factors of production such as hard assets and human capital, it is increasingly the case that much of modern economic activity, innovation, and growth simply couldn’t take place without data. © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –136–
  • 137. Big Data – McKinsey. Junio 2011  The question is what this phenomenon means. Is the proliferation of data simply evidence of an increasingly intrusive world? Or can big data play a useful economic role? While most research into big data thus far has focused on the question of its volume, our study makes the case that the business and economic possibilities of big data and its wider implications are important issues that business leaders and policy makers must tackle. To inform the debate, this study examines the potential value that big data can create for organizations and sectors of the economy and seeks to illustrate and quantify that value. We also explore what leaders of organizations and policy makers need to do to capture it. © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –137–
  • 138. What do we mean by "big data"?― : McKinsey 2011 ―Big data‖ refers to datasets whose size is beyond the ability of typical database software tools to capture, store, manage, and analyze. This definition is intentionally subjective and incorporates a moving definition of how big a dataset needs to be in order to be considered big data—i.e., we don’t define big data in terms of being larger than a certain number of terabytes (thousands of gigabytes). We assume that, as technology advances over time, the size of datasets that qualify as big data will also increase. Also note that the definition can vary by sector, depending on what kinds of software tools are commonly available and what sizes of datasets are common in a particular industry. With those caveats, big data in many sectors today will range from a few dozen terabytes to multiple petabytes (thousands of terabytes). © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –138–
  • 139. OPEN DATA (Datos abiertos) © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –139–
  • 140. OPEN DATA (Datos abiertos) Las administraciones públicas [de cualquier organismo nacional e internacional] generan gran cantidad de información en formatos propios de difícil acceso para la mayoría de los ciudadanos. Bases de datos, listas, estudios, informes, estadísticas, etc. son datos abiertos (open data) en formatos propios que son de difícil acceso para la mayoría de los ciudadanos. © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –140–
  • 141. OPEN DATA (Datos abiertos) Evidentemente estos datos se almacenan normalmente en centros de datos propios de las administraciones que a su vez se almacenan y gestionan en nubes públicas o privadas ¿Qué necesitan los profesionales o las empresas para sacar rentabilidad a esos datos públicos? Evidentemente la colaboración de las entidades públicas para liberar cada día más información y crear más oportunidades de negocio © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –141–
  • 142. ¿Qué son datos abiertos? Los Datos Abiertos constituyen una iniciativa de transparencia y Gobierno Abierto que consiste en la liberación de conjuntos de datos que son de interés público. Los Datos Abiertos son puestos a disposición de la sociedad, se promueve su libre acceso y reutilización, exceptuando aquellos datos que por razones de seguridad y privacidad previstas en la normativas vigentes no puedan ser publicados; La mayor parte de los datos generados o mantenidos por el estado son públicos. Sin embargo, no sólo el estado puede abrir sus datos: empresas, organizaciones y comunidades de información que producen o mantienen datos pueden ponerlos a disposición, siempre en formatos abiertos y bajo licencias libres. © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –142–
  • 143. OPEN DATA (Datos abiertos) La administración de Estados Unidos inició la iniciativa Open Data y en paralelo la Unión Europea ha ido adoptando también la iniciativa. En España los primeros gobiernos han sido los Gobiernos Autonómicos de El Principado de Asturias y el País Vasco. © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –143–
  • 144. OPEN DATA (Datos abiertos) La iniciativa del Gobierno Vasco se ha plasmado en la puesta en funcionamiento de Open Data Euskadi que pretende crear un sitio web donde la información reutilizable (contenidos abiertos) estén al alcance de cualquier ciudadano. Un estudio de la UE(2010) estima que el mercado de información pública podría generar riqueza por valor de 27.000 millones de euros. © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –144–
  • 145. OPEN DATA EN LATAM…  MÉXICO  Portal de Datos Abiertos del DISTRITO FEDERAL http://df.gob.mx  Ayuntamiento de Puebla (octubre 2013)  Iniciativa de Open Data (periódico ―MILENIO‖ ARGENTINA. Portal de datos abiertos de Buenos Aires © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –145–
  • 146. OPEN DATA EN LATAM… Colombia  Portal de Datos Abiertos del gobierno http://datosabiertoscolombia.cloudapp.ne t/frm/buscador/frmBuscador.aspx Perú  Portal de Datos Abiertos de la Municipalidad de Lima  Portal de Datos Abiertos: http://www.datosperu.org/ © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –146–
  • 147. INICIATIVAS PIONERAS INTERNACIONALES EN OPEN DATA En España… además de los gobiernos autonómicos de Asturias, País Vasco y Cataluña, la fundación CTIC ligada al consorcio W3C (www.fundacionctic.org). http://datos.gob.es/datos/?q=node/232 En Estados Unidos data.gov, en Gran Bretaña data.gov.uk  En Google (abril 2011, del número 1) la revista de negocios. //thinkquarterly.co.uk. El número 1 dedicado a OPEN DATA. En la Unión Europea (Iniciativa OPEN DATA): http://open-data.europa.eu/es © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –147–
  • 148. CONFERENCIA EN slideshare.net http://www.slideshare.net/luismackoy/igdata-y-minera-de-datos-tec-de-monterreyquertaro © Luis Joyanes Aguilar Instituto Tecnológico de San Luis Potosí San Luis Potosí , 7 de noviembre de 2013 Página –148–