SlideShare ist ein Scribd-Unternehmen logo
1 von 91
Downloaden Sie, um offline zu lesen
www.hcglobalgroup.com Contacto: info@hcglobalgroup.com
Santiago-Chile, Latino América.
INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA.
HERRAMIENTAS PARA EL FUTURO CRECIMIENTO.
22-08-2013
HUGO CÉSPEDES A.
Big Data y la Innovación Global en
Servicios Actual y Futura
La Innovación Tecnológica siempre nos sorprende con su
rapidez y beneficios, así como la influencia que ejerce en
nuestro diario vivir actual y futuro. Pero específicamente ¿qué
es Big Data? ¿por qué tanta relevancia hoy en día con esta
revolución tecnológica? ¿en qué podemos observar sus
aplicaciones y beneficios inmediatos? ¿cómo nos beneficia
actualmente? ¿Qué nos depara el futuro del Big Data? Estos y
otros puntos, son abordados en el presente artículo.
Technology
www.hcglobalgroup.com Contacto: info@hcglobalgroup.com
Santiago-Chile, Latino América.
INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA.
HERRAMIENTAS PARA EL FUTURO CRECIMIENTO.
INDICE TEMÁTICO
Introducción y Evolución Histórica del Concepto.
Definición del BIG DATA.
- El Mundo Académico y el Big Data.
- Tipo de Información que trata el Big Data (Internet y Social Media, M2M, Grandes
Transacciones, Generado por Humanos, entre otros.
Arquitectura del Big Data.
- Haddop (Hoddop Distributed File System, Hadoop MapReduce, Haddop Common).
- Avro, Cassandra, Chukwa, Flume, HBase, Hive, Jaql, Lucense, Oozie, Pig,
Zookepper).
Big Data y la Innovación Global de Servicios (Actual y Futura).
- Aplicaciones del Big Data Actualmente.
- Ciencias Sociales Computacionales.
- Gobierno.
- Sector Privado.
- Desarrollo Internacional.
- Caso Big Data y el Comportamiento de las Personas.
- La Utilidad del Big Data en e-Commerce (El Big Data transforma Negocios, La
Cara del Big Data, Big Data en tesoros Históricos, Sistemas de Evaluación de
Riesgo, Desarrollo de Programación Externa y Co-Diseño con Clientes).
- Caso del Big Data en el Sector Salud (Desbloqueo del Valor oculto de los Datos).
- Caso Big Data en la Industria de Entretención de Juegos (Telemetría Enriquecida).
- Caso Big Data y sus Aplicaciones en el Deporte.
- Caso Big Data en la Educación.
- Big Data y el Caso “Prism y Boundless Informant” para Espionaje por parte de
Estados Unidos y otras Naciones.
- Caso Big Data y las Smart Cities.
- 5 Proyectos Big Data que pueden impactar tu vida.
- Cómo se Comportan los Clientes: Utilizando Datos para Conducir la Innovación,
Desarrollo & Estrategia Digital.
- Big Data y el Futuro.
- Conclusiones y Palabras al Cierre.
www.hcglobalgroup.com Contacto: info@hcglobalgroup.com
Santiago-Chile, Latino América.
INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA.
HERRAMIENTAS PARA EL FUTURO CRECIMIENTO.
Big Data y la Innovación Global en Servicios Actual y
Futura
La Innovación Tecnológica siempre nos sorprende con su rapidez y beneficios, así como la influencia que
ejerce en nuestro diario vivir, actual y futuro. Pero específicamente ¿Qué se entiende por Big Data? ¿Por
qué tanta relevancia hoy en día con esta revolución tecnológica? ¿En qué áreas podemos observar sus
aplicaciones y beneficios inmediatos? ¿Cómo nos beneficia actualmente? ¿Qué nos depara el futuro del
Big Data? Esto y otros aspectos son los que nos aprontamos a abordar a continuación.
INTRODUCCIÓN Y EVOLUCIÓN HISTÓRICA DEL CONCEPTO.-
Hablar de los orígenes del “Big Data” es complicado y relativo, dependiendo del punto de vista desde el cual
se borden. Sin embargo, si lo vemos desde un punto de vista macro e histórico, es más fácil su dilucidación
sus efectos en los Servicios a nivel global, tema del cual habíamos hablado anteriormente
1
. Los orígenes del
Big Data comienza muchos años antes del “rumor mismo del Big Data”. Ya hace setenta años, tal como lo
sostiene Gil Press
2
, nos encontramos con los primeros intentos de cuantificar la tasa de crecimiento del
volumen de datos o lo que se conoce como “la explosión de la información” (término utilizado por primera
vez en 1941, Diccionario Oxford, en inglés). A continuación, presentamos los principales hitos en la historia
del dimensionamiento de los grandes volúmenes de datos, así como las primeras ideas sobre el Big Data y
las observaciones relativas a los datos o explosión de la información.
1944, Fremont Rider, bibliotecario de al Universidad de Wesleyan, publica “The Scholar and the Future on
the Research Library”, donde estima que las bibliotecas universitarias americanas duplicarán su tamaño cada
16 años. Dada esta tasa de crecimiento, especula que la biblioteca de Yale en 2040 tendrá aproximadamente
200 millones de volúmenes, que ocuparán más de 6.000 kilómetros de estanterías, lo cual requerirá
personal de catalogación de estanterías del orden de 6.000 personas.
1961, Derek Price publica “Science Since Babylon”, en donde traza el crecimiento de los conocimientos
científicos al ver el crecimiento en el número de publicaciones y trabajos científicos. Llega a la conclusión de
que “el número de nuevas revistas ha crecido de manera exponencial y no lineal, duplicándose cada 15
años, multiplicándose su crecimiento por un factor de 10 cada medio siglo”. Price denomina a esto “Ley de
crecimiento Exponencial”, explicando que “cada avance genera nuevos avances a una tasa de crecimiento
1
HCGlobal Group, Hugo Céspedes A., “Service Design y la Nueva Economía Global de Servicios”,
http://www.hcglobalgroup.com/HCGlobal%20Group/service_design_y_la_nueva_econom.htm
2
Forbes, Gil Press, “A Very Short History of Big Data”, 09/05/2013, http://www.forbes.com/sites/gilpress/2013/05/09/a-
very-short-history-of-big-data/
www.hcglobalgroup.com Contacto: info@hcglobalgroup.com
Santiago-Chile, Latino América.
INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA.
HERRAMIENTAS PARA EL FUTURO CRECIMIENTO.
constante razonable, por lo que el número de generación de nuevo conocimiento es estrictamente
proporcional al tamaño d la población de los descubrimientos en cualquier momento dado”.
1967, B.A. Marron y P.A.D. de Maine publican “Automatic Data Compression”, en The Communication of the
ACM, afirmando que “la explosión de la información de los últimos años hace que sea esencial que los
requerimientos de almacenamiento de toda la información se reduzca al mínimo”. El documento describe
“un compresor de tres partes totalmente automático y rápido para reducir en gran medida los requisitos de
almacenamientos externos lentos, y poder aumentar la tasa de transmisión de información a través de un
ordenador.
1971, Arthur Miller escribió “The Assault on Privacy”, donde habla sobre el tema de que existen demasiadas
manipulaciones sobre la información en el afán de medir a un hombre por el número de bits de capacidad
de almacenamiento que su expediente ocuparía.
1975, El Ministerio de Correos y Telecomunicaciones de Japón comienza la realización del Censo de Flujo de
Información, que busca llevar a cabo el seguimiento del volumen de información que circula por Japón (idea
sugerida por primera vez en un documento en 1969). El Censo presenta “las cantidades de palabras” como
unidad de medida para la unificación en todos los medios. El Censo de 1975 ya considera que la oferta de
información está aumentando mucho más rápido que el consumo de información, y en 1978 se informa que
“la demanda de información proporcionada por los medios de comunicación se ha estancado, y la demanda
de información proporcionada por el personal de medios de telecomunicación (caracterizada por
comunicaciones de dos vías) se ha incrementado drásticamente… Nuestra sociedad se está moviendo hacia
una nueva etapa en el que se coloca más prioridad en la Información Segmentada, más detallada para
satisfacer las necesidades individuales, en lugar de Información Convencional Masificada.
1980, A. Tjomsland dicta una charla titulada “¿Hacia dónde vamos desde aquí?” en el Fourth IEEE
Symposium on Mass Storage Systems, donde sostiene que “aquellos que están asociados con dispositivos de
almacenamiento, ya hace tiempo se han dado cuenta de que la primera Ley de Parkinson puede ser
parafraseada para describir a la industria. Los datos se expanden para llenar el espacio disponible.. Creo que
se retienen grandes cantidades de datos, ya que los usuarios no tienen forma de identificación de datos
obsoletos, por lo que las sanciones al almacenamiento de datos obsoletos son menos datos potencialmente
útiles”.
1981, La Oficina Central de Estadísticas de Hungría inicia un proyecto de investigación para dar cuenta de la
información de las industria por país, incluida la medición del volumen de información en bits. La
investigación continúa hasta nuestros días. En 1993, Istán Dienes, científico jefe de la Oficina Central de
Estadística de Hungría, compila un manual para un Sistema Estándar de las Cuentas Nacionales de
Información.
www.hcglobalgroup.com Contacto: info@hcglobalgroup.com
Santiago-Chile, Latino América.
INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA.
HERRAMIENTAS PARA EL FUTURO CRECIMIENTO.
1983, Ithiel de Sola Pool, publica “Tracking the Flow of Information”, en Science. En base e las tendencias de
crecimiento en 17 importantes medios de comunicación desde 1960 a 1977, concluye que “las palabras a
disposición de los estadounidenses (mayores de 10 años) a través de los medios de comunicación, crecieron
a un ritmo de 8,9 por ciento al año, es decir, en efecto se generan a partir de los medios de comunicación en
apenas 2,9% por año. En el período de observación, gran parte del crecimiento en el flujo de información se
debió al crecimiento en la radiodifusión. Pero hacia el final de ese período (1977), la situación cambió: los
medios de comunicación e punto a punto estaban creciendo más rápido que la radiodifusión”. Pool ,Inose,
Takasaki y Hurwitz siguen en 1984 con “Communications Flows: A Cencus in the United States”, un libro
donde comparan los volúmenes de información que se producen en Estados Unidos y Japón.
1986, Hal B. Becker publica “Can Users Really Absobr Data at Today´s Rates and Tomorrow´s Rates? In Data
Communications”. Becker estima que “la densidad de recodificación lograda por Gutenberg fue
aproximadamente de 500 símbolos (caracteres) por pulgada cúbica. 500 veces la densidad de las tablillas de
arcilla (4.000 A.C. en Sumeria). Para el año 2000, la memoria de acceso aleatorio de los semiconductores
debería albergar 1,25 x 10^11 bytes por centímetro cúbico”.
1996, el Almacenamiento Digital se vuelve más rentable para el Almacenamiento de Datos en Papel, de
acuerdo a R.J.T. Morris y B.J. Trukowski, en “The Evolution of Storage Systems”, IBM Systems Journal, Julio 1,
2003.
1997, Michael Cox and David Ellsworth publican “Application controlled demand paging for out of core
visualization” en las Actas de la 8º Conferencia IEEE sobre Visualización. Comienzan el artículo con el hecho
de que la Visualización ofrece un interesante desafío para los sistemas informáticos: los conjuntos de datos
son generalmente bastante grandes, gravado en la capacidad de memoria principal, discos locales y discos
remotos. Llamaron a esto el “Problem of Big Data”. Cuando los conjuntos de datos no caben en la memoria
principal (en el núcleo), o cuando no caben incluso en un disco local, la solución más común es adquirir más
recursos. Es el primer artículo de la biblioteca digital de ACM en utilizar el término “Big Data”.
1997, Michael Lesk publica “How much information is there in the world?”. Lesk concluye que “puede haber
unos pocos miles de petabytes de información contenidos; y la producción de cintas y discos enriquecerán
este nivel para el año 2000”. Así que en sólo unos pocos años: a) Seremos capaces de guardar todo (sin dejar
fuera información alguna, b) la típica pieza de información no podrá ser bloqueada por el ser humano
nunca.
1998, John R. Masey, Jefe Científico de SGI, presenta en una reunión USENIX un artículo titulado “Big Data
and the Next Wave of Infrastress”.
1998, K.G. Coffman y Andrew Odlysko publican “The Size and Growth Rate of the Internet”. Llegan a la
conclusión de que la tasa de crecimiento del tráfico en la Internet Pública , mientras más baja es a menudo
citada, sigue siendo alrededor de 100% por año, muy superior al tráfico en otras redes. Por lo tanto, si las
www.hcglobalgroup.com Contacto: info@hcglobalgroup.com
Santiago-Chile, Latino América.
INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA.
HERRAMIENTAS PARA EL FUTURO CRECIMIENTO.
tendencias de crecimiento actuales continúan, el tráfico de datos en los Estados Unidos superará el tráfico
de voz hacia el año 2002 y será dominado por la Internet. “Odlyzko luego establece los estudios de tráfico de
Internet de Minnesota (MINTS), haciendo un seguimiento del crecimiento del tráfico en Internet desde
2002 a 2009.
1999, Steve Bryson, David Kenwright, Michael Cox, David Ellsworth y Robert Haimes publican “Visually
Exploring Gigabytes data sets in real times”, en Communications of the ACM. Es el primer artículo de la
CACM en utilizar el término “Big Data”. El artículo comienza con la siguiente declaración: “ordenadores muy
potentes son una bendición para muchos campos de la investigación. También son una maldición, cálculos
rápidos arrojan grandes cantidades de datos. Cuando los conjuntos de datos en megabytes alguna vez
fueron considerados grandes, ahora nos encontramos con conjuntos de datos de simulaciones individuales
en el rango de 300 Gigabytes. Pero la compresión de datos resultantes de los cálculos de alta gama debe ser
considerada u esfuerzo significativo. Como más de un científico ha dicho, es simplemente difícil ver todos los
números. Como Richard W. Hamming (matemático y pionero informático) señaló: “El propósito de la
computación es una visión, no números”.
1999, Bryson, Kenwright y Haimes junto a David Banks, Robert van Liere y Sam Uselton discuten en un panel
titulado Automation or Interaction: What´s best for Big Data?”, en la conferencia IEEE de 1999 sobre
Visualización.
2000, Peter Lyman y Hal R. Varian en la UC Berkeley publican “How much information?” Es el primer estudio
exhaustivo para cuantificar, en términos de almacenamiento informático, el importe total de la nueva
Información original (sin contar copias) creado en el mundo anualmente y almacenado en soportes físicos
(papel, película, ópticos –CD o DVD- y de manera magnética). El estudio revela que en 1999, el mundo
produjo alrededor de 1,5 exabytes de información única, o alrededor de 250 megabytes por cada hombre,
mujer y niño en la Tierra. También considera que “se crea una gran cantidad de información única y
almacenada por los individuos (denominado Democratización del a Información), y que no sólo es la
producción de información digital más grande en su totalidad, es también el más rápido crecimiento
acontecido (a lo cual denominan “Dominio de la tecnología Digital”). Lyman y Varian sostienen que “aún
hoy en día, la mayoría de la información textual nace de los digital, y dentro de unos años esto será cierto
para las imágenes también. Un estudio similar realizado en 2003 por los mismos investigadores,
encontraron que en el mundo se produjo alrededor de 5 exabytes de información nueva en el 2002 y que el
92% de la nueva información se almacenó en medios magnéticos, sobre todo en discos duros.
2000, Francis X. Diebold presenta en el VIII Congreso Mundial de la Sociedad Econométrica, un artículo
titulado “Modelos de Big Data Dynamic Factor Model for Macroeconomic Measurement and Forecasting”,
en el que señala que recientemente , en la ciencia, tanto físicos, biólogos o sociólogos, se han visto
obligados a afrontar el Big Data (beneficiándose de él). Grandes volúmenes de datos se refieren a la
explosión en la cantidad (y a veces calidad) de los datos disponibles y potencialmente pertinentes, en gran
www.hcglobalgroup.com Contacto: info@hcglobalgroup.com
Santiago-Chile, Latino América.
INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA.
HERRAMIENTAS PARA EL FUTURO CRECIMIENTO.
parte de los resultados de avances recientes (y sin precedentes) en el registro de datos y la tecnología de
almacenamiento”.
2001, Doug Laney, analista de Meta Group, publica una nota de investigación titulada “3D Data
Management: Controlling Data Volume, Velocity and Cariety”. Una década más tarde, el “3Vs” se han
convertido en las tres dimensiones generalmente aceptadas que definen al Big Data, aunque la palabra no
aparece en la nota de Laney.
2005, Tim O´Reilly publica “What is Web 2.0”, en la que afirma que “los datos son el siguiente remake de
Intel en su interior. Como Hal Varian comentó en una conversación personal: “SQL es el nuevo HTML. La
gestión de base de datos es una competencia básica de las compañías web 2.0, ya que hemos hecho
referencia a estas aplicaciones como limitaciones de infoware en lugar de limitarse al software.
2007, John F. Gantz, David Reinsel y otros investigadores del IDC, lanzan un libro blanco titulado “The
Expanding Digital Universe: A Forecast of Worldwide Information Growth trough 2010”. Es el primer estudio
para estimar y pronosticar la cantidad de datos digitales creados y replicados cada año. El IDC estima que en
2006, el mundo creo 161 exabytes de datos y las previsión entre 2006 y 2010 para la información añadida
anualmente al universo digital se incrementará más de 6 veces a 988 exabytes, o se duplicará cada 18
meses. De acuerdo con las deliberaciones del mismo estudio de 2010 y 2012, la cantidad de información
digital creada anualmente superó esta previsión, alcanzando 1.227 exabytes en 2010, y cada vez mayor a
2.837 exabytes en 2012.
2008, Bret Swanson y George Gilder publican Estimating the Exaflood”, en la que proyectan que el tráfico IP
de Estados Unidos podría alcanzar un zetabyte el año 2015, y que la Internet en Estados Unidos será de por
lo menos 50 veces mayor que en 2006.
2008, Cisco lanza “Cisco Visual Networking Index –Forecast and Methodology 2007 – 2012”. Esta iniciativa
en curso puede seguir y predecir el impacto de las aplicaciones de redes visuales, donde parte del informe
predice que “el tráfico IP casi se duplicará cada 2 años hasta 2012”, y que llegará a la mitad de un zetabyte
en 2012. El pronóstico llevado a cabo, así como el último informe de Cisco (30 de mayo de 2012), estima que
el tráfico IP en 2012 llegará a poco más de medio zetabytes, y señala que se ha multiplicado por 8 en los
últimos 5 años.
2008, Un número especial de Nature of Big Data examina lo que los conjuntos de Big Data significan para la
ciencia contemporánea.
2008, Randal E. Bryant, Randy H. Katz y Edward D. Lazowska publican “Big Data Computing:Creating
Revolutionary Breakthroughs in Commerce, Science and Society”. Ellos describen que “al igual que los
motores de búsqueda, han transformado la forma de acceso a al información. Otras formas de computación
de Big Data pueden y van a transformar las actividades de las empresas, investigaciones científicas, médicas,
www.hcglobalgroup.com Contacto: info@hcglobalgroup.com
Santiago-Chile, Latino América.
INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA.
HERRAMIENTAS PARA EL FUTURO CRECIMIENTO.
y la defensa de la nación, así como las operaciones de inteligencia. La Computación de Big Data es tal vez la
mayor Innovación en informática de las últimas décadas. Sólo hemos comenzado a ver su potencial para
reunir, organizar y procesar datos en todos los ámbitos de la vida. Una modesta inversión por parte del
gobierno federal podría acelerar en gran medida su desarrollo e implementación”.
2009, Roger E. Bohn y James E. Short publican “How much information? 2009 Report on American
Consumers”. El estudio revela que “en 2008 los estadounidenses consumieron la información de
13.000.000.000.000 de horas, un promedio de caso 12 horas al día. El consumo fue de 3,6 zettabytes y
10.845 billones de palabras, que corresponden a 100.500 palabras y 34 gigabytes para una persona
promedio en un día promedio. Bohn, Short y Chattanya Baru posteriormente en Enero de 2011 siguieron
con la publicación “How Much Information? 2010 Report on Enterprise Server Information”. Estiman que en
2008 los servidores del mundo procesaron 9,57 zettabytes de información, casi 10 a la 22 (es decir 10
millones de millones de gigabytes). Esto fue 12 gigabytes de información diarias para el trabajador
promedio, o alrededor de 3 terabytes de información por trabajador al año. La empresas del mundo
procesan en promedio 63 terabytes de información anuales.
2010, Kenneth Cukier publica en “The Economist” un informe especial titulado “Data, Data Everywhere” . El
mundo contiene una inimaginable vasta cantidad de información digital que se está volviendo cada vez más
vasto con mayor rapidez. El efecto se hace sentir en todas partes, desde los negocios hasta la ciencia, desde
los gobiernos hasta las artes. Los científicos y los ingenieros informáticos han acuñado un nuevo término
para el fenómeno: “Big Data”.
2011, Martin Hilbert y Priscilla Lopez publican “The World´s Technological Capacity to Store, Communicate
and Compute Information”. Se estima que la capacidad de almacenamiento de la información del mundo
creció a una tasa compuesto de crecimiento anual del 25% anual entre 1986 y 2007. También estiman que,
en 1986, 99,2% de toda la capacidad de almacenamiento era análoga, pero en 2007 el 94% de la capacidad
de almacenamiento era digital, una revisión completa de las funciones (en 2002, el almacenamiento de
información digital superó a la no digital por primera vez).
2011, James Manyika, Michael Chui, Brad Brown, Jacques Bughin, Richard Dobbs, Charles Roxburgh y Angela
Hung Byers, del Instituto Global McKensey publican “Big Data: The Next frontier for Innovation, Competition,
and Productivity”. Ellos estiman que “para el año 2009, casi todos los sectores de la economía de Estados
Unidos tuvieron por lo menos un promedio de 200 terabytes de datos almacenados (dos veces el tamaño de
almacenamiento de datos del minorista de Estados Unidos Walmart en 1999) por empresa, con más de
1.000 empleados”, y los valores de inversión en servicios liderará en cuanto a los datos almacenados por las
empresas. En total, el estudio estima que 7,4 exabytes de nuevos datos fueron almacenados por las
empresas, y los 6,8 exabytes por los consumidores en 2010.
2012, La Revista International Communication publica una sección especial titulada “Info Capacity” sobre las
metodologías y los resultados de varios estudios que miden el volumen de información. En “Tracking the
www.hcglobalgroup.com Contacto: info@hcglobalgroup.com
Santiago-Chile, Latino América.
INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA.
HERRAMIENTAS PARA EL FUTURO CRECIMIENTO.
flow of information into the home”, Newman, Park y Panek estiman que la oferta total de los medios de
comunicación a los hogares estadounidenses ha aumentado alrededor de 50.000 minutos por día desde
1960 a cerca 900.000 en 2005. Mirando la relación entre oferta y demanda en el año 2005, se estima que las
personas en los Estados Unidos se están acercando a mil minutos de contenido mediada disponibles para
cada minuto disponible para el consumo. En “International Production and Dissemination of Information”,
Bounie y Gille estiman que el mundo produjo 14,7 exabytes de nueva información en el año 2003.
2012, Dana Boyd y Kate Crawford publican “Critcal Question for Big Data”. Ellos definen al Big Data como
“un fenómeno cultural, tecnológico, y académico que se basa en la interacción de tecnología (potencia de
cálculo maximizador y precisión algorítmica para reunir, enlazar y comparar conjuntos de datos grandes); así
como también de Análisis (dibujo de grandes conjuntos de datos para identificar patrones para las
necesidades de reclamaciones económicas, sociales, técnicas y legales); y por último mitológicas (la creencia
generalizada de que los conjuntos de datos de gran tamaño ofrecen una forma más elevada de la
inteligencia y el conocimiento que pueden generar ideas que antes eran imposibles, con el aura de la verdad,
la objetividad y la precisión)”.
DEFINICIÓN DE BIG DATA.-
Luego de verificar los orígenes históricos del Big Data, ¿podemos responder la pregunta acerca de Qué es Big
Data?.
Big Data (Grandes Datos) hace referencia a los Sistemas que
manipulan grandes y complejos conjuntos de datos (data sets), que
se hace difícil procesarlos con herramientas de gestión de base de
datos o aplicaciones tradicionales de procesos de datos. Los
desafíos del Big Data incluyen la “captura, almacenamiento,
búsqueda, poder compartir, análisis y visualización de datos”, en
donde la tendencia es a manipular ingentes cantidades de datos, se
debe a la derivable información adicional a partir del análisis de un
solo gran conjunto de datos relacionados, en comparación con la
separación de conjuntos más pequeños con la misma cantidad total
de datos, permitiendo que las correlaciones que se pueden
encontrar para “detectar tendencias de negocios”, determine la
calidad de la investigación, la prevención de enfermedades,
combatir el delito y determinar las condiciones del tráfico de
carretera en tiempo real
3
. A partir de 2012, los límites al tamaño de
3
The Economist, Data, data everywhere”, http://www.economist.com/node/15557443
www.hcglobalgroup.com Contacto: info@hcglobalgroup.com
Santiago-Chile, Latino América.
INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA.
HERRAMIENTAS PARA EL FUTURO CRECIMIENTO.
los conjuntos de datos que sean factibles para procesar en un período razonable de tiempo, eran del orden
de “exabytes”
4
de datos (lo cual me hace relacionar la “Ley de Moore y la Potencia de micro Procesamiento”,
La “Ley de Almacenamiento Digital Masivo” y La “Ley de Metcalfe y la “Economía de Redes” como los
impulsores Tecnológicos de la Infraestructura de Tecnologías de la Información y Comunicaciones)
5
.
Los científicos se encuentran con regularidad con limitaciones debido a los grandes conjuntos de datos en
muchas áreas, incluyendo la “meteorología, la genómica, conectómica, simulaciones físicas y complejas, así
como la investigación biológica y ambiental”. De igual forma, las limitaciones también afectan la búsqueda
de Internet, finanzas y negocios de la informática. Los conjuntos de datos crecen en tamaño, en parte
debido a que cada vez más se reúnen datos en dispositivos móviles omnipresentes de detección de
información, tecnologías de áreas sensoriales (teledetección), registros de software, cámaras, micrófonos,
lectores de identificación por radiofrecuencia y redes de sensores inalámbricos. Se calcula que la capacidad
per cápita tecnológica del mundo para almacenar la información “se ha duplicado cada 40 meses desde la
década de 1980”
6
. A partir de 2012, todos los días 2,5 trillones de bytes de datos fueron creados. El reto
para las grandes empresas es “determinar quién debe poseer las grandes iniciativas de datos que se sitúan
en toda la organización”.
A continuación un video donde se explica el concepto del Big Data y sus orígenes:
4
A tener presente la siguiente tabla de conversión (en términos de bytes y expresado en sistema internacional decimal):
1 Kilobytes (KB): 1.000 bytes; 2^3.
1 Megabytes (MB): 1.000.000 bytes; 2^6.
1 Gigabyte (GB): 1.000.000.000 bytes; 2^9.
1 Terabyte (TB): 1.000.000.000.000 bytes; 2^12.
1 Petabytes (PB): 1.000.000.000.000.000 bytes; 2^15.
1 Exabytes (EB): 1.000.000.000.000.000.000 bytes; 2^18.
1 Zettabytes (ZB): 1.000.000.000.000.000.000.000 bytes; 2^21.
1 yottabytes (YB): 1.000.000.000.000.000.000.000.000 bytes; 2^24
5
Ley de Moore y la Potencia de Microprocesamiento: Desde la aparición del primer chip de microprocesador en 1959,
se había duplicado cada año la cantidad de componentes en un chip con los costos de manufactura más bajos por
componentes”. De acá surgen derivaciones de la Ley de More al respecto (“La potencia de los microprocesadores se
duplica cada 18 meses” –Gates, 1997-; “La potencia de cómputo se duplica cada 18 meses”; “El Precio de la
computación se reduce a la mitad cada 18 meses).
Ley de Almacenamiento Digital Masivo: “La cantidad de información digital se duplica más o menos cada año (Lyman y
Varian, 2003)”. En el mundo se producen alrededor de 5 exabytes de información exclusiva cada año (un exabytes
equivale a mil millones de gigabytes).
Ley de Metcalfe y la Economía de Redes: “El Valor o potencia de una Red, crece exponencialmente como una función de
la cantidad de miembros de una red”. A medida que aumentan linealmente, el valor total del sistema aumenta
exponencialmente y continúa creciendo siempre conforme se incrementan los miembros (Efecto Economía de Redes y el
Crecimiento de Internet). Kenneth C. Laudon & Jane P. Laudon, “Sistemas de Información Gerencial: Administración de
la Empresa Digital”, (Impulsores de la Evolución de la Infraestructura), Pearson Pretince Hall, Décima Edición.
6
Science 332 (6065)Hilbert, Martin; López, Priscilla (2011), “The World´s Technological Capacity to Store,
Communicate, and Compute Information”, http://martinhilbert.net/WorldInfoCapacity.html
www.hcglobalgroup.com Contacto: info@hcglobalgroup.com
Santiago-Chile, Latino América.
INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA.
HERRAMIENTAS PARA EL FUTURO CRECIMIENTO.
El Big Data es difícil de trabajar con uso de software y aplicaciones de gestión de base de datos relacionales,
y la mayoría de las estadísticas de escritorio y paquetes de aplicaciones de visualización, lo que implica
requerir de “procesamiento paralelo masivo que se ejecute en decenas, cientos o incluso miles de
servidores” en su lugar. ¿A qué se considera Big Data? Varía dependiendo de la capacidad de la organización
de gestión conjunta, así como de las capacidades de aplicaciones que se utilizan tradicionalmente para
procesar y analizar los datos que configuran su dominio de acción. Para algunas organizaciones, enfrentar
cientos de gigabytes de datos por primera vez, puede desencadenar la necesidad de reconsiderar las
opciones de gestión de datos. Para otros, puede tomar decenas o cientos de terabytes antes de que los
datos se conviertan en una consideración importante.
El concepto de Big Data por lo general incluye “los conjuntos de datos con tamaños mas allá de la capacidad
de las herramientas de software utilizadas para Capturar, Co-adjuntar, Gestionar y Procesar los datos dentro
de un tiempo transcurrido tolerable. El Big Data tiene un objetivo en constante movimiento, que a partir de
2012 van desde unas pocas decenas de terabytes a muchos petabytes de datos de un solo conjunto de
datos. Por tal motivo, no es de extrañar que muchos usuarios comunes y corrientes, hoy en día se nos
presente la necesidad de tener que trabajar con equipos computacionales (fijos o móviles), incluso unidades
de almacenamiento externas con capacidades por sobre 1 terabytes, ¡que no es nada! (o en su defecto, con
capacidades similares de almacenamiento en el Cloud -modelo de computación en la Nube-, tal como me
pasó días atrás.
El objetivo se mueve debido a la constante mejora en la tecnología de DBMS (Sistema de Gestión de Base de
Datos) tradicional, así como consecuencia de las nuevas bases de datos como NoSQL y su capacidad para
manejar grandes cantidades de datos. Con esta dificultad, se están desarrollando nuevas plataformas de Big
Data, como herramientas para manejar varios aspectos de grandes cantidades de datos.
www.hcglobalgroup.com Contacto: info@hcglobalgroup.com
Santiago-Chile, Latino América.
INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA.
HERRAMIENTAS PARA EL FUTURO CRECIMIENTO.
En un informe de investigación de 2001 y conferencias relacionadas a Meta Group, el analista Doug Laney
define los “retos y oportunidades del crecimiento de datos en: La Velocidad en tres dimensiones, la cual se
refiere al aumento del volumen de datos (cantidad de datos, velocidad de datos interna y externa, y la
variedad o gama de tipo de datos y fuentes)”. Tanto Gartner como gran parte de la industria, siguen
utilizando este modelo “3Vs” para describir los grandes volúmenes de datos
7
. El 2012, Gartner actualizó su
definición sobre Big Data, sosteniendo que el “Big Data es de gran volumen y velocidad y/o de alta
diversidad en los activos de información que requieren las nuevas formas de procesamiento, para permitir la
toma de decisiones mejorada, visión, descubrimiento y optimización de procesos”
8
.
Actualmente se sigue utilizando la definición de Gartner (las 3Vs), con la adición de nuevas “Vs” añadidas
por los departamentos de Marketing de las organizaciones. La creciente madurez del concepto fomenta una
mayor diferencia de sonido entre el Big Data y la Inteligencia de Negocios (Business Intelligence) con
respecto a los datos y su uso
9
:
 Business Intelligence utiliza estadística descriptiva con datos de alta densidad e información para medir
sucesos, detectar tendencias, entre otros.
 Big Data utiliza estadísticas inductivas con datos con baja densidad de información, cuyo gran volumen
permite inferir leyes (regresiones, entre otros) y dando así con los límites del razonamiento de inferencia
para algunas capacidades predictivas del Big Data..
El mundo Académico y el Big Data.
Dentro del mundo de generación de conocimiento académico, podemos citar a lo que acontece en, por
ejemplo el Massachusetts Institute Technology, MIT, quienes el 31 de Mayo de 2012 anunciaron que habían
sido seleccionados entre 55 instituciones que presentaron 157 propuestas para albergar un nuevo “Centro
de Investigación de Intel” que se centraría en el “Big Data”. El Centro de Investigación de Intel es la piedra
angular de una nueva iniciativa de CSAIL, conocido como “Big Data @ CSAIL”, dirigido por el profesor
adjunto Sam Madden y el Profesor Adjunto Michael Stonebreaker, ambos del Departamento de Ingeniería
Eléctrica y Ciencias de la Computación del MIT. Además de Intel, los patrocinadores de la iniciativa incluyen
a AIG, EMC, SAP y Thompson Reuters, Microsoft, Samsung. El MIT patrocina varios programas, incluyendo
un programa de becas, un programa de prácticas y un proyecto para investigar “cómo las tecnologías de Big
Data pueden mejorar al gobierno”. Como parte de centro de Ciencias y Tecnología en el CSAIL, Intel contrata
a un puñado de investigadores que se encuentran en Cambridge y trabajan en estrecha colaboración con
7
Gartner, “Gartner says Solving Big Data Challenge involves more than just managing volumes of Data”,
Beyer, Mark, 27 de Junio de 2011, Gartner, http://www.gartner.com/newsroom/id/1731916 .
8
Douglas, Laney, “The Importance of Big Data: A Definition”, Gartner, 21 de Junio de 2012,
http://www.gartner.com/DisplayDocument?id=2057415&ref=clientFriendlyUrl
9
Wikipedia, “Big Data”, http://en.wikipedia.org/wiki/Big_data
www.hcglobalgroup.com Contacto: info@hcglobalgroup.com
Santiago-Chile, Latino América.
INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA.
HERRAMIENTAS PARA EL FUTURO CRECIMIENTO.
profesores del MIT en tecnologías relacionadas con grandes volúmenes de datos. Investigadores de las
Universidades de California en Santa bárbara, Universidad Estatal de Portland, Universidad Brown,
Universidad de Washington y la Universidad de Stanford también están afiliados a la Central. Intel, en una
primera etapa comprometió US$ 2,5 millones al año para el centro, al menos durante los próximos 3 años,
con un compromiso de dos años adicionales, de ser posible, si el centro pasa una revisión cada 3 años.
Al respecto, el día de la inauguración del centro, se sostuvo que “estamos siendo testigos de un período de
crecimiento sin precedentes en el formato digital de Datos No Estructurados en la Web, así como en la
Nube. Esto sólo se acelerará aún más a través del rápido crecimiento de los dispositivos móviles como
smartphones y automóviles conectados”. Justin Rattner, (CTO de Intel) dijo que “si bien esta cantidad de
datos ya es asombrosa, el futuro lo harán palidecer en comparación con la cantidad de datos que se
generarán en tiempo real con la “Internet de las Cosas (Internet of Things)”, que es una red prevista para
conectar dispositivos informáticos incorporados en artículos para el hogar común”. Si pensamos que esto es
una gran cantidad de datos, debemos prepararnos, ya que aún no hemos visto nada. “El Big Data se ha
convertido en una de las nuevas frases sexys”, añadió Susan Hockfield (Presidente del MIT)
10
.
El objetivo del BigData@CSAIL es “identificar y desarrollar las tecnologías necesarias para resolver los
desafíos de datos de próxima generación que requieren la capacidad de escalar más allá de lo que las
plataformas informáticas de hoy en día poseen, los algoritmos y los métodos que pueden proporcionar.
Buscan que las personas puedan aprovechar realmente el Big Data mediante el desarrollo de plataformas
que sean reutilizables, escalables y fáciles de implementar a través de varios dominios de aplicación”.
El enfoque del BigData@CSAIL incluye dos aspectos fundamentales:
 Colaborar estrechamente con la industria para proporcionar las aplicaciones del mundo real y el impacto
que puedan conducir.
 El problema del Big Data es considerado como un problema fundamentalmente multidisciplinario.
El equipo al respecto, está conformado por profesores e investigadores en muchas áreas relacionaras con la
tecnología, incluyendo algoritmos, arquitectura, gestión de gatos, aprendizaje automático, la privacidad y
seguridad de datos, interfaces de usuario y visualización, así como expertos en el campo de las finanzas, la
medicina, la infraestructura inteligente, la educación y la ciencia
11
.
10
MIT News, MIT, Intel univeil new initiatives addressing Big Data”, May 31, 2012,
http://web.mit.edu/newsoffice/2012/big-data-csail-intel-center-0531.html
11
BigData@CSAIL, http://bigdata.csail.mit.edu/
www.hcglobalgroup.com Contacto: info@hcglobalgroup.com
Santiago-Chile, Latino América.
INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA.
HERRAMIENTAS PARA EL FUTURO CRECIMIENTO.
Tipo de Información que trata el Big Data.
Muchas organizaciones se enfrentan a la
pregunta sobre ¿Qué información es la que se
debe analizar? Sin embargo, la pregunta que
debemos hacernos es ¿Cuál es el problema que
se está tratando de resolver?.
Si bien sabemos que existe una amplia variedad
de tipos de datos a analizar, una buena
clasificación nos ayudaría a entender mejor su
representación, aunque es muy probable que
estas categorías puedan extenderse con el
avance tecnológico.
Internet y Social Media: Incluye contenido Web
e información que es obtenida de las redes
sociales como Facebook, Twitter, LinkedIn, Blogs,
entre otros.
Máquina a Máquina (M2M): Se refiere a las
tecnologías que permiten conectarse a otros
dispositivos. M2M utiliza dispositivos como sensores o medidores que capturan algún evento en particular
(velocidad, temperatura, presión, variables meteorológicas, variables químicas, etc.), los cuales se
transmiten a través de redes alámbricas, inalámbricas o híbridas a otras aplicaciones que traducen estos
eventos en información significativa.
Grandes Datos de Transacciones: Incluye registros de facturación, registros de telecomunicaciones
detallados de las llamadas (CDR), grabaciones, etc. Estos datos transaccionales están disponibles en
formatos tanto semiestructurados como no estructurados.
Biometría: Información biométrica en la que se incluye huellas digitales, escaneo retinal, reconocimiento
facial, genética, etc. En el área e seguridad e inteligencia, los datos biométricos han sido información
importante para las agencias de investigación.
www.hcglobalgroup.com Contacto: info@hcglobalgroup.com
Santiago-Chile, Latino América.
INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA.
HERRAMIENTAS PARA EL FUTURO CRECIMIENTO.
Generado por Humanos: Las personas generamos diversas cantidades de datos, como la información que
guarda un Call Center al establecer una llamada telefónica, notas de voz, correos electrónicos, documentos
electrónicos, estudios médicos, imagen, etc.
12
De esta forma en el retail, por ejemplo:
Back-Office: Los repositorios de datos, muy extendidos en las organizaciones, que normalmente se
concentran en sistemas ERP, Datos Transaccionales y Operativos, así como DataWarehouse con información
analítica e histórica, necesariamente deberán evolucionar y combinarse con el Big Data (tanto en materia de
información estructurada como no estructurada).
Front-Office: Los Sistemas de Relación con los Clientes o Usuarios, con toda probabilidad también deberán
evolucionar en paralelo o en conjunto con el Big Data, tanto en materia de tratamiento de información para
Segmentación, Fidelización, Operatividad en Intranet Corporativas, Sistemas basados en Web, lenguaje y
servicios, conviviendo también con datos estructurados como no estructurados en sus repositorios de back-
Office que nutrirán los indicadores de sus Data Warehouse.
Ventas: Esto va más allá de las transacciones generadas por caja (ya integradas en el back-office). Una de las
grandes revoluciones se refiere a la “Internet de las Cosas” (Internet of Things), donde todos los dispositivos,
sensores o controladores transmiten datos, los cuales recogidos, procesados y refinados pueden entregar
mucha información. Por ejemplo, la información generada por los Códigos QR, RFID, Realidad Aumentada,
Dispositivos de Neuromarketing, Gafas o Relojes Inteligentes, etc., constituirán todo un nuevo universo por
explorar y explotar. Sin embargo, además estos dispositivos podrán “relacionarse” con otros dispositivos,
interactuar, ser activados o desactivados por otros, entre otras actividades e interacciones, para lo cual
utilizarán canales ya desarrollados como Internet, Cloud y/o Movilidad. Por tanto, entramos a un territorio
mucho más complejo e inexplorado ¿cómo responder a la gran cantidad de dispositivos que existen y que
existirán? ¿cuáles serán más importantes? ¿cómo afectarán a las métricas tradicionales? ¿deberemos
utilizar nuevas métricas? ¿cómo mediremos la rentabilidad? ¿cómo afectará esto a nuestros actuales y
futuros modelos de negocios?, entre otros.
La conectividad llevará a cabo cambios fundamentales y determinantes en los siguientes años (ultra
conectividad) con variedad de dispositivos móviles y explosión de las redes sociales, en conjunto con la
llegada del Cloud Computing (Datos en la Nube), afectando los Sistemas Back y Front Office en cuanto a
almacenamiento de datos, formas de trabajo, relacionamiento, modelos de negocios, tipos de relaciones
con los clientes/usuarios y las organizaciones, donde también evolucionarán con respecto a la información
estructurada y no estructurada que se genera.
12
IBM, Ricardo barranco Fragoso, ¿Qué es Big Data?, DevelopWorks, 18/06/2012,
http://www.ibm.com/developerworks/ssa/local/im/que-es-big-data/index.html?cmp=BS&ct=SocialMedia&cr=twitter
www.hcglobalgroup.com Contacto: info@hcglobalgroup.com
Santiago-Chile, Latino América.
INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA.
HERRAMIENTAS PARA EL FUTURO CRECIMIENTO.
La complejidad, velocidad y volatilidad de estos tipo de datos y cantidades de información, son los actuales y
futuros retos fundamentales a los que debe(rá) responder los Sistemas Big Data, donde la Selección, Filtro,
Volúmenes de Datos (diferentes y complejos), así como las tecnologías y negocios, serán las dos caras de
una misma pero diferente moneda que actualmente conocemos
13
.
ARQUITECTURA DEL BIG DATA.-
Como hemos visto, el Big Data es un concepto que se aplica a toda aquella información que no puede ser
procesada o analizada usando procesos o herramientas convencionales debido al enorme volumen de datos
sobre el cual hay que trabajar.
En 2004, Google publicó un documento sobre un Proceso llamado “MapReduce”, que utiliza dicha
arquitectura. El marco MapReduce ofrece un “modelo de programación paralela y la aplicación asociada
para procesar gran cantidad de datos”. Con MapReduce, las consultas se dividen y se distribuyen a través de
los nodos paralelos y procesan en paralelo (el paso Mapa). Los resultados luego se reúnen y se entregan (el
paso Reducir). Esto implica que MapReduce se ejecuta en dos procesos por separado (Map y Reduce,
considerando paralelismo, escalabilidad, tolerancia a fallos y curva de aprendizaje elevada. El resultado fue
un éxito increíble, lo cual condujo a que otros repitieran el algoritmo. Por lo tanto, una implementación de
MapReduce fue adoptado por un proyecto de Código Abierto llamado Hadoop. Las características generales
de Hadoop involucran: Open Source, desarrollado inicialmente por Yahoo, administrado por Apache
Software Foundation, Diseñado para trabajar con volúmenes de datos en petabytes, ofrece alta
disponibilidad, así como escalamiento horizontal. Hadoop ha tenido muy buena aceptación en el mercado,
tras lo cual muchas tecnologías de desarrollo se han basado en Hadoop. Además, ofrece una Curva de
Aprendizaje elevada, no se constituye como una base de datos y no es en tiempo real.
En general, las organizaciones han atacado esta problemática desde diferentes ángulos. Todas esas
montañas de información han generado un costo potencial al no descubrir el gran valor asociado al Big
Data. Desde luego, el ángulo correcto que actualmente tiene el liderazgo, en términos de popularidad para
analizar cantidades de información, la tiene la plataforma de Código Abierto Hadoop.
Hadoop
14
está inspirado en el proyecto de Google, Google File System (GFS), y en el paradigma de
programación MapReduce, el cual como ya se adelantó anteriormente, consiste en “dividir en dos tareas
(Mapper – Reducer) la manipulación de datos distribuidos a nodos de un clúster, logrando un alto
13
A partir de XAMQ, Francesc Máñez, “Big Data: Origen de los Datos”, 01/04/2013,
http://www.qmaxsl.com/bqmax/big-data-origen-de-los-datos/
14
IBM, Ricardo Barranco Fragoso, ¿Qué es Big Data?, DeveloperWorks, 18/06/2012,
http://www.ibm.com/developerworks/ssa/local/im/que-es-big-data/index.html?cmp=BS&ct=SocialMedia&cr=twitter
www.hcglobalgroup.com Contacto: info@hcglobalgroup.com
Santiago-Chile, Latino América.
INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA.
HERRAMIENTAS PARA EL FUTURO CRECIMIENTO.
paralelismo en el procesamiento. Hadoop está compuesto de tres piezas fundamentales: Hadoop Distributed
File System (HDFS), Hadoop MapReduce y Hadoop Common.
Hadoop Distributed File System (HDFS): Los datos en el clúster de Hadoop son
divididos en pequeñas piezas llamadas “bloques” y distribuidas a través del
clúster. De esta forma, las funciones “Map” y “Reduce” pueden ser ejecutadas
en pequeños subconjuntos, lo cual permite proveer de la “Escalabilidad”
necesaria para el procesamiento de grandes volúmenes.
En la figura adjunta, se ejemplifica como los bloques de datos son escritos hacia
HDFS. Observe que cada bloque es almacenado tres veces, y al menos un
bloque se almacena en un diferente rack par lograr redundancia.
Hadoop MapReduce: MapReduce es el núcleo de Hadoop. El término en
realidad se refiere a dos procesos separados que Hadoop ejecuta. El primer
proceso, “Map” toma un conjunto de datos y los convierte en otro conjunto
donde los elementos individuales son separados en “tuplas” (pares de llave/valor). El proceso “Reduce”
obtiene la salida de Map como datos de entrada y combina las tuplas en un conjunto más pequeño de las
mismas. Una fase intermedia, denominada “shuffle” obtiene las tuplas del proceso Map , y determina qué
nodo procesará estos datos, dirigiendo la salida a una tarea Reduce en específico.
La figura adjunta, ejemplifica un flujo de datos en un proceso sencillo de MapReduce.
Hadoop Common: Se constituye como un conjunto de librerías que soportan varios subproyectos de
Hadoop.
Además de estos tres componentes principales de Hadoop, existen otros proyectos relacionados, los cuales
son definidos a continuación.
www.hcglobalgroup.com Contacto: info@hcglobalgroup.com
Santiago-Chile, Latino América.
INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA.
HERRAMIENTAS PARA EL FUTURO CRECIMIENTO.
Avro: Es un proyecto de Apache, el cual provee servicios de serialización. Cuando se guardan datos de un
archivo, el esquema que define ese archivo es guardado dentro del mismo. De este modo es más sencillo
para cualquier aplicación leerlo posteriormente, puesto que el esquema está definido dentro del archivo.
Cassandra: Es una base de datos no relacional distribuida (y basada en un modelo de almacenamiento de
“llave-valor”) desarrollada en Java. Permite grandes volúmenes de datos en forma distribuida. Twitter es
una de las empresas que utiliza Cassandra dentro de su plataforma.
Chukwa: Diseñado para la colección y análisis a gran escala de “logs”. Incluye un toolkit para desplegar los
resultados del análisis y monitoreo.
Flume: Tal como su nombre lo indica, su tarea principal es “dirigir los datos de una fuente hacia alguna otra
localidad”, en este caso, hacia el ambiente Hadoop. Existen tres entidades principales: Source, Decorators y
Sinks. Un Source, es básicamente cualquier fuente de datos. Sink se refiere al destino de una operación en
específico. Decorator es una operación dentro del flujo de datos que transforma esa información de alguna
manera, por ejemplo comprimir o descomprimir los datos o alguna otra operación en particular sobre los
mismo.
HBase: Es una base de datos columnar (colum-oriented database) que se ejecuta en HDFS. HBase no soporta
SQL, de hecho, HBase no es una base de datos relacional. Cada tabla contiene filas y columnas como una
base de datos relacional. HBase permite que muchos atributos sean agrupados, llamándolos Familias de
Columnas, de tal manera que los elementos de una familia de columnas son almacenados en un solo
conjunto. Esto es distinto a las bases de datos relacionales orientadas a filas, donde todas las columnas de
una fila son almacenadas en conjunto. Facebook utiliza HBase en su plataforma desde noviembre de 2010.
Hive: Es una infraestructura de Data Warehouse que facilita administrar grandes conjuntos de datos que se
encuentran almacenados en un ambiente Distribuido. Hive tiene definido un lenguaje similar a SQL llamado
Hive Query language (HQL). Estas sentencias HQL son separadas por un servicio de Hive, y son enviadas a
procesos MapReduce ejecutados en el clúster de Hadoop.
Jaql: Fue donado por IBM a la comunidad de software libre. Query language for Javascript Objet Notation
(JSON) es el lenguaje funcional y declarativo que permite la explotación de datos en formato JSON diseñado
para procesar grandes volúmenes de información. Para explotar el paralelismo, Jaql rescribe los queries de
alto nivel (cuando es necesario) en queries de bajo nivel para distribuirlos como procesos MapReduce.
Lucene: Es un proyecto de Apache, bastante popular para realizar búsquedas sobre textos. Lucene provee de
librerías para indexación y búsqueda de texto. Ha sido principalmente utilizado en la implementación de
motores de búsqueda (aunque hay que considerar que no tiene funciones de “crawing” ni análisis de
documentos HTML ya incorporadas). El concepto a nivel de arquitectura de Lucene es simple: básicamente
los documentos (documents) son divididos en campos de texto (field) y se genera un índice sobre estos
www.hcglobalgroup.com Contacto: info@hcglobalgroup.com
Santiago-Chile, Latino América.
INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA.
HERRAMIENTAS PARA EL FUTURO CRECIMIENTO.
campos de texto. La indexación es el componente clave de Lucene, lo que le permite realizar búsquedas
rápidas e independientes del formato del archivo (ya sean PDFs, documentos HTML, etc.).
Oozie: Como pudieron haber notado, existen varios procesos que son ejecutados en distintos momentos, los
cuales necesitan ser orquestados para satisfacer las necesidades de tan complejo análisis de información.
Oozie es un proyecto de Código Abierto que simplifica los flujos de trabajo, y la coordinación entre cada uno
de los procesos. Permite que el usuario pueda definir acciones y las dependencias entre dichas acciones.
Un flujo de trabajo de Oozie es definido mediante un grafo a cíclico llamado Directed Acyclical Graph (DAG),
y es a cíclico puesto que no permite ciclos en el grafo, es decir, solo hay un punto de entrada y de salida, y
de todas las tareas y dependencias, parten del punto inicial al punto final sin puntos de retorno. Un ejemplo
de un flujo de trabajo en Oozie se representa en la figura adjunta.
Pig: Inicialmente desarrollado por Yahoo! para permitir a los usuarios de Hadoop enfocarse más en analizar
todos los conjuntos de datos, y dedicar menos tiempo en conseguir los programas MapReduce. Tal como su
nombre lo indica, al igual que cualquier “cerdo” que come cualquier cosa, el lenguaje Piglatin fue diseñado
para manejar cualquier tipo de dato, donde Pig es el ambiente de ejecución donde estos programas son
ejecutados, de manera muy similar a la relación entre la máquina virtual de Java (JVM) y una aplicación Java.
ZooKeeper: Es otro proyecto de Código Abierto de Apache, el cual provee de una infraestructura
centralizada y de servicios que pueden ser utilizados por aplicaciones para asegurarse de que los procesos a
través de un clúster sean serializados o sincronizados. Internamente en ZooKeeper una aplicación puede
crear un archivo que se persiste en memoria en los servidores ZooKeeper llamado Znode. Este archivo Znode
puede ser actualizado por cualquier nodo en el clúster, y cualquier nodo puede registrar que sean informado
de los cambios ocurridos en ese Znode, es decir, un servidor puede ser configurado para “vigilar” un Znode
en particular. De este modo, las aplicaciones pueden sincronizar sus procesos a través de un clúster
www.hcglobalgroup.com Contacto: info@hcglobalgroup.com
Santiago-Chile, Latino América.
INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA.
HERRAMIENTAS PARA EL FUTURO CRECIMIENTO.
distribuido actualizando su estatus en cada Znode, el cual informará al resto del clúster sobre el estatus
correspondiente de algún nodo en específico.
Como podrán observar, más allá de Hadoop, una plataforma de Big Data consiste en todo un ecosistema de
proyectos que en su conjunto permiten simplificar, administrar, coordinar y analizar grandes volúmenes de
información.
Dentro de los usuarios de Hadoop, tenemos a: AOL, IBM, Yahoo, LinkedIn eBay, The New York Times,
Twitter, entre otros.
15 16
A continuación, un video que explica el concepto de Big Data, sus dimensiones:
Respecto a las Tecnologías que trabajan en el Big Data, éste requiere tecnologías excepcionales para
procesar eficientemente grandes cantidades de datos dentro de los tiempos transcurridos de manera
tolerable (además de los proyectos anteriormente citados). En 2011, un informe de McKinsey sugiere que
las tecnologías adecuadas para el Big Data deben incluir: las Pruebas A/B, las de regla de asociación de
aprendizaje, clasificación de conglomerados crowdsourcing, fusión de datos y la integración y aprendizaje
conjunto, algoritmos genéticos, aprendizaje automático, procesamientos del lenguaje natural, redes
neuronales, reconocimiento de patrones, detección de anomalías, modelos predictivos, modelos de
regresión, análisis de los sentimientos, procesamiento de señales, supervisión y no supervisión de l
aprendizaje, simulación, análisis de series temporales y la visualización. Los Grandes volúmenes de Datos
multidimensionales también pueden ser representados como tensores, tales como el aprendizaje sub-
espacio multilineal. Las tecnologías adicionales que se aplican a grandes volúmenes de datos incluyen bases
15
Google Inc, Jeffrey Dean, Sanjay Ghemawat, “MapReduce: Simplified Processing on Large Clusters”,
http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/es//archive/mapreduce-
osdi04.pdf
16
Globant, ,”MapReduce: Arquitectura BigData”, bigdata.globant.com/wp-content/uploads/2012/07/Apache-Pig-1.ppt
www.hcglobalgroup.com Contacto: info@hcglobalgroup.com
Santiago-Chile, Latino América.
INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA.
HERRAMIENTAS PARA EL FUTURO CRECIMIENTO.
de datos masivas de procesamiento paralelo (MPP), búsqueda de aplicaciones de búsqueda, minería de
datos, redes de sistemas de archivos distribuidos, bases de datos distribuidas, la infraestructura basada en el
Cloud (aplicaciones, almacenamiento y recursos informáticos) e Internet.
Si queremos saber cómo actúa el Big Data, y verlo en acción, es fácil imaginarlo. Por ejemplo, veamos el
caso del Big Data aplicado a la industria del Mercado de Capitales (Fondos de Cobertura y Gestión de Activos
y Riqueza). Según Rachel West,
17
, por ejemplo, hoy en día, las empresas financieras (que vienen saliendo de
una de las peores crisis de crédito en la historia reciente), han aprendido las lecciones de las limitaciones de
los datos e incompletos de modelos fragmentarios, para la gestión de sus carteras y toma de decisiones
(hacerlas más sensibles a sus necesidades en tiempo real). La información impulsa a estas empresas a querer
aprovechar la información de Inteligencia (INTEL) que juega un papel fundamental en la Optimización del
Uso del Capital y la Gestión de sus Riesgos. Hoy en día existe la necesidad de “una Estrategia Práctica y la
Aplicación Especifica para Análisis de Big Data”. Todos los problemas y programas complejos implican una
Curva de Aprendizaje, y en el caso de hacer frente a grandes volúmenes de datos no es la excepción.
Algunas firmas financieras deben volverse a pensar sobre los modelos existentes y el análisis de gestión de
riesgos alimentados por tecnologías Big Data de código abierto disponibles. Deben tener cuidado de los
retos ocultos que plantea la estrategia de “hágalo usted mismo” (o “hecho en casa”) en temas de Análisis de
Big Data, donde se toma un enfoque de “ensayo y error”. Para ayudar a sus clientes a moverse más allá de
exploraciones aleatorias, deben moverse a realidades empresariales con Big Data, comenzando con un
sólido Análisis de Grandes Volúmenes de Datos para uso comercial y procesos de inversión, tanto para el
lado de la compra, como para el de las empresas.
Se debe aprovechar el Big Data para Analizar la Exposición de Portfolios. La primera pregunta que deben
plantearse es ¿Cuál es la exposición? La exposición se refiere a la cantidad de fondos que se invierten en un
determinado tipo de sector, que por lo general se expresan como un porcentaje del total de las
explotaciones de cartera. Por lo tanto, la exposición viene siendo la “cantidad de fondos que un inversor
tiene sumado al riesgo de pérdida que enfrenta (es la exposición de una cartera a valores particulares). Los
Mercados y sectores deben ser considerados al determinar la asignación de los activos. Son las respuestas a
las preguntas fundamentales que pueden ayudar a la rentabilidad del capital, y si se lleva a cabo
correctamente, también minimiza las pérdidas. EJ: ¿Cuál es la exposición al riesgo total de la cartera por
sector? Al leer acerca de las noticias financieras en Europa, ¿tiene a su alcance la información necesaria para
comprender sus efectos en su cartera y ajustar sus decisiones en consecuencia? ¿Cuáles son sus posiciones
largas y cortas de cartera en moneda euro? ¿cómo lo ha combinado en los últimos 2 a 3 años?
Esas preguntas son tan relevantes para los Gestores de Cartera y Operadores, así como para los Gestores de
Riqueza, Auditores Internos, Asesores Financieros, quienes deben supervisar cuidadosamente las
17
Forbes, Rachel West, Big Data in Action –Let´s Get Starterd”, 24/06/2013,
http://www.forbes.com/sites/emc/2013/06/24/big-data-in-action-lets-get-started/
www.hcglobalgroup.com Contacto: info@hcglobalgroup.com
Santiago-Chile, Latino América.
INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA.
HERRAMIENTAS PARA EL FUTURO CRECIMIENTO.
inversiones y el cumplimiento de los requisitos reglamentos de la empresa. Sin embargo, el Análisis de
Exposición de la Cartera hoy es una suerte de malabares con bolas (de diferentes formas, tamaños y pesos).
Dentro de los Desafíos ¿cuáles son los puntos “dolorosos” en el Análisis de Exposición? Dificultad en el
recoger la información de todos los datos disponibles/relevantes de diferentes mercados, comentarios de
analistas, noticias y eventos en tiempo real. No se pueden predecir los mercados o predecir el futuro.
Carecen de la capacidad de crear escenarios de modelado interactivo para posibles eventos. Es difícil de
“tamizar” a través de la gran cantidad de transacciones en tiempo real para detectar posiciones de riesgo.
Además no se pueden acceder rápidamente a grandes cantidades de Datos históricos para una rápida y
compleja modelización de comercio. Los análisis y presentación de informes cuentan con múltiples pasos y
“silos” elaborados por diferentes grupos con diferentes aplicaciones tecnológicas. La falta de “capacidades
de consultas ad-hoc y presentación de informes sobre la exposición agregada a través de las carteras de
múltiples activos y cuentas de clientes”, son un problema.
Dentro de las Oportunidades, ¿Cuáles son los Beneficios del Análisis de Big Data? La verdad es que son
bastantes, muy rentables, altamente Escalable, de Alto Rendimiento y grandes herramientas de Análisis de
Datos de Baja Latencia, se disponen en los últimos años para ayudar en la recolección y carga de datos de
todas las fuentes de datos, desde los Almacenes de Datos Existentes para alimentación interna y externa, así
como archivos de terceras partes. Con la próxima generación de Plataformas de Análisis, los profesionales
de Gestión de Inversiones no tendrán que luchar durante horas o días para crear escenarios ricos y realistas
de información para analizar el impacto de un determinado mercado, la seguridad o la exposición al sector
de sus inversiones cuando un evento se desarrolla. Ellos pueden convertirse rápidamente en un solo lugar,
en un instante, con la información precisa sobre su cartera y el seguimiento con múltiples dimensiones de
datos sobre exposición para su mejor curso de acción. La nueva solución de análisis de exposición permite a
los usuarios:
 Integrar Datos del Mercado, Noticias y Eventos (anuncios de resultados trimestrales, el PIB, tasa de
desempleo, tasa de interés, inflación, etc.) en el Análisis de Exposición.
 Analizar diferentes niveles de exposición (transacción, posición, cuenta, contraparte para diversos valores,
clases de activos, el sector, así como el mercado, en la marcha o casi en tiempo real para el desarrollo más
eficaz para las estrategias de mitigación de riesgo y el comercio.
 Previsión de casos en el futuro a través de diferentes escenarios modelados a partir de informes de prensa
y el sentir de los medios.
Si bien, el seguimiento de las exposiciones de los distintos fondos es esencial, aún más importante es saber
sobre la Gestión Total de la Cartera en todo momento. Al obtener una Visión completa de la información
geográfica, sectores, estrategia, la capitalización de mercado o exposiciones de valores, los administradores
de inversión pueden decidir reasignar o re-equilibrar sus carteras.
www.hcglobalgroup.com Contacto: info@hcglobalgroup.com
Santiago-Chile, Latino América.
INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA.
HERRAMIENTAS PARA EL FUTURO CRECIMIENTO.
Los Administradores de Cartera también pueden comparar información de la exposición con los pesos de las
carteras, la liquidez y la atribución a través del tiempo. De esta manera, se pueden detectar las tendencias
más importantes de la gran cantidad de puntos de datos históricos a través de los panales de control, que
proporcionan la visualización de datos gráfica de manera intuitiva, por lo que las excepciones se destacan
con alertas sobre anomalías de exposición.
La “Convergencia de Business Intelligence (Inteligencia de Mercado) y Análisis de Big Data” es
fundamental. En este caso requiere de uso de análisis minuciosos y trabajar con grandes volúmenes de
datos (de fuentes externas e internas) para desarrollar modelos predictivos precisos, cada empresa tiene
que pasar por esto para tener capacidad de análisis de Big Data más tangibles para sus usuarios.
www.hcglobalgroup.com Contacto: info@hcglobalgroup.com
Santiago-Chile, Latino América.
INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA.
HERRAMIENTAS PARA EL FUTURO CRECIMIENTO.
BIG DATA Y LA INNOVACIÓN GLOBAL DE SERVICIOS (ACTUAL Y FUTURA).-
Como podemos darnos cuenta ahora, el tema del Big Data no es nuevo en cuanto a sus orígenes. Sin
embargo, la consecuencias de esta Innovación Tecnológica está tomando ribetes insospechados
actualmente, tanto en temas de oportunidades de negocios, así como oportunidades de Innovación y
evolución en todo ámbito de temas, áreas e industrias (incluso en nuestros hábitos diarios como
consumidores y ciudadanos comunes y corrientes).
Aplicaciones del Big Data Actualmente.
Según Luis Martin
18
, la primera gran necesidad del Big Data, es el propio almacenamiento de los datos.
Cuando se llega a esta magnitud, es difícil diseñar una estructura monolítica que pueda albergar toda la
información. Se imponen “soluciones distribuidas”, pero que permitan el acceso a las fuentes de información
de forma unificada. En muchas aplicaciones para Internet, es necesario además que estos datos se
almacenen y procesen rápidamente para ofrecer “análisis en tiempo real”. Es necesario también considerar
la naturaleza y estructura de los datos, que en estos casos suele ser bastante heterogénea. Las soluciones
basadas en “bases de datos no relacionales (NoSQL)” ofrecen una mejor adaptación a este escenario que
otras tradicionales en la mayor parte de los casos.
Una vez que se ha conseguido dar con una “solución para el almacenamiento” y acceso de grandes
cantidades de datos, un gran número de aplicaciones emergen de la posibilidad de realizar análisis sobre los
mismos. Las tecnologías de análisis distribuido de los datos, tales como “Hadoop y MapReduce” ofrecen
esta funcionalidad, abriendo un gran número de posibilidades de aplicación como las que se listan a
continuación:
 Sistemas de recomendación: Utilizan la información de comportamiento de cada usuario para predecir
sus intenciones e intereses, y ofrecerles así contenidos adecuados. Son muy utilizados en Comercio
Electrónico.
 Análisis de Sentimientos: Basándose en conversaciones públicas (EJ: Twitter, foros) y otros elementos
2.0, se intentan predecir los gustos y el comportamiento de cada usuario con finalidad de diferente tipo.
 Predicción de Catástrofes: Las grandes cantidades de datos disponibles se utilizan en la detección de
eventos como incendios o terremotos, de tal manera que se pueda predecir su impacto y generar una
reacción temprana.
 Juegos: Ajedrez (Deep Blue) o Preguntas (Watson) son ejemplos de programas que analizan grandes
cantidades de datos de partidas para derrotar a contrincantes humanos.
 Categorización y Reconocimiento: De lugares, caras o personas, mediante el análisis del gran volumen
de datos de este tipo disponible online.
18
BrainsSINS, Luis Martin, “Big Data: Necesidades y Aplicaciones”, http://www.brainsins.com/es/blog/big-data-
necesidades-y-aplicaciones/103589
www.hcglobalgroup.com Contacto: info@hcglobalgroup.com
Santiago-Chile, Latino América.
INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA.
HERRAMIENTAS PARA EL FUTURO CRECIMIENTO.
 Medicina: La medicina genómica personalizada (aún en el campo de la investigación) analiza e integra
datos genómicos y clínicos para el diagnóstico precoz y una mejor aplicación de las terapias.
 Comportamiento Inteligente de Servicios Públicos: Utilizando la información proveniente de datos
recopilados por sensores inteligentes puede mejorarse la distribución y consumo de recursos
fundamentales como el agua o la energía eléctrica.
 Modelado de Riesgos: Algunas entidades bancarias y firmas de inversión punteras, utilizan tecnologías
de análisis de grandes cantidades de datos para determinar el riesgo de operaciones, evaluando un gran
número de escenarios financieros hipotéticos.
 Detección de Fraudes: Utilizando técnicas para combinar bases de datos de comportamiento de
usuarios, y datos transaccionales puede detectarse actividad fraudulenta, como por ejemplo: el uso de
una tarjeta de crédito robada.
 Monitoreo de Redes: Las redes de servidores producen una gran cantidad de datos que pueden ser
analizados para identificar cuellos de botella o ataques. Este tipo de análisis puede aplicarse también a
otros tipos de redes, tales como redes de transporte, con el fin, por ejemplo, de optimizar el consumo de
combustible.
 Investigación y Desarrollo: Algunas empresas con fuerte componente investigadora, como las
farmacéuticas, realizan análisis de grandes volúmenes de documentación (EJ: artículos científicos) y otro
tipo de datos históricos para mejorar el desarrollo de sus productos.
 Big Science y el Gran Colisionador de Hadrones: Los experimentos representan unos 150 millones de
sensores para la entrega de datos de aproximadamente 40 millones de veces por segundo, resultando en
la investigación del Colisionador de hadrones, cerca de 600 millones de colisiones por segundo. Luego de
filtrar y abstenerse de registrar más del 99,999% de estos flujos, hay 100 colisiones de interés por
segundo
19 20 21 22
:
- Como resultado, sólo trabajar con menos de 0,001% de los datos de la corriente de sensores, el flujo de
datos desde todos los cuatro experimentos del LHC representa 25 petabytes de tasa anual de
información antes de la replicación (a partir de 2012). Esto se convierte en cerca de 200 petabyte de
información después de la replicación.
- Si todos los datos de los sensores debían registrarse en LHC, el flujo de datos sería muy difícil de trabajar.
El flujo de datos superaría los 150 millones de petabytes de tasa anual, o cerca de 500 exabytes por día,
19
Wikipedia, “Big Data”, http://en.wikipedia.org/wiki/Big_data
20
CERN Brochure 2010, “A presentation of the largest and the most powerful particle accelerator in the world, the Large
Hadron Collider (LHC), which starter up in 2008. Its role, characteristics, technologies, etc., are explained for the general
public, http://cds.cern.ch/record/1278169?ln=en
21
CERN Brochure 2008, “LHC Guide: A collection of facts and figure about the Large Hadron Collider (LHC) in
the form of questions and answers”, http://cds.cern.ch/record/1092437?ln=en
22
Brumfield, Geoff 2009, “High Energy Physics: Down the Petabyte Highway”, Nature (International Weekly Journal of
Science), http://www.nature.com/news/2011/110119/full/469282a.html
www.hcglobalgroup.com Contacto: info@hcglobalgroup.com
Santiago-Chile, Latino América.
INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA.
HERRAMIENTAS PARA EL FUTURO CRECIMIENTO.
antes de la replicación. Para poner el número en perspectiva, esto equivale a 500 trillones de bytes por
día, casi 200 veces mayor que todas las otras fuentes combinadas en el mundo.
 La Astronomía: Desde que el Sloan Digitial Sky Survey (SDSS) comenzó a recopilar datos astronómicos en
el año 2000, se acumuló más datos en sus primeras semanas, que todos os datos recogidos en la historia
de la astronomía. Siguiendo a un ritmo de alrededor de 200 GB por noche, el SDSS ha acumulado más de
140 terabytes de información. Cuando el Gran Telescopio para Rastreo Sinóptico, sucesor del SDSS, se
ponga en línea en el año 2016, se prevé la adquisición de esa cantidad de datos cada cinco días
23 24
.
 Descifrando el Genoma Humano: Se refiere al proceso PGH de investigación científica con el objetivo
fundamental de determinar la secuencia de pares de bases químicas que componen el ADN e identificar
y cartografiar los aproximadamente 20.000 – 25.000 genes del genoma humano desde un punto de vista
físico y funcional. El proyecto dotado con 3.000 millones de dólares fue fundado en 1990 en el
Departamento de Energía y los Institutos Nacionales de Salud de los Estados Unidos, bajo la dirección de
Francis Collins, quien lideraba el grupo de investigación público, conformado por múltiples científicos de
diferentes países, con un plazo de realización de 15 años. Gracias a la amplia colaboración internacional,
a los avances en el campo de la genómica, así como los avances en la tecnología computacional, un
borrador inicial del genoma fue terminado en el año 2000. Finalmente, el genoma completo fue
presentado en abril de 2003, dos años antes de lo esperado. Los secuenciadores de ADN humano han
dividido el costo de secuenciación por 10.000 en los últimos diez años, lo cual es un factor de 100 en
comparación con la Ley de Moore.
25 26
Ciencias Sociales Computacionales.
Tobías Preis, utilizando Google Trends para los datos demostró que “los usuarios de internet de los países
con un Producto Interno Bruto per cápita alto, son más a buscar información sobre el futuro de la
información sobre el pasado”. Los hallazgos sugieren que puede haber un vínculo entre la conducta en línea
y los indicadores económicos del mundo real. Los autores del estudio examinaron los registros de consultas
en Google que los usuarios de internet en 45 países en 2010 realizaron, y se calculó el volumen de
búsquedas para el año 2011, tras lo cual denominaron “Futuro Índice de Orientación”. Los investigadores
compararon el futuro índice de orientación en relación con el PIB per cápita de cada país, encontrando una
fuerte tendencia a que “los países en los que los usuarios de Google preguntan más sobre el futuro de
exhibir un PIB más alto”. Los resultados sugieren que puede tratarse de una potencial relación entre el éxito
23
Wikipedia, “Big Data”, http://en.wikipedia.org/wiki/Big_data
24
The Economist, Data, data everywhere”, http://www.economist.com/node/15557443
25
Wikipedia, “Big Data”, http://en.wikipedia.org/wiki/Big_data
26
Wikipedia, “Proyecto Genoma Humano”, http://es.wikipedia.org/wiki/Proyecto_Genoma_Humano
www.hcglobalgroup.com Contacto: info@hcglobalgroup.com
Santiago-Chile, Latino América.
INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA.
HERRAMIENTAS PARA EL FUTURO CRECIMIENTO.
económico de un país y el comportamiento de búsqueda de información de los ciudadanos capturados en
grandes volúmenes de datos
27
.
Gobierno.
En Estados Unidos, se están formando y generando plataformas públicas para comenzar a entender este
paradigma, y para empezar a obtener provecho de éste. Tal es el caso de la iniciativa del gobierno de EE.UU.,
data.gov, y de las Naciones Unidas, unglobalpulse.org, creada para el aprovechamiento de la Innovación
para proteger a los vulnerables. El Gobierno Federal de Estados Unidos posee seis de los diez
supercomputadores más poderosos del mundo. Además, se está construyendo un Data Center en Utha, que
será un centro de datos de la Agencia de Seguridad Nacional (cuando haya terminado, la instalación será
capaz de manejar información del orden de “yottabytes”, recogida por la NSA a través de Internet). En
Latinoamérica, tal como ocurre en el resto del mundo, la región también está experimentando un enorme
crecimiento del Big Data, no así con su aprovechamiento para generar desarrollo. Según la consultora
Global Frost & Sullivan, se pronostica que entre 2012 y 2013 la región sufrirá un aumento exponencial del
Big Data, que demandará avanzadas soluciones tecnológicas (hardware y software) para aprovechar
plenamente la información generada por la enorme cantidad de datos. Sin embargo, son pocas las
compañías y gobiernos de la región que están gestionando el Big Data. Tal situación se debe, tal vez, a la
“falta de visión, inversión, recursos humanos o una mezcla de todos estos, o simplemente porque la mayoría
de las soluciones más básicas son más útiles hoy, o definitivamente no las necesitan (por ahora)”. Con una
gestión seria y planificada del Big Data en cada uno de los países, podrían generarse plataformas
informáticas en tiempo real que, por ejemplo, crucen los datos de fallas sufridas en una planta automotriz
de Brasil o México, y conectarlo con las investigaciones y proyectos relacionados que desarrollan ingenieros
mecánicos de universidades de todo el continente, los que a su vez, podrían cruzarse con datos de
proveedores de materias primas con las que se desarrollarían la nueva pieza de esa fábrica automotriz
28
.
Sector Privado.
En el caso de Amazon.com, se encarga de millones de operaciones de Back-End cada día, así como de las
consultas de más de medio millón de vendedores de terceras partes. La tecnología central que mantiene
Amazon funcionando, está basada en Linux y en 2005 tuvieron las tres mayores bases de datos de Linux del
mundo, con una capacidad de 7,8 TB - 18,5 TB . 24,7 TB. Por su parte, Walmart maneja más de 1 millón de
transacciones por hora de los clientes, los cuales se importan a bases de datos que se estima contienen más
de 2,5 petabytes (2.560 terabytes) de datos –el equivalente a 167 veces la información contenida en todos
los libros de los Estados Unidos en la Biblioteca del Congreso. En el caso de Facebook, se estima que maneja
cerca de 50 mil millones de fotos de su base de usuarios. En el caso de FICO, sistema de detección de fraude
27
Wikipedia, “Big Data”, http://en.wikipedia.org/wiki/Big_data
28
AméricaEconomía,, Pablo Albarracín, “Big Data: ¿La Nueva Llave para el Desarrollo”,
http://www.americaeconomia.com/analisis-opinion/big-data-la-nueva-llave-para-el-desarrollo
www.hcglobalgroup.com Contacto: info@hcglobalgroup.com
Santiago-Chile, Latino América.
INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA.
HERRAMIENTAS PARA EL FUTURO CRECIMIENTO.
bancario, éste protege a 2,1 millones de cuentas activas en todo el mundo. Infosys por su parte, ha puesto
en marcha el BigDataEdge para analizar los grandes datos. Windermere Real Estate utiliza señales GPS
anónimas de casi 100 millones de conductores para ayudar a los nuevos compradores de vivienda a
determinar sus tiempos de conducción típicos y volver del trabajo a lo largo de distintos momentos del día.
En el caso de las grandes empresas multilatinas, sí parece existir una tendencia y creciente preocupación
por la gestión del Big Data, donde algunas ya han adquirido las tecnologías necesarias, mientras que otras se
encuentran en etapas de implementación y/o análisis. Compañías Mineras, de Petróleo/Gas, Retail,
Aerolíneas y de Telecomunicaciones, se asoman como las más interesadas en el Big Data
29 30 31 32 33 34 35
.
Desarrollo Internacional.
Después de décadas de trabajo en el ámbito de la utilización efectiva de las tecnologías de la información y
comunicaciones para el desarrollo (o ICT4D), se ha sugerido que los grandes datos pueden hacer
importantes contribuciones al Desarrollo Internacional. Por un lado, la llegada del Big Data ofrece la
perspectiva económica para mejorar la toma de decisiones en las áreas críticas de desarrollo como Salud,
Empleo, Productividad Económica, el Crimen y la Seguridad, así como para los Desastres Naturales y la
Gestión de Recursos. Por otra parte, todos los problemas acerca del debate del Big Data implican también
los retos a la Privacidad de la Información, la Interoperabilidad y el Poder Omnipotente de algoritmos
imperfectos, los cuales se agravan en los países en desarrollo por los problemas de desarrollo e larga data
como “la falta de infraestructura tecnológica, y la escasez de recursos económicos y humanos”. Esto tiene el
potencial de dar lugar a un nuevo tipo de “Brecha Digital”: la Brecha de la Inteligencia basada en datos para
informar la toma de decisiones
36
.
29
The Economist, Data, data everywhere”, http://www.economist.com/node/15557443
30
Wikipedia, “Big Data”, http://en.wikipedia.org/wiki/Big_data
31
Money.howstuffworks.com, Layton, Julia, “Amazon Technology”, 05/03/2013,
http://money.howstuffworks.com/amazon1.htm
32
FICO.com, http://www.fico.com/en/Products/DMApps/Pages/FICO-Falcon-Fraud-Manager.aspx
33
The Economic Times, “Infosys launches BigDataEdge to analyse Big Data”, 21/02/2013,
http://articles.economictimes.indiatimes.com/2013-02-21/news/37201267_1_big-data-infosys-vice-president-
unstructured-data
34
Express Computer, “Infosys launches BigDataEdge”, 21/02/2013,
http://computer.financialexpress.com/sections/news/1161-infosys-launches-big-data-edge
35
Bits.blogs.nytimes.com, Nick Wingfield, “Predicting Commutes More Accurately for Would-Be Home Buyers”,
http://bits.blogs.nytimes.com/2013/03/12/predicting-commutes-more-accurately-for-would-be-home-buyers/
36
Wikipedia, “Big Data”, http://en.wikipedia.org/wiki/Big_data
www.hcglobalgroup.com Contacto: info@hcglobalgroup.com
Santiago-Chile, Latino América.
INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA.
HERRAMIENTAS PARA EL FUTURO CRECIMIENTO.
Caso el Big Data y el Comportamiento de las Personas.
“La recopilación y análisis de información procedente de teléfonos móviles simples, puede proporcionar
sorprendentes conocimientos sobre cómo se mueven y comportan las personas, e incluso ayudarnos a
entender la propagación de enfermedades”.
En un ordenador en su oficina de la Escuela de Salud Pública de Harvard en Boston, Estados Unidos, la
epidemióloga Caroline Buckee señala un punto en un mapa de las tierras altas al oeste de Kenia, que
representa una de las miles de torres de telefonía móvil del país. En la lucha contra la malaria, los datos
transmitidos desde esta torre, cerca de la ciudad de Kericho, han tenido una enorme importancia a nivel
epidemiológico.
Cuando ella y sus colegas estudiaron los datos, encontraron que las personas que hacen llamadas o envían
mensajes de texto originados en la torre Kericho viajaban con una frecuencia de 16 veces más fuera de la
zona, en comparación de la media regional. Es más, estas personas eran tres veces más propensas a visitar
una región al noreste de lago Victoria que los registros del Ministerio de Salud identificaron como un punto
álgido de la malaria. Por lo tanto, la señal de radio de la toree cubría un punto de referencia importante para
la transmisión de la enfermedad, que puede pasar de persona a persona a través de los mosquitos. Las
imágenes por satélite revelaron la causa más probable: una concurrida plantación de té que seguramente
estaba repleta de trabajadores inmigrantes. La implicación estaba clara, señala Buckee: “Habrá un montón
de infectados en ese lugar”.
Este trabajo está sirviendo de base para una nueva serie de modelos de predicción que Buckee está
construyendo. Muestran, por ejemplo, que a pesar de que se observaron casos de malaria en la plantación
de té, tomar medidas para controlar la malaria allí tendría menos efecto sobre la propagación de la
enfermedad que concentrar los esfuerzos en la fuente: “el lago Victoria”. Siempre se ha creído que esa
región es un centro importante de malaria, pero lo que no ha estado disponible hasta ahora es información
detallada sobre los patrones de viaje humano a ese lugar: cuántas personas van y vienen, cuándo llegan y
salen, a qué lugares específicos van, y cuáles entre esos destinos atraen a la mayoría de las personas que
viajan a lugares nuevos.
De esta forma, Caroline Buckee, epidemióloga de Harvard, está utilizando datos detallados de movimientos
de población, obtenidos de teléfonos móviles, para construir nuevas y precisas herramientas para la lucha
contra la propagación de la malaria. Los esfuerzos existentes por recopilar este tipo de datos de viajes son,
como poco, irregulares. A veces los trabajadores de la Salud Pública cuentan literalmente a las personas en
los centros de transporte o las enfermeras de clínicas remotas preguntan a las víctimas de malaria recién
diagnosticadas dónde han estado recientemente. “En muchos cruces fronterizos de África, mantienen
pequeños registros en papel, pero los papeles se pierden y nadie les sigue la pista”. Tenemos abstracciones
y modelos generales sobre los patrones de viaje, pero jamás hemos sido capaces de hacer esto
correctamente, aduce Buckee.
www.hcglobalgroup.com Contacto: info@hcglobalgroup.com
Santiago-Chile, Latino América.
INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA.
HERRAMIENTAS PARA EL FUTURO CRECIMIENTO.
La Minería de Datos facilitará el diseño de nuevas medidas que probablemente incluirán campañas baratas y
específicas de mensajes de texto, por ejemplo, advirtiendo a los visitantes que entren en la zona de la torre
Kericho que utilicen mosquiteros. Esto ayudará a los funcionarios a elegir dónde concentrar los esfuerzos de
control de mosquitos en las zonas palúdicas. “No queremos tener que rociar cada charco de larvas de
mosquitos todo el tiempo. Pero si sabes que existe una gran cantidad de importaciones procedentes de un
determinado lugar, lo suyo es aumentar el programa de control en ese lugar”, asegura Buckee. “Ahora
puedo precisar puntos de especial importancia dentro de la importación de una enfermedad”.
El estudio más reciente de Buckee, publicado el año pasado en Science y basado en registros de 15 millones
de teléfonos de Kenia, es el resultado de una colaboración con su esposo, Nathan Eagle, que ha estado
dedicado a dar sentido a los datos de teléfonos móviles durante más de una década. A mediados de la
década de 2000, después de conseguir llamar la atención con su trabajo de minería de datos procedentes de
teléfonos de voluntarios en el MIT, Eagle comenzó a recibir llamadas de compañías de telefonía móvil
pidiendo saber más acerca de, por ejemplo, por qué los clientes cancelaban sus planes de telefonía. Eagle
comenzó a trabajar con las compañías. Y cuando la pareja pasó 18 meses en África a partir de 2006 8Buckee
estaba haciendo un trabajo sobre la genética del parásito de la malaria) él estudió los datos de llamadas con
diversos fines, tratando de entender fenómenos como las divisiones étnicas en barrios marginales de
Nairobi y la propagación del cólera en Ruanda. Los resultados de Buckee muestran lo que se puede
conseguir cuando la tecnología se usa para problemas de salud pública. “Esto muestra que sí, podemos
realmente proporcionar no solo conocimiento, sino algo sobre lo que poder actuar”. Afirma Eagle,
actualmente director general de Jana, que lleva a cabo encuestas en teléfonos móviles en el mundo en
desarrollo”, “Esto funciona”.
“Este es el futuro de la epidemiología. Si queremos erradicar la malaria, así es como lo vamos a hacer”.
Esta demostración sugiere cómo podría aprovecharse estos datos para construir herramientas que los
trabajadores de salud, los Gobiernos y otros agentes puedan usar para detectar y vigilar las epidemias,
gestionar desastres y optimizar sistemas de transporte. Otros esfuerzos similares están siendo dirigidos
hacia objetivos tan variados como la comprensión de los patrones de los desplazamientos por París, y la
congestión de multitudes de festivales en Bélgica. Sin embargo, la minería de registros telefónicos podría ser
particularmente útil en las regiones pobres, donde a menudo las infraestructuras de recogida de datos son
mínimas o inexistentes. “Estamos justo empezando a utilizar estos datos para estos fines”, señala Vincent
Blondel, profesor de matemáticas aplicadas en la Universidad de Lovaina en Bélgica y destacado
investigador de datos recogidos de teléfonos móviles. “La adopción exponencial de la telefonía móvil en
entornos de bajos ingresos, y la nueva disposición de algunas compañías telefónicas a ofrecer los datos, dará
lugar a nuevas herramientas tecnológicas que podrían cambiarlo todo”.
Los 6 millones de teléfonos móviles del mundo generan enormes cantidades de datos, entre ello
información de seguimiento de localización y de actividad comercial, historiales de búsqueda y enlaces en
redes sociales. Se están llevando a cabo innumerables esfuerzos para extraer estos datos de diferentes
www.hcglobalgroup.com Contacto: info@hcglobalgroup.com
Santiago-Chile, Latino América.
INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA.
HERRAMIENTAS PARA EL FUTURO CRECIMIENTO.
maneras por parte de organizaciones de investigación y empresariales de todo el mundo. Y de esos seis mil
millones de teléfonos, cinco mil millones se encuentran en países en desarrollo. Muchos de ellos son
teléfonos baratos capaces de hacer poco más que llamadas y enviar mensajes de texto. Pero toda esta
actividad puede ser rastreada en las torres de
telefonía móvil, proporcionando una forma
aproximada de hacer un seguimiento de los
movimientos de una persona. A esto hay que
añadir la difusión de la tecnología de pagos
móviles dentro del comercio simple, y como
resultado obtenemos una materia prima no solo
para conseguir conocimiento en epidemiología,
sino en tendencias de empleo, tensiones sociales,
pobreza, transporte y actividad económica.
El mapa adjunto, producto del análisis de datos de
teléfonos móviles, muestra las fuentes más
importantes de infecciones de malaria (tonos más
oscuros), teniendo en cuenta el potencial de
transmisión causado por los viajes humanos, así
como los principales destinos de las personas
expuestas a la enfermedad (tonos más claros). Se
puede utilizar para determinar dónde enfocar mejor las advertencias y las técnicas de control de mosquitos.
La perspectiva de la minería de datos de teléfonos es especialmente tentadora en los países pobres, donde
la información detallada y actualizada sobre estos asuntos ha resultado escasa hasta ahora. “En el mundo en
desarrollo, no hay un censo en funcionamiento, no se sabe dónde está el tráfico, no siempre cuentas con
infraestructura de recopilación de datos del Gobierno”, señala Alex Sandy Pentland, director del laboratorio
de Dinámica Humana del MIT, que durante mucho tiempo ha estado interesado en el conocimiento que
proporcionan los datos creados mediante el uso de teléfonos móviles. “Pero, de repente, lo único que tienes
a tu disposición, es decir, teléfonos móviles por todas partes, especialmente durante los últimos años,
puede darte el equivalente de toda esa infraestructura que ya está construida en el mundo desarrollado”.
Cuando una llamada se conecta a una estación base determinada, esa estación registra el número de
identificación del teléfono y la duración de la llamada. Con el tiempo, esta información se puede utilizar para
tener una idea de los movimientos regionales de al gente y la forma de sus redes sociales. El historial de
compras en los teléfonos también es muy valiosa: los registros de las compras agrícolas podrían ser
utilizados para predecir los suministros o la escasez de alimentos. Y los datos financieros recogidos por los
sistemas de pago móviles pueden construir un historial de crédito y ayudar a millones de personas sin
acceso a la banca a poder obtener préstamos convencionales. “Los métodos de análisis de base de datos y
www.hcglobalgroup.com Contacto: info@hcglobalgroup.com
Santiago-Chile, Latino América.
INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA.
HERRAMIENTAS PARA EL FUTURO CRECIMIENTO.
los ordenadores son muy estándar”, afirma Pentland. “Se trata de crear ciencia y buscar los patrones
correctos”. Ciertos patrones de movilidad podrían estar relacionados con la propagación de una
enfermedad, los patrones de compra podrían significar que una persona ha tenido un cambio laboral, y los
cambios de conducta o patrones de movimiento podrían relacionarse con la aparición de una enfermedad.
Una potente demostración de lo útiles que pueden ser los datos de teléfonos baratos se produjo después
del terremoto de enero de 2010 en Haití, que mató a más de 200.000 personas. Investigadores del instituto
Karolinaska de Suecia obtuvieron datos de Digicel, el mayor operador de telefonía móvil de Haití. Extrajeron
los datos de movimiento diario de dos millones de teléfonos, comenzando 42 días antes del terremoto y
hasta 158 días después, concluyendo que 630.000 personas que habían estado en Puerto Príncipe el día del
terremoto habían salido de la ciudad en un plazo de tres semanas. También demostraron que podían hacer
estos cálculos casi en tiempo real. Mostraron, 12 horas después de recibir los datos, cuántas personas
habían huido de un área afectada por un brote de cólera, y a dónde fueron.
Lo más importante es que su trabajo dio lugar a un modelo que podría servir de guía para las respuestas a
futuros destres. Después de analizar los datos sobre los hábitos de viaje antes del terremoto, el grupo sueco
encontró que los haitianos en general salieron de la ciudad para ir a los mismos lugares donde habían
pasado la Navidad y el Día de Año Nuevo. Estos resultados permiten predecir dónde irá la gente cuando
ocurra un destre.
Respecto a la “Ampliación de la Escala”, hasta hace poco, estos estudios eran realizados por investigadores
después de conseguir un acuerdo especial con las compañías para obtener los datos (Eagle los obtuvo a
través de sus conexiones académicas). Sin embargo Orange, el gigante mundial de telecomunicaciones con
sede en Francia, concedió el año pasado a la comunidad de investigación mundial datos basados en 2.500
millones de registros anónimos (sujetos a ciertas condiciones y restricciones) de cinco meses de llamadas
realizadas por cinco millones de personas en Costa de Marfil. La primera fase de este gran experimento
consiste en simplemente ver qué es posible con los datos.
Las compañías de telefonía móvil del mundo tienen una mina de oro de datos, señala Nathan Eagle,
director general de Jana, que lleva a cabo encuestas en teléfonos móviles. Sin embargo, señala que el uso
generalizado de los datos requerirá nuevos modelos de negocio y protecciones e privacidad.
Casi un centenar de grupos de investigación de todo el mundo aprovecharon la oportunidad de analizar los
registros. Estaba programado que los estudios fueran presentados en mayo en una conferencia en el MIT
bajo el nombre de Datos para el Desarrollo, que forma parte de una conferencia más grande sobre
proyectos de minería de datos tanto en el mundo pobre como rico. “Es la primera vez que un conjunto de
datos de teléfonos móviles a gran escala ha sido cedido a este nivel”, afirma Blondel, que preside la
conferencia. Los estudios no habían sido publicados formalmente en el momento de escribir este artículo.
Pero uno de ellos muestra un gráfico de las interacciones sociales y de viaje a través de una división étnica
tradicional Norte-Sur, y proporciona información sobre cómo podría evitarse el conflicto. Otro propone
www.hcglobalgroup.com Contacto: info@hcglobalgroup.com
Santiago-Chile, Latino América.
INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA.
HERRAMIENTAS PARA EL FUTURO CRECIMIENTO.
herramientas para el mapeo de la propagación de la malaria y la detección de brotes de enfermedades. Un
laboratorio de empresa ha construido un modelo de transporte a partir de datos de teléfonos móviles para
realizar un seguimiento de pasajeros en 539 autobuses, 5.000 minibuses y 11.000 taxis compartidos.
Incluso si el experimento de Costa de Marfil tiene éxito, replicarlo en otros países podría no resultar tan
sencillo. El año pasado, el Foro Económico Mundial, el grupo de figuras líder industriales, académicas y
políticas que convergen cada año en Davos, Suiza, hizo un llamamiento a los Gobiernos, organizaciones de
desarrollo y empresas para el desarrollo de herramientas de análisis de datos, que mejoren la vida de las
personas en el mundo pobre. “No debería tener que ir a los operadores y decirles les voy a hacer una
consultoría gratuita, y a cambio quiero usar vuestros datos para mejorar vidas”, asegura Eagle. “Los
operadores deberían querer estar involucrados en esto. En este momento, muchos de ellos no ven el lado
bueno, pero si podemos hacer que los líderes del mundo les animen a hacerlo, tal vez podamos conseguir
muchas cosas”.
“Podemos realmente proporcionar no solo conocimiento, sino algo sobre lo que poder actuar. Esto realmente
funciona”.
Esto requerirá un trabajo cuidadoso para proteger la privacidad y evitar que los datos se utilicen con fines
opresivos. Orange señala que se esforzó en hacer que los datos fueran anónimos, pero el campo necesita
formas claras y ampliamente aceptadas de llevar la información al mercado. “Hay riesgos y beneficios en el
hecho de vivir en sociedad basada en los datos”, señala Pentland. “Está la cuestión de quién posee los datos
y quién los controla. Te puedes imaginar lo que Muamar Gadafi habría hecho con este tipo de datos .
Orange está tratando de encontrar la forma de crear un patrimonio común de datos que logre una mayor
transparencia, responsabilidad y eficiencia, para detectar dónde se producen eventos inusuales, eventos
extremos, que nos indiquen dónde se está desmoronando la infraestructura. Podemos hacer muchas cosas
con ello, pero tiene que estar disponible.
A media que estas cuestiones se desarrollan, Buckee y Eagle están trabajando en perfeccionar y aumentar
las herramientas de minería de datos en Kenia. Eagle tiene como objetivo utilizar encuestas para refinar y
confirmar la imagen creada por los datos de minería de telefonía móvil a gran escala. El registro de llamadas
no es suficiente, afirma. Encuestar incluso simplemente a algunas personas podría permitir a los
investigadores descartar suposiciones erróneas acerca de lo que muestran los registros. Una vez, mientras
analizaba datos de teléfonos en Ruanda, Eagle observó que la gente no se había movido mucho después de
una inundación. Al principio, su teoría era que una gran cantidad de gente estaba en cama con cólera. Pero
resultó que el diluvio había borrado las carreteras.
Buckee espera extraer datos para atacar a las cepas del parásito de la malaria resistentes ante los
medicamentos. Estas cepas, que emergen en Camboya y en otros lugares, podrían invertir el progreso
contra la enfermedad si se les permite proliferar, advierte. Así que quiere empezar combinando los datos
sobre la propagación de los parásitos en modelos de movilidad para ayudar a producir estrategias para
Big Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y Futura
Big Data y la Innovación Global en Servicios Actual y Futura

Weitere ähnliche Inhalte

Was ist angesagt?

Uso y apropiación de las tic en las empresas del siglo xxi
Uso y apropiación de las tic en las empresas del siglo xxiUso y apropiación de las tic en las empresas del siglo xxi
Uso y apropiación de las tic en las empresas del siglo xxiDuvan Aguilera
 
Flisol Ciudades Inteligentes (andinux)
Flisol Ciudades Inteligentes (andinux)Flisol Ciudades Inteligentes (andinux)
Flisol Ciudades Inteligentes (andinux)Edmundo Morales
 
La educación en la era del conocimiento. Prof. Santillán Alejandra.
La educación en la era del conocimiento. Prof. Santillán Alejandra.La educación en la era del conocimiento. Prof. Santillán Alejandra.
La educación en la era del conocimiento. Prof. Santillán Alejandra.Silvia Stefanoff
 
Desarrollo tecnologico
Desarrollo tecnologicoDesarrollo tecnologico
Desarrollo tecnologicoguest46cf4e
 
Digital Transformation - Real TECH IPP (Innovatio Partnership Program)
Digital Transformation - Real TECH IPP (Innovatio Partnership Program)Digital Transformation - Real TECH IPP (Innovatio Partnership Program)
Digital Transformation - Real TECH IPP (Innovatio Partnership Program)Alejandro Escobar
 
Nuevas Empresas Para La Nueva EconomíA Slideshare
Nuevas Empresas Para La Nueva EconomíA SlideshareNuevas Empresas Para La Nueva EconomíA Slideshare
Nuevas Empresas Para La Nueva EconomíA Slidesharedavidarias
 
Trabajo en plataformas digitales Análisis y propuestas de regulación
Trabajo en plataformas digitales Análisis y propuestas de regulaciónTrabajo en plataformas digitales Análisis y propuestas de regulación
Trabajo en plataformas digitales Análisis y propuestas de regulaciónAlbert Canigueral
 
Ciudadanía y ciudades inteligentes.Modelos de negocios de las Smart Cities
Ciudadanía y ciudades inteligentes.Modelos de negocios de las Smart CitiesCiudadanía y ciudades inteligentes.Modelos de negocios de las Smart Cities
Ciudadanía y ciudades inteligentes.Modelos de negocios de las Smart CitiesFrancisco José Morcillo Balboa
 
SMART CITIES CHILE: UN CLUSTER DE NEGOCIOS INCLUSIVO por Eliel Hasson
SMART CITIES CHILE: UN CLUSTER DE NEGOCIOS INCLUSIVO por Eliel HassonSMART CITIES CHILE: UN CLUSTER DE NEGOCIOS INCLUSIVO por Eliel Hasson
SMART CITIES CHILE: UN CLUSTER DE NEGOCIOS INCLUSIVO por Eliel Hassonrnogues
 
Alfonso Molina: Science models / Innovation as a social development engine
Alfonso Molina: Science models / Innovation as a social development engineAlfonso Molina: Science models / Innovation as a social development engine
Alfonso Molina: Science models / Innovation as a social development engineFondazione Mondo Digitale
 
IMPACTO DE LA TECNOLOGIA
IMPACTO DE LA TECNOLOGIAIMPACTO DE LA TECNOLOGIA
IMPACTO DE LA TECNOLOGIAClaudia Andrade
 
Tic y nueva economia
Tic y nueva economiaTic y nueva economia
Tic y nueva economiaangeles1507
 
Inteligencia negocios dennis garcia
Inteligencia negocios dennis garciaInteligencia negocios dennis garcia
Inteligencia negocios dennis garciaDennis García
 

Was ist angesagt? (19)

Uso y apropiación de las tic en las empresas del siglo xxi
Uso y apropiación de las tic en las empresas del siglo xxiUso y apropiación de las tic en las empresas del siglo xxi
Uso y apropiación de las tic en las empresas del siglo xxi
 
Flisol Ciudades Inteligentes (andinux)
Flisol Ciudades Inteligentes (andinux)Flisol Ciudades Inteligentes (andinux)
Flisol Ciudades Inteligentes (andinux)
 
LA NUEVA ECONOMIA
LA NUEVA ECONOMIALA NUEVA ECONOMIA
LA NUEVA ECONOMIA
 
Material Sesión 5 (5/2/2009)
Material Sesión 5 (5/2/2009)Material Sesión 5 (5/2/2009)
Material Sesión 5 (5/2/2009)
 
La educación en la era del conocimiento. Prof. Santillán Alejandra.
La educación en la era del conocimiento. Prof. Santillán Alejandra.La educación en la era del conocimiento. Prof. Santillán Alejandra.
La educación en la era del conocimiento. Prof. Santillán Alejandra.
 
Desarrollo tecnologico
Desarrollo tecnologicoDesarrollo tecnologico
Desarrollo tecnologico
 
Desarrollo sustentable
Desarrollo sustentableDesarrollo sustentable
Desarrollo sustentable
 
Digital Transformation - Real TECH IPP (Innovatio Partnership Program)
Digital Transformation - Real TECH IPP (Innovatio Partnership Program)Digital Transformation - Real TECH IPP (Innovatio Partnership Program)
Digital Transformation - Real TECH IPP (Innovatio Partnership Program)
 
Nuevas Empresas Para La Nueva EconomíA Slideshare
Nuevas Empresas Para La Nueva EconomíA SlideshareNuevas Empresas Para La Nueva EconomíA Slideshare
Nuevas Empresas Para La Nueva EconomíA Slideshare
 
Trabajo en plataformas digitales Análisis y propuestas de regulación
Trabajo en plataformas digitales Análisis y propuestas de regulaciónTrabajo en plataformas digitales Análisis y propuestas de regulación
Trabajo en plataformas digitales Análisis y propuestas de regulación
 
Mercado laboral 2021 y futuro vfc
Mercado laboral 2021  y futuro vfcMercado laboral 2021  y futuro vfc
Mercado laboral 2021 y futuro vfc
 
Ciudadanía y ciudades inteligentes.Modelos de negocios de las Smart Cities
Ciudadanía y ciudades inteligentes.Modelos de negocios de las Smart CitiesCiudadanía y ciudades inteligentes.Modelos de negocios de las Smart Cities
Ciudadanía y ciudades inteligentes.Modelos de negocios de las Smart Cities
 
La Nueva Economía Articulo
La Nueva Economía ArticuloLa Nueva Economía Articulo
La Nueva Economía Articulo
 
SMART CITIES CHILE: UN CLUSTER DE NEGOCIOS INCLUSIVO por Eliel Hasson
SMART CITIES CHILE: UN CLUSTER DE NEGOCIOS INCLUSIVO por Eliel HassonSMART CITIES CHILE: UN CLUSTER DE NEGOCIOS INCLUSIVO por Eliel Hasson
SMART CITIES CHILE: UN CLUSTER DE NEGOCIOS INCLUSIVO por Eliel Hasson
 
Alfonso Molina: Science models / Innovation as a social development engine
Alfonso Molina: Science models / Innovation as a social development engineAlfonso Molina: Science models / Innovation as a social development engine
Alfonso Molina: Science models / Innovation as a social development engine
 
IMPACTO DE LA TECNOLOGIA
IMPACTO DE LA TECNOLOGIAIMPACTO DE LA TECNOLOGIA
IMPACTO DE LA TECNOLOGIA
 
Smart Cities
Smart CitiesSmart Cities
Smart Cities
 
Tic y nueva economia
Tic y nueva economiaTic y nueva economia
Tic y nueva economia
 
Inteligencia negocios dennis garcia
Inteligencia negocios dennis garciaInteligencia negocios dennis garcia
Inteligencia negocios dennis garcia
 

Andere mochten auch

Introducción a Lean Startup
Introducción a Lean StartupIntroducción a Lean Startup
Introducción a Lean StartupHCGlobal Group
 
Growth Hacking (Piratería del Crecimiento), Startup y Emprendimiento
Growth Hacking (Piratería del Crecimiento), Startup y EmprendimientoGrowth Hacking (Piratería del Crecimiento), Startup y Emprendimiento
Growth Hacking (Piratería del Crecimiento), Startup y EmprendimientoHCGlobal Group
 
Innovación Social (Social Innovation): ¿Surge sólo del Emprendimiento Social?
Innovación Social (Social Innovation): ¿Surge sólo del Emprendimiento Social?Innovación Social (Social Innovation): ¿Surge sólo del Emprendimiento Social?
Innovación Social (Social Innovation): ¿Surge sólo del Emprendimiento Social?Hugo Céspedes A.
 
Desarrollo digital para la educación universidad autónoma metropolitana
Desarrollo digital para la educación universidad autónoma metropolitanaDesarrollo digital para la educación universidad autónoma metropolitana
Desarrollo digital para la educación universidad autónoma metropolitanaFernando Santamaría
 
Plan Estrategico Takeria Ambato
Plan Estrategico Takeria AmbatoPlan Estrategico Takeria Ambato
Plan Estrategico Takeria AmbatoAlexandraPau
 
Capitulo V 5ta Clase
Capitulo V 5ta ClaseCapitulo V 5ta Clase
Capitulo V 5ta Clasealcareaga
 
TAQUERIA MEXICANA
TAQUERIA MEXICANATAQUERIA MEXICANA
TAQUERIA MEXICANAsvm88
 
Innovaciones. Ensayo Final
Innovaciones.  Ensayo FinalInnovaciones.  Ensayo Final
Innovaciones. Ensayo Finalobarreir
 
Estudio "Big Data: retos y oportunidades para el turismo"
Estudio "Big Data: retos y oportunidades para el turismo"Estudio "Big Data: retos y oportunidades para el turismo"
Estudio "Big Data: retos y oportunidades para el turismo"Invattur
 
Radiografía de un bibliotecario innovador
Radiografía de un bibliotecario innovadorRadiografía de un bibliotecario innovador
Radiografía de un bibliotecario innovadorNieves Gonzalez
 

Andere mochten auch (16)

Introducción a Lean Startup
Introducción a Lean StartupIntroducción a Lean Startup
Introducción a Lean Startup
 
Growth Hacking (Piratería del Crecimiento), Startup y Emprendimiento
Growth Hacking (Piratería del Crecimiento), Startup y EmprendimientoGrowth Hacking (Piratería del Crecimiento), Startup y Emprendimiento
Growth Hacking (Piratería del Crecimiento), Startup y Emprendimiento
 
Innovación Social (Social Innovation): ¿Surge sólo del Emprendimiento Social?
Innovación Social (Social Innovation): ¿Surge sólo del Emprendimiento Social?Innovación Social (Social Innovation): ¿Surge sólo del Emprendimiento Social?
Innovación Social (Social Innovation): ¿Surge sólo del Emprendimiento Social?
 
Desarrollo digital para la educación universidad autónoma metropolitana
Desarrollo digital para la educación universidad autónoma metropolitanaDesarrollo digital para la educación universidad autónoma metropolitana
Desarrollo digital para la educación universidad autónoma metropolitana
 
Titulos de credito
Titulos de creditoTitulos de credito
Titulos de credito
 
VY&R
VY&RVY&R
VY&R
 
Segmento de mercado
Segmento de mercadoSegmento de mercado
Segmento de mercado
 
PDP Big Data for Business 2ª edición
PDP Big Data for Business 2ª ediciónPDP Big Data for Business 2ª edición
PDP Big Data for Business 2ª edición
 
Segmentacion de mercados
Segmentacion de mercadosSegmentacion de mercados
Segmentacion de mercados
 
Plan Estrategico Takeria Ambato
Plan Estrategico Takeria AmbatoPlan Estrategico Takeria Ambato
Plan Estrategico Takeria Ambato
 
Capitulo V 5ta Clase
Capitulo V 5ta ClaseCapitulo V 5ta Clase
Capitulo V 5ta Clase
 
TAQUERIA MEXICANA
TAQUERIA MEXICANATAQUERIA MEXICANA
TAQUERIA MEXICANA
 
Segmentacion del mercado
Segmentacion del mercado Segmentacion del mercado
Segmentacion del mercado
 
Innovaciones. Ensayo Final
Innovaciones.  Ensayo FinalInnovaciones.  Ensayo Final
Innovaciones. Ensayo Final
 
Estudio "Big Data: retos y oportunidades para el turismo"
Estudio "Big Data: retos y oportunidades para el turismo"Estudio "Big Data: retos y oportunidades para el turismo"
Estudio "Big Data: retos y oportunidades para el turismo"
 
Radiografía de un bibliotecario innovador
Radiografía de un bibliotecario innovadorRadiografía de un bibliotecario innovador
Radiografía de un bibliotecario innovador
 

Ähnlich wie Big Data y la Innovación Global en Servicios Actual y Futura

La necesidad de la administracion del conocimiento del arte 01
La necesidad de la administracion del conocimiento del arte 01La necesidad de la administracion del conocimiento del arte 01
La necesidad de la administracion del conocimiento del arte 01Angelo Alejandro
 
Nuevas formas de comunicación en una escuela hiperconectada. Del Bigdata al ...
Nuevas formas de comunicación  en una escuela hiperconectada. Del Bigdata al ...Nuevas formas de comunicación  en una escuela hiperconectada. Del Bigdata al ...
Nuevas formas de comunicación en una escuela hiperconectada. Del Bigdata al ...Juan Miguel Muñoz
 
Inteligencia Social Análisis de Conversaciones (PARTE I)
Inteligencia Social Análisis de Conversaciones (PARTE I)Inteligencia Social Análisis de Conversaciones (PARTE I)
Inteligencia Social Análisis de Conversaciones (PARTE I)Antoni
 
Charla Congreso Marketing Córdoba 2009
Charla Congreso Marketing Córdoba 2009Charla Congreso Marketing Córdoba 2009
Charla Congreso Marketing Córdoba 2009Alejandro Prince
 
Gestión del conocimiento y de la tecnología en la era digital (aclog)
Gestión del conocimiento y de la tecnología en la era digital (aclog)Gestión del conocimiento y de la tecnología en la era digital (aclog)
Gestión del conocimiento y de la tecnología en la era digital (aclog)Grial - University of Salamanca
 
Tecnología y Retail "retail100" Mza. 09
Tecnología y Retail "retail100" Mza. 09Tecnología y Retail "retail100" Mza. 09
Tecnología y Retail "retail100" Mza. 09Alejandro Prince
 
Computación Cognitiva: Mejorando la experiencia del Cliente
Computación Cognitiva: Mejorando la experiencia del ClienteComputación Cognitiva: Mejorando la experiencia del Cliente
Computación Cognitiva: Mejorando la experiencia del ClienteRonald Francisco Vargas Quesada
 
Big data en el big bang del universo digital
Big data en el big bang del universo digitalBig data en el big bang del universo digital
Big data en el big bang del universo digitalAna Marcela Peña Nieto
 
Internet de las cosas. Beneficios y riesgos de las nuevas tecnologías.
Internet de las cosas. Beneficios y riesgos de las nuevas tecnologías.Internet de las cosas. Beneficios y riesgos de las nuevas tecnologías.
Internet de las cosas. Beneficios y riesgos de las nuevas tecnologías.Edmundo Diego Bonini ஃ
 
Ronald vargas big data universidad hispanoamericana v2.1
Ronald vargas big data universidad hispanoamericana  v2.1Ronald vargas big data universidad hispanoamericana  v2.1
Ronald vargas big data universidad hispanoamericana v2.1Ronald Francisco Vargas Quesada
 
la 4ta revolucion industrial
la 4ta revolucion industrial la 4ta revolucion industrial
la 4ta revolucion industrial gladysvargas22
 
Algunos retos para los profesionales de la información en la nueva economía d...
Algunos retos para los profesionales de la información en la nueva economía d...Algunos retos para los profesionales de la información en la nueva economía d...
Algunos retos para los profesionales de la información en la nueva economía d...Jose Luis Marín de la Iglesia
 
Capitalismo de plataformas (cap. 2) (1).pdf
Capitalismo de plataformas (cap. 2) (1).pdfCapitalismo de plataformas (cap. 2) (1).pdf
Capitalismo de plataformas (cap. 2) (1).pdfCamiloTovar18
 
Resumen crear o morir
Resumen crear o morirResumen crear o morir
Resumen crear o morirLuz Castillo
 
Big data el poder de los datos
Big data el poder de los datosBig data el poder de los datos
Big data el poder de los datosgcolpas
 
Importancia de la búsqueda, selección, evaluación y manejo de la información ...
Importancia de la búsqueda, selección, evaluación y manejo de la información ...Importancia de la búsqueda, selección, evaluación y manejo de la información ...
Importancia de la búsqueda, selección, evaluación y manejo de la información ...Nebaí Jiménez
 
Presentacion Sergio Melnik resumida
Presentacion Sergio Melnik resumidaPresentacion Sergio Melnik resumida
Presentacion Sergio Melnik resumidaFrancisco Aviles
 

Ähnlich wie Big Data y la Innovación Global en Servicios Actual y Futura (20)

Informe unir sobre big data y periodismo de datos
Informe unir sobre big data y periodismo de datosInforme unir sobre big data y periodismo de datos
Informe unir sobre big data y periodismo de datos
 
La necesidad de la administracion del conocimiento del arte 01
La necesidad de la administracion del conocimiento del arte 01La necesidad de la administracion del conocimiento del arte 01
La necesidad de la administracion del conocimiento del arte 01
 
Nuevas formas de comunicación en una escuela hiperconectada. Del Bigdata al ...
Nuevas formas de comunicación  en una escuela hiperconectada. Del Bigdata al ...Nuevas formas de comunicación  en una escuela hiperconectada. Del Bigdata al ...
Nuevas formas de comunicación en una escuela hiperconectada. Del Bigdata al ...
 
Inteligencia Social Análisis de Conversaciones (PARTE I)
Inteligencia Social Análisis de Conversaciones (PARTE I)Inteligencia Social Análisis de Conversaciones (PARTE I)
Inteligencia Social Análisis de Conversaciones (PARTE I)
 
Charla Congreso Marketing Córdoba 2009
Charla Congreso Marketing Córdoba 2009Charla Congreso Marketing Córdoba 2009
Charla Congreso Marketing Córdoba 2009
 
La forma de las cosas que vendrán m1
La forma de las cosas que vendrán m1La forma de las cosas que vendrán m1
La forma de las cosas que vendrán m1
 
Gestión del conocimiento y de la tecnología en la era digital (aclog)
Gestión del conocimiento y de la tecnología en la era digital (aclog)Gestión del conocimiento y de la tecnología en la era digital (aclog)
Gestión del conocimiento y de la tecnología en la era digital (aclog)
 
Catedra Unesco
Catedra UnescoCatedra Unesco
Catedra Unesco
 
Tecnología y Retail "retail100" Mza. 09
Tecnología y Retail "retail100" Mza. 09Tecnología y Retail "retail100" Mza. 09
Tecnología y Retail "retail100" Mza. 09
 
Computación Cognitiva: Mejorando la experiencia del Cliente
Computación Cognitiva: Mejorando la experiencia del ClienteComputación Cognitiva: Mejorando la experiencia del Cliente
Computación Cognitiva: Mejorando la experiencia del Cliente
 
Big data en el big bang del universo digital
Big data en el big bang del universo digitalBig data en el big bang del universo digital
Big data en el big bang del universo digital
 
Internet de las cosas. Beneficios y riesgos de las nuevas tecnologías.
Internet de las cosas. Beneficios y riesgos de las nuevas tecnologías.Internet de las cosas. Beneficios y riesgos de las nuevas tecnologías.
Internet de las cosas. Beneficios y riesgos de las nuevas tecnologías.
 
Ronald vargas big data universidad hispanoamericana v2.1
Ronald vargas big data universidad hispanoamericana  v2.1Ronald vargas big data universidad hispanoamericana  v2.1
Ronald vargas big data universidad hispanoamericana v2.1
 
la 4ta revolucion industrial
la 4ta revolucion industrial la 4ta revolucion industrial
la 4ta revolucion industrial
 
Algunos retos para los profesionales de la información en la nueva economía d...
Algunos retos para los profesionales de la información en la nueva economía d...Algunos retos para los profesionales de la información en la nueva economía d...
Algunos retos para los profesionales de la información en la nueva economía d...
 
Capitalismo de plataformas (cap. 2) (1).pdf
Capitalismo de plataformas (cap. 2) (1).pdfCapitalismo de plataformas (cap. 2) (1).pdf
Capitalismo de plataformas (cap. 2) (1).pdf
 
Resumen crear o morir
Resumen crear o morirResumen crear o morir
Resumen crear o morir
 
Big data el poder de los datos
Big data el poder de los datosBig data el poder de los datos
Big data el poder de los datos
 
Importancia de la búsqueda, selección, evaluación y manejo de la información ...
Importancia de la búsqueda, selección, evaluación y manejo de la información ...Importancia de la búsqueda, selección, evaluación y manejo de la información ...
Importancia de la búsqueda, selección, evaluación y manejo de la información ...
 
Presentacion Sergio Melnik resumida
Presentacion Sergio Melnik resumidaPresentacion Sergio Melnik resumida
Presentacion Sergio Melnik resumida
 

Mehr von HCGlobal Group

Blue Ocean Strategy: Estrategia de Innovación en Valor para emprendedores que...
Blue Ocean Strategy: Estrategia de Innovación en Valor para emprendedores que...Blue Ocean Strategy: Estrategia de Innovación en Valor para emprendedores que...
Blue Ocean Strategy: Estrategia de Innovación en Valor para emprendedores que...HCGlobal Group
 
Smart Cities: La Innovación Social, Tecnológica, Urbana y Económica para el F...
Smart Cities: La Innovación Social, Tecnológica, Urbana y Económica para el F...Smart Cities: La Innovación Social, Tecnológica, Urbana y Económica para el F...
Smart Cities: La Innovación Social, Tecnológica, Urbana y Económica para el F...HCGlobal Group
 
Modelos de Negocios (Business Model): El Arte de la Creatividad y Ejecución p...
Modelos de Negocios (Business Model): El Arte de la Creatividad y Ejecución p...Modelos de Negocios (Business Model): El Arte de la Creatividad y Ejecución p...
Modelos de Negocios (Business Model): El Arte de la Creatividad y Ejecución p...HCGlobal Group
 
Innovación Social (Social Innovation): ¿Surge sólo del Emprendimiento Social?
Innovación Social (Social Innovation): ¿Surge sólo del Emprendimiento Social? Innovación Social (Social Innovation): ¿Surge sólo del Emprendimiento Social?
Innovación Social (Social Innovation): ¿Surge sólo del Emprendimiento Social? HCGlobal Group
 
Innovación Abierta (Open Innovation): ¿Estamos preparados?
Innovación Abierta (Open Innovation): ¿Estamos preparados?Innovación Abierta (Open Innovation): ¿Estamos preparados?
Innovación Abierta (Open Innovation): ¿Estamos preparados?HCGlobal Group
 
Levantamiento de Capital con Venture Capital para Emprendimientos
Levantamiento de Capital con Venture Capital para EmprendimientosLevantamiento de Capital con Venture Capital para Emprendimientos
Levantamiento de Capital con Venture Capital para EmprendimientosHCGlobal Group
 
Crowdsourcing y la Innovación
Crowdsourcing y la InnovaciónCrowdsourcing y la Innovación
Crowdsourcing y la InnovaciónHCGlobal Group
 
Crowdfunding para Emprendimientos
Crowdfunding para EmprendimientosCrowdfunding para Emprendimientos
Crowdfunding para EmprendimientosHCGlobal Group
 
Redes Sociales y los Nuevos Paradigmas creados
Redes Sociales y los Nuevos Paradigmas creadosRedes Sociales y los Nuevos Paradigmas creados
Redes Sociales y los Nuevos Paradigmas creadosHCGlobal Group
 
HCGlobal Group Servicios de Asesoría
HCGlobal Group Servicios de AsesoríaHCGlobal Group Servicios de Asesoría
HCGlobal Group Servicios de AsesoríaHCGlobal Group
 
Emprendimiento, Creación de Nuevas Empresas en Chile
Emprendimiento, Creación de Nuevas Empresas en ChileEmprendimiento, Creación de Nuevas Empresas en Chile
Emprendimiento, Creación de Nuevas Empresas en ChileHCGlobal Group
 
Innovando en Indices Bursátiles
Innovando en Indices BursátilesInnovando en Indices Bursátiles
Innovando en Indices BursátilesHCGlobal Group
 
Design Thinking y la Innovación
Design Thinking y la InnovaciónDesign Thinking y la Innovación
Design Thinking y la InnovaciónHCGlobal Group
 
Cómo ser más Creativo y no desviarse del camino hacia la Innovación.
Cómo ser más Creativo y no desviarse del camino hacia la Innovación.Cómo ser más Creativo y no desviarse del camino hacia la Innovación.
Cómo ser más Creativo y no desviarse del camino hacia la Innovación.HCGlobal Group
 
Creatividad e Innovación: Cómo romper Paradigmas
Creatividad e Innovación: Cómo romper ParadigmasCreatividad e Innovación: Cómo romper Paradigmas
Creatividad e Innovación: Cómo romper ParadigmasHCGlobal Group
 
Cloud Computing (modelo de negocios de la nube)
Cloud Computing (modelo de negocios de la nube)Cloud Computing (modelo de negocios de la nube)
Cloud Computing (modelo de negocios de la nube)HCGlobal Group
 
Sociedad del Conocimiento
Sociedad del ConocimientoSociedad del Conocimiento
Sociedad del ConocimientoHCGlobal Group
 
Inteligencia de Negocios (Business Intelligence)
Inteligencia de Negocios (Business Intelligence)Inteligencia de Negocios (Business Intelligence)
Inteligencia de Negocios (Business Intelligence)HCGlobal Group
 
Tv digital versus Tv Ip ¿Cuál se transformará en una verdadera Innovación?
Tv digital versus Tv Ip ¿Cuál se transformará en una verdadera Innovación?Tv digital versus Tv Ip ¿Cuál se transformará en una verdadera Innovación?
Tv digital versus Tv Ip ¿Cuál se transformará en una verdadera Innovación?HCGlobal Group
 
Algunos hablan del dilema de la innovación, ¿verdaderamente existe?
Algunos hablan del dilema de la innovación, ¿verdaderamente existe?Algunos hablan del dilema de la innovación, ¿verdaderamente existe?
Algunos hablan del dilema de la innovación, ¿verdaderamente existe?HCGlobal Group
 

Mehr von HCGlobal Group (20)

Blue Ocean Strategy: Estrategia de Innovación en Valor para emprendedores que...
Blue Ocean Strategy: Estrategia de Innovación en Valor para emprendedores que...Blue Ocean Strategy: Estrategia de Innovación en Valor para emprendedores que...
Blue Ocean Strategy: Estrategia de Innovación en Valor para emprendedores que...
 
Smart Cities: La Innovación Social, Tecnológica, Urbana y Económica para el F...
Smart Cities: La Innovación Social, Tecnológica, Urbana y Económica para el F...Smart Cities: La Innovación Social, Tecnológica, Urbana y Económica para el F...
Smart Cities: La Innovación Social, Tecnológica, Urbana y Económica para el F...
 
Modelos de Negocios (Business Model): El Arte de la Creatividad y Ejecución p...
Modelos de Negocios (Business Model): El Arte de la Creatividad y Ejecución p...Modelos de Negocios (Business Model): El Arte de la Creatividad y Ejecución p...
Modelos de Negocios (Business Model): El Arte de la Creatividad y Ejecución p...
 
Innovación Social (Social Innovation): ¿Surge sólo del Emprendimiento Social?
Innovación Social (Social Innovation): ¿Surge sólo del Emprendimiento Social? Innovación Social (Social Innovation): ¿Surge sólo del Emprendimiento Social?
Innovación Social (Social Innovation): ¿Surge sólo del Emprendimiento Social?
 
Innovación Abierta (Open Innovation): ¿Estamos preparados?
Innovación Abierta (Open Innovation): ¿Estamos preparados?Innovación Abierta (Open Innovation): ¿Estamos preparados?
Innovación Abierta (Open Innovation): ¿Estamos preparados?
 
Levantamiento de Capital con Venture Capital para Emprendimientos
Levantamiento de Capital con Venture Capital para EmprendimientosLevantamiento de Capital con Venture Capital para Emprendimientos
Levantamiento de Capital con Venture Capital para Emprendimientos
 
Crowdsourcing y la Innovación
Crowdsourcing y la InnovaciónCrowdsourcing y la Innovación
Crowdsourcing y la Innovación
 
Crowdfunding para Emprendimientos
Crowdfunding para EmprendimientosCrowdfunding para Emprendimientos
Crowdfunding para Emprendimientos
 
Redes Sociales y los Nuevos Paradigmas creados
Redes Sociales y los Nuevos Paradigmas creadosRedes Sociales y los Nuevos Paradigmas creados
Redes Sociales y los Nuevos Paradigmas creados
 
HCGlobal Group Servicios de Asesoría
HCGlobal Group Servicios de AsesoríaHCGlobal Group Servicios de Asesoría
HCGlobal Group Servicios de Asesoría
 
Emprendimiento, Creación de Nuevas Empresas en Chile
Emprendimiento, Creación de Nuevas Empresas en ChileEmprendimiento, Creación de Nuevas Empresas en Chile
Emprendimiento, Creación de Nuevas Empresas en Chile
 
Innovando en Indices Bursátiles
Innovando en Indices BursátilesInnovando en Indices Bursátiles
Innovando en Indices Bursátiles
 
Design Thinking y la Innovación
Design Thinking y la InnovaciónDesign Thinking y la Innovación
Design Thinking y la Innovación
 
Cómo ser más Creativo y no desviarse del camino hacia la Innovación.
Cómo ser más Creativo y no desviarse del camino hacia la Innovación.Cómo ser más Creativo y no desviarse del camino hacia la Innovación.
Cómo ser más Creativo y no desviarse del camino hacia la Innovación.
 
Creatividad e Innovación: Cómo romper Paradigmas
Creatividad e Innovación: Cómo romper ParadigmasCreatividad e Innovación: Cómo romper Paradigmas
Creatividad e Innovación: Cómo romper Paradigmas
 
Cloud Computing (modelo de negocios de la nube)
Cloud Computing (modelo de negocios de la nube)Cloud Computing (modelo de negocios de la nube)
Cloud Computing (modelo de negocios de la nube)
 
Sociedad del Conocimiento
Sociedad del ConocimientoSociedad del Conocimiento
Sociedad del Conocimiento
 
Inteligencia de Negocios (Business Intelligence)
Inteligencia de Negocios (Business Intelligence)Inteligencia de Negocios (Business Intelligence)
Inteligencia de Negocios (Business Intelligence)
 
Tv digital versus Tv Ip ¿Cuál se transformará en una verdadera Innovación?
Tv digital versus Tv Ip ¿Cuál se transformará en una verdadera Innovación?Tv digital versus Tv Ip ¿Cuál se transformará en una verdadera Innovación?
Tv digital versus Tv Ip ¿Cuál se transformará en una verdadera Innovación?
 
Algunos hablan del dilema de la innovación, ¿verdaderamente existe?
Algunos hablan del dilema de la innovación, ¿verdaderamente existe?Algunos hablan del dilema de la innovación, ¿verdaderamente existe?
Algunos hablan del dilema de la innovación, ¿verdaderamente existe?
 

Kürzlich hochgeladen

Los Microcontroladores PIC, Aplicaciones
Los Microcontroladores PIC, AplicacionesLos Microcontroladores PIC, Aplicaciones
Los Microcontroladores PIC, AplicacionesEdomar AR
 
CommitConf 2024 - Spring Boot <3 Testcontainers
CommitConf 2024 - Spring Boot <3 TestcontainersCommitConf 2024 - Spring Boot <3 Testcontainers
CommitConf 2024 - Spring Boot <3 TestcontainersIván López Martín
 
Herramientas que posibilitan la información y la investigación.pdf
Herramientas que posibilitan la información y la investigación.pdfHerramientas que posibilitan la información y la investigación.pdf
Herramientas que posibilitan la información y la investigación.pdfKarinaCambero3
 
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxLAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxAlexander López
 
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfLa Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfjeondanny1997
 
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).pptLUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).pptchaverriemily794
 
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPOAREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPOnarvaezisabella21
 
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptx
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptxModelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptx
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptxtjcesar1
 
GonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptxGonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptx241523733
 
Tecnologias Starlink para el mundo tec.pptx
Tecnologias Starlink para el mundo tec.pptxTecnologias Starlink para el mundo tec.pptx
Tecnologias Starlink para el mundo tec.pptxGESTECPERUSAC
 
FloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptxFloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptx241522327
 
Análisis de Artefactos Tecnologicos (3) (1).pdf
Análisis de Artefactos Tecnologicos  (3) (1).pdfAnálisis de Artefactos Tecnologicos  (3) (1).pdf
Análisis de Artefactos Tecnologicos (3) (1).pdfsharitcalderon04
 
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxEl_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxAlexander López
 
Documentacion Electrónica en Actos Juridicos
Documentacion Electrónica en Actos JuridicosDocumentacion Electrónica en Actos Juridicos
Documentacion Electrónica en Actos JuridicosAlbanyMartinez7
 
Trabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdfTrabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdfedepmariaperez
 
tarea de exposicion de senati zzzzzzzzzz
tarea de exposicion de senati zzzzzzzzzztarea de exposicion de senati zzzzzzzzzz
tarea de exposicion de senati zzzzzzzzzzAlexandergo5
 
Presentación sobre la Inteligencia Artificial
Presentación sobre la Inteligencia ArtificialPresentación sobre la Inteligencia Artificial
Presentación sobre la Inteligencia Artificialcynserafini89
 
TALLER DE ANALISIS SOLUCION PART 2 (1)-1.docx
TALLER DE ANALISIS SOLUCION  PART 2 (1)-1.docxTALLER DE ANALISIS SOLUCION  PART 2 (1)-1.docx
TALLER DE ANALISIS SOLUCION PART 2 (1)-1.docxobandopaula444
 
Slideshare y Scribd - Noli Cubillan Gerencia
Slideshare y Scribd - Noli Cubillan GerenciaSlideshare y Scribd - Noli Cubillan Gerencia
Slideshare y Scribd - Noli Cubillan Gerenciacubillannoly
 

Kürzlich hochgeladen (20)

Los Microcontroladores PIC, Aplicaciones
Los Microcontroladores PIC, AplicacionesLos Microcontroladores PIC, Aplicaciones
Los Microcontroladores PIC, Aplicaciones
 
CommitConf 2024 - Spring Boot <3 Testcontainers
CommitConf 2024 - Spring Boot <3 TestcontainersCommitConf 2024 - Spring Boot <3 Testcontainers
CommitConf 2024 - Spring Boot <3 Testcontainers
 
Herramientas que posibilitan la información y la investigación.pdf
Herramientas que posibilitan la información y la investigación.pdfHerramientas que posibilitan la información y la investigación.pdf
Herramientas que posibilitan la información y la investigación.pdf
 
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxLAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
 
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfLa Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
 
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).pptLUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
 
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPOAREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
 
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptx
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptxModelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptx
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptx
 
GonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptxGonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptx
 
Tecnologias Starlink para el mundo tec.pptx
Tecnologias Starlink para el mundo tec.pptxTecnologias Starlink para el mundo tec.pptx
Tecnologias Starlink para el mundo tec.pptx
 
FloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptxFloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptx
 
Análisis de Artefactos Tecnologicos (3) (1).pdf
Análisis de Artefactos Tecnologicos  (3) (1).pdfAnálisis de Artefactos Tecnologicos  (3) (1).pdf
Análisis de Artefactos Tecnologicos (3) (1).pdf
 
El camino a convertirse en Microsoft MVP
El camino a convertirse en Microsoft MVPEl camino a convertirse en Microsoft MVP
El camino a convertirse en Microsoft MVP
 
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxEl_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
 
Documentacion Electrónica en Actos Juridicos
Documentacion Electrónica en Actos JuridicosDocumentacion Electrónica en Actos Juridicos
Documentacion Electrónica en Actos Juridicos
 
Trabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdfTrabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdf
 
tarea de exposicion de senati zzzzzzzzzz
tarea de exposicion de senati zzzzzzzzzztarea de exposicion de senati zzzzzzzzzz
tarea de exposicion de senati zzzzzzzzzz
 
Presentación sobre la Inteligencia Artificial
Presentación sobre la Inteligencia ArtificialPresentación sobre la Inteligencia Artificial
Presentación sobre la Inteligencia Artificial
 
TALLER DE ANALISIS SOLUCION PART 2 (1)-1.docx
TALLER DE ANALISIS SOLUCION  PART 2 (1)-1.docxTALLER DE ANALISIS SOLUCION  PART 2 (1)-1.docx
TALLER DE ANALISIS SOLUCION PART 2 (1)-1.docx
 
Slideshare y Scribd - Noli Cubillan Gerencia
Slideshare y Scribd - Noli Cubillan GerenciaSlideshare y Scribd - Noli Cubillan Gerencia
Slideshare y Scribd - Noli Cubillan Gerencia
 

Big Data y la Innovación Global en Servicios Actual y Futura

  • 1. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO. 22-08-2013 HUGO CÉSPEDES A. Big Data y la Innovación Global en Servicios Actual y Futura La Innovación Tecnológica siempre nos sorprende con su rapidez y beneficios, así como la influencia que ejerce en nuestro diario vivir actual y futuro. Pero específicamente ¿qué es Big Data? ¿por qué tanta relevancia hoy en día con esta revolución tecnológica? ¿en qué podemos observar sus aplicaciones y beneficios inmediatos? ¿cómo nos beneficia actualmente? ¿Qué nos depara el futuro del Big Data? Estos y otros puntos, son abordados en el presente artículo. Technology
  • 2. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO. INDICE TEMÁTICO Introducción y Evolución Histórica del Concepto. Definición del BIG DATA. - El Mundo Académico y el Big Data. - Tipo de Información que trata el Big Data (Internet y Social Media, M2M, Grandes Transacciones, Generado por Humanos, entre otros. Arquitectura del Big Data. - Haddop (Hoddop Distributed File System, Hadoop MapReduce, Haddop Common). - Avro, Cassandra, Chukwa, Flume, HBase, Hive, Jaql, Lucense, Oozie, Pig, Zookepper). Big Data y la Innovación Global de Servicios (Actual y Futura). - Aplicaciones del Big Data Actualmente. - Ciencias Sociales Computacionales. - Gobierno. - Sector Privado. - Desarrollo Internacional. - Caso Big Data y el Comportamiento de las Personas. - La Utilidad del Big Data en e-Commerce (El Big Data transforma Negocios, La Cara del Big Data, Big Data en tesoros Históricos, Sistemas de Evaluación de Riesgo, Desarrollo de Programación Externa y Co-Diseño con Clientes). - Caso del Big Data en el Sector Salud (Desbloqueo del Valor oculto de los Datos). - Caso Big Data en la Industria de Entretención de Juegos (Telemetría Enriquecida). - Caso Big Data y sus Aplicaciones en el Deporte. - Caso Big Data en la Educación. - Big Data y el Caso “Prism y Boundless Informant” para Espionaje por parte de Estados Unidos y otras Naciones. - Caso Big Data y las Smart Cities. - 5 Proyectos Big Data que pueden impactar tu vida. - Cómo se Comportan los Clientes: Utilizando Datos para Conducir la Innovación, Desarrollo & Estrategia Digital. - Big Data y el Futuro. - Conclusiones y Palabras al Cierre.
  • 3. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO. Big Data y la Innovación Global en Servicios Actual y Futura La Innovación Tecnológica siempre nos sorprende con su rapidez y beneficios, así como la influencia que ejerce en nuestro diario vivir, actual y futuro. Pero específicamente ¿Qué se entiende por Big Data? ¿Por qué tanta relevancia hoy en día con esta revolución tecnológica? ¿En qué áreas podemos observar sus aplicaciones y beneficios inmediatos? ¿Cómo nos beneficia actualmente? ¿Qué nos depara el futuro del Big Data? Esto y otros aspectos son los que nos aprontamos a abordar a continuación. INTRODUCCIÓN Y EVOLUCIÓN HISTÓRICA DEL CONCEPTO.- Hablar de los orígenes del “Big Data” es complicado y relativo, dependiendo del punto de vista desde el cual se borden. Sin embargo, si lo vemos desde un punto de vista macro e histórico, es más fácil su dilucidación sus efectos en los Servicios a nivel global, tema del cual habíamos hablado anteriormente 1 . Los orígenes del Big Data comienza muchos años antes del “rumor mismo del Big Data”. Ya hace setenta años, tal como lo sostiene Gil Press 2 , nos encontramos con los primeros intentos de cuantificar la tasa de crecimiento del volumen de datos o lo que se conoce como “la explosión de la información” (término utilizado por primera vez en 1941, Diccionario Oxford, en inglés). A continuación, presentamos los principales hitos en la historia del dimensionamiento de los grandes volúmenes de datos, así como las primeras ideas sobre el Big Data y las observaciones relativas a los datos o explosión de la información. 1944, Fremont Rider, bibliotecario de al Universidad de Wesleyan, publica “The Scholar and the Future on the Research Library”, donde estima que las bibliotecas universitarias americanas duplicarán su tamaño cada 16 años. Dada esta tasa de crecimiento, especula que la biblioteca de Yale en 2040 tendrá aproximadamente 200 millones de volúmenes, que ocuparán más de 6.000 kilómetros de estanterías, lo cual requerirá personal de catalogación de estanterías del orden de 6.000 personas. 1961, Derek Price publica “Science Since Babylon”, en donde traza el crecimiento de los conocimientos científicos al ver el crecimiento en el número de publicaciones y trabajos científicos. Llega a la conclusión de que “el número de nuevas revistas ha crecido de manera exponencial y no lineal, duplicándose cada 15 años, multiplicándose su crecimiento por un factor de 10 cada medio siglo”. Price denomina a esto “Ley de crecimiento Exponencial”, explicando que “cada avance genera nuevos avances a una tasa de crecimiento 1 HCGlobal Group, Hugo Céspedes A., “Service Design y la Nueva Economía Global de Servicios”, http://www.hcglobalgroup.com/HCGlobal%20Group/service_design_y_la_nueva_econom.htm 2 Forbes, Gil Press, “A Very Short History of Big Data”, 09/05/2013, http://www.forbes.com/sites/gilpress/2013/05/09/a- very-short-history-of-big-data/
  • 4. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO. constante razonable, por lo que el número de generación de nuevo conocimiento es estrictamente proporcional al tamaño d la población de los descubrimientos en cualquier momento dado”. 1967, B.A. Marron y P.A.D. de Maine publican “Automatic Data Compression”, en The Communication of the ACM, afirmando que “la explosión de la información de los últimos años hace que sea esencial que los requerimientos de almacenamiento de toda la información se reduzca al mínimo”. El documento describe “un compresor de tres partes totalmente automático y rápido para reducir en gran medida los requisitos de almacenamientos externos lentos, y poder aumentar la tasa de transmisión de información a través de un ordenador. 1971, Arthur Miller escribió “The Assault on Privacy”, donde habla sobre el tema de que existen demasiadas manipulaciones sobre la información en el afán de medir a un hombre por el número de bits de capacidad de almacenamiento que su expediente ocuparía. 1975, El Ministerio de Correos y Telecomunicaciones de Japón comienza la realización del Censo de Flujo de Información, que busca llevar a cabo el seguimiento del volumen de información que circula por Japón (idea sugerida por primera vez en un documento en 1969). El Censo presenta “las cantidades de palabras” como unidad de medida para la unificación en todos los medios. El Censo de 1975 ya considera que la oferta de información está aumentando mucho más rápido que el consumo de información, y en 1978 se informa que “la demanda de información proporcionada por los medios de comunicación se ha estancado, y la demanda de información proporcionada por el personal de medios de telecomunicación (caracterizada por comunicaciones de dos vías) se ha incrementado drásticamente… Nuestra sociedad se está moviendo hacia una nueva etapa en el que se coloca más prioridad en la Información Segmentada, más detallada para satisfacer las necesidades individuales, en lugar de Información Convencional Masificada. 1980, A. Tjomsland dicta una charla titulada “¿Hacia dónde vamos desde aquí?” en el Fourth IEEE Symposium on Mass Storage Systems, donde sostiene que “aquellos que están asociados con dispositivos de almacenamiento, ya hace tiempo se han dado cuenta de que la primera Ley de Parkinson puede ser parafraseada para describir a la industria. Los datos se expanden para llenar el espacio disponible.. Creo que se retienen grandes cantidades de datos, ya que los usuarios no tienen forma de identificación de datos obsoletos, por lo que las sanciones al almacenamiento de datos obsoletos son menos datos potencialmente útiles”. 1981, La Oficina Central de Estadísticas de Hungría inicia un proyecto de investigación para dar cuenta de la información de las industria por país, incluida la medición del volumen de información en bits. La investigación continúa hasta nuestros días. En 1993, Istán Dienes, científico jefe de la Oficina Central de Estadística de Hungría, compila un manual para un Sistema Estándar de las Cuentas Nacionales de Información.
  • 5. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO. 1983, Ithiel de Sola Pool, publica “Tracking the Flow of Information”, en Science. En base e las tendencias de crecimiento en 17 importantes medios de comunicación desde 1960 a 1977, concluye que “las palabras a disposición de los estadounidenses (mayores de 10 años) a través de los medios de comunicación, crecieron a un ritmo de 8,9 por ciento al año, es decir, en efecto se generan a partir de los medios de comunicación en apenas 2,9% por año. En el período de observación, gran parte del crecimiento en el flujo de información se debió al crecimiento en la radiodifusión. Pero hacia el final de ese período (1977), la situación cambió: los medios de comunicación e punto a punto estaban creciendo más rápido que la radiodifusión”. Pool ,Inose, Takasaki y Hurwitz siguen en 1984 con “Communications Flows: A Cencus in the United States”, un libro donde comparan los volúmenes de información que se producen en Estados Unidos y Japón. 1986, Hal B. Becker publica “Can Users Really Absobr Data at Today´s Rates and Tomorrow´s Rates? In Data Communications”. Becker estima que “la densidad de recodificación lograda por Gutenberg fue aproximadamente de 500 símbolos (caracteres) por pulgada cúbica. 500 veces la densidad de las tablillas de arcilla (4.000 A.C. en Sumeria). Para el año 2000, la memoria de acceso aleatorio de los semiconductores debería albergar 1,25 x 10^11 bytes por centímetro cúbico”. 1996, el Almacenamiento Digital se vuelve más rentable para el Almacenamiento de Datos en Papel, de acuerdo a R.J.T. Morris y B.J. Trukowski, en “The Evolution of Storage Systems”, IBM Systems Journal, Julio 1, 2003. 1997, Michael Cox and David Ellsworth publican “Application controlled demand paging for out of core visualization” en las Actas de la 8º Conferencia IEEE sobre Visualización. Comienzan el artículo con el hecho de que la Visualización ofrece un interesante desafío para los sistemas informáticos: los conjuntos de datos son generalmente bastante grandes, gravado en la capacidad de memoria principal, discos locales y discos remotos. Llamaron a esto el “Problem of Big Data”. Cuando los conjuntos de datos no caben en la memoria principal (en el núcleo), o cuando no caben incluso en un disco local, la solución más común es adquirir más recursos. Es el primer artículo de la biblioteca digital de ACM en utilizar el término “Big Data”. 1997, Michael Lesk publica “How much information is there in the world?”. Lesk concluye que “puede haber unos pocos miles de petabytes de información contenidos; y la producción de cintas y discos enriquecerán este nivel para el año 2000”. Así que en sólo unos pocos años: a) Seremos capaces de guardar todo (sin dejar fuera información alguna, b) la típica pieza de información no podrá ser bloqueada por el ser humano nunca. 1998, John R. Masey, Jefe Científico de SGI, presenta en una reunión USENIX un artículo titulado “Big Data and the Next Wave of Infrastress”. 1998, K.G. Coffman y Andrew Odlysko publican “The Size and Growth Rate of the Internet”. Llegan a la conclusión de que la tasa de crecimiento del tráfico en la Internet Pública , mientras más baja es a menudo citada, sigue siendo alrededor de 100% por año, muy superior al tráfico en otras redes. Por lo tanto, si las
  • 6. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO. tendencias de crecimiento actuales continúan, el tráfico de datos en los Estados Unidos superará el tráfico de voz hacia el año 2002 y será dominado por la Internet. “Odlyzko luego establece los estudios de tráfico de Internet de Minnesota (MINTS), haciendo un seguimiento del crecimiento del tráfico en Internet desde 2002 a 2009. 1999, Steve Bryson, David Kenwright, Michael Cox, David Ellsworth y Robert Haimes publican “Visually Exploring Gigabytes data sets in real times”, en Communications of the ACM. Es el primer artículo de la CACM en utilizar el término “Big Data”. El artículo comienza con la siguiente declaración: “ordenadores muy potentes son una bendición para muchos campos de la investigación. También son una maldición, cálculos rápidos arrojan grandes cantidades de datos. Cuando los conjuntos de datos en megabytes alguna vez fueron considerados grandes, ahora nos encontramos con conjuntos de datos de simulaciones individuales en el rango de 300 Gigabytes. Pero la compresión de datos resultantes de los cálculos de alta gama debe ser considerada u esfuerzo significativo. Como más de un científico ha dicho, es simplemente difícil ver todos los números. Como Richard W. Hamming (matemático y pionero informático) señaló: “El propósito de la computación es una visión, no números”. 1999, Bryson, Kenwright y Haimes junto a David Banks, Robert van Liere y Sam Uselton discuten en un panel titulado Automation or Interaction: What´s best for Big Data?”, en la conferencia IEEE de 1999 sobre Visualización. 2000, Peter Lyman y Hal R. Varian en la UC Berkeley publican “How much information?” Es el primer estudio exhaustivo para cuantificar, en términos de almacenamiento informático, el importe total de la nueva Información original (sin contar copias) creado en el mundo anualmente y almacenado en soportes físicos (papel, película, ópticos –CD o DVD- y de manera magnética). El estudio revela que en 1999, el mundo produjo alrededor de 1,5 exabytes de información única, o alrededor de 250 megabytes por cada hombre, mujer y niño en la Tierra. También considera que “se crea una gran cantidad de información única y almacenada por los individuos (denominado Democratización del a Información), y que no sólo es la producción de información digital más grande en su totalidad, es también el más rápido crecimiento acontecido (a lo cual denominan “Dominio de la tecnología Digital”). Lyman y Varian sostienen que “aún hoy en día, la mayoría de la información textual nace de los digital, y dentro de unos años esto será cierto para las imágenes también. Un estudio similar realizado en 2003 por los mismos investigadores, encontraron que en el mundo se produjo alrededor de 5 exabytes de información nueva en el 2002 y que el 92% de la nueva información se almacenó en medios magnéticos, sobre todo en discos duros. 2000, Francis X. Diebold presenta en el VIII Congreso Mundial de la Sociedad Econométrica, un artículo titulado “Modelos de Big Data Dynamic Factor Model for Macroeconomic Measurement and Forecasting”, en el que señala que recientemente , en la ciencia, tanto físicos, biólogos o sociólogos, se han visto obligados a afrontar el Big Data (beneficiándose de él). Grandes volúmenes de datos se refieren a la explosión en la cantidad (y a veces calidad) de los datos disponibles y potencialmente pertinentes, en gran
  • 7. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO. parte de los resultados de avances recientes (y sin precedentes) en el registro de datos y la tecnología de almacenamiento”. 2001, Doug Laney, analista de Meta Group, publica una nota de investigación titulada “3D Data Management: Controlling Data Volume, Velocity and Cariety”. Una década más tarde, el “3Vs” se han convertido en las tres dimensiones generalmente aceptadas que definen al Big Data, aunque la palabra no aparece en la nota de Laney. 2005, Tim O´Reilly publica “What is Web 2.0”, en la que afirma que “los datos son el siguiente remake de Intel en su interior. Como Hal Varian comentó en una conversación personal: “SQL es el nuevo HTML. La gestión de base de datos es una competencia básica de las compañías web 2.0, ya que hemos hecho referencia a estas aplicaciones como limitaciones de infoware en lugar de limitarse al software. 2007, John F. Gantz, David Reinsel y otros investigadores del IDC, lanzan un libro blanco titulado “The Expanding Digital Universe: A Forecast of Worldwide Information Growth trough 2010”. Es el primer estudio para estimar y pronosticar la cantidad de datos digitales creados y replicados cada año. El IDC estima que en 2006, el mundo creo 161 exabytes de datos y las previsión entre 2006 y 2010 para la información añadida anualmente al universo digital se incrementará más de 6 veces a 988 exabytes, o se duplicará cada 18 meses. De acuerdo con las deliberaciones del mismo estudio de 2010 y 2012, la cantidad de información digital creada anualmente superó esta previsión, alcanzando 1.227 exabytes en 2010, y cada vez mayor a 2.837 exabytes en 2012. 2008, Bret Swanson y George Gilder publican Estimating the Exaflood”, en la que proyectan que el tráfico IP de Estados Unidos podría alcanzar un zetabyte el año 2015, y que la Internet en Estados Unidos será de por lo menos 50 veces mayor que en 2006. 2008, Cisco lanza “Cisco Visual Networking Index –Forecast and Methodology 2007 – 2012”. Esta iniciativa en curso puede seguir y predecir el impacto de las aplicaciones de redes visuales, donde parte del informe predice que “el tráfico IP casi se duplicará cada 2 años hasta 2012”, y que llegará a la mitad de un zetabyte en 2012. El pronóstico llevado a cabo, así como el último informe de Cisco (30 de mayo de 2012), estima que el tráfico IP en 2012 llegará a poco más de medio zetabytes, y señala que se ha multiplicado por 8 en los últimos 5 años. 2008, Un número especial de Nature of Big Data examina lo que los conjuntos de Big Data significan para la ciencia contemporánea. 2008, Randal E. Bryant, Randy H. Katz y Edward D. Lazowska publican “Big Data Computing:Creating Revolutionary Breakthroughs in Commerce, Science and Society”. Ellos describen que “al igual que los motores de búsqueda, han transformado la forma de acceso a al información. Otras formas de computación de Big Data pueden y van a transformar las actividades de las empresas, investigaciones científicas, médicas,
  • 8. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO. y la defensa de la nación, así como las operaciones de inteligencia. La Computación de Big Data es tal vez la mayor Innovación en informática de las últimas décadas. Sólo hemos comenzado a ver su potencial para reunir, organizar y procesar datos en todos los ámbitos de la vida. Una modesta inversión por parte del gobierno federal podría acelerar en gran medida su desarrollo e implementación”. 2009, Roger E. Bohn y James E. Short publican “How much information? 2009 Report on American Consumers”. El estudio revela que “en 2008 los estadounidenses consumieron la información de 13.000.000.000.000 de horas, un promedio de caso 12 horas al día. El consumo fue de 3,6 zettabytes y 10.845 billones de palabras, que corresponden a 100.500 palabras y 34 gigabytes para una persona promedio en un día promedio. Bohn, Short y Chattanya Baru posteriormente en Enero de 2011 siguieron con la publicación “How Much Information? 2010 Report on Enterprise Server Information”. Estiman que en 2008 los servidores del mundo procesaron 9,57 zettabytes de información, casi 10 a la 22 (es decir 10 millones de millones de gigabytes). Esto fue 12 gigabytes de información diarias para el trabajador promedio, o alrededor de 3 terabytes de información por trabajador al año. La empresas del mundo procesan en promedio 63 terabytes de información anuales. 2010, Kenneth Cukier publica en “The Economist” un informe especial titulado “Data, Data Everywhere” . El mundo contiene una inimaginable vasta cantidad de información digital que se está volviendo cada vez más vasto con mayor rapidez. El efecto se hace sentir en todas partes, desde los negocios hasta la ciencia, desde los gobiernos hasta las artes. Los científicos y los ingenieros informáticos han acuñado un nuevo término para el fenómeno: “Big Data”. 2011, Martin Hilbert y Priscilla Lopez publican “The World´s Technological Capacity to Store, Communicate and Compute Information”. Se estima que la capacidad de almacenamiento de la información del mundo creció a una tasa compuesto de crecimiento anual del 25% anual entre 1986 y 2007. También estiman que, en 1986, 99,2% de toda la capacidad de almacenamiento era análoga, pero en 2007 el 94% de la capacidad de almacenamiento era digital, una revisión completa de las funciones (en 2002, el almacenamiento de información digital superó a la no digital por primera vez). 2011, James Manyika, Michael Chui, Brad Brown, Jacques Bughin, Richard Dobbs, Charles Roxburgh y Angela Hung Byers, del Instituto Global McKensey publican “Big Data: The Next frontier for Innovation, Competition, and Productivity”. Ellos estiman que “para el año 2009, casi todos los sectores de la economía de Estados Unidos tuvieron por lo menos un promedio de 200 terabytes de datos almacenados (dos veces el tamaño de almacenamiento de datos del minorista de Estados Unidos Walmart en 1999) por empresa, con más de 1.000 empleados”, y los valores de inversión en servicios liderará en cuanto a los datos almacenados por las empresas. En total, el estudio estima que 7,4 exabytes de nuevos datos fueron almacenados por las empresas, y los 6,8 exabytes por los consumidores en 2010. 2012, La Revista International Communication publica una sección especial titulada “Info Capacity” sobre las metodologías y los resultados de varios estudios que miden el volumen de información. En “Tracking the
  • 9. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO. flow of information into the home”, Newman, Park y Panek estiman que la oferta total de los medios de comunicación a los hogares estadounidenses ha aumentado alrededor de 50.000 minutos por día desde 1960 a cerca 900.000 en 2005. Mirando la relación entre oferta y demanda en el año 2005, se estima que las personas en los Estados Unidos se están acercando a mil minutos de contenido mediada disponibles para cada minuto disponible para el consumo. En “International Production and Dissemination of Information”, Bounie y Gille estiman que el mundo produjo 14,7 exabytes de nueva información en el año 2003. 2012, Dana Boyd y Kate Crawford publican “Critcal Question for Big Data”. Ellos definen al Big Data como “un fenómeno cultural, tecnológico, y académico que se basa en la interacción de tecnología (potencia de cálculo maximizador y precisión algorítmica para reunir, enlazar y comparar conjuntos de datos grandes); así como también de Análisis (dibujo de grandes conjuntos de datos para identificar patrones para las necesidades de reclamaciones económicas, sociales, técnicas y legales); y por último mitológicas (la creencia generalizada de que los conjuntos de datos de gran tamaño ofrecen una forma más elevada de la inteligencia y el conocimiento que pueden generar ideas que antes eran imposibles, con el aura de la verdad, la objetividad y la precisión)”. DEFINICIÓN DE BIG DATA.- Luego de verificar los orígenes históricos del Big Data, ¿podemos responder la pregunta acerca de Qué es Big Data?. Big Data (Grandes Datos) hace referencia a los Sistemas que manipulan grandes y complejos conjuntos de datos (data sets), que se hace difícil procesarlos con herramientas de gestión de base de datos o aplicaciones tradicionales de procesos de datos. Los desafíos del Big Data incluyen la “captura, almacenamiento, búsqueda, poder compartir, análisis y visualización de datos”, en donde la tendencia es a manipular ingentes cantidades de datos, se debe a la derivable información adicional a partir del análisis de un solo gran conjunto de datos relacionados, en comparación con la separación de conjuntos más pequeños con la misma cantidad total de datos, permitiendo que las correlaciones que se pueden encontrar para “detectar tendencias de negocios”, determine la calidad de la investigación, la prevención de enfermedades, combatir el delito y determinar las condiciones del tráfico de carretera en tiempo real 3 . A partir de 2012, los límites al tamaño de 3 The Economist, Data, data everywhere”, http://www.economist.com/node/15557443
  • 10. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO. los conjuntos de datos que sean factibles para procesar en un período razonable de tiempo, eran del orden de “exabytes” 4 de datos (lo cual me hace relacionar la “Ley de Moore y la Potencia de micro Procesamiento”, La “Ley de Almacenamiento Digital Masivo” y La “Ley de Metcalfe y la “Economía de Redes” como los impulsores Tecnológicos de la Infraestructura de Tecnologías de la Información y Comunicaciones) 5 . Los científicos se encuentran con regularidad con limitaciones debido a los grandes conjuntos de datos en muchas áreas, incluyendo la “meteorología, la genómica, conectómica, simulaciones físicas y complejas, así como la investigación biológica y ambiental”. De igual forma, las limitaciones también afectan la búsqueda de Internet, finanzas y negocios de la informática. Los conjuntos de datos crecen en tamaño, en parte debido a que cada vez más se reúnen datos en dispositivos móviles omnipresentes de detección de información, tecnologías de áreas sensoriales (teledetección), registros de software, cámaras, micrófonos, lectores de identificación por radiofrecuencia y redes de sensores inalámbricos. Se calcula que la capacidad per cápita tecnológica del mundo para almacenar la información “se ha duplicado cada 40 meses desde la década de 1980” 6 . A partir de 2012, todos los días 2,5 trillones de bytes de datos fueron creados. El reto para las grandes empresas es “determinar quién debe poseer las grandes iniciativas de datos que se sitúan en toda la organización”. A continuación un video donde se explica el concepto del Big Data y sus orígenes: 4 A tener presente la siguiente tabla de conversión (en términos de bytes y expresado en sistema internacional decimal): 1 Kilobytes (KB): 1.000 bytes; 2^3. 1 Megabytes (MB): 1.000.000 bytes; 2^6. 1 Gigabyte (GB): 1.000.000.000 bytes; 2^9. 1 Terabyte (TB): 1.000.000.000.000 bytes; 2^12. 1 Petabytes (PB): 1.000.000.000.000.000 bytes; 2^15. 1 Exabytes (EB): 1.000.000.000.000.000.000 bytes; 2^18. 1 Zettabytes (ZB): 1.000.000.000.000.000.000.000 bytes; 2^21. 1 yottabytes (YB): 1.000.000.000.000.000.000.000.000 bytes; 2^24 5 Ley de Moore y la Potencia de Microprocesamiento: Desde la aparición del primer chip de microprocesador en 1959, se había duplicado cada año la cantidad de componentes en un chip con los costos de manufactura más bajos por componentes”. De acá surgen derivaciones de la Ley de More al respecto (“La potencia de los microprocesadores se duplica cada 18 meses” –Gates, 1997-; “La potencia de cómputo se duplica cada 18 meses”; “El Precio de la computación se reduce a la mitad cada 18 meses). Ley de Almacenamiento Digital Masivo: “La cantidad de información digital se duplica más o menos cada año (Lyman y Varian, 2003)”. En el mundo se producen alrededor de 5 exabytes de información exclusiva cada año (un exabytes equivale a mil millones de gigabytes). Ley de Metcalfe y la Economía de Redes: “El Valor o potencia de una Red, crece exponencialmente como una función de la cantidad de miembros de una red”. A medida que aumentan linealmente, el valor total del sistema aumenta exponencialmente y continúa creciendo siempre conforme se incrementan los miembros (Efecto Economía de Redes y el Crecimiento de Internet). Kenneth C. Laudon & Jane P. Laudon, “Sistemas de Información Gerencial: Administración de la Empresa Digital”, (Impulsores de la Evolución de la Infraestructura), Pearson Pretince Hall, Décima Edición. 6 Science 332 (6065)Hilbert, Martin; López, Priscilla (2011), “The World´s Technological Capacity to Store, Communicate, and Compute Information”, http://martinhilbert.net/WorldInfoCapacity.html
  • 11. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO. El Big Data es difícil de trabajar con uso de software y aplicaciones de gestión de base de datos relacionales, y la mayoría de las estadísticas de escritorio y paquetes de aplicaciones de visualización, lo que implica requerir de “procesamiento paralelo masivo que se ejecute en decenas, cientos o incluso miles de servidores” en su lugar. ¿A qué se considera Big Data? Varía dependiendo de la capacidad de la organización de gestión conjunta, así como de las capacidades de aplicaciones que se utilizan tradicionalmente para procesar y analizar los datos que configuran su dominio de acción. Para algunas organizaciones, enfrentar cientos de gigabytes de datos por primera vez, puede desencadenar la necesidad de reconsiderar las opciones de gestión de datos. Para otros, puede tomar decenas o cientos de terabytes antes de que los datos se conviertan en una consideración importante. El concepto de Big Data por lo general incluye “los conjuntos de datos con tamaños mas allá de la capacidad de las herramientas de software utilizadas para Capturar, Co-adjuntar, Gestionar y Procesar los datos dentro de un tiempo transcurrido tolerable. El Big Data tiene un objetivo en constante movimiento, que a partir de 2012 van desde unas pocas decenas de terabytes a muchos petabytes de datos de un solo conjunto de datos. Por tal motivo, no es de extrañar que muchos usuarios comunes y corrientes, hoy en día se nos presente la necesidad de tener que trabajar con equipos computacionales (fijos o móviles), incluso unidades de almacenamiento externas con capacidades por sobre 1 terabytes, ¡que no es nada! (o en su defecto, con capacidades similares de almacenamiento en el Cloud -modelo de computación en la Nube-, tal como me pasó días atrás. El objetivo se mueve debido a la constante mejora en la tecnología de DBMS (Sistema de Gestión de Base de Datos) tradicional, así como consecuencia de las nuevas bases de datos como NoSQL y su capacidad para manejar grandes cantidades de datos. Con esta dificultad, se están desarrollando nuevas plataformas de Big Data, como herramientas para manejar varios aspectos de grandes cantidades de datos.
  • 12. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO. En un informe de investigación de 2001 y conferencias relacionadas a Meta Group, el analista Doug Laney define los “retos y oportunidades del crecimiento de datos en: La Velocidad en tres dimensiones, la cual se refiere al aumento del volumen de datos (cantidad de datos, velocidad de datos interna y externa, y la variedad o gama de tipo de datos y fuentes)”. Tanto Gartner como gran parte de la industria, siguen utilizando este modelo “3Vs” para describir los grandes volúmenes de datos 7 . El 2012, Gartner actualizó su definición sobre Big Data, sosteniendo que el “Big Data es de gran volumen y velocidad y/o de alta diversidad en los activos de información que requieren las nuevas formas de procesamiento, para permitir la toma de decisiones mejorada, visión, descubrimiento y optimización de procesos” 8 . Actualmente se sigue utilizando la definición de Gartner (las 3Vs), con la adición de nuevas “Vs” añadidas por los departamentos de Marketing de las organizaciones. La creciente madurez del concepto fomenta una mayor diferencia de sonido entre el Big Data y la Inteligencia de Negocios (Business Intelligence) con respecto a los datos y su uso 9 :  Business Intelligence utiliza estadística descriptiva con datos de alta densidad e información para medir sucesos, detectar tendencias, entre otros.  Big Data utiliza estadísticas inductivas con datos con baja densidad de información, cuyo gran volumen permite inferir leyes (regresiones, entre otros) y dando así con los límites del razonamiento de inferencia para algunas capacidades predictivas del Big Data.. El mundo Académico y el Big Data. Dentro del mundo de generación de conocimiento académico, podemos citar a lo que acontece en, por ejemplo el Massachusetts Institute Technology, MIT, quienes el 31 de Mayo de 2012 anunciaron que habían sido seleccionados entre 55 instituciones que presentaron 157 propuestas para albergar un nuevo “Centro de Investigación de Intel” que se centraría en el “Big Data”. El Centro de Investigación de Intel es la piedra angular de una nueva iniciativa de CSAIL, conocido como “Big Data @ CSAIL”, dirigido por el profesor adjunto Sam Madden y el Profesor Adjunto Michael Stonebreaker, ambos del Departamento de Ingeniería Eléctrica y Ciencias de la Computación del MIT. Además de Intel, los patrocinadores de la iniciativa incluyen a AIG, EMC, SAP y Thompson Reuters, Microsoft, Samsung. El MIT patrocina varios programas, incluyendo un programa de becas, un programa de prácticas y un proyecto para investigar “cómo las tecnologías de Big Data pueden mejorar al gobierno”. Como parte de centro de Ciencias y Tecnología en el CSAIL, Intel contrata a un puñado de investigadores que se encuentran en Cambridge y trabajan en estrecha colaboración con 7 Gartner, “Gartner says Solving Big Data Challenge involves more than just managing volumes of Data”, Beyer, Mark, 27 de Junio de 2011, Gartner, http://www.gartner.com/newsroom/id/1731916 . 8 Douglas, Laney, “The Importance of Big Data: A Definition”, Gartner, 21 de Junio de 2012, http://www.gartner.com/DisplayDocument?id=2057415&ref=clientFriendlyUrl 9 Wikipedia, “Big Data”, http://en.wikipedia.org/wiki/Big_data
  • 13. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO. profesores del MIT en tecnologías relacionadas con grandes volúmenes de datos. Investigadores de las Universidades de California en Santa bárbara, Universidad Estatal de Portland, Universidad Brown, Universidad de Washington y la Universidad de Stanford también están afiliados a la Central. Intel, en una primera etapa comprometió US$ 2,5 millones al año para el centro, al menos durante los próximos 3 años, con un compromiso de dos años adicionales, de ser posible, si el centro pasa una revisión cada 3 años. Al respecto, el día de la inauguración del centro, se sostuvo que “estamos siendo testigos de un período de crecimiento sin precedentes en el formato digital de Datos No Estructurados en la Web, así como en la Nube. Esto sólo se acelerará aún más a través del rápido crecimiento de los dispositivos móviles como smartphones y automóviles conectados”. Justin Rattner, (CTO de Intel) dijo que “si bien esta cantidad de datos ya es asombrosa, el futuro lo harán palidecer en comparación con la cantidad de datos que se generarán en tiempo real con la “Internet de las Cosas (Internet of Things)”, que es una red prevista para conectar dispositivos informáticos incorporados en artículos para el hogar común”. Si pensamos que esto es una gran cantidad de datos, debemos prepararnos, ya que aún no hemos visto nada. “El Big Data se ha convertido en una de las nuevas frases sexys”, añadió Susan Hockfield (Presidente del MIT) 10 . El objetivo del BigData@CSAIL es “identificar y desarrollar las tecnologías necesarias para resolver los desafíos de datos de próxima generación que requieren la capacidad de escalar más allá de lo que las plataformas informáticas de hoy en día poseen, los algoritmos y los métodos que pueden proporcionar. Buscan que las personas puedan aprovechar realmente el Big Data mediante el desarrollo de plataformas que sean reutilizables, escalables y fáciles de implementar a través de varios dominios de aplicación”. El enfoque del BigData@CSAIL incluye dos aspectos fundamentales:  Colaborar estrechamente con la industria para proporcionar las aplicaciones del mundo real y el impacto que puedan conducir.  El problema del Big Data es considerado como un problema fundamentalmente multidisciplinario. El equipo al respecto, está conformado por profesores e investigadores en muchas áreas relacionaras con la tecnología, incluyendo algoritmos, arquitectura, gestión de gatos, aprendizaje automático, la privacidad y seguridad de datos, interfaces de usuario y visualización, así como expertos en el campo de las finanzas, la medicina, la infraestructura inteligente, la educación y la ciencia 11 . 10 MIT News, MIT, Intel univeil new initiatives addressing Big Data”, May 31, 2012, http://web.mit.edu/newsoffice/2012/big-data-csail-intel-center-0531.html 11 BigData@CSAIL, http://bigdata.csail.mit.edu/
  • 14. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO. Tipo de Información que trata el Big Data. Muchas organizaciones se enfrentan a la pregunta sobre ¿Qué información es la que se debe analizar? Sin embargo, la pregunta que debemos hacernos es ¿Cuál es el problema que se está tratando de resolver?. Si bien sabemos que existe una amplia variedad de tipos de datos a analizar, una buena clasificación nos ayudaría a entender mejor su representación, aunque es muy probable que estas categorías puedan extenderse con el avance tecnológico. Internet y Social Media: Incluye contenido Web e información que es obtenida de las redes sociales como Facebook, Twitter, LinkedIn, Blogs, entre otros. Máquina a Máquina (M2M): Se refiere a las tecnologías que permiten conectarse a otros dispositivos. M2M utiliza dispositivos como sensores o medidores que capturan algún evento en particular (velocidad, temperatura, presión, variables meteorológicas, variables químicas, etc.), los cuales se transmiten a través de redes alámbricas, inalámbricas o híbridas a otras aplicaciones que traducen estos eventos en información significativa. Grandes Datos de Transacciones: Incluye registros de facturación, registros de telecomunicaciones detallados de las llamadas (CDR), grabaciones, etc. Estos datos transaccionales están disponibles en formatos tanto semiestructurados como no estructurados. Biometría: Información biométrica en la que se incluye huellas digitales, escaneo retinal, reconocimiento facial, genética, etc. En el área e seguridad e inteligencia, los datos biométricos han sido información importante para las agencias de investigación.
  • 15. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO. Generado por Humanos: Las personas generamos diversas cantidades de datos, como la información que guarda un Call Center al establecer una llamada telefónica, notas de voz, correos electrónicos, documentos electrónicos, estudios médicos, imagen, etc. 12 De esta forma en el retail, por ejemplo: Back-Office: Los repositorios de datos, muy extendidos en las organizaciones, que normalmente se concentran en sistemas ERP, Datos Transaccionales y Operativos, así como DataWarehouse con información analítica e histórica, necesariamente deberán evolucionar y combinarse con el Big Data (tanto en materia de información estructurada como no estructurada). Front-Office: Los Sistemas de Relación con los Clientes o Usuarios, con toda probabilidad también deberán evolucionar en paralelo o en conjunto con el Big Data, tanto en materia de tratamiento de información para Segmentación, Fidelización, Operatividad en Intranet Corporativas, Sistemas basados en Web, lenguaje y servicios, conviviendo también con datos estructurados como no estructurados en sus repositorios de back- Office que nutrirán los indicadores de sus Data Warehouse. Ventas: Esto va más allá de las transacciones generadas por caja (ya integradas en el back-office). Una de las grandes revoluciones se refiere a la “Internet de las Cosas” (Internet of Things), donde todos los dispositivos, sensores o controladores transmiten datos, los cuales recogidos, procesados y refinados pueden entregar mucha información. Por ejemplo, la información generada por los Códigos QR, RFID, Realidad Aumentada, Dispositivos de Neuromarketing, Gafas o Relojes Inteligentes, etc., constituirán todo un nuevo universo por explorar y explotar. Sin embargo, además estos dispositivos podrán “relacionarse” con otros dispositivos, interactuar, ser activados o desactivados por otros, entre otras actividades e interacciones, para lo cual utilizarán canales ya desarrollados como Internet, Cloud y/o Movilidad. Por tanto, entramos a un territorio mucho más complejo e inexplorado ¿cómo responder a la gran cantidad de dispositivos que existen y que existirán? ¿cuáles serán más importantes? ¿cómo afectarán a las métricas tradicionales? ¿deberemos utilizar nuevas métricas? ¿cómo mediremos la rentabilidad? ¿cómo afectará esto a nuestros actuales y futuros modelos de negocios?, entre otros. La conectividad llevará a cabo cambios fundamentales y determinantes en los siguientes años (ultra conectividad) con variedad de dispositivos móviles y explosión de las redes sociales, en conjunto con la llegada del Cloud Computing (Datos en la Nube), afectando los Sistemas Back y Front Office en cuanto a almacenamiento de datos, formas de trabajo, relacionamiento, modelos de negocios, tipos de relaciones con los clientes/usuarios y las organizaciones, donde también evolucionarán con respecto a la información estructurada y no estructurada que se genera. 12 IBM, Ricardo barranco Fragoso, ¿Qué es Big Data?, DevelopWorks, 18/06/2012, http://www.ibm.com/developerworks/ssa/local/im/que-es-big-data/index.html?cmp=BS&ct=SocialMedia&cr=twitter
  • 16. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO. La complejidad, velocidad y volatilidad de estos tipo de datos y cantidades de información, son los actuales y futuros retos fundamentales a los que debe(rá) responder los Sistemas Big Data, donde la Selección, Filtro, Volúmenes de Datos (diferentes y complejos), así como las tecnologías y negocios, serán las dos caras de una misma pero diferente moneda que actualmente conocemos 13 . ARQUITECTURA DEL BIG DATA.- Como hemos visto, el Big Data es un concepto que se aplica a toda aquella información que no puede ser procesada o analizada usando procesos o herramientas convencionales debido al enorme volumen de datos sobre el cual hay que trabajar. En 2004, Google publicó un documento sobre un Proceso llamado “MapReduce”, que utiliza dicha arquitectura. El marco MapReduce ofrece un “modelo de programación paralela y la aplicación asociada para procesar gran cantidad de datos”. Con MapReduce, las consultas se dividen y se distribuyen a través de los nodos paralelos y procesan en paralelo (el paso Mapa). Los resultados luego se reúnen y se entregan (el paso Reducir). Esto implica que MapReduce se ejecuta en dos procesos por separado (Map y Reduce, considerando paralelismo, escalabilidad, tolerancia a fallos y curva de aprendizaje elevada. El resultado fue un éxito increíble, lo cual condujo a que otros repitieran el algoritmo. Por lo tanto, una implementación de MapReduce fue adoptado por un proyecto de Código Abierto llamado Hadoop. Las características generales de Hadoop involucran: Open Source, desarrollado inicialmente por Yahoo, administrado por Apache Software Foundation, Diseñado para trabajar con volúmenes de datos en petabytes, ofrece alta disponibilidad, así como escalamiento horizontal. Hadoop ha tenido muy buena aceptación en el mercado, tras lo cual muchas tecnologías de desarrollo se han basado en Hadoop. Además, ofrece una Curva de Aprendizaje elevada, no se constituye como una base de datos y no es en tiempo real. En general, las organizaciones han atacado esta problemática desde diferentes ángulos. Todas esas montañas de información han generado un costo potencial al no descubrir el gran valor asociado al Big Data. Desde luego, el ángulo correcto que actualmente tiene el liderazgo, en términos de popularidad para analizar cantidades de información, la tiene la plataforma de Código Abierto Hadoop. Hadoop 14 está inspirado en el proyecto de Google, Google File System (GFS), y en el paradigma de programación MapReduce, el cual como ya se adelantó anteriormente, consiste en “dividir en dos tareas (Mapper – Reducer) la manipulación de datos distribuidos a nodos de un clúster, logrando un alto 13 A partir de XAMQ, Francesc Máñez, “Big Data: Origen de los Datos”, 01/04/2013, http://www.qmaxsl.com/bqmax/big-data-origen-de-los-datos/ 14 IBM, Ricardo Barranco Fragoso, ¿Qué es Big Data?, DeveloperWorks, 18/06/2012, http://www.ibm.com/developerworks/ssa/local/im/que-es-big-data/index.html?cmp=BS&ct=SocialMedia&cr=twitter
  • 17. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO. paralelismo en el procesamiento. Hadoop está compuesto de tres piezas fundamentales: Hadoop Distributed File System (HDFS), Hadoop MapReduce y Hadoop Common. Hadoop Distributed File System (HDFS): Los datos en el clúster de Hadoop son divididos en pequeñas piezas llamadas “bloques” y distribuidas a través del clúster. De esta forma, las funciones “Map” y “Reduce” pueden ser ejecutadas en pequeños subconjuntos, lo cual permite proveer de la “Escalabilidad” necesaria para el procesamiento de grandes volúmenes. En la figura adjunta, se ejemplifica como los bloques de datos son escritos hacia HDFS. Observe que cada bloque es almacenado tres veces, y al menos un bloque se almacena en un diferente rack par lograr redundancia. Hadoop MapReduce: MapReduce es el núcleo de Hadoop. El término en realidad se refiere a dos procesos separados que Hadoop ejecuta. El primer proceso, “Map” toma un conjunto de datos y los convierte en otro conjunto donde los elementos individuales son separados en “tuplas” (pares de llave/valor). El proceso “Reduce” obtiene la salida de Map como datos de entrada y combina las tuplas en un conjunto más pequeño de las mismas. Una fase intermedia, denominada “shuffle” obtiene las tuplas del proceso Map , y determina qué nodo procesará estos datos, dirigiendo la salida a una tarea Reduce en específico. La figura adjunta, ejemplifica un flujo de datos en un proceso sencillo de MapReduce. Hadoop Common: Se constituye como un conjunto de librerías que soportan varios subproyectos de Hadoop. Además de estos tres componentes principales de Hadoop, existen otros proyectos relacionados, los cuales son definidos a continuación.
  • 18. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO. Avro: Es un proyecto de Apache, el cual provee servicios de serialización. Cuando se guardan datos de un archivo, el esquema que define ese archivo es guardado dentro del mismo. De este modo es más sencillo para cualquier aplicación leerlo posteriormente, puesto que el esquema está definido dentro del archivo. Cassandra: Es una base de datos no relacional distribuida (y basada en un modelo de almacenamiento de “llave-valor”) desarrollada en Java. Permite grandes volúmenes de datos en forma distribuida. Twitter es una de las empresas que utiliza Cassandra dentro de su plataforma. Chukwa: Diseñado para la colección y análisis a gran escala de “logs”. Incluye un toolkit para desplegar los resultados del análisis y monitoreo. Flume: Tal como su nombre lo indica, su tarea principal es “dirigir los datos de una fuente hacia alguna otra localidad”, en este caso, hacia el ambiente Hadoop. Existen tres entidades principales: Source, Decorators y Sinks. Un Source, es básicamente cualquier fuente de datos. Sink se refiere al destino de una operación en específico. Decorator es una operación dentro del flujo de datos que transforma esa información de alguna manera, por ejemplo comprimir o descomprimir los datos o alguna otra operación en particular sobre los mismo. HBase: Es una base de datos columnar (colum-oriented database) que se ejecuta en HDFS. HBase no soporta SQL, de hecho, HBase no es una base de datos relacional. Cada tabla contiene filas y columnas como una base de datos relacional. HBase permite que muchos atributos sean agrupados, llamándolos Familias de Columnas, de tal manera que los elementos de una familia de columnas son almacenados en un solo conjunto. Esto es distinto a las bases de datos relacionales orientadas a filas, donde todas las columnas de una fila son almacenadas en conjunto. Facebook utiliza HBase en su plataforma desde noviembre de 2010. Hive: Es una infraestructura de Data Warehouse que facilita administrar grandes conjuntos de datos que se encuentran almacenados en un ambiente Distribuido. Hive tiene definido un lenguaje similar a SQL llamado Hive Query language (HQL). Estas sentencias HQL son separadas por un servicio de Hive, y son enviadas a procesos MapReduce ejecutados en el clúster de Hadoop. Jaql: Fue donado por IBM a la comunidad de software libre. Query language for Javascript Objet Notation (JSON) es el lenguaje funcional y declarativo que permite la explotación de datos en formato JSON diseñado para procesar grandes volúmenes de información. Para explotar el paralelismo, Jaql rescribe los queries de alto nivel (cuando es necesario) en queries de bajo nivel para distribuirlos como procesos MapReduce. Lucene: Es un proyecto de Apache, bastante popular para realizar búsquedas sobre textos. Lucene provee de librerías para indexación y búsqueda de texto. Ha sido principalmente utilizado en la implementación de motores de búsqueda (aunque hay que considerar que no tiene funciones de “crawing” ni análisis de documentos HTML ya incorporadas). El concepto a nivel de arquitectura de Lucene es simple: básicamente los documentos (documents) son divididos en campos de texto (field) y se genera un índice sobre estos
  • 19. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO. campos de texto. La indexación es el componente clave de Lucene, lo que le permite realizar búsquedas rápidas e independientes del formato del archivo (ya sean PDFs, documentos HTML, etc.). Oozie: Como pudieron haber notado, existen varios procesos que son ejecutados en distintos momentos, los cuales necesitan ser orquestados para satisfacer las necesidades de tan complejo análisis de información. Oozie es un proyecto de Código Abierto que simplifica los flujos de trabajo, y la coordinación entre cada uno de los procesos. Permite que el usuario pueda definir acciones y las dependencias entre dichas acciones. Un flujo de trabajo de Oozie es definido mediante un grafo a cíclico llamado Directed Acyclical Graph (DAG), y es a cíclico puesto que no permite ciclos en el grafo, es decir, solo hay un punto de entrada y de salida, y de todas las tareas y dependencias, parten del punto inicial al punto final sin puntos de retorno. Un ejemplo de un flujo de trabajo en Oozie se representa en la figura adjunta. Pig: Inicialmente desarrollado por Yahoo! para permitir a los usuarios de Hadoop enfocarse más en analizar todos los conjuntos de datos, y dedicar menos tiempo en conseguir los programas MapReduce. Tal como su nombre lo indica, al igual que cualquier “cerdo” que come cualquier cosa, el lenguaje Piglatin fue diseñado para manejar cualquier tipo de dato, donde Pig es el ambiente de ejecución donde estos programas son ejecutados, de manera muy similar a la relación entre la máquina virtual de Java (JVM) y una aplicación Java. ZooKeeper: Es otro proyecto de Código Abierto de Apache, el cual provee de una infraestructura centralizada y de servicios que pueden ser utilizados por aplicaciones para asegurarse de que los procesos a través de un clúster sean serializados o sincronizados. Internamente en ZooKeeper una aplicación puede crear un archivo que se persiste en memoria en los servidores ZooKeeper llamado Znode. Este archivo Znode puede ser actualizado por cualquier nodo en el clúster, y cualquier nodo puede registrar que sean informado de los cambios ocurridos en ese Znode, es decir, un servidor puede ser configurado para “vigilar” un Znode en particular. De este modo, las aplicaciones pueden sincronizar sus procesos a través de un clúster
  • 20. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO. distribuido actualizando su estatus en cada Znode, el cual informará al resto del clúster sobre el estatus correspondiente de algún nodo en específico. Como podrán observar, más allá de Hadoop, una plataforma de Big Data consiste en todo un ecosistema de proyectos que en su conjunto permiten simplificar, administrar, coordinar y analizar grandes volúmenes de información. Dentro de los usuarios de Hadoop, tenemos a: AOL, IBM, Yahoo, LinkedIn eBay, The New York Times, Twitter, entre otros. 15 16 A continuación, un video que explica el concepto de Big Data, sus dimensiones: Respecto a las Tecnologías que trabajan en el Big Data, éste requiere tecnologías excepcionales para procesar eficientemente grandes cantidades de datos dentro de los tiempos transcurridos de manera tolerable (además de los proyectos anteriormente citados). En 2011, un informe de McKinsey sugiere que las tecnologías adecuadas para el Big Data deben incluir: las Pruebas A/B, las de regla de asociación de aprendizaje, clasificación de conglomerados crowdsourcing, fusión de datos y la integración y aprendizaje conjunto, algoritmos genéticos, aprendizaje automático, procesamientos del lenguaje natural, redes neuronales, reconocimiento de patrones, detección de anomalías, modelos predictivos, modelos de regresión, análisis de los sentimientos, procesamiento de señales, supervisión y no supervisión de l aprendizaje, simulación, análisis de series temporales y la visualización. Los Grandes volúmenes de Datos multidimensionales también pueden ser representados como tensores, tales como el aprendizaje sub- espacio multilineal. Las tecnologías adicionales que se aplican a grandes volúmenes de datos incluyen bases 15 Google Inc, Jeffrey Dean, Sanjay Ghemawat, “MapReduce: Simplified Processing on Large Clusters”, http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/es//archive/mapreduce- osdi04.pdf 16 Globant, ,”MapReduce: Arquitectura BigData”, bigdata.globant.com/wp-content/uploads/2012/07/Apache-Pig-1.ppt
  • 21. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO. de datos masivas de procesamiento paralelo (MPP), búsqueda de aplicaciones de búsqueda, minería de datos, redes de sistemas de archivos distribuidos, bases de datos distribuidas, la infraestructura basada en el Cloud (aplicaciones, almacenamiento y recursos informáticos) e Internet. Si queremos saber cómo actúa el Big Data, y verlo en acción, es fácil imaginarlo. Por ejemplo, veamos el caso del Big Data aplicado a la industria del Mercado de Capitales (Fondos de Cobertura y Gestión de Activos y Riqueza). Según Rachel West, 17 , por ejemplo, hoy en día, las empresas financieras (que vienen saliendo de una de las peores crisis de crédito en la historia reciente), han aprendido las lecciones de las limitaciones de los datos e incompletos de modelos fragmentarios, para la gestión de sus carteras y toma de decisiones (hacerlas más sensibles a sus necesidades en tiempo real). La información impulsa a estas empresas a querer aprovechar la información de Inteligencia (INTEL) que juega un papel fundamental en la Optimización del Uso del Capital y la Gestión de sus Riesgos. Hoy en día existe la necesidad de “una Estrategia Práctica y la Aplicación Especifica para Análisis de Big Data”. Todos los problemas y programas complejos implican una Curva de Aprendizaje, y en el caso de hacer frente a grandes volúmenes de datos no es la excepción. Algunas firmas financieras deben volverse a pensar sobre los modelos existentes y el análisis de gestión de riesgos alimentados por tecnologías Big Data de código abierto disponibles. Deben tener cuidado de los retos ocultos que plantea la estrategia de “hágalo usted mismo” (o “hecho en casa”) en temas de Análisis de Big Data, donde se toma un enfoque de “ensayo y error”. Para ayudar a sus clientes a moverse más allá de exploraciones aleatorias, deben moverse a realidades empresariales con Big Data, comenzando con un sólido Análisis de Grandes Volúmenes de Datos para uso comercial y procesos de inversión, tanto para el lado de la compra, como para el de las empresas. Se debe aprovechar el Big Data para Analizar la Exposición de Portfolios. La primera pregunta que deben plantearse es ¿Cuál es la exposición? La exposición se refiere a la cantidad de fondos que se invierten en un determinado tipo de sector, que por lo general se expresan como un porcentaje del total de las explotaciones de cartera. Por lo tanto, la exposición viene siendo la “cantidad de fondos que un inversor tiene sumado al riesgo de pérdida que enfrenta (es la exposición de una cartera a valores particulares). Los Mercados y sectores deben ser considerados al determinar la asignación de los activos. Son las respuestas a las preguntas fundamentales que pueden ayudar a la rentabilidad del capital, y si se lleva a cabo correctamente, también minimiza las pérdidas. EJ: ¿Cuál es la exposición al riesgo total de la cartera por sector? Al leer acerca de las noticias financieras en Europa, ¿tiene a su alcance la información necesaria para comprender sus efectos en su cartera y ajustar sus decisiones en consecuencia? ¿Cuáles son sus posiciones largas y cortas de cartera en moneda euro? ¿cómo lo ha combinado en los últimos 2 a 3 años? Esas preguntas son tan relevantes para los Gestores de Cartera y Operadores, así como para los Gestores de Riqueza, Auditores Internos, Asesores Financieros, quienes deben supervisar cuidadosamente las 17 Forbes, Rachel West, Big Data in Action –Let´s Get Starterd”, 24/06/2013, http://www.forbes.com/sites/emc/2013/06/24/big-data-in-action-lets-get-started/
  • 22. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO. inversiones y el cumplimiento de los requisitos reglamentos de la empresa. Sin embargo, el Análisis de Exposición de la Cartera hoy es una suerte de malabares con bolas (de diferentes formas, tamaños y pesos). Dentro de los Desafíos ¿cuáles son los puntos “dolorosos” en el Análisis de Exposición? Dificultad en el recoger la información de todos los datos disponibles/relevantes de diferentes mercados, comentarios de analistas, noticias y eventos en tiempo real. No se pueden predecir los mercados o predecir el futuro. Carecen de la capacidad de crear escenarios de modelado interactivo para posibles eventos. Es difícil de “tamizar” a través de la gran cantidad de transacciones en tiempo real para detectar posiciones de riesgo. Además no se pueden acceder rápidamente a grandes cantidades de Datos históricos para una rápida y compleja modelización de comercio. Los análisis y presentación de informes cuentan con múltiples pasos y “silos” elaborados por diferentes grupos con diferentes aplicaciones tecnológicas. La falta de “capacidades de consultas ad-hoc y presentación de informes sobre la exposición agregada a través de las carteras de múltiples activos y cuentas de clientes”, son un problema. Dentro de las Oportunidades, ¿Cuáles son los Beneficios del Análisis de Big Data? La verdad es que son bastantes, muy rentables, altamente Escalable, de Alto Rendimiento y grandes herramientas de Análisis de Datos de Baja Latencia, se disponen en los últimos años para ayudar en la recolección y carga de datos de todas las fuentes de datos, desde los Almacenes de Datos Existentes para alimentación interna y externa, así como archivos de terceras partes. Con la próxima generación de Plataformas de Análisis, los profesionales de Gestión de Inversiones no tendrán que luchar durante horas o días para crear escenarios ricos y realistas de información para analizar el impacto de un determinado mercado, la seguridad o la exposición al sector de sus inversiones cuando un evento se desarrolla. Ellos pueden convertirse rápidamente en un solo lugar, en un instante, con la información precisa sobre su cartera y el seguimiento con múltiples dimensiones de datos sobre exposición para su mejor curso de acción. La nueva solución de análisis de exposición permite a los usuarios:  Integrar Datos del Mercado, Noticias y Eventos (anuncios de resultados trimestrales, el PIB, tasa de desempleo, tasa de interés, inflación, etc.) en el Análisis de Exposición.  Analizar diferentes niveles de exposición (transacción, posición, cuenta, contraparte para diversos valores, clases de activos, el sector, así como el mercado, en la marcha o casi en tiempo real para el desarrollo más eficaz para las estrategias de mitigación de riesgo y el comercio.  Previsión de casos en el futuro a través de diferentes escenarios modelados a partir de informes de prensa y el sentir de los medios. Si bien, el seguimiento de las exposiciones de los distintos fondos es esencial, aún más importante es saber sobre la Gestión Total de la Cartera en todo momento. Al obtener una Visión completa de la información geográfica, sectores, estrategia, la capitalización de mercado o exposiciones de valores, los administradores de inversión pueden decidir reasignar o re-equilibrar sus carteras.
  • 23. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO. Los Administradores de Cartera también pueden comparar información de la exposición con los pesos de las carteras, la liquidez y la atribución a través del tiempo. De esta manera, se pueden detectar las tendencias más importantes de la gran cantidad de puntos de datos históricos a través de los panales de control, que proporcionan la visualización de datos gráfica de manera intuitiva, por lo que las excepciones se destacan con alertas sobre anomalías de exposición. La “Convergencia de Business Intelligence (Inteligencia de Mercado) y Análisis de Big Data” es fundamental. En este caso requiere de uso de análisis minuciosos y trabajar con grandes volúmenes de datos (de fuentes externas e internas) para desarrollar modelos predictivos precisos, cada empresa tiene que pasar por esto para tener capacidad de análisis de Big Data más tangibles para sus usuarios.
  • 24. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO. BIG DATA Y LA INNOVACIÓN GLOBAL DE SERVICIOS (ACTUAL Y FUTURA).- Como podemos darnos cuenta ahora, el tema del Big Data no es nuevo en cuanto a sus orígenes. Sin embargo, la consecuencias de esta Innovación Tecnológica está tomando ribetes insospechados actualmente, tanto en temas de oportunidades de negocios, así como oportunidades de Innovación y evolución en todo ámbito de temas, áreas e industrias (incluso en nuestros hábitos diarios como consumidores y ciudadanos comunes y corrientes). Aplicaciones del Big Data Actualmente. Según Luis Martin 18 , la primera gran necesidad del Big Data, es el propio almacenamiento de los datos. Cuando se llega a esta magnitud, es difícil diseñar una estructura monolítica que pueda albergar toda la información. Se imponen “soluciones distribuidas”, pero que permitan el acceso a las fuentes de información de forma unificada. En muchas aplicaciones para Internet, es necesario además que estos datos se almacenen y procesen rápidamente para ofrecer “análisis en tiempo real”. Es necesario también considerar la naturaleza y estructura de los datos, que en estos casos suele ser bastante heterogénea. Las soluciones basadas en “bases de datos no relacionales (NoSQL)” ofrecen una mejor adaptación a este escenario que otras tradicionales en la mayor parte de los casos. Una vez que se ha conseguido dar con una “solución para el almacenamiento” y acceso de grandes cantidades de datos, un gran número de aplicaciones emergen de la posibilidad de realizar análisis sobre los mismos. Las tecnologías de análisis distribuido de los datos, tales como “Hadoop y MapReduce” ofrecen esta funcionalidad, abriendo un gran número de posibilidades de aplicación como las que se listan a continuación:  Sistemas de recomendación: Utilizan la información de comportamiento de cada usuario para predecir sus intenciones e intereses, y ofrecerles así contenidos adecuados. Son muy utilizados en Comercio Electrónico.  Análisis de Sentimientos: Basándose en conversaciones públicas (EJ: Twitter, foros) y otros elementos 2.0, se intentan predecir los gustos y el comportamiento de cada usuario con finalidad de diferente tipo.  Predicción de Catástrofes: Las grandes cantidades de datos disponibles se utilizan en la detección de eventos como incendios o terremotos, de tal manera que se pueda predecir su impacto y generar una reacción temprana.  Juegos: Ajedrez (Deep Blue) o Preguntas (Watson) son ejemplos de programas que analizan grandes cantidades de datos de partidas para derrotar a contrincantes humanos.  Categorización y Reconocimiento: De lugares, caras o personas, mediante el análisis del gran volumen de datos de este tipo disponible online. 18 BrainsSINS, Luis Martin, “Big Data: Necesidades y Aplicaciones”, http://www.brainsins.com/es/blog/big-data- necesidades-y-aplicaciones/103589
  • 25. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO.  Medicina: La medicina genómica personalizada (aún en el campo de la investigación) analiza e integra datos genómicos y clínicos para el diagnóstico precoz y una mejor aplicación de las terapias.  Comportamiento Inteligente de Servicios Públicos: Utilizando la información proveniente de datos recopilados por sensores inteligentes puede mejorarse la distribución y consumo de recursos fundamentales como el agua o la energía eléctrica.  Modelado de Riesgos: Algunas entidades bancarias y firmas de inversión punteras, utilizan tecnologías de análisis de grandes cantidades de datos para determinar el riesgo de operaciones, evaluando un gran número de escenarios financieros hipotéticos.  Detección de Fraudes: Utilizando técnicas para combinar bases de datos de comportamiento de usuarios, y datos transaccionales puede detectarse actividad fraudulenta, como por ejemplo: el uso de una tarjeta de crédito robada.  Monitoreo de Redes: Las redes de servidores producen una gran cantidad de datos que pueden ser analizados para identificar cuellos de botella o ataques. Este tipo de análisis puede aplicarse también a otros tipos de redes, tales como redes de transporte, con el fin, por ejemplo, de optimizar el consumo de combustible.  Investigación y Desarrollo: Algunas empresas con fuerte componente investigadora, como las farmacéuticas, realizan análisis de grandes volúmenes de documentación (EJ: artículos científicos) y otro tipo de datos históricos para mejorar el desarrollo de sus productos.  Big Science y el Gran Colisionador de Hadrones: Los experimentos representan unos 150 millones de sensores para la entrega de datos de aproximadamente 40 millones de veces por segundo, resultando en la investigación del Colisionador de hadrones, cerca de 600 millones de colisiones por segundo. Luego de filtrar y abstenerse de registrar más del 99,999% de estos flujos, hay 100 colisiones de interés por segundo 19 20 21 22 : - Como resultado, sólo trabajar con menos de 0,001% de los datos de la corriente de sensores, el flujo de datos desde todos los cuatro experimentos del LHC representa 25 petabytes de tasa anual de información antes de la replicación (a partir de 2012). Esto se convierte en cerca de 200 petabyte de información después de la replicación. - Si todos los datos de los sensores debían registrarse en LHC, el flujo de datos sería muy difícil de trabajar. El flujo de datos superaría los 150 millones de petabytes de tasa anual, o cerca de 500 exabytes por día, 19 Wikipedia, “Big Data”, http://en.wikipedia.org/wiki/Big_data 20 CERN Brochure 2010, “A presentation of the largest and the most powerful particle accelerator in the world, the Large Hadron Collider (LHC), which starter up in 2008. Its role, characteristics, technologies, etc., are explained for the general public, http://cds.cern.ch/record/1278169?ln=en 21 CERN Brochure 2008, “LHC Guide: A collection of facts and figure about the Large Hadron Collider (LHC) in the form of questions and answers”, http://cds.cern.ch/record/1092437?ln=en 22 Brumfield, Geoff 2009, “High Energy Physics: Down the Petabyte Highway”, Nature (International Weekly Journal of Science), http://www.nature.com/news/2011/110119/full/469282a.html
  • 26. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO. antes de la replicación. Para poner el número en perspectiva, esto equivale a 500 trillones de bytes por día, casi 200 veces mayor que todas las otras fuentes combinadas en el mundo.  La Astronomía: Desde que el Sloan Digitial Sky Survey (SDSS) comenzó a recopilar datos astronómicos en el año 2000, se acumuló más datos en sus primeras semanas, que todos os datos recogidos en la historia de la astronomía. Siguiendo a un ritmo de alrededor de 200 GB por noche, el SDSS ha acumulado más de 140 terabytes de información. Cuando el Gran Telescopio para Rastreo Sinóptico, sucesor del SDSS, se ponga en línea en el año 2016, se prevé la adquisición de esa cantidad de datos cada cinco días 23 24 .  Descifrando el Genoma Humano: Se refiere al proceso PGH de investigación científica con el objetivo fundamental de determinar la secuencia de pares de bases químicas que componen el ADN e identificar y cartografiar los aproximadamente 20.000 – 25.000 genes del genoma humano desde un punto de vista físico y funcional. El proyecto dotado con 3.000 millones de dólares fue fundado en 1990 en el Departamento de Energía y los Institutos Nacionales de Salud de los Estados Unidos, bajo la dirección de Francis Collins, quien lideraba el grupo de investigación público, conformado por múltiples científicos de diferentes países, con un plazo de realización de 15 años. Gracias a la amplia colaboración internacional, a los avances en el campo de la genómica, así como los avances en la tecnología computacional, un borrador inicial del genoma fue terminado en el año 2000. Finalmente, el genoma completo fue presentado en abril de 2003, dos años antes de lo esperado. Los secuenciadores de ADN humano han dividido el costo de secuenciación por 10.000 en los últimos diez años, lo cual es un factor de 100 en comparación con la Ley de Moore. 25 26 Ciencias Sociales Computacionales. Tobías Preis, utilizando Google Trends para los datos demostró que “los usuarios de internet de los países con un Producto Interno Bruto per cápita alto, son más a buscar información sobre el futuro de la información sobre el pasado”. Los hallazgos sugieren que puede haber un vínculo entre la conducta en línea y los indicadores económicos del mundo real. Los autores del estudio examinaron los registros de consultas en Google que los usuarios de internet en 45 países en 2010 realizaron, y se calculó el volumen de búsquedas para el año 2011, tras lo cual denominaron “Futuro Índice de Orientación”. Los investigadores compararon el futuro índice de orientación en relación con el PIB per cápita de cada país, encontrando una fuerte tendencia a que “los países en los que los usuarios de Google preguntan más sobre el futuro de exhibir un PIB más alto”. Los resultados sugieren que puede tratarse de una potencial relación entre el éxito 23 Wikipedia, “Big Data”, http://en.wikipedia.org/wiki/Big_data 24 The Economist, Data, data everywhere”, http://www.economist.com/node/15557443 25 Wikipedia, “Big Data”, http://en.wikipedia.org/wiki/Big_data 26 Wikipedia, “Proyecto Genoma Humano”, http://es.wikipedia.org/wiki/Proyecto_Genoma_Humano
  • 27. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO. económico de un país y el comportamiento de búsqueda de información de los ciudadanos capturados en grandes volúmenes de datos 27 . Gobierno. En Estados Unidos, se están formando y generando plataformas públicas para comenzar a entender este paradigma, y para empezar a obtener provecho de éste. Tal es el caso de la iniciativa del gobierno de EE.UU., data.gov, y de las Naciones Unidas, unglobalpulse.org, creada para el aprovechamiento de la Innovación para proteger a los vulnerables. El Gobierno Federal de Estados Unidos posee seis de los diez supercomputadores más poderosos del mundo. Además, se está construyendo un Data Center en Utha, que será un centro de datos de la Agencia de Seguridad Nacional (cuando haya terminado, la instalación será capaz de manejar información del orden de “yottabytes”, recogida por la NSA a través de Internet). En Latinoamérica, tal como ocurre en el resto del mundo, la región también está experimentando un enorme crecimiento del Big Data, no así con su aprovechamiento para generar desarrollo. Según la consultora Global Frost & Sullivan, se pronostica que entre 2012 y 2013 la región sufrirá un aumento exponencial del Big Data, que demandará avanzadas soluciones tecnológicas (hardware y software) para aprovechar plenamente la información generada por la enorme cantidad de datos. Sin embargo, son pocas las compañías y gobiernos de la región que están gestionando el Big Data. Tal situación se debe, tal vez, a la “falta de visión, inversión, recursos humanos o una mezcla de todos estos, o simplemente porque la mayoría de las soluciones más básicas son más útiles hoy, o definitivamente no las necesitan (por ahora)”. Con una gestión seria y planificada del Big Data en cada uno de los países, podrían generarse plataformas informáticas en tiempo real que, por ejemplo, crucen los datos de fallas sufridas en una planta automotriz de Brasil o México, y conectarlo con las investigaciones y proyectos relacionados que desarrollan ingenieros mecánicos de universidades de todo el continente, los que a su vez, podrían cruzarse con datos de proveedores de materias primas con las que se desarrollarían la nueva pieza de esa fábrica automotriz 28 . Sector Privado. En el caso de Amazon.com, se encarga de millones de operaciones de Back-End cada día, así como de las consultas de más de medio millón de vendedores de terceras partes. La tecnología central que mantiene Amazon funcionando, está basada en Linux y en 2005 tuvieron las tres mayores bases de datos de Linux del mundo, con una capacidad de 7,8 TB - 18,5 TB . 24,7 TB. Por su parte, Walmart maneja más de 1 millón de transacciones por hora de los clientes, los cuales se importan a bases de datos que se estima contienen más de 2,5 petabytes (2.560 terabytes) de datos –el equivalente a 167 veces la información contenida en todos los libros de los Estados Unidos en la Biblioteca del Congreso. En el caso de Facebook, se estima que maneja cerca de 50 mil millones de fotos de su base de usuarios. En el caso de FICO, sistema de detección de fraude 27 Wikipedia, “Big Data”, http://en.wikipedia.org/wiki/Big_data 28 AméricaEconomía,, Pablo Albarracín, “Big Data: ¿La Nueva Llave para el Desarrollo”, http://www.americaeconomia.com/analisis-opinion/big-data-la-nueva-llave-para-el-desarrollo
  • 28. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO. bancario, éste protege a 2,1 millones de cuentas activas en todo el mundo. Infosys por su parte, ha puesto en marcha el BigDataEdge para analizar los grandes datos. Windermere Real Estate utiliza señales GPS anónimas de casi 100 millones de conductores para ayudar a los nuevos compradores de vivienda a determinar sus tiempos de conducción típicos y volver del trabajo a lo largo de distintos momentos del día. En el caso de las grandes empresas multilatinas, sí parece existir una tendencia y creciente preocupación por la gestión del Big Data, donde algunas ya han adquirido las tecnologías necesarias, mientras que otras se encuentran en etapas de implementación y/o análisis. Compañías Mineras, de Petróleo/Gas, Retail, Aerolíneas y de Telecomunicaciones, se asoman como las más interesadas en el Big Data 29 30 31 32 33 34 35 . Desarrollo Internacional. Después de décadas de trabajo en el ámbito de la utilización efectiva de las tecnologías de la información y comunicaciones para el desarrollo (o ICT4D), se ha sugerido que los grandes datos pueden hacer importantes contribuciones al Desarrollo Internacional. Por un lado, la llegada del Big Data ofrece la perspectiva económica para mejorar la toma de decisiones en las áreas críticas de desarrollo como Salud, Empleo, Productividad Económica, el Crimen y la Seguridad, así como para los Desastres Naturales y la Gestión de Recursos. Por otra parte, todos los problemas acerca del debate del Big Data implican también los retos a la Privacidad de la Información, la Interoperabilidad y el Poder Omnipotente de algoritmos imperfectos, los cuales se agravan en los países en desarrollo por los problemas de desarrollo e larga data como “la falta de infraestructura tecnológica, y la escasez de recursos económicos y humanos”. Esto tiene el potencial de dar lugar a un nuevo tipo de “Brecha Digital”: la Brecha de la Inteligencia basada en datos para informar la toma de decisiones 36 . 29 The Economist, Data, data everywhere”, http://www.economist.com/node/15557443 30 Wikipedia, “Big Data”, http://en.wikipedia.org/wiki/Big_data 31 Money.howstuffworks.com, Layton, Julia, “Amazon Technology”, 05/03/2013, http://money.howstuffworks.com/amazon1.htm 32 FICO.com, http://www.fico.com/en/Products/DMApps/Pages/FICO-Falcon-Fraud-Manager.aspx 33 The Economic Times, “Infosys launches BigDataEdge to analyse Big Data”, 21/02/2013, http://articles.economictimes.indiatimes.com/2013-02-21/news/37201267_1_big-data-infosys-vice-president- unstructured-data 34 Express Computer, “Infosys launches BigDataEdge”, 21/02/2013, http://computer.financialexpress.com/sections/news/1161-infosys-launches-big-data-edge 35 Bits.blogs.nytimes.com, Nick Wingfield, “Predicting Commutes More Accurately for Would-Be Home Buyers”, http://bits.blogs.nytimes.com/2013/03/12/predicting-commutes-more-accurately-for-would-be-home-buyers/ 36 Wikipedia, “Big Data”, http://en.wikipedia.org/wiki/Big_data
  • 29. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO. Caso el Big Data y el Comportamiento de las Personas. “La recopilación y análisis de información procedente de teléfonos móviles simples, puede proporcionar sorprendentes conocimientos sobre cómo se mueven y comportan las personas, e incluso ayudarnos a entender la propagación de enfermedades”. En un ordenador en su oficina de la Escuela de Salud Pública de Harvard en Boston, Estados Unidos, la epidemióloga Caroline Buckee señala un punto en un mapa de las tierras altas al oeste de Kenia, que representa una de las miles de torres de telefonía móvil del país. En la lucha contra la malaria, los datos transmitidos desde esta torre, cerca de la ciudad de Kericho, han tenido una enorme importancia a nivel epidemiológico. Cuando ella y sus colegas estudiaron los datos, encontraron que las personas que hacen llamadas o envían mensajes de texto originados en la torre Kericho viajaban con una frecuencia de 16 veces más fuera de la zona, en comparación de la media regional. Es más, estas personas eran tres veces más propensas a visitar una región al noreste de lago Victoria que los registros del Ministerio de Salud identificaron como un punto álgido de la malaria. Por lo tanto, la señal de radio de la toree cubría un punto de referencia importante para la transmisión de la enfermedad, que puede pasar de persona a persona a través de los mosquitos. Las imágenes por satélite revelaron la causa más probable: una concurrida plantación de té que seguramente estaba repleta de trabajadores inmigrantes. La implicación estaba clara, señala Buckee: “Habrá un montón de infectados en ese lugar”. Este trabajo está sirviendo de base para una nueva serie de modelos de predicción que Buckee está construyendo. Muestran, por ejemplo, que a pesar de que se observaron casos de malaria en la plantación de té, tomar medidas para controlar la malaria allí tendría menos efecto sobre la propagación de la enfermedad que concentrar los esfuerzos en la fuente: “el lago Victoria”. Siempre se ha creído que esa región es un centro importante de malaria, pero lo que no ha estado disponible hasta ahora es información detallada sobre los patrones de viaje humano a ese lugar: cuántas personas van y vienen, cuándo llegan y salen, a qué lugares específicos van, y cuáles entre esos destinos atraen a la mayoría de las personas que viajan a lugares nuevos. De esta forma, Caroline Buckee, epidemióloga de Harvard, está utilizando datos detallados de movimientos de población, obtenidos de teléfonos móviles, para construir nuevas y precisas herramientas para la lucha contra la propagación de la malaria. Los esfuerzos existentes por recopilar este tipo de datos de viajes son, como poco, irregulares. A veces los trabajadores de la Salud Pública cuentan literalmente a las personas en los centros de transporte o las enfermeras de clínicas remotas preguntan a las víctimas de malaria recién diagnosticadas dónde han estado recientemente. “En muchos cruces fronterizos de África, mantienen pequeños registros en papel, pero los papeles se pierden y nadie les sigue la pista”. Tenemos abstracciones y modelos generales sobre los patrones de viaje, pero jamás hemos sido capaces de hacer esto correctamente, aduce Buckee.
  • 30. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO. La Minería de Datos facilitará el diseño de nuevas medidas que probablemente incluirán campañas baratas y específicas de mensajes de texto, por ejemplo, advirtiendo a los visitantes que entren en la zona de la torre Kericho que utilicen mosquiteros. Esto ayudará a los funcionarios a elegir dónde concentrar los esfuerzos de control de mosquitos en las zonas palúdicas. “No queremos tener que rociar cada charco de larvas de mosquitos todo el tiempo. Pero si sabes que existe una gran cantidad de importaciones procedentes de un determinado lugar, lo suyo es aumentar el programa de control en ese lugar”, asegura Buckee. “Ahora puedo precisar puntos de especial importancia dentro de la importación de una enfermedad”. El estudio más reciente de Buckee, publicado el año pasado en Science y basado en registros de 15 millones de teléfonos de Kenia, es el resultado de una colaboración con su esposo, Nathan Eagle, que ha estado dedicado a dar sentido a los datos de teléfonos móviles durante más de una década. A mediados de la década de 2000, después de conseguir llamar la atención con su trabajo de minería de datos procedentes de teléfonos de voluntarios en el MIT, Eagle comenzó a recibir llamadas de compañías de telefonía móvil pidiendo saber más acerca de, por ejemplo, por qué los clientes cancelaban sus planes de telefonía. Eagle comenzó a trabajar con las compañías. Y cuando la pareja pasó 18 meses en África a partir de 2006 8Buckee estaba haciendo un trabajo sobre la genética del parásito de la malaria) él estudió los datos de llamadas con diversos fines, tratando de entender fenómenos como las divisiones étnicas en barrios marginales de Nairobi y la propagación del cólera en Ruanda. Los resultados de Buckee muestran lo que se puede conseguir cuando la tecnología se usa para problemas de salud pública. “Esto muestra que sí, podemos realmente proporcionar no solo conocimiento, sino algo sobre lo que poder actuar”. Afirma Eagle, actualmente director general de Jana, que lleva a cabo encuestas en teléfonos móviles en el mundo en desarrollo”, “Esto funciona”. “Este es el futuro de la epidemiología. Si queremos erradicar la malaria, así es como lo vamos a hacer”. Esta demostración sugiere cómo podría aprovecharse estos datos para construir herramientas que los trabajadores de salud, los Gobiernos y otros agentes puedan usar para detectar y vigilar las epidemias, gestionar desastres y optimizar sistemas de transporte. Otros esfuerzos similares están siendo dirigidos hacia objetivos tan variados como la comprensión de los patrones de los desplazamientos por París, y la congestión de multitudes de festivales en Bélgica. Sin embargo, la minería de registros telefónicos podría ser particularmente útil en las regiones pobres, donde a menudo las infraestructuras de recogida de datos son mínimas o inexistentes. “Estamos justo empezando a utilizar estos datos para estos fines”, señala Vincent Blondel, profesor de matemáticas aplicadas en la Universidad de Lovaina en Bélgica y destacado investigador de datos recogidos de teléfonos móviles. “La adopción exponencial de la telefonía móvil en entornos de bajos ingresos, y la nueva disposición de algunas compañías telefónicas a ofrecer los datos, dará lugar a nuevas herramientas tecnológicas que podrían cambiarlo todo”. Los 6 millones de teléfonos móviles del mundo generan enormes cantidades de datos, entre ello información de seguimiento de localización y de actividad comercial, historiales de búsqueda y enlaces en redes sociales. Se están llevando a cabo innumerables esfuerzos para extraer estos datos de diferentes
  • 31. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO. maneras por parte de organizaciones de investigación y empresariales de todo el mundo. Y de esos seis mil millones de teléfonos, cinco mil millones se encuentran en países en desarrollo. Muchos de ellos son teléfonos baratos capaces de hacer poco más que llamadas y enviar mensajes de texto. Pero toda esta actividad puede ser rastreada en las torres de telefonía móvil, proporcionando una forma aproximada de hacer un seguimiento de los movimientos de una persona. A esto hay que añadir la difusión de la tecnología de pagos móviles dentro del comercio simple, y como resultado obtenemos una materia prima no solo para conseguir conocimiento en epidemiología, sino en tendencias de empleo, tensiones sociales, pobreza, transporte y actividad económica. El mapa adjunto, producto del análisis de datos de teléfonos móviles, muestra las fuentes más importantes de infecciones de malaria (tonos más oscuros), teniendo en cuenta el potencial de transmisión causado por los viajes humanos, así como los principales destinos de las personas expuestas a la enfermedad (tonos más claros). Se puede utilizar para determinar dónde enfocar mejor las advertencias y las técnicas de control de mosquitos. La perspectiva de la minería de datos de teléfonos es especialmente tentadora en los países pobres, donde la información detallada y actualizada sobre estos asuntos ha resultado escasa hasta ahora. “En el mundo en desarrollo, no hay un censo en funcionamiento, no se sabe dónde está el tráfico, no siempre cuentas con infraestructura de recopilación de datos del Gobierno”, señala Alex Sandy Pentland, director del laboratorio de Dinámica Humana del MIT, que durante mucho tiempo ha estado interesado en el conocimiento que proporcionan los datos creados mediante el uso de teléfonos móviles. “Pero, de repente, lo único que tienes a tu disposición, es decir, teléfonos móviles por todas partes, especialmente durante los últimos años, puede darte el equivalente de toda esa infraestructura que ya está construida en el mundo desarrollado”. Cuando una llamada se conecta a una estación base determinada, esa estación registra el número de identificación del teléfono y la duración de la llamada. Con el tiempo, esta información se puede utilizar para tener una idea de los movimientos regionales de al gente y la forma de sus redes sociales. El historial de compras en los teléfonos también es muy valiosa: los registros de las compras agrícolas podrían ser utilizados para predecir los suministros o la escasez de alimentos. Y los datos financieros recogidos por los sistemas de pago móviles pueden construir un historial de crédito y ayudar a millones de personas sin acceso a la banca a poder obtener préstamos convencionales. “Los métodos de análisis de base de datos y
  • 32. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO. los ordenadores son muy estándar”, afirma Pentland. “Se trata de crear ciencia y buscar los patrones correctos”. Ciertos patrones de movilidad podrían estar relacionados con la propagación de una enfermedad, los patrones de compra podrían significar que una persona ha tenido un cambio laboral, y los cambios de conducta o patrones de movimiento podrían relacionarse con la aparición de una enfermedad. Una potente demostración de lo útiles que pueden ser los datos de teléfonos baratos se produjo después del terremoto de enero de 2010 en Haití, que mató a más de 200.000 personas. Investigadores del instituto Karolinaska de Suecia obtuvieron datos de Digicel, el mayor operador de telefonía móvil de Haití. Extrajeron los datos de movimiento diario de dos millones de teléfonos, comenzando 42 días antes del terremoto y hasta 158 días después, concluyendo que 630.000 personas que habían estado en Puerto Príncipe el día del terremoto habían salido de la ciudad en un plazo de tres semanas. También demostraron que podían hacer estos cálculos casi en tiempo real. Mostraron, 12 horas después de recibir los datos, cuántas personas habían huido de un área afectada por un brote de cólera, y a dónde fueron. Lo más importante es que su trabajo dio lugar a un modelo que podría servir de guía para las respuestas a futuros destres. Después de analizar los datos sobre los hábitos de viaje antes del terremoto, el grupo sueco encontró que los haitianos en general salieron de la ciudad para ir a los mismos lugares donde habían pasado la Navidad y el Día de Año Nuevo. Estos resultados permiten predecir dónde irá la gente cuando ocurra un destre. Respecto a la “Ampliación de la Escala”, hasta hace poco, estos estudios eran realizados por investigadores después de conseguir un acuerdo especial con las compañías para obtener los datos (Eagle los obtuvo a través de sus conexiones académicas). Sin embargo Orange, el gigante mundial de telecomunicaciones con sede en Francia, concedió el año pasado a la comunidad de investigación mundial datos basados en 2.500 millones de registros anónimos (sujetos a ciertas condiciones y restricciones) de cinco meses de llamadas realizadas por cinco millones de personas en Costa de Marfil. La primera fase de este gran experimento consiste en simplemente ver qué es posible con los datos. Las compañías de telefonía móvil del mundo tienen una mina de oro de datos, señala Nathan Eagle, director general de Jana, que lleva a cabo encuestas en teléfonos móviles. Sin embargo, señala que el uso generalizado de los datos requerirá nuevos modelos de negocio y protecciones e privacidad. Casi un centenar de grupos de investigación de todo el mundo aprovecharon la oportunidad de analizar los registros. Estaba programado que los estudios fueran presentados en mayo en una conferencia en el MIT bajo el nombre de Datos para el Desarrollo, que forma parte de una conferencia más grande sobre proyectos de minería de datos tanto en el mundo pobre como rico. “Es la primera vez que un conjunto de datos de teléfonos móviles a gran escala ha sido cedido a este nivel”, afirma Blondel, que preside la conferencia. Los estudios no habían sido publicados formalmente en el momento de escribir este artículo. Pero uno de ellos muestra un gráfico de las interacciones sociales y de viaje a través de una división étnica tradicional Norte-Sur, y proporciona información sobre cómo podría evitarse el conflicto. Otro propone
  • 33. www.hcglobalgroup.com Contacto: info@hcglobalgroup.com Santiago-Chile, Latino América. INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA. HERRAMIENTAS PARA EL FUTURO CRECIMIENTO. herramientas para el mapeo de la propagación de la malaria y la detección de brotes de enfermedades. Un laboratorio de empresa ha construido un modelo de transporte a partir de datos de teléfonos móviles para realizar un seguimiento de pasajeros en 539 autobuses, 5.000 minibuses y 11.000 taxis compartidos. Incluso si el experimento de Costa de Marfil tiene éxito, replicarlo en otros países podría no resultar tan sencillo. El año pasado, el Foro Económico Mundial, el grupo de figuras líder industriales, académicas y políticas que convergen cada año en Davos, Suiza, hizo un llamamiento a los Gobiernos, organizaciones de desarrollo y empresas para el desarrollo de herramientas de análisis de datos, que mejoren la vida de las personas en el mundo pobre. “No debería tener que ir a los operadores y decirles les voy a hacer una consultoría gratuita, y a cambio quiero usar vuestros datos para mejorar vidas”, asegura Eagle. “Los operadores deberían querer estar involucrados en esto. En este momento, muchos de ellos no ven el lado bueno, pero si podemos hacer que los líderes del mundo les animen a hacerlo, tal vez podamos conseguir muchas cosas”. “Podemos realmente proporcionar no solo conocimiento, sino algo sobre lo que poder actuar. Esto realmente funciona”. Esto requerirá un trabajo cuidadoso para proteger la privacidad y evitar que los datos se utilicen con fines opresivos. Orange señala que se esforzó en hacer que los datos fueran anónimos, pero el campo necesita formas claras y ampliamente aceptadas de llevar la información al mercado. “Hay riesgos y beneficios en el hecho de vivir en sociedad basada en los datos”, señala Pentland. “Está la cuestión de quién posee los datos y quién los controla. Te puedes imaginar lo que Muamar Gadafi habría hecho con este tipo de datos . Orange está tratando de encontrar la forma de crear un patrimonio común de datos que logre una mayor transparencia, responsabilidad y eficiencia, para detectar dónde se producen eventos inusuales, eventos extremos, que nos indiquen dónde se está desmoronando la infraestructura. Podemos hacer muchas cosas con ello, pero tiene que estar disponible. A media que estas cuestiones se desarrollan, Buckee y Eagle están trabajando en perfeccionar y aumentar las herramientas de minería de datos en Kenia. Eagle tiene como objetivo utilizar encuestas para refinar y confirmar la imagen creada por los datos de minería de telefonía móvil a gran escala. El registro de llamadas no es suficiente, afirma. Encuestar incluso simplemente a algunas personas podría permitir a los investigadores descartar suposiciones erróneas acerca de lo que muestran los registros. Una vez, mientras analizaba datos de teléfonos en Ruanda, Eagle observó que la gente no se había movido mucho después de una inundación. Al principio, su teoría era que una gran cantidad de gente estaba en cama con cólera. Pero resultó que el diluvio había borrado las carreteras. Buckee espera extraer datos para atacar a las cepas del parásito de la malaria resistentes ante los medicamentos. Estas cepas, que emergen en Camboya y en otros lugares, podrían invertir el progreso contra la enfermedad si se les permite proliferar, advierte. Así que quiere empezar combinando los datos sobre la propagación de los parásitos en modelos de movilidad para ayudar a producir estrategias para