Big Data y la Innovación Global en Servicios Actual y Futura

www.hcglobalgroup.com Contacto: info@hcglobalgroup.com
Santiago-Chile, Latino América.
INNOVACIÓN, EMPRENDIMIENTO, TECNOLOGÍA.
HERRAMIENTAS PARA EL FUTURO CRECIMIENTO.
22-08-2013
HUGO CÉSPEDES A.
Big Data y la Innovación Global en
Servicios Actual y Futura
La Innovación Tecnológica siempre nos sorprende con su
rapidez y beneficios, así como la influencia que ejerce en
nuestro diario vivir actual y futuro. Pero específicamente ¿qué
es Big Data? ¿por qué tanta relevancia hoy en día con esta
revolución tecnológica? ¿en qué podemos observar sus
aplicaciones y beneficios inmediatos? ¿cómo nos beneficia
actualmente? ¿Qué nos depara el futuro del Big Data? Estos y
otros puntos, son abordados en el presente artículo.
Technology

INDICE TEMÁTICO
Introducción y Evolución Histórica del Concepto.
Definición del BIG DATA.
- El Mundo Académico y el Big Data.
- Tipo de Información que trata el Big Data (Internet y Social Media, M2M, Grandes
Transacciones, Generado por Humanos, entre otros.
Arquitectura del Big Data.
- Haddop (Hoddop Distributed File System, Hadoop MapReduce, Haddop Common).
- Avro, Cassandra, Chukwa, Flume, HBase, Hive, Jaql, Lucense, Oozie, Pig,
Zookepper).
Big Data y la Innovación Global de Servicios (Actual y Futura).
- Aplicaciones del Big Data Actualmente.
- Ciencias Sociales Computacionales.
- Gobierno.
- Sector Privado.
- Desarrollo Internacional.
- Caso Big Data y el Comportamiento de las Personas.
- La Utilidad del Big Data en e-Commerce (El Big Data transforma Negocios, La
Cara del Big Data, Big Data en tesoros Históricos, Sistemas de Evaluación de
Riesgo, Desarrollo de Programación Externa y Co-Diseño con Clientes).
- Caso del Big Data en el Sector Salud (Desbloqueo del Valor oculto de los Datos).
- Caso Big Data en la Industria de Entretención de Juegos (Telemetría Enriquecida).
- Caso Big Data y sus Aplicaciones en el Deporte.
- Caso Big Data en la Educación.
- Big Data y el Caso “Prism y Boundless Informant” para Espionaje por parte de
Estados Unidos y otras Naciones.
- Caso Big Data y las Smart Cities.
- 5 Proyectos Big Data que pueden impactar tu vida.
- Cómo se Comportan los Clientes: Utilizando Datos para Conducir la Innovación,
Desarrollo & Estrategia Digital.
- Big Data y el Futuro.
- Conclusiones y Palabras al Cierre.

Big Data y la Innovación Global en Servicios Actual y
Futura
La Innovación Tecnológica siempre nos sorprende con su rapidez y beneficios, así como la influencia que
ejerce en nuestro diario vivir, actual y futuro. Pero específicamente ¿Qué se entiende por Big Data? ¿Por
qué tanta relevancia hoy en día con esta revolución tecnológica? ¿En qué áreas podemos observar sus
aplicaciones y beneficios inmediatos? ¿Cómo nos beneficia actualmente? ¿Qué nos depara el futuro del
Big Data? Esto y otros aspectos son los que nos aprontamos a abordar a continuación.
INTRODUCCIÓN Y EVOLUCIÓN HISTÓRICA DEL CONCEPTO.-
Hablar de los orígenes del “Big Data” es complicado y relativo, dependiendo del punto de vista desde el cual
se borden. Sin embargo, si lo vemos desde un punto de vista macro e histórico, es más fácil su dilucidación
sus efectos en los Servicios a nivel global, tema del cual habíamos hablado anteriormente
1
. Los orígenes del
Big Data comienza muchos años antes del “rumor mismo del Big Data”. Ya hace setenta años, tal como lo
sostiene Gil Press
2
, nos encontramos con los primeros intentos de cuantificar la tasa de crecimiento del
volumen de datos o lo que se conoce como “la explosión de la información” (término utilizado por primera
vez en 1941, Diccionario Oxford, en inglés). A continuación, presentamos los principales hitos en la historia
del dimensionamiento de los grandes volúmenes de datos, así como las primeras ideas sobre el Big Data y
las observaciones relativas a los datos o explosión de la información.
1944, Fremont Rider, bibliotecario de al Universidad de Wesleyan, publica “The Scholar and the Future on
the Research Library”, donde estima que las bibliotecas universitarias americanas duplicarán su tamaño cada
16 años. Dada esta tasa de crecimiento, especula que la biblioteca de Yale en 2040 tendrá aproximadamente
200 millones de volúmenes, que ocuparán más de 6.000 kilómetros de estanterías, lo cual requerirá
personal de catalogación de estanterías del orden de 6.000 personas.
1961, Derek Price publica “Science Since Babylon”, en donde traza el crecimiento de los conocimientos
científicos al ver el crecimiento en el número de publicaciones y trabajos científicos. Llega a la conclusión de
que “el número de nuevas revistas ha crecido de manera exponencial y no lineal, duplicándose cada 15
años, multiplicándose su crecimiento por un factor de 10 cada medio siglo”. Price denomina a esto “Ley de
crecimiento Exponencial”, explicando que “cada avance genera nuevos avances a una tasa de crecimiento
1
HCGlobal Group, Hugo Céspedes A., “Service Design y la Nueva Economía Global de Servicios”,
http://www.hcglobalgroup.com/HCGlobal%20Group/service_design_y_la_nueva_econom.htm
2
Forbes, Gil Press, “A Very Short History of Big Data”, 09/05/2013, http://www.forbes.com/sites/gilpress/2013/05/09/a-
very-short-history-of-big-data/

constante razonable, por lo que el número de generación de nuevo conocimiento es estrictamente
proporcional al tamaño d la población de los descubrimientos en cualquier momento dado”.
1967, B.A. Marron y P.A.D. de Maine publican “Automatic Data Compression”, en The Communication of the
ACM, afirmando que “la explosión de la información de los últimos años hace que sea esencial que los
requerimientos de almacenamiento de toda la información se reduzca al mínimo”. El documento describe
“un compresor de tres partes totalmente automático y rápido para reducir en gran medida los requisitos de
almacenamientos externos lentos, y poder aumentar la tasa de transmisión de información a través de un
ordenador.
1971, Arthur Miller escribió “The Assault on Privacy”, donde habla sobre el tema de que existen demasiadas
manipulaciones sobre la información en el afán de medir a un hombre por el número de bits de capacidad
de almacenamiento que su expediente ocuparía.
1975, El Ministerio de Correos y Telecomunicaciones de Japón comienza la realización del Censo de Flujo de
Información, que busca llevar a cabo el seguimiento del volumen de información que circula por Japón (idea
sugerida por primera vez en un documento en 1969). El Censo presenta “las cantidades de palabras” como
unidad de medida para la unificación en todos los medios. El Censo de 1975 ya considera que la oferta de
información está aumentando mucho más rápido que el consumo de información, y en 1978 se informa que
“la demanda de información proporcionada por los medios de comunicación se ha estancado, y la demanda
de información proporcionada por el personal de medios de telecomunicación (caracterizada por
comunicaciones de dos vías) se ha incrementado drásticamente… Nuestra sociedad se está moviendo hacia
una nueva etapa en el que se coloca más prioridad en la Información Segmentada, más detallada para
satisfacer las necesidades individuales, en lugar de Información Convencional Masificada.
1980, A. Tjomsland dicta una charla titulada “¿Hacia dónde vamos desde aquí?” en el Fourth IEEE
Symposium on Mass Storage Systems, donde sostiene que “aquellos que están asociados con dispositivos de
almacenamiento, ya hace tiempo se han dado cuenta de que la primera Ley de Parkinson puede ser
parafraseada para describir a la industria. Los datos se expanden para llenar el espacio disponible.. Creo que
se retienen grandes cantidades de datos, ya que los usuarios no tienen forma de identificación de datos
obsoletos, por lo que las sanciones al almacenamiento de datos obsoletos son menos datos potencialmente
útiles”.
1981, La Oficina Central de Estadísticas de Hungría inicia un proyecto de investigación para dar cuenta de la
información de las industria por país, incluida la medición del volumen de información en bits. La
investigación continúa hasta nuestros días. En 1993, Istán Dienes, científico jefe de la Oficina Central de
Estadística de Hungría, compila un manual para un Sistema Estándar de las Cuentas Nacionales de
Información.

1983, Ithiel de Sola Pool, publica “Tracking the Flow of Information”, en Science. En base e las tendencias de
crecimiento en 17 importantes medios de comunicación desde 1960 a 1977, concluye que “las palabras a
disposición de los estadounidenses (mayores de 10 años) a través de los medios de comunicación, crecieron
a un ritmo de 8,9 por ciento al año, es decir, en efecto se generan a partir de los medios de comunicación en
apenas 2,9% por año. En el período de observación, gran parte del crecimiento en el flujo de información se
debió al crecimiento en la radiodifusión. Pero hacia el final de ese período (1977), la situación cambió: los
medios de comunicación e punto a punto estaban creciendo más rápido que la radiodifusión”. Pool ,Inose,
Takasaki y Hurwitz siguen en 1984 con “Communications Flows: A Cencus in the United States”, un libro
donde comparan los volúmenes de información que se producen en Estados Unidos y Japón.
1986, Hal B. Becker publica “Can Users Really Absobr Data at Today´s Rates and Tomorrow´s Rates? In Data
Communications”. Becker estima que “la densidad de recodificación lograda por Gutenberg fue
aproximadamente de 500 símbolos (caracteres) por pulgada cúbica. 500 veces la densidad de las tablillas de
arcilla (4.000 A.C. en Sumeria). Para el año 2000, la memoria de acceso aleatorio de los semiconductores
debería albergar 1,25 x 10^11 bytes por centímetro cúbico”.
1996, el Almacenamiento Digital se vuelve más rentable para el Almacenamiento de Datos en Papel, de
acuerdo a R.J.T. Morris y B.J. Trukowski, en “The Evolution of Storage Systems”, IBM Systems Journal, Julio 1,
2003.
1997, Michael Cox and David Ellsworth publican “Application controlled demand paging for out of core
visualization” en las Actas de la 8º Conferencia IEEE sobre Visualización. Comienzan el artículo con el hecho
de que la Visualización ofrece un interesante desafío para los sistemas informáticos: los conjuntos de datos
son generalmente bastante grandes, gravado en la capacidad de memoria principal, discos locales y discos
remotos. Llamaron a esto el “Problem of Big Data”. Cuando los conjuntos de datos no caben en la memoria
principal (en el núcleo), o cuando no caben incluso en un disco local, la solución más común es adquirir más
recursos. Es el primer artículo de la biblioteca digital de ACM en utilizar el término “Big Data”.
1997, Michael Lesk publica “How much information is there in the world?”. Lesk concluye que “puede haber
unos pocos miles de petabytes de información contenidos; y la producción de cintas y discos enriquecerán
este nivel para el año 2000”. Así que en sólo unos pocos años: a) Seremos capaces de guardar todo (sin dejar
fuera información alguna, b) la típica pieza de información no podrá ser bloqueada por el ser humano
nunca.
1998, John R. Masey, Jefe Científico de SGI, presenta en una reunión USENIX un artículo titulado “Big Data
and the Next Wave of Infrastress”.
1998, K.G. Coffman y Andrew Odlysko publican “The Size and Growth Rate of the Internet”. Llegan a la
conclusión de que la tasa de crecimiento del tráfico en la Internet Pública , mientras más baja es a menudo
citada, sigue siendo alrededor de 100% por año, muy superior al tráfico en otras redes. Por lo tanto, si las

tendencias de crecimiento actuales continúan, el tráfico de datos en los Estados Unidos superará el tráfico
de voz hacia el año 2002 y será dominado por la Internet. “Odlyzko luego establece los estudios de tráfico de
Internet de Minnesota (MINTS), haciendo un seguimiento del crecimiento del tráfico en Internet desde
2002 a 2009.
1999, Steve Bryson, David Kenwright, Michael Cox, David Ellsworth y Robert Haimes publican “Visually
Exploring Gigabytes data sets in real times”, en Communications of the ACM. Es el primer artículo de la
CACM en utilizar el término “Big Data”. El artículo comienza con la siguiente declaración: “ordenadores muy
potentes son una bendición para muchos campos de la investigación. También son una maldición, cálculos
rápidos arrojan grandes cantidades de datos. Cuando los conjuntos de datos en megabytes alguna vez
fueron considerados grandes, ahora nos encontramos con conjuntos de datos de simulaciones individuales
en el rango de 300 Gigabytes. Pero la compresión de datos resultantes de los cálculos de alta gama debe ser
considerada u esfuerzo significativo. Como más de un científico ha dicho, es simplemente difícil ver todos los
números. Como Richard W. Hamming (matemático y pionero informático) señaló: “El propósito de la
computación es una visión, no números”.
1999, Bryson, Kenwright y Haimes junto a David Banks, Robert van Liere y Sam Uselton discuten en un panel
titulado Automation or Interaction: What´s best for Big Data?”, en la conferencia IEEE de 1999 sobre
Visualización.
2000, Peter Lyman y Hal R. Varian en la UC Berkeley publican “How much information?” Es el primer estudio
exhaustivo para cuantificar, en términos de almacenamiento informático, el importe total de la nueva
Información original (sin contar copias) creado en el mundo anualmente y almacenado en soportes físicos
(papel, película, ópticos –CD o DVD- y de manera magnética). El estudio revela que en 1999, el mundo
produjo alrededor de 1,5 exabytes de información única, o alrededor de 250 megabytes por cada hombre,
mujer y niño en la Tierra. También considera que “se crea una gran cantidad de información única y
almacenada por los individuos (denominado Democratización del a Información), y que no sólo es la
producción de información digital más grande en su totalidad, es también el más rápido crecimiento
acontecido (a lo cual denominan “Dominio de la tecnología Digital”). Lyman y Varian sostienen que “aún
hoy en día, la mayoría de la información textual nace de los digital, y dentro de unos años esto será cierto
para las imágenes también. Un estudio similar realizado en 2003 por los mismos investigadores,
encontraron que en el mundo se produjo alrededor de 5 exabytes de información nueva en el 2002 y que el
92% de la nueva información se almacenó en medios magnéticos, sobre todo en discos duros.
2000, Francis X. Diebold presenta en el VIII Congreso Mundial de la Sociedad Econométrica, un artículo
titulado “Modelos de Big Data Dynamic Factor Model for Macroeconomic Measurement and Forecasting”,
en el que señala que recientemente , en la ciencia, tanto físicos, biólogos o sociólogos, se han visto
obligados a afrontar el Big Data (beneficiándose de él). Grandes volúmenes de datos se refieren a la
explosión en la cantidad (y a veces calidad) de los datos disponibles y potencialmente pertinentes, en gran

parte de los resultados de avances recientes (y sin precedentes) en el registro de datos y la tecnología de
almacenamiento”.
2001, Doug Laney, analista de Meta Group, publica una nota de investigación titulada “3D Data
Management: Controlling Data Volume, Velocity and Cariety”. Una década más tarde, el “3Vs” se han
convertido en las tres dimensiones generalmente aceptadas que definen al Big Data, aunque la palabra no
aparece en la nota de Laney.
2005, Tim O´Reilly publica “What is Web 2.0”, en la que afirma que “los datos son el siguiente remake de
Intel en su interior. Como Hal Varian comentó en una conversación personal: “SQL es el nuevo HTML. La
gestión de base de datos es una competencia básica de las compañías web 2.0, ya que hemos hecho
referencia a estas aplicaciones como limitaciones de infoware en lugar de limitarse al software.
2007, John F. Gantz, David Reinsel y otros investigadores del IDC, lanzan un libro blanco titulado “The
Expanding Digital Universe: A Forecast of Worldwide Information Growth trough 2010”. Es el primer estudio
para estimar y pronosticar la cantidad de datos digitales creados y replicados cada año. El IDC estima que en
2006, el mundo creo 161 exabytes de datos y las previsión entre 2006 y 2010 para la información añadida
anualmente al universo digital se incrementará más de 6 veces a 988 exabytes, o se duplicará cada 18
meses. De acuerdo con las deliberaciones del mismo estudio de 2010 y 2012, la cantidad de información
digital creada anualmente superó esta previsión, alcanzando 1.227 exabytes en 2010, y cada vez mayor a
2.837 exabytes en 2012.
2008, Bret Swanson y George Gilder publican Estimating the Exaflood”, en la que proyectan que el tráfico IP
de Estados Unidos podría alcanzar un zetabyte el año 2015, y que la Internet en Estados Unidos será de por
lo menos 50 veces mayor que en 2006.
2008, Cisco lanza “Cisco Visual Networking Index –Forecast and Methodology 2007 – 2012”. Esta iniciativa
en curso puede seguir y predecir el impacto de las aplicaciones de redes visuales, donde parte del informe
predice que “el tráfico IP casi se duplicará cada 2 años hasta 2012”, y que llegará a la mitad de un zetabyte
en 2012. El pronóstico llevado a cabo, así como el último informe de Cisco (30 de mayo de 2012), estima que
el tráfico IP en 2012 llegará a poco más de medio zetabytes, y señala que se ha multiplicado por 8 en los
últimos 5 años.
2008, Un número especial de Nature of Big Data examina lo que los conjuntos de Big Data significan para la
ciencia contemporánea.
2008, Randal E. Bryant, Randy H. Katz y Edward D. Lazowska publican “Big Data Computing:Creating
Revolutionary Breakthroughs in Commerce, Science and Society”. Ellos describen que “al igual que los
motores de búsqueda, han transformado la forma de acceso a al información. Otras formas de computación
de Big Data pueden y van a transformar las actividades de las empresas, investigaciones científicas, médicas,

y la defensa de la nación, así como las operaciones de inteligencia. La Computación de Big Data es tal vez la
mayor Innovación en informática de las últimas décadas. Sólo hemos comenzado a ver su potencial para
reunir, organizar y procesar datos en todos los ámbitos de la vida. Una modesta inversión por parte del
gobierno federal podría acelerar en gran medida su desarrollo e implementación”.
2009, Roger E. Bohn y James E. Short publican “How much information? 2009 Report on American
Consumers”. El estudio revela que “en 2008 los estadounidenses consumieron la información de
13.000.000.000.000 de horas, un promedio de caso 12 horas al día. El consumo fue de 3,6 zettabytes y
10.845 billones de palabras, que corresponden a 100.500 palabras y 34 gigabytes para una persona
promedio en un día promedio. Bohn, Short y Chattanya Baru posteriormente en Enero de 2011 siguieron
con la publicación “How Much Information? 2010 Report on Enterprise Server Information”. Estiman que en
2008 los servidores del mundo procesaron 9,57 zettabytes de información, casi 10 a la 22 (es decir 10
millones de millones de gigabytes). Esto fue 12 gigabytes de información diarias para el trabajador
promedio, o alrededor de 3 terabytes de información por trabajador al año. La empresas del mundo
procesan en promedio 63 terabytes de información anuales.
2010, Kenneth Cukier publica en “The Economist” un informe especial titulado “Data, Data Everywhere” . El
mundo contiene una inimaginable vasta cantidad de información digital que se está volviendo cada vez más
vasto con mayor rapidez. El efecto se hace sentir en todas partes, desde los negocios hasta la ciencia, desde
los gobiernos hasta las artes. Los científicos y los ingenieros informáticos han acuñado un nuevo término
para el fenómeno: “Big Data”.
2011, Martin Hilbert y Priscilla Lopez publican “The World´s Technological Capacity to Store, Communicate
and Compute Information”. Se estima que la capacidad de almacenamiento de la información del mundo
creció a una tasa compuesto de crecimiento anual del 25% anual entre 1986 y 2007. También estiman que,
en 1986, 99,2% de toda la capacidad de almacenamiento era análoga, pero en 2007 el 94% de la capacidad
de almacenamiento era digital, una revisión completa de las funciones (en 2002, el almacenamiento de
información digital superó a la no digital por primera vez).
2011, James Manyika, Michael Chui, Brad Brown, Jacques Bughin, Richard Dobbs, Charles Roxburgh y Angela
Hung Byers, del Instituto Global McKensey publican “Big Data: The Next frontier for Innovation, Competition,
and Productivity”. Ellos estiman que “para el año 2009, casi todos los sectores de la economía de Estados
Unidos tuvieron por lo menos un promedio de 200 terabytes de datos almacenados (dos veces el tamaño de
almacenamiento de datos del minorista de Estados Unidos Walmart en 1999) por empresa, con más de
1.000 empleados”, y los valores de inversión en servicios liderará en cuanto a los datos almacenados por las
empresas. En total, el estudio estima que 7,4 exabytes de nuevos datos fueron almacenados por las
empresas, y los 6,8 exabytes por los consumidores en 2010.
2012, La Revista International Communication publica una sección especial titulada “Info Capacity” sobre las
metodologías y los resultados de varios estudios que miden el volumen de información. En “Tracking the

flow of information into the home”, Newman, Park y Panek estiman que la oferta total de los medios de
comunicación a los hogares estadounidenses ha aumentado alrededor de 50.000 minutos por día desde
1960 a cerca 900.000 en 2005. Mirando la relación entre oferta y demanda en el año 2005, se estima que las
personas en los Estados Unidos se están acercando a mil minutos de contenido mediada disponibles para
cada minuto disponible para el consumo. En “International Production and Dissemination of Information”,
Bounie y Gille estiman que el mundo produjo 14,7 exabytes de nueva información en el año 2003.
2012, Dana Boyd y Kate Crawford publican “Critcal Question for Big Data”. Ellos definen al Big Data como
“un fenómeno cultural, tecnológico, y académico que se basa en la interacción de tecnología (potencia de
cálculo maximizador y precisión algorítmica para reunir, enlazar y comparar conjuntos de datos grandes); así
como también de Análisis (dibujo de grandes conjuntos de datos para identificar patrones para las
necesidades de reclamaciones económicas, sociales, técnicas y legales); y por último mitológicas (la creencia
generalizada de que los conjuntos de datos de gran tamaño ofrecen una forma más elevada de la
inteligencia y el conocimiento que pueden generar ideas que antes eran imposibles, con el aura de la verdad,
la objetividad y la precisión)”.
DEFINICIÓN DE BIG DATA.-
Luego de verificar los orígenes históricos del Big Data, ¿podemos responder la pregunta acerca de Qué es Big
Data?.
Big Data (Grandes Datos) hace referencia a los Sistemas que
manipulan grandes y complejos conjuntos de datos (data sets), que
se hace difícil procesarlos con herramientas de gestión de base de
datos o aplicaciones tradicionales de procesos de datos. Los
desafíos del Big Data incluyen la “captura, almacenamiento,
búsqueda, poder compartir, análisis y visualización de datos”, en
donde la tendencia es a manipular ingentes cantidades de datos, se
debe a la derivable información adicional a partir del análisis de un
solo gran conjunto de datos relacionados, en comparación con la
separación de conjuntos más pequeños con la misma cantidad total
de datos, permitiendo que las correlaciones que se pueden
encontrar para “detectar tendencias de negocios”, determine la
calidad de la investigación, la prevención de enfermedades,
combatir el delito y determinar las condiciones del tráfico de
carretera en tiempo real
3
. A partir de 2012, los límites al tamaño de
3
The Economist, Data, data everywhere”, http://www.economist.com/node/15557443

los conjuntos de datos que sean factibles para procesar en un período razonable de tiempo, eran del orden
de “exabytes”
4
de datos (lo cual me hace relacionar la “Ley de Moore y la Potencia de micro Procesamiento”,
La “Ley de Almacenamiento Digital Masivo” y La “Ley de Metcalfe y la “Economía de Redes” como los
impulsores Tecnológicos de la Infraestructura de Tecnologías de la Información y Comunicaciones)
5
.
Los científicos se encuentran con regularidad con limitaciones debido a los grandes conjuntos de datos en
muchas áreas, incluyendo la “meteorología, la genómica, conectómica, simulaciones físicas y complejas, así
como la investigación biológica y ambiental”. De igual forma, las limitaciones también afectan la búsqueda
de Internet, finanzas y negocios de la informática. Los conjuntos de datos crecen en tamaño, en parte
debido a que cada vez más se reúnen datos en dispositivos móviles omnipresentes de detección de
información, tecnologías de áreas sensoriales (teledetección), registros de software, cámaras, micrófonos,
lectores de identificación por radiofrecuencia y redes de sensores inalámbricos. Se calcula que la capacidad
per cápita tecnológica del mundo para almacenar la información “se ha duplicado cada 40 meses desde la
década de 1980”
6
. A partir de 2012, todos los días 2,5 trillones de bytes de datos fueron creados. El reto
para las grandes empresas es “determinar quién debe poseer las grandes iniciativas de datos que se sitúan
en toda la organización”.
A continuación un video donde se explica el concepto del Big Data y sus orígenes:
4
A tener presente la siguiente tabla de conversión (en términos de bytes y expresado en sistema internacional decimal):
1 Kilobytes (KB): 1.000 bytes; 2^3.
1 Megabytes (MB): 1.000.000 bytes; 2^6.
1 Gigabyte (GB): 1.000.000.000 bytes; 2^9.
1 Terabyte (TB): 1.000.000.000.000 bytes; 2^12.
1 Petabytes (PB): 1.000.000.000.000.000 bytes; 2^15.
1 Exabytes (EB): 1.000.000.000.000.000.000 bytes; 2^18.
1 Zettabytes (ZB): 1.000.000.000.000.000.000.000 bytes; 2^21.
1 yottabytes (YB): 1.000.000.000.000.000.000.000.000 bytes; 2^24
5
Ley de Moore y la Potencia de Microprocesamiento: Desde la aparición del primer chip de microprocesador en 1959,
se había duplicado cada año la cantidad de componentes en un chip con los costos de manufactura más bajos por
componentes”. De acá surgen derivaciones de la Ley de More al respecto (“La potencia de los microprocesadores se
duplica cada 18 meses” –Gates, 1997-; “La potencia de cómputo se duplica cada 18 meses”; “El Precio de la
computación se reduce a la mitad cada 18 meses).
Ley de Almacenamiento Digital Masivo: “La cantidad de información digital se duplica más o menos cada año (Lyman y
Varian, 2003)”. En el mundo se producen alrededor de 5 exabytes de información exclusiva cada año (un exabytes
equivale a mil millones de gigabytes).
Ley de Metcalfe y la Economía de Redes: “El Valor o potencia de una Red, crece exponencialmente como una función de
la cantidad de miembros de una red”. A medida que aumentan linealmente, el valor total del sistema aumenta
exponencialmente y continúa creciendo siempre conforme se incrementan los miembros (Efecto Economía de Redes y el
Crecimiento de Internet). Kenneth C. Laudon & Jane P. Laudon, “Sistemas de Información Gerencial: Administración de
la Empresa Digital”, (Impulsores de la Evolución de la Infraestructura), Pearson Pretince Hall, Décima Edición.
6
Science 332 (6065)Hilbert, Martin; López, Priscilla (2011), “The World´s Technological Capacity to Store,
Communicate, and Compute Information”, http://martinhilbert.net/WorldInfoCapacity.html

El Big Data es difícil de trabajar con uso de software y aplicaciones de gestión de base de datos relacionales,
y la mayoría de las estadísticas de escritorio y paquetes de aplicaciones de visualización, lo que implica
requerir de “procesamiento paralelo masivo que se ejecute en decenas, cientos o incluso miles de
servidores” en su lugar. ¿A qué se considera Big Data? Varía dependiendo de la capacidad de la organización
de gestión conjunta, así como de las capacidades de aplicaciones que se utilizan tradicionalmente para
procesar y analizar los datos que configuran su dominio de acción. Para algunas organizaciones, enfrentar
cientos de gigabytes de datos por primera vez, puede desencadenar la necesidad de reconsiderar las
opciones de gestión de datos. Para otros, puede tomar decenas o cientos de terabytes antes de que los
datos se conviertan en una consideración importante.
El concepto de Big Data por lo general incluye “los conjuntos de datos con tamaños mas allá de la capacidad
de las herramientas de software utilizadas para Capturar, Co-adjuntar, Gestionar y Procesar los datos dentro
de un tiempo transcurrido tolerable. El Big Data tiene un objetivo en constante movimiento, que a partir de
2012 van desde unas pocas decenas de terabytes a muchos petabytes de datos de un solo conjunto de
datos. Por tal motivo, no es de extrañar que muchos usuarios comunes y corrientes, hoy en día se nos
presente la necesidad de tener que trabajar con equipos computacionales (fijos o móviles), incluso unidades
de almacenamiento externas con capacidades por sobre 1 terabytes, ¡que no es nada! (o en su defecto, con
capacidades similares de almacenamiento en el Cloud -modelo de computación en la Nube-, tal como me
pasó días atrás.
El objetivo se mueve debido a la constante mejora en la tecnología de DBMS (Sistema de Gestión de Base de
Datos) tradicional, así como consecuencia de las nuevas bases de datos como NoSQL y su capacidad para
manejar grandes cantidades de datos. Con esta dificultad, se están desarrollando nuevas plataformas de Big
Data, como herramientas para manejar varios aspectos de grandes cantidades de datos.

En un informe de investigación de 2001 y conferencias relacionadas a Meta Group, el analista Doug Laney
define los “retos y oportunidades del crecimiento de datos en: La Velocidad en tres dimensiones, la cual se
refiere al aumento del volumen de datos (cantidad de datos, velocidad de datos interna y externa, y la
variedad o gama de tipo de datos y fuentes)”. Tanto Gartner como gran parte de la industria, siguen
utilizando este modelo “3Vs” para describir los grandes volúmenes de datos
7
. El 2012, Gartner actualizó su
definición sobre Big Data, sosteniendo que el “Big Data es de gran volumen y velocidad y/o de alta
diversidad en los activos de información que requieren las nuevas formas de procesamiento, para permitir la
toma de decisiones mejorada, visión, descubrimiento y optimización de procesos”
8
.
Actualmente se sigue utilizando la definición de Gartner (las 3Vs), con la adición de nuevas “Vs” añadidas
por los departamentos de Marketing de las organizaciones. La creciente madurez del concepto fomenta una
mayor diferencia de sonido entre el Big Data y la Inteligencia de Negocios (Business Intelligence) con
respecto a los datos y su uso
9
:
 Business Intelligence utiliza estadística descriptiva con datos de alta densidad e información para medir
sucesos, detectar tendencias, entre otros.
 Big Data utiliza estadísticas inductivas con datos con baja densidad de información, cuyo gran volumen
permite inferir leyes (regresiones, entre otros) y dando así con los límites del razonamiento de inferencia
para algunas capacidades predictivas del Big Data..
El mundo Académico y el Big Data.
Dentro del mundo de generación de conocimiento académico, podemos citar a lo que acontece en, por
ejemplo el Massachusetts Institute Technology, MIT, quienes el 31 de Mayo de 2012 anunciaron que habían
sido seleccionados entre 55 instituciones que presentaron 157 propuestas para albergar un nuevo “Centro
de Investigación de Intel” que se centraría en el “Big Data”. El Centro de Investigación de Intel es la piedra
angular de una nueva iniciativa de CSAIL, conocido como “Big Data @ CSAIL”, dirigido por el profesor
adjunto Sam Madden y el Profesor Adjunto Michael Stonebreaker, ambos del Departamento de Ingeniería
Eléctrica y Ciencias de la Computación del MIT. Además de Intel, los patrocinadores de la iniciativa incluyen
a AIG, EMC, SAP y Thompson Reuters, Microsoft, Samsung. El MIT patrocina varios programas, incluyendo
un programa de becas, un programa de prácticas y un proyecto para investigar “cómo las tecnologías de Big
Data pueden mejorar al gobierno”. Como parte de centro de Ciencias y Tecnología en el CSAIL, Intel contrata
a un puñado de investigadores que se encuentran en Cambridge y trabajan en estrecha colaboración con
7
Gartner, “Gartner says Solving Big Data Challenge involves more than just managing volumes of Data”,
Beyer, Mark, 27 de Junio de 2011, Gartner, http://www.gartner.com/newsroom/id/1731916 .
8
Douglas, Laney, “The Importance of Big Data: A Definition”, Gartner, 21 de Junio de 2012,
http://www.gartner.com/DisplayDocument?id=2057415&ref=clientFriendlyUrl
9
Wikipedia, “Big Data”, http://en.wikipedia.org/wiki/Big_data

profesores del MIT en tecnologías relacionadas con grandes volúmenes de datos. Investigadores de las
Universidades de California en Santa bárbara, Universidad Estatal de Portland, Universidad Brown,
Universidad de Washington y la Universidad de Stanford también están afiliados a la Central. Intel, en una
primera etapa comprometió US$ 2,5 millones al año para el centro, al menos durante los próximos 3 años,
con un compromiso de dos años adicionales, de ser posible, si el centro pasa una revisión cada 3 años.
Al respecto, el día de la inauguración del centro, se sostuvo que “estamos siendo testigos de un período de
crecimiento sin precedentes en el formato digital de Datos No Estructurados en la Web, así como en la
Nube. Esto sólo se acelerará aún más a través del rápido crecimiento de los dispositivos móviles como
smartphones y automóviles conectados”. Justin Rattner, (CTO de Intel) dijo que “si bien esta cantidad de
datos ya es asombrosa, el futuro lo harán palidecer en comparación con la cantidad de datos que se
generarán en tiempo real con la “Internet de las Cosas (Internet of Things)”, que es una red prevista para
conectar dispositivos informáticos incorporados en artículos para el hogar común”. Si pensamos que esto es
una gran cantidad de datos, debemos prepararnos, ya que aún no hemos visto nada. “El Big Data se ha
convertido en una de las nuevas frases sexys”, añadió Susan Hockfield (Presidente del MIT)
10
.
El objetivo del BigData@CSAIL es “identificar y desarrollar las tecnologías necesarias para resolver los
desafíos de datos de próxima generación que requieren la capacidad de escalar más allá de lo que las
plataformas informáticas de hoy en día poseen, los algoritmos y los métodos que pueden proporcionar.
Buscan que las personas puedan aprovechar realmente el Big Data mediante el desarrollo de plataformas
que sean reutilizables, escalables y fáciles de implementar a través de varios dominios de aplicación”.
El enfoque del BigData@CSAIL incluye dos aspectos fundamentales:
 Colaborar estrechamente con la industria para proporcionar las aplicaciones del mundo real y el impacto
que puedan conducir.
 El problema del Big Data es considerado como un problema fundamentalmente multidisciplinario.
El equipo al respecto, está conformado por profesores e investigadores en muchas áreas relacionaras con la
tecnología, incluyendo algoritmos, arquitectura, gestión de gatos, aprendizaje automático, la privacidad y
seguridad de datos, interfaces de usuario y visualización, así como expertos en el campo de las finanzas, la
medicina, la infraestructura inteligente, la educación y la ciencia
11
.
10
MIT News, MIT, Intel univeil new initiatives addressing Big Data”, May 31, 2012,
http://web.mit.edu/newsoffice/2012/big-data-csail-intel-center-0531.html
11
BigData@CSAIL, http://bigdata.csail.mit.edu/

Tipo de Información que trata el Big Data.
Muchas organizaciones se enfrentan a la
pregunta sobre ¿Qué información es la que se
debe analizar? Sin embargo, la pregunta que
debemos hacernos es ¿Cuál es el problema que
se está tratando de resolver?.
Si bien sabemos que existe una amplia variedad
de tipos de datos a analizar, una buena
clasificación nos ayudaría a entender mejor su
representación, aunque es muy probable que
estas categorías puedan extenderse con el
avance tecnológico.
Internet y Social Media: Incluye contenido Web
e información que es obtenida de las redes
sociales como Facebook, Twitter, LinkedIn, Blogs,
entre otros.
Máquina a Máquina (M2M): Se refiere a las
tecnologías que permiten conectarse a otros
dispositivos. M2M utiliza dispositivos como sensores o medidores que capturan algún evento en particular
(velocidad, temperatura, presión, variables meteorológicas, variables químicas, etc.), los cuales se
transmiten a través de redes alámbricas, inalámbricas o híbridas a otras aplicaciones que traducen estos
eventos en información significativa.
Grandes Datos de Transacciones: Incluye registros de facturación, registros de telecomunicaciones
detallados de las llamadas (CDR), grabaciones, etc. Estos datos transaccionales están disponibles en
formatos tanto semiestructurados como no estructurados.
Biometría: Información biométrica en la que se incluye huellas digitales, escaneo retinal, reconocimiento
facial, genética, etc. En el área e seguridad e inteligencia, los datos biométricos han sido información
importante para las agencias de investigación.

Generado por Humanos: Las personas generamos diversas cantidades de datos, como la información que
guarda un Call Center al establecer una llamada telefónica, notas de voz, correos electrónicos, documentos
electrónicos, estudios médicos, imagen, etc.
12
De esta forma en el retail, por ejemplo:
Back-Office: Los repositorios de datos, muy extendidos en las organizaciones, que normalmente se
concentran en sistemas ERP, Datos Transaccionales y Operativos, así como DataWarehouse con información
analítica e histórica, necesariamente deberán evolucionar y combinarse con el Big Data (tanto en materia de
información estructurada como no estructurada).
Front-Office: Los Sistemas de Relación con los Clientes o Usuarios, con toda probabilidad también deberán
evolucionar en paralelo o en conjunto con el Big Data, tanto en materia de tratamiento de información para
Segmentación, Fidelización, Operatividad en Intranet Corporativas, Sistemas basados en Web, lenguaje y
servicios, conviviendo también con datos estructurados como no estructurados en sus repositorios de back-
Office que nutrirán los indicadores de sus Data Warehouse.
Ventas: Esto va más allá de las transacciones generadas por caja (ya integradas en el back-office). Una de las
grandes revoluciones se refiere a la “Internet de las Cosas” (Internet of Things), donde todos los dispositivos,
sensores o controladores transmiten datos, los cuales recogidos, procesados y refinados pueden entregar
mucha información. Por ejemplo, la información generada por los Códigos QR, RFID, Realidad Aumentada,
Dispositivos de Neuromarketing, Gafas o Relojes Inteligentes, etc., constituirán todo un nuevo universo por
explorar y explotar. Sin embargo, además estos dispositivos podrán “relacionarse” con otros dispositivos,
interactuar, ser activados o desactivados por otros, entre otras actividades e interacciones, para lo cual
utilizarán canales ya desarrollados como Internet, Cloud y/o Movilidad. Por tanto, entramos a un territorio
mucho más complejo e inexplorado ¿cómo responder a la gran cantidad de dispositivos que existen y que
existirán? ¿cuáles serán más importantes? ¿cómo afectarán a las métricas tradicionales? ¿deberemos
utilizar nuevas métricas? ¿cómo mediremos la rentabilidad? ¿cómo afectará esto a nuestros actuales y
futuros modelos de negocios?, entre otros.
La conectividad llevará a cabo cambios fundamentales y determinantes en los siguientes años (ultra
conectividad) con variedad de dispositivos móviles y explosión de las redes sociales, en conjunto con la
llegada del Cloud Computing (Datos en la Nube), afectando los Sistemas Back y Front Office en cuanto a
almacenamiento de datos, formas de trabajo, relacionamiento, modelos de negocios, tipos de relaciones
con los clientes/usuarios y las organizaciones, donde también evolucionarán con respecto a la información
estructurada y no estructurada que se genera.
12
IBM, Ricardo barranco Fragoso, ¿Qué es Big Data?, DevelopWorks, 18/06/2012,
http://www.ibm.com/developerworks/ssa/local/im/que-es-big-data/index.html?cmp=BS&ct=SocialMedia&cr=twitter

La complejidad, velocidad y volatilidad de estos tipo de datos y cantidades de información, son los actuales y
futuros retos fundamentales a los que debe(rá) responder los Sistemas Big Data, donde la Selección, Filtro,
Volúmenes de Datos (diferentes y complejos), así como las tecnologías y negocios, serán las dos caras de
una misma pero diferente moneda que actualmente conocemos
13
.
ARQUITECTURA DEL BIG DATA.-
Como hemos visto, el Big Data es un concepto que se aplica a toda aquella información que no puede ser
procesada o analizada usando procesos o herramientas convencionales debido al enorme volumen de datos
sobre el cual hay que trabajar.
En 2004, Google publicó un documento sobre un Proceso llamado “MapReduce”, que utiliza dicha
arquitectura. El marco MapReduce ofrece un “modelo de programación paralela y la aplicación asociada
para procesar gran cantidad de datos”. Con MapReduce, las consultas se dividen y se distribuyen a través de
los nodos paralelos y procesan en paralelo (el paso Mapa). Los resultados luego se reúnen y se entregan (el
paso Reducir). Esto implica que MapReduce se ejecuta en dos procesos por separado (Map y Reduce,
considerando paralelismo, escalabilidad, tolerancia a fallos y curva de aprendizaje elevada. El resultado fue
un éxito increíble, lo cual condujo a que otros repitieran el algoritmo. Por lo tanto, una implementación de
MapReduce fue adoptado por un proyecto de Código Abierto llamado Hadoop. Las características generales
de Hadoop involucran: Open Source, desarrollado inicialmente por Yahoo, administrado por Apache
Software Foundation, Diseñado para trabajar con volúmenes de datos en petabytes, ofrece alta
disponibilidad, así como escalamiento horizontal. Hadoop ha tenido muy buena aceptación en el mercado,
tras lo cual muchas tecnologías de desarrollo se han basado en Hadoop. Además, ofrece una Curva de
Aprendizaje elevada, no se constituye como una base de datos y no es en tiempo real.
En general, las organizaciones han atacado esta problemática desde diferentes ángulos. Todas esas
montañas de información han generado un costo potencial al no descubrir el gran valor asociado al Big
Data. Desde luego, el ángulo correcto que actualmente tiene el liderazgo, en términos de popularidad para
analizar cantidades de información, la tiene la plataforma de Código Abierto Hadoop.
Hadoop
14
está inspirado en el proyecto de Google, Google File System (GFS), y en el paradigma de
programación MapReduce, el cual como ya se adelantó anteriormente, consiste en “dividir en dos tareas
(Mapper – Reducer) la manipulación de datos distribuidos a nodos de un clúster, logrando un alto
13
A partir de XAMQ, Francesc Máñez, “Big Data: Origen de los Datos”, 01/04/2013,
http://www.qmaxsl.com/bqmax/big-data-origen-de-los-datos/
14
IBM, Ricardo Barranco Fragoso, ¿Qué es Big Data?, DeveloperWorks, 18/06/2012,
http://www.ibm.com/developerworks/ssa/local/im/que-es-big-data/index.html?cmp=BS&ct=SocialMedia&cr=twitter

paralelismo en el procesamiento. Hadoop está compuesto de tres piezas fundamentales: Hadoop Distributed
File System (HDFS), Hadoop MapReduce y Hadoop Common.
Hadoop Distributed File System (HDFS): Los datos en el clúster de Hadoop son
divididos en pequeñas piezas llamadas “bloques” y distribuidas a través del
clúster. De esta forma, las funciones “Map” y “Reduce” pueden ser ejecutadas
en pequeños subconjuntos, lo cual permite proveer de la “Escalabilidad”
necesaria para el procesamiento de grandes volúmenes.
En la figura adjunta, se ejemplifica como los bloques de datos son escritos hacia
HDFS. Observe que cada bloque es almacenado tres veces, y al menos un
bloque se almacena en un diferente rack par lograr redundancia.
Hadoop MapReduce: MapReduce es el núcleo de Hadoop. El término en
realidad se refiere a dos procesos separados que Hadoop ejecuta. El primer
proceso, “Map” toma un conjunto de datos y los convierte en otro conjunto
donde los elementos individuales son separados en “tuplas” (pares de llave/valor). El proceso “Reduce”
obtiene la salida de Map como datos de entrada y combina las tuplas en un conjunto más pequeño de las
mismas. Una fase intermedia, denominada “shuffle” obtiene las tuplas del proceso Map , y determina qué
nodo procesará estos datos, dirigiendo la salida a una tarea Reduce en específico.
La figura adjunta, ejemplifica un flujo de datos en un proceso sencillo de MapReduce.
Hadoop Common: Se constituye como un conjunto de librerías que soportan varios subproyectos de
Hadoop.
Además de estos tres componentes principales de Hadoop, existen otros proyectos relacionados, los cuales
son definidos a continuación.

Avro: Es un proyecto de Apache, el cual provee servicios de serialización. Cuando se guardan datos de un
archivo, el esquema que define ese archivo es guardado dentro del mismo. De este modo es más sencillo
para cualquier aplicación leerlo posteriormente, puesto que el esquema está definido dentro del archivo.
Cassandra: Es una base de datos no relacional distribuida (y basada en un modelo de almacenamiento de
“llave-valor”) desarrollada en Java. Permite grandes volúmenes de datos en forma distribuida. Twitter es
una de las empresas que utiliza Cassandra dentro de su plataforma.
Chukwa: Diseñado para la colección y análisis a gran escala de “logs”. Incluye un toolkit para desplegar los
resultados del análisis y monitoreo.
Flume: Tal como su nombre lo indica, su tarea principal es “dirigir los datos de una fuente hacia alguna otra
localidad”, en este caso, hacia el ambiente Hadoop. Existen tres entidades principales: Source, Decorators y
Sinks. Un Source, es básicamente cualquier fuente de datos. Sink se refiere al destino de una operación en
específico. Decorator es una operación dentro del flujo de datos que transforma esa información de alguna
manera, por ejemplo comprimir o descomprimir los datos o alguna otra operación en particular sobre los
mismo.
HBase: Es una base de datos columnar (colum-oriented database) que se ejecuta en HDFS. HBase no soporta
SQL, de hecho, HBase no es una base de datos relacional. Cada tabla contiene filas y columnas como una
base de datos relacional. HBase permite que muchos atributos sean agrupados, llamándolos Familias de
Columnas, de tal manera que los elementos de una familia de columnas son almacenados en un solo
conjunto. Esto es distinto a las bases de datos relacionales orientadas a filas, donde todas las columnas de
una fila son almacenadas en conjunto. Facebook utiliza HBase en su plataforma desde noviembre de 2010.
Hive: Es una infraestructura de Data Warehouse que facilita administrar grandes conjuntos de datos que se
encuentran almacenados en un ambiente Distribuido. Hive tiene definido un lenguaje similar a SQL llamado
Hive Query language (HQL). Estas sentencias HQL son separadas por un servicio de Hive, y son enviadas a
procesos MapReduce ejecutados en el clúster de Hadoop.
Jaql: Fue donado por IBM a la comunidad de software libre. Query language for Javascript Objet Notation
(JSON) es el lenguaje funcional y declarativo que permite la explotación de datos en formato JSON diseñado
para procesar grandes volúmenes de información. Para explotar el paralelismo, Jaql rescribe los queries de
alto nivel (cuando es necesario) en queries de bajo nivel para distribuirlos como procesos MapReduce.
Lucene: Es un proyecto de Apache, bastante popular para realizar búsquedas sobre textos. Lucene provee de
librerías para indexación y búsqueda de texto. Ha sido principalmente utilizado en la implementación de
motores de búsqueda (aunque hay que considerar que no tiene funciones de “crawing” ni análisis de
documentos HTML ya incorporadas). El concepto a nivel de arquitectura de Lucene es simple: básicamente
los documentos (documents) son divididos en campos de texto (field) y se genera un índice sobre estos

campos de texto. La indexación es el componente clave de Lucene, lo que le permite realizar búsquedas
rápidas e independientes del formato del archivo (ya sean PDFs, documentos HTML, etc.).
Oozie: Como pudieron haber notado, existen varios procesos que son ejecutados en distintos momentos, los
cuales necesitan ser orquestados para satisfacer las necesidades de tan complejo análisis de información.
Oozie es un proyecto de Código Abierto que simplifica los flujos de trabajo, y la coordinación entre cada uno
de los procesos. Permite que el usuario pueda definir acciones y las dependencias entre dichas acciones.
Un flujo de trabajo de Oozie es definido mediante un grafo a cíclico llamado Directed Acyclical Graph (DAG),
y es a cíclico puesto que no permite ciclos en el grafo, es decir, solo hay un punto de entrada y de salida, y
de todas las tareas y dependencias, parten del punto inicial al punto final sin puntos de retorno. Un ejemplo
de un flujo de trabajo en Oozie se representa en la figura adjunta.
Pig: Inicialmente desarrollado por Yahoo! para permitir a los usuarios de Hadoop enfocarse más en analizar
todos los conjuntos de datos, y dedicar menos tiempo en conseguir los programas MapReduce. Tal como su
nombre lo indica, al igual que cualquier “cerdo” que come cualquier cosa, el lenguaje Piglatin fue diseñado
para manejar cualquier tipo de dato, donde Pig es el ambiente de ejecución donde estos programas son
ejecutados, de manera muy similar a la relación entre la máquina virtual de Java (JVM) y una aplicación Java.
ZooKeeper: Es otro proyecto de Código Abierto de Apache, el cual provee de una infraestructura
centralizada y de servicios que pueden ser utilizados por aplicaciones para asegurarse de que los procesos a
través de un clúster sean serializados o sincronizados. Internamente en ZooKeeper una aplicación puede
crear un archivo que se persiste en memoria en los servidores ZooKeeper llamado Znode. Este archivo Znode
puede ser actualizado por cualquier nodo en el clúster, y cualquier nodo puede registrar que sean informado
de los cambios ocurridos en ese Znode, es decir, un servidor puede ser configurado para “vigilar” un Znode
en particular. De este modo, las aplicaciones pueden sincronizar sus procesos a través de un clúster

distribuido actualizando su estatus en cada Znode, el cual informará al resto del clúster sobre el estatus
correspondiente de algún nodo en específico.
Como podrán observar, más allá de Hadoop, una plataforma de Big Data consiste en todo un ecosistema de
proyectos que en su conjunto permiten simplificar, administrar, coordinar y analizar grandes volúmenes de
información.
Dentro de los usuarios de Hadoop, tenemos a: AOL, IBM, Yahoo, LinkedIn eBay, The New York Times,
Twitter, entre otros.
15 16
A continuación, un video que explica el concepto de Big Data, sus dimensiones:
Respecto a las Tecnologías que trabajan en el Big Data, éste requiere tecnologías excepcionales para
procesar eficientemente grandes cantidades de datos dentro de los tiempos transcurridos de manera
tolerable (además de los proyectos anteriormente citados). En 2011, un informe de McKinsey sugiere que
las tecnologías adecuadas para el Big Data deben incluir: las Pruebas A/B, las de regla de asociación de
aprendizaje, clasificación de conglomerados crowdsourcing, fusión de datos y la integración y aprendizaje
conjunto, algoritmos genéticos, aprendizaje automático, procesamientos del lenguaje natural, redes
neuronales, reconocimiento de patrones, detección de anomalías, modelos predictivos, modelos de
regresión, análisis de los sentimientos, procesamiento de señales, supervisión y no supervisión de l
aprendizaje, simulación, análisis de series temporales y la visualización. Los Grandes volúmenes de Datos
multidimensionales también pueden ser representados como tensores, tales como el aprendizaje sub-
espacio multilineal. Las tecnologías adicionales que se aplican a grandes volúmenes de datos incluyen bases
15
Google Inc, Jeffrey Dean, Sanjay Ghemawat, “MapReduce: Simplified Processing on Large Clusters”,
http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/es//archive/mapreduce-
osdi04.pdf
16
Globant, ,”MapReduce: Arquitectura BigData”, bigdata.globant.com/wp-content/uploads/2012/07/Apache-Pig-1.ppt

de datos masivas de procesamiento paralelo (MPP), búsqueda de aplicaciones de búsqueda, minería de
datos, redes de sistemas de archivos distribuidos, bases de datos distribuidas, la infraestructura basada en el
Cloud (aplicaciones, almacenamiento y recursos informáticos) e Internet.
Si queremos saber cómo actúa el Big Data, y verlo en acción, es fácil imaginarlo. Por ejemplo, veamos el
caso del Big Data aplicado a la industria del Mercado de Capitales (Fondos de Cobertura y Gestión de Activos
y Riqueza). Según Rachel West,
17
, por ejemplo, hoy en día, las empresas financieras (que vienen saliendo de
una de las peores crisis de crédito en la historia reciente), han aprendido las lecciones de las limitaciones de
los datos e incompletos de modelos fragmentarios, para la gestión de sus carteras y toma de decisiones
(hacerlas más sensibles a sus necesidades en tiempo real). La información impulsa a estas empresas a querer
aprovechar la información de Inteligencia (INTEL) que juega un papel fundamental en la Optimización del
Uso del Capital y la Gestión de sus Riesgos. Hoy en día existe la necesidad de “una Estrategia Práctica y la
Aplicación Especifica para Análisis de Big Data”. Todos los problemas y programas complejos implican una
Curva de Aprendizaje, y en el caso de hacer frente a grandes volúmenes de datos no es la excepción.
Algunas firmas financieras deben volverse a pensar sobre los modelos existentes y el análisis de gestión de
riesgos alimentados por tecnologías Big Data de código abierto disponibles. Deben tener cuidado de los
retos ocultos que plantea la estrategia de “hágalo usted mismo” (o “hecho en casa”) en temas de Análisis de
Big Data, donde se toma un enfoque de “ensayo y error”. Para ayudar a sus clientes a moverse más allá de
exploraciones aleatorias, deben moverse a realidades empresariales con Big Data, comenzando con un
sólido Análisis de Grandes Volúmenes de Datos para uso comercial y procesos de inversión, tanto para el
lado de la compra, como para el de las empresas.
Se debe aprovechar el Big Data para Analizar la Exposición de Portfolios. La primera pregunta que deben
plantearse es ¿Cuál es la exposición? La exposición se refiere a la cantidad de fondos que se invierten en un
determinado tipo de sector, que por lo general se expresan como un porcentaje del total de las
explotaciones de cartera. Por lo tanto, la exposición viene siendo la “cantidad de fondos que un inversor
tiene sumado al riesgo de pérdida que enfrenta (es la exposición de una cartera a valores particulares). Los
Mercados y sectores deben ser considerados al determinar la asignación de los activos. Son las respuestas a
las preguntas fundamentales que pueden ayudar a la rentabilidad del capital, y si se lleva a cabo
correctamente, también minimiza las pérdidas. EJ: ¿Cuál es la exposición al riesgo total de la cartera por
sector? Al leer acerca de las noticias financieras en Europa, ¿tiene a su alcance la información necesaria para
comprender sus efectos en su cartera y ajustar sus decisiones en consecuencia? ¿Cuáles son sus posiciones
largas y cortas de cartera en moneda euro? ¿cómo lo ha combinado en los últimos 2 a 3 años?
Esas preguntas son tan relevantes para los Gestores de Cartera y Operadores, así como para los Gestores de
Riqueza, Auditores Internos, Asesores Financieros, quienes deben supervisar cuidadosamente las
17
Forbes, Rachel West, Big Data in Action –Let´s Get Starterd”, 24/06/2013,
http://www.forbes.com/sites/emc/2013/06/24/big-data-in-action-lets-get-started/

inversiones y el cumplimiento de los requisitos reglamentos de la empresa. Sin embargo, el Análisis de
Exposición de la Cartera hoy es una suerte de malabares con bolas (de diferentes formas, tamaños y pesos).
Dentro de los Desafíos ¿cuáles son los puntos “dolorosos” en el Análisis de Exposición? Dificultad en el
recoger la información de todos los datos disponibles/relevantes de diferentes mercados, comentarios de
analistas, noticias y eventos en tiempo real. No se pueden predecir los mercados o predecir el futuro.
Carecen de la capacidad de crear escenarios de modelado interactivo para posibles eventos. Es difícil de
“tamizar” a través de la gran cantidad de transacciones en tiempo real para detectar posiciones de riesgo.
Además no se pueden acceder rápidamente a grandes cantidades de Datos históricos para una rápida y
compleja modelización de comercio. Los análisis y presentación de informes cuentan con múltiples pasos y
“silos” elaborados por diferentes grupos con diferentes aplicaciones tecnológicas. La falta de “capacidades
de consultas ad-hoc y presentación de informes sobre la exposición agregada a través de las carteras de
múltiples activos y cuentas de clientes”, son un problema.
Dentro de las Oportunidades, ¿Cuáles son los Beneficios del Análisis de Big Data? La verdad es que son
bastantes, muy rentables, altamente Escalable, de Alto Rendimiento y grandes herramientas de Análisis de
Datos de Baja Latencia, se disponen en los últimos años para ayudar en la recolección y carga de datos de
todas las fuentes de datos, desde los Almacenes de Datos Existentes para alimentación interna y externa, así
como archivos de terceras partes. Con la próxima generación de Plataformas de Análisis, los profesionales
de Gestión de Inversiones no tendrán que luchar durante horas o días para crear escenarios ricos y realistas
de información para analizar el impacto de un determinado mercado, la seguridad o la exposición al sector
de sus inversiones cuando un evento se desarrolla. Ellos pueden convertirse rápidamente en un solo lugar,
en un instante, con la información precisa sobre su cartera y el seguimiento con múltiples dimensiones de
datos sobre exposición para su mejor curso de acción. La nueva solución de análisis de exposición permite a
los usuarios:
 Integrar Datos del Mercado, Noticias y Eventos (anuncios de resultados trimestrales, el PIB, tasa de
desempleo, tasa de interés, inflación, etc.) en el Análisis de Exposición.
 Analizar diferentes niveles de exposición (transacción, posición, cuenta, contraparte para diversos valores,
clases de activos, el sector, así como el mercado, en la marcha o casi en tiempo real para el desarrollo más
eficaz para las estrategias de mitigación de riesgo y el comercio.
 Previsión de casos en el futuro a través de diferentes escenarios modelados a partir de informes de prensa
y el sentir de los medios.
Si bien, el seguimiento de las exposiciones de los distintos fondos es esencial, aún más importante es saber
sobre la Gestión Total de la Cartera en todo momento. Al obtener una Visión completa de la información
geográfica, sectores, estrategia, la capitalización de mercado o exposiciones de valores, los administradores
de inversión pueden decidir reasignar o re-equilibrar sus carteras.

Los Administradores de Cartera también pueden comparar información de la exposición con los pesos de las
carteras, la liquidez y la atribución a través del tiempo. De esta manera, se pueden detectar las tendencias
más importantes de la gran cantidad de puntos de datos históricos a través de los panales de control, que
proporcionan la visualización de datos gráfica de manera intuitiva, por lo que las excepciones se destacan
con alertas sobre anomalías de exposición.
La “Convergencia de Business Intelligence (Inteligencia de Mercado) y Análisis de Big Data” es
fundamental. En este caso requiere de uso de análisis minuciosos y trabajar con grandes volúmenes de
datos (de fuentes externas e internas) para desarrollar modelos predictivos precisos, cada empresa tiene
que pasar por esto para tener capacidad de análisis de Big Data más tangibles para sus usuarios.

BIG DATA Y LA INNOVACIÓN GLOBAL DE SERVICIOS (ACTUAL Y FUTURA).-
Como podemos darnos cuenta ahora, el tema del Big Data no es nuevo en cuanto a sus orígenes. Sin
embargo, la consecuencias de esta Innovación Tecnológica está tomando ribetes insospechados
actualmente, tanto en temas de oportunidades de negocios, así como oportunidades de Innovación y
evolución en todo ámbito de temas, áreas e industrias (incluso en nuestros hábitos diarios como
consumidores y ciudadanos comunes y corrientes).
Aplicaciones del Big Data Actualmente.
Según Luis Martin
18
, la primera gran necesidad del Big Data, es el propio almacenamiento de los datos.
Cuando se llega a esta magnitud, es difícil diseñar una estructura monolítica que pueda albergar toda la
información. Se imponen “soluciones distribuidas”, pero que permitan el acceso a las fuentes de información
de forma unificada. En muchas aplicaciones para Internet, es necesario además que estos datos se
almacenen y procesen rápidamente para ofrecer “análisis en tiempo real”. Es necesario también considerar
la naturaleza y estructura de los datos, que en estos casos suele ser bastante heterogénea. Las soluciones
basadas en “bases de datos no relacionales (NoSQL)” ofrecen una mejor adaptación a este escenario que
otras tradicionales en la mayor parte de los casos.
Una vez que se ha conseguido dar con una “solución para el almacenamiento” y acceso de grandes
cantidades de datos, un gran número de aplicaciones emergen de la posibilidad de realizar análisis sobre los
mismos. Las tecnologías de análisis distribuido de los datos, tales como “Hadoop y MapReduce” ofrecen
esta funcionalidad, abriendo un gran número de posibilidades de aplicación como las que se listan a
continuación:
 Sistemas de recomendación: Utilizan la información de comportamiento de cada usuario para predecir
sus intenciones e intereses, y ofrecerles así contenidos adecuados. Son muy utilizados en Comercio
Electrónico.
 Análisis de Sentimientos: Basándose en conversaciones públicas (EJ: Twitter, foros) y otros elementos
2.0, se intentan predecir los gustos y el comportamiento de cada usuario con finalidad de diferente tipo.
 Predicción de Catástrofes: Las grandes cantidades de datos disponibles se utilizan en la detección de
eventos como incendios o terremotos, de tal manera que se pueda predecir su impacto y generar una
reacción temprana.
 Juegos: Ajedrez (Deep Blue) o Preguntas (Watson) son ejemplos de programas que analizan grandes
cantidades de datos de partidas para derrotar a contrincantes humanos.
 Categorización y Reconocimiento: De lugares, caras o personas, mediante el análisis del gran volumen
de datos de este tipo disponible online.
18
BrainsSINS, Luis Martin, “Big Data: Necesidades y Aplicaciones”, http://www.brainsins.com/es/blog/big-data-
necesidades-y-aplicaciones/103589

 Medicina: La medicina genómica personalizada (aún en el campo de la investigación) analiza e integra
datos genómicos y clínicos para el diagnóstico precoz y una mejor aplicación de las terapias.
 Comportamiento Inteligente de Servicios Públicos: Utilizando la información proveniente de datos
recopilados por sensores inteligentes puede mejorarse la distribución y consumo de recursos
fundamentales como el agua o la energía eléctrica.
 Modelado de Riesgos: Algunas entidades bancarias y firmas de inversión punteras, utilizan tecnologías
de análisis de grandes cantidades de datos para determinar el riesgo de operaciones, evaluando un gran
número de escenarios financieros hipotéticos.
 Detección de Fraudes: Utilizando técnicas para combinar bases de datos de comportamiento de
usuarios, y datos transaccionales puede detectarse actividad fraudulenta, como por ejemplo: el uso de
una tarjeta de crédito robada.
 Monitoreo de Redes: Las redes de servidores producen una gran cantidad de datos que pueden ser
analizados para identificar cuellos de botella o ataques. Este tipo de análisis puede aplicarse también a
otros tipos de redes, tales como redes de transporte, con el fin, por ejemplo, de optimizar el consumo de
combustible.
 Investigación y Desarrollo: Algunas empresas con fuerte componente investigadora, como las
farmacéuticas, realizan análisis de grandes volúmenes de documentación (EJ: artículos científicos) y otro
tipo de datos históricos para mejorar el desarrollo de sus productos.
 Big Science y el Gran Colisionador de Hadrones: Los experimentos representan unos 150 millones de
sensores para la entrega de datos de aproximadamente 40 millones de veces por segundo, resultando en
la investigación del Colisionador de hadrones, cerca de 600 millones de colisiones por segundo. Luego de
filtrar y abstenerse de registrar más del 99,999% de estos flujos, hay 100 colisiones de interés por
segundo
19 20 21 22
:
- Como resultado, sólo trabajar con menos de 0,001% de los datos de la corriente de sensores, el flujo de
datos desde todos los cuatro experimentos del LHC representa 25 petabytes de tasa anual de
información antes de la replicación (a partir de 2012). Esto se convierte en cerca de 200 petabyte de
información después de la replicación.
- Si todos los datos de los sensores debían registrarse en LHC, el flujo de datos sería muy difícil de trabajar.
El flujo de datos superaría los 150 millones de petabytes de tasa anual, o cerca de 500 exabytes por día,
19
20
CERN Brochure 2010, “A presentation of the largest and the most powerful particle accelerator in the world, the Large
Hadron Collider (LHC), which starter up in 2008. Its role, characteristics, technologies, etc., are explained for the general
public, http://cds.cern.ch/record/1278169?ln=en
21
CERN Brochure 2008, “LHC Guide: A collection of facts and figure about the Large Hadron Collider (LHC) in
the form of questions and answers”, http://cds.cern.ch/record/1092437?ln=en
22
Brumfield, Geoff 2009, “High Energy Physics: Down the Petabyte Highway”, Nature (International Weekly Journal of
Science), http://www.nature.com/news/2011/110119/full/469282a.html

antes de la replicación. Para poner el número en perspectiva, esto equivale a 500 trillones de bytes por
día, casi 200 veces mayor que todas las otras fuentes combinadas en el mundo.
 La Astronomía: Desde que el Sloan Digitial Sky Survey (SDSS) comenzó a recopilar datos astronómicos en
el año 2000, se acumuló más datos en sus primeras semanas, que todos os datos recogidos en la historia
de la astronomía. Siguiendo a un ritmo de alrededor de 200 GB por noche, el SDSS ha acumulado más de
140 terabytes de información. Cuando el Gran Telescopio para Rastreo Sinóptico, sucesor del SDSS, se
ponga en línea en el año 2016, se prevé la adquisición de esa cantidad de datos cada cinco días
23 24
.
 Descifrando el Genoma Humano: Se refiere al proceso PGH de investigación científica con el objetivo
fundamental de determinar la secuencia de pares de bases químicas que componen el ADN e identificar
y cartografiar los aproximadamente 20.000 – 25.000 genes del genoma humano desde un punto de vista
físico y funcional. El proyecto dotado con 3.000 millones de dólares fue fundado en 1990 en el
Departamento de Energía y los Institutos Nacionales de Salud de los Estados Unidos, bajo la dirección de
Francis Collins, quien lideraba el grupo de investigación público, conformado por múltiples científicos de
diferentes países, con un plazo de realización de 15 años. Gracias a la amplia colaboración internacional,
a los avances en el campo de la genómica, así como los avances en la tecnología computacional, un
borrador inicial del genoma fue terminado en el año 2000. Finalmente, el genoma completo fue
presentado en abril de 2003, dos años antes de lo esperado. Los secuenciadores de ADN humano han
dividido el costo de secuenciación por 10.000 en los últimos diez años, lo cual es un factor de 100 en
comparación con la Ley de Moore.
25 26
Ciencias Sociales Computacionales.
Tobías Preis, utilizando Google Trends para los datos demostró que “los usuarios de internet de los países
con un Producto Interno Bruto per cápita alto, son más a buscar información sobre el futuro de la
información sobre el pasado”. Los hallazgos sugieren que puede haber un vínculo entre la conducta en línea
y los indicadores económicos del mundo real. Los autores del estudio examinaron los registros de consultas
en Google que los usuarios de internet en 45 países en 2010 realizaron, y se calculó el volumen de
búsquedas para el año 2011, tras lo cual denominaron “Futuro Índice de Orientación”. Los investigadores
compararon el futuro índice de orientación en relación con el PIB per cápita de cada país, encontrando una
fuerte tendencia a que “los países en los que los usuarios de Google preguntan más sobre el futuro de
exhibir un PIB más alto”. Los resultados sugieren que puede tratarse de una potencial relación entre el éxito
23
24
25
26
Wikipedia, “Proyecto Genoma Humano”, http://es.wikipedia.org/wiki/Proyecto_Genoma_Humano

económico de un país y el comportamiento de búsqueda de información de los ciudadanos capturados en
grandes volúmenes de datos
27
.
Gobierno.
En Estados Unidos, se están formando y generando plataformas públicas para comenzar a entender este
paradigma, y para empezar a obtener provecho de éste. Tal es el caso de la iniciativa del gobierno de EE.UU.,
data.gov, y de las Naciones Unidas, unglobalpulse.org, creada para el aprovechamiento de la Innovación
para proteger a los vulnerables. El Gobierno Federal de Estados Unidos posee seis de los diez
supercomputadores más poderosos del mundo. Además, se está construyendo un Data Center en Utha, que
será un centro de datos de la Agencia de Seguridad Nacional (cuando haya terminado, la instalación será
capaz de manejar información del orden de “yottabytes”, recogida por la NSA a través de Internet). En
Latinoamérica, tal como ocurre en el resto del mundo, la región también está experimentando un enorme
crecimiento del Big Data, no así con su aprovechamiento para generar desarrollo. Según la consultora
Global Frost & Sullivan, se pronostica que entre 2012 y 2013 la región sufrirá un aumento exponencial del
Big Data, que demandará avanzadas soluciones tecnológicas (hardware y software) para aprovechar
plenamente la información generada por la enorme cantidad de datos. Sin embargo, son pocas las
compañías y gobiernos de la región que están gestionando el Big Data. Tal situación se debe, tal vez, a la
“falta de visión, inversión, recursos humanos o una mezcla de todos estos, o simplemente porque la mayoría
de las soluciones más básicas son más útiles hoy, o definitivamente no las necesitan (por ahora)”. Con una
gestión seria y planificada del Big Data en cada uno de los países, podrían generarse plataformas
informáticas en tiempo real que, por ejemplo, crucen los datos de fallas sufridas en una planta automotriz
de Brasil o México, y conectarlo con las investigaciones y proyectos relacionados que desarrollan ingenieros
mecánicos de universidades de todo el continente, los que a su vez, podrían cruzarse con datos de
proveedores de materias primas con las que se desarrollarían la nueva pieza de esa fábrica automotriz
28
.
Sector Privado.
En el caso de Amazon.com, se encarga de millones de operaciones de Back-End cada día, así como de las
consultas de más de medio millón de vendedores de terceras partes. La tecnología central que mantiene
Amazon funcionando, está basada en Linux y en 2005 tuvieron las tres mayores bases de datos de Linux del
mundo, con una capacidad de 7,8 TB - 18,5 TB . 24,7 TB. Por su parte, Walmart maneja más de 1 millón de
transacciones por hora de los clientes, los cuales se importan a bases de datos que se estima contienen más
de 2,5 petabytes (2.560 terabytes) de datos –el equivalente a 167 veces la información contenida en todos
los libros de los Estados Unidos en la Biblioteca del Congreso. En el caso de Facebook, se estima que maneja
cerca de 50 mil millones de fotos de su base de usuarios. En el caso de FICO, sistema de detección de fraude
27
28
AméricaEconomía,, Pablo Albarracín, “Big Data: ¿La Nueva Llave para el Desarrollo”,
http://www.americaeconomia.com/analisis-opinion/big-data-la-nueva-llave-para-el-desarrollo

bancario, éste protege a 2,1 millones de cuentas activas en todo el mundo. Infosys por su parte, ha puesto
en marcha el BigDataEdge para analizar los grandes datos. Windermere Real Estate utiliza señales GPS
anónimas de casi 100 millones de conductores para ayudar a los nuevos compradores de vivienda a
determinar sus tiempos de conducción típicos y volver del trabajo a lo largo de distintos momentos del día.
En el caso de las grandes empresas multilatinas, sí parece existir una tendencia y creciente preocupación
por la gestión del Big Data, donde algunas ya han adquirido las tecnologías necesarias, mientras que otras se
encuentran en etapas de implementación y/o análisis. Compañías Mineras, de Petróleo/Gas, Retail,
Aerolíneas y de Telecomunicaciones, se asoman como las más interesadas en el Big Data
29 30 31 32 33 34 35
.
Desarrollo Internacional.
Después de décadas de trabajo en el ámbito de la utilización efectiva de las tecnologías de la información y
comunicaciones para el desarrollo (o ICT4D), se ha sugerido que los grandes datos pueden hacer
importantes contribuciones al Desarrollo Internacional. Por un lado, la llegada del Big Data ofrece la
perspectiva económica para mejorar la toma de decisiones en las áreas críticas de desarrollo como Salud,
Empleo, Productividad Económica, el Crimen y la Seguridad, así como para los Desastres Naturales y la
Gestión de Recursos. Por otra parte, todos los problemas acerca del debate del Big Data implican también
los retos a la Privacidad de la Información, la Interoperabilidad y el Poder Omnipotente de algoritmos
imperfectos, los cuales se agravan en los países en desarrollo por los problemas de desarrollo e larga data
como “la falta de infraestructura tecnológica, y la escasez de recursos económicos y humanos”. Esto tiene el
potencial de dar lugar a un nuevo tipo de “Brecha Digital”: la Brecha de la Inteligencia basada en datos para
informar la toma de decisiones
36
.
29
30
31
Money.howstuffworks.com, Layton, Julia, “Amazon Technology”, 05/03/2013,
http://money.howstuffworks.com/amazon1.htm
32
FICO.com, http://www.fico.com/en/Products/DMApps/Pages/FICO-Falcon-Fraud-Manager.aspx
33
The Economic Times, “Infosys launches BigDataEdge to analyse Big Data”, 21/02/2013,
http://articles.economictimes.indiatimes.com/2013-02-21/news/37201267_1_big-data-infosys-vice-president-
unstructured-data
34
Express Computer, “Infosys launches BigDataEdge”, 21/02/2013,
http://computer.financialexpress.com/sections/news/1161-infosys-launches-big-data-edge
35
Bits.blogs.nytimes.com, Nick Wingfield, “Predicting Commutes More Accurately for Would-Be Home Buyers”,
http://bits.blogs.nytimes.com/2013/03/12/predicting-commutes-more-accurately-for-would-be-home-buyers/
36

Caso el Big Data y el Comportamiento de las Personas.
“La recopilación y análisis de información procedente de teléfonos móviles simples, puede proporcionar
sorprendentes conocimientos sobre cómo se mueven y comportan las personas, e incluso ayudarnos a
entender la propagación de enfermedades”.
En un ordenador en su oficina de la Escuela de Salud Pública de Harvard en Boston, Estados Unidos, la
epidemióloga Caroline Buckee señala un punto en un mapa de las tierras altas al oeste de Kenia, que
representa una de las miles de torres de telefonía móvil del país. En la lucha contra la malaria, los datos
transmitidos desde esta torre, cerca de la ciudad de Kericho, han tenido una enorme importancia a nivel
epidemiológico.
Cuando ella y sus colegas estudiaron los datos, encontraron que las personas que hacen llamadas o envían
mensajes de texto originados en la torre Kericho viajaban con una frecuencia de 16 veces más fuera de la
zona, en comparación de la media regional. Es más, estas personas eran tres veces más propensas a visitar
una región al noreste de lago Victoria que los registros del Ministerio de Salud identificaron como un punto
álgido de la malaria. Por lo tanto, la señal de radio de la toree cubría un punto de referencia importante para
la transmisión de la enfermedad, que puede pasar de persona a persona a través de los mosquitos. Las
imágenes por satélite revelaron la causa más probable: una concurrida plantación de té que seguramente
estaba repleta de trabajadores inmigrantes. La implicación estaba clara, señala Buckee: “Habrá un montón
de infectados en ese lugar”.
Este trabajo está sirviendo de base para una nueva serie de modelos de predicción que Buckee está
construyendo. Muestran, por ejemplo, que a pesar de que se observaron casos de malaria en la plantación
de té, tomar medidas para controlar la malaria allí tendría menos efecto sobre la propagación de la
enfermedad que concentrar los esfuerzos en la fuente: “el lago Victoria”. Siempre se ha creído que esa
región es un centro importante de malaria, pero lo que no ha estado disponible hasta ahora es información
detallada sobre los patrones de viaje humano a ese lugar: cuántas personas van y vienen, cuándo llegan y
salen, a qué lugares específicos van, y cuáles entre esos destinos atraen a la mayoría de las personas que
viajan a lugares nuevos.
De esta forma, Caroline Buckee, epidemióloga de Harvard, está utilizando datos detallados de movimientos
de población, obtenidos de teléfonos móviles, para construir nuevas y precisas herramientas para la lucha
contra la propagación de la malaria. Los esfuerzos existentes por recopilar este tipo de datos de viajes son,
como poco, irregulares. A veces los trabajadores de la Salud Pública cuentan literalmente a las personas en
los centros de transporte o las enfermeras de clínicas remotas preguntan a las víctimas de malaria recién
diagnosticadas dónde han estado recientemente. “En muchos cruces fronterizos de África, mantienen
pequeños registros en papel, pero los papeles se pierden y nadie les sigue la pista”. Tenemos abstracciones
y modelos generales sobre los patrones de viaje, pero jamás hemos sido capaces de hacer esto
correctamente, aduce Buckee.

La Minería de Datos facilitará el diseño de nuevas medidas que probablemente incluirán campañas baratas y
específicas de mensajes de texto, por ejemplo, advirtiendo a los visitantes que entren en la zona de la torre
Kericho que utilicen mosquiteros. Esto ayudará a los funcionarios a elegir dónde concentrar los esfuerzos de
control de mosquitos en las zonas palúdicas. “No queremos tener que rociar cada charco de larvas de
mosquitos todo el tiempo. Pero si sabes que existe una gran cantidad de importaciones procedentes de un
determinado lugar, lo suyo es aumentar el programa de control en ese lugar”, asegura Buckee. “Ahora
puedo precisar puntos de especial importancia dentro de la importación de una enfermedad”.
El estudio más reciente de Buckee, publicado el año pasado en Science y basado en registros de 15 millones
de teléfonos de Kenia, es el resultado de una colaboración con su esposo, Nathan Eagle, que ha estado
dedicado a dar sentido a los datos de teléfonos móviles durante más de una década. A mediados de la
década de 2000, después de conseguir llamar la atención con su trabajo de minería de datos procedentes de
teléfonos de voluntarios en el MIT, Eagle comenzó a recibir llamadas de compañías de telefonía móvil
pidiendo saber más acerca de, por ejemplo, por qué los clientes cancelaban sus planes de telefonía. Eagle
comenzó a trabajar con las compañías. Y cuando la pareja pasó 18 meses en África a partir de 2006 8Buckee
estaba haciendo un trabajo sobre la genética del parásito de la malaria) él estudió los datos de llamadas con
diversos fines, tratando de entender fenómenos como las divisiones étnicas en barrios marginales de
Nairobi y la propagación del cólera en Ruanda. Los resultados de Buckee muestran lo que se puede
conseguir cuando la tecnología se usa para problemas de salud pública. “Esto muestra que sí, podemos
realmente proporcionar no solo conocimiento, sino algo sobre lo que poder actuar”. Afirma Eagle,
actualmente director general de Jana, que lleva a cabo encuestas en teléfonos móviles en el mundo en
desarrollo”, “Esto funciona”.
“Este es el futuro de la epidemiología. Si queremos erradicar la malaria, así es como lo vamos a hacer”.
Esta demostración sugiere cómo podría aprovecharse estos datos para construir herramientas que los
trabajadores de salud, los Gobiernos y otros agentes puedan usar para detectar y vigilar las epidemias,
gestionar desastres y optimizar sistemas de transporte. Otros esfuerzos similares están siendo dirigidos
hacia objetivos tan variados como la comprensión de los patrones de los desplazamientos por París, y la
congestión de multitudes de festivales en Bélgica. Sin embargo, la minería de registros telefónicos podría ser
particularmente útil en las regiones pobres, donde a menudo las infraestructuras de recogida de datos son
mínimas o inexistentes. “Estamos justo empezando a utilizar estos datos para estos fines”, señala Vincent
Blondel, profesor de matemáticas aplicadas en la Universidad de Lovaina en Bélgica y destacado
investigador de datos recogidos de teléfonos móviles. “La adopción exponencial de la telefonía móvil en
entornos de bajos ingresos, y la nueva disposición de algunas compañías telefónicas a ofrecer los datos, dará
lugar a nuevas herramientas tecnológicas que podrían cambiarlo todo”.
Los 6 millones de teléfonos móviles del mundo generan enormes cantidades de datos, entre ello
información de seguimiento de localización y de actividad comercial, historiales de búsqueda y enlaces en
redes sociales. Se están llevando a cabo innumerables esfuerzos para extraer estos datos de diferentes

maneras por parte de organizaciones de investigación y empresariales de todo el mundo. Y de esos seis mil
millones de teléfonos, cinco mil millones se encuentran en países en desarrollo. Muchos de ellos son
teléfonos baratos capaces de hacer poco más que llamadas y enviar mensajes de texto. Pero toda esta
actividad puede ser rastreada en las torres de
telefonía móvil, proporcionando una forma
aproximada de hacer un seguimiento de los
movimientos de una persona. A esto hay que
añadir la difusión de la tecnología de pagos
móviles dentro del comercio simple, y como
resultado obtenemos una materia prima no solo
para conseguir conocimiento en epidemiología,
sino en tendencias de empleo, tensiones sociales,
pobreza, transporte y actividad económica.
El mapa adjunto, producto del análisis de datos de
teléfonos móviles, muestra las fuentes más
importantes de infecciones de malaria (tonos más
oscuros), teniendo en cuenta el potencial de
transmisión causado por los viajes humanos, así
como los principales destinos de las personas
expuestas a la enfermedad (tonos más claros). Se
puede utilizar para determinar dónde enfocar mejor las advertencias y las técnicas de control de mosquitos.
La perspectiva de la minería de datos de teléfonos es especialmente tentadora en los países pobres, donde
la información detallada y actualizada sobre estos asuntos ha resultado escasa hasta ahora. “En el mundo en
desarrollo, no hay un censo en funcionamiento, no se sabe dónde está el tráfico, no siempre cuentas con
infraestructura de recopilación de datos del Gobierno”, señala Alex Sandy Pentland, director del laboratorio
de Dinámica Humana del MIT, que durante mucho tiempo ha estado interesado en el conocimiento que
proporcionan los datos creados mediante el uso de teléfonos móviles. “Pero, de repente, lo único que tienes
a tu disposición, es decir, teléfonos móviles por todas partes, especialmente durante los últimos años,
puede darte el equivalente de toda esa infraestructura que ya está construida en el mundo desarrollado”.
Cuando una llamada se conecta a una estación base determinada, esa estación registra el número de
identificación del teléfono y la duración de la llamada. Con el tiempo, esta información se puede utilizar para
tener una idea de los movimientos regionales de al gente y la forma de sus redes sociales. El historial de
compras en los teléfonos también es muy valiosa: los registros de las compras agrícolas podrían ser
utilizados para predecir los suministros o la escasez de alimentos. Y los datos financieros recogidos por los
sistemas de pago móviles pueden construir un historial de crédito y ayudar a millones de personas sin
acceso a la banca a poder obtener préstamos convencionales. “Los métodos de análisis de base de datos y

los ordenadores son muy estándar”, afirma Pentland. “Se trata de crear ciencia y buscar los patrones
correctos”. Ciertos patrones de movilidad podrían estar relacionados con la propagación de una
enfermedad, los patrones de compra podrían significar que una persona ha tenido un cambio laboral, y los
cambios de conducta o patrones de movimiento podrían relacionarse con la aparición de una enfermedad.
Una potente demostración de lo útiles que pueden ser los datos de teléfonos baratos se produjo después
del terremoto de enero de 2010 en Haití, que mató a más de 200.000 personas. Investigadores del instituto
Karolinaska de Suecia obtuvieron datos de Digicel, el mayor operador de telefonía móvil de Haití. Extrajeron
los datos de movimiento diario de dos millones de teléfonos, comenzando 42 días antes del terremoto y
hasta 158 días después, concluyendo que 630.000 personas que habían estado en Puerto Príncipe el día del
terremoto habían salido de la ciudad en un plazo de tres semanas. También demostraron que podían hacer
estos cálculos casi en tiempo real. Mostraron, 12 horas después de recibir los datos, cuántas personas
habían huido de un área afectada por un brote de cólera, y a dónde fueron.
Lo más importante es que su trabajo dio lugar a un modelo que podría servir de guía para las respuestas a
futuros destres. Después de analizar los datos sobre los hábitos de viaje antes del terremoto, el grupo sueco
encontró que los haitianos en general salieron de la ciudad para ir a los mismos lugares donde habían
pasado la Navidad y el Día de Año Nuevo. Estos resultados permiten predecir dónde irá la gente cuando
ocurra un destre.
Respecto a la “Ampliación de la Escala”, hasta hace poco, estos estudios eran realizados por investigadores
después de conseguir un acuerdo especial con las compañías para obtener los datos (Eagle los obtuvo a
través de sus conexiones académicas). Sin embargo Orange, el gigante mundial de telecomunicaciones con
sede en Francia, concedió el año pasado a la comunidad de investigación mundial datos basados en 2.500
millones de registros anónimos (sujetos a ciertas condiciones y restricciones) de cinco meses de llamadas
realizadas por cinco millones de personas en Costa de Marfil. La primera fase de este gran experimento
consiste en simplemente ver qué es posible con los datos.
Las compañías de telefonía móvil del mundo tienen una mina de oro de datos, señala Nathan Eagle,
director general de Jana, que lleva a cabo encuestas en teléfonos móviles. Sin embargo, señala que el uso
generalizado de los datos requerirá nuevos modelos de negocio y protecciones e privacidad.
Casi un centenar de grupos de investigación de todo el mundo aprovecharon la oportunidad de analizar los
registros. Estaba programado que los estudios fueran presentados en mayo en una conferencia en el MIT
bajo el nombre de Datos para el Desarrollo, que forma parte de una conferencia más grande sobre
proyectos de minería de datos tanto en el mundo pobre como rico. “Es la primera vez que un conjunto de
datos de teléfonos móviles a gran escala ha sido cedido a este nivel”, afirma Blondel, que preside la
conferencia. Los estudios no habían sido publicados formalmente en el momento de escribir este artículo.
Pero uno de ellos muestra un gráfico de las interacciones sociales y de viaje a través de una división étnica
tradicional Norte-Sur, y proporciona información sobre cómo podría evitarse el conflicto. Otro propone

herramientas para el mapeo de la propagación de la malaria y la detección de brotes de enfermedades. Un
laboratorio de empresa ha construido un modelo de transporte a partir de datos de teléfonos móviles para
realizar un seguimiento de pasajeros en 539 autobuses, 5.000 minibuses y 11.000 taxis compartidos.
Incluso si el experimento de Costa de Marfil tiene éxito, replicarlo en otros países podría no resultar tan
sencillo. El año pasado, el Foro Económico Mundial, el grupo de figuras líder industriales, académicas y
políticas que convergen cada año en Davos, Suiza, hizo un llamamiento a los Gobiernos, organizaciones de
desarrollo y empresas para el desarrollo de herramientas de análisis de datos, que mejoren la vida de las
personas en el mundo pobre. “No debería tener que ir a los operadores y decirles les voy a hacer una
consultoría gratuita, y a cambio quiero usar vuestros datos para mejorar vidas”, asegura Eagle. “Los
operadores deberían querer estar involucrados en esto. En este momento, muchos de ellos no ven el lado
bueno, pero si podemos hacer que los líderes del mundo les animen a hacerlo, tal vez podamos conseguir
muchas cosas”.
“Podemos realmente proporcionar no solo conocimiento, sino algo sobre lo que poder actuar. Esto realmente
funciona”.
Esto requerirá un trabajo cuidadoso para proteger la privacidad y evitar que los datos se utilicen con fines
opresivos. Orange señala que se esforzó en hacer que los datos fueran anónimos, pero el campo necesita
formas claras y ampliamente aceptadas de llevar la información al mercado. “Hay riesgos y beneficios en el
hecho de vivir en sociedad basada en los datos”, señala Pentland. “Está la cuestión de quién posee los datos
y quién los controla. Te puedes imaginar lo que Muamar Gadafi habría hecho con este tipo de datos .
Orange está tratando de encontrar la forma de crear un patrimonio común de datos que logre una mayor
transparencia, responsabilidad y eficiencia, para detectar dónde se producen eventos inusuales, eventos
extremos, que nos indiquen dónde se está desmoronando la infraestructura. Podemos hacer muchas cosas
con ello, pero tiene que estar disponible.
A media que estas cuestiones se desarrollan, Buckee y Eagle están trabajando en perfeccionar y aumentar
las herramientas de minería de datos en Kenia. Eagle tiene como objetivo utilizar encuestas para refinar y
confirmar la imagen creada por los datos de minería de telefonía móvil a gran escala. El registro de llamadas
no es suficiente, afirma. Encuestar incluso simplemente a algunas personas podría permitir a los
investigadores descartar suposiciones erróneas acerca de lo que muestran los registros. Una vez, mientras
analizaba datos de teléfonos en Ruanda, Eagle observó que la gente no se había movido mucho después de
una inundación. Al principio, su teoría era que una gran cantidad de gente estaba en cama con cólera. Pero
resultó que el diluvio había borrado las carreteras.
Buckee espera extraer datos para atacar a las cepas del parásito de la malaria resistentes ante los
medicamentos. Estas cepas, que emergen en Camboya y en otros lugares, podrían invertir el progreso
contra la enfermedad si se les permite proliferar, advierte. Así que quiere empezar combinando los datos
sobre la propagación de los parásitos en modelos de movilidad para ayudar a producir estrategias para

Big Data y la Innovación Global en Servicios Actual y Futura

Big Data y la Innovación Global en Servicios Actual y Futura

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (19)

Andere mochten auch

Andere mochten auch (16)

Ähnlich wie Big Data y la Innovación Global en Servicios Actual y Futura

Ähnlich wie Big Data y la Innovación Global en Servicios Actual y Futura (20)

Mehr von HCGlobal Group

Mehr von HCGlobal Group (20)

Kürzlich hochgeladen

Kürzlich hochgeladen (20)

Big Data y la Innovación Global en Servicios Actual y Futura