Este documento presenta una introducción al tema de Big Data y Ciencia de Datos. Explica brevemente qué es Big Data según Gartner y describe algunas herramientas y tecnologías clave como Hadoop, Spark y RDD. También discute el uso de datos masivos en oficinas de estadística oficiales y propone el análisis de Twitter como un primer proyecto piloto para medir el sentimiento de los tuiteros mexicanos.
7. Según Gartner:
Big data is high-volume, high-velocity
and high-variety information assets
that demand cost-effective,
innovative forms of information
processing for enhanced insight and
decision making.
http://www.ft.com/intl/cms/e91a32d0-2bac-11e3-bfe2-00144feab7de.pdf @abxda
8. ¿Qué es Big Data?
Diciembre 2004
Octubre 2003
@abxda
20. Big Data en las Oficinas
de Estadística Oficial
http://www1.unece.org/stat/platform/download/attachments/58492100/Big+Data+HLG+Final.docx?version=1&modificationDate=1362939424184
Comisión Económica de las Naciones Unidas para Europa
@abxda
21. Big Data en las Oficinas
de Estadística Oficial
• It is clear that during the next two years there is
a need to identify a few pilot projects that will
serve as proof of concept.
• Statistical organisations are, therefore,
encouraged to address formally Big data issues
in their annual and multi-annual work
programmes by undertaking research and pilot
projects in selected areas and by allocating
appropriate resources for that purpose.
(2013)
@abxda
22. Big Data en las Oficinas
de Estadística Oficial
• 'new' exploration and analysis methods are
required: Visualization methods, Text mining, and
High Performance Computing.
• To use Big data, statisticians are needed with a
different mind-set and new skills. The processing
of more and more data for official statistics requires
statistically aware people with an analytical mind-set,
an affinity for IT (e.g. programming skills)
(2013)
@abxda
25. Equipo Big Data
– Expertos en el Dominio de los Datos, Especialistas en el
área de interés.(Economistas, Expertos en percepción remota,
Psiquiatras, etc…)
– Científicos de Datos, expertos en integracion de soluciones
Big Data (MapReduce, Scala, Machine Learning, Spark, R,
Estadística).
– Estadisticos, expertos en modelado estadistico, enfoque en
aprendizaje estadístico (R).
– Desarrolladores de Software, expertos en desarrollo de
software (JavaScript, Arquitecturas de Software, Patrones de
Diseño, Api’s REST).
– Diseñadores Gráficos, expertos en presentación de
información (HTML5, CSS3, JavaScript, Twitter Bootstrap).
– Administradores de Sistemas, expertos en arquitecturas de
28. ¿Qué clase de #BigData es esta?
En operaciones de Machine Learning, una sola tarjeta de Video, es 45 veces
mas poderosa que el XEON mas rápido.
2560 CUDA CORES
@abxda
29. %Acceso a Internet, %Pc, %Teléfono Celular, %Automovil
En la misma Pc de 4 Procesadores:
(2013)
Software Tiempo Manzanas
Big Data
(Spark)
8 Seg. 1’221,18
0
Tradicional
(R)
8 Seg. 2,666
https://spark.apache.org/
2013
@abxda
30. TWITTER COMO FUENTE DE BIG DATA
(PRIMER PROYECTO PILOTO)
Intentar medir el sentimiento de los Tuiteros Mexicanos
…y mucho más …
@abxda
Academia, Supercomputadoras, Ciencias Naturales, Aquí se proponen 2 ideas fundamentales de Big Data: que los algoritmos de procesamiento sean los que viajen (Computo Distribuido) y dividir los consuntos masivos en pedazos mas pequeños (Sistemas de Archivos Distribuidos). Que las maquinas que tienen los datos los procesen en lugar de transferir los datos para procesarlos en otro lugar, data locality.