Un recorrido por las diferentes tendencias del Big Data, importantes eventos a nivel mundial, desarrollo del Big Data en Europa, Estados Unidos y Corea del Sur y más.
Nota: referencias y enlaces de interés indicados en los comentarios de cada diapositiva, descargar la presentación para poder verlos.
1. Marzo, 2016
Universidad Central de Venezuela
Escuela de Computación - Facultad de Ciencias
Introducción a Ciencia de los Datos
¿Qué se está haciendo en el mundo del Big Data
y hacia dónde vamos?...
3. Agenda
Salarios
Mejores empleadores
¿Panorama Actual?
Big Data Week Iniciativa
Ediciones anteriores
Big Data en Números
● Futbol y Big Data
● Fórmula 1 y Big Data
Deportes y Big
Data
● IBM WatsonRedes Sociales
10 Tendencias
(2015-2016)
Un recorrido por 10
Tendencias
● Oportunidades
● Barreras
● Estado actual
Sector Financiero
● Contribuyentes
● Beneficios
Sector Salud
● Sistema de GestiónSector Educativo
Big Data y las
Naciones Unidas
● Cómo mejorar la calidad de vida
● 5 reglas para mejorar los
servicios públicos
Gobiernos y Big
Data
● Definición
● ¿Qué necesita pasar y
qué se necesita hacer?
Internet de las
Cosas (IoT)
Preguntas
5. 5
La cantidad de datos
generados en el planeta
Tierra está creciendo de
manera exponencial
0101010101010101
101010101010101
0101010101011010
1010101010101010
101010101010101
1010101010110100
7. $8 millones
Promedio estimado empleado por los negocios durante 2015, para proyectos de
Big Data y relacionados, según ATKearney (consultora con oficinas en más de 40
países de América, Europa, Asia, Oriente Medio y África).
4.4 millones
Puestos de trabajo para la Tecnología de la Información (TI) estimados en 2012,
que serían creados en todo el mundo para el 2015, (1,9 millones solo en los
Estados Unidos) con el fin de apoyar las operaciones de Big Data, según Gartner
(compañía líder en TI a nivel mundial).
7
8. $48.6 mil millones
Inversión estimada a finales del 2015, para el mercado del Big Data en el 2019,
según International Data Corporation (IDC, consultora y principal proveedor mundial
de inteligencia de mercado, con oficinas en más de 70 países en América Latina,
Oriente Medio y África, América Central y Europa del Este, Europa, Asia / Pacífico y
el U.S, incluyendo Venezuela).
$144 millones
Inversión destinada para movilidad, cloud y Big Data en el 2015, de un total de
$455 millones para TI en España, según un informe de IDC, en donde además se
indica que de ser así, se pasará de representar el 25 % del gasto TI en 2015 a
cerca del 30% en 2019.
8
9. $13 mil millones
Inversión de Big Data en América Latina estimada para 2014.
$820 millones
Inversión estimada por parte de México y Brasil para 2014, quienes lideraban el
crecimiento de la inversión en la región.
Cifras suministradas por César Longa, Gerente de Programa de Software para IDC
Latinoamérica, en el marco del evento Big Data & Analytics de IDC 2014
9
11. Salario promedio para un científico de datos
11Herramientas Utilizadas, Experiencia y Tipo de Compañía
$140.000
Anuales en Estados
Unidos (2015)
€50-60.000
Anuales en España, según
la Universitat Oberta de
Catalunya (2016)
$7-10.000
Mensuales en América
Latina (México, Brasil,
Colombia, Ecuador),
según SAS (2015)
Promedios
17. Big Data Week
17
Algunos Patrocinadores
Es una iniciativa creada por Stewart Townsend y Andrew Gregson en el 2011
como un modo de unir las comunidades de datos globales a través de una serie
de eventos y reuniones.
18. Big Data Week
18
Edición 2013
3.000 Participantes
Edición 2015
30.000 Participantes
Ciudades principales de este año: Londres, Barcelona y Madrid
21. Big Data + Cloud Computing
Big data está impulsando gran parte del
crecimiento de la nube: los ingresos de
los 50 principales proveedores de nube
públicos se dispararon un 47% en el
último trimestre del 2013 alcanzando
los $6,2 mil millones según
Technology Business Research.
1. Se consolida el
big data en la
nube
21
25. 25
2. Los ETL se vuelven personales: Trifacta y Paxata
26. 26
2. Los ETL se vuelven personales: Trifacta y Paxata
27. 3. ¿NoSQL o
NewSQL?
NewSQL: Sistemas de bases de datos
relacionales capaces de escalar de la
misma manera que un NoSQL pero
manteniendo las propiedades ACID de
sistemas tradicionales.
27
28. 3. ¿NoSQL o NewSQL?
Context
SQL NoSQL NewSQL
Relational
SQL
Transacciones
ACID
Escalabilidad
Horizontal
Grandes
volúmenes de
datos
Sin Esquema
28
34. Hadoop vs Spark: Velocidad y Tiempo Real
34
Un programa en Spark se ejecuta
hasta 100 veces más rápido que
Hadoop en memoria y 10 veces
más rápido si el acceso es desde
disco.
Equivalentes en Hadoop
Hive Storm Mahout Giraph
Hadoop inicialmente estuvo orientado a procesos batchs. Spark permite trabajar tanto en
modo batch como en modo stream-tiempo real (Spark Streaming). Un mismo framework para
unificar 2 mundos.
35. Es un repositorio de almacenamiento
masivo que puede almacenar todo tipo de
datos en su formato nativo, hasta que se
necesite para el análisis de negocios o
minería de datos y además es relativamente
barato.
EMC Elastic
Cloud Storage
6. Data lakes
35
EMC Isilon
37. Snowflake: proporciona la potencia de almacenamiento de
datos, la flexibilidad de las plataformas de Big Data y la
elasticidad de la nube a un costo más bajo que otros
almacenes de datos (ganador Strata + Hadoop 2015).
BigQuery: servicio de
análisis de datos
completamente gestionado
en la nube.
Almacenamiento ilimitado.
Análisis interactivo en
conjunto de datos de
múltiples terabytes.
7. El gran ecosistema
de datos comenzará a
cambiar de forma
37
Amazon RedShift:
plataforma de
almacenamiento de datos en
la nube más grande de
Amazon Web Services.
Capaz de manejar grandes
volúmenes de datos,
haciendo uso del
procesamiento paralelo
masivo (MPP).
Procesamiento Paralelo Masivo (MPP)
40. 9. La seguridad se
complementará
con Data Masking
40
“ Para el año 2017 la organización de
TI típica gastará hasta el 30% de su
presupuesto en riesgo, la seguridad y el
cumplimiento, y destinará el 10% de su
población a estas funciones de
seguridad. Eso es el triple de los
niveles de 2011.”
Gartner Symposium/ITxpo (5 de Octubre de 2015), la
reunión más importante del mundo de los CIOs (director de
TI) y ejecutivos de alto nivel de TI .
41. 9. La seguridad se complementará con Data Masking
41
● Usada por IBM
● Funciona con Hadoop, Spark
entre otros.
● Información de Identificación
Personal (PII siglas en inglés)
Ej: Nombre completo, dirección,
correo, código postal, pasaporte,
números de tarjeta de crédito, etc.
42. 10. El Internet de las
cosas (IoT):
continuará creciendo
e impulsando
nuevas soluciones
de datos
42
“IoT será un mercado de $ 400 mil
millones para el año 2019. Cisco
ha dicho que será mucho más
grande, un mercado de $ 19 de
billones de dólares en una
década.”
CEO de IBM, Ginni Rometty (25 de Febrero de 2016)
44. Internet de las Cosas (IoT)
Definición
Es la interconexión de objetos, personas, ubicaciones y el Internet. Objetos
inanimados apoyados con Big Data se vuelven inteligentes y pueden ‘hablar’ entre sí y
al consumidor.
44
59. 5 Reglas para mejorar los servicios públicos
59
2. Utilizar
información no
estructurada
3. Centrarse en la
información
4. Servicios
Transparentes
5. Registros de
usuario
1. Conocer la
información que se
tiene
72. Marzo, 2016
Universidad Central de Venezuela
Escuela de Computación - Facultad de Ciencias
Introducción a Ciencia de los Datos
¿Qué se está haciendo en el mundo del Big Data
y hacia dónde vamos?...
Hinweis der Redaktion
Para infografías, presentaciones y más: www.visme.co
Se puede cambiar también el color del tema si les parece y a cada elemento colocarle animaciones
Más números en: http://es.slideshare.net/joyanes/big-datadata-science-vfinal
http://bigdata-madesimple.com/exciting-facts-and-findings-about-big-data/
http://bigdata-madesimple.com/45-surprising-facts-about-big-data/
Fuente: http://www.datasciencecentral.com/profiles/blogs/big-data-the-amazing-numbers-in-2015
https://www.atkearney.com/locations
http://www.informationweek.com/big-data/big-data-analytics/big-data-budgets-marketers-plan-spending-spree/d/d-id/1108287?
http://www.gartner.com/newsroom/id/3142917
http://bigdata-madesimple.com/exciting-facts-and-findings-about-big-data/
Más números en: http://bigdata-madesimple.com/45-surprising-facts-about-big-data/
Fuente: 1 billón = mil millones http://www.cio.com/article/3004512/big-data/idc-predicts-big-data-spending-to-reach-48-6-billion-in-2019.html
https://www.idc.com/
http://www.silicon.es/las-financieras-gastan-25-presupuesto-ti-movilidad-cloud-big-data-92654
Fuente: México y Brasil lideran la inversión en Big Data en AL: http://mundocontact.com/mexico-y-brasil-lideran-la-inversion-en-big-data-en-al/
Infografía Big Data en América Latina: http://blog.soydata.net/entradas/infografia-big-latam-big-data-en-latinoamerica/
Foro Big Data Venezuela: http://www.ciberespacio.com.ve/2015/10/eventos/analizar-datos-para-generar-valor-iv-foro-big-data-venezuela-2015/
Más números y gráficos relacionados a salarios en:
2015 Data Science Salary Survey - Strata + Hadoop World http://duu86o6n09pv.cloudfront.net/reports/2015-data-science-salary-survey.pdf
Fuente: http://www.analyticbridge.com/group/salary-trends-and-reports/forum/topics/salary-trends-for-data-science-professionals
http://www.analyticbridge.com/group/salary-trends-and-reports/forum/topics/how-much-do-data-scientists-really-earn
http://www.silicon.es/cuatro-anos-se-ha-duplicado-numero-expertos-big-data-153771
Crece demanda mundial por científicos de datos latinoamericanos http://mundocontact.com/crece-demanda-mundial-por-cientificos-de-datos-latinoamericanos/
Fuente: http://www.forbes.com/sites/louiscolumbus/2015/11/16/where-big-data-jobs-will-be-in-2016/#29cb23dcf7f1
Top 10 Industries Hiring Big Data Expertise - 16 de Noviembre de 2015: http://www.forbes.com/sites/louiscolumbus/2015/11/16/where-big-data-jobs-will-be-in-2016/#42d24c8ef7f1
Informe : Big Data en España por EY, FrontQuery y Teradata (Octubre 2014) http://www.ey.com/Publication/vwLUAssets/EY-big-data-en-el-sector-financiero-espanol/$FILE/EY-big-data-en-el-sector-financiero-espanol.pdf
http://www.forbes.com/sites/louiscolumbus/2015/11/16/where-big-data-jobs-will-be-in-2016/#42d24c8ef7f1
Firstmark: empresa de capital de riesgo con sede en NY https://en.wikipedia.org/wiki/FirstMark_Capital.
Fuente: http://mattturck.com/2016/02/01/big-data-landscape/
http://firstmarkcap.com/
Compañías: http://dfkoz.com/big-data-landscape/
Blog Big Data Week: http://blog.bigdataweek.com/
Big Data breakouts (Reino Unido): http://bigdatabreakouts.com/
IV Foro Big Data Venezuela 2015 por Caracas Digital: http://www.ciberespacio.com.ve/2015/10/eventos/analizar-datos-para-generar-valor-iv-foro-big-data-venezuela-2015/, http://www.caracasdigital.com/index.php?keyword=TI&x=5721
Media140 empresa que produce Big Data Week: http://media140.com/
http://bigdataweek.com/
2016: http://london.bigdataweek.com/
Fuente: http://bigdataweek.com/sponsor/
Fuentes: Tablaeu 2016: http://www.tableau.com/sites/default/files/media/top8bigdatatrends2016_final_2.pdf
Tableau 2015: http://www.tableau.com/es-es/learn/whitepapers/top-7-trends-big-data-2015
https://www.u-tad.com/noticias/5-tendencias-en-big-data-para-2015/
Big Data en el sector financiero español Resultados de la encuesta sectorial sobre Big Data (Octubre, 2014) http://www.ey.com/Publication/vwLUAssets/EY-big-data-en-el-sector-financiero-espanol/$FILE/EY-big-data-en-el-sector-financiero-espanol.pdf
http://www.lavastorm.com/
Se mencionará solamente las etapas del proceso como diferencia a otras herramientas, detallando la de enriquecimiento
Enrich your Data: http://www.slideshare.net/Alteryx/inspire-2015-enrich-your-data
Paquetes que ofrece Alterys: https://www.mip.com.au/products/alteryx-analytics
Se mencionará solamente las etapas del proceso como diferencia a otras herramientas, detallando la de enriquecimiento
Enrich your Data: http://www.slideshare.net/Alteryx/inspire-2015-enrich-your-data
Paquetes que ofrece Alterys: https://www.mip.com.au/products/alteryx-analytics
Se mencionará solamente las etapas del proceso como diferencia a otras herramientas
Process: https://www.trifacta.com/products/
http://www.paxata.com/
http://www.paxata.com/wp-content/uploads/core_web.png
http://www.paxata.com/solutions/howitworks/
Se mencionará solamente las etapas del proceso como diferencia a otras herramientas
Process: https://www.trifacta.com/products/
http://www.paxata.com/
http://www.paxata.com/wp-content/uploads/core_web.png
http://www.paxata.com/solutions/howitworks/
Movimiento NewSQL (2010-2011): Michales Stonebraker
NewSQL (término acuñado por el analista del Grupo 451, Matthew Aslett)
https://blogs.the451group.com/information_management/2011/04/15/nosql-newsql-and-beyond/
Paper NoSQL,"NewSQL"and"Beyond"
Fuente: http://labs.sogeti.com/newsql-whats/
Manage Big Data through NewSQL https://www.researchgate.net/publication/265611825_Manage_Big_Data_through_NewSQL
http://www.ana2lp.mx/bases-de-datos/bases-de-datos-newsql/
"NewSQL vs. NoSQL for New OLTP", by Michael Stonebraker, MIT (2011): https://www.youtube.com/watch?v=uhDM4fcI2aI
Cap Theorem by 451 Group: https://www.percona.com/live/mysql-conference-2013/sites/default/files/slides/aslett%20cap%20theorem.pdf
NoSQL en ascenso según datos de Gartnet:
2015: http://www.gartner.com/doc/reprints?id=1-2PO8Z2O&ct=151013&st=sb
2014: http://www.odbms.org/2014/11/gartner-2014-magic-quadrant-operational-database-management-systems-2/
2013: http://www.odbms.org/2014/03/2013-gartner-magic-quadrant-operational-database-management-systems/
Fuente: https://blogs.the451group.com/information_management/tag/database/
What's better for your big data application, SQL or NoSQL? http://www.networkworld.com/article/2226514/tech-debates/what-s-better-for-your-big-data-application--sql-or-nosql-.html
IBM BigInsights for Apache Hadoop: http://www-03.ibm.com/software/products/es/ibm-biginsights-for-apache-hadoop
Apache Spark, la nueva estrella de Big Data http://www.bigdatahispano.org/noticias/apache-spark-la-nueva-estrella-de-big-data/
http://www.aerospike.com/blog/what-the-spark-introduction/
https://aspgems.com/blog/big-data/por-que-usamos-apache-spark-para-nuestros-proyectos-de-big-data
Sólo se mencionarán más no se explicarán
Ecosistemas Hadoop y Spark: https://adtmag.com/blogs/dev-watch/2015/03/~/media/ECG/adtmag/Images/2015/01/hadoop_spark.png
http://sdsblog.com/2015/03/17/realtime-bigdata/
https://aspgems.com/blog/big-data/por-que-usamos-apache-spark-para-nuestros-proyectos-de-big-data
(Buen Artículo) Un lago de datos: ¿una oportunidad o un sueño para el Big Data?: Capacidades, Ventajas, Desventajas: https://www.bbvaopenmind.com/un-lago-de-datos-una-oportunidad-o-un-sueno-para-el-big-data/
http://searchdatacenter.techtarget.com/es/definicion/Lago-de-datos
Infografía por EMC: https://www.digitalnewsasia.com/sites/default/files/files_upload/emc_understanding_data_lakes_infographic.pdf
(Estupendo Paper) Putting the Data Lake to Work A Guide to Best Practices (April, 2014) http://hortonworks.com/wp-content/uploads/2014/05/TeradataHortonworks_Datalake_White-Paper_20140410.pdf
De los DWH a los DataLakes, cómo elegir http://www.decideo.com/El-concepto-de-data-lake-lago-de-datos-texto-explicativo_a664.html
Compañías llevando la batuta:
EMC Data Lakes: http://mexico.emc.com/big-data/data-lake/index.htm
Microsoft Azure Data Lakes: https://azure.microsoft.com/en-us/blog/introducing-azure-data-lake/, https://azure.microsoft.com/es-es/solutions/data-lake/, https://azure.microsoft.com/es-es/services/data-lake-store/
http://www.datalakes.com/
Fuente: Data Lake vs Data Warehouse: Key Differences http://www.kdnuggets.com/2015/09/data-lake-vs-data-warehouse-key-differences.html
No se explicarán las herramientas, sólo se mencionarán
Procesamiento paralelo masivo https://es.wikipedia.org/wiki/Computaci%C3%B3n_paralela
Why Big Query: http://www.xoriant.com/blog/big-data/google-bigquery-overview.html
Presentación Big Query: http://www.slideshare.net/jdchitt/how-google-does-big-data-dev-nexus-2014
How googles does big Data with BigQuery: http://image.slidesharecdn.com/howgoogledoesbigdata-devnexus2014-140228054205-phpapp02/95/how-google-does-big-data-devnexus-2014-44-638.jpg?cb=1393566250
Amazon RedShift: http://docs.aws.amazon.com/redshift/latest/mgmt/welcome.html
Amazon RedShift https://en.wikipedia.org/wiki/Amazon_Redshift
Snowflake ( winner of Strata + Hadoop World 2015 Startup Showcase): http://www.snowflake.net/
Snowflake: http://conferences.oreilly.com/strata/big-data-conference-ca-2015/public/schedule/detail/38993
Cloudera Impala: https://es.wikipedia.org/wiki/Cloudera_Impala
Fuente: http://www.tntla.com/noticias/lo-mas-tuiteado-de-la-historia-de-los-oscar-fue-el-triunfo-de-leo#image=2
Storm comparado con los big data tradicionales https://www.ibm.com/developerworks/ssa/library/os-twitterstorm/
Fuente: http://www-304.ibm.com/partnerworld/gsd/solutiondetails.do?solution=52371&expand=true&lc=en#ti
http://www.iri.com/solutions/big-data
http://www.iri.com/solutions/data-masking
http://www.iri.com/assets/uploads/editor/Infographics/IRI%20Data%20Masking%20Down.png
https://en.wikipedia.org/wiki/Personally_identifiable_information
IRI CellShield Data Masking in Excel https://www.youtube.com/watch?v=Li_pULwbwpc
Introduction to IRI FieldShield Data Masking https://www.youtube.com/watch?v=dIdDrHiPORg
Infografía http://www.iri.com/assets/uploads/editor/Infographics/Big%20Data.png
Fuente: http://www.businessinsider.com/ibm-ceo-pursues-a-new-2-trillion-market-2016-2
IBM invertirá US$3 mil millones en Internet de las cosas: http://elcomercio.pe/tecnologia/empresas/ibm-invertira-us3-mil-millones-internet-cosas-noticia-1801268?ref=nota_tecnologia&ft=mod_leatambien&e=titulo
Video Completo https://www.youtube.com/watch?v=6AQMMx4OkjM&feature=youtu.be
Alemania utiliza Big Data para ganar el Mundial del 2014 http://www.redusers.com/noticias/alemania-utilizo-big-data-para-ganar-el-mundial-de-brasil/
- 'Big Data', el arma secreta con la que Alemania ganó el Mundial http://www.elpais.com.uy/economia/gente-negocios/big-data-arma-secreta-que.html
- Big Data y fútbol: así aprovecha el Real Madrid la tecnología https://www.youtube.com/watch?v=DXq30dvE0Xg
- Libro IBM: IBM Software Defined Infrastructure for Big Data Analytics Workloads https://books.google.co.ve/books?id=5A83CgAAQBAJ&pg=PA25&lpg=PA25&dq=IBM+budget+for+big+data&source=bl&ots=Q4ijJh7MHY&sig=2q6Qv1RGpFq-9OVZqIb0jjVqxbc&hl=es&sa=X&ved=0ahUKEwitzL7I4onKAhWGLSYKHcNeAJoQ6AEIYzAJ#v=onepage&q=IBM%20budget%20for%20big%20data&f=false
- IBM Big Data (Campo Inteligencia Artificial) http://www.v3.co.uk/v3-uk/news/2400032/ibm-teams-with-twitter-for-social-media-big-data-analysis
http://www.ibm.com/smarterplanet/us/en/ibmwatson/
https://twitter.com/ibmwatson?lang=es
- De IBM Watson Twitter minas de sentimientos http://www.infoworld.com/article/2897602/big-data/ibms-watson-now-mines-twitter-for-sentiments-good-bad-and-ugly.html
- Solicitudes de datos por parte de los Gobiernos a Facebook Nov 17, 2015 http://www.economist.com/blogs/graphicdetail/2015/11/daily-chart-11
- Five Examples of How Federal Agencies Use Big Data http://www.businessofgovernment.org/BigData3Blog.html
- Gobierno Soluciones HP Big Data 4aa6-0979enw http://www8.hp.com/ca/en/software-solutions/big-data-government/
Fuente: Transform government services: HPE Big Data Solutions for Government business white paper
https://ssl.www8.hp.com/pr/es/ssl/leadgen/secure_document.html?objid=4AA6-0979ENW&siebelid=22413§ionid=pdf&returnurl=%2Fpr%2Fes%2Fsecure%2Fpdf%2F4aa6-0979enw.pdf&subbu=TSG.Software&simpletitle=asset%2Fsoftware-asset-viewer%2F4AA5-2964ENW&parentUrl=https%3A%2F%2Fwww.google.co.ve%2F
Fuente: http://www.ey.com/Publication/vwLUAssets/EY-big-data-en-el-sector-financiero-espanol/$FILE/EY-big-data-en-el-sector-financiero-espanol.pdf Consultado en Enero, 2016
- Korea shows how to use Big Data for development http://blogs.worldbank.org/voices/korea-shows-how-use-big-data-development
- BIG DATA FOR MEDICINE IN KOREA http://www.stofficeseoul.ch/korea-takes-a-lead-in-medical-big-data-system/
- Universidad Nacional de Seoul Instituto de Big Data http://bdi.snu.ac.kr/eng/
http://www.useoul.edu/media-coverage?bm=v&bbsidx=122789
http://www.zdnet.com/article/s-korea-unveils-big-data-center-to-help-industry-catch-up/
- Fuente: http://www.unglobalpulse.org/big-data-climate-challenge-2014
- Proyectos Global Pulse
http://www.unglobalpulse.org/projects
http://www.unglobalpulse.org/blog/big-data-development-action-global-pulse-project-series