Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.

Científico de datos - Good Rebels -

4.752 Aufrufe

Veröffentlicht am

¿Qué hace realmente un Científico de Datos? En Good Rebels hemos querido trazar un perfil de esta nueva profesión, con la ayuda de varios líderes del sector, procedentes de ámbitos académicos, empresariales e institucionales. A modo de resumen, podríamos concluir que las tareas principales de un Científico de Datos se resumen en identificar los datos, transformarlos cuando están incompletos, agruparlos, prepararlos para el análisis, ejecutar el análisis, visualizar los resultados y comunicarlos.

Veröffentlicht in: Daten & Analysen

Científico de datos - Good Rebels -

  1. 1. 1 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja?
  2. 2. 2 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? “El trabajo más sexy de las próximas décadas será el de estadístico. La gente piensa que bromeo, ¿pero quién habría pensado que los informáticos iban a tener el trabajo más atractivo de los 90?”. Hal Varian, octubre de 2008.
  3. 3. 3 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? Introducción: Data Scientist, el trabajo más sexy de la década - Datos, datos y más datos - Un poco de historia 1. ¿De dónde viene el Científico de Datos? - Cada especialista en su lugar 2. Científico de Datos: buscando su lugar en el organigrama - El dato estaba en casa - ¿Está lista la organización para escuchar al Científico de Datos? 3. ¿Quién necesita un Científico de Datos? 4. Las capacidades del Científico de Datos - Las habilidades técnicas - Habilidades más allá de la técnica - Cómo seleccionar a tu Científico de Datos - ¿No encuentras un Científico de Datos? Fórmalo in house - ¿Superhombres? No, ¡súper equipos! 5. Las herramientas del Científico de Datos - Construcción de sistemas de tratamiento de datos, bases de datos, herramientas de visualización y data wrangling - ¿Open source o software propietario? 6. Manos a la obra: el proceso de trabajo - Tres obstáculos antes de acceder a los datos - Del dato a la decisión… si nada se tuerce 7. Evaluando el trabajo del Científico de Datos 8. La confianza: un componente indispensable en los procesos de Ciencia de Datos - La ética: el necesario complemento de la ciencia 9. La realidad del Científico de Datos en España - ¿Quién está empleando mejor la Ciencia de Datos en España? 10. Conclusiones: Casi todo está por hacer - ¿Cómo se presenta la edad adulta del Big Data?
  4. 4. 4 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? El Científico de Datos se configura como un híbrido entre programador, analista, comunicador y consejero. Una combinación muy difícil de encontrar.
  5. 5. 5 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? Data Scientist, el trabajo más sexy de la década La figura del Científico de Datos comenzó a emerger a principios del siglo XXI. Una década después de la irrupción de Internet en los negocios, Hal Varian, economista jefe en Google, vaticinaba en una entrevista en octubre de 2008: “El trabajo más sexy de las próximas décadas será el de estadístico. La gente piensa que bromeo, ¿pero quién habría pensado que los informáticos iban a tener el trabajo más atractivo de los 90?”. Varian, también docente en la Universidad de Berkeley, fue uno de los primeros en reconocer la importancia estratégica de extraer información de los datos, y no sólo a nivel empresarial. “La capacidad de tomar datos y entenderlos, procesarlos y extraer un valor de ellos que se pueda visualizar y comunicar va a ser una habilidad crucial en las próximas décadas. Y no sólo a nivel profesional, también a nivel educativo, desde los niños que están en el colegio, pasando por el instituto hasta la universidad, porque ahora de verdad tenemos datos libres y ubicuos. Así que el factor diferencial será la habilidad de entender los datos y extraer valor de ellos”. Lo cierto es que en 2008 unas pocas empresas habían incorporado ya la figura del profesional  que gestionaba un volumen de información hasta entonces desconocido por variedad y tamaño, a la caza de hallazgos relevantes para el negocio. Pero hasta entonces nadie los había llamado “científicos de datos”. Los primeros en hacerlo fueron  D.J. Patil y Jeff Hammerbacher, entonces responsables de la analítica de datos en LinkedIn y Facebook, respectivamente. Ocho años después, en 2016, con más y más datos generados a diario, los vaticinios de Varian se muestran más que acertados. Según el estudio de McKinsey Global Institute “Game changers: Five opportunities for US growth and renewal”, en Estados Unidos la industria de Big Data podría hacer crecer el PIB anual en 325.000 millones para el año 2020. Según el mismo estudio, sólo en Estados Unidos se necesitan cubrir en los próximos tres años 190.000 puestos de trabajo relacionados con el análisis en profundidad de los datos, y 1,5 millones de profesionales capaces de extraer conclusiones útiles de éstos. Entre 2010 y 2020 crecerán un 18,7% las empresas que busquen incorporar la figura del Científico de Datos, según el estudio de EMC “The Digital Universe in 2020”. El hecho de que en 2020 se esperen recoger 40.000 Exabytes de datos demuestra la necesidad de las organizaciones de incorporar talento para el análisis en profundidad de la información.
  6. 6. 6 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? Lo cierto es que muchas empresas (las más grandes o las más punteras) han incorporado ya la figura del Científico de Datos, en cualquiera de sus variantes. Su súbita aparición en el mundo de los negocios, así como la elevada demanda de estos profesionales esperada en los próximos años, confirma que existe una necesidad creciente de procesar grandes volúmenes de información y transformarla en un activo valioso, pues los datos “en estado bruto” no son útiles para las empresas. Sólo un tratamiento en profundidad ofrece la oportunidad de sacar a la luz patrones y tendencias, que agilicen los procesos de negocio, y al mismo tiempo, optimicen la toma de decisiones. Es aquí donde se erige la Ciencia de Datos como el proceso que hace posible la  recopilación, preparación, análisis, visualización, gestión y conservación de grandes volúmenes de datos. La extracción de información valiosa a partir de todo tipo de fuentes permite encontrar respuestas a cuestiones estratégicas vitales para el negocio, relacionadas con ahorro de tiempo y costes, desarrollo de nuevos productos, optimización de ofertas y toma de decisiones más rápidas y precisas. Pero, ¿qué hace realmente un Científico de Datos? En Good Rebels hemos querido trazar un perfil de esta nueva profesión, con la ayuda de varios líderes del sector, procedentes de ámbitos académicos, empresariales e institucionales. A modo de resumen, podríamos concluir que las tareas principales de un Científico de Datos se resumen en identificar los datos, transformarlos cuando están incompletos, agruparlos, prepararlos para el análisis, ejecutar el análisis, visualizar los resultados y comunicarlos. Para ello debe poseer una formación técnica en programación, administración de datos, estadística y minería de datos. Sin descuidar, al margen de la parte analítica, la capacidad de centrarse en la generación de valor para la empresa. De esta forma, en un escenario competitivo donde los desafíos se renuevan constantemente y los datos no dejan de fluir, el trabajo del Científico de Datos permite a los directivos pasar de un análisis ad hoc a una conversación permanente con los datos. ¿Qué tipo de persona es capaz de desempeñar esta labor? El Científico de Datos se configura como un híbrido entre programador, analista, comunicador y consejero. Con dominio de disciplinas estadísticas, tecnológicas, matemáticas y de arquitectura de datos. Todo ello, sin olvidar las cualidades humanas. ¿Una combinación de capacidades muy difíciles de atesorar en una sola persona? Probablemente, sí. Porque sencillamente, no existen muchas personas capaces de hacer todo eso.
  7. 7. 7 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? Un ideal, el del todoterreno solvente en matemáticas, informática y arquitectura de datos, conocimiento del negocio y capacidad de comunicación, sin olvidar las virtudes empáticas, que, dada la práctica imposibilidad de encontrar en el mercado, los profesionales refieren con apelativos como “El Dorado”, “El unicornio”, “El superhéroe de los datos”, “Bestia parda” o “El nuevo hombre del Renacimiento”. Una combinación extremadamente potente... y muy difícil de encontrar, porque la demanda es cada vez mayor, y los profesionales escasean. La solución: formación, reciclaje, y creación de equipos que, unidos, sí son capaces de integrar un perfil como el descrito. Para leer más: Entrevista a Hal Varian en McKinsey.com Biografía DJ Patil Building Data Science Teams, en Amazon.com
  8. 8. 8 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? Datos, datos y más datos Con infinidad de servicios y dispositivos conectados, se calcula que el 90% de los datos se ha generado en los últimos dos años. Esto supone mayor volumen de información que la creada en toda la historia de la humanidad. Y también una muy buena noticia para cualquiera que se especialice en la gestión y el tratamiento de los datos: probablemente no le faltará trabajo el resto de su vida. Numerosos indicadores ilustran esa espectacular explosión de los datos. Por ejemplo: - En el año 2020, se crearán 1,7 MBs de información por segundo y por cada ser humano, según la previsión de EMC. - Constantemente se genera información, que alguien debe monitorizar. Por ejemplo, sólo en Google se producen 40.000 búsquedas cada segundo. - Facebook es otro monstruo de la generación de datos. Cada minuto, sus usuarios envían una media de 31,2 millones de mensajes y ven 2,77 millones de vídeos. - Facebook y Microsoft comenzaron en mayo de 2016 la instalación conjunta de un cable submarino entre Europa y EEUU de 6.600 kilómetros de longitud, capaz de transmitir 160 TBs de datos por segundo[1]. - En 2017 el 80% de las fotos se tomarán con smartphones. Un gran porcentaje de ellas se comparte a través de Internet. - En 2020 se calcula que funcionarán más smartphones que teléfonos fijos: habrá 6.100 millones de usuarios en todo el mundo. - También ese año habrá 50.000 millones de dispositivos inteligentes activos en todo el mundo, todos ellos recopilando, analizando y compartiendo datos. Un tercio de los datos pasará a través de la nube. - El 80% de los datos que se generan actualmente no está estructurado. Son los que se encuentran en emails, hojas de cálculo, medios sociales, la web…
  9. 9. 9 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? - El mercado para Hadoop (software de código abierto para gestionar ordenadores en red) crecerá a un ritmo anual del 58%, superando el valor de 1.000 millones de dólares en 2020. - Para una empresa media del ranking Fortune 1000, una mejora de sólo el 10% en la accesibilidad de los datos resultará en más de 60 millones de dólares de ingresos netos adicionales. - Los comercios que hagan pleno uso del potencial de los datos podrían aumentar sus márgenes operativos hasta en un 60%. - Tal vez el dato más asombroso, y que demuestra el enorme potencial que tiene por delante la industria de Big Data: según el MIT, por el momento menos del 0,5% de todos los datos que se generan son analizados. Para leer más: Big Data: 20 Mind-Boggling Facts Everyone Must Read Internet Live Stats Big data: The next frontier for innovation, competition, and productivity
  10. 10. 10 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? Un poco de historia La Enciclopedia de Anécdotas Comerciales, publicada en 1865 por Richard Millar Devens, contiene la primera referencia registrada del término Business Intelligence. El autor describía el éxito del banquero Sir Henry Furnese a partir de su habilidad para recopilar información comercial con el fin de anticiparse a sus competidores: “A través de Holanda, Flandes, Francia y Alemania, tejió y mantuvo una completa y perfecta cadena de inteligencia de negocio. De esta forma, era el primero en recibir cualquier noticia”, escribe Devens. Furnese terminó empleando este conocimiento privilegiado para fines poco éticos, y acabó su carrera como un financiero corrupto. Sin embargo, se le puede atribuir el mérito de sembrar la semilla de la inteligencia empresarial. La tecnología no avanzó hasta el punto de considerarse un componente clave de la inteligencia de negocios hasta bien entrado el siglo XX. Los primeros ordenadores comerciales llegaron a Estados Unidos en la década de 1950. Hans Peter Luhn, investigador pionero en IBM, publicó en 1958 el artículo “A Business Intelligence System”, en el que definía Business Intelligence como “la capacidad de aprehender las interrelaciones de hechos estudiados, de tal manera que orienten la acción hacia una meta deseada”. Luhn planteaba el desarrollo de un sistema automático e inteligente, construido sobre máquinas procesadoras de documentos, capaz de diseñar pautas de acción hacia objetivos concretos para las diferentes secciones de cualquier organización. Con este artículo, Luhm, considerado el padre del Business Intelligence, plantaba los cimientos del análisis y la distribución de información al servicio de las necesidades del negocio. Pasaron aún tres décadas hasta que el analista Howard Dresner popularizara en 1989 la definición moderna de Business Intelligence. Englobando conceptos un tanto engorrosos relacionados con el almacenamiento y tratamiento de los datos, Dresner sintetizó la idea de Business Intelligence como los “conceptos y métodos que mejoran la toma de decisiones de negocio utilizando como soporte sistemas basados en datos”. A partir de la década de 2000, la intersección entre las diferentes tecnologías y las necesidades empresariales fue dando lugar a nuevos conceptos y terminologías: Ingeniería de Datos, Analítica de Negocios, Data Mining... Actualmente no existe un consenso claro sobre dónde empiezan y terminan exactamente las competencias de cada una de estas disciplinas, ni hasta qué punto unas se solapan con otras. Pero lo que sí está claro es que todas ellas conviven bajo el gran paraguas del Big Data.
  11. 11. 11 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? Para leer más: Richard Miller Devens - Cyclopædia of commercial and business anecdotes Hans Peter Luhn – A Business Intelligence System Blog Howard Dresner
  12. 12. 12 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja?
  13. 13. 13 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? Han participado en la elaboración de este estudio Bosco Aranguren Chief Marketing Officer en Microsoft Iberia CMO de Microsoft Iberia desde marzo de 2017. Previamente, fue responsable de Media Buying en Google. Se incorporó a Google en 2010 como Director de Automoción, y en 2012 se convirtió en Director de CPG y Entretenimiento. Álvaro Barbero Chief Data Scientist en Instituto de Ingeniería del Conocimiento (IIC) Experto en los campos de machine learning, ingeniería y optimización de algoritmos. Su trabajo consiste en transformar avances en esas áreas en sistemas Big Data, desde sistemas de predicción y recomendación a análisis automatizado de textos y optimización de recursos. Richard Benjamins Director de Posicionamiento Externo y Big Data en LUCA: Data-Driven Decisions Director de Posicionamiento Externo y Big Data para Social Good en Telefónica. Anteriormente, como director de BI y Big Data, fue responsable de explotación interna de Big Data en Telefónica. También ha sido Director de Business Intelligence en Telefónica Digital, y antes fue Director de User Modelling, donde condujo programas de BI global.
  14. 14. 14 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? Fuencisla Clemares Country Manager de Google España y Portugal Se incorporó a Google en 2009 como directora del área de comercio minorista y bienes de consumo, para después liderar los sectores de Telecomunicaciones, Banca y Seguros, junto con la estrategia móvil para España. Antes de llegar a Google, trabajó durante siete años como consultora estratégica en McKinsey Company, y fue después Directora de Compras en la división casa-hogar de Carrefour. Manuel Marín Data Analytics Manager en PwC Data Analytics Manager en PwC. Anteriormente fue CTO en APARA, y trabajó como especialista en analítica predictiva en empresas de telecomunicaciones, banca, seguros, energía, salud, deportes y retail, en las áreas de detección de fraude e inteligencia de clientes Esteban Moro Profesor Titular en Universidad Carlos III de Madrid Profesor en la Universidad Carlos III de Madrid, miembro del Instituto UC3M-Santander sobre Big Data, y director académico del Máster en Data Science y Big Data en Finanzas de AFI. Actúa como consultor para diferentes instituciones públicas y privadas. Sus áreas de interés son las matemáticas aplicadas, matemáticas financieras, marletig viral y redes sociales.
  15. 15. 15 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? Felipe Ortega Director del Master en Data Science de la Universidad Rey Juan Carlos Profesor Asociado en la Escuela Técnica Superior de Ingeniería de Telecomunicación de la Universidad Rey Juan Carlos de Madrid. Es cofundador del Laboratorio de Ciencia de Datos de CETINIA, y Director del Master en Data Science de la UJC. Sus áreas principales de investigación son la ingeniería de datos, aprendizaje automático, software open source, gestión de datos a gran escala y visualización de datos. Pep Porrà Business Performarce Director en King.com Responsable de la división de Data Science en King.com, donde lidera un equipo de Científicos de Datos y gestores centrado en evaluar, anticipar y entender el impacto en la monetización de los juegos. Antes de incorporarse al mundo empresarial, fue profesor de Estadística y Matemáticas en la Universidad de Barcelona. Alejandro Rodríguez Profesor Titular en la Universidad Politécnica de Madrid Profesor Titular en el Departamento de Lenguajes y Sistemas Informáticos e Ingeniería de Software de la UPM. Especialista en investigación en el campo de la informática médica, representación del conocimiento, sistemas expertos y web semántica. Marcelo Soria Socio en Tramontana.co Desde mediados de 2016, socio de Tramontana.co. Entre mayo de 2014 y mayo de 2016 fue vicepresidente de Servicios de Datos en BBVA Data Analytics, y antes co-lideró proyectos de Big Data y Smart Cities en BBVA.
  16. 16. 16 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? 1. ¿De dónde viene el Científico de Datos?
  17. 17. 17 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja?
  18. 18. 18 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? ¿Dónde están los Científicos de Datos? En Estados Unidos se concentran más de la mitad de estos profesionales. España aparece como el octavo país en el mundo con mayor número de Científicos de Datos en activo. “The State of Data Science”, Stitchdata.com
  19. 19. 19 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? DJ Patil, actual Chief Data Scientist en el gobierno de los Estados Unidos, fue el primero en acuñar el término “Data Scientist”, desde su antigua posición en LinkedIn. Pero casi una década después de hacerlo, aún existe cierta controversia sobre su significado exacto, y sobre si su cometido difiere o no del que desde hace muchos años ejecutan los analistas de datos en las empresas. Para algunos el origen de la Ciencia de Datos se sitúa en el Aprendizaje Automático (Machine Learning). Desde esa rama se han desarrollado todos los modelos de predicción y clasificación. Los profesionales formados en esa disciplina eran principalmente matemáticos con habilidades de programación para implementar y probar modelos predictivos, ya que se trata de una rama no teórica de las matemáticas. El cambio de escala en la cantidad de datos que manejan las organizaciones es el principal impulsor del nuevo perfil. Si a la tradicional Analítica de Datos se añaden elementos como Big Data o Aprendizaje Automático, podemos estar hablando de una nueva disciplina teórica -a la vez que categoría profesional- cuyos términos se están definiendo casi al mismo tiempo en que el mercado genera una demanda. Lo que distingue al Científico de Datos es una formación diferente, más científica, que le permite emplear las técnicas más actuales para acceder a los datos masivos, no sólo a nivel de exploración, sino también de rapidez. Un perfil a caballo entre la formación académica y la experiencia profesional. Actualmente, ante la falta de consenso sobre sus cualidades y competencias, se ha ampliado el espectro de profesionales englobados dentro de la categoría de Data Scientist. Sí es importante que reúnan un conjunto de cualidades: deben ser capaces de utilizar sus conocimientos para, a partir de datos y evidencias empíricas, extraer información que no es evidente, y además presentarla de manera comprensible a sus interlocutores. Cada especialista en su lugar Ciencia de Datos, Big Data, Analítica de Datos... Términos que venimos escuchando desde hace años, pero todavía rodeados de cierta confusión respecto a su definición y competencias. ¿En qué consiste cada una de estas disciplinas? Ante todo, es importante destacar que el rol del Científico de Datos es distinto del de un analista que diseña modelos o previsiones. No sólo se espera que explique el efecto que los datos van a ejercer en el futuro de una empresa, sino también que aporte soluciones que ayuden a la compañía a evolucionar, tanto en el presente como en el futuro.
  20. 20. 20 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? “No puedes transmitir una decisión relevante en tu negocio si no eres capaz de contar cómo la has obtenido, qué datos has utilizado y qué procesos has seguido para desgranar la información”. Esteban Moro.
  21. 21. 21 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? Ciencia de Datos - Enfrentándose a datos estructurados o desestructurados, la Ciencia de Datos es un campo que engloba todo lo relacionado con la limpieza (curación), preparación y análisis de los datos. - La Ciencia de Datos se compone de una combinación de estadística, matemáticas y programación, aderezada con la resolución de problemas, la captura de datos a través de cuanto ingenio sea necesario y la capacidad de escrutar un problema desde una perspectiva diferente. - El Científico de Datos traslada casos de negocio a una agenda analítica, desarrolla hipótesis y patrones y evalúa su impacto en el negocio. Este profundo análisis tiene como objetivo último resolver de manera eficiente complejas cuestiones del negocio y anticipar sus necesidades futuras. Big Data - Big Data hace referencia a ingentes volúmenes de datos, propios o de terceros, generalmente no agregados, y cuyo tamaño impide que puedan ser procesados de manera efectiva utilizando las aplicaciones tradicionales. - Big Data es un término que impregna cada vez más negocios e industrias. El análisis de tendencias en los datos mediante sofisticados algoritmos y otros métodos innovadores de procesamiento de la información se traduce en una mejora de las decisiones estratégicas que conducen los negocios. Analítica de Datos - La Analítica de Datos utiliza los datos para desgranar las tendencias del mercado y el negocio, y desarrollar o mejorar métodos vinculados a la productividad y reducción de costes.
  22. 22. 22 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? “El próximo gran reto dentro de la industria del juego es empezar a crear sistemas inteligentes. Es convertir los datos en un valor nuevo para la compañía”. Pep Porrà.
  23. 23. 23 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? - La base de la Analítica de Datos se centra en la inferencia, que es el proceso de extraer conclusiones únicamente basadas en lo que el investigador ya sabe. - La Analítica de Datos se emplea en múltiples industrias para permitir a las organizaciones mejorar su toma de decisiones, así como verificar o refutar teorías y modelos existentes. Un caso hipotético permite diferenciar los procesos involucrados en un proyecto de Ciencia de Datos. Imaginemos que cada día se suben millones de imágenes a una web de referencias gastronómicas, y es necesario catalogarlas: ¿se trata de fotos de comida? ¿Qué tipo de comida? ¿O es un restaurante? ¿Del exterior o del interior? El Aprendizaje Automático permite clasificar cada imagen en su correspondiente categoría de manera automática. Debidamente “entrenado”, un ordenador puede establecer, por ejemplo, si la imagen de un restaurante corresponde al interior o al exterior del mismo. El Científico de Datos supervisa todo el proyecto, desde la selección del algoritmo hasta el diseño de la ingeniería - El Científico de Datos crea el modelo que permite al ordenador realizar esa distinción, utilizando diferentes fuentes de información, desde imágenes clasificadas manualmente a keywords en las capturas. - Utilizando técnicas de ingeniería de datos, se crea un sistema de alimentación y almacenamiento de datos, sobre los que se ponen en práctica a gran escala los algoritmos. - Finalmente, se examinan las implicaciones para el negocio de la innovación introducida: ¿es útil para el negocio? ¿Permite a la web generar más tráfico? Etc. Los hallazgos encontrados se presentan utilizando herramientas de visualización.
  24. 24. 24 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? 2. Científico de Datos: buscando su lugar en el organigrama
  25. 25. 25 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja?
  26. 26. 26 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? “El problema que nos encontramos muchas veces es que los datos se han gestionado de forma aislada. Y llega el momento de la verdad de activar esos datos y resulta que nada se habla con nada”. Bosco Aranguren.
  27. 27. 27 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? El Científico de Datos no es un perfil radicalmente nuevo, que se esté definiendo desde cero. Las empresas llevan tiempo recurriendo al análisis exhaustivo de los datos como una valiosa herramienta que ayuda a cumplir o mejorar sus objetivos. Lo que cambia ahora es la dimensión de ese estudio, en la medida en que una mayor cantidad de datos exige un enfoque distinto, tanto de los procedimientos como del propósito del análisis. Muchos expertos inciden en la idea del redescubrimiento de los datos, o mejor dicho, del descubrimiento de su aportación de valor al negocio. La persona que hasta ahora manejaba los datos, segmentaba a los clientes o determinaba los productos con mayor rotación obviamente añadía un valor a la compañía. Pero el rol del Científico de Datos va mucho más allá. El dato estaba en casa Es cierto que hace tiempo que existe la figura del responsable del dato dentro de una organización. La Analítica de Datos se emplea en la industria de Telecomunicaciones desde hace al menos 20 años. También la Banca lleva años utilizando Business Intelligence, y en general, de manera más o menos callada, todas las grandes empresas líderes de sus respectivos sectores. Sin embargo, lejos de ser una práctica transversal, la Analítica de Datos se ha aplicado a menudo sólo en departamentos concretos, principalmente en Marketing, Redes y Conocimiento del Cliente. Un fraccionamiento que de alguna manera perjudicaba su relevancia dentro de la jerarquía de prioridades corporativas. El problema principal en las empresas en las que no ha existido una cultura corporativa puesta al servicio de los datos es que a menudo éstos se han gestionado de manera descentralizada y desorganizada. Como resultado de esa gestión aislada en silos, cada departamento corporativo ha venido tomando las decisiones tecnológicas que ha considerado como las más adecuadas en cada momento. Pero llegada la hora de abordar los datos, los especialistas se encuentran con barreras e incompatibilidades que complican enormemente su trabajo. En instituciones con enormes repositorios históricos, agrupar y procesar los archivos de datos requiere de un colosal esfuerzo; pero una vez completado ese camino de autoaprendizaje, el trabajo se traduce en mejoras de los procesos internos, la gestión de las personas o el trato con el cliente.
  28. 28. 28 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? “Técnicamente se puede hacer casi todo, pero luego la organización tiene que estar preparada para usarlo”. Richard Benjamins.
  29. 29. 29 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? La diferencia con la situación de los últimos años reside en que los especialistas en Analítica de Datos disponen ahora de recursos tecnológicos mucho más potentes y eficaces, que les permiten extraer mayor valor de la información. El abaratamiento de los costes de computación, la mayor disponibilidad de datos y la mayor conectividad entre éstos aumentan las oportunidades de encontrar patrones o potenciales casuísticas, contribuyendo a poner al día la práctica del uso de datos para mejorar la gestión. En este proceso de reconocimiento del estatus del Científico de Datos es vital un avance fundamental en su atribución profesional: ha asumido la decisiva responsabilidad de contribuir notoriamente a la mejora de resultados de la compañía. Su misión ya no se circunscribe a orientar o aconsejar las acciones de otros departamentos, ni tampoco a masticar la información para presentársela a los directivos encargados de la toma de decisiones. El trabajo del Científico de Datos culmina con el alumbramiento de nuevas oportunidades de negocio a partir del examen exhaustivo de los datos. ¿Está lista la organización para escuchar al Científico de Datos? El Científico de Datos afronta en muchos casos otra batalla crucial para lograr que se reconozca su nuevo estatus dentro de las organizaciones: vencer la resistencia al cambio. La inercia digital empuja a muchas organizaciones hacia la cultura de datos, pero en las instituciones más tradicionales o de mayor tamaño, donde los nativos digitales no suelen formar parte de la dirección, esto puede traducirse en un viaje costoso si se prolonga en el tiempo, o traumático si es corto. La primera etapa del viaje de las empresas hacia el Big Data necesariamente pasa por un apoyo determinante desde la dirección general. Son tantos los departamentos implicados (IT, Business Intelligence, e-Commerce, Marketing, etc.) y es necesaria tanta coordinación entre ellos para que los datos fluyan, se compartan y se aprovechen que sólo poniendo los medios desde arriba es posible que suceda la transformación. Sin agilidad ni cooperación, no puede haber resultados. En aquellas organizaciones en las que existe una tendencia al acomodamiento o de resistencia al cambio, el Científico de Datos puede llegar a ser percibido como un intruso surgido con la intención de aleccionar a los expertos en el manejo del negocio. Los ejecutivos que hace tiempo han establecido las reglas del juego recelan del matemático que incluso parece utilizar un lenguaje ajeno al del negocio.
  30. 30. 30 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? La primera etapa del viaje de las empresas hacia el Big Data necesariamente pasa por un apoyo determinante desde la dirección general.
  31. 31. 31 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? Se trata de una cuestión cultural: el respaldo científico detrás de las recomendaciones del Científico de Datos debe abrirse paso entre los procesos tradicionales de toma de decisiones, basados en la experiencia o en otro tipo de indicadores, tan simples en ocasiones como una hoja de cálculo. Incluso no es extraño ignorar las aportaciones del Científico de Datos, ya que pueden situar a quien las recibe en el compromiso de mejorar sus resultados: ajustarse a los KPIs puede resultar un objetivo doloroso. No siempre es fácil aceptar una recomendación que aparentemente proviene de una máquina, o al menos esa es la sensación que tienen algunos de los más reacios al cambio. Un fenómeno que se repite en todo tipo de organizaciones, incluso startups, ya que en definitiva cada persona tiende a proteger a sus equipos y proyectos. Por eso, como veremos más adelante, la entropía y la comunicación son dos de las cualidades no técnicas imprescindibles para el desempeño de la labor del Científico de Datos.
  32. 32. 32 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? 3. ¿Quién necesita un Científico de Datos?
  33. 33. 33 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja?
  34. 34. 34 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? En Estados Unidos el Científico de Datos es el empleo con mejores perspectivas del año 2016, atendiendo a tres factores: oportunidades laborales, salario y potencial de desarrollo profesional. Fuente: 25 best Jobs in America, Glassdoor.com
  35. 35. 35 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? Hoy en día, empresas y organizaciones de multitud de industrias se embarcan en proyectos relacionados con el análisis de datos: Banca, Comunicaciones, Entretenimiento, Salud, Educación, Recursos Naturales, Seguros, Comercio, Transportes, Energías, etc. Muchas instituciones hacen públicos sus repositorios de Big Data, e incluso las tecnologías para visualizar y analizar datos están al alcance general. Este escenario facilita la investigación, ya que cualquiera con una formación básica puede plantear una cuestión vinculada a un negocio y reunir los datos precisos para resolverla. ¿Por qué se aventura una empresa en un proyecto relacionado con Big Data? La meta principal suele ser mejorar la experiencia de cliente, aunque otros objetivos incluyen reducir costes, reorientar las estrategias de marketing, aumentar la eficiencia de los procesos internos o mejorar la seguridad. Sabemos que disponemos de un acceso sin precedentes a información y datos. Además, los sistemas complejos aparecen en cualquier campo de conocimiento. Lo impredecible pueden manifestarse en todo tipo de disciplinas: matemáticas, física, química, ingeniería, programación, economía, sociología, psicología, etc. El desafío de encontrar un orden, un patrón de comportamiento entre la aparentemente caótica naturaleza de cualquier sistema, está siempre presente. Así, no hay escasez de datos, y por supuesto, tampoco de problemas a resolver. Y es tanto el conocimiento que ya existe que tampoco resulta sencillo generar conocimiento nuevo, entendido en este caso en forma de cualquier algoritmo o modelo que ayude a mejorar el rendimiento del negocio. Enfrentarse a todos esos desafíos, además de una sólida formación técnica, requiere de enormes dosis de pasión y motivación. Es por eso que para el Científico de Datos resulta crucial la trascendencia del problema a resolver. Pero, ¿cómo se define un buen problema? ¿Cómo se reconoce y se destinan recursos a resolver en particular esta y no otra cuestión? La respuesta puede ser subjetiva, dependiendo del interlocutor. Pero básicamente, un buen problema debe responder a tres condicionantes: • Tener un impacto directo y claro en el negocio. • Ser abordable con los datos de los que se dispone. • Capaz de aportar la suficiente motivación al Científico de Datos y su equipo. La última cuestión es quién puede hacerse cargo de la resolución de este tipo de problemas. En su libro Building Data Science Teams, DJ Patil resume el espíritu de lo que debería ser la guía para emplear o contratar un Científico de Datos:
  36. 36. 36 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? “No puedes tener a alguien que sepa de todos los negocios del mundo. La empresa puede tener un Data Scientist generalista, y especialistas en las áreas donde se puede desarrollar negocio”. Álvaro Barbero.
  37. 37. 37 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? “El inventor del “People you may know” (“Gente que podrías conocer”) en LinkedIn fue un físico experimental. Un químico computacional de mi equipo de Ciencias de la Decisión resolvió un problema de cien años de antigüedad relacionado con los estados de energía del agua. Un oceanógrafo realizó grandes aportaciones a la manera en que identificamos el fraude. Y quizás lo más sorprendente de todo fue el caso del neurocirujano que resultó ser un genio identificando tendencias subyacentes en los datos”. En definitiva, todo científico, sea cual sea su formación, está capacitado para enfrentarse al reto de extraer información de los datos, siempre que demuestre suficiente pasión por la resolución de problemas. Y siempre es beneficioso testear la solidez de un modelo desde la variedad de perspectivas aportada por diferentes disciplinas científicas.
  38. 38. 38 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? 4. Las capacidades del Científico de Datos
  39. 39. 39 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja?
  40. 40. 40 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? “Para la formación son muy útiles los MOOC, porque son muy específicos y muy orientados a un objetivo concreto”. Alejandro Rodríguez.
  41. 41. 41 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? El Científico de Datos no necesariamente es un profesional con una formación “numérica”. No es indispensable que provenga de disciplinas como las Matemáticas, la Estadística, la Física o las Ciencias Exactas, aunque esas formaciones aportan una base muy útil. Algunos Científicos de Datos provienen de campos como las Telecomunicaciones, las Ingenierías o la Informática, e incluso de áreas aparentemente lejanas como Comunicación, Económicas, Finanzas o Biomedicina. ¿Por qué? Porque lo más importante de su trabajo es en definitiva el análisis de los datos: jugar con ellos, trabajarlos, cuestionarlos, quererlos. El Científico debe ser una persona curiosa, creativa, innovadora, incluso desafiante, capaz de replantearse el status quo imperante. Y por eso no es tan decisiva su formación como su actitud. Las habilidades técnicas Lo que sí queda claro es que el trabajo del Científico de Datos se basa en la combinación de tecnología, creatividad y datos. Probablemente existe un tronco común en sus calificaciones y desempeños, pero según pase el tiempo, el perfil se irá diversificando en múltiples ramas y especializaciones. En síntesis, las cuatro disciplinas en las que el Científico de Datos debe desenvolverse con fluidez son: • Estadística / Matemáticas: debe ser alguien capaz de analizar bases de datos, construir modelos, hacer previsiones estadísticas y distinguir lo que es representativo de lo que no. Para ello debe contar con una sólida formación matemática que le permita controlar tanto modelos supervisados bajo técnicas predictivas (Data Mining, Machine Learning) como modelos no supervisados de segmentación. Previamente a esa modelización, debe manejar todas las técnicas matemáticas de pre-procesamiento del dato, y una vez construido el modelo, queda la evaluación. En definitiva, debe estar familiarizado con el conjunto de técnicas que permiten construir y evaluar un modelo predictivo, y ser capaz de aplicar la lógica estadística en lenguajes de programación. • Tecnología: como requisito para la transformación de los datos en conocimiento, el Científico de Datos debe entender las necesidades tecnológicas del negocio y saber cómo implementarlas. El diseño de algoritmos es clave en la transformación de datos, y requiere de dominio de múltiples lenguajes informáticos, así como un completo manejo de bases de datos. Es muy importante dominar la automatización, ya que muchos procesos se repiten en un ordenador mientras el científico trabaja en refinar o calibrar el modelo.
  42. 42. 42 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? “En España falta esa mentalidad de ayudar a la gente a crecer, a tomar riesgos, a darles formación para que incluso crezcan dentro del puesto”. Fuencisla Clemares.
  43. 43. 43 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? • Analítica de negocio: el Científico de Datos debe hablar el idioma corporativo, entender los objetivos del negocio, la industria en la que opera y los procesos que impulsan los beneficios y el crecimiento de la empresa. Sólo de esta forma será capaz de discernir qué problemas son factibles de ser resueltos mediante el tratamiento de los datos, y sólo conociendo el funcionamiento del negocio podrá trasladar el análisis de los datos hasta insights y recomendaciones valiosas para la empresa. Sin un conocimiento más o menos profundo del entorno empresarial, la mera cualificación técnica puede derivar en rechazo al “techie” o en dificultades de comprensión, o bien situarle en incómodas situaciones ofreciendo respuestas obvias. • Comunicación: el Científico de Datos tendrá que presentar en algún momento los resultados de su trabajo - no basados en la experiencia sino en su labor analítica- a profesionales, frecuentemente directivos con capacidad de tomar decisiones, con amplia experiencia de negocio pero sin formación técnica, y hacerlo sin perder en rigor ni exactitud. Para ello debe poseer la capacidad de divulgar de forma sencilla y de establecer un diálogo al nivel de sus diferentes interlocutores. Es muy importante que el resultado de un proceso analítico sea comprensible por cualquier cargo directivo de la empresa, lo que puede abarcar desde un ingeniero a un especialista en social media. Habilidades más allá de la técnica No sólo de técnica vive el Científico de Datos. Lo ideal es que las anteriores capacidades se complementen con una serie de habilidades personales, para formar un conjunto (a veces, sólo utópico) en el que la especialización se fusiona con las cualidades humanas. • Creatividad: que dé un sentido diferente al análisis gracias a la capacidad de emplear nuevos métodos para recopilar, interpretar y analizar los datos. La tecnología en sí no es diferencial, desde el momento en que los mismos programas están disponibles para cualquier organización. Es por eso que la trascendencia del know-how es vital: las herramientas pueden ser las mismas para todos, las mentes que las manejan, no. Añadiendo inteligencia se deshace la uniformidad tecnológica, convirtiendo los resultados que ofrece una solución de software - tal vez los mismos que maneja la competencia - en únicos.
  44. 44. 44 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? “La curiosidad es fundamental para estar a la última y actualizarte de manera continua”. Marcelo Soria.
  45. 45. 45 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? • Intuición: la capacidad de decantarse por una u otra vía para llegar a una solución resulta extremadamente importante. Los expertos destacan la importancia de aplicar un componente de arte a un proceso de trabajo técnico que suele encadenar una secuencia fija (tratamiento de los datos, curación, modelización, etc.), pero que requiere de una chispa intuitiva para discriminar qué pasos son los adecuados en cada momento del análisis crítico. • Flexibilidad: los mecanismos de prueba y error permiten valorar y escoger una u otra opción con el trabajo ya en marcha, complementando –o incluso rectificando- las decisiones tomadas antes de iniciar el proyecto. Los modelos matemáticos no son únicos, sino que se agrupan en cajas de herramientas que engloban diferentes técnicas. Por eso se requiere agilidad para decantarse por una u otra herramienta o técnica de análisis, en función de la estructura de los datos, la información disponible, etc. Y eso puede suponer una carencia para los profesionales formados en la teoría pero con escasa soltura en la práctica. • Curiosidad: entendida como la capacidad de plantear preguntas, de comprender lo que se le solicita y vislumbrar el camino correcto a adoptar. La curiosidad es fundamental para estar a la última en cuanto a técnicas y artes, para actualizarse constantemente. En última instancia, permitirá extraer inferencias significativas de los datos. • Empatía: aunque su trabajo sea fruto de horas y horas pasadas delante del ordenador, el Científico de Datos no es un lobo solitario. El factor humano debe estar presente en su día a día, en el sentido de que su trabajo depende de la colaboración con otros departamentos, y es imposible sacarlo adelante sin cooperación. Acostumbrado a la movilidad entre proyectos y áreas, el reto consiste en establecer un diálogo fluido con otras partes de la organización. Además, en ocasiones deberá comunicar a clientes o a sus superiores resultados que no son de su agrado, lo que refuerza la importancia del trato personal. • Pragmatismo: por último, de nada sirve todo el análisis teórico si no viene acompañado de una repercusión práctica. Toda la capacidad técnica sirve de poco si el Científico de Datos no es capaz de integrarse en un equipo, de convertir todo su potencial analítico en un resultado al servicio de la empresa o de otros grupos de trabajo. Por eso, es vital la capacidad de trasladar el análisis de los datos a insights o acciones con una incidencia directa en el negocio.
  46. 46. 46 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? “Nosotros en Google intentamos trabajar mucho en el ecosistema, que es una palabra que nos gusta mucho. Nosotros no somos los que vamos a formar a la gente, pero sí podemos influir para que otros que son expertos impulsen este tipo de iniciativas”. Fuencisla Clemares.
  47. 47. 47 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? Cómo seleccionar a tu Científico de Datos Para una profesión que están en plena evolución, no sirven los procesos de selección tradicionales. Compañías como Facebook, Amazon, Google o Microsoft lideran la vanguardia del uso empresarial de la Ciencia de Datos, y sirven como referencia a organizaciones de todo tipo de sectores para entender tanto el perfil profesional que están contratando como el tipo de trabajo que desempeñan. Evidentemente, el background tecnológico es fundamental: sin la formación técnica pertinente, es imposible abordar la misión de enfrentarse al tratamiento de datos. Por eso, es importante evaluar ante todo la formación y experiencia en matemáticas e informática. Pero también hay que valorar la capacidad de reciclaje, de crecer y aprender en un entorno siempre cambiante, puesto que tal vez estamos contratando a una persona que no sabe qué retos va a afrontar dentro de tres años. Por eso, en el propio proceso de selección es importante poner a prueba la facultad de razonamiento, mediante problemas en los que no es tan importante dar con la solución correcta como seguir un procedimiento lógico. Y tampoco es infrecuente consultar referencias no habituales en otros procesos de selección, por ejemplo, el trabajo desarrollado en plataformas como GitHub. ¿No encuentras un Científico de Datos? Fórmalo in house Cuando contratar un especialista en tratamiento de datos se convierte en una tarea compleja o económicamente costosa, algunas empresas optan por la promoción interna. Profesionales que ya trabajaban en algún área relacionada con la analítica de datos se reciclan o forman en disciplinas adaptadas a las nuevas necesidades del negocio. Un procedimiento extendido y perfectamente válido para aquellas empresas que optan por el reciclaje de sus especialistas en analítica de datos. Ese reciclaje viene favorecido por la tendencia a la estandarización que aporta la tecnología: proliferan herramientas que facilitan el trabajo previo de análisis y depuración de datos, y que permiten a los profesionales que ya están en la plantilla -especialmente en Business Intelligence- reciclarse dentro de la Ciencia de Datos.
  48. 48. 48 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? ¿Dónde ha estudiado el Científico de Datos? A la hora de estudiar la formación académica del Científico de Datos, sorprende encontrar que la segunda procedencia más frecuente es la de Administración de Empresas. Fuente: “The State of Data Science”, Stitchdata.com
  49. 49. 49 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? El efecto llamada de lo que algunos califican como la profesión de moda, junto con la estandarización tecnológica, ha rebajado en cierto modo el listón de conocimientos técnicos exigidos para desempeñar el rol de Científico de Datos, lo que no deja de suponer un riesgo que amenaza la calidad del proceso de toma de decisiones. Las herramientas que permiten automatizar una parte del trabajo con menos conocimientos específicos universalizan y agilizan la práctica de obtener valor de los datos, sin necesidad de aspirar a contar con la figura del Científico de Datos en plantilla, o al menos del analista de datos. Otra ventaja de la formación in house deriva de la peculiar naturaleza del trabajo del Científico de Datos. Sus inquietudes y motivaciones personales no siempre coinciden con las de otros profesionales. La pasión por investigar -no olvidemos que hablamos de científicos- y su motivación por aprender pueden llegar a sustituir en su escala de prioridades a variables como la posición jerárquica en la empresa, su progresión, el salario o las responsabilidades. En este sentido, el perfil se mueve a caballo entre el profesional y el académico, aunque sin olvidar que los parámetros de medición en la empresa no son iguales que los de la universidad. ¿Súper hombres? No, ¡súper equipos! Estadística, Técnica, Analítica, Comunicación... Sin olvidar las cualidades humanas. ¿Una combinación de capacidades muy difíciles de atesorar en una sola persona? Probablemente, sí. Porque sencillamente, no existen personas que hagan todo eso. La alternativa es sencilla: trabajar en equipos multidisciplinares. Se trata de conformar grupos que, en conjunto, reúnan todas las cualidades. Un esfuerzo colaborativo que va más allá del trabajo de una sola persona, donde lo más importante es generar un clima donde se fomente la curiosidad, la motivación, el intercambio de conocimiento y la cooperación. Cada integrante del equipo cuenta con un rol definido, y no debe saber de todo: el experto en modelización convivirá con el experto en analítica, el especialista en el negocio con el encargado de comunicar. Pero sí es importante que el Científico de Datos generalista cuente con una visión global de todo el proceso de trabajo, para evitar situaciones en las que, por ejemplo, invente un modelo matemático inviable de ejecutar con el hardware disponible. El funcionamiento del grupo debe ser fluido, de composición no rígida sino dinámica, porque una vez identificado el problema general, se pueden incorporar especialistas enfocados en un área concreta. Y esa misma fluidez, además de engrasar al equipo, permitirá a los componente del grupo decantarse profesionalmente hacia las áreas que más les atraigan.
  50. 50. 50 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? “Ahora mismo hay demanda de nuestros alumnos de Data Science incluso antes de que acaben la formación”. Esteban Moro.
  51. 51. 51 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? El CV ideal ¿Aspiras a trabajar como Científico de Datos? En ese caso, deberías asegurarte de que en tu CV están presentes el máximo número posible de las siguientes habilidades y cualificaciones: • Programación - R - Python - Hojas de cálculo - JavaSript y HTML - C/C++ o Java, Julia • Estadística - Estadística descriptiva e inferencial - Diseño experimental • Matemáticas - Funciones y gráficos - Cálculo multivariable - Álgebra lineal Y un complemento esencial: buen dominio del inglés, idioma en el que se genera una enorme cantidad de conocimiento nuevo. ¿Cuánto cobra cada especialista? Salarios (en EEUU) Científico de Datos 113.000 dólares / año Especialista Big Data 62.000 dólares / año Analista de Datos 60.000 dólares / año Fuente: Glasdoor.com • Administración de Datos - Sistemas de bases de datos - SQL • Comunicación y Visualización de Datos - Codificación visual - Presentación de datos - Conocimiento de audiencias • Bonus: Intuición - Gestión de proyectos - Conocimiento de la industria • Aprendizaje Automático - Aprendizaje supervisado - Aprendizaje no supervisado - Aprendizaje reforzado
  52. 52. 52 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? 5. Las herramientas del Científico de Datos
  53. 53. 53 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja?
  54. 54. 54 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? “El problema son las expectativas. Las empresas no comprenden que en investigación hay veces que las cosas no salen”. Alejandro Rodríguez.
  55. 55. 55 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? Construcción de sistemas de tratamiento de datos, bases de datos, herramientas de visualización y data wrangling Dentro de la parte de ingeniería, relacionada con la construcción de sistemas para el tratamiento de los datos, destacan tres herramientas básicas para empezar a desenvolverse en el análisis de grandes volúmenes de información: Python, R y Hadoop. Se trata de lenguajes de programación relativamente recientes y por ello no tan extendidos, aunque son más fáciles de asimilar por los profesionales que ya dominan lenguajes anteriores, como Java o C. R. Considerado el estándar entre los lenguajes de programación estadística, conocido por algunos como “el chico de oro” de la Ciencia de Datos. R es un entorno de software libre dedicado al cálculo estadístico y los gráficos, compatible con plataformas UNIX, Windows y MacOS. Es un must común en la Ciencia de Datos, y casi una garantía de encontrar empleo para quien lo domine, dado el creciente número de aplicaciones comerciales y la ventaja de su versatilidad. - R es gratuito: cualquiera puede instalar, utilizar, actualizar, clonar, modificar, redistribuir e incluso revender R. Así que no sólo permite ahorrar en los proyectos tecnológicos, sino que aporta constantes actualizaciones, siempre útiles en el lenguaje de programación estadístico. - R es un lenguaje de alto rendimiento, que ayuda a manejar grandes paquetes de datos, lo que lo convierte en una gran herramienta para el manejo de Big Data. También es ideal para simulaciones intensas, que consumen muchos recursos. - Dadas todas sus ventajas, es natural que sea cada vez más popular. Cuenta con alrededor de 2 millones de usuarios, que conforman una comunidad activa y colaboradora. Existen más de 2.000 librerías gratuitas con recursos estadísticos dedicados a las finanzas, el análisis de clusters, y mucho más.
  56. 56. 56 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? Todo cambio cultural es costoso, o muy largo en el tiempo; y si es corto, entonces es traumático.
  57. 57. 57 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? Python. Otro lenguaje de programación open source, flexible y sencillo. Un programador trabajando con Python debe escribir menos código gracias a sus características “amigables” para principiantes, como la legibilidad del código, una sintaxis simplificada y la facilidad de implementación. - Igual que con R, la programación en Python encuentra acomodo en una gran variedad de industrias y aplicaciones. Python está detrás del buscador de Google, así como de YouTube, DropBox o Reddit. Instituciones como la NASA, IBM y Mozilla también dependen en gran medida de Python. - Python también es gratuito, lo que beneficia a startups y pequeñas empresas. Dado que el lenguaje tiende a la simplificación, puede ser manejado por equipos reducidos. Y un buen conocimiento de los fundamentos de este lenguaje orientado a objetivos permite migrar a cualquier otro lenguaje similar aprendiendo sólo la sintaxis del nuevo lenguaje. - Como lenguaje de alto rendimiento, Python es la opción elegida con frecuencia para construir aplicaciones rápidas. Y su enorme librería de recursos permite que la ayuda necesaria para mantener la productividad se encuentre a unos pocos clics de distancia. Hadoop. Otro indispensable en el fondo de armario de cualquiera que quiera adentrarse en el análisis de Big Data. Disponible como un framework de código abierto, Hadoop facilita el almacenamiento y proceso de enormes cantidades de datos. Se considera la piedra angular de cualquier plataforma de datos flexible con vistas al futuro. - Hadoop destaca como una de las tecnologías con mayor potencial de crecimiento dentro de la industria de los datos. Empresas como Dell, Amazon Web Services, IBM, Yahoo, Microsoft, Google, eBay y Oracle están apostando fuerte por la implementación de Hadoop. - Una de sus grandes aportaciones consiste en ayudar a la organizaciones en sus demandas de marketing: identificando patrones de comportamiento de los clientes en la web, proporcionando recomendaciones y targeting personalizados, etc. - Hadoop abre grandes oportunidades laborales en una amplia variedad de puestos. Dado su acomodo en multitud de industrias, los especialistas en Hadoop pueden encontrar colocación como Arquitecto, Desarrollador, Administrador o Científico de Datos.
  58. 58. 58 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? “La realidad del trabajo del Data Scientist es que no sabes qué vas a encontrar detrás de los datos. Si quieres trabajar de manera ágil tienes que tener flexibilidad y, sobre todo, ser muy práctico”. Álvaro Barbero.
  59. 59. 59 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? Otra interacción frecuente en el trabajo del Científico de Datos se produce con las bases de datos. Aquí es habitual trabajar con bases de datos NoSQL, Apache Storm y herramientas de procesado como Spark. También con máquinas virtuales como Storm. Las herramientas de visualización no son tan importantes para crear valor como para convencer. En este sentido, están asociadas con la fase de comunicación de resultados y con el propio trabajo de redescubrimiento del valor de los datos: no es lo mismo navegar entre números que presentarlos. Para ello se emplean programas como QlickView, Tableau o Spotfire. Por último, existe una parte poco glamourosa del trabajo del Científico de Datos consistente en pelearse con los datos, una tarea conocida en inglés como data wrangling. A menudo, los datos en bruto se presentan de manera confusa o imperfecta, por lo que es necesario recopilar y limpiarlos manualmente para convertirlos a un formato estructurado que pueda ser explorado y analizado. Y esta es una tarea que puede ocupar más del 50% de la jornada del Científico de Datos, empleando herramientas como OpenRefine o Fusion Tables. ¿Open source o software propietario? Como en cualquier área donde se requiera trabajar con un software específico, los profesionales de la Ciencia de Datos pueden optar entre programas comercializados por empresas privadas y programas de código abierto. Antes de embarcarse en un proyecto de Ciencia de Datos, es muy importante conocer exactamente las necesidades tecnológicas que va a requerir, para así ajustar recursos y presupuestos. Esta es una de las razones por las que cada vez más empresas optan por la flexibilidad de las alternativas de código abierto. La variedad de opciones surgidas del entorno open source ha contribuido además a expandir el conocimiento y uso de nuevas tecnologías. Herramientas comerciales de pago que hasta no hace mucho tiempo dominaban el mercado ven cómo cada vez se reduce más su protagonismo ante las alternativas gratuitas. Algunos expertos alertan de los fabricantes que tratan de imponer sus soluciones comerciales a las empresas, que terminan invirtiendo grandes sumas en aplicaciones propietarias que siempre disponen de una alternativa de código abierto. Esta especie de cautividad es reemplazable por proyectos open source, escalables y capaces de ofrecer un rendimiento equiparable al del software propietario.
  60. 60. 60 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? 6. Manos a la obra: el proceso de trabajo
  61. 61. 61 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja?
  62. 62. 62 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? “Hay quien se asusta porque piensa que quieres imponerle un ejército de matemáticos”. Manuel Marín.
  63. 63. 63 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? Una vez que la empresa se ha embarcado definitivamente en la cultura del Big Data, las posibilidades son inmensas. La convivencia entre analistas y especialistas en el negocio dentro de equipos mixtos supone iniciar un journey que, idealmente, culminará en la apertura de nuevas líneas de negocio. Los resultados no llegan de un día para otro, pero la Ciencia de Datos convierte en factibles hitos que antes parecían inalcanzables. Tres obstáculos antes de acceder a los datos Ahora bien, antes de iniciar su trabajo, el Científico de Datos debe sortear tres obstáculos: 1. Acceso a los datos Muchas empresas pueden llegar a acumular gran cantidad de datos de sus clientes, pero la naturaleza de sus servicios incluye restricciones relacionadas con la seguridad y la privacidad. Surge entonces un problema del tipo “huevo-gallina”: como condición para dar acceso a los datos, los responsables exigen conocer el valor potencial que puede aportar al negocio. Pero por mucho que el analista pueda pontificar al respecto, no es posible demostrar los beneficios reales para la compañía a no ser que se permita dicho acceso a los datos. ¿Cómo escapar de esta dilema? Una forma de hacerlo es avanzar mediante modelos escalados que, progresivamente, demuestren al equipo directivo los beneficios que puede aportar la analítica. El acceso a una muestra de los datos permitirá elaborar un modelo que solucione un problema concreto. Un estudio a pequeña escala de clientes específicos, que pueda ayudar a tomar una decisión con repercusión inmediata en la compañía, es un buen punto de partida. Una vez que el directivo compruebe la utilidad del modelo - trasladándolo a decisiones inmediatas-, el primer paso estará dado. En este escenario, es crucial elegir un problema adecuado, que tenga un impacto visible en el negocio. Y para ello es necesaria la habilidad del analista, su intuición y su conocimiento del negocio. Claro que un modelo construido a partir de una muestra limitada contará con significancia limitada; sin embargo, es un requisito para abrir de par en par las puertas de los datos.
  64. 64. 64 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? “Va a haber mucha demanda en empresas que podríamos considerar más tradicionales”. Bosco Aranguren.
  65. 65. 65 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? 2. Los medios tecnológicos Superado el primer obstáculo, se presenta el siguiente: disponer de la infraestructura tecnológica necesaria que soporte el acceso a los datos, el análisis y la exploración de resultados. No se trata de buscar un culpable si dichos medios no están disponibles: simplemente puede que nadie en la organización haya sido consciente del impacto que el análisis de los datos puede tener en el negocio. Pero tampoco hay atajos en este camino: si esta labor no está hecha, alguien tendrá que ocuparse. Un problema adicional que se presenta a menudo es el de la descentralización de los datos. Con departamentos desagregados y bases de datos dispersas, cada una con sus correspondientes protocolos de acceso y seguridad, el Científico de Datos, en ocasiones con la ayuda de un ingeniero, deberá trabajar en la tarea de agrupar los datos en un único lugar, antes de que pueda siquiera acometer su trabajo. 3. La gestión humana Una parte de la Ciencia de Datos -como la de cualquier otra ciencia, consiste en la exploración. Y para explorar se requiere una buena dosis de inspiración, y el menor número posible de órdenes estrictas que ahoguen la creatividad. Pasión, perseverancia y curiosidad son cualidades requeridas en este tipo de labor, y a menudo no compatibles con la rigidez jerárquica. Por eso, los directivos deben ser pacientes y comprensivos, y, siempre dentro de la mayor o menor presión que dictaminan los resultados financieros, conceder al Científico de Datos el tiempo y la libertad necesarios para sacar adelante la investigación. Una vez que se haya conseguido el equilibrio entre lo que es motivante para los empleados y lo que es importante para el negocio, los resultados deberán llegar. Del dato a la decisión… si nada se tuerce Una vez enfrentado a los datos, el Científico emprende generalmente un proceso escalado. Deberá dedicar una gran parte de su tiempo a limpiar los datos, y después arrancar una ruta que comienza en las muestras pequeñas y que concluirá, si todo va bien, en la extracción de conclusiones útiles a partir de un modelo predictivo.
  66. 66. 66 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? “Muchas veces la razón por la que te contratan te deja con la boca abierta”. Manuel Marín.
  67. 67. 67 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? Si todo va bien… Porque la Ciencia de Datos no es un procedimiento infalible. Como en cualquier proyecto de investigación, no hay certezas absolutas. Por eso, hay que estar preparados para afrontar un posible fracaso, por duro que pueda resultar asimilarlo por las empresas con elevadas expectativas, que muchas veces sencillamente no contemplan la falta de resultados. En los proyectos en los que se trabaja con grandes bases de datos, no siempre es necesario hacer uso de todos los datos. Por eso es importante escalar: empezar con una base de datos manejable, ir y volver, establecer un diálogo permanente con la persona o departamento más interesada en el proyecto. Y una vez que se obtiene un pequeño insight de hasta dónde se puede llegar, comenzar a escalar. El camino hasta ese punto se encuentra a veces con carencias relacionadas con la toma de decisiones: hacia dónde orientar la investigación, qué datos utilizar, qué tipo de análisis emplear… Los conocimientos técnicos no garantizan la personalización de proyectos concretos, siempre sujetos a imprevistos que no se contemplan en los centros de formación. El ratio entre información disponible y las decisiones está muy descompensado hacia el primero. En el proceso de transformar el dato en decisión puede perderse mucho volumen de información, y en ese recorrido interviene la manera de contar el proceso. No se puede transmitir una decisión relevante para el negocio si no se puede respaldar con argumentos sólidos de dónde procede esa conclusión, qué datos se han empleado y qué procesos se han seguido para desgranar esa información y convertirla en ese diamante que es la decisión.
  68. 68. 68 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? 7. Evaluando el trabajo del Científico de Datos
  69. 69. 69 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja?
  70. 70. 70 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? ¿En qué industrias encontramos a los Científicos de Datos? Las industrias con mayor componente tecnológico acaparan la mayor concentración de Científicos de Datos. Fuente: “The State of Data Science”, Stitchdata.com
  71. 71. 71 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? Una célebre cita del matemático George E. P. Box, considerado uno de los más importantes estadísticos del siglo XX, dice así: “Todos los modelos son erróneos, pero algunos son útiles”. Erróneos en el sentido de que no pueden capturar todos los detalles de un sistema, porque si lo hicieran, el modelo serían tan complejo que contradiría el propio propósito de modelar. Eso no convierte los modelos en inservibles, pero sí obliga a que sean constantemente reinterpretados y validados utilizando los datos empíricos y el conocimiento del propio sistema, al margen de las técnicas o algoritmos empleados en el análisis. ¿Cómo medir los resultados del trabajo del Científico de Datos? En primer lugar, hay que tener en cuenta el horizonte temporal: los beneficios nunca se ven a corto plazo. El científico desarrolla un modelo predictivo, que se ejecuta o no en función de si es aceptado por la dirección. Después, las técnicas de aprendizaje automático aún se ejecutarán sobre el modelo creado, con el objetivo de mejorar la precisión. Para los responsables de los equipos es importante insistir en la aplicación práctica del trabajo. Especialmente en las grandes empresas, es importante procurar que los algoritmos no se queden en bellas teorías. La responsabilidad del Científico de Datos puede darse oficialmente por concluida una vez ha completado la construcción de su modelo, pero la responsabilidad personal se extiende, aún a riesgo de resultar plomizo, hasta que el modelo se ejecuta. Luego viene la espera de resultados. Los modelos no son infalibles: algún parámetro clave puede haber quedado fuera, bien sea porque se ha introducido alguna variable equivocada que altera el resultado o bien porque el equipo no ha captado las sutilezas del negocio. También puede fallar la ejecución: el insight puede ser bueno, pero no se lleva a la práctica de modo correcto. La calidad del algoritmo no es la única vara con que se mide el trabajo del Científico de Datos. Entre sus competencias se incluye cierta labor comercial, en el sentido de tratar con el cliente, explicarle qué ha encontrado, orientarle sobre qué hacer con sus datos, siempre utilizando esas habilidades de comunicación que el Científico -o algún miembro de su equipo- debe atesorar. De esta labor puede extraerse otro tipo de valoración. Por último, recordemos una vez más la importancia del factor humano. La Ciencia de Datos no es una caja negra rodeada de misterio. Los Científicos de Datos no son oráculos, ni sus palabras profecías: el algoritmo puede hacer una determinada predicción, pero la opción de trasladar o no ese insight al negocio, con todas las consecuencias que pueda llevar asociadas, depende en última instancia de la persona que toma la decisión. De ahí la importancia de la parte humana en todo el proceso.
  72. 72. 72 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? 8. La confianza: un componente indispensable en los procesos de Ciencia de Datos
  73. 73. 73 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja?
  74. 74. 74 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? “En términos de formación, no creo que haya ningún gap entre España y Estados Unidos o Reino Unido”. Pep Porrà.
  75. 75. 75 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? Los datos son un material altamente sensible, especialmente delicado cuando se trabaja con información ajena. En esos casos, la relación con el cliente debe ser respetuosa y diplomática: es su negocio, son sus datos, y a menudo es el activo más valioso que tiene. En algunas industrias hay cierta idea de obtener un rendimiento de los datos, pero la falta de experiencias con Big Data genera reservas antes de animarse a adentrarse en la analítica de datos. Las empresas con menos madurez guardan esa cautela, tal vez a la espera de que sean otros de su mismo sector los que den el primer paso. También es corriente el caso de empresas que sí prueban el Big Data pero se resisten a ceder sus datos, bien sea porque se guardan de compartir las posibles conclusiones con el mercado o porque ni siquiera quieren que los analistas las conozcan. La fórmula que funciona en esos casos suele ser la adquisición de la herramienta, para luego impartir un curso certificado y dar soporte. Otra situación delicada surge ante los peligros del Do It Yourself aplicado a la Ciencia de Datos. Hay quien se atreve a aplicar ciegamente unas herramientas después de un aprendizaje muy superficial, con resultados imprevisibles. Eso genera un ruido perjudicial para el conjunto de la industria de Ciencia de Datos, en el sentido de que las empresas no perciben los anunciados beneficios del Big Data, sin entender bien el por qué. Hay muchas empresas perdidas, que han oído los cantos de sirena del Big Data, que han gastado mucho dinero y no saben bien en qué, o no ven llegar los resultados. Hace falta con ellos un trato sensible, con sensatez y sentido común, aclarando y simplificando las pautas de acción. En una industria en el que la materia prima es tan resbaladiza, la confianza resulta esencial. La ética: el necesario complemento de la ciencia El Científico de Datos carga con una fuerte compromiso ético, en el sentido de que debe garantizar un uso responsable del activo que se le ha entregado. En una sociedad cada vez más digitalizada donde cada individuo deja rastros inconscientes e involuntarios, sería posible invadir la libertad de cualquier persona simplemente empleando los conocimientos adecuados y unos servidores potentes. Pero nadie desea que eso suceda. El compromiso ético, además de sensato, es tremendamente necesario en una Sociedad de la Información que se puede enfrentar a peligros de los cuales no es plenamente consciente todavía: vigilancias masivas, ausencia de intimidad, pérdida de datos a gran escala… Por
  76. 76. 76 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? “A veces el cliente se encuentra con cosas que no esperaba, y comunicárselo requiere de especialistas muy buenos en el trato personal”. Felipe Ortega.
  77. 77. 77 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? eso es obligación del Científico de Datos trabajar con transparencia, explicar de manera sencilla y accesible qué y cómo desempeña su trabajo, para superar ese halo de magia negra o de amenaza contra la privacidad que muchos pueden asociar con el Big Data. A poca gente le interesa conocer los entresijos de un algoritmo, pero sí quieren un esbozo del camino que siguen los datos. Una forma de garantizar este uso ético de los datos es trabajar en proyectos abiertos, Open Data, en los que cualquiera puede acceder a los datos, aportando de alguna manera conciencia y utilidad social. Por ejemplo, en BBVA se han puesto en marcha varios de estos proyectos, dedicados a mejorar la calidad de vida de los ciudadanos, o a optimizar la eficiencia en las ciudades mediante un uso inteligente de la información. Abrir los datos, devolver algo a la sociedad, constituirse en una plataforma de datos agregados para que otros los utilicen en la creación de valor, en proyectos vanguardistas en los que el altruismo reemplaza a la búsqueda de beneficios. Ese es el compromiso ético que muchos Científicos de Datos han adoptado para salvaguardar el buen nombre de su especialidad.
  78. 78. 78 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? 9. La realidad del Científico de Datos en España
  79. 79. 79 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja?
  80. 80. 80 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? La curiosidad por estar a la última es fundamental para actualizarse de manera continua, en cuanto a técnicas y artes.
  81. 81. 81 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? ¿Están los Científicos de Datos españoles más o menos cualificados que en otros países? ¿Faltan profesionales? ¿La oferta académica está a la altura de la demanda esperada en los próximos años? En general, los expertos coinciden en que España está a la altura de los países punteros en Ciencia de Datos. No faltan profesionales altamente cualificados, ni startups especializadas en el tratamiento de Big Data que destacan entre las más avanzadas de Europa, cuando no del mundo. El nivel profesional es tan alto que no es descabellado pensar en España como una potencia mundial en Data Science. Esta oportunidad ha de ser bien gestionada para no malograrse. Igual que sucede en otras disciplinas científicas, excelentes profesionales están emigrando para desarrollar su carrera en otros países. Es cierto que el dinero atrae a los profesionales a lugares como California, pero una concentración alta no significa mayor nivel. Para hacerse valer el científico español debe empezar por quererse a sí mismo, actuando con profesionalidad y criterio para asegurar un futuro muy prometedor. La oferta académica es también cada vez más extensa, tanto en centros educativos públicos como privados, donde proliferan los másters y cursos de expertos. Un maridaje indispensable en una disciplina en permanente convivencia con la innovación y la investigación. Así que si algo puede entorpecer el avance de la Ciencia de Datos en España no será la preparación de los especialistas, sino algunos de los males endémicos que arrastra la organización del trabajo en las empresas españolas. Por ejemplo, la agilidad en los tiempos de implantación de los proyectos no es comparable a Estados Unidos, donde se encuentran muchas menos trabas burocráticas. Igualmente, existe todavía un gap entre academia y empresa: falta dinamismo a la hora de integrar el trabajo de un científico en el ámbito de los negocios. También en España se acusa menor flexibilidad a la hora de reciclarse profesionalmente. Una vez que el profesional se ha enfocado en una carrera, arriesgarse a cambiar de camino cuesta más que en otros países, por una tendencia al acomodamiento o al etiquetado. Y ahí es importante el apoyo de las organizaciones a sus empleados. Eso sí, los profesionales españoles, en tanto que latinos, cuentan con un plus que les puede otorgar una ventaja competitiva frente al resto del mundo: el de la creatividad, entendida como la capacidad de buscar soluciones alternativas que nadie más ha imaginado para resolver un problema. Y eso encaja y complementa la parte de empatía, la de aplicar una parte de arte –la otra es es ciencia- a la resolución de problemas.
  82. 82. 82 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? “Es conveniente que todo el mundo se dé cuenta de que nuestra vida diaria va a estar muy supeditada e influenciada por el análisis de datos”. Felipe Ortega.
  83. 83. 83 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? ¿Quién está empleando mejor la Ciencia de Datos en España? Tres son los sectores que lideran la implantación de la Ciencia de Datos en España: la Banca, las Telecomunicaciones y el Turismo. En general, son las grandes compañías las que más recursos están invirtiendo en Ciencia de Datos: entidades como Santander, BBVA, Telefónica, Bankinter, Sabadell, La Caixa, Amadeus, Kayak, etc. Pero no son las únicas. Empresas de tamaño mucho más modesto están aplicando Ciencia de Datos de forma muy creativa e innovadora, con un reconocimiento a escala mundial de su trabajo. Dos ejemplos: Carto http://www.cartodb.com Fundada en Madrid en 2012, originalmente como CartoDB. Su herramienta más popular es Carto Builder, que permite a los entusiastas de la visualización construir mapas interactivos a partir de datos geolocalizados, sin necesidad de conocimientos de programación. Con más de 1.400 clientes, 200.000 usuarios registrados y oficina en Nueva York, sus objetivos se centran en ofrecer a grandes corporaciones una herramienta de optimización de decisiones y predicción de tendencias de consumo. Stratio http://www.stratio.com Fundada también en 2012, a partir de una predecesora, Paradigma. Stratio desarrolla plataformas y productos a partir de tecnologías Big Data, como Cassandra, Apache Stark y desarrollos propios. Los clientes que utilizan sus soluciones de procesamiento en tiempo real proceden de Banca, Seguros, Viajes o Retail. Más de 25 especialistas en arquitecturas Big Data trabajan en la sede central de Stratio en Madrid, que también tiene sucursal en Palo Alto (California).
  84. 84. 84 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? 10. Conclusión: casi todo está por hacer
  85. 85. 85 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja?
  86. 86. 86 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? “La gente nos pregunta: ¿estáis abriendo los datos para que todo el mundo pueda hacer negocio? Pues sí: a partir de nuestros datos permitimos a otros un mejor conocimiento de la realidad”. Marcelo Soria.
  87. 87. 87 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? El análisis de Big Data ya ha superado la fase de tecnología emergente (Hype Cycle) y se consolida en muchas empresas, al menos ciertas tecnologías “básicas”: bases de datos distribuidas, procesamiento en tiempo real, grandes capas analíticas, etc. Una vez traspasada una primera etapa de implantación, la tendencia entre los profesionales de la Ciencia de Datos deriva hacia la especialización. A medida que el campo va creciendo lo normal es que se fragmente en especialidades, que juntas componen un ecosistema. Una tendencia de alguna forma promovida por las empresas, que no pueden sostener económicamente grandes plantillas de Científicos de Datos. Lo mismo sucede en la formación. Ya no es posible ofrecer un corpus cerrado de enseñanzas, sino que la oferta empieza a diversificarse. A la vez que definen sus necesidades, las empresas irán tirando de la demanda de unos profesionales cada vez más cotizados, a menudo becados por las propias empresas que los contratan o con una colocación inmediata al completar su formación académica. Muchas empresas invierten enormes sumas en investigación de mercados. Algunas se darán cuenta de que la Ciencia de Datos representa otra fuente de datos, un nuevo modo de I+D que convierte los datos en un valor nuevo para la compañía. Pero el Big Data está aún en su adolescencia. Por delante se presentan multitud de desafíos, derivados del manejo de grandes volúmenes de información y su conversión en herramientas útiles. ¿Cómo se presenta la edad adulta del Big Data? La atención deberá trasladarse de la “grandeza” de los datos a su aplicación. Las famosas “Cuatro Vs” que dimensionan el Big Data (Volumen, Velocidad, Variedad y Veracidad) deben sintetizarse en un nuevo concepto: Valor. Reducir el ruido de los datos, aumentar su aportación. La Ciencia de Datos madurará, se consolidará, ganará la entidad de una carrera propia y nos sorprenderá con futuros descubrimientos. Deberá concebirse como una herramienta no tanto dirigida a aportar transparencia al presente, sino a anticipar el futuro de una manera que permita el crecimiento de los negocios.
  88. 88. 88 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? “Es un deber nuestro devolver algo a la sociedad. Con todos los datos que las empresas tenemos de la gente, se puede mejorar mucho su vida”. Richard Benjamins.
  89. 89. 89 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? Eso será posible convirtiendo los datos en conocimiento, y el conocimiento en acciones prácticas, ya sean para ofrecer un mejor servicio a los clientes, aumentar la eficiencia mediante la automatización o generar nuevas oportunidades de negocio identificado ventas cruzadas o abriendo nuevos mercados. Actualmente, la mayoría de proyectos relacionados con el análisis de datos se centra en la optimización de costes y la integración de procesos. En el futuro, el análisis predictivo pondrá el acento en la monetización del activo de datos y la apertura de nuevas aplicaciones y oportunidades de negocios. Los modelos predictivos en entornos cloud, el procesamiento de datos en paralelo o algoritmos sofisticados de aprendizaje automático optimizarán o guiarán la toma de decisiones. En última instancia, las empresas deberán reinventarse o reimaginarse a medida que su negocio se digitalice y las propuestas a sus clientes dependan cada vez más de lo aprendido de los datos. Compañías como Siemens, a la que su CEO define como “una empresa de software”, están ya plenamente embarcadas en este proceso. Un elemento clave de esta evolución será la convivencia con un entorno de experimentación, tolerancia y ciclos de desarrollo cortos que impulsen la innovación. Las empresas que lideren esta evolución serán aquellas que coloquen la figura del Científico de Datos en el centro de su estrategia. De esta forma serán capaces de desarrollar las condiciones necesarias -adquisición de talento, compromiso de los empleados y establecimiento de prioridades-, que les coloquen en cabeza de la carrera por convertir los datos en una ventaja competitiva durarera y tangible. En nuestro día a día ya estamos utilizando aplicaciones y productos que proceden del procesado de una cantidad ingente de datos: filtros de spam en el correo, recomendaciones en redes sociales, resultados en buscadores, pruebas y recetas médicas, inversiones de fondos, etc. Y con el futuro que promete The Internet of Things, la necesidad de procesar más y más información sólo puede ser creciente. Nuestra vida puede acabar muy supeditada, o al menos muy influenciada, por el análisis de todos los datos que nos rodean. Un futuro, en cualquier caso, donde todos los implicados en el análisis de Big Data deberán ser muy cautelosos con todo lo relacionado con la privacidad de los datos y la confianza de los consumidores. Da igual si nuestros datos se usan para gestionar mejor nuestro tiempo o nuestro dinero, personalizar la publicidad que vemos o mejorar nuestra salud. Si creemos que van a mejorar nuestras vidas, no tendremos inconveniente en que alguien los utilice.
  90. 90. 90 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? Anexo.
  91. 91. 91 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? Business case 1 Commerce360 ¿Qué es lo que más interesa a mis clientes? ¿Qué día vende más mi competencia? ¿Venden más caro o más barato que yo? ¿En qué horario vendo más? ¿Dónde viven mis compradores? ¿Cuál es su sexo, edad, cuánto gastan en cada compra? Cualquier negocio desearía conocer las respuestas a estas y similares preguntas. Las grandes y medianas empresas pueden hacerlo destinando recursos al Business Intelligence, pero es más difícil en el caso de comerciantes independientes o tiendas de barrio. Es por eso que BBVA ha desarrollado Commerce360, una herramienta que quiere poner el Business Intelligence al alcance de cualquier negocio. A partir de datos agregados y anónimos de pagos con tarjetas de BBVA, la aplicación extrae indicadores relacionados con el sector y el perfil de clientes que compran en una determinada zona. “Commerce360 es una herramienta para retailers, donde utilizando nuestra información de pagos con tarjetas podemos dar a un comercio su actividad económica, su dinámica de compras, con información sociodemográfica de cómo son sus clientes, edades, sexo, dónde y cuándo compran, comparándolo con los comercios agregados que son su competencia, otros comercios que están en la zona que son del mismo tipo de actividad”, explica Marcelo Soria. De esta forma, comerciantes que se dejaban guiar por la intuición u otros métodos tradicionales tiene acceso a una herramienta analítica que les permite conocer la procedencia de sus clientes, medir su fidelidad, estudiar sus características demográficas e identificar a los clientes de más valor. “Nos parece una línea muy interesante para democratizar el acceso al dato, a la inteligencia basada en el dato. Esto es el futuro del retail”, concluye Soria.
  92. 92. 92 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja?
  93. 93. 93 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? Business case 2 Smart Steps SmartSteps es un programa de geomarketing desarrollado por Telefónica a partir de datos procedentes de su red de telefonía móvil. Los datos se agregan y se extrapolan de manera anónima para extraer información sobre tendencias o patrones en el comportamiento de los usuarios en un área determinada. El proyecto captura miles de millones de datos procedentes de la red móvil de Telefónica durante los 365 días del año, 24 horas al día. Estos datos se cruzan con diferentes indicadores sociodemográficos y de movilidad (residencia, modos de transporte, edad) que permiten ofrecer a las empresas una segmentación precisa basada en los movimientos de sus potenciales clientes. Smart Steps puede tener aplicaciones en cualquier sector en el que el movimiento y el conocimiento del perfil del usuario sean importantes, industrias como viajes y transportes, turismo o publicidad exterior. Por ejemplo, los comerciantes locales podrían saber si los participantes en una fiesta como San Fermín son habituales o esporádicos, de dónde proceden, dónde pernoctan, el tiempo que dura su visita, etc., y con todo ello adecuar su oferta comercial. Pero también es útil en proyectos públicos, ya que conocer los patrones de movimiento de las personas permite mejorar la gestión del tráfico de las ciudad, ajustar el transporte público o analizar la necesidad de construir nuevas infraestructuras. En 2014, el programa se utilizó para estimar las zonas de Londres más propensas a la delincuencia: el algoritmo generado acertó en un 70% con la distribución geográfica de los delitos.
  94. 94. 94 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja?
  95. 95. 95 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? Business case 3 Home Risk Fire Map En Estados Unidos cada año mueren o resultan heridas 25.000 personas en incendios domésticos. Cruz Roja pretende reducir el número de víctimas a través de una iniciativa basada en el Big Data. El programa Home Risk Fire Map identifica los lugares más propensos a incendios domésticos en todo el país, y será utilizado por voluntarios de Cruz Roja para instalar detectores de humos e impartir cursillos de seguridad. Según los datos, el 60% de los incendios se puede evitar simplemente con una alarma y sabiendo cómo actuar en caso de iniciarse un fuego. Utilizando diferentes repositorios Open Data, 50 voluntarios han trabajado durante más de un año para construir el mapa que identifica los lugares de alto riesgo de incendio en todo el país. Primero, se construyó un modelo para identificar las comunidades con menor cobertura de detectores de humo; después, otro algoritmo predijo los lugares con mayor predisposición a los incendios; por último, otro programa calculó el riesgo de lesiones y muertes cuando se produce un incendio. Todo esos modelos están encapsulados en el mapa presentado aquí. Gracias a este programa, puesto en marcha en el mes de junio de 2016, durante el primer mes se instalaron 400.000 alarmas de humo en hogares de todo el país, con el objetivo de alcanzar los 2.5 millones de detectores. Éstos tendrán una vida media de 10 años, por lo que se esperan beneficios a medio plazo del esfuerzo de un año de trabajo.
  96. 96. 96 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja?
  97. 97. 97 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? Business case 4 The Huffington Post THP es uno de los medios digitales con mayor número de lectores en todo el mundo. Y un medio donde los analistas de datos tienen casi tanto protagonismo como los redactores, ya que buena parte de su éxito se lo debe al Big Data, que permite optimizar el contenido, autenticar comentarios, aumentar la eficacia de la publicidad y mejorar la experiencia de usuario. Estadísticas en tiempo real y plataformas analíticas definen el proceso editorial. Para THP es fundamental llevar el contenido correcto a cada lector en el momento y el soporte más adecuado. Por ejemplo, el análisis de datos de la sección dedicada a padres arrojó que estos se conectan principalmente desde dispositivos móviles, más cuando los niños están en la cama y son más activos las mañanas de los fines de semana. Contenidos y publicidad se adaptan a esos hábitos. El enorme número de comentarios que recibe la web (más de 300 millones en 2013) también impulsó a los directivos de THP a depurar los datos para mejorar la experiencia de usuario. Para ello se empleó análisis conjunto, una técnica estadística utilizada para valorar las diferentes características de un producto o servicio. El análisis determinó que la calidad de los comentarios aumentaba según la proximidad geográfica y en los usuarios identificados, lo que llevó a THP a prohibir los comentarios anónimos. También se empleó Big Data para mejorar la lealtad de los usuarios. A través de la compañía tecnológica Gravity, THP identificó los temas de interés para sus lectores, conectando el contenido más atractivo para cada tipo de lector a través de lo que llama “personalización pasiva”. La tecnología también informa desde donde accede al contenido cada lector, y ayuda a optimizar el recorrido que hace dentro de la web. Con una media de 10 a 12 artículos leídos en cada sesión, el objetivo es llegar a 15.
  98. 98. 98 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja?
  99. 99. 99 Científico de Datos: ¿Quién es? ¿Qué hace? ¿Cómo trabaja? Business case 5 La campaña 2016 de Hillary Clinton A pocos norteamericanos les dice algo el nombre de Elan Kriegel. Y sin embargo, millones de ellos estuvieron en su punto de mira durante la campaña para las elecciones presidenciales de 2016. Kriegel dirigió un equipo de más de 60 matemáticos y analistas encargado de orientar con absoluta precisión cada una de las acciones promocionales de la campaña de la candidata demócrata, desde las primarias del partido hasta la votación final. Por ejemplo, un algoritmo desarrollado por el equipo de Kriegel dictaminó dónde invertir cada centavo de los 60 millones de dólares de presupuesto para anuncios en televisión durante las primarias. Con cientos de redes de TV locales y estatales dispersas por todo el país, la victoria sobre Bernie Sanders se fraguó en la cuidada elección de en qué estados, redes, programas y horarios Clinton mostraría su mensaje a los votantes. Al contrario que en otros países, en Estados Unidos las campañas electorales se personalizan al máximo. A partir del trabajo de los analistas se tomaron decisiones clave, como en qué momento y de qué manera enviar mensajes por correo electrónico a los electores, a qué puertas llamaron o qué teléfonos marcaron los voluntarios, o a qué votantes dirigirse mediante un anuncio en Facebook y a cuáles mediante un envío postal. Este trabajo meticuloso convirtió la campaña de Clinton en un ejercicio más matemático que inspiracional. Una campaña innovadora, eficiente, organizada alrededor de los modelos definidos por el análisis de datos, y que inaugura una nueva etapa en la definición de las campañas políticas, basada en la cultura del dato. Y mientras, el equipo de Kriegel ya incuba la próxima generación de talentos dentro del partido demócrata, nombres por ahora desconocidos pero que se erigirán como figuras clave en 2020.
  100. 100. #REBELTHINKING REBEL THINKERS Iñaki Bagazgoitia Mar Castaño Carlos Corredor Laura Dinneen Carlota García-Abril Amelia Hernández Natasha Morrison Ellen Thomas HAN COLABORADO Fuencisla Clemares Bosco Aranguren Richard Benjamins Marcelo Soria Álvaro Barbero Alejandro Rodríguez Manuel Marín Esteban Moro Felipe Ortega Pep Porrà AGRADECIMIENTOS

×