Este documento describe la dualidad entre el mundo científico y el mundo empresarial para un científico de datos. Explica que un científico de datos en una empresa debe poseer habilidades técnicas como aprendizaje automático, recuperación de información y visualización de datos, así como habilidades no técnicas como investigación social y análisis de redes sociales. El documento enfatiza que un científico de datos enfrenta grandes retos al aplicar sus conocimientos científicos para resolver problemas complejos más allá de la
4. AUTORITAS
Autoritas es una
consultora tecnológica
con profesionales
multidisciplinares de
diferentes países del
mundo:
- Ingenieros en
Informática y
Telecomunicaciones
- Psicólogos
- Economistas
- Abogados
- Politólogos
5. Nuestra sede central
está en Madrid
(España), y tenemos
oficinas en Argentina,
Brasil, Chile, México,
Panamá y Reino Unido.
AUTORITAS
6. Nos especializamos
en :
- Español
- Portugués
- Inglés
Estamos empezando a
trabajar con:
- Italiano
- Alemán
- Francés
AUTORITAS
7. La formación y la
comunicación son muy
importantes para
nosotros.
La Escucha Activa es
una nueva disciplina y
nosotros estamos
comprometidos con su
difusión y formación a
los profesionales
interesados en el
campo.
Iberolabs
AUTORITAS
8. consulting, s.a.
autoritas
8
‣ COSMOS es la herramienta de
Escucha Activa que ha desarrollado
Autoritas Consulting. “Active Listening
is more than paying attention”
Margaret Mead
‣ COSMOS da orden al caos de Internet
y proporciona una metodología para
encontrar oportunidades
‣ COSMOS ayuda a las organizaciones
a tocar Internet mediante la
extracción de conocimiento para el
proceso de toma de decisiones
TW
WWW
FB
TECHNOLOGICAL
PLATFORM
DESIGN
ACTION
TRAINING
INFLUENCERS
REPUTATION
INSPIRATION
DIAGNOSIS
METRICS
CONTENTS
INNOVATION
STRATEGY
“ACTIVE LISTENING”
¿Qué es Cosmos?
9. consulting, s.a.
autoritas
9
La Escucha Activa es...
‣ COSMOS trabaja con todo el universo de
Internet, cubriendo todas las
necesidades que una institución pueda
tener:
‣ ¿Qué dicen de nosotros?
‣ ¿Qué impacto tiene lo que nosotros
decimos?
‣ ¿De dónde nos podemos inspirar?
‣ ¿En qué está interesado nuestro
target?
14. consulting, s.a.
autoritas
14
• > 500 millones de usuarios de
Facebook
• > 150 millones de usuarios de Twitter
• > 90 millones de Webs
• > 150 millones de blogs
• aprox. 1000 exabytes anuales
EXCESO DE INFORMACIÓN
DESESTRUCTURADA
Algunas cifras... (antiguas)
16. consulting, s.a.
autoritas
16
API vs.
Crawler
‣API restringe el acceso a los datos:
Facilitan sólo una muestra de la información
existente y accesible a través de buscador
‣API restringe la cantidad de peticiones
realizables
‣Crawler requiere infraestructura y solución
a problemas IR (periodicidad, fechas,
idiomas, almacenamiento...)
‣Crawler puede generar problemas legales
API gratuita
vs. pago
‣Restricción de resultados: las APIs gratuítas
restringen en exceso los resultados frente a la
interfaz del buscador
‣Limitaciones de licencia de las APIs
gratuítas, no permitiendo por ejemplo la
reordenación, mezclado y almacenamiento de
datos
18. consulting, s.a.
autoritas
18
(Re)Clasificar lo recuperado
¿Qué pasa cuando entra una noticia desde
un buscador generalista?
¿Qué canal es la url que se enlaza desde otro
canal?
¿Cómo diferenciar un blog de una web
corporativa?
¿Cómo determinar de qué dominio es una
determinada página?
Identificar
Acotar
Clasificar
Desambiguar
23. consulting, s.a.
autoritas
23
TIEMPO REAL ES CUANDO EL USUARIO ASÍ LO PERCIBE
NOCHE DE ELECCIONES
GENERALES
216.000 documentos analizados
‣Tweets: 176.815
‣Posts: 7.034
‣News: 2013
‣Facebook: 2.184
‣Multimedia: 671
283.000 etiquetas generadas
1.900.000 términos indexados
Elevado número de usuarios
concurrentes
Por supuesto, en ¡¡tiempo real!!
26. consulting, s.a.
autoritas
26
7.000 recuperados
54 incorrectos
99.23% precisión
3.000 recuperados
50 no recuperados
98.36% alcance
Evaluación de la Recuperación de Información...
...en la empresa
¡¡Estamos
perdiendo
credibilidad!!
36. consulting, s.a.
autoritas
36
ORDEN
Si la fecha va
en la url es fácil saberla
Eso es relativo,
esta URL es de Julio o de
Enero:
http://xxx/07/01/2010/
crawler-403-
forbidden.html
38. consulting, s.a.
autoritas
38
ORDEN
¿Cómo? -> No sólo sentiment analysis
La polaridad es sólo
una dimensión, la
emocional, la de
valores, DAFO...
todas ellas
responden a la
cuestión ¿cómo?
40. consulting, s.a.
autoritas
40
ORDEN
Un ejemplo: “La prima de riesgo en España está a 235”
¿Positivo, negativo, neutro o none?
Mi pregunta: ¿Para quién?
- ¿Para el presidente del país?
- ¿Para el líder de la oposición?
- ¿Para el director del Banco de España?
- ¿Para el inversor extranjero?
- ¿Para el capitalista nacional?
- ¿Para el que tiene una hipoteca?
41. consulting, s.a.
autoritas
41
ORDEN
¿Quién? -> Análisis de Red Social
Si quiero
transmitir con
éxito un mensaje,
¿quién me puede
ayudar?
Si hay un
conflicto,¿a
quién tengo que
vigilar?
47. consulting, s.a.
autoritas
47
Biografía Localización Idioma
• No se rellena
• No contiene
información
significativa
• No se corresponde
con la realidad de
sus intereses
• No se rellena
• Se rellena con una
ubicación falsa
• Se actualiza con la
posición GPS
• Ambigüedad de
ubicación
• No se rellena
• Se deja por defecto
EN
• Se rellena con info.
falsa
• Se escribe en
diferentes idiomas
La terminología utilizada dista de cualquier lengua
oficial. PSEUDO-ARGOT
TL
...donde no todo lo que reluce es oro
56. consulting, s.a.
autoritas
56
SKILLS
TÉCNICOS
Aprendizaje
Automático: Para
inferir nuevos modelos a
partir de los datos
existentes, para dotar de
inteligencia a nuestras
aplicaciones
Recuperación de
Información: Para
acceder a las enormes
cantidades de
información disponibles
en Internet
Data Mining: Para
identificar patrones
válidos, novedosos,
potencialmente útiles y
deseablemente
comprensibles a partir
de los datos
Natural Language
Processing: Porque el
contenido textual de la
Web está escrito en el
lenguaje humano
Data
Visualization
Collective
Intelligence
System
Architecture
User
eXperience
Social
Investigation
Social Network
Analysis