2. SigaSeuTime (BREAKING NEWS)
Uso de taxa de cliques por
minuto em notícias enviadas
para o Twitter para determinar
notícias importantes / urgentes.
Primeiro experimento:
3. SigaSeuTime (BREAKING NEWS)
Aprendizado:
O tempo de reação de
informações enviadas em redes
sociais é muito rápido, e portanto
permite análises em tempo real
bastante úteis.
Primeiro experimento:
4. Uso de streaming real time
Twitter para determinar a
“temperatura” de torcedores de
futebol em tempo real
Tuitômetro das torcidas
Segundo experimento:
5. Na (trágica) eliminação do
Corinthians pelo Tolima,
capturamos
5500 tweets / minuto
(e depois o servidor caiu…)
Tuitômetro das torcidas
Segundo experimento:
6. Aprendizado 1:
O fenômeno de second screen é
real, e permite que se analise em
tempo real a opinião das
pessoas em relação a eventos.
“IBOPE SOCIAL”
Tuitômetro das torcidas
Segundo experimento:
7. Aprendizado 2:
O Streaming real time gratuito do
Twitter é uma fonte de
informações valiosíssima e muito
rápida.
4MM tweets / dia
Tuitômetro das torcidas
Segundo experimento:
8. Experimento cujo objetivo é
verificar se o valor de uma marca
se reflete no buzz online que ela
gera.
http://mosttweetedbrands.com
Most Tweeted Brands
Terceiro experimento:
9.
10.
11. Em média, 2MM de Tweets / dia
A marca mais citada no Twitter
é….
O Facebook
Most Tweeted Brands
Terceiro experimento:
14. • Palavras chave
• Regras de exclusão
• Hints
Como os dados são coletados?
15. Detecção de lingua:
• CLD (chromium compact language detector)
• https://code.google.com/p/chromium-compact-
language-detector/
Wordcloud
• NLTK (Natural Language Toolkit)
• http://www.nltk.org/
Quais dados são extraídos?
Texto
16. • 50% dos tweets geolocalizados
– Minoria adiciona informação de lat/long no
tweet (-5%)
– Análise de texto livre
• Base de dados própria com nomes de cidades em
diversas linguas
– 3744 nomes de cidades
– 1900 nomes de países
– 90 provincias
Quais dados são extraídos?
Geolocalização
18. • Links externos encontrados em posts são
tratados separadamente
• Conteúdos de blogs e notícias são
processados por algoritmo de “limpeza”
de HTML
– Heurísticas para extração do conteúdo que
realmente importa de uma página web
– Fork próprio do readability-lxml
• https://github.com/mgalves/python-readability
Quais dados são extraídos?
Links externos
21. • Amazon AWS
• Duas instâncias EC2 m3.large
– 7.5GB RAM, 2vCPU, 6.5 ECU
• RDS MySQL
• OpsWork + Chef
• S3 para armazenamento de arquivos
estáticos
• CloudWatch
• Apenas um devops: eu.
Como é feito o deploy?
22. • Em média, 400 tweets / minuto
• Em 24h:
– 150k posts
– 5.5k links de conteúdo
– 23k imagens
– 3k videos
Qual o volume de dados
processados?
23. • Em dia de jogo do Barça, Neymar recebe
em média 150k menções.
• Quando o Corinthians foi campeão da
Libertadores, foram 2MM de menções em
3 horas.
Algumas curiosidades