Data Mining em redes sociais

•Als PPTX, PDF herunterladen•

1 gefällt mir•558 views

Miguel Galves

Análise de algumas ferramentas para data mining em redes sociais

SigaSeuTime (BREAKING NEWS)
Uso de taxa de cliques por
minuto em notícias enviadas
para o Twitter para determinar
notícias importantes / urgentes.
Primeiro experimento:

SigaSeuTime (BREAKING NEWS)
Aprendizado:
O tempo de reação de
informações enviadas em redes
sociais é muito rápido, e portanto
permite análises em tempo real
bastante úteis.
Primeiro experimento:

Uso de streaming real time
Twitter para determinar a
“temperatura” de torcedores de
futebol em tempo real
Tuitômetro das torcidas
Segundo experimento:

Na (trágica) eliminação do
Corinthians pelo Tolima,
capturamos
5500 tweets / minuto
(e depois o servidor caiu…)
Tuitômetro das torcidas
Segundo experimento:

Aprendizado 1:
O fenômeno de second screen é
real, e permite que se analise em
tempo real a opinião das
pessoas em relação a eventos.
“IBOPE SOCIAL”
Tuitômetro das torcidas
Segundo experimento:

Aprendizado 2:
O Streaming real time gratuito do
Twitter é uma fonte de
informações valiosíssima e muito
rápida.
4MM tweets / dia
Tuitômetro das torcidas
Segundo experimento:

Experimento cujo objetivo é
verificar se o valor de uma marca
se reflete no buzz online que ela
gera.
http://mosttweetedbrands.com
Most Tweeted Brands
Terceiro experimento:

Em média, 2MM de Tweets / dia
A marca mais citada no Twitter
é….
O Facebook
Most Tweeted Brands
Terceiro experimento:

BrandMagz
Quarto experimento:
Revista digital que mede o pulso
de uma marca / celebridade /
tema nas redes sociais

Quais as fontes de dados?
APIs, APIs, APIs…

• Palavras chave
• Regras de exclusão
• Hints
Como os dados são coletados?

Detecção de lingua:
• CLD (chromium compact language detector)
• https://code.google.com/p/chromium-compact-
language-detector/
Wordcloud
• NLTK (Natural Language Toolkit)
• http://www.nltk.org/
Quais dados são extraídos?
Texto

• 50% dos tweets geolocalizados
– Minoria adiciona informação de lat/long no
tweet (-5%)
– Análise de texto livre
• Base de dados própria com nomes de cidades em
diversas linguas
– 3744 nomes de cidades
– 1900 nomes de países
– 90 provincias
Quais dados são extraídos?
Geolocalização

• Fotos
–Instagram
–Facebook
–Twitter
• Video
–Facebook
–Vine
–Youtube
–Vimeo
Quais dados são extraídos?
Mídia

• Links externos encontrados em posts são
tratados separadamente
• Conteúdos de blogs e notícias são
processados por algoritmo de “limpeza”
de HTML
– Heurísticas para extração do conteúdo que
realmente importa de uma página web
– Fork próprio do readability-lxml
• https://github.com/mgalves/python-readability
Quais dados são extraídos?
Links externos

Twitter
Youtube
Vimeo
Vine
Facebook
Instagram
CELERY
BROKER
REDIS
MySQL
Celery
Worker
Celery
Worker
Celery
Worker
Celery
Worker
Qual a arquitetura?
W
E
B

• Amazon AWS
• Duas instâncias EC2 m3.large
– 7.5GB RAM, 2vCPU, 6.5 ECU
• RDS MySQL
• OpsWork + Chef
• S3 para armazenamento de arquivos
estáticos
• CloudWatch
• Apenas um devops: eu.
Como é feito o deploy?

• Em média, 400 tweets / minuto
• Em 24h:
– 150k posts
– 5.5k links de conteúdo
– 23k imagens
– 3k videos
Qual o volume de dados
processados?

• Em dia de jogo do Barça, Neymar recebe
em média 150k menções.
• Quando o Corinthians foi campeão da
Libertadores, foram 2MM de menções em
3 horas.
Algumas curiosidades

Empfohlen

Aula Data MiningMauricio Cesar Santos da Purificação

Análise Preditiva: Super Poderes no EcommerceBruce Ledesma

Predictive Analytics - Markerting e Ecommerce Nunca Serão Como AntesBruce Ledesma

Data warehouse & data miningJerônimo Medina Madruga

Redes Sociais para JornalistasVert Inteligência Digital

Minicurso – Forense computacional “Análise de redes”Jefferson Costa

Informação na twitosferaClaudio Diniz - Designer Gráfico

Twicontro esAlê Borba

Empfohlen

Aula Data MiningMauricio Cesar Santos da Purificação

Análise Preditiva: Super Poderes no EcommerceBruce Ledesma

Predictive Analytics - Markerting e Ecommerce Nunca Serão Como AntesBruce Ledesma

Data warehouse & data miningJerônimo Medina Madruga

Redes Sociais para JornalistasVert Inteligência Digital

Minicurso – Forense computacional “Análise de redes”Jefferson Costa

Informação na twitosferaClaudio Diniz - Designer Gráfico

Twicontro esAlê Borba

Desenvolvimento de aplicações para o Twitterentrebits

Analisando eventos de forma inteligente para detecção de intrusos usando ELKSegInfo

ConexoesglobaisVert Inteligência Digital

$Without A Trace - What to do when it seems there\'s nothing to do - References$ $Without A Trace - What to do when it seems there\'s nothing to do - References$

Without A Trace - What to do when it seems there\'s nothing to do - Referencestonyrodrigues

Minicurso: O que o twitter está pensando? Extraindo informações do twitter ut...Adolfo Guimaraes

Processamento de tweets em tempo real com Python, Django e Celery - TDC 2014Miguel Galves

Tenha mais privacidade utilizando ferramentas open source em tempos de vigilâ...Ricardo Maganhati Junior

TweetAuditorErika Heidi

A era da incertezaEduardo Acquarone

Investigação de Crimes Digitais - Carreira em Computação ForenseVaine Luiz Barreira, MBA

HackersPedro Valente

apresentação do twitter,prezi e slide shareFernanda Abreu

Crimes Digitais e Computacao Forense para Advogados v1Vaine Luiz Barreira, MBA

Segurança em IoT é possível ! Desenvolvimento seguro de dispositivos IoTAnchises Moraes

H2HC University 2014Joaquim Espinhara

MDFVert Inteligência Digital

#smbr - PolvoraRafael Menoya

Percepções sobre as Redes Sociais - Social Media BrasilEdney Souza

Percepção das redes sociais - Edney Souza - Social Media BrasilMedia Education

Percepção das Redes SociaisPolvora! Comunicação

Redis para iniciantes - TDC 2014Miguel Galves

New Strategy to detect SNPsMiguel Galves

Weitere ähnliche Inhalte

Ähnlich wie Data Mining em redes sociais

Desenvolvimento de aplicações para o Twitterentrebits

Analisando eventos de forma inteligente para detecção de intrusos usando ELKSegInfo

ConexoesglobaisVert Inteligência Digital

$Without A Trace - What to do when it seems there\'s nothing to do - References$ $Without A Trace - What to do when it seems there\'s nothing to do - References$

Without A Trace - What to do when it seems there\'s nothing to do - Referencestonyrodrigues

Minicurso: O que o twitter está pensando? Extraindo informações do twitter ut...Adolfo Guimaraes

Processamento de tweets em tempo real com Python, Django e Celery - TDC 2014Miguel Galves

Tenha mais privacidade utilizando ferramentas open source em tempos de vigilâ...Ricardo Maganhati Junior

TweetAuditorErika Heidi

A era da incertezaEduardo Acquarone

Investigação de Crimes Digitais - Carreira em Computação ForenseVaine Luiz Barreira, MBA

HackersPedro Valente

apresentação do twitter,prezi e slide shareFernanda Abreu

Crimes Digitais e Computacao Forense para Advogados v1Vaine Luiz Barreira, MBA

Segurança em IoT é possível ! Desenvolvimento seguro de dispositivos IoTAnchises Moraes

H2HC University 2014Joaquim Espinhara

MDFVert Inteligência Digital

#smbr - PolvoraRafael Menoya

Percepções sobre as Redes Sociais - Social Media BrasilEdney Souza

Percepção das redes sociais - Edney Souza - Social Media BrasilMedia Education

Percepção das Redes SociaisPolvora! Comunicação

Ähnlich wie Data Mining em redes sociais (20)

Desenvolvimento de aplicações para o Twitter

Analisando eventos de forma inteligente para detecção de intrusos usando ELK

Conexoesglobais

$Without A Trace - What to do when it seems there\'s nothing to do - References$ $Without A Trace - What to do when it seems there\'s nothing to do - References$

Without A Trace - What to do when it seems there\'s nothing to do - References

Minicurso: O que o twitter está pensando? Extraindo informações do twitter ut...

Processamento de tweets em tempo real com Python, Django e Celery - TDC 2014

Tenha mais privacidade utilizando ferramentas open source em tempos de vigilâ...

TweetAuditor

A era da incerteza

Investigação de Crimes Digitais - Carreira em Computação Forense

Hackers

apresentação do twitter,prezi e slide share

Crimes Digitais e Computacao Forense para Advogados v1

Segurança em IoT é possível ! Desenvolvimento seguro de dispositivos IoT

H2HC University 2014

MDF

#smbr - Polvora

Percepções sobre as Redes Sociais - Social Media Brasil

Percepção das redes sociais - Edney Souza - Social Media Brasil

Percepção das Redes Sociais

Mehr von Miguel Galves

Redis para iniciantes - TDC 2014Miguel Galves

New Strategy to detect SNPsMiguel Galves

Comparison of Genomic DNA to cDNA Alignment MethodsMiguel Galves

Qualificação de MestradoMiguel Galves

Uma abordagem computacional para a determinação de polimorfismos de base únicaMiguel Galves

Django: Uso de frameworks ágeis para desenvolvimento webMiguel Galves

GIS em 3 horasMiguel Galves

AJAXMiguel Galves

Mehr von Miguel Galves (8)

Redis para iniciantes - TDC 2014

New Strategy to detect SNPs

Comparison of Genomic DNA to cDNA Alignment Methods

Qualificação de Mestrado

Uma abordagem computacional para a determinação de polimorfismos de base única

Django: Uso de frameworks ágeis para desenvolvimento web

GIS em 3 horas

AJAX

Data Mining em redes sociais

1. Data mining em redes sociais

2. SigaSeuTime (BREAKING NEWS) Uso de taxa de cliques por minuto em notícias enviadas para o Twitter para determinar notícias importantes / urgentes. Primeiro experimento:

3. SigaSeuTime (BREAKING NEWS) Aprendizado: O tempo de reação de informações enviadas em redes sociais é muito rápido, e portanto permite análises em tempo real bastante úteis. Primeiro experimento:

4. Uso de streaming real time Twitter para determinar a “temperatura” de torcedores de futebol em tempo real Tuitômetro das torcidas Segundo experimento:

5. Na (trágica) eliminação do Corinthians pelo Tolima, capturamos 5500 tweets / minuto (e depois o servidor caiu…) Tuitômetro das torcidas Segundo experimento:

6. Aprendizado 1: O fenômeno de second screen é real, e permite que se analise em tempo real a opinião das pessoas em relação a eventos. “IBOPE SOCIAL” Tuitômetro das torcidas Segundo experimento:

7. Aprendizado 2: O Streaming real time gratuito do Twitter é uma fonte de informações valiosíssima e muito rápida. 4MM tweets / dia Tuitômetro das torcidas Segundo experimento:

8. Experimento cujo objetivo é verificar se o valor de uma marca se reflete no buzz online que ela gera. http://mosttweetedbrands.com Most Tweeted Brands Terceiro experimento:

10.

11. Em média, 2MM de Tweets / dia A marca mais citada no Twitter é…. O Facebook Most Tweeted Brands Terceiro experimento:

12. BrandMagz Quarto experimento: Revista digital que mede o pulso de uma marca / celebridade / tema nas redes sociais

13. Quais as fontes de dados? APIs, APIs, APIs…

14. • Palavras chave • Regras de exclusão • Hints Como os dados são coletados?

15. Detecção de lingua: • CLD (chromium compact language detector) • https://code.google.com/p/chromium-compact- language-detector/ Wordcloud • NLTK (Natural Language Toolkit) • http://www.nltk.org/ Quais dados são extraídos? Texto

16. • 50% dos tweets geolocalizados – Minoria adiciona informação de lat/long no tweet (-5%) – Análise de texto livre • Base de dados própria com nomes de cidades em diversas linguas – 3744 nomes de cidades – 1900 nomes de países – 90 provincias Quais dados são extraídos? Geolocalização

17. • Fotos –Instagram –Facebook –Twitter • Video –Facebook –Vine –Youtube –Vimeo Quais dados são extraídos? Mídia

18. • Links externos encontrados em posts são tratados separadamente • Conteúdos de blogs e notícias são processados por algoritmo de “limpeza” de HTML – Heurísticas para extração do conteúdo que realmente importa de uma página web – Fork próprio do readability-lxml • https://github.com/mgalves/python-readability Quais dados são extraídos? Links externos

19. Quais tecnologias são utilizadas?

20. Twitter Youtube Vimeo Vine Facebook Instagram CELERY BROKER REDIS MySQL Celery Worker Celery Worker Celery Worker Celery Worker Qual a arquitetura? W E B

21. • Amazon AWS • Duas instâncias EC2 m3.large – 7.5GB RAM, 2vCPU, 6.5 ECU • RDS MySQL • OpsWork + Chef • S3 para armazenamento de arquivos estáticos • CloudWatch • Apenas um devops: eu. Como é feito o deploy?

22. • Em média, 400 tweets / minuto • Em 24h: – 150k posts – 5.5k links de conteúdo – 23k imagens – 3k videos Qual o volume de dados processados?

23. • Em dia de jogo do Barça, Neymar recebe em média 150k menções. • Quando o Corinthians foi campeão da Libertadores, foram 2MM de menções em 3 horas. Algumas curiosidades

24. mgalves@gmail.com Obrigado!