1. Análise de Mensagens de Segurança
Postadas no Twitter
Autores:
Luiz Arthur F. Santos Daniel Macêdo Batista
luizsantos@utfpr.edu.br batista@ime.usp.br
Rodrigo Campiolo Marco Aurélio Gerosa
rcampiolo@utfpr.edu.br gerosa@ime.usp.br
Este trabalho de Luiz Arthur Feitosa Santos, Rodrigo Campiolo, Daniel Macêdo Batista e Marco Aurélio Gerosa
foi licenciado com uma Licença Creative Commons - Atribuição – Não Comercial 3.0 Não Adaptada.
2. Introdução:
● Problema de pesquisa:
Demora na propagação de informação de novas ameaças
(Vulnerabilidades dia zero).
Aplicativos especializados não são totalmente eficazes contra
novas ameaças.
● Possíveis soluções:
O problema pode ser amenizado por meio da propagação
rápida de alertas.
Uso de redes sociais.
2
3. Objetivo:
Analisar um conjunto de mensagens do Twitter para verificar se
as mensagens ajudam na identificação e alerta antecipado de
possíveis problemas de segurança.
Contribuições:
Confirmação de colaboração em redes sociais em relação à
segurança computacional.
Caracterização das mensagens de segurança.
3
4. Hipóteses:
H1 - Há informações sobre segurança de computadores nas
mensagens do Twitter.
H2 - As mensagens do Twitter com conteúdo sobre segurança
indicam ameaças potenciais.
H3 - O Twitter informa antes de sítios especializados os
problemas relacionados à segurança da informação.
H4 - Os usuários no Twitter se preocupam em alertar outros
usuários sobre problemas de segurança.
4
5. Métodos:
Internet
Tweet Twitter Sítios Segurança
<html...
tweet Obter tweets
Obter notícias Notícia
TWEET Segurança
Segurança /html>
TwEet
Indexar
Indexar
Lucene
Lucene
1
Agrupar por 2
Similaridade
Gerar lista
tweets mais
relevantes
3
Notícias
segurança
de sítios
Tweets
especializados
relevantes
Comparar os tweets com as notícias
dos sítios para constatar se o tweet
é importante
4
Tweet Tweets
TWEET considerados
importantes
5
6. Métodos:
Internet
1. Obter tweets
a. … Problema X …
b. ...PROBLEMA Y … http...
Tweet Twitter Sítios Segurança
<html...
tweet
c. ... Problema … X … http...
TWEET
Obter tweets
Segurança
Obter notícias Notícia
/html>
Segurança
d. Ameaça Y ... #virus TwEet
Indexar
e. … @user … Problema X … Lucene
Indexar
Lucene
f. Novo Malware Z... 1
Agrupar por 2
g. X Solução... http Similaridade
Gerar lista
tweets mais
relevantes
3
Notícias
segurança
de sítios
Tweets
Buscas no intervalo de 1 especializados
relevantes
minuto durante 21 dias: Comparar os tweets com as notícias
dos sítios para constatar se o tweet
security AND (virus OR worm é importante
OR attack OR intrusion 4
OR invasion OR ddos Tweet Tweets
TWEET considerados
OR hacker OR cracker importantes
OR exploit OR malware)
6
7. Métodos:
Internet
1. Obter tweets
a. … Problema X …
b. ...PROBLEMA Y … http...
Tweet Twitter Sítios Segurança
<html...
tweet
c. ... Problema … X … http...
TWEET
Obter tweets
Segurança
Obter notícias Notícia
/html>
Segurança
d. Ameaça Y ... #virus TwEet
Indexar
e. … @user … Problema X … Lucene
Indexar
Lucene
f. Novo Malware Z... 1
Agrupar por 2
g. X Solução... http Similaridade
Gerar lista
tweets mais
relevantes
3
Notícias
3. Similaridade e agrupamento segurança
de sítios
Tweets
especializados
1a. … Problema X … relevantes
1c. ... Problema … X … http... Comparar os tweets com as notícias
dos sítios para constatar se o tweet
1e. … @user … Problema X … é importante
4
2d. Ameaça Y ... #virus Tweet Tweets
2b. ...PROBLEMA Y … http... TWEET considerados
importantes
3f. Novo Malware Z...
Grau de similaridade:
4g. X Solução... http 0,5 – tweets com tweets
7
8. Métodos:
Internet
1. Obter tweets
a. … Problema X …
b. ...PROBLEMA Y … http...
Tweet Twitter Sítios Segurança 2. Obter Feeds
<html...
tweet
c. ... Problema … X … http...
TWEET
Obter tweets
Segurança
Obter notícias Notícia
/html>
Segurança
d. Ameaça Y ... #virus TwEet a. Problema X... novo exploit...
Indexar
e. … @user … Problema X … Lucene
Indexar b. Problema Z...
Lucene
f. Novo Malware Z... 1
Agrupar por 2
g. X Solução... http Similaridade
Gerar lista
tweets mais
relevantes Buscas durante 2 meses
3
Notícias utilizando 30 websites
3. Similaridade e agrupamento segurança
de sítios
de segurança.
Tweets
especializados
1a. … Problema X … relevantes
Também foi utilizado um
1c. ... Problema … X … http... Comparar os tweets com as notícias
dos sítios para constatar se o tweet web crawler.
1e. … @user … Problema X … é importante
4
2d. Ameaça Y ... #virus Tweet Tweets
2b. ...PROBLEMA Y … http... TWEET considerados
importantes
3f. Novo Malware Z...
4g. X Solução... http
8
9. Métodos:
Internet
1. Obter tweets
a. … Problema X …
b. ...PROBLEMA Y … http...
Tweet Twitter Sítios Segurança 2. Obter Feeds
<html...
tweet
c. ... Problema … X … http...
TWEET
Obter tweets
Segurança
Obter notícias Notícia
/html>
Segurança
d. Ameaça Y ... #virus TwEet a. Problema X... novo exploit...
Indexar
e. … @user … Problema X … Lucene
Indexar b. Problema Z...
Lucene
f. Novo Malware Z... 1
Agrupar por 2
g. X Solução... http Similaridade
Gerar lista
tweets mais
relevantes
3
Notícias Grau de similaridade:
3. Similaridade e agrupamento segurança 0,2 – notícias com tweets
de sítios
Tweets
especializados
1a. … Problema X … relevantes
1c. ... Problema … X … http... Comparar os tweets com as notícias
dos sítios para constatar se o tweet
1e. … @user … Problema X … é importante
4. Mensagens Importantes
4
2d. Ameaça Y ... #virus Tweet Tweets 1a. … Problema X …
2b. ...PROBLEMA Y … http... TWEET considerados
importantes
3f. Novo Malware Z... 3f. Novo Malware Z...
4g. X Solução... http
9
10. Coleta de Dados:
Twitter - Dados coletados de 28/04/2012 a 19/05/2012
Busca tweets usuários com link # @
Vírus (pt) 223 198 177 46 96
Vírus (eng) 2.070 1.473 1.690 587 452
Termos (pt) 817 666 708 161 400
Termos (eng) 11.492 7.710 10.104 4.218 4.109
Total* 12.309 8.376 10.812 4.379 4.509
* Termos (pt) e Termos (eng)
Feeds - Dados coletados de 01/04/2012 a 30/05/2012
Total Ausência de Descrição Ausência de data
Feeds 3.988 31 121
10
11. Coleta de Dados:
Twitter - Dados coletados de 28/04/2012 a 19/05/2012
Busca tweets usuários com link # @
Vírus (pt) 223 ~38 msg/dia
198 177 46 96
Vírus (eng) 2.070 1.473 1.690 587 452
Termos (pt) 817 666 708 161
~88% 400
~547 msg/dia
Termos (eng) 11.492 7.710 10.104 4.218 4.109
Total* 12.309 8.376 10.812 4.379 4.509
* Termos (pt) e Termos (eng)
Feeds - Dados coletados de 01/04/2012 a 30/05/2012
Total Ausência de Descrição Ausência de data
Feeds 3.988 31 121
11
12. Análise dos Dados:
Palavras mais usadas pelos tweets de segurança
Português Inglês Principais Termos
Qtd Termos Qtd Termos Qtd Termos
219 hacker 3.459 malware 704 cyber
147 vírus 3.078 attack 702 infosec
120 invasão 1.392 hacker 590 anti
108 malware 1.188 exploit 550 android
95 ataque 1.076 virus 457 apple/flash
12
13. Análise dos Dados:
Palavras mais usadas pelos tweets de segurança
Português Inglês Principais Termos
Qtd Termos Qtd Termos Qtd Termos
219 hacker 3.459 malware 704 cyber
147 vírus 3.078 attack 702 infosec
120 invasão 1.392 hacker 590 anti
108 malware 1.188 exploit 550 android
95 ataque 1.076 virus 457 apple/flash
13
14. Análise dos Dados:
Amostra de tweets relevantes (Inglês):
Pos tweets Trechos da Mensagem
1 347 ...Religious Sites Carry More Malware Than Porn Sites...
2 266 Adobe releases Flash exploit. Update yours now!...
3 263 ...ARE WE PREPARED FOR CYBERWAR?...
4 229 Adobe issues security update for Flash player, warns...IE exploit...
5 205 Flashback malware exposes big gaps in Apple...
10 134 About AVG...Anti-Virus Software...
24 84 Android Trojan copies PC drive-by malware attack...
32 61 Obama Defends Attack On Romney...
278 10 ...Ancient Microsoft Word malware threat returns...
14
15. Análise dos Dados:
Amostra de tweets relevantes (Inglês):
Pos tweets Trechos da Mensagem
1 347 ...Religious Sites Carry More Malware Than Porn Sites...
2 266 Adobe releases Flash exploit. Update yours now!...
3 263 ...ARE WE PREPARED FOR CYBERWAR?...
4 229 Adobe issues security update for Flash player, warns...IE exploit...
5 205 Flashback malware exposes big gaps in Apple...
10 134 About AVG...Anti-Virus Software...
24 84 Android Trojan copies PC drive-by malware attack...
32 61 Obama Defends Attack On Romney...
278 10 ...Ancient Microsoft Word malware threat returns...
15
16. Análise dos Dados:
Classificação dos tweets após agrupamento
Tweets* Similaridade Alta** Similaridade Baixa**
Importantes 119 69 50
Irrelevantes 88 31 57
Spams 30 15 15
Outros 41 8 33
Total 278 123 155
* Classificação manual.
** Correlação com os feeds.
16
17. Análise dos Dados:
Classificação dos tweets após agrupamento
~74% relacionados
Tweets* Similaridade Alta**
com segurança Similaridade Baixa**
Importantes 119 69 50
Irrelevantes 88 31 57
Spams 30 15 15
Outros 41 ~26% fora de 8 33
contexto
Total 278 123 155
* Classificação manual.
** Correlação com os feeds.
17
18. Análise dos Dados:
Classificação dos tweets após agrupamento
~74% relacionados ~43% são
Tweets* Similaridade Alta** Similaridade Baixa**
com segurança Alertas
Importantes 119 69 50
Irrelevantes 88 31 57
Spams 30 15 15
Outros 41 ~26% fora de 8 33
contexto
Total 278 123 155
* Classificação manual.
** Correlação com os feeds.
18
19. Análise dos Dados:
● Avaliação dos Procedimentos:
Seleção aleatória de 60 amostras de 278 tweets.
Comparação direta com feeds e busca Web.
Resultados:
➢ 62% alertas de segurança.
➢ 22% irrelevantes.
➢ 10% spams.
➢ 7% informações relacionadas com segurança.
19
20. Avaliação das Hipóteses:
● H1 - Há informações sobre segurança de computadores nas
mensagens do Twitter:
12.309 tweets em 21 dias, média de 586 tweets por dia.
75% tweets abordam assuntos de segurança.
H2 - As mensagens do Twitter com conteúdo sobre segurança
indicam ameaças potenciais:
42% tweets se relacionam com alertas de segurança.
20
21. Avaliação das Hipóteses:
● H1 - Há informações sobre segurança de computadores nas
mensagens do Twitter:
12.309 tweets em 21 dias, média de 586 tweets por dia.
75% tweets abordam assuntos de segurança.
H2 - As mensagens do Twitter com conteúdo sobre segurança
indicam ameaças potenciais:
42% tweets se relacionam com alertas de segurança.
21
22. Avaliação das Hipóteses:
● H1 - Há informações sobre segurança de computadores nas
mensagens do Twitter:
12.309 tweets em 21 dias, média de 586 tweets por dia.
75% tweets abordam assuntos de segurança.
● H2 - As mensagens do Twitter com conteúdo sobre segurança
indicam ameaças potenciais:
42% tweets se relacionam com alertas de segurança.
22
23. Avaliação das Hipóteses:
● H1 - Há informações sobre segurança de computadores nas
mensagens do Twitter:
12.309 tweets em 21 dias, média de 586 tweets por dia.
75% tweets abordam assuntos de segurança.
● H2 - As mensagens do Twitter com conteúdo sobre segurança
indicam ameaças potenciais:
42% dos tweets se relacionam com alertas de segurança.
23
24. Avaliação das Hipóteses:
● H3 - O Twitter informa antes de sítios especializados os
problemas relacionados à segurança da informação:
45% dos tweets apresentam data mais recente. Exemplo:
PHP-CGI query string parameter vulnerability
Publicada em 03/05/2012 no CERT.
Postada no Twitter em 04/05/2012.
Catalogada no NIST em 11/05/2012.
24
25. Avaliação das Hipóteses:
● H3 - O Twitter informa antes de sítios especializados os
problemas relacionados à segurança da informação:
45% dos tweets apresentam data mais recente.
Exemplo:
PHP-CGI query string parameter vulnerability
➢ Publicada em 03/05/2012 no CERT.
➢ Postada no Twitter em 04/05/2012.
➢ Catalogada no NIST em 11/05/2012.
25
26. Avaliação das Hipóteses:
● H4 - Os usuários no Twitter se preocupam em alertar outros
usuários sobre problemas de segurança:
Tempo médio de propagação 12 dias.
Uma mensagem com 10 retweets atinge ~10.000 usuários.
A mensagem mais propagada atingiu ~347.000 pessoas.
26
27. Avaliação das Hipóteses:
● H4 - Os usuários no Twitter se preocupam em alertar outros
usuários sobre problemas de segurança:
27
28. Avaliação das Hipóteses:
● H4 - Os usuários no Twitter se preocupam em alertar outros
usuários sobre problemas de segurança:
Tempo médio de propagação, 12 dias.
10 retweets atingem ~10.000 usuários.
A mensagem mais propagada atingiu
~347.000 pessoas.
28
29. Considerações Finais:
● Dificuldades para selecionar tweets (conteúdo e tamanho).
● Redes sociais propagam alertas de segurança.
● Os alertas alcançam alta e rápida disseminação.
29
30. Trabalhos futuros:
● Efetuar novas consultas usando outros termos da área de
segurança.
● Melhorar o filtro para spams e de mensagens fora de contexto.
● Avaliação de alertas de segurança em outras redes sociais.
● Desenvolver um sistema automatizado de alertas antecipados
de segurança baseado em redes sociais.
30
31. Perguntas?
Luiz Arthur F. Santos Daniel Macêdo Batista
luizsantos@utfpr.edu.br batista@ime.usp.br
Rodrigo Campiolo Marco Aurélio Gerosa
rcampiolo@utfpr.edu.br gerosa@ime.usp.br
Obrigado!
31