O documento discute o uso de medidas de centralidade em grafos textuais para extração de palavras-chave. A técnica foi modificada para usar centralidade de excentricidade e proximidade ao invés de medidas anteriores. Os tweets coletados são transformados em um grafo onde os vértices são palavras e as arestas representam co-ocorrência entre elas. As palavras-chave são então ranqueadas pelas medidas de centralidade.
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Utilizando Medidas de Centralidade na Extração de Palavras-Chave de Grafos Textuais
1. Utilizando Medidas de Centralidade na
Extração de Palavras-Chave de Grafos
Textuais
Willyan Daniel Abilhoa
Orientador: Prof. Dr. Leandro Nunes de Castro
Laboratório de Computação Natural (LCoN)
Universidade Presbiteriana Mackenzie
Pós-graduação em Engenharia Elétrica
LCoN Meetings
2. Roteiro
Introdução
Modificações Abordadas
Medidas Anteriores
Antigo Funcionamento daTécnica
Novo Funcionamento daTécnica
Árvores Geradoras Mínima e Máxima
Medidas de Centralidade Utilizadas
Referências Bibliográficas
2abilhoa.willyan@gmail.com
3. Introdução
Foco de aplicação da técnica (Twitter):
O Twitter é um serviço de microblog fundado em 2006
É uma rica fonte de informações sobre os mais diversos assuntos.
Isso desperta o interesse tanto do mercado quando da academia
Esse conteúdo está mantido em Tweets
Tweets são mensagens de 140 caracteres
Base de dados textuais:
Cada tweet corresponde a um documento de texto
Os tweets coletados são relacionados ao programa “Agora é Tarde” da
emissora de TV Bandeirantes (Band)
O período de coleta foi realizada entre os dias 6 e 7 de julho de 2012
3abilhoa.willyan@gmail.com
4. Modificações Abordadas
4abilhoa.willyan@gmail.com
Critério Anterior Atual
Janelas de Co-
ocorrência
Tamanho 2 Tamanho |D|
Atr. de i V g(i) + f(i) + s(i) g(i), f(i)
Atr. de e E f(i, j) f(i, j), p(i, j), p(j, i)
Orientação Não-Orientação Não-Orientação
Ranking Soma dos pesos de i Centralidade
6. 6abilhoa.willyan@gmail.com
Antigo Funcionamento da Técnica
Passo 1: Passo 2:
L =
p1 day, beautiful,
p2 car, washed,
p3 car, washed, beautiful, day,
p4 drive, car, beautiful, day, car, washed
Passo 3:
• Exemplo de Funcionamento:
7. 7abilhoa.willyan@gmail.com
Antigo Funcionamento da Técnica
Grafo obtido:
v t f g s w
1 day 3 2 4 9
2 beautiful 3 3 5 11
3 car 4 4 6 14
4 washed 3 2 4 9
5 drive 1 1 1 3
Ranking v T w
1 3 Car 14
2 2 beautiful 11
3 1 day 9
4 4 washed 9
5 5 drive 3
9. Novo Funcionamento da Técnica
9abilhoa.willyan@gmail.com
Novas Medidas:
Probabilidade deTransição de (i, j) ∈ E:
Centralidade de Excentricidade de i ∈V:
Centralidade de Proximidade de i ∈V:
Sendo:
i e j – dois vértices deV
cij – a frequência de co-ocorrência de (i, j)
S – o conjunto de sucessores de i
𝑃𝑖𝑗 =
𝑐𝑖𝑗
𝑐𝑖𝑘𝑘∈𝑆
𝐸𝑐𝑖 = max
𝑘∈𝑉
1 𝑐𝑖𝑘
𝐶𝑙𝑖 =
1
𝑐𝑖𝑘𝑘∈𝑉
10. Novo Funcionamento da Técnica
Coleção de Documentos (Tweets):
10abilhoa.willyan@gmail.com
12. Árvores Geradoras Mínima e Máxima
12abilhoa.willyan@gmail.com
Árv. Ger. Min. (1): Árv. Ger. Max. (1):
13. Medidas de Centralidade Utilizadas
13abilhoa.willyan@gmail.com
Excentricidade: Proximidade
A excentricidade equivale ao complemento da proximidade.
14. 14abilhoa.willyan@gmail.com
Referências Bibliográficas
• JIN, W.; SRIHARI, R. K. Graph-based text representation and knowledge
discovery. Proceedings of the 2007 ACM symposium on Applied computing. v. 7,
p. 807-811, 2007.
• Palshikar, G. K. Keyword Extraction from a Single Document using Centrality
Measures. LNCS, p. 503-510, 2007.