Análise Comparativa Extração Metadados Artigos

Análise Comparativa de
Ferramentas de Extração de
Metadados em Artigos Cientíﬁcos
José Alberto Grossi Júnior
Maio/2015

Introdução
• Necessidade de catalogação automatizada de
artigos cientíﬁcos.
• Extração automática de informações, como títulos,
autores e referências.
• Representação na forma de metadados.
• Ferramentas para extração de metadados.

Problema
• Ferramentas focadas em artigos de Ciência da
Computação.
• Layouts pré-deﬁnidos, como é o caso do IEEE.
• Poucos estudos do comportamento destas
ferramentas em outras áreas do conhecimento.

Layouts padrões dos artigos IEEE.

Objetivos
• Identificar as melhores ferramentas de extração de
metadados;
• Utilização de um corpus diversificado,
contemplando diversas áreas do conhecimento
(variação dos layouts).
• Identificação do comportamento de ferramentas:
• para cada área do conhecimento analisada;
• para cada metadado.

Justiﬁcativa
• Permitir um conhecimento maior do
comportamento de cada ferramenta; seus pontos
fortes e fracos.
• Avaliar a diferenciação dos padrões para cada
área do conhecimento e suas características.

Metadados
• Deﬁnição de Metadado:
• [...] an element of metadata describes an
information resource, or helps provide access to
an information resource.”
• Padrão Dublin Core
• Deﬁnição de 15 elementos padronizados.

Técnicas de
Extração de Metadados

Técnicas
• Support Vector Machines (SVM)
• Reconhecimento de padrões através de análises
matemáticas (análise espacial).
• Hidden Markov Models (HMM)
• Divisão do processamento em estados e
símbolos durante um dado período de tempo.
• Observação e aprendizado.

Técnicas de Extração
• Word Clustering (Clusters de palavras)
• Identiﬁcação de padrões e comparação com
dicionários pré-determinados.
• Conditional Random Fields (CRFs)
• Construção de modelos probabilísticos;
• Evolução do HMM (não vicioso).

Ferramenta Linguagens Técnicas Command Line
Cermine Java
SVM, CRF, Word
Clustering
Sim
TeamBeam Java
Maximun
Entropy, HMM
Não
Mendeley Qt
SVM, Word
Clustering
Não
CiteULike
Perl, Python,
Ruby, Tcl, Java
Expressões
Regulares
Não
CiteSeer
Python, Perl,
Java
SVM, CRF (ParsCit),
Word Clustering
Sim
ParsCit Perl, Ruby CRF Sim
CrossRef Ruby, Python
Expressões Regulares
+ Posicionamento
Visual
Sim

Corpus
Área do Conhecimento Total de Artigos
Arquitetura e Urbanismo 7
Música 7
Ciência da Computação 8
Ciência da Informação 9
Ciências Biológicas 7
Direito 7
Engenharia Civil 8
Letras 7
Matemática Computacional 7
Medicina 9
Odontologia 8
Psicologia 9
Sociologia 7
Total 100

Extração dos Metadados
• Extração individual de cada artigo, coletando
resultados para cada uma das ferramentas;
• Análise dos resultados de cada ferramenta para cada
área do conhecimento analisada, com base em médias
aritméticas dos resultados individuais;
• Análise dos resultados de cada ferramenta para cada
metadado, tomando um resultado geral para todas as
áreas do conhecimento;
• Cálculo do Índice de Conﬁabilidade.

• Média ponderada com base nos resultados
obtidos para cada metadado, juntamente com seu
respectivo peso.
• Classiﬁcação:
• A partir de 90: Precisa
• Entre 80 e 90: Satisfatória
• Abaixo de 80: Insatisfatória
Índice de Conﬁabilidade
Metadado Peso
Título 5
Autores 4
E-mails 1
Resumo 3
Referências 4

Ambiente de Testes
Metadata Extraction Tool
Dados aleatórios. Ferramenta em desenvolvimento.

Resultados Individuais por Ferramenta

Análise Comparativa Extração Metadados Artigos

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Ähnlich wie Análise Comparativa Extração Metadados Artigos

Ähnlich wie Análise Comparativa Extração Metadados Artigos (20)

Mehr von Junior Grossi

Mehr von Junior Grossi (13)

Análise Comparativa Extração Metadados Artigos