O documento analisa ferramentas de extração de metadados em artigos científicos, comparando seu desempenho em diferentes áreas do conhecimento. Objetiva identificar as melhores ferramentas e seu comportamento para cada área e metadado, usando um corpus de 100 artigos de 14 áreas. A metodologia inclui extrair metadados com cada ferramenta e analisar os resultados individuais e gerais para áreas e metadados.
3. Introdução
• Necessidade de catalogação automatizada de
artigos científicos.
• Extração automática de informações, como títulos,
autores e referências.
• Representação na forma de metadados.
• Ferramentas para extração de metadados.
4. Problema
• Ferramentas focadas em artigos de Ciência da
Computação.
• Layouts pré-definidos, como é o caso do IEEE.
• Poucos estudos do comportamento destas
ferramentas em outras áreas do conhecimento.
6. Objetivos
• Identificar as melhores ferramentas de extração de
metadados;
• Utilização de um corpus diversificado,
contemplando diversas áreas do conhecimento
(variação dos layouts).
• Identificação do comportamento de ferramentas:
• para cada área do conhecimento analisada;
• para cada metadado.
7. Justificativa
• Permitir um conhecimento maior do
comportamento de cada ferramenta; seus pontos
fortes e fracos.
• Avaliar a diferenciação dos padrões para cada
área do conhecimento e suas características.
9. Metadados
• Definição de Metadado:
• [...] an element of metadata describes an
information resource, or helps provide access to
an information resource.”
• Padrão Dublin Core
• Definição de 15 elementos padronizados.
11. Técnicas
• Support Vector Machines (SVM)
• Reconhecimento de padrões através de análises
matemáticas (análise espacial).
• Hidden Markov Models (HMM)
• Divisão do processamento em estados e
símbolos durante um dado período de tempo.
• Observação e aprendizado.
12. Técnicas de Extração
• Word Clustering (Clusters de palavras)
• Identificação de padrões e comparação com
dicionários pré-determinados.
• Conditional Random Fields (CRFs)
• Construção de modelos probabilísticos;
• Evolução do HMM (não vicioso).
18. Corpus
Área do Conhecimento Total de Artigos
Arquitetura e Urbanismo 7
Música 7
Ciência da Computação 8
Ciência da Informação 9
Ciências Biológicas 7
Direito 7
Engenharia Civil 8
Letras 7
Matemática Computacional 7
Medicina 9
Odontologia 8
Psicologia 9
Sociologia 7
Total 100
20. Extração dos Metadados
• Extração individual de cada artigo, coletando
resultados para cada uma das ferramentas;
• Análise dos resultados de cada ferramenta para cada
área do conhecimento analisada, com base em médias
aritméticas dos resultados individuais;
• Análise dos resultados de cada ferramenta para cada
metadado, tomando um resultado geral para todas as
áreas do conhecimento;
• Cálculo do Índice de Confiabilidade.
21. • Média ponderada com base nos resultados
obtidos para cada metadado, juntamente com seu
respectivo peso.
• Classificação:
• A partir de 90: Precisa
• Entre 80 e 90: Satisfatória
• Abaixo de 80: Insatisfatória
Índice de Confiabilidade
Metadado Peso
Título 5
Autores 4
E-mails 1
Resumo 3
Referências 4