SlideShare ist ein Scribd-Unternehmen logo
1 von 27
Downloaden Sie, um offline zu lesen
Análise Comparativa de
Ferramentas de Extração de
Metadados em Artigos Científicos
José Alberto Grossi Júnior
Maio/2015
Introdução
Introdução
• Necessidade de catalogação automatizada de
artigos científicos.
• Extração automática de informações, como títulos,
autores e referências.
• Representação na forma de metadados.
• Ferramentas para extração de metadados.
Problema
• Ferramentas focadas em artigos de Ciência da
Computação.
• Layouts pré-definidos, como é o caso do IEEE.
• Poucos estudos do comportamento destas
ferramentas em outras áreas do conhecimento.
Layouts padrões dos artigos IEEE.
Objetivos
• Identificar as melhores ferramentas de extração de
metadados;
• Utilização de um corpus diversificado,
contemplando diversas áreas do conhecimento
(variação dos layouts).
• Identificação do comportamento de ferramentas:
• para cada área do conhecimento analisada;
• para cada metadado.
Justificativa
• Permitir um conhecimento maior do
comportamento de cada ferramenta; seus pontos
fortes e fracos.
• Avaliar a diferenciação dos padrões para cada
área do conhecimento e suas características.
Referencial Teórico
Metadados
• Definição de Metadado:
• [...] an element of metadata describes an
information resource, or helps provide access to
an information resource.”
• Padrão Dublin Core
• Definição de 15 elementos padronizados.
Técnicas de
Extração de Metadados
Técnicas
• Support Vector Machines (SVM)
• Reconhecimento de padrões através de análises
matemáticas (análise espacial).
• Hidden Markov Models (HMM)
• Divisão do processamento em estados e
símbolos durante um dado período de tempo.
• Observação e aprendizado.
Técnicas de Extração
• Word Clustering (Clusters de palavras)
• Identificação de padrões e comparação com
dicionários pré-determinados.
• Conditional Random Fields (CRFs)
• Construção de modelos probabilísticos;
• Evolução do HMM (não vicioso).
Ferramentas
Ferramenta Linguagens Técnicas Command Line
Cermine Java
SVM, CRF, Word
Clustering
Sim
TeamBeam Java
Maximun
Entropy, HMM
Não
Mendeley Qt
SVM, Word
Clustering
Não
CiteULike
Perl, Python,
Ruby, Tcl, Java
Expressões
Regulares
Não
CiteSeer
Python, Perl,
Java
SVM, CRF (ParsCit),
Word Clustering
Sim
ParsCit Perl, Ruby CRF Sim
CrossRef Ruby, Python
Expressões Regulares
+ Posicionamento
Visual
Sim
Ferramenta Linguagens Técnicas Command Line
Cermine Java
SVM, CRF, Word
Clustering
Sim
TeamBeam Java
Maximun
Entropy, HMM
Não
Mendeley Qt
SVM, Word
Clustering
Não
CiteULike
Perl, Python,
Ruby, Tcl, Java
Expressões
Regulares
Não
CiteSeer
Python, Perl,
Java
SVM, CRF (ParsCit),
Word Clustering
Sim
ParsCit Perl, Ruby CRF Sim
CrossRef Ruby, Python
Expressões Regulares
+ Posicionamento
Visual
Sim
Metodologia
Corpus
Área do Conhecimento Total de Artigos
Arquitetura e Urbanismo 7
Música 7
Ciência da Computação 8
Ciência da Informação 9
Ciências Biológicas 7
Direito 7
Engenharia Civil 8
Letras 7
Matemática Computacional 7
Medicina 9
Odontologia 8
Psicologia 9
Sociologia 7
Total 100
Realização do
Experimento
Extração dos Metadados
• Extração individual de cada artigo, coletando
resultados para cada uma das ferramentas;
• Análise dos resultados de cada ferramenta para cada
área do conhecimento analisada, com base em médias
aritméticas dos resultados individuais;
• Análise dos resultados de cada ferramenta para cada
metadado, tomando um resultado geral para todas as
áreas do conhecimento;
• Cálculo do Índice de Confiabilidade.
• Média ponderada com base nos resultados
obtidos para cada metadado, juntamente com seu
respectivo peso.
• Classificação:
• A partir de 90: Precisa
• Entre 80 e 90: Satisfatória
• Abaixo de 80: Insatisfatória
Índice de Confiabilidade
Metadado Peso
Título 5
Autores 4
E-mails 1
Resumo 3
Referências 4
Ambiente de Testes
Metadata Extraction Tool
Dados aleatórios. Ferramenta em desenvolvimento.
Extrações Realizadas
Resultados de Extração
Resultados Individuais por Ferramenta
Obrigado!

Weitere ähnliche Inhalte

Ähnlich wie Análise Comparativa Extração Metadados Artigos

Automação de Testes com Robot Framework - GUTS-SC
Automação de Testes com Robot Framework - GUTS-SCAutomação de Testes com Robot Framework - GUTS-SC
Automação de Testes com Robot Framework - GUTS-SCMayara Fernandes
 
Curso básico de Algoritmos com Python
Curso básico de Algoritmos com PythonCurso básico de Algoritmos com Python
Curso básico de Algoritmos com PythonGiancarlo Silva
 
Processos iniciais do mapeamento OR
Processos iniciais do mapeamento ORProcessos iniciais do mapeamento OR
Processos iniciais do mapeamento ORNécio de Lima Veras
 
Linguagem de Programação Java para Iniciantes
Linguagem de Programação Java para IniciantesLinguagem de Programação Java para Iniciantes
Linguagem de Programação Java para IniciantesOziel Moreira Neto
 
Minicurso Ruby on Rails Dextra
Minicurso Ruby on Rails DextraMinicurso Ruby on Rails Dextra
Minicurso Ruby on Rails DextraDextra
 
Paradigmas de Linguagens de Programação: Conceitos de PHP
Paradigmas de Linguagens de Programação: Conceitos de PHPParadigmas de Linguagens de Programação: Conceitos de PHP
Paradigmas de Linguagens de Programação: Conceitos de PHPFabio Leal
 
PHP Experience 2016 - [Palestra] Rumo à Certificação PHP
PHP Experience 2016 - [Palestra] Rumo à Certificação PHPPHP Experience 2016 - [Palestra] Rumo à Certificação PHP
PHP Experience 2016 - [Palestra] Rumo à Certificação PHPiMasters
 
2023_Enanpad_Workshop Ferramentas de IA na Pesquisa.pdf
2023_Enanpad_Workshop Ferramentas de IA na Pesquisa.pdf2023_Enanpad_Workshop Ferramentas de IA na Pesquisa.pdf
2023_Enanpad_Workshop Ferramentas de IA na Pesquisa.pdfAnatalia Saraiva Martins Ramos
 
A importância dos padrões na comunidade PHP
A importância dos padrões na comunidade PHPA importância dos padrões na comunidade PHP
A importância dos padrões na comunidade PHPklaussilveira
 
Sistemas Inteligentes para Textos da Web
Sistemas Inteligentes para Textos da WebSistemas Inteligentes para Textos da Web
Sistemas Inteligentes para Textos da WebFernando Hideo Fukuda
 
Boas Práticas de Programação
Boas Práticas de ProgramaçãoBoas Práticas de Programação
Boas Práticas de ProgramaçãoCOTIC-PROEG (UFPA)
 
Boas Práticas de Programação
Boas Práticas de ProgramaçãoBoas Práticas de Programação
Boas Práticas de ProgramaçãoPaulo Souza
 
Três anos de Scala no NewsMonitor
Três anos de Scala no NewsMonitorTrês anos de Scala no NewsMonitor
Três anos de Scala no NewsMonitorFelipe Hummel
 
Resumo da Sessão "Effective Geodatabase Programming" do Esri DevSummit 2012
Resumo da Sessão "Effective Geodatabase Programming" do Esri DevSummit 2012 Resumo da Sessão "Effective Geodatabase Programming" do Esri DevSummit 2012
Resumo da Sessão "Effective Geodatabase Programming" do Esri DevSummit 2012 Bruno Caimar
 
Arquitetura de Computadores - Lecom - UFMG
Arquitetura de Computadores - Lecom - UFMGArquitetura de Computadores - Lecom - UFMG
Arquitetura de Computadores - Lecom - UFMGdjonatascostsa
 

Ähnlich wie Análise Comparativa Extração Metadados Artigos (20)

Expressões regulares
Expressões regularesExpressões regulares
Expressões regulares
 
Automação de Testes com Robot Framework - GUTS-SC
Automação de Testes com Robot Framework - GUTS-SCAutomação de Testes com Robot Framework - GUTS-SC
Automação de Testes com Robot Framework - GUTS-SC
 
Félix do Carmo e Luís Trigo - Tradutores e máquinas de tradução
Félix do Carmo e Luís Trigo - Tradutores e máquinas de traduçãoFélix do Carmo e Luís Trigo - Tradutores e máquinas de tradução
Félix do Carmo e Luís Trigo - Tradutores e máquinas de tradução
 
Curso básico de Algoritmos com Python
Curso básico de Algoritmos com PythonCurso básico de Algoritmos com Python
Curso básico de Algoritmos com Python
 
Processos iniciais do mapeamento OR
Processos iniciais do mapeamento ORProcessos iniciais do mapeamento OR
Processos iniciais do mapeamento OR
 
Linguagem de Programação Java para Iniciantes
Linguagem de Programação Java para IniciantesLinguagem de Programação Java para Iniciantes
Linguagem de Programação Java para Iniciantes
 
Defesa Mestrado
Defesa MestradoDefesa Mestrado
Defesa Mestrado
 
Minicurso Ruby on Rails Dextra
Minicurso Ruby on Rails DextraMinicurso Ruby on Rails Dextra
Minicurso Ruby on Rails Dextra
 
Paradigmas de Linguagens de Programação: Conceitos de PHP
Paradigmas de Linguagens de Programação: Conceitos de PHPParadigmas de Linguagens de Programação: Conceitos de PHP
Paradigmas de Linguagens de Programação: Conceitos de PHP
 
PHP Experience 2016 - [Palestra] Rumo à Certificação PHP
PHP Experience 2016 - [Palestra] Rumo à Certificação PHPPHP Experience 2016 - [Palestra] Rumo à Certificação PHP
PHP Experience 2016 - [Palestra] Rumo à Certificação PHP
 
2023_Enanpad_Workshop Ferramentas de IA na Pesquisa.pdf
2023_Enanpad_Workshop Ferramentas de IA na Pesquisa.pdf2023_Enanpad_Workshop Ferramentas de IA na Pesquisa.pdf
2023_Enanpad_Workshop Ferramentas de IA na Pesquisa.pdf
 
A importância dos padrões na comunidade PHP
A importância dos padrões na comunidade PHPA importância dos padrões na comunidade PHP
A importância dos padrões na comunidade PHP
 
Sistemas Inteligentes para Textos da Web
Sistemas Inteligentes para Textos da WebSistemas Inteligentes para Textos da Web
Sistemas Inteligentes para Textos da Web
 
Boas Práticas de Programação
Boas Práticas de ProgramaçãoBoas Práticas de Programação
Boas Práticas de Programação
 
Boas Práticas de Programação
Boas Práticas de ProgramaçãoBoas Práticas de Programação
Boas Práticas de Programação
 
ANTLR & ANTTLRWorks
ANTLR & ANTTLRWorksANTLR & ANTTLRWorks
ANTLR & ANTTLRWorks
 
Linguagem Java- Iniciação à programação Java
Linguagem Java- Iniciação à programação JavaLinguagem Java- Iniciação à programação Java
Linguagem Java- Iniciação à programação Java
 
Três anos de Scala no NewsMonitor
Três anos de Scala no NewsMonitorTrês anos de Scala no NewsMonitor
Três anos de Scala no NewsMonitor
 
Resumo da Sessão "Effective Geodatabase Programming" do Esri DevSummit 2012
Resumo da Sessão "Effective Geodatabase Programming" do Esri DevSummit 2012 Resumo da Sessão "Effective Geodatabase Programming" do Esri DevSummit 2012
Resumo da Sessão "Effective Geodatabase Programming" do Esri DevSummit 2012
 
Arquitetura de Computadores - Lecom - UFMG
Arquitetura de Computadores - Lecom - UFMGArquitetura de Computadores - Lecom - UFMG
Arquitetura de Computadores - Lecom - UFMG
 

Mehr von Junior Grossi

Introdução a Banco de Dados UFMG/2014-02 - Exercício 02
Introdução a Banco de Dados UFMG/2014-02 - Exercício 02Introdução a Banco de Dados UFMG/2014-02 - Exercício 02
Introdução a Banco de Dados UFMG/2014-02 - Exercício 02Junior Grossi
 
Introdução a Banco de Dados UFMG/2014-02 - Aula 10
Introdução a Banco de Dados UFMG/2014-02 - Aula 10Introdução a Banco de Dados UFMG/2014-02 - Aula 10
Introdução a Banco de Dados UFMG/2014-02 - Aula 10Junior Grossi
 
Introdução a Banco de Dados UFMG/2014-02 - Aula 09
Introdução a Banco de Dados UFMG/2014-02 - Aula 09Introdução a Banco de Dados UFMG/2014-02 - Aula 09
Introdução a Banco de Dados UFMG/2014-02 - Aula 09Junior Grossi
 
Introdução a Banco de Dados UFMG/2014-02 - Aula 08
Introdução a Banco de Dados UFMG/2014-02 - Aula 08Introdução a Banco de Dados UFMG/2014-02 - Aula 08
Introdução a Banco de Dados UFMG/2014-02 - Aula 08Junior Grossi
 
Introdução a Banco de Dados UFMG/2014-02 - Aula 07
Introdução a Banco de Dados UFMG/2014-02 - Aula 07Introdução a Banco de Dados UFMG/2014-02 - Aula 07
Introdução a Banco de Dados UFMG/2014-02 - Aula 07Junior Grossi
 
Introdução a Banco de Dados UFMG/2014-02 - Aula 06
Introdução a Banco de Dados UFMG/2014-02 - Aula 06Introdução a Banco de Dados UFMG/2014-02 - Aula 06
Introdução a Banco de Dados UFMG/2014-02 - Aula 06Junior Grossi
 
Introdução a Banco de Dados UFMG/2014-02 - Aula 04
Introdução a Banco de Dados UFMG/2014-02 - Aula 04Introdução a Banco de Dados UFMG/2014-02 - Aula 04
Introdução a Banco de Dados UFMG/2014-02 - Aula 04Junior Grossi
 
Exercícíos de Modelagem Conceitual 2014/2
Exercícíos de Modelagem Conceitual 2014/2Exercícíos de Modelagem Conceitual 2014/2
Exercícíos de Modelagem Conceitual 2014/2Junior Grossi
 
Introdução a Banco de Dados 03 - UFMG BIBL 2014/02
Introdução a Banco de Dados 03 - UFMG BIBL 2014/02Introdução a Banco de Dados 03 - UFMG BIBL 2014/02
Introdução a Banco de Dados 03 - UFMG BIBL 2014/02Junior Grossi
 
Introdução a Banco de Dados 02 - UFMG BIBL 2014/02
Introdução a Banco de Dados 02 - UFMG BIBL 2014/02Introdução a Banco de Dados 02 - UFMG BIBL 2014/02
Introdução a Banco de Dados 02 - UFMG BIBL 2014/02Junior Grossi
 
Introdução a Banco de Dados 01 - UFMG BIBL 2014/02
Introdução a Banco de Dados 01 - UFMG BIBL 2014/02Introdução a Banco de Dados 01 - UFMG BIBL 2014/02
Introdução a Banco de Dados 01 - UFMG BIBL 2014/02Junior Grossi
 
Flink (Peter Mika) - Semantic Web
Flink (Peter Mika) - Semantic WebFlink (Peter Mika) - Semantic Web
Flink (Peter Mika) - Semantic WebJunior Grossi
 
Presentation about Ontologies at my Masters (UFMG, pt_BR)
Presentation about Ontologies at my Masters (UFMG, pt_BR)Presentation about Ontologies at my Masters (UFMG, pt_BR)
Presentation about Ontologies at my Masters (UFMG, pt_BR)Junior Grossi
 

Mehr von Junior Grossi (13)

Introdução a Banco de Dados UFMG/2014-02 - Exercício 02
Introdução a Banco de Dados UFMG/2014-02 - Exercício 02Introdução a Banco de Dados UFMG/2014-02 - Exercício 02
Introdução a Banco de Dados UFMG/2014-02 - Exercício 02
 
Introdução a Banco de Dados UFMG/2014-02 - Aula 10
Introdução a Banco de Dados UFMG/2014-02 - Aula 10Introdução a Banco de Dados UFMG/2014-02 - Aula 10
Introdução a Banco de Dados UFMG/2014-02 - Aula 10
 
Introdução a Banco de Dados UFMG/2014-02 - Aula 09
Introdução a Banco de Dados UFMG/2014-02 - Aula 09Introdução a Banco de Dados UFMG/2014-02 - Aula 09
Introdução a Banco de Dados UFMG/2014-02 - Aula 09
 
Introdução a Banco de Dados UFMG/2014-02 - Aula 08
Introdução a Banco de Dados UFMG/2014-02 - Aula 08Introdução a Banco de Dados UFMG/2014-02 - Aula 08
Introdução a Banco de Dados UFMG/2014-02 - Aula 08
 
Introdução a Banco de Dados UFMG/2014-02 - Aula 07
Introdução a Banco de Dados UFMG/2014-02 - Aula 07Introdução a Banco de Dados UFMG/2014-02 - Aula 07
Introdução a Banco de Dados UFMG/2014-02 - Aula 07
 
Introdução a Banco de Dados UFMG/2014-02 - Aula 06
Introdução a Banco de Dados UFMG/2014-02 - Aula 06Introdução a Banco de Dados UFMG/2014-02 - Aula 06
Introdução a Banco de Dados UFMG/2014-02 - Aula 06
 
Introdução a Banco de Dados UFMG/2014-02 - Aula 04
Introdução a Banco de Dados UFMG/2014-02 - Aula 04Introdução a Banco de Dados UFMG/2014-02 - Aula 04
Introdução a Banco de Dados UFMG/2014-02 - Aula 04
 
Exercícíos de Modelagem Conceitual 2014/2
Exercícíos de Modelagem Conceitual 2014/2Exercícíos de Modelagem Conceitual 2014/2
Exercícíos de Modelagem Conceitual 2014/2
 
Introdução a Banco de Dados 03 - UFMG BIBL 2014/02
Introdução a Banco de Dados 03 - UFMG BIBL 2014/02Introdução a Banco de Dados 03 - UFMG BIBL 2014/02
Introdução a Banco de Dados 03 - UFMG BIBL 2014/02
 
Introdução a Banco de Dados 02 - UFMG BIBL 2014/02
Introdução a Banco de Dados 02 - UFMG BIBL 2014/02Introdução a Banco de Dados 02 - UFMG BIBL 2014/02
Introdução a Banco de Dados 02 - UFMG BIBL 2014/02
 
Introdução a Banco de Dados 01 - UFMG BIBL 2014/02
Introdução a Banco de Dados 01 - UFMG BIBL 2014/02Introdução a Banco de Dados 01 - UFMG BIBL 2014/02
Introdução a Banco de Dados 01 - UFMG BIBL 2014/02
 
Flink (Peter Mika) - Semantic Web
Flink (Peter Mika) - Semantic WebFlink (Peter Mika) - Semantic Web
Flink (Peter Mika) - Semantic Web
 
Presentation about Ontologies at my Masters (UFMG, pt_BR)
Presentation about Ontologies at my Masters (UFMG, pt_BR)Presentation about Ontologies at my Masters (UFMG, pt_BR)
Presentation about Ontologies at my Masters (UFMG, pt_BR)
 

Análise Comparativa Extração Metadados Artigos

  • 1. Análise Comparativa de Ferramentas de Extração de Metadados em Artigos Científicos José Alberto Grossi Júnior Maio/2015
  • 3. Introdução • Necessidade de catalogação automatizada de artigos científicos. • Extração automática de informações, como títulos, autores e referências. • Representação na forma de metadados. • Ferramentas para extração de metadados.
  • 4. Problema • Ferramentas focadas em artigos de Ciência da Computação. • Layouts pré-definidos, como é o caso do IEEE. • Poucos estudos do comportamento destas ferramentas em outras áreas do conhecimento.
  • 5. Layouts padrões dos artigos IEEE.
  • 6. Objetivos • Identificar as melhores ferramentas de extração de metadados; • Utilização de um corpus diversificado, contemplando diversas áreas do conhecimento (variação dos layouts). • Identificação do comportamento de ferramentas: • para cada área do conhecimento analisada; • para cada metadado.
  • 7. Justificativa • Permitir um conhecimento maior do comportamento de cada ferramenta; seus pontos fortes e fracos. • Avaliar a diferenciação dos padrões para cada área do conhecimento e suas características.
  • 9. Metadados • Definição de Metadado: • [...] an element of metadata describes an information resource, or helps provide access to an information resource.” • Padrão Dublin Core • Definição de 15 elementos padronizados.
  • 11. Técnicas • Support Vector Machines (SVM) • Reconhecimento de padrões através de análises matemáticas (análise espacial). • Hidden Markov Models (HMM) • Divisão do processamento em estados e símbolos durante um dado período de tempo. • Observação e aprendizado.
  • 12. Técnicas de Extração • Word Clustering (Clusters de palavras) • Identificação de padrões e comparação com dicionários pré-determinados. • Conditional Random Fields (CRFs) • Construção de modelos probabilísticos; • Evolução do HMM (não vicioso).
  • 14. Ferramenta Linguagens Técnicas Command Line Cermine Java SVM, CRF, Word Clustering Sim TeamBeam Java Maximun Entropy, HMM Não Mendeley Qt SVM, Word Clustering Não CiteULike Perl, Python, Ruby, Tcl, Java Expressões Regulares Não CiteSeer Python, Perl, Java SVM, CRF (ParsCit), Word Clustering Sim ParsCit Perl, Ruby CRF Sim CrossRef Ruby, Python Expressões Regulares + Posicionamento Visual Sim
  • 15. Ferramenta Linguagens Técnicas Command Line Cermine Java SVM, CRF, Word Clustering Sim TeamBeam Java Maximun Entropy, HMM Não Mendeley Qt SVM, Word Clustering Não CiteULike Perl, Python, Ruby, Tcl, Java Expressões Regulares Não CiteSeer Python, Perl, Java SVM, CRF (ParsCit), Word Clustering Sim ParsCit Perl, Ruby CRF Sim CrossRef Ruby, Python Expressões Regulares + Posicionamento Visual Sim
  • 17.
  • 18. Corpus Área do Conhecimento Total de Artigos Arquitetura e Urbanismo 7 Música 7 Ciência da Computação 8 Ciência da Informação 9 Ciências Biológicas 7 Direito 7 Engenharia Civil 8 Letras 7 Matemática Computacional 7 Medicina 9 Odontologia 8 Psicologia 9 Sociologia 7 Total 100
  • 20. Extração dos Metadados • Extração individual de cada artigo, coletando resultados para cada uma das ferramentas; • Análise dos resultados de cada ferramenta para cada área do conhecimento analisada, com base em médias aritméticas dos resultados individuais; • Análise dos resultados de cada ferramenta para cada metadado, tomando um resultado geral para todas as áreas do conhecimento; • Cálculo do Índice de Confiabilidade.
  • 21. • Média ponderada com base nos resultados obtidos para cada metadado, juntamente com seu respectivo peso. • Classificação: • A partir de 90: Precisa • Entre 80 e 90: Satisfatória • Abaixo de 80: Insatisfatória Índice de Confiabilidade Metadado Peso Título 5 Autores 4 E-mails 1 Resumo 3 Referências 4
  • 22. Ambiente de Testes Metadata Extraction Tool Dados aleatórios. Ferramenta em desenvolvimento.
  • 26.