Diese Präsentation wurde erfolgreich gemeldet.
Wir verwenden Ihre LinkedIn Profilangaben und Informationen zu Ihren Aktivitäten, um Anzeigen zu personalisieren und Ihnen relevantere Inhalte anzuzeigen. Sie können Ihre Anzeigeneinstellungen jederzeit ändern.
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Cas...
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Cas...
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Cas...
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Cas...
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Cas...
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Cas...
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Cas...
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Cas...
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Cas...
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Cas...
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Cas...
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Cas...
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Cas...
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Cas...
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Cas...
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Cas...
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Cas...
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Cas...
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Cas...
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Cas...
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Cas...
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Cas...
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Cas...
Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Cas...
Nächste SlideShare
Wird geladen in …5
×

Extração Automática de Definições: um estudo de caso em textos legislativos

214 Aufrufe

Veröffentlicht am

Dissertação para a obtenção do título de Mestre em Gestão do Conhecimento e da Tecnologia da Informação, na Universidade Católica de Brasília, em dezembro de 2012.

Veröffentlicht in: Wissenschaft
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Extração Automática de Definições: um estudo de caso em textos legislativos

  1. 1. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Extração Automática de Definições Um Estudo de Caso em Textos Legislativos Augusto Herrmann Batista Orientador: Edilson Ferneda Co-orientador: Hércules Antonio do Prado
  2. 2. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Roteiro  Contextualização e Motivação  Problema  Objetivos  Revisão da Literatura (EI e ED)  Referencial Teórico  Metodologia  Resultados e Discussão  Conclusões e Trabalhos Futuros Ref.: pág. 13
  3. 3. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Contextualização e Motivação  Por que se fazer um Glossário?  Facilitar o aprendizado  Fixar conceitos  Externalizar um jargão  Evitar ambiguidades  Reduzir ruídos de comunicação Ref.: págs. 10 a 12
  4. 4. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Contextualização e Motivação  Extração Manual  Tarefa Dispendiosa  Grande Volume de Textos Obs.: ainda está sujeita a desacordo entre anotadores! Ref.: págs. 10 a 12, 39 e 40
  5. 5. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Problema  Problema  ”Dado um conjunto de textos em linguagem natural em língua portuguesa, em meio eletrônico, como extrair automaticamente um conjunto de termos e definições originalmente apresentados de forma não-estruturada visando a construção de um glossário?” Ref.: pág. 12
  6. 6. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Objetivos  Objetivo Geral  Elaborar um método de extração de definições a partir de textos em língua portuguesa aplicando técnicas de processamento de linguagem natural  Objetivos Específicos  Estudar técnicas existentes em ED  Selecionar, adaptar e combinar  Efetuar estudo de caso e aplicar a técnica Ref.: pág. 12
  7. 7. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Revisão de Literatura  Origens na Extração de Informação (EI)  Revisões de Muslea (1999) e Sarawagi (2007)  Uso de sequências de padrões sintáticos e slots (e.g. AutoSlog – RILOFF, 1993)  Proximidade semântica com uso do Wordnet (MILLER, 1995)  Aprendizagem de máquina estatística  Modelos Markovianos Ocultos (HMM)  Entropia Máxima (MEMM)  Campos Aleatórios Condicionais (CRF)  Modelos Híbridos (regras + aprendizagem) Ref.: págs. 14 a 23
  8. 8. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Revisão de Literatura  Problemas Relacionados à Extração de Definições (ED)  Origem: sistemas de resposta automática a perguntas (e.g. SAGGION, 2004)  ”Quem é … ?”  ”O que é um … ?”  Extração de Tesauros (e.g., CURRAN e MOENS, 2002)  Apoio à Construção de Ontologias (e.g., MALAISÉ, 2005, apud ALARCÓN et al, 2007; GANGEMI et al, 2003 apud NAVIGLI e VELARDI, 2010) Ref.: págs. 24 a 26
  9. 9. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Revisão de Literatura  Abordagens em ED  Baseadas em regras / padrões morfossintáticos (e.g. TANEV et al, 2005)  Baseadas em aprendizagem de máquina estatística (e.g. FAHMI e BOUMA, 2006)  Bayesiano Ingênuo  Entropia Máxima  Máquinas de Vetor de Suporte (MVS)  Algortimos Genéticos (BORG et al, 2007) Ref.: págs. 25, 29, 30 e 35
  10. 10. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Revisão de Literatura  ED em Língua Portuguesa  Pinto e Oliveira (2004)  Corpógrafo – Textos de Medicina  Identificação manual de estruturas sintáticas comuns  Construção de expressões regulares  Del Gaudio e Branco (2007, 2009)  Textos em TI e EAD  Gramática baseada em regras Ref.: págs. 30 a 32
  11. 11. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Referencial Teórico  Definições  Genus et differentia – Aristóteles  definiendum  genus  differentia  Shaw (1922):  por etimologia  por análise (ou intensional)  por exclusão  por exemplo (ou extensional) Ref.: págs. 47 a 49
  12. 12. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Referencial Teórico  Etiquetagem Morfossintática  presente na cadeia de processamento de PLN  atribui etiquetas com o papel desempenhado pelo segmento na frase  Tipos de etiquetadores  Expressões Regulares  Estatísticos N-Gramas  Aprendizagem baseada em transformações (BRILL, 1993 apud BIRD et al, 2009) Ref.: págs. 49 a 54
  13. 13. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Referencial Teórico  Máquinas de Vetor de Suporte  abordagem de aprendizagem de máquina para problemas de classificação  classifica vetores n-dimensionais  cada dimensão representa uma característica  separador que maximiza a margem entre as classes de vetores Ref.: págs. 54 a 57
  14. 14. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Metodologia Ref.: Figura 12, pág. 58
  15. 15. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Metodologia  Corpus de experimentação – Coleção Brasileira do Direito das Telecomunicações (ARANHA e LIMA, 2009)  1.940 documentos com 6.120.832 tokens  Leis, Decretos, Resoluções, Jurisprudência  1.757 termos no glossário  2.097 definições Ref.: págs. 59 a 60
  16. 16. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Metodologia  ”Problemas” no corpus  faltam alguns documentos referenciados  Ex.: ”Acessórios”, referencia a Resolução da ANATEL nº 533, de 10/09/2009. O documento não consta no corpus.  correções ortográficas  Ex.: no Anexo à Resolução da ANATEL nº 297, de 10/05/2002 está: ”questão específca”. No glossário, ”questão específica”.  definições omitidas  Ex.: ”contratante” e ”contratado” na Lei 8.666/1993 Ref.: págs. 60 a 62
  17. 17. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Metodologia  Pré-processamento  conversão de formatos  filtragem para sanear os problemas  Segmentação  por períodos  por palavras Ref.: págs. 61 a 62
  18. 18. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Metodologia  Etiquetagem morfossintática  treino no corpus MAC-MORPHO (ALUÍSIO et al, 2003)  divisão de treino/testes 90%/10%  acurácia: 90,44% Ref.: págs. 62 a 65
  19. 19. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Metodologia  Funções extratoras de características (FEC)  retornam um valor numérico ou binário  normalizado para a faixa [0, 1]  exemplos:  o segmento contém o verbo ”ser” seguido de um determinante?  o segmento contém dois pontos (”:”) entre as cinco primeiras posições?  exemplos de características negativas:  palavra não seguida por conjugação do verbo ”ser” Ref.: págs. 65 a 66
  20. 20. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Metodologia  Treino  Coleção Brasileira de Direito das Telecomunicações (ARANHA e LIMA, 2009)  amostragem aleatória de 70% dos períodos utilizados para treino  normalização dos valores das FEC  resposta de referência (”gold standard”)  balanceamento da quantidade de instâncias  Aplicação  30% restantes para aplicação e validaçãoRef.: págs. 67 a 69
  21. 21. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Metodologia
  22. 22. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Resultados e Discussão  Resultados  acurácia: 73,5%  precisão: 75,6%  Revocação: 69,6%  Matriz de confusão: Predição Correção Negativa Positiva Negativa 305 38,7% 89 11,3% Positiva 120 15,2% 275 34,9% Ref.: págs. 70 a 71
  23. 23. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Conclusões  Atingidos os objetivos geral e específicos  estudo das técnicas existentes  escolha de uma abordagem p/ construir glossário  estudo de caso  Poucos trabalhos em língua portuguesa, nenhum aplicado a textos normativos  Primeiro passo para a construção de glossários (revisão manual) Ref.: pág. 72
  24. 24. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos Trabalhos Futuros  Construção de corpus anotado manualmente revisado  Aplicação em outras áreas do conhecimento  Uso de programação genética e outras, aplicadas à língua portuguesa Ref.: págs. 72 a 75

×