SlideShare uma empresa Scribd logo
1 de 44
Baixar para ler offline
MESTRADO EM CIÊNCIA DA COMPUTAÇÃO
UNIVERSIDADE ESTADUAL DO RIO GRANDE DO NORTE - UERN
 UNIVERSIDADE FEDERAL RURAL DO SEMI-ÁRIDO - UFERSA




PROCESSAMENTO PROBABILÍSTICO
       DE LINGUAGEM
                   Capítulo 23




            Diego Grosmann e Thiago Reis
Agenda
2


       Introdução
       Modelo probabilístico de linguagem
       Gramática probabilística livre de contexto (GPLC)
       GPLC lexicalizada
       Recuperação de Informação
       Problemas de PLN
       Extração de Informação
       Tradução automática
       Estado da arte
       Aplicações
       Referências bibliográficas
Introdução
3


       Processamento probabilístico de linguagem tenta
        facilitar a localização de informações em textos
        escritos por seres humanos e para seres humanos;

       Essa    abordagem     utiliza  estatística   e
        aprendizagem nos dados existentes e gera
        probabilidades para o uso de sentenças (modelo
        probabilístico).
Modelo Probabilístico de Linguagem
4


       Define a distribuição da probabilidade sobre um
        conjunto de cadeias;
       Modelos:
         Unigramas;

         Bigramas;

         Trigramas.
Modelo Probabilístico de Linguagem
5


       Unigramas:
         Atribui probabilidade P(w) a cada palavra;
         A probabilidade de uma cadeia de palavras é apenas
          o produto da probabilidade de cada palavra;
         logical are as are confusion a may right tries agent
          goal the was diesel more object then information-
          gathering search is
Modelo Probabilístico de Linguagem
6


       Bigramas:
        A   probabilidade de cada palavra dada a palavra
          anterior.
         P(wi|wi -1)

         planning purely diagnostic expert systems are very
          similar computational approach would be represented
          compactly using tic tac toe a predicate
Modelo Probabilístico de Linguagem
7


       N-gramas:
         Considera    n-1 palavras anteriores;
         P(wi|wi – (n-1) ... wi – 1);

         Trigramas

         planning and scheduling are integrated the success
          of naive Bayes model is just a possible prior source
          by that time.
Modelo Probabilístico de Linguagem
8


       Suavização:
         Conta igual a zero
         Suavização soma um
           (c + 1)/(N + B);
           N  número de palavras;
           B  bigramas possíveis;
           c  contagem real;
           (elimina a possibilidade de uma combinação de uma
            palavras nunca sair).
Modelo Probabilístico de Linguagem
9


       Suavização:
           Suavização de interpolação linear
             Combinação dos modelos Unigramas, Bigramas e
              Trigramas.
             P(wi|wi – 2 wi – 1) =
                                c3 P(wi|wi – 2 wi – 1)+ c2P(wi|wi -1)+ c1 P(w)
Método de avaliação
   Utilização de área de treinamento e área de
    testes.
     Problemas: P(Palavras) é muito pequena, os números
       poderiam causar underflow.

   Calcular Perplexidade
     Quanto       mais baixa a perplexidade melhor o modelo
                                                       −������������������2 (������ ������������������������������������������������
     ������������������������������������������������������������������������   ������������������������������������������������ =   2                                )
                                                                         ������
    N    = Numero de palavras

            Underflow: Erro de memoria, valor abaixo do esperado
Gramática probabilística                livre   de
11
     contexto (GPLC)
        Utiliza os formalismos gramaticais para gerar
         uma árvore de probabilidades de palavras;
        A probabilidade de uma cadeia, P(palavras), é
         apenas a probabilidade de sua árvore;
        Para percorrer a árvore podemos utilizar:
          Algoritmo de Viterbi;
          A* (busca pelo melhor esforço).
GPLC lexicalizadas
12

        Tenta resolver o problema de contexto
          P(come uma banana) e P(come uma bandana) depende
           de P(banana) vs P(bandana);
        SV  SV SN
          SV  cabeça do SV (comer)
          SN  cabeça do SN (banana)



          SV sintagmas verbais
          SN sintagmas nominais
                   Sintagma é um segmento linguístico que expressa uma relação
                    de dependência
Problemas no GPLC
   Dificuldade de se construir a GPL
   Problemas na atribuição de probabilidade

   Aprendizagem
     Com arvore sintática utiliza uma regra para a
      combinação dos filhos
       Maximização   de expectativas (EM)
14   Recuperação de Informação
     É a tarefa de encontrar informações
     relevantes para as necessidade de
     informação de um usuário;
Recuperação de Informação
15


        Características:
          Uma coleção de documentos;
          Uma consulta apresentada em uma linguagem de
           consulta;
          Um conjunto de resultados;

          Uma apresentação do conjunto de resultado;
Recuperação de Informação
16


        Modelo booleano de palavras chaves:
         O   modelo é verdadeiro para a palavra em um
           documento se ela ocorre e falso se ela não ocorre;
          Simples;

          Mas, não apresenta grau de relevância;

          Pouca familiaridade de usuários leigos com as
           excreções;
          Resultados ruim (muito especifica).
Recuperação de Informação
17


        Modelagem de linguagem:
          Tenta   definir uma regra de ordenação dos resultados


                P(r | D, Q)                  P( r | D)
                             P(r | D, Q) 
               P(r | D, Q)                 P(r | D)
              r  variável booleana aleatória que indica
               Relevância = verdadeiro
              D  Documento
              Q  Consulta
P(r | D, Q)                  P( r | D)
                          P(r | D, Q) 
            P(r | D, Q)                 P(r | D)
18




    Divide a quantidade de                                   Representa as chances
    resultados relevantes no    Probabilidade de r ser         independentes da
 documento pela quantidade de    verdadeiro dado um        consulta do documento ser
     resultados irrelevantes      documento D e uma                 relevante
                                      consulta Q


         r  variável booleana aleatória que indica Relevância
          = verdadeiro
                                            A relevância do documento
         D  Documento                 independente da consulta pode ser
         Q  Consulta                 dada pela quantidade de links que
                                         apontam para ele como (se for um
                                                   artigo) o numero de citações do
                                                               periódico
P(r | D, Q)                  P( r | D)
                             P(r | D, Q) 
               P(r | D, Q)                 P(r | D)
19

        Modelo de saco de palavras
           Utiliza unigrama para contar o numero de ocorrências;
           Documentos com mais ocorrências individuais são mais
            relevantes;

                 P(r | D, Q)   jP(Qj | D, r )
              Calcula a probabilidade de uma consulta dado um
               documento relevante multiplicado pela probabilidade das
               palavras na consulta

                  P(r | D, Q)                       P ( r | D)
                                jP(Qj | D, r ) 
                 P(r | D, Q)                      P(r | D)
Recuperação de Informação
20

        Refinamento de RI
          Problema
            Sistemasunigrama tratam todas as palavras como se fossem
             independentes;
                  poltrona, POLTRONA, poltronas, sofá, Poltrona.
          Solução
            Utilizar
                    só letras maiúsculas/minúsculas;
            Procurar pelo radical;
                  Problema: stocking (meia), Stock (estoque);
                  Solução: uso de dicionário;
            Dicionário   de sinônimos;
                  Problema: Modificação do significado;
            Uso   de corretor ortográfico e metadados.
Recuperação de Informação
21


        Apresentação do conjunto de resultados:
          Até o momento só o problema de relevância foi visto a
          utilidade não foi avaliada;
            Qual   a utilidade de dois documentos iguais?
          Realimentação   de relevância: o usuário informa os
           dados relevantes;
          Classificação de documentos
            Formação   de agrupamentos de documentos;
Recuperação de Informação
22


        Apresentação do conjunto de resultados:
          Classificação de documentos
            Problema de aprendizagem supervisionada
          Agrupamento de documentos

            Problema de aprendizagem não-supervisionada
                Agrupamentos aglomerativo
                Agrupamentos K-média
Recuperação de Informação
23


        Implementação de sistemas RI:
          Como   fazer uma pesquisa eficiente na web onde
           existem bilhões de documentos?
          Léxico
            Lista todas as palavras da coleção de documentos;
            Pode armazenar o número de ocorrências;
            Utiliza lista de palavras ignoráveis (o, de, ou);

          Índice    invertido (lista de acertos)
            Lista
                 o lugar em que cada palavra aparece (link);
            Para a busca de frases ele deve guardar a localização da
             palavra no documento.
Recuperação de Informação
24


        Como funciona:
          Fazemos   uma busca no léxico para obter o endereço
           da lista de acertos;
          Em seguida percorremos a lista de acerto de cada
           documento e verificamos a contagem para cada
           documento.
Recuperação de Informação
25


        Na prática:
          750.000    documentos totalizando 2 GB;
          Léxico contem 500.00 palavras 7 a 10 MB;

          Indicie invertido (documento, contagem) ocupa 324MB;

          O suporte a consulta de frases (e, ou, etc.) eleva o Índice
           Invertido a 1200 MB;
          Na Web existem cerca de 3.000 vezes mais documentos;

          Solução: segmentação e distribuição de copias.
Problemas do PLN
26


        Ambiguidade:
                                uh!
                Eitcha Piula,
                                Qual é a dele??!
                Reiou...
Problemas do PLN
27

      Ambiguidade       léxica: diferentes interpretação para uma
      palavra;
        Ex:   João procurou um banco;
      Ambiguidade  sintática: uma               sentença    pode       ser
      mapeada de diferentes formas;
        Ex:   O menino viu o homem de binóculo;
      Ambiguidade        semântica: diferentes significado para
      uma frase;
        Ex:   Pedro viu Maria passeando;
      Ambiguidade     anafórica:     anáfora        pronominal
      relacionada a duas os mais palavras distintas:
        Ex:   o ladrão entrou na casa do prefeito e tirou sua roupa;
28   Extração de Informação
     É originalmente a tarefa de encontrar
     informações a partir de grandes volumes
     de documentos ou textos;
          Documentos ou textos: estruturados ou livres;
Extração de Informação
29


        Características:
          EI  visa localizar e extrair de forma automática
           informações relevantes;
            Banco   de dados;
          Sistemas  de Extração de Informação (SEI) não realizar o
           entendimento completo do documento;
          Objetivo: construir sistemas que encontrem e combinem
           informações relevantes;
          EI é diferente de RI;
Extração de Informação
30


        Arquitetura:
          Definidapor Grishhan (1997 apud ÁLVARES, 2007);
          6 módulos presentes em SEI;
            Processador  léxico;
            Reconhecimento de nomes;
            Analisador sintático/semântico;
            Padrão de extração;
            Analisador de discurso;
            Templates.
Extração de Informação
31


        Arquitetura:
          Processador      léxico:
            Textodividindo em sentenças e termos;
            Separação dos termos (tokenização);

          Reconhecimento       de nomes:
            Identifica   vários tipos de nomes próprios;
          Analisador     sintático/semântico:
            Receber   itens léxicos e tenta construir uma estrutura sintática;
Extração de Informação
32


        Arquitetura:
          Extração    de padrão:
            Indução   de um conjunto de regras de extração;
          Análise   de Discurso:
            Relacionar diferentes elementos do texto;
            Inclusão de algumas tarefas:
                 Análise de frases nominais;
                 Resolução de recorrência;
          Templates:
            Preenchimento    com as informações relevantes;
Extração de Informação
33


        Arquitetura:




                 Figura. Arquitetura. Fonte: Grishhan (1997 apud ÁLVARES, 2007)
Extração de Informação
34


        Tipos de textos:
        o tipo de texto influência na escolha da técnica;
          Estruturado:      quando     apresenta   regularidade   das
           informações;
            Ex:   formulário;
          Semi-estrurado:       alguma regularidade dos dados;
            Ex:   artigo;
          Não-estruturado:       não exibe regularidade;
            Ex:   páginas web;
35   Tradução automática
     É umas das atividades que mais utiliza o
     conhecimento de linguística;
          Necessidade de fazer a codificação da língua fonte (LF) para a
           língua alvo (LA);
Tradução automática
36


        Processos de TA:
          Tradução    bruta: obter um significado de uma sentença;
            Ex:   navegação na web;
          Tradução     de origem restrita: conteúdo dos textos é
          restrito;
            Ex:   Taum-meteo;
          Tradução     pré-editada: realiza uma edição prévia do
          conteúdo;
            Ex:   manuais de empresas;
          Tradução    literária: está além do estado da arte de TA;
Tradução automática
37


        Processos de TA:
          Problema:  idiomas;
          A dificuldade encontrar-se no processo de análise e
           interpretação do enunciado da LN;
          Estratégias:
            Tradução   baseada exclusivamente em conhecimento linguístico
             (LBMT);
            Tradução baseada em conhecimento (KBMT);
            Tradução baseada em exemplo (EBMT);
Tradução automática
38


        Sistemas de TA;
          Comercias:  translator pro, power translator pro;
          Gratuitos: altavista, google translator;
            Sistemas   preliminares;
          Metodologias
            Sistemas    transferenciais: mantém um BD com regras de
             tradução;
            Sistemas interlíngua: representação intermediária entre LF e
             LA;
            Sistemas diretos: tradução direta;
Tradução automática
39


        Tradução direta e indireta;
          Direta:
           A   própria LA é considerada um instrumento para a LF;
          Indireta:
            São    desenvolvidas    formas    para    a    representação
             intermediária;
Estado da Arte
40


        AIML - Artificial Intelligence Markup Language
          Linguagem  Baseada em XML;
          Desenvolvida Richard S. Wallace;

          Comunidades mundial de software livre;

          Foi a base pro ChatterBot Alice, Antigamente chamado
           de Eliza;
          Interpretada em Phyton, C, C++, Entre outras
           Linguagens;
          Padronizada pelo W3C XML;
Estado da Arte
41


        WordTree:
          Ferramenta  de busca para texto não-estruturado;
          Analisadores de Texto baseados em palavras;

          Visualização de Textos baseados em Concordância;
Estado da Arte
42
Aplicações
43


        Chatter Bot
          ALICE

        Sistemas Operacionais que interpretam LN
          DOSVOX     e Virtual Vision
        Mecanismos de Busca que utilizam PLN
          PowerSet
Referências bibliográficas
44


        RUSSEL, Stuard J.; NORVIG, Peter. Artificial Intelligence: A
         Modern Approach. Prentice Hall, New Jersey, 2 edition, 2003.
        ÁLVARES, Alberto Cáceres. Extração de informação de
         artigos científicos: uma abordagem baseada em indução de
         regras de etiquetagem. 131p. Dissertação (mestrado),
         Universidade de São Paulo - USP, São Carlos, SP, fevereiro de
         2007.

Mais conteúdo relacionado

Mais procurados

Seminário redes bayesianas
Seminário redes bayesianasSeminário redes bayesianas
Seminário redes bayesianasiaudesc
 
Word Embeddings - Introduction
Word Embeddings - IntroductionWord Embeddings - Introduction
Word Embeddings - IntroductionChristian Perone
 
JAISTサマースクール2016「脳を知るための理論」講義01 Single neuron models
JAISTサマースクール2016「脳を知るための理論」講義01 Single neuron modelsJAISTサマースクール2016「脳を知るための理論」講義01 Single neuron models
JAISTサマースクール2016「脳を知るための理論」講義01 Single neuron modelshirokazutanaka
 
Batch normalization presentation
Batch normalization presentationBatch normalization presentation
Batch normalization presentationOwin Will
 
Aula1 proposicoes e conectivos
Aula1 proposicoes e conectivosAula1 proposicoes e conectivos
Aula1 proposicoes e conectivosSEDUC-PA
 
Attention in Deep Learning
Attention in Deep LearningAttention in Deep Learning
Attention in Deep Learning健程 杨
 
Natural lanaguage processing
Natural lanaguage processingNatural lanaguage processing
Natural lanaguage processinggulshan kumar
 
Deep Semi-supervised Learning methods
Deep Semi-supervised Learning methodsDeep Semi-supervised Learning methods
Deep Semi-supervised Learning methodsPrincy Joy
 
Introduction to natural language processing (NLP)
Introduction to natural language processing (NLP)Introduction to natural language processing (NLP)
Introduction to natural language processing (NLP)Alia Hamwi
 
PageRank_algorithm_Nfaoui_El_Habib
PageRank_algorithm_Nfaoui_El_HabibPageRank_algorithm_Nfaoui_El_Habib
PageRank_algorithm_Nfaoui_El_HabibEl Habib NFAOUI
 
Natural Language processing
Natural Language processingNatural Language processing
Natural Language processingSanzid Kawsar
 
PR-175: XLNet: Generalized Autoregressive Pretraining for Language Understanding
PR-175: XLNet: Generalized Autoregressive Pretraining for Language UnderstandingPR-175: XLNet: Generalized Autoregressive Pretraining for Language Understanding
PR-175: XLNet: Generalized Autoregressive Pretraining for Language UnderstandingSungnam Park
 
머신러닝의 자연어 처리기술(I)
머신러닝의 자연어 처리기술(I)머신러닝의 자연어 처리기술(I)
머신러닝의 자연어 처리기술(I)홍배 김
 
Tutorial on Question Answering Systems
Tutorial on Question Answering Systems Tutorial on Question Answering Systems
Tutorial on Question Answering Systems Saeedeh Shekarpour
 

Mais procurados (20)

Seminário redes bayesianas
Seminário redes bayesianasSeminário redes bayesianas
Seminário redes bayesianas
 
Word Embeddings - Introduction
Word Embeddings - IntroductionWord Embeddings - Introduction
Word Embeddings - Introduction
 
Aula 2 raciocínio lógico
Aula 2   raciocínio lógicoAula 2   raciocínio lógico
Aula 2 raciocínio lógico
 
JAISTサマースクール2016「脳を知るための理論」講義01 Single neuron models
JAISTサマースクール2016「脳を知るための理論」講義01 Single neuron modelsJAISTサマースクール2016「脳を知るための理論」講義01 Single neuron models
JAISTサマースクール2016「脳を知るための理論」講義01 Single neuron models
 
Batch normalization presentation
Batch normalization presentationBatch normalization presentation
Batch normalization presentation
 
Aula1 proposicoes e conectivos
Aula1 proposicoes e conectivosAula1 proposicoes e conectivos
Aula1 proposicoes e conectivos
 
Attention in Deep Learning
Attention in Deep LearningAttention in Deep Learning
Attention in Deep Learning
 
Natural lanaguage processing
Natural lanaguage processingNatural lanaguage processing
Natural lanaguage processing
 
4- Números Reais_parte1.pptx
4- Números Reais_parte1.pptx4- Números Reais_parte1.pptx
4- Números Reais_parte1.pptx
 
What is word2vec?
What is word2vec?What is word2vec?
What is word2vec?
 
Super resolution from a single image
Super resolution from a single imageSuper resolution from a single image
Super resolution from a single image
 
Deep Semi-supervised Learning methods
Deep Semi-supervised Learning methodsDeep Semi-supervised Learning methods
Deep Semi-supervised Learning methods
 
Introduction to natural language processing (NLP)
Introduction to natural language processing (NLP)Introduction to natural language processing (NLP)
Introduction to natural language processing (NLP)
 
Manual geogebra
Manual geogebraManual geogebra
Manual geogebra
 
PageRank_algorithm_Nfaoui_El_Habib
PageRank_algorithm_Nfaoui_El_HabibPageRank_algorithm_Nfaoui_El_Habib
PageRank_algorithm_Nfaoui_El_Habib
 
Natural Language processing
Natural Language processingNatural Language processing
Natural Language processing
 
PR-175: XLNet: Generalized Autoregressive Pretraining for Language Understanding
PR-175: XLNet: Generalized Autoregressive Pretraining for Language UnderstandingPR-175: XLNet: Generalized Autoregressive Pretraining for Language Understanding
PR-175: XLNet: Generalized Autoregressive Pretraining for Language Understanding
 
머신러닝의 자연어 처리기술(I)
머신러닝의 자연어 처리기술(I)머신러닝의 자연어 처리기술(I)
머신러닝의 자연어 처리기술(I)
 
Thai Word Embedding with Tensorflow
Thai Word Embedding with Tensorflow Thai Word Embedding with Tensorflow
Thai Word Embedding with Tensorflow
 
Tutorial on Question Answering Systems
Tutorial on Question Answering Systems Tutorial on Question Answering Systems
Tutorial on Question Answering Systems
 

Destaque

Aplicação de técnicas de processamento de linguagem natural para ferramenta P...
Aplicação de técnicas de processamento de linguagem natural para ferramenta P...Aplicação de técnicas de processamento de linguagem natural para ferramenta P...
Aplicação de técnicas de processamento de linguagem natural para ferramenta P...Laís Berlatto
 
Construção de ontologia com protégé owl
Construção de ontologia com protégé owlConstrução de ontologia com protégé owl
Construção de ontologia com protégé owlAndréa Bordin
 
NEC presentation Paulo Januzzi
NEC presentation Paulo JanuzziNEC presentation Paulo Januzzi
NEC presentation Paulo JanuzziUNDP Policy Centre
 
Processamento de Linguagem natural com PHP
Processamento de Linguagem natural com PHPProcessamento de Linguagem natural com PHP
Processamento de Linguagem natural com PHPIvo Nascimento
 
Linguagem da Arte
Linguagem da ArteLinguagem da Arte
Linguagem da ArteJoão Gomes
 

Destaque (7)

Tutorial em Processamento de Linguagem Natural
Tutorial em Processamento de Linguagem NaturalTutorial em Processamento de Linguagem Natural
Tutorial em Processamento de Linguagem Natural
 
Aplicação de técnicas de processamento de linguagem natural para ferramenta P...
Aplicação de técnicas de processamento de linguagem natural para ferramenta P...Aplicação de técnicas de processamento de linguagem natural para ferramenta P...
Aplicação de técnicas de processamento de linguagem natural para ferramenta P...
 
Construção de ontologia com protégé owl
Construção de ontologia com protégé owlConstrução de ontologia com protégé owl
Construção de ontologia com protégé owl
 
NEC presentation Paulo Januzzi
NEC presentation Paulo JanuzziNEC presentation Paulo Januzzi
NEC presentation Paulo Januzzi
 
Adaptando, Aprendendo e Integrando Modelos Semânticos.
Adaptando, Aprendendo e Integrando Modelos Semânticos.Adaptando, Aprendendo e Integrando Modelos Semânticos.
Adaptando, Aprendendo e Integrando Modelos Semânticos.
 
Processamento de Linguagem natural com PHP
Processamento de Linguagem natural com PHPProcessamento de Linguagem natural com PHP
Processamento de Linguagem natural com PHP
 
Linguagem da Arte
Linguagem da ArteLinguagem da Arte
Linguagem da Arte
 

Mais de Thiago Reis da Silva

Apostila de Introdução a Programação
Apostila de Introdução a ProgramaçãoApostila de Introdução a Programação
Apostila de Introdução a ProgramaçãoThiago Reis da Silva
 
The use of games on the teaching of programming: a systematic review
The use of games on the teaching of programming: a systematic reviewThe use of games on the teaching of programming: a systematic review
The use of games on the teaching of programming: a systematic reviewThiago Reis da Silva
 
Desenvolvendo plug-in do Moodle em forma de módulo
Desenvolvendo plug-in do Moodle em forma de móduloDesenvolvendo plug-in do Moodle em forma de módulo
Desenvolvendo plug-in do Moodle em forma de móduloThiago Reis da Silva
 
Facilitando o aprendizado na tv digital interativa com a utilização de mapa d...
Facilitando o aprendizado na tv digital interativa com a utilização de mapa d...Facilitando o aprendizado na tv digital interativa com a utilização de mapa d...
Facilitando o aprendizado na tv digital interativa com a utilização de mapa d...Thiago Reis da Silva
 
O uso de ferramentas pedagógicas no desenvolvimento de objetos de aprendizagem
O uso de ferramentas pedagógicas no desenvolvimento de objetos de aprendizagemO uso de ferramentas pedagógicas no desenvolvimento de objetos de aprendizagem
O uso de ferramentas pedagógicas no desenvolvimento de objetos de aprendizagemThiago Reis da Silva
 
Integrando o network simulator 2.0 a um ambiente virtual de aprendizagem
Integrando o network simulator 2.0 a um ambiente virtual de aprendizagemIntegrando o network simulator 2.0 a um ambiente virtual de aprendizagem
Integrando o network simulator 2.0 a um ambiente virtual de aprendizagemThiago Reis da Silva
 
Ensino de programação utilizando jogos digitais: uma revisão sistemática da l...
Ensino de programação utilizando jogos digitais: uma revisão sistemática da l...Ensino de programação utilizando jogos digitais: uma revisão sistemática da l...
Ensino de programação utilizando jogos digitais: uma revisão sistemática da l...Thiago Reis da Silva
 
Um modelo de objeto de aprendizagem com ênfase no planejamento para o Moodle
Um modelo de objeto de aprendizagem com ênfase no planejamento para o MoodleUm modelo de objeto de aprendizagem com ênfase no planejamento para o Moodle
Um modelo de objeto de aprendizagem com ênfase no planejamento para o MoodleThiago Reis da Silva
 
Aplicação de uma técnica de visualização de dados baseado em árvores para au...
Aplicação de uma técnica de visualização de dados baseado  em árvores para au...Aplicação de uma técnica de visualização de dados baseado  em árvores para au...
Aplicação de uma técnica de visualização de dados baseado em árvores para au...Thiago Reis da Silva
 
OBA-MC: um modelo de objeto de aprendizagem centrado no processo de ensino-ap...
OBA-MC: um modelo de objeto de aprendizagem centrado no processo de ensino-ap...OBA-MC: um modelo de objeto de aprendizagem centrado no processo de ensino-ap...
OBA-MC: um modelo de objeto de aprendizagem centrado no processo de ensino-ap...Thiago Reis da Silva
 
Ferramentas avaliativas disponíveis em um ambiente virtual de aprendizagem us...
Ferramentas avaliativas disponíveis em um ambiente virtual de aprendizagem us...Ferramentas avaliativas disponíveis em um ambiente virtual de aprendizagem us...
Ferramentas avaliativas disponíveis em um ambiente virtual de aprendizagem us...Thiago Reis da Silva
 
Ampliando o aprendizado na TV digital com MCD-TV e ginga
Ampliando o aprendizado na TV digital com MCD-TV e gingaAmpliando o aprendizado na TV digital com MCD-TV e ginga
Ampliando o aprendizado na TV digital com MCD-TV e gingaThiago Reis da Silva
 
MCD-TV - aprendizagem significativa com objeto de aprendizagem OBA-MC na tv d...
MCD-TV - aprendizagem significativa com objeto de aprendizagem OBA-MC na tv d...MCD-TV - aprendizagem significativa com objeto de aprendizagem OBA-MC na tv d...
MCD-TV - aprendizagem significativa com objeto de aprendizagem OBA-MC na tv d...Thiago Reis da Silva
 
Análise espacial do perfil dos alunos do ifpi – campus floriano usando técnica...
Análise espacial do perfil dos alunos do ifpi – campus floriano usando técnica...Análise espacial do perfil dos alunos do ifpi – campus floriano usando técnica...
Análise espacial do perfil dos alunos do ifpi – campus floriano usando técnica...Thiago Reis da Silva
 
Uma proposta de padronização de objetos de aprendizagem com base em objetivos...
Uma proposta de padronização de objetos de aprendizagem com base em objetivos...Uma proposta de padronização de objetos de aprendizagem com base em objetivos...
Uma proposta de padronização de objetos de aprendizagem com base em objetivos...Thiago Reis da Silva
 
Scrum uma metodologia ágil paragestão e planejamento de projetos de software
Scrum uma metodologia ágil paragestão e planejamento de projetos de softwareScrum uma metodologia ágil paragestão e planejamento de projetos de software
Scrum uma metodologia ágil paragestão e planejamento de projetos de softwareThiago Reis da Silva
 

Mais de Thiago Reis da Silva (20)

Apostila de Introdução a Programação
Apostila de Introdução a ProgramaçãoApostila de Introdução a Programação
Apostila de Introdução a Programação
 
Introdução a Programação
Introdução a ProgramaçãoIntrodução a Programação
Introdução a Programação
 
The use of games on the teaching of programming: a systematic review
The use of games on the teaching of programming: a systematic reviewThe use of games on the teaching of programming: a systematic review
The use of games on the teaching of programming: a systematic review
 
Desenvolvendo plug-in do Moodle em forma de módulo
Desenvolvendo plug-in do Moodle em forma de móduloDesenvolvendo plug-in do Moodle em forma de módulo
Desenvolvendo plug-in do Moodle em forma de módulo
 
Facilitando o aprendizado na tv digital interativa com a utilização de mapa d...
Facilitando o aprendizado na tv digital interativa com a utilização de mapa d...Facilitando o aprendizado na tv digital interativa com a utilização de mapa d...
Facilitando o aprendizado na tv digital interativa com a utilização de mapa d...
 
O uso de ferramentas pedagógicas no desenvolvimento de objetos de aprendizagem
O uso de ferramentas pedagógicas no desenvolvimento de objetos de aprendizagemO uso de ferramentas pedagógicas no desenvolvimento de objetos de aprendizagem
O uso de ferramentas pedagógicas no desenvolvimento de objetos de aprendizagem
 
Integrando o network simulator 2.0 a um ambiente virtual de aprendizagem
Integrando o network simulator 2.0 a um ambiente virtual de aprendizagemIntegrando o network simulator 2.0 a um ambiente virtual de aprendizagem
Integrando o network simulator 2.0 a um ambiente virtual de aprendizagem
 
Ensino de programação utilizando jogos digitais: uma revisão sistemática da l...
Ensino de programação utilizando jogos digitais: uma revisão sistemática da l...Ensino de programação utilizando jogos digitais: uma revisão sistemática da l...
Ensino de programação utilizando jogos digitais: uma revisão sistemática da l...
 
Survey e Análise Estatística
Survey e Análise Estatística Survey e Análise Estatística
Survey e Análise Estatística
 
Um modelo de objeto de aprendizagem com ênfase no planejamento para o Moodle
Um modelo de objeto de aprendizagem com ênfase no planejamento para o MoodleUm modelo de objeto de aprendizagem com ênfase no planejamento para o Moodle
Um modelo de objeto de aprendizagem com ênfase no planejamento para o Moodle
 
Aplicação de uma técnica de visualização de dados baseado em árvores para au...
Aplicação de uma técnica de visualização de dados baseado  em árvores para au...Aplicação de uma técnica de visualização de dados baseado  em árvores para au...
Aplicação de uma técnica de visualização de dados baseado em árvores para au...
 
OBA-MC: um modelo de objeto de aprendizagem centrado no processo de ensino-ap...
OBA-MC: um modelo de objeto de aprendizagem centrado no processo de ensino-ap...OBA-MC: um modelo de objeto de aprendizagem centrado no processo de ensino-ap...
OBA-MC: um modelo de objeto de aprendizagem centrado no processo de ensino-ap...
 
Ferramentas avaliativas disponíveis em um ambiente virtual de aprendizagem us...
Ferramentas avaliativas disponíveis em um ambiente virtual de aprendizagem us...Ferramentas avaliativas disponíveis em um ambiente virtual de aprendizagem us...
Ferramentas avaliativas disponíveis em um ambiente virtual de aprendizagem us...
 
Ampliando o aprendizado na TV digital com MCD-TV e ginga
Ampliando o aprendizado na TV digital com MCD-TV e gingaAmpliando o aprendizado na TV digital com MCD-TV e ginga
Ampliando o aprendizado na TV digital com MCD-TV e ginga
 
MCD-TV - aprendizagem significativa com objeto de aprendizagem OBA-MC na tv d...
MCD-TV - aprendizagem significativa com objeto de aprendizagem OBA-MC na tv d...MCD-TV - aprendizagem significativa com objeto de aprendizagem OBA-MC na tv d...
MCD-TV - aprendizagem significativa com objeto de aprendizagem OBA-MC na tv d...
 
Minicurso SCRUM
Minicurso SCRUMMinicurso SCRUM
Minicurso SCRUM
 
Análise espacial do perfil dos alunos do ifpi – campus floriano usando técnica...
Análise espacial do perfil dos alunos do ifpi – campus floriano usando técnica...Análise espacial do perfil dos alunos do ifpi – campus floriano usando técnica...
Análise espacial do perfil dos alunos do ifpi – campus floriano usando técnica...
 
Uma proposta de padronização de objetos de aprendizagem com base em objetivos...
Uma proposta de padronização de objetos de aprendizagem com base em objetivos...Uma proposta de padronização de objetos de aprendizagem com base em objetivos...
Uma proposta de padronização de objetos de aprendizagem com base em objetivos...
 
Scrum uma metodologia ágil paragestão e planejamento de projetos de software
Scrum uma metodologia ágil paragestão e planejamento de projetos de softwareScrum uma metodologia ágil paragestão e planejamento de projetos de software
Scrum uma metodologia ágil paragestão e planejamento de projetos de software
 
Artigo
ArtigoArtigo
Artigo
 

Processamento Probabilístico de Linguagem

  • 1. MESTRADO EM CIÊNCIA DA COMPUTAÇÃO UNIVERSIDADE ESTADUAL DO RIO GRANDE DO NORTE - UERN UNIVERSIDADE FEDERAL RURAL DO SEMI-ÁRIDO - UFERSA PROCESSAMENTO PROBABILÍSTICO DE LINGUAGEM Capítulo 23 Diego Grosmann e Thiago Reis
  • 2. Agenda 2  Introdução  Modelo probabilístico de linguagem  Gramática probabilística livre de contexto (GPLC)  GPLC lexicalizada  Recuperação de Informação  Problemas de PLN  Extração de Informação  Tradução automática  Estado da arte  Aplicações  Referências bibliográficas
  • 3. Introdução 3  Processamento probabilístico de linguagem tenta facilitar a localização de informações em textos escritos por seres humanos e para seres humanos;  Essa abordagem utiliza estatística e aprendizagem nos dados existentes e gera probabilidades para o uso de sentenças (modelo probabilístico).
  • 4. Modelo Probabilístico de Linguagem 4  Define a distribuição da probabilidade sobre um conjunto de cadeias;  Modelos:  Unigramas;  Bigramas;  Trigramas.
  • 5. Modelo Probabilístico de Linguagem 5  Unigramas:  Atribui probabilidade P(w) a cada palavra;  A probabilidade de uma cadeia de palavras é apenas o produto da probabilidade de cada palavra;  logical are as are confusion a may right tries agent goal the was diesel more object then information- gathering search is
  • 6. Modelo Probabilístico de Linguagem 6  Bigramas: A probabilidade de cada palavra dada a palavra anterior.  P(wi|wi -1)  planning purely diagnostic expert systems are very similar computational approach would be represented compactly using tic tac toe a predicate
  • 7. Modelo Probabilístico de Linguagem 7  N-gramas:  Considera n-1 palavras anteriores;  P(wi|wi – (n-1) ... wi – 1);  Trigramas  planning and scheduling are integrated the success of naive Bayes model is just a possible prior source by that time.
  • 8. Modelo Probabilístico de Linguagem 8  Suavização:  Conta igual a zero  Suavização soma um  (c + 1)/(N + B);  N  número de palavras;  B  bigramas possíveis;  c  contagem real;  (elimina a possibilidade de uma combinação de uma palavras nunca sair).
  • 9. Modelo Probabilístico de Linguagem 9  Suavização:  Suavização de interpolação linear  Combinação dos modelos Unigramas, Bigramas e Trigramas.  P(wi|wi – 2 wi – 1) = c3 P(wi|wi – 2 wi – 1)+ c2P(wi|wi -1)+ c1 P(w)
  • 10. Método de avaliação  Utilização de área de treinamento e área de testes.  Problemas: P(Palavras) é muito pequena, os números poderiam causar underflow.  Calcular Perplexidade  Quanto mais baixa a perplexidade melhor o modelo −������������������2 (������ ������������������������������������������������  ������������������������������������������������������������������������ ������������������������������������������������ = 2 ) ������ N = Numero de palavras Underflow: Erro de memoria, valor abaixo do esperado
  • 11. Gramática probabilística livre de 11 contexto (GPLC)  Utiliza os formalismos gramaticais para gerar uma árvore de probabilidades de palavras;  A probabilidade de uma cadeia, P(palavras), é apenas a probabilidade de sua árvore;  Para percorrer a árvore podemos utilizar:  Algoritmo de Viterbi;  A* (busca pelo melhor esforço).
  • 12. GPLC lexicalizadas 12  Tenta resolver o problema de contexto  P(come uma banana) e P(come uma bandana) depende de P(banana) vs P(bandana);  SV  SV SN  SV  cabeça do SV (comer)  SN  cabeça do SN (banana)  SV sintagmas verbais  SN sintagmas nominais  Sintagma é um segmento linguístico que expressa uma relação de dependência
  • 13. Problemas no GPLC  Dificuldade de se construir a GPL  Problemas na atribuição de probabilidade  Aprendizagem  Com arvore sintática utiliza uma regra para a combinação dos filhos  Maximização de expectativas (EM)
  • 14. 14 Recuperação de Informação É a tarefa de encontrar informações relevantes para as necessidade de informação de um usuário;
  • 15. Recuperação de Informação 15  Características:  Uma coleção de documentos;  Uma consulta apresentada em uma linguagem de consulta;  Um conjunto de resultados;  Uma apresentação do conjunto de resultado;
  • 16. Recuperação de Informação 16  Modelo booleano de palavras chaves: O modelo é verdadeiro para a palavra em um documento se ela ocorre e falso se ela não ocorre;  Simples;  Mas, não apresenta grau de relevância;  Pouca familiaridade de usuários leigos com as excreções;  Resultados ruim (muito especifica).
  • 17. Recuperação de Informação 17  Modelagem de linguagem:  Tenta definir uma regra de ordenação dos resultados P(r | D, Q) P( r | D)  P(r | D, Q)  P(r | D, Q) P(r | D)  r  variável booleana aleatória que indica Relevância = verdadeiro  D  Documento  Q  Consulta
  • 18. P(r | D, Q) P( r | D)  P(r | D, Q)  P(r | D, Q) P(r | D) 18 Divide a quantidade de Representa as chances resultados relevantes no Probabilidade de r ser independentes da documento pela quantidade de verdadeiro dado um consulta do documento ser resultados irrelevantes documento D e uma relevante consulta Q  r  variável booleana aleatória que indica Relevância = verdadeiro A relevância do documento  D  Documento independente da consulta pode ser  Q  Consulta dada pela quantidade de links que apontam para ele como (se for um artigo) o numero de citações do periódico
  • 19. P(r | D, Q) P( r | D)  P(r | D, Q)  P(r | D, Q) P(r | D) 19  Modelo de saco de palavras  Utiliza unigrama para contar o numero de ocorrências;  Documentos com mais ocorrências individuais são mais relevantes; P(r | D, Q)   jP(Qj | D, r )  Calcula a probabilidade de uma consulta dado um documento relevante multiplicado pela probabilidade das palavras na consulta P(r | D, Q) P ( r | D)   jP(Qj | D, r )  P(r | D, Q) P(r | D)
  • 20. Recuperação de Informação 20  Refinamento de RI  Problema  Sistemasunigrama tratam todas as palavras como se fossem independentes;  poltrona, POLTRONA, poltronas, sofá, Poltrona.  Solução  Utilizar só letras maiúsculas/minúsculas;  Procurar pelo radical;  Problema: stocking (meia), Stock (estoque);  Solução: uso de dicionário;  Dicionário de sinônimos;  Problema: Modificação do significado;  Uso de corretor ortográfico e metadados.
  • 21. Recuperação de Informação 21  Apresentação do conjunto de resultados:  Até o momento só o problema de relevância foi visto a utilidade não foi avaliada;  Qual a utilidade de dois documentos iguais?  Realimentação de relevância: o usuário informa os dados relevantes;  Classificação de documentos  Formação de agrupamentos de documentos;
  • 22. Recuperação de Informação 22  Apresentação do conjunto de resultados:  Classificação de documentos  Problema de aprendizagem supervisionada  Agrupamento de documentos  Problema de aprendizagem não-supervisionada  Agrupamentos aglomerativo  Agrupamentos K-média
  • 23. Recuperação de Informação 23  Implementação de sistemas RI:  Como fazer uma pesquisa eficiente na web onde existem bilhões de documentos?  Léxico  Lista todas as palavras da coleção de documentos;  Pode armazenar o número de ocorrências;  Utiliza lista de palavras ignoráveis (o, de, ou);  Índice invertido (lista de acertos)  Lista o lugar em que cada palavra aparece (link);  Para a busca de frases ele deve guardar a localização da palavra no documento.
  • 24. Recuperação de Informação 24  Como funciona:  Fazemos uma busca no léxico para obter o endereço da lista de acertos;  Em seguida percorremos a lista de acerto de cada documento e verificamos a contagem para cada documento.
  • 25. Recuperação de Informação 25  Na prática:  750.000 documentos totalizando 2 GB;  Léxico contem 500.00 palavras 7 a 10 MB;  Indicie invertido (documento, contagem) ocupa 324MB;  O suporte a consulta de frases (e, ou, etc.) eleva o Índice Invertido a 1200 MB;  Na Web existem cerca de 3.000 vezes mais documentos;  Solução: segmentação e distribuição de copias.
  • 26. Problemas do PLN 26  Ambiguidade: uh! Eitcha Piula, Qual é a dele??! Reiou...
  • 27. Problemas do PLN 27  Ambiguidade léxica: diferentes interpretação para uma palavra;  Ex: João procurou um banco;  Ambiguidade sintática: uma sentença pode ser mapeada de diferentes formas;  Ex: O menino viu o homem de binóculo;  Ambiguidade semântica: diferentes significado para uma frase;  Ex: Pedro viu Maria passeando;  Ambiguidade anafórica: anáfora pronominal relacionada a duas os mais palavras distintas:  Ex: o ladrão entrou na casa do prefeito e tirou sua roupa;
  • 28. 28 Extração de Informação É originalmente a tarefa de encontrar informações a partir de grandes volumes de documentos ou textos;  Documentos ou textos: estruturados ou livres;
  • 29. Extração de Informação 29  Características:  EI visa localizar e extrair de forma automática informações relevantes;  Banco de dados;  Sistemas de Extração de Informação (SEI) não realizar o entendimento completo do documento;  Objetivo: construir sistemas que encontrem e combinem informações relevantes;  EI é diferente de RI;
  • 30. Extração de Informação 30  Arquitetura:  Definidapor Grishhan (1997 apud ÁLVARES, 2007);  6 módulos presentes em SEI;  Processador léxico;  Reconhecimento de nomes;  Analisador sintático/semântico;  Padrão de extração;  Analisador de discurso;  Templates.
  • 31. Extração de Informação 31  Arquitetura:  Processador léxico:  Textodividindo em sentenças e termos;  Separação dos termos (tokenização);  Reconhecimento de nomes:  Identifica vários tipos de nomes próprios;  Analisador sintático/semântico:  Receber itens léxicos e tenta construir uma estrutura sintática;
  • 32. Extração de Informação 32  Arquitetura:  Extração de padrão:  Indução de um conjunto de regras de extração;  Análise de Discurso:  Relacionar diferentes elementos do texto;  Inclusão de algumas tarefas:  Análise de frases nominais;  Resolução de recorrência;  Templates:  Preenchimento com as informações relevantes;
  • 33. Extração de Informação 33  Arquitetura: Figura. Arquitetura. Fonte: Grishhan (1997 apud ÁLVARES, 2007)
  • 34. Extração de Informação 34  Tipos de textos:  o tipo de texto influência na escolha da técnica;  Estruturado: quando apresenta regularidade das informações;  Ex: formulário;  Semi-estrurado: alguma regularidade dos dados;  Ex: artigo;  Não-estruturado: não exibe regularidade;  Ex: páginas web;
  • 35. 35 Tradução automática É umas das atividades que mais utiliza o conhecimento de linguística;  Necessidade de fazer a codificação da língua fonte (LF) para a língua alvo (LA);
  • 36. Tradução automática 36  Processos de TA:  Tradução bruta: obter um significado de uma sentença;  Ex: navegação na web;  Tradução de origem restrita: conteúdo dos textos é restrito;  Ex: Taum-meteo;  Tradução pré-editada: realiza uma edição prévia do conteúdo;  Ex: manuais de empresas;  Tradução literária: está além do estado da arte de TA;
  • 37. Tradução automática 37  Processos de TA:  Problema: idiomas;  A dificuldade encontrar-se no processo de análise e interpretação do enunciado da LN;  Estratégias:  Tradução baseada exclusivamente em conhecimento linguístico (LBMT);  Tradução baseada em conhecimento (KBMT);  Tradução baseada em exemplo (EBMT);
  • 38. Tradução automática 38  Sistemas de TA;  Comercias: translator pro, power translator pro;  Gratuitos: altavista, google translator;  Sistemas preliminares;  Metodologias  Sistemas transferenciais: mantém um BD com regras de tradução;  Sistemas interlíngua: representação intermediária entre LF e LA;  Sistemas diretos: tradução direta;
  • 39. Tradução automática 39  Tradução direta e indireta;  Direta: A própria LA é considerada um instrumento para a LF;  Indireta:  São desenvolvidas formas para a representação intermediária;
  • 40. Estado da Arte 40  AIML - Artificial Intelligence Markup Language  Linguagem Baseada em XML;  Desenvolvida Richard S. Wallace;  Comunidades mundial de software livre;  Foi a base pro ChatterBot Alice, Antigamente chamado de Eliza;  Interpretada em Phyton, C, C++, Entre outras Linguagens;  Padronizada pelo W3C XML;
  • 41. Estado da Arte 41  WordTree:  Ferramenta de busca para texto não-estruturado;  Analisadores de Texto baseados em palavras;  Visualização de Textos baseados em Concordância;
  • 43. Aplicações 43  Chatter Bot  ALICE  Sistemas Operacionais que interpretam LN  DOSVOX e Virtual Vision  Mecanismos de Busca que utilizam PLN  PowerSet
  • 44. Referências bibliográficas 44  RUSSEL, Stuard J.; NORVIG, Peter. Artificial Intelligence: A Modern Approach. Prentice Hall, New Jersey, 2 edition, 2003.  ÁLVARES, Alberto Cáceres. Extração de informação de artigos científicos: uma abordagem baseada em indução de regras de etiquetagem. 131p. Dissertação (mestrado), Universidade de São Paulo - USP, São Carlos, SP, fevereiro de 2007.