SlideShare uma empresa Scribd logo
1 de 26
Baixar para ler offline
Corpora para Processamento de Linguagem Natura

           Alberto Manuel Brand˜o Sim˜es
                               a     o
                ambs@di.uminho.pt



           17 de Outubro de 2008            (v0.1)




               Alberto Sim˜es
                          o     Corpora para Processamento de Linguagem Natura
Defini¸˜o de Corpus
        ca


Corpus
Corpus ´ um termo usado para representar uma colec¸˜o (finita)
        e                                         ca
de textos, relativos a determinado assunto.


Corpora
Corpora ´ o plural de Corpus.
        e


                         
                         monolingue
               corpora                     compar´vel
                                                   a
                         multilingue
                                           paralelo



                     Alberto Sim˜es
                                o     Corpora para Processamento de Linguagem Natura
Defini¸˜o de Corpus
        ca


Corpus
Corpus ´ um termo usado para representar uma colec¸˜o (finita)
        e                                         ca
de textos, relativos a determinado assunto.


Corpora
Corpora ´ o plural de Corpus.
        e


                         
                         monolingue
               corpora                     compar´vel
                                                   a
                         multilingue
                                           paralelo



                     Alberto Sim˜es
                                o     Corpora para Processamento de Linguagem Natura
Defini¸˜o de Corpus
        ca


Corpus
Corpus ´ um termo usado para representar uma colec¸˜o (finita)
        e                                         ca
de textos, relativos a determinado assunto.


Corpora
Corpora ´ o plural de Corpus.
        e


                         
                         monolingue
               corpora                     compar´vel
                                                   a
                         multilingue
                                           paralelo



                     Alberto Sim˜es
                                o     Corpora para Processamento de Linguagem Natura
Exemplos de Corpora Monolingue


Alguns exemplos de Corpora Monolingues:
    British National Corpus — um corpus da l´ ıngua inglesa que
    cont´m diferentes g´neros de texto (escrito, oral, ...), com
         e              e
    mais de 100 milh˜es de palavras;
                     o
    CETEMP´blico — mais de 191 milh˜es de palavras de
            u                            o
    segmentos de texto jornal´
                             ıstico recolhidos do Jornal P´blico;
                                                          u
    CETENFolha — mais de 33 milh˜es de palavras de segmentos
                                       o
    de texto jornal´
                   ıstico recolhidos da Folha de S˜o Paulo;
                                                  a
    Russian National Corpus — um corpus da l´
                                            ıngua russa com
    mais de 147 milh˜es de palavras;
                    o




                      Alberto Sim˜es
                                 o     Corpora para Processamento de Linguagem Natura
Exemplos de Corpora Monolingue


Alguns exemplos de Corpora Monolingues:
    British National Corpus — um corpus da l´ ıngua inglesa que
    cont´m diferentes g´neros de texto (escrito, oral, ...), com
         e              e
    mais de 100 milh˜es de palavras;
                     o
    CETEMP´blico — mais de 191 milh˜es de palavras de
            u                            o
    segmentos de texto jornal´
                             ıstico recolhidos do Jornal P´blico;
                                                          u
    CETENFolha — mais de 33 milh˜es de palavras de segmentos
                                       o
    de texto jornal´
                   ıstico recolhidos da Folha de S˜o Paulo;
                                                  a
    Russian National Corpus — um corpus da l´
                                            ıngua russa com
    mais de 147 milh˜es de palavras;
                    o




                      Alberto Sim˜es
                                 o     Corpora para Processamento de Linguagem Natura
Exemplos de Corpora Monolingue


Alguns exemplos de Corpora Monolingues:
    British National Corpus — um corpus da l´ ıngua inglesa que
    cont´m diferentes g´neros de texto (escrito, oral, ...), com
         e              e
    mais de 100 milh˜es de palavras;
                     o
    CETEMP´blico — mais de 191 milh˜es de palavras de
            u                            o
    segmentos de texto jornal´
                             ıstico recolhidos do Jornal P´blico;
                                                          u
    CETENFolha — mais de 33 milh˜es de palavras de segmentos
                                       o
    de texto jornal´
                   ıstico recolhidos da Folha de S˜o Paulo;
                                                  a
    Russian National Corpus — um corpus da l´
                                            ıngua russa com
    mais de 147 milh˜es de palavras;
                    o




                      Alberto Sim˜es
                                 o     Corpora para Processamento de Linguagem Natura
Exemplos de Corpora Monolingue


Alguns exemplos de Corpora Monolingues:
    British National Corpus — um corpus da l´ ıngua inglesa que
    cont´m diferentes g´neros de texto (escrito, oral, ...), com
         e              e
    mais de 100 milh˜es de palavras;
                     o
    CETEMP´blico — mais de 191 milh˜es de palavras de
            u                            o
    segmentos de texto jornal´
                             ıstico recolhidos do Jornal P´blico;
                                                          u
    CETENFolha — mais de 33 milh˜es de palavras de segmentos
                                       o
    de texto jornal´
                   ıstico recolhidos da Folha de S˜o Paulo;
                                                  a
    Russian National Corpus — um corpus da l´
                                            ıngua russa com
    mais de 147 milh˜es de palavras;
                    o




                      Alberto Sim˜es
                                 o     Corpora para Processamento de Linguagem Natura
Corpora Compar´veis
                 a




Corpora Compar´veis
                 a
Os Corpora Compar´veis s˜o conjuntos de textos em diferentes
                    a    a
l´
 ınguas que, embora n˜o correspondam directamente a tradu¸˜es
                      a                                   co
literais, focam um mesmo assunto.




                     Alberto Sim˜es
                                o     Corpora para Processamento de Linguagem Natura
Exemplos de Corpora Compar´veis
                              a



Qualquer conjunto de not´ıcias que se refiram a um mesmo assunto
ou evento, e que estejam escritos em l´ınguas diferentes podem ser
vistos como corpora compar´veis.
                            a

Outro exemplo ser´ um conjunto de artigos cient´
                 a                             ıficos sobre um
mesmo micro-organismo.

Estes corpora s˜o essencialmente utilizados para o estudo e
               a
extrac¸˜o de terminologia espec´
      ca                       ıfica da ´rea a que os corpora se
                                        a
referem.




                      Alberto Sim˜es
                                 o     Corpora para Processamento de Linguagem Natura
Corpora Paralelos


Corpora Paralelos
Os Corpora Paralelos s˜o textos em duas ou mais l´
                      a                            ınguas, em que
existe uma rela¸˜o de tradu¸˜o entre eles. Tipicamente s˜o
               ca          ca                             a
bilingues, em que uma das l´
                           ınguas ´ a original, e a outra a
                                  e
tradu¸˜o.
      ca


Corpora Paralelos Alinhados
Habitualmente ´ usado o termo gen´rico Corpus Paralelo para
                e                    e
representar os corpora paralelos alinhados ao n´ da frase. Ou
                                               ıvel
seja, em que os textos foram divididos em frases e foi definida uma
correspondˆncia entre os segmentos nas duas l´
           e                                   ınguas.



                      Alberto Sim˜es
                                 o     Corpora para Processamento de Linguagem Natura
Corpora Paralelos


Corpora Paralelos
Os Corpora Paralelos s˜o textos em duas ou mais l´
                      a                            ınguas, em que
existe uma rela¸˜o de tradu¸˜o entre eles. Tipicamente s˜o
               ca          ca                             a
bilingues, em que uma das l´
                           ınguas ´ a original, e a outra a
                                  e
tradu¸˜o.
      ca


Corpora Paralelos Alinhados
Habitualmente ´ usado o termo gen´rico Corpus Paralelo para
                e                    e
representar os corpora paralelos alinhados ao n´ da frase. Ou
                                               ıvel
seja, em que os textos foram divididos em frases e foi definida uma
correspondˆncia entre os segmentos nas duas l´
           e                                   ınguas.



                      Alberto Sim˜es
                                 o     Corpora para Processamento de Linguagem Natura
Exemplos de Corpora Paralelos


Exemplos de Corpora Paralelos
    Hansards — Corpus inglˆs/francˆs com mais de um milh˜o de
                           e       e                        a
    unidades de tradu¸˜o provenientes da legisla¸˜o canadiana;
                     ca                         ca
    COMPARA — Corpus portuguˆs/inglˆs com cerca de 97 mil
                                  e      e
    unidades de tradu¸˜o provenientes de texto liter´rio (com
                      ca                            a
    varia¸˜es na direc¸˜o da tradu¸˜o e no dialecto portuguˆs).
         co           ca          ca                        e
    EuroParl — Corpus multilingue com uma m´dia de um milh˜o
                                               e               a
    de unidades de tradu¸˜o para cada par de l´
                         ca                   ıngua, provenientes
    da legisla¸˜o europeia;
              ca
    JRC-Acquis — Corpus multilingue com uma m´dia de um
                                                 e
    milh˜o de unidades de tradu¸˜o para cada par de l´
        a                        ca                  ıngua,
    provenientes da legisla¸˜o europeia;
                           ca



                     Alberto Sim˜es
                                o     Corpora para Processamento de Linguagem Natura
Exemplos de Corpora Paralelos


Exemplos de Corpora Paralelos
    Hansards — Corpus inglˆs/francˆs com mais de um milh˜o de
                           e       e                        a
    unidades de tradu¸˜o provenientes da legisla¸˜o canadiana;
                     ca                         ca
    COMPARA — Corpus portuguˆs/inglˆs com cerca de 97 mil
                                  e      e
    unidades de tradu¸˜o provenientes de texto liter´rio (com
                      ca                            a
    varia¸˜es na direc¸˜o da tradu¸˜o e no dialecto portuguˆs).
         co           ca          ca                        e
    EuroParl — Corpus multilingue com uma m´dia de um milh˜o
                                               e               a
    de unidades de tradu¸˜o para cada par de l´
                         ca                   ıngua, provenientes
    da legisla¸˜o europeia;
              ca
    JRC-Acquis — Corpus multilingue com uma m´dia de um
                                                 e
    milh˜o de unidades de tradu¸˜o para cada par de l´
        a                        ca                  ıngua,
    provenientes da legisla¸˜o europeia;
                           ca



                     Alberto Sim˜es
                                o     Corpora para Processamento de Linguagem Natura
Exemplos de Corpora Paralelos


Exemplos de Corpora Paralelos
    Hansards — Corpus inglˆs/francˆs com mais de um milh˜o de
                           e       e                        a
    unidades de tradu¸˜o provenientes da legisla¸˜o canadiana;
                     ca                         ca
    COMPARA — Corpus portuguˆs/inglˆs com cerca de 97 mil
                                  e      e
    unidades de tradu¸˜o provenientes de texto liter´rio (com
                      ca                            a
    varia¸˜es na direc¸˜o da tradu¸˜o e no dialecto portuguˆs).
         co           ca          ca                        e
    EuroParl — Corpus multilingue com uma m´dia de um milh˜o
                                               e               a
    de unidades de tradu¸˜o para cada par de l´
                         ca                   ıngua, provenientes
    da legisla¸˜o europeia;
              ca
    JRC-Acquis — Corpus multilingue com uma m´dia de um
                                                 e
    milh˜o de unidades de tradu¸˜o para cada par de l´
        a                        ca                  ıngua,
    provenientes da legisla¸˜o europeia;
                           ca



                     Alberto Sim˜es
                                o     Corpora para Processamento de Linguagem Natura
Corpora Paralelos na Rede


´
E habitual a disponibiliza¸˜o de Corpora para consulta de
                          ca
concordˆncias na Internet.
       a

Alguns exemplos:
    AC/DC — Acesso a Corpora / Disponibiliza¸˜o de Corpora
                                            ca
    http://www.linguateca.pt/acesso/corpus.php
    COMPARA — Corpus Paralelo de Obras Liter´rias
                                            a
    http://www.linguateca.pt/COMPARA/psimples.php
    NATools — Natura Alignment Tools
    http://linguateca.di.uminho.pt/nat




                      Alberto Sim˜es
                                 o     Corpora para Processamento de Linguagem Natura
Etapas T´
        ıpicas na Constru¸˜o de um Corpus
                         ca


recolha dos textos a incorporar:
    digitaliza¸˜o e OCR de documentos;
              ca
    recolha autom´tica a partir de documentos
                   a
    Caso particular: extrac¸˜o a partir da rede
                           ca
an´lise e tratamento da qualidade dos textos:
  a
    tratamentos de erros t´ıpicos de OCR;
    an´lise e selec¸˜o dos textos obtidos;
       a           ca
segmenta¸˜o e atomiza¸˜o dos textos:
        ca           ca
    detec¸˜o de frases (cuidado com abreviaturas...)
         ca
    detec¸˜o de palavras (o que s˜o palavras?...)
         ca                      a
anota¸˜o variada:
     ca
    anota¸˜o das entidades mencionadas;
         ca
    anota¸˜o das categorias morfo-sint´cticas;
         ca                           a



                    Alberto Sim˜es
                               o     Corpora para Processamento de Linguagem Natura
Etapas T´
        ıpicas na Constru¸˜o de um Corpus
                         ca


recolha dos textos a incorporar:
    digitaliza¸˜o e OCR de documentos;
              ca
    recolha autom´tica a partir de documentos
                   a
    Caso particular: extrac¸˜o a partir da rede
                           ca
an´lise e tratamento da qualidade dos textos:
  a
    tratamentos de erros t´ıpicos de OCR;
    an´lise e selec¸˜o dos textos obtidos;
       a           ca
segmenta¸˜o e atomiza¸˜o dos textos:
        ca           ca
    detec¸˜o de frases (cuidado com abreviaturas...)
         ca
    detec¸˜o de palavras (o que s˜o palavras?...)
         ca                      a
anota¸˜o variada:
     ca
    anota¸˜o das entidades mencionadas;
         ca
    anota¸˜o das categorias morfo-sint´cticas;
         ca                           a



                    Alberto Sim˜es
                               o     Corpora para Processamento de Linguagem Natura
Etapas T´
        ıpicas na Constru¸˜o de um Corpus
                         ca


recolha dos textos a incorporar:
    digitaliza¸˜o e OCR de documentos;
              ca
    recolha autom´tica a partir de documentos
                   a
    Caso particular: extrac¸˜o a partir da rede
                           ca
an´lise e tratamento da qualidade dos textos:
  a
    tratamentos de erros t´ıpicos de OCR;
    an´lise e selec¸˜o dos textos obtidos;
       a           ca
segmenta¸˜o e atomiza¸˜o dos textos:
        ca           ca
    detec¸˜o de frases (cuidado com abreviaturas...)
         ca
    detec¸˜o de palavras (o que s˜o palavras?...)
         ca                      a
anota¸˜o variada:
     ca
    anota¸˜o das entidades mencionadas;
         ca
    anota¸˜o das categorias morfo-sint´cticas;
         ca                           a



                    Alberto Sim˜es
                               o     Corpora para Processamento de Linguagem Natura
Etapas T´
        ıpicas na Constru¸˜o de um Corpus
                         ca


recolha dos textos a incorporar:
    digitaliza¸˜o e OCR de documentos;
              ca
    recolha autom´tica a partir de documentos
                   a
    Caso particular: extrac¸˜o a partir da rede
                           ca
an´lise e tratamento da qualidade dos textos:
  a
    tratamentos de erros t´ıpicos de OCR;
    an´lise e selec¸˜o dos textos obtidos;
       a           ca
segmenta¸˜o e atomiza¸˜o dos textos:
        ca           ca
    detec¸˜o de frases (cuidado com abreviaturas...)
         ca
    detec¸˜o de palavras (o que s˜o palavras?...)
         ca                      a
anota¸˜o variada:
     ca
    anota¸˜o das entidades mencionadas;
         ca
    anota¸˜o das categorias morfo-sint´cticas;
         ca                           a



                    Alberto Sim˜es
                               o     Corpora para Processamento de Linguagem Natura
Adicionalmente para Corpora Paralelos



alinhamento ao n´ da frase
                ıvel
    com base no comprimento das frases;
    com base em palavras sem tradu¸˜o;
                                    ca
    com base em dicion´rios bilingues;
                      a
extrac¸˜o de dicion´rios de tradu¸˜o
      ca           a             ca
    para cada palavra associar tradu¸˜es prov´veis;
                                    co       a
    com base nas co-ocorrˆncias das palavras;
                          e
alinhamento ao n´ da palavra
                ıvel
    associar uma tradu¸˜o a cada ocorrˆncia de uma palavra;
                      ca              e




                  Alberto Sim˜es
                             o     Corpora para Processamento de Linguagem Natura
Adicionalmente para Corpora Paralelos



alinhamento ao n´ da frase
                ıvel
    com base no comprimento das frases;
    com base em palavras sem tradu¸˜o;
                                    ca
    com base em dicion´rios bilingues;
                      a
extrac¸˜o de dicion´rios de tradu¸˜o
      ca           a             ca
    para cada palavra associar tradu¸˜es prov´veis;
                                    co       a
    com base nas co-ocorrˆncias das palavras;
                          e
alinhamento ao n´ da palavra
                ıvel
    associar uma tradu¸˜o a cada ocorrˆncia de uma palavra;
                      ca              e




                  Alberto Sim˜es
                             o     Corpora para Processamento de Linguagem Natura
Adicionalmente para Corpora Paralelos



alinhamento ao n´ da frase
                ıvel
    com base no comprimento das frases;
    com base em palavras sem tradu¸˜o;
                                    ca
    com base em dicion´rios bilingues;
                      a
extrac¸˜o de dicion´rios de tradu¸˜o
      ca           a             ca
    para cada palavra associar tradu¸˜es prov´veis;
                                    co       a
    com base nas co-ocorrˆncias das palavras;
                          e
alinhamento ao n´ da palavra
                ıvel
    associar uma tradu¸˜o a cada ocorrˆncia de uma palavra;
                      ca              e




                  Alberto Sim˜es
                             o     Corpora para Processamento de Linguagem Natura
Aplica¸oes de Corpora
      c˜



Aprendizagem Autom´tica:
                  a
    modelos estat´
                 ısticos de l´
                             ıngua;
Extrac¸˜o de terminologia:
      ca
    detec¸˜o de palavras espec´
         ca                   ıficas de uma ´rea;
                                           a
    extrac¸˜o de terminologia bilingue;
          ca
Tradu¸˜o Autom´tica:
     ca       a
    extrac¸˜o de dicion´rios bilingues;
          ca            a
    extrac¸˜o de terminologia bilingue;
          ca
    extrac¸˜o de exemplos de tradu¸˜o;
          ca                         ca
    modelos estat´ısticos de tradu¸˜o;
                                  ca




                  Alberto Sim˜es
                             o     Corpora para Processamento de Linguagem Natura
Constru¸˜o de Corpora Monolingue
          ca



A constru¸˜o de corpora monolingue tem como base a:
         ca
    extrac¸˜o de p´ginas da Rede com conte´do relevante
          ca      a                       u
        pesquisas por termos chave;
        extrac¸˜o de algumas p´ginas obtidas;
              ca                a
        extrac¸˜o do l´xico dessas p´ginas, e compara¸˜o com l´xico
              ca      e              a                ca       e
        comum;
        usar as palavras resultantes em novas pesquisas. Extrac¸˜o
                                                               ca
        dessas p´ginas como constituintes do corpus.
                a
    selec¸˜o das p´ginas obtidas
         ca       a
        a l´
           ıngua pretendida;
        a percentagem de conte´do util;
                              u ´




                      Alberto Sim˜es
                                 o     Corpora para Processamento de Linguagem Natura
Constru¸˜o de Corpora Monolingue
          ca



A constru¸˜o de corpora monolingue tem como base a:
         ca
    extrac¸˜o de p´ginas da Rede com conte´do relevante
          ca      a                       u
        pesquisas por termos chave;
        extrac¸˜o de algumas p´ginas obtidas;
              ca                a
        extrac¸˜o do l´xico dessas p´ginas, e compara¸˜o com l´xico
              ca      e              a                ca       e
        comum;
        usar as palavras resultantes em novas pesquisas. Extrac¸˜o
                                                               ca
        dessas p´ginas como constituintes do corpus.
                a
    selec¸˜o das p´ginas obtidas
         ca       a
        a l´
           ıngua pretendida;
        a percentagem de conte´do util;
                              u ´




                      Alberto Sim˜es
                                 o     Corpora para Processamento de Linguagem Natura

Mais conteúdo relacionado

Mais procurados

Apostila de hebraico
Apostila de hebraicoApostila de hebraico
Apostila de hebraicouverlan
 
Reformaortografica 2009 Vanessa
Reformaortografica 2009 VanessaReformaortografica 2009 Vanessa
Reformaortografica 2009 VanessaVanessa Dagostim
 
Latim a arte de raciocinar
Latim a arte de raciocinarLatim a arte de raciocinar
Latim a arte de raciocinarMaluco Rafael
 
C. Bombardelli - Curso de Latim (versão 1)
C. Bombardelli - Curso de Latim (versão 1)C. Bombardelli - Curso de Latim (versão 1)
C. Bombardelli - Curso de Latim (versão 1)Clovis Bombardelli
 
Tradução história, teorias e métodos
Tradução história, teorias e métodosTradução história, teorias e métodos
Tradução história, teorias e métodosJessiely Soares
 
Guia Reforma Ortografica - Melhoramentos
Guia Reforma Ortografica - MelhoramentosGuia Reforma Ortografica - Melhoramentos
Guia Reforma Ortografica - Melhoramentoscarlinhosreis
 
Descubra o acordo ortográfico pe
Descubra o acordo ortográfico peDescubra o acordo ortográfico pe
Descubra o acordo ortográfico peSalvia Fontinha
 
Teorias da Tradução - Língua Alemã & Hebraica
Teorias da Tradução - Língua Alemã & HebraicaTeorias da Tradução - Língua Alemã & Hebraica
Teorias da Tradução - Língua Alemã & Hebraicayasmin fonseca
 
Curso de latim_gloria_tv
Curso de latim_gloria_tvCurso de latim_gloria_tv
Curso de latim_gloria_tvMaluco Rafael
 
Apresentação para décimo ano de 2014 5, aula 69-70
Apresentação para décimo ano de 2014 5, aula 69-70Apresentação para décimo ano de 2014 5, aula 69-70
Apresentação para décimo ano de 2014 5, aula 69-70luisprista
 
Recursosexpressivos
RecursosexpressivosRecursosexpressivos
Recursosexpressivosaly pereira
 

Mais procurados (19)

Apostila de hebraico
Apostila de hebraicoApostila de hebraico
Apostila de hebraico
 
INICIAÇÃO AO HEBRAICO I
INICIAÇÃO AO HEBRAICO IINICIAÇÃO AO HEBRAICO I
INICIAÇÃO AO HEBRAICO I
 
Reformaortografica 2009 Vanessa
Reformaortografica 2009 VanessaReformaortografica 2009 Vanessa
Reformaortografica 2009 Vanessa
 
Latim a arte de raciocinar
Latim a arte de raciocinarLatim a arte de raciocinar
Latim a arte de raciocinar
 
Curso De Hebraico
Curso De HebraicoCurso De Hebraico
Curso De Hebraico
 
Curso-de-latim-completo
 Curso-de-latim-completo Curso-de-latim-completo
Curso-de-latim-completo
 
C. Bombardelli - Curso de Latim (versão 1)
C. Bombardelli - Curso de Latim (versão 1)C. Bombardelli - Curso de Latim (versão 1)
C. Bombardelli - Curso de Latim (versão 1)
 
Livro do gênesis
Livro do gênesisLivro do gênesis
Livro do gênesis
 
Lingua Hebraica V
Lingua Hebraica VLingua Hebraica V
Lingua Hebraica V
 
Tradução história, teorias e métodos
Tradução história, teorias e métodosTradução história, teorias e métodos
Tradução história, teorias e métodos
 
Guia Reforma Ortografica - Melhoramentos
Guia Reforma Ortografica - MelhoramentosGuia Reforma Ortografica - Melhoramentos
Guia Reforma Ortografica - Melhoramentos
 
PEX- Novo Acordo Ortográfico
PEX- Novo Acordo OrtográficoPEX- Novo Acordo Ortográfico
PEX- Novo Acordo Ortográfico
 
Q06
Q06Q06
Q06
 
Descubra o acordo ortográfico pe
Descubra o acordo ortográfico peDescubra o acordo ortográfico pe
Descubra o acordo ortográfico pe
 
Teorias da Tradução - Língua Alemã & Hebraica
Teorias da Tradução - Língua Alemã & HebraicaTeorias da Tradução - Língua Alemã & Hebraica
Teorias da Tradução - Língua Alemã & Hebraica
 
Crop10 abdu
Crop10 abduCrop10 abdu
Crop10 abdu
 
Curso de latim_gloria_tv
Curso de latim_gloria_tvCurso de latim_gloria_tv
Curso de latim_gloria_tv
 
Apresentação para décimo ano de 2014 5, aula 69-70
Apresentação para décimo ano de 2014 5, aula 69-70Apresentação para décimo ano de 2014 5, aula 69-70
Apresentação para décimo ano de 2014 5, aula 69-70
 
Recursosexpressivos
RecursosexpressivosRecursosexpressivos
Recursosexpressivos
 

Destaque

Aula 02 - Engenharia de Requisitos
Aula 02 - Engenharia de RequisitosAula 02 - Engenharia de Requisitos
Aula 02 - Engenharia de RequisitosAlberto Simões
 
Making the most of a 100-year-old dictionary
Making the most of a 100-year-old dictionaryMaking the most of a 100-year-old dictionary
Making the most of a 100-year-old dictionaryAlberto Simões
 
Translation Resources Extraction using Probabilistic Translation Dictionaries
Translation Resources Extraction using Probabilistic Translation DictionariesTranslation Resources Extraction using Probabilistic Translation Dictionaries
Translation Resources Extraction using Probabilistic Translation DictionariesAlberto Simões
 
Dictionary Alignment by Rewrite-based Entry Translation
Dictionary Alignment by Rewrite-based Entry TranslationDictionary Alignment by Rewrite-based Entry Translation
Dictionary Alignment by Rewrite-based Entry TranslationAlberto Simões
 
Aula 03 - Introdução aos Diagramas de Atividade
Aula 03 - Introdução aos Diagramas de AtividadeAula 03 - Introdução aos Diagramas de Atividade
Aula 03 - Introdução aos Diagramas de AtividadeAlberto Simões
 
Language Identification: A neural network approach
Language Identification: A neural network approachLanguage Identification: A neural network approach
Language Identification: A neural network approachAlberto Simões
 
Controlo de Versões com SVN
Controlo de Versões com SVNControlo de Versões com SVN
Controlo de Versões com SVNAlberto Simões
 

Destaque (9)

Aula 02 - Engenharia de Requisitos
Aula 02 - Engenharia de RequisitosAula 02 - Engenharia de Requisitos
Aula 02 - Engenharia de Requisitos
 
Making the most of a 100-year-old dictionary
Making the most of a 100-year-old dictionaryMaking the most of a 100-year-old dictionary
Making the most of a 100-year-old dictionary
 
TPF GC
TPF GCTPF GC
TPF GC
 
Translation Resources Extraction using Probabilistic Translation Dictionaries
Translation Resources Extraction using Probabilistic Translation DictionariesTranslation Resources Extraction using Probabilistic Translation Dictionaries
Translation Resources Extraction using Probabilistic Translation Dictionaries
 
Dictionary Alignment by Rewrite-based Entry Translation
Dictionary Alignment by Rewrite-based Entry TranslationDictionary Alignment by Rewrite-based Entry Translation
Dictionary Alignment by Rewrite-based Entry Translation
 
Aula 03 - Introdução aos Diagramas de Atividade
Aula 03 - Introdução aos Diagramas de AtividadeAula 03 - Introdução aos Diagramas de Atividade
Aula 03 - Introdução aos Diagramas de Atividade
 
Language Identification: A neural network approach
Language Identification: A neural network approachLanguage Identification: A neural network approach
Language Identification: A neural network approach
 
Controlo de Versões com SVN
Controlo de Versões com SVNControlo de Versões com SVN
Controlo de Versões com SVN
 
Source Code Quality
Source Code QualitySource Code Quality
Source Code Quality
 

Mais de Alberto Simões

EMLex-A5: Specialized Dictionaries
EMLex-A5: Specialized DictionariesEMLex-A5: Specialized Dictionaries
EMLex-A5: Specialized DictionariesAlberto Simões
 
Aula 04 - Introdução aos Diagramas de Sequência
Aula 04 - Introdução aos Diagramas de SequênciaAula 04 - Introdução aos Diagramas de Sequência
Aula 04 - Introdução aos Diagramas de SequênciaAlberto Simões
 
Aula 01 - Planeamento de Sistemas de Informação
Aula 01 - Planeamento de Sistemas de InformaçãoAula 01 - Planeamento de Sistemas de Informação
Aula 01 - Planeamento de Sistemas de InformaçãoAlberto Simões
 
Building C and C++ libraries with Perl
Building C and C++ libraries with PerlBuilding C and C++ libraries with Perl
Building C and C++ libraries with PerlAlberto Simões
 
Processing XML: a rewriting system approach
Processing XML: a rewriting system approachProcessing XML: a rewriting system approach
Processing XML: a rewriting system approachAlberto Simões
 
Arquitecturas de Tradução Automática
Arquitecturas de Tradução AutomáticaArquitecturas de Tradução Automática
Arquitecturas de Tradução AutomáticaAlberto Simões
 
Extracção de Recursos para Tradução Automática
Extracção de Recursos para Tradução AutomáticaExtracção de Recursos para Tradução Automática
Extracção de Recursos para Tradução AutomáticaAlberto Simões
 
Bilingual Terminology Extraction based on Translation Patterns
Bilingual Terminology Extraction based on Translation PatternsBilingual Terminology Extraction based on Translation Patterns
Bilingual Terminology Extraction based on Translation PatternsAlberto Simões
 

Mais de Alberto Simões (20)

Google Maps JS API
Google Maps JS APIGoogle Maps JS API
Google Maps JS API
 
EMLex-A5: Specialized Dictionaries
EMLex-A5: Specialized DictionariesEMLex-A5: Specialized Dictionaries
EMLex-A5: Specialized Dictionaries
 
Modelação de Dados
Modelação de DadosModelação de Dados
Modelação de Dados
 
Aula 04 - Introdução aos Diagramas de Sequência
Aula 04 - Introdução aos Diagramas de SequênciaAula 04 - Introdução aos Diagramas de Sequência
Aula 04 - Introdução aos Diagramas de Sequência
 
Aula 01 - Planeamento de Sistemas de Informação
Aula 01 - Planeamento de Sistemas de InformaçãoAula 01 - Planeamento de Sistemas de Informação
Aula 01 - Planeamento de Sistemas de Informação
 
Building C and C++ libraries with Perl
Building C and C++ libraries with PerlBuilding C and C++ libraries with Perl
Building C and C++ libraries with Perl
 
PLN em Perl
PLN em PerlPLN em Perl
PLN em Perl
 
Classification Systems
Classification SystemsClassification Systems
Classification Systems
 
Redes de Pert
Redes de PertRedes de Pert
Redes de Pert
 
Dancing Tutorial
Dancing TutorialDancing Tutorial
Dancing Tutorial
 
Processing XML: a rewriting system approach
Processing XML: a rewriting system approachProcessing XML: a rewriting system approach
Processing XML: a rewriting system approach
 
Sistemas de Numeração
Sistemas de NumeraçãoSistemas de Numeração
Sistemas de Numeração
 
Álgebra de Boole
Álgebra de BooleÁlgebra de Boole
Álgebra de Boole
 
Arquitecturas de Tradução Automática
Arquitecturas de Tradução AutomáticaArquitecturas de Tradução Automática
Arquitecturas de Tradução Automática
 
Extracção de Recursos para Tradução Automática
Extracção de Recursos para Tradução AutomáticaExtracção de Recursos para Tradução Automática
Extracção de Recursos para Tradução Automática
 
Dicionário Aberto
Dicionário AbertoDicionário Aberto
Dicionário Aberto
 
Keynote Globs
Keynote GlobsKeynote Globs
Keynote Globs
 
Workshop GLOBS
Workshop GLOBSWorkshop GLOBS
Workshop GLOBS
 
Bilingual Terminology Extraction based on Translation Patterns
Bilingual Terminology Extraction based on Translation PatternsBilingual Terminology Extraction based on Translation Patterns
Bilingual Terminology Extraction based on Translation Patterns
 
Remote secure backups
Remote secure backupsRemote secure backups
Remote secure backups
 

Último

Introdução às Funções 9º ano: Diagrama de flexas, Valor numérico de uma funçã...
Introdução às Funções 9º ano: Diagrama de flexas, Valor numérico de uma funçã...Introdução às Funções 9º ano: Diagrama de flexas, Valor numérico de uma funçã...
Introdução às Funções 9º ano: Diagrama de flexas, Valor numérico de uma funçã...marcelafinkler
 
PROJETO DE EXTENSÃO I - TERAPIAS INTEGRATIVAS E COMPLEMENTARES.pdf
PROJETO DE EXTENSÃO I - TERAPIAS INTEGRATIVAS E COMPLEMENTARES.pdfPROJETO DE EXTENSÃO I - TERAPIAS INTEGRATIVAS E COMPLEMENTARES.pdf
PROJETO DE EXTENSÃO I - TERAPIAS INTEGRATIVAS E COMPLEMENTARES.pdfHELENO FAVACHO
 
PRÁTICAS PEDAGÓGICAS GESTÃO DA APRENDIZAGEM
PRÁTICAS PEDAGÓGICAS GESTÃO DA APRENDIZAGEMPRÁTICAS PEDAGÓGICAS GESTÃO DA APRENDIZAGEM
PRÁTICAS PEDAGÓGICAS GESTÃO DA APRENDIZAGEMHELENO FAVACHO
 
migração e trabalho 2º ano.pptx fenomenos
migração e trabalho 2º ano.pptx fenomenosmigração e trabalho 2º ano.pptx fenomenos
migração e trabalho 2º ano.pptx fenomenosLucianoPrado15
 
Slides Lição 6, CPAD, As Nossas Armas Espirituais, 2Tr24.pptx
Slides Lição 6, CPAD, As Nossas Armas Espirituais, 2Tr24.pptxSlides Lição 6, CPAD, As Nossas Armas Espirituais, 2Tr24.pptx
Slides Lição 6, CPAD, As Nossas Armas Espirituais, 2Tr24.pptxLuizHenriquedeAlmeid6
 
Estudar, para quê? Ciência, para quê? Parte 1 e Parte 2
Estudar, para quê?  Ciência, para quê? Parte 1 e Parte 2Estudar, para quê?  Ciência, para quê? Parte 1 e Parte 2
Estudar, para quê? Ciência, para quê? Parte 1 e Parte 2Maria Teresa Thomaz
 
A EDUCAÇÃO FÍSICA NO NOVO ENSINO MÉDIO: IMPLICAÇÕES E TENDÊNCIAS PROMOVIDAS P...
A EDUCAÇÃO FÍSICA NO NOVO ENSINO MÉDIO: IMPLICAÇÕES E TENDÊNCIAS PROMOVIDAS P...A EDUCAÇÃO FÍSICA NO NOVO ENSINO MÉDIO: IMPLICAÇÕES E TENDÊNCIAS PROMOVIDAS P...
A EDUCAÇÃO FÍSICA NO NOVO ENSINO MÉDIO: IMPLICAÇÕES E TENDÊNCIAS PROMOVIDAS P...PatriciaCaetano18
 
Recomposiçao em matematica 1 ano 2024 - ESTUDANTE 1ª série.pdf
Recomposiçao em matematica 1 ano 2024 - ESTUDANTE 1ª série.pdfRecomposiçao em matematica 1 ano 2024 - ESTUDANTE 1ª série.pdf
Recomposiçao em matematica 1 ano 2024 - ESTUDANTE 1ª série.pdfFrancisco Márcio Bezerra Oliveira
 
PROJETO DE EXTENSÃO I - SERVIÇOS JURÍDICOS, CARTORÁRIOS E NOTARIAIS.pdf
PROJETO DE EXTENSÃO I - SERVIÇOS JURÍDICOS, CARTORÁRIOS E NOTARIAIS.pdfPROJETO DE EXTENSÃO I - SERVIÇOS JURÍDICOS, CARTORÁRIOS E NOTARIAIS.pdf
PROJETO DE EXTENSÃO I - SERVIÇOS JURÍDICOS, CARTORÁRIOS E NOTARIAIS.pdfHELENO FAVACHO
 
TCC_MusicaComoLinguagemNaAlfabetização-ARAUJOfranklin-UFBA.pdf
TCC_MusicaComoLinguagemNaAlfabetização-ARAUJOfranklin-UFBA.pdfTCC_MusicaComoLinguagemNaAlfabetização-ARAUJOfranklin-UFBA.pdf
TCC_MusicaComoLinguagemNaAlfabetização-ARAUJOfranklin-UFBA.pdfamarianegodoi
 
Teoria heterotrófica e autotrófica dos primeiros seres vivos..pptx
Teoria heterotrófica e autotrófica dos primeiros seres vivos..pptxTeoria heterotrófica e autotrófica dos primeiros seres vivos..pptx
Teoria heterotrófica e autotrófica dos primeiros seres vivos..pptxTailsonSantos1
 
Educação Financeira - Cartão de crédito665933.pptx
Educação Financeira - Cartão de crédito665933.pptxEducação Financeira - Cartão de crédito665933.pptx
Educação Financeira - Cartão de crédito665933.pptxMarcosLemes28
 
P P P 2024 - *CIEJA Santana / Tucuruvi*
P P P 2024  - *CIEJA Santana / Tucuruvi*P P P 2024  - *CIEJA Santana / Tucuruvi*
P P P 2024 - *CIEJA Santana / Tucuruvi*Viviane Moreiras
 
Projeto_de_Extensão_Agronomia_adquira_ja_(91)_98764-0830.pdf
Projeto_de_Extensão_Agronomia_adquira_ja_(91)_98764-0830.pdfProjeto_de_Extensão_Agronomia_adquira_ja_(91)_98764-0830.pdf
Projeto_de_Extensão_Agronomia_adquira_ja_(91)_98764-0830.pdfHELENO FAVACHO
 
8 Aula de predicado verbal e nominal - Predicativo do sujeito
8 Aula de predicado verbal e nominal - Predicativo do sujeito8 Aula de predicado verbal e nominal - Predicativo do sujeito
8 Aula de predicado verbal e nominal - Predicativo do sujeitotatianehilda
 
Slides Lição 6, Betel, Ordenança para uma vida de obediência e submissão.pptx
Slides Lição 6, Betel, Ordenança para uma vida de obediência e submissão.pptxSlides Lição 6, Betel, Ordenança para uma vida de obediência e submissão.pptx
Slides Lição 6, Betel, Ordenança para uma vida de obediência e submissão.pptxLuizHenriquedeAlmeid6
 
Os editoriais, reportagens e entrevistas.pptx
Os editoriais, reportagens e entrevistas.pptxOs editoriais, reportagens e entrevistas.pptx
Os editoriais, reportagens e entrevistas.pptxTailsonSantos1
 
E a chuva ... (Livro pedagógico para ser usado na educação infantil e trabal...
E a chuva ...  (Livro pedagógico para ser usado na educação infantil e trabal...E a chuva ...  (Livro pedagógico para ser usado na educação infantil e trabal...
E a chuva ... (Livro pedagógico para ser usado na educação infantil e trabal...andreiavys
 
Slide - SAEB. língua portuguesa e matemática
Slide - SAEB. língua portuguesa e matemáticaSlide - SAEB. língua portuguesa e matemática
Slide - SAEB. língua portuguesa e matemáticash5kpmr7w7
 
Plano de aula Nova Escola períodos simples e composto parte 1.pptx
Plano de aula Nova Escola períodos simples e composto parte 1.pptxPlano de aula Nova Escola períodos simples e composto parte 1.pptx
Plano de aula Nova Escola períodos simples e composto parte 1.pptxPaulaYaraDaasPedro
 

Último (20)

Introdução às Funções 9º ano: Diagrama de flexas, Valor numérico de uma funçã...
Introdução às Funções 9º ano: Diagrama de flexas, Valor numérico de uma funçã...Introdução às Funções 9º ano: Diagrama de flexas, Valor numérico de uma funçã...
Introdução às Funções 9º ano: Diagrama de flexas, Valor numérico de uma funçã...
 
PROJETO DE EXTENSÃO I - TERAPIAS INTEGRATIVAS E COMPLEMENTARES.pdf
PROJETO DE EXTENSÃO I - TERAPIAS INTEGRATIVAS E COMPLEMENTARES.pdfPROJETO DE EXTENSÃO I - TERAPIAS INTEGRATIVAS E COMPLEMENTARES.pdf
PROJETO DE EXTENSÃO I - TERAPIAS INTEGRATIVAS E COMPLEMENTARES.pdf
 
PRÁTICAS PEDAGÓGICAS GESTÃO DA APRENDIZAGEM
PRÁTICAS PEDAGÓGICAS GESTÃO DA APRENDIZAGEMPRÁTICAS PEDAGÓGICAS GESTÃO DA APRENDIZAGEM
PRÁTICAS PEDAGÓGICAS GESTÃO DA APRENDIZAGEM
 
migração e trabalho 2º ano.pptx fenomenos
migração e trabalho 2º ano.pptx fenomenosmigração e trabalho 2º ano.pptx fenomenos
migração e trabalho 2º ano.pptx fenomenos
 
Slides Lição 6, CPAD, As Nossas Armas Espirituais, 2Tr24.pptx
Slides Lição 6, CPAD, As Nossas Armas Espirituais, 2Tr24.pptxSlides Lição 6, CPAD, As Nossas Armas Espirituais, 2Tr24.pptx
Slides Lição 6, CPAD, As Nossas Armas Espirituais, 2Tr24.pptx
 
Estudar, para quê? Ciência, para quê? Parte 1 e Parte 2
Estudar, para quê?  Ciência, para quê? Parte 1 e Parte 2Estudar, para quê?  Ciência, para quê? Parte 1 e Parte 2
Estudar, para quê? Ciência, para quê? Parte 1 e Parte 2
 
A EDUCAÇÃO FÍSICA NO NOVO ENSINO MÉDIO: IMPLICAÇÕES E TENDÊNCIAS PROMOVIDAS P...
A EDUCAÇÃO FÍSICA NO NOVO ENSINO MÉDIO: IMPLICAÇÕES E TENDÊNCIAS PROMOVIDAS P...A EDUCAÇÃO FÍSICA NO NOVO ENSINO MÉDIO: IMPLICAÇÕES E TENDÊNCIAS PROMOVIDAS P...
A EDUCAÇÃO FÍSICA NO NOVO ENSINO MÉDIO: IMPLICAÇÕES E TENDÊNCIAS PROMOVIDAS P...
 
Recomposiçao em matematica 1 ano 2024 - ESTUDANTE 1ª série.pdf
Recomposiçao em matematica 1 ano 2024 - ESTUDANTE 1ª série.pdfRecomposiçao em matematica 1 ano 2024 - ESTUDANTE 1ª série.pdf
Recomposiçao em matematica 1 ano 2024 - ESTUDANTE 1ª série.pdf
 
PROJETO DE EXTENSÃO I - SERVIÇOS JURÍDICOS, CARTORÁRIOS E NOTARIAIS.pdf
PROJETO DE EXTENSÃO I - SERVIÇOS JURÍDICOS, CARTORÁRIOS E NOTARIAIS.pdfPROJETO DE EXTENSÃO I - SERVIÇOS JURÍDICOS, CARTORÁRIOS E NOTARIAIS.pdf
PROJETO DE EXTENSÃO I - SERVIÇOS JURÍDICOS, CARTORÁRIOS E NOTARIAIS.pdf
 
TCC_MusicaComoLinguagemNaAlfabetização-ARAUJOfranklin-UFBA.pdf
TCC_MusicaComoLinguagemNaAlfabetização-ARAUJOfranklin-UFBA.pdfTCC_MusicaComoLinguagemNaAlfabetização-ARAUJOfranklin-UFBA.pdf
TCC_MusicaComoLinguagemNaAlfabetização-ARAUJOfranklin-UFBA.pdf
 
Teoria heterotrófica e autotrófica dos primeiros seres vivos..pptx
Teoria heterotrófica e autotrófica dos primeiros seres vivos..pptxTeoria heterotrófica e autotrófica dos primeiros seres vivos..pptx
Teoria heterotrófica e autotrófica dos primeiros seres vivos..pptx
 
Educação Financeira - Cartão de crédito665933.pptx
Educação Financeira - Cartão de crédito665933.pptxEducação Financeira - Cartão de crédito665933.pptx
Educação Financeira - Cartão de crédito665933.pptx
 
P P P 2024 - *CIEJA Santana / Tucuruvi*
P P P 2024  - *CIEJA Santana / Tucuruvi*P P P 2024  - *CIEJA Santana / Tucuruvi*
P P P 2024 - *CIEJA Santana / Tucuruvi*
 
Projeto_de_Extensão_Agronomia_adquira_ja_(91)_98764-0830.pdf
Projeto_de_Extensão_Agronomia_adquira_ja_(91)_98764-0830.pdfProjeto_de_Extensão_Agronomia_adquira_ja_(91)_98764-0830.pdf
Projeto_de_Extensão_Agronomia_adquira_ja_(91)_98764-0830.pdf
 
8 Aula de predicado verbal e nominal - Predicativo do sujeito
8 Aula de predicado verbal e nominal - Predicativo do sujeito8 Aula de predicado verbal e nominal - Predicativo do sujeito
8 Aula de predicado verbal e nominal - Predicativo do sujeito
 
Slides Lição 6, Betel, Ordenança para uma vida de obediência e submissão.pptx
Slides Lição 6, Betel, Ordenança para uma vida de obediência e submissão.pptxSlides Lição 6, Betel, Ordenança para uma vida de obediência e submissão.pptx
Slides Lição 6, Betel, Ordenança para uma vida de obediência e submissão.pptx
 
Os editoriais, reportagens e entrevistas.pptx
Os editoriais, reportagens e entrevistas.pptxOs editoriais, reportagens e entrevistas.pptx
Os editoriais, reportagens e entrevistas.pptx
 
E a chuva ... (Livro pedagógico para ser usado na educação infantil e trabal...
E a chuva ...  (Livro pedagógico para ser usado na educação infantil e trabal...E a chuva ...  (Livro pedagógico para ser usado na educação infantil e trabal...
E a chuva ... (Livro pedagógico para ser usado na educação infantil e trabal...
 
Slide - SAEB. língua portuguesa e matemática
Slide - SAEB. língua portuguesa e matemáticaSlide - SAEB. língua portuguesa e matemática
Slide - SAEB. língua portuguesa e matemática
 
Plano de aula Nova Escola períodos simples e composto parte 1.pptx
Plano de aula Nova Escola períodos simples e composto parte 1.pptxPlano de aula Nova Escola períodos simples e composto parte 1.pptx
Plano de aula Nova Escola períodos simples e composto parte 1.pptx
 

Corpora para Processamento de Linguagem Natural

  • 1. Corpora para Processamento de Linguagem Natura Alberto Manuel Brand˜o Sim˜es a o ambs@di.uminho.pt 17 de Outubro de 2008 (v0.1) Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 2. Defini¸˜o de Corpus ca Corpus Corpus ´ um termo usado para representar uma colec¸˜o (finita) e ca de textos, relativos a determinado assunto. Corpora Corpora ´ o plural de Corpus. e  monolingue corpora compar´vel a multilingue paralelo Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 3. Defini¸˜o de Corpus ca Corpus Corpus ´ um termo usado para representar uma colec¸˜o (finita) e ca de textos, relativos a determinado assunto. Corpora Corpora ´ o plural de Corpus. e  monolingue corpora compar´vel a multilingue paralelo Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 4. Defini¸˜o de Corpus ca Corpus Corpus ´ um termo usado para representar uma colec¸˜o (finita) e ca de textos, relativos a determinado assunto. Corpora Corpora ´ o plural de Corpus. e  monolingue corpora compar´vel a multilingue paralelo Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 5. Exemplos de Corpora Monolingue Alguns exemplos de Corpora Monolingues: British National Corpus — um corpus da l´ ıngua inglesa que cont´m diferentes g´neros de texto (escrito, oral, ...), com e e mais de 100 milh˜es de palavras; o CETEMP´blico — mais de 191 milh˜es de palavras de u o segmentos de texto jornal´ ıstico recolhidos do Jornal P´blico; u CETENFolha — mais de 33 milh˜es de palavras de segmentos o de texto jornal´ ıstico recolhidos da Folha de S˜o Paulo; a Russian National Corpus — um corpus da l´ ıngua russa com mais de 147 milh˜es de palavras; o Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 6. Exemplos de Corpora Monolingue Alguns exemplos de Corpora Monolingues: British National Corpus — um corpus da l´ ıngua inglesa que cont´m diferentes g´neros de texto (escrito, oral, ...), com e e mais de 100 milh˜es de palavras; o CETEMP´blico — mais de 191 milh˜es de palavras de u o segmentos de texto jornal´ ıstico recolhidos do Jornal P´blico; u CETENFolha — mais de 33 milh˜es de palavras de segmentos o de texto jornal´ ıstico recolhidos da Folha de S˜o Paulo; a Russian National Corpus — um corpus da l´ ıngua russa com mais de 147 milh˜es de palavras; o Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 7. Exemplos de Corpora Monolingue Alguns exemplos de Corpora Monolingues: British National Corpus — um corpus da l´ ıngua inglesa que cont´m diferentes g´neros de texto (escrito, oral, ...), com e e mais de 100 milh˜es de palavras; o CETEMP´blico — mais de 191 milh˜es de palavras de u o segmentos de texto jornal´ ıstico recolhidos do Jornal P´blico; u CETENFolha — mais de 33 milh˜es de palavras de segmentos o de texto jornal´ ıstico recolhidos da Folha de S˜o Paulo; a Russian National Corpus — um corpus da l´ ıngua russa com mais de 147 milh˜es de palavras; o Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 8. Exemplos de Corpora Monolingue Alguns exemplos de Corpora Monolingues: British National Corpus — um corpus da l´ ıngua inglesa que cont´m diferentes g´neros de texto (escrito, oral, ...), com e e mais de 100 milh˜es de palavras; o CETEMP´blico — mais de 191 milh˜es de palavras de u o segmentos de texto jornal´ ıstico recolhidos do Jornal P´blico; u CETENFolha — mais de 33 milh˜es de palavras de segmentos o de texto jornal´ ıstico recolhidos da Folha de S˜o Paulo; a Russian National Corpus — um corpus da l´ ıngua russa com mais de 147 milh˜es de palavras; o Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 9. Corpora Compar´veis a Corpora Compar´veis a Os Corpora Compar´veis s˜o conjuntos de textos em diferentes a a l´ ınguas que, embora n˜o correspondam directamente a tradu¸˜es a co literais, focam um mesmo assunto. Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 10. Exemplos de Corpora Compar´veis a Qualquer conjunto de not´ıcias que se refiram a um mesmo assunto ou evento, e que estejam escritos em l´ınguas diferentes podem ser vistos como corpora compar´veis. a Outro exemplo ser´ um conjunto de artigos cient´ a ıficos sobre um mesmo micro-organismo. Estes corpora s˜o essencialmente utilizados para o estudo e a extrac¸˜o de terminologia espec´ ca ıfica da ´rea a que os corpora se a referem. Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 11. Corpora Paralelos Corpora Paralelos Os Corpora Paralelos s˜o textos em duas ou mais l´ a ınguas, em que existe uma rela¸˜o de tradu¸˜o entre eles. Tipicamente s˜o ca ca a bilingues, em que uma das l´ ınguas ´ a original, e a outra a e tradu¸˜o. ca Corpora Paralelos Alinhados Habitualmente ´ usado o termo gen´rico Corpus Paralelo para e e representar os corpora paralelos alinhados ao n´ da frase. Ou ıvel seja, em que os textos foram divididos em frases e foi definida uma correspondˆncia entre os segmentos nas duas l´ e ınguas. Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 12. Corpora Paralelos Corpora Paralelos Os Corpora Paralelos s˜o textos em duas ou mais l´ a ınguas, em que existe uma rela¸˜o de tradu¸˜o entre eles. Tipicamente s˜o ca ca a bilingues, em que uma das l´ ınguas ´ a original, e a outra a e tradu¸˜o. ca Corpora Paralelos Alinhados Habitualmente ´ usado o termo gen´rico Corpus Paralelo para e e representar os corpora paralelos alinhados ao n´ da frase. Ou ıvel seja, em que os textos foram divididos em frases e foi definida uma correspondˆncia entre os segmentos nas duas l´ e ınguas. Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 13. Exemplos de Corpora Paralelos Exemplos de Corpora Paralelos Hansards — Corpus inglˆs/francˆs com mais de um milh˜o de e e a unidades de tradu¸˜o provenientes da legisla¸˜o canadiana; ca ca COMPARA — Corpus portuguˆs/inglˆs com cerca de 97 mil e e unidades de tradu¸˜o provenientes de texto liter´rio (com ca a varia¸˜es na direc¸˜o da tradu¸˜o e no dialecto portuguˆs). co ca ca e EuroParl — Corpus multilingue com uma m´dia de um milh˜o e a de unidades de tradu¸˜o para cada par de l´ ca ıngua, provenientes da legisla¸˜o europeia; ca JRC-Acquis — Corpus multilingue com uma m´dia de um e milh˜o de unidades de tradu¸˜o para cada par de l´ a ca ıngua, provenientes da legisla¸˜o europeia; ca Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 14. Exemplos de Corpora Paralelos Exemplos de Corpora Paralelos Hansards — Corpus inglˆs/francˆs com mais de um milh˜o de e e a unidades de tradu¸˜o provenientes da legisla¸˜o canadiana; ca ca COMPARA — Corpus portuguˆs/inglˆs com cerca de 97 mil e e unidades de tradu¸˜o provenientes de texto liter´rio (com ca a varia¸˜es na direc¸˜o da tradu¸˜o e no dialecto portuguˆs). co ca ca e EuroParl — Corpus multilingue com uma m´dia de um milh˜o e a de unidades de tradu¸˜o para cada par de l´ ca ıngua, provenientes da legisla¸˜o europeia; ca JRC-Acquis — Corpus multilingue com uma m´dia de um e milh˜o de unidades de tradu¸˜o para cada par de l´ a ca ıngua, provenientes da legisla¸˜o europeia; ca Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 15. Exemplos de Corpora Paralelos Exemplos de Corpora Paralelos Hansards — Corpus inglˆs/francˆs com mais de um milh˜o de e e a unidades de tradu¸˜o provenientes da legisla¸˜o canadiana; ca ca COMPARA — Corpus portuguˆs/inglˆs com cerca de 97 mil e e unidades de tradu¸˜o provenientes de texto liter´rio (com ca a varia¸˜es na direc¸˜o da tradu¸˜o e no dialecto portuguˆs). co ca ca e EuroParl — Corpus multilingue com uma m´dia de um milh˜o e a de unidades de tradu¸˜o para cada par de l´ ca ıngua, provenientes da legisla¸˜o europeia; ca JRC-Acquis — Corpus multilingue com uma m´dia de um e milh˜o de unidades de tradu¸˜o para cada par de l´ a ca ıngua, provenientes da legisla¸˜o europeia; ca Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 16. Corpora Paralelos na Rede ´ E habitual a disponibiliza¸˜o de Corpora para consulta de ca concordˆncias na Internet. a Alguns exemplos: AC/DC — Acesso a Corpora / Disponibiliza¸˜o de Corpora ca http://www.linguateca.pt/acesso/corpus.php COMPARA — Corpus Paralelo de Obras Liter´rias a http://www.linguateca.pt/COMPARA/psimples.php NATools — Natura Alignment Tools http://linguateca.di.uminho.pt/nat Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 17. Etapas T´ ıpicas na Constru¸˜o de um Corpus ca recolha dos textos a incorporar: digitaliza¸˜o e OCR de documentos; ca recolha autom´tica a partir de documentos a Caso particular: extrac¸˜o a partir da rede ca an´lise e tratamento da qualidade dos textos: a tratamentos de erros t´ıpicos de OCR; an´lise e selec¸˜o dos textos obtidos; a ca segmenta¸˜o e atomiza¸˜o dos textos: ca ca detec¸˜o de frases (cuidado com abreviaturas...) ca detec¸˜o de palavras (o que s˜o palavras?...) ca a anota¸˜o variada: ca anota¸˜o das entidades mencionadas; ca anota¸˜o das categorias morfo-sint´cticas; ca a Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 18. Etapas T´ ıpicas na Constru¸˜o de um Corpus ca recolha dos textos a incorporar: digitaliza¸˜o e OCR de documentos; ca recolha autom´tica a partir de documentos a Caso particular: extrac¸˜o a partir da rede ca an´lise e tratamento da qualidade dos textos: a tratamentos de erros t´ıpicos de OCR; an´lise e selec¸˜o dos textos obtidos; a ca segmenta¸˜o e atomiza¸˜o dos textos: ca ca detec¸˜o de frases (cuidado com abreviaturas...) ca detec¸˜o de palavras (o que s˜o palavras?...) ca a anota¸˜o variada: ca anota¸˜o das entidades mencionadas; ca anota¸˜o das categorias morfo-sint´cticas; ca a Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 19. Etapas T´ ıpicas na Constru¸˜o de um Corpus ca recolha dos textos a incorporar: digitaliza¸˜o e OCR de documentos; ca recolha autom´tica a partir de documentos a Caso particular: extrac¸˜o a partir da rede ca an´lise e tratamento da qualidade dos textos: a tratamentos de erros t´ıpicos de OCR; an´lise e selec¸˜o dos textos obtidos; a ca segmenta¸˜o e atomiza¸˜o dos textos: ca ca detec¸˜o de frases (cuidado com abreviaturas...) ca detec¸˜o de palavras (o que s˜o palavras?...) ca a anota¸˜o variada: ca anota¸˜o das entidades mencionadas; ca anota¸˜o das categorias morfo-sint´cticas; ca a Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 20. Etapas T´ ıpicas na Constru¸˜o de um Corpus ca recolha dos textos a incorporar: digitaliza¸˜o e OCR de documentos; ca recolha autom´tica a partir de documentos a Caso particular: extrac¸˜o a partir da rede ca an´lise e tratamento da qualidade dos textos: a tratamentos de erros t´ıpicos de OCR; an´lise e selec¸˜o dos textos obtidos; a ca segmenta¸˜o e atomiza¸˜o dos textos: ca ca detec¸˜o de frases (cuidado com abreviaturas...) ca detec¸˜o de palavras (o que s˜o palavras?...) ca a anota¸˜o variada: ca anota¸˜o das entidades mencionadas; ca anota¸˜o das categorias morfo-sint´cticas; ca a Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 21. Adicionalmente para Corpora Paralelos alinhamento ao n´ da frase ıvel com base no comprimento das frases; com base em palavras sem tradu¸˜o; ca com base em dicion´rios bilingues; a extrac¸˜o de dicion´rios de tradu¸˜o ca a ca para cada palavra associar tradu¸˜es prov´veis; co a com base nas co-ocorrˆncias das palavras; e alinhamento ao n´ da palavra ıvel associar uma tradu¸˜o a cada ocorrˆncia de uma palavra; ca e Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 22. Adicionalmente para Corpora Paralelos alinhamento ao n´ da frase ıvel com base no comprimento das frases; com base em palavras sem tradu¸˜o; ca com base em dicion´rios bilingues; a extrac¸˜o de dicion´rios de tradu¸˜o ca a ca para cada palavra associar tradu¸˜es prov´veis; co a com base nas co-ocorrˆncias das palavras; e alinhamento ao n´ da palavra ıvel associar uma tradu¸˜o a cada ocorrˆncia de uma palavra; ca e Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 23. Adicionalmente para Corpora Paralelos alinhamento ao n´ da frase ıvel com base no comprimento das frases; com base em palavras sem tradu¸˜o; ca com base em dicion´rios bilingues; a extrac¸˜o de dicion´rios de tradu¸˜o ca a ca para cada palavra associar tradu¸˜es prov´veis; co a com base nas co-ocorrˆncias das palavras; e alinhamento ao n´ da palavra ıvel associar uma tradu¸˜o a cada ocorrˆncia de uma palavra; ca e Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 24. Aplica¸oes de Corpora c˜ Aprendizagem Autom´tica: a modelos estat´ ısticos de l´ ıngua; Extrac¸˜o de terminologia: ca detec¸˜o de palavras espec´ ca ıficas de uma ´rea; a extrac¸˜o de terminologia bilingue; ca Tradu¸˜o Autom´tica: ca a extrac¸˜o de dicion´rios bilingues; ca a extrac¸˜o de terminologia bilingue; ca extrac¸˜o de exemplos de tradu¸˜o; ca ca modelos estat´ısticos de tradu¸˜o; ca Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 25. Constru¸˜o de Corpora Monolingue ca A constru¸˜o de corpora monolingue tem como base a: ca extrac¸˜o de p´ginas da Rede com conte´do relevante ca a u pesquisas por termos chave; extrac¸˜o de algumas p´ginas obtidas; ca a extrac¸˜o do l´xico dessas p´ginas, e compara¸˜o com l´xico ca e a ca e comum; usar as palavras resultantes em novas pesquisas. Extrac¸˜o ca dessas p´ginas como constituintes do corpus. a selec¸˜o das p´ginas obtidas ca a a l´ ıngua pretendida; a percentagem de conte´do util; u ´ Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 26. Constru¸˜o de Corpora Monolingue ca A constru¸˜o de corpora monolingue tem como base a: ca extrac¸˜o de p´ginas da Rede com conte´do relevante ca a u pesquisas por termos chave; extrac¸˜o de algumas p´ginas obtidas; ca a extrac¸˜o do l´xico dessas p´ginas, e compara¸˜o com l´xico ca e a ca e comum; usar as palavras resultantes em novas pesquisas. Extrac¸˜o ca dessas p´ginas como constituintes do corpus. a selec¸˜o das p´ginas obtidas ca a a l´ ıngua pretendida; a percentagem de conte´do util; u ´ Alberto Sim˜es o Corpora para Processamento de Linguagem Natura