SlideShare ist ein Scribd-Unternehmen logo
1 von 38
Downloaden Sie, um offline zu lesen
Arquitecturas de Tradu¸˜o Autom´tica
                      ca         a
                TA baseada em regras
               TA orientada aos dados
                           Conclus˜es
                                   o




 Abordagens na Tradu¸˜o Autom´tica
                    ca       a

             Alberto Manuel Brand˜o Sim˜es
                                 a     o
                  ambs@di.uminho.pt



               Escola de Ver˜o – Junho 2009
                            a




                      Alberto Sim˜es
                                 o      Abordagens na Tradu¸˜o Autom´tica
                                                           ca       a       (1/38)
Arquitecturas de Tradu¸˜o Autom´tica
                               ca         a
                         TA baseada em regras
                        TA orientada aos dados
                                    Conclus˜es
                                            o




1   Arquitecturas de Tradu¸˜o Autom´tica
                          ca       a

2   TA baseada em regras
      Sistemas de Tradu¸˜o Directa
                       ca
      Sistemas de Tradu¸˜o por Transferˆncia
                       ca               e
      Sistemas de Tradu¸˜o por Interl´
                       ca            ıngua

3   TA orientada aos dados
      Sistemas de Tradu¸˜o Estat´
                       ca       ıstica
      Sistemas de Tradu¸˜o baseada em Exemplos
                       ca

4   Conclus˜es
           o



                               Alberto Sim˜es
                                          o      Abordagens na Tradu¸˜o Autom´tica
                                                                    ca       a       (2/38)
Arquitecturas de Tradu¸˜o Autom´tica
                         ca         a
                   TA baseada em regras
                  TA orientada aos dados
                              Conclus˜es
                                      o


Arquitecturas de Tradu¸˜o Autom´tica
                      ca       a

Tradu¸˜o Baseada em Regras
      ca
(Rule-Based Machine Translation)

    Tradu¸˜o directa (direct MT);
         ca
    Tradu¸˜o por transferˆncia (transfer MT);
         ca               e
    Tradu¸˜o por interl´
         ca            ıngua (interlingua MT);


Tradu¸˜o Orientada a Dados
     ca
(Data-Driven Machine Translation)

    Tradu¸˜o estat´
         ca        ıstica (Statistical MT);
    Tradu¸˜o baseada em exemplos (Example-Based MT);
         ca
    Solu¸˜es h´
        co    ıbridas...


                         Alberto Sim˜es
                                    o      Abordagens na Tradu¸˜o Autom´tica
                                                              ca       a       (3/38)
Arquitecturas de Tradu¸˜o Autom´tica
                              ca         a
                        TA baseada em regras
                       TA orientada aos dados
                                   Conclus˜es
                                           o


   Sistemas baseados em regras


Baseados em:
    modelos formais de tradu¸˜o;
                            ca
    conhecimento “lingu´
                       ıstico”;
Problemas:
    caros e trabalhosos (batalh˜es de linguistas);
                               o
    baseiam-se em conhecimento preciso (e quem o tem? );
Vantagens:
    previs´
          ıveis (as regras s˜o analis´veis);
                            a        a
    erros f´ceis de detectar e corrigir;
           a



                              Alberto Sim˜es
                                         o      Abordagens na Tradu¸˜o Autom´tica
                                                                   ca       a       (4/38)
Arquitecturas de Tradu¸˜o Autom´tica
                              ca         a
                        TA baseada em regras
                       TA orientada aos dados
                                   Conclus˜es
                                           o


   Sistemas orientados aos dados
Baseados em:
    dados (corpora);
    t´cnicas de aprendizagem;
     e
Problemas:
    poucos dados ou dados parciais;
    (corpora pequenos, corpora enviesados, ...)
    dados com pouca qualidade;
    (fracas tradu¸˜es, maus alinhamentos, ...)
                 co
Vantagens:
    precisam de pouca m˜o-de-obra;
                       a
    s˜o concili´veis com sistemas baseados em regras;
     a         a
    (e vice-versa, claro...)

                              Alberto Sim˜es
                                         o      Abordagens na Tradu¸˜o Autom´tica
                                                                   ca       a       (5/38)
Arquitecturas de Tradu¸˜o Autom´tica
                                ca         a
                          TA baseada em regras
                         TA orientada aos dados
                                     Conclus˜es
                                             o


   Ferramentas PLN na TA

A implementa¸˜o de qualquer uma destas abordagens requer
              ca
ferramentas de processamento de linguagem natural robustas para
as l´
    ınguas envolvidas, como sejam:
    Anotadores de Part-of-Speech e lematizadores;
    Analisadores sint´cticos (parsers);
                     a
    Classificadores semˆnticos;
                      a
    Desambigua¸˜o de sentidos;
              ca
    Reconhecimento de Entidades Mencionadas;
    Extrac¸˜o de Informa¸˜o;
          ca            ca
    ...


                                Alberto Sim˜es
                                           o      Abordagens na Tradu¸˜o Autom´tica
                                                                     ca       a       (6/38)
Arquitecturas de Tradu¸˜o Autom´tica
                         ca         a
                                            Sistemas de Tradu¸˜o Directa
                                                             ca
                   TA baseada em regras
                                            Sistemas de Tradu¸˜o por Transferˆncia
                                                             ca               e
                  TA orientada aos dados
                                            Sistemas de Tradu¸˜o por Interl´
                                                             ca            ıngua
                              Conclus˜es
                                      o


Sistemas baseados em regras

                                    Interlíngua




         Semântica L.O.                               Semântica L.D.




                                                        ge
                       se




                                                           ra
                      áli




                                                          çã
                    an




                                                            o
   Sintaxe L.O.                                                   Sintaxe L.D.




   Texto origem                                                 Texto destino
                                tradução directa

                             (representa¸˜o t´
                                        ca ıpica)

                         Alberto Sim˜es
                                    o       Abordagens na Tradu¸˜o Autom´tica
                                                               ca       a            (7/38)
Arquitecturas de Tradu¸˜o Autom´tica
                         ca         a
                                           Sistemas de Tradu¸˜o Directa
                                                            ca
                   TA baseada em regras
                                           Sistemas de Tradu¸˜o por Transferˆncia
                                                            ca               e
                  TA orientada aos dados
                                           Sistemas de Tradu¸˜o por Interl´
                                                            ca            ıngua
                              Conclus˜es
                                      o


Sistemas de Tradu¸˜o Directa
                 ca




                                Análise e Síntese
      Texto                                                          Texto
       L.O.                                                           L.D.


                                  L.O. -> L.D.
                            dicionários e gramáticas




                         Alberto Sim˜es
                                    o      Abordagens na Tradu¸˜o Autom´tica
                                                              ca       a            (8/38)
Arquitecturas de Tradu¸˜o Autom´tica
                          ca         a
                                            Sistemas de Tradu¸˜o Directa
                                                             ca
                    TA baseada em regras
                                            Sistemas de Tradu¸˜o por Transferˆncia
                                                             ca               e
                   TA orientada aos dados
                                            Sistemas de Tradu¸˜o por Interl´
                                                             ca            ıngua
                               Conclus˜es
                                       o


Sistemas de Tradu¸˜o Directa
                 ca

Tradu¸˜o realizada palavra-a-palavra;
     ca

Pouca an´lise ao texto na l´
         a                  ıngua de origem
(sem an´lise sint´ctica ou semˆntica)
       a         a             a

Baseia-se em grandes dicion´rios bilingues:
                            a
para cada palavra na l´
                      ıngua de origem, o dicion´rio especifica
                                               a
um conjunto de regras para traduzir essa palavra

Ap´s a tradu¸˜o das palavras, ´ realizada reordena¸˜o simples;
   o        ca                 e                  ca
(por exemplo, a t´
                 ıpica troca de ordem de nomes e adjectivos).
Todo este processamento ´ realizado numa janela deslizante
                        e
com um n´mero fixo de palavras.
         u


                          Alberto Sim˜es
                                     o      Abordagens na Tradu¸˜o Autom´tica
                                                               ca       a            (9/38)
Arquitecturas de Tradu¸˜o Autom´tica
                              ca         a
                                                Sistemas de Tradu¸˜o Directa
                                                                 ca
                        TA baseada em regras
                                                Sistemas de Tradu¸˜o por Transferˆncia
                                                                 ca               e
                       TA orientada aos dados
                                                Sistemas de Tradu¸˜o por Interl´
                                                                 ca            ıngua
                                   Conclus˜es
                                           o


   Sistemas de Tradu¸˜o Directa
                    ca

Regras para a tradu¸˜o de much ou many para Russo:
                   ca

Se precedida por how ⇒ skol’ko
Sen˜o se precedida por as ⇒ stol’ko zhe
   a
Sen˜o se a palavra ´ much
   a               e
    Se precedida por very ⇒⊥
    Sen˜o se seguida por um nome ⇒ mnogo
        a
Sen˜o (a palavra ´ many )
   a             e
    Se precedida por preposi¸˜o e seguida por nome ⇒ mnogii
                            ca
    Sen˜o ⇒ mnogo
        a

                                   Retirado de Jurafsky e Martin, edi¸˜o 2, cap´
                                                                     ca        ıtulo 25.
                                          Originalmente de um sistema de Panov, 1960.



                              Alberto Sim˜es
                                         o      Abordagens na Tradu¸˜o Autom´tica
                                                                   ca       a            (10/38)
Arquitecturas de Tradu¸˜o Autom´tica
                          ca         a
                                            Sistemas de Tradu¸˜o Directa
                                                             ca
                    TA baseada em regras
                                            Sistemas de Tradu¸˜o por Transferˆncia
                                                             ca               e
                   TA orientada aos dados
                                            Sistemas de Tradu¸˜o por Interl´
                                                             ca            ıngua
                               Conclus˜es
                                       o


Sistemas de Tradu¸˜o Directa – Vantagens
                 ca



simples de aplicar t´cnicas de aprendizagem autom´tica;
                     e                           a
(inferir regras a partir de corpora paralelos)

simples de aproveitar similaridades entre l´
                                           ınguas:
    a similaridade n˜o ´ acidental (raz˜es geogr´ficas e hist´ricas);
                    a e                o        a           o
    relativamente simples de obter um sistema directo com
    tradu¸˜o de qualidade para l´
          ca                     ınguas pr´ximas;
                                          o




                          Alberto Sim˜es
                                     o      Abordagens na Tradu¸˜o Autom´tica
                                                               ca       a            (11/38)
Arquitecturas de Tradu¸˜o Autom´tica
                          ca         a
                                            Sistemas de Tradu¸˜o Directa
                                                             ca
                    TA baseada em regras
                                            Sistemas de Tradu¸˜o por Transferˆncia
                                                             ca               e
                   TA orientada aos dados
                                            Sistemas de Tradu¸˜o por Interl´
                                                             ca            ıngua
                               Conclus˜es
                                       o


Sistemas de Tradu¸˜o Directa – Problemas
                 ca

´ ıcil
E dif´ (ou imposs´
                 ıvel) de detectar reordenamentos longos:

EN: Sources said that IBM bought Lotus yesterday.
JP: Sources yesterday IBM Lotus bought that said

As palavras s˜o traduzidas sem desambigua¸˜o da sua fun¸˜o
             a                              ca            ca
sint´ctica;
    a
As regras s˜o t´cticas e n˜o estrat´gicas (n˜o generalizam):
            a a           a        e        a
    pouca relevˆncia lingu´
               a          ıstica;
Dif´ de manter (sistemas grandes):
   ıcil
    interac¸˜o entre um grande n´mero de regras;
           ca                   u
    as regras n˜o s˜o completamente independentes;
               a a
N˜o h´ reutiliza¸˜o de c´digo!
 a a            ca      o

                          Alberto Sim˜es
                                     o      Abordagens na Tradu¸˜o Autom´tica
                                                               ca       a            (12/38)
Arquitecturas de Tradu¸˜o Autom´tica
                         ca         a
                                                Sistemas de Tradu¸˜o Directa
                                                                 ca
                   TA baseada em regras
                                                Sistemas de Tradu¸˜o por Transferˆncia
                                                                 ca               e
                  TA orientada aos dados
                                                Sistemas de Tradu¸˜o por Interl´
                                                                 ca            ıngua
                              Conclus˜es
                                      o


Sistemas de Tradu¸˜o Directa
                 ca


                   ınguas, 5 × 4 = 20 tradutores!
           Para 5 l´


                     L1                                       L2



         L3                                                                L4


                                           L5



                         Alberto Sim˜es
                                    o           Abordagens na Tradu¸˜o Autom´tica
                                                                   ca       a            (13/38)
Arquitecturas de Tradu¸˜o Autom´tica
                         ca         a
                                                Sistemas de Tradu¸˜o Directa
                                                                 ca
                   TA baseada em regras
                                                Sistemas de Tradu¸˜o por Transferˆncia
                                                                 ca               e
                  TA orientada aos dados
                                                Sistemas de Tradu¸˜o por Interl´
                                                                 ca            ıngua
                              Conclus˜es
                                      o


Sistemas de Tradu¸˜o por Transferˆncia
                 ca              e



               análise                 transferência               síntese
    Texto                    repres.                   repres.                   Texto
     L.O.                      L.O.                      L.D.                     L.D.



            dicionários e                                        dicionários e
                                       dicionários
             gramáticas                                           gramáticas
                                       L.O. -> L.D.
                 L.O.                                                 L.D.

                                         regras de
                                       transferência




                            Alberto Sim˜es
                                       o        Abordagens na Tradu¸˜o Autom´tica
                                                                   ca       a            (14/38)
Arquitecturas de Tradu¸˜o Autom´tica
                              ca         a
                                                Sistemas de Tradu¸˜o Directa
                                                                 ca
                        TA baseada em regras
                                                Sistemas de Tradu¸˜o por Transferˆncia
                                                                 ca               e
                       TA orientada aos dados
                                                Sistemas de Tradu¸˜o por Interl´
                                                                 ca            ıngua
                                   Conclus˜es
                                           o


    Sistemas de Tradu¸˜o por Transferˆncia
                     ca              e

Trˆs (ou cinco) fases na tradu¸˜o:
  e                           ca
1.a An´lise Morfol´gica
      a           o
    PalavraA −→ (LemaA + Categoria + Propriedades)
1.b Classifica¸˜o Lexical
             ca
    (LemaA + Cat + Prop) −→ LemaA + Cat + Prop + Significado
2.a Transferˆncia Lexical
            e
    LemaA + Cat + Prop + Sign −→ LemaB + Cat + Prop
2.b Transferˆncia Estrutural
            e
    ajuste de concordˆncias (g´nero e n´mero), reordenamento de
                     a        e        u
    palavras e sintagmas.
 3 Gera¸˜o Morfol´gica
       ca        o
    LemaB + Categoria + Propriedades −→ PalavraB

                              Alberto Sim˜es
                                         o      Abordagens na Tradu¸˜o Autom´tica
                                                                   ca       a            (15/38)
Arquitecturas de Tradu¸˜o Autom´tica
                          ca         a
                                            Sistemas de Tradu¸˜o Directa
                                                             ca
                    TA baseada em regras
                                            Sistemas de Tradu¸˜o por Transferˆncia
                                                             ca               e
                   TA orientada aos dados
                                            Sistemas de Tradu¸˜o por Interl´
                                                             ca            ıngua
                               Conclus˜es
                                       o


Sistemas de Tradu¸˜o por Transferˆncia
                 ca              e


As ´rvores de parsing podem variar de simples an´lises
    a                                           a
superficiais at´ an´lises mais profundas.
              e a
(incluindo mesmo representa¸˜es semˆnticas);
                             co       a

As regras de transferˆncia podem ser compar´veis `s regras
                     e                     a     a
dos sistemas directos, mas podem operar sobre estruturas
sint´cticas.
    a
(ou mesmo semˆnticas)
                a

Torna-se mais simples a detec¸˜o de reordena¸˜o a longa
                             ca             ca
distˆncia.
    a



                          Alberto Sim˜es
                                     o      Abordagens na Tradu¸˜o Autom´tica
                                                               ca       a            (16/38)
Arquitecturas de Tradu¸˜o Autom´tica
                            ca         a
                                              Sistemas de Tradu¸˜o Directa
                                                               ca
                      TA baseada em regras
                                              Sistemas de Tradu¸˜o por Transferˆncia
                                                               ca               e
                     TA orientada aos dados
                                              Sistemas de Tradu¸˜o por Interl´
                                                               ca            ıngua
                                 Conclus˜es
                                         o


 Sistemas de Tradu¸˜o por Transferˆncia
                  ca              e

                      Exemplo de tradu¸˜o (l´
                                      ca    ıngua origem)
             S
          €€
                   €€
 NP                      VP
                 €€€
                     €
sources    VB                      SBAR-A
                              $$ˆˆˆ
                           $$
                           $       ˆˆ
           said      COMP                             S
                                             $$ˆˆˆ
                                          $$
                                          $        ˆ
                                                   ˆ
                        that          NP-A                         VP
                                                          $ˆ
                                                      $ $ ¤¤ ˆˆˆ
                                                      $ $      ˆ
                                       IBM         VB           NP-A               NP

                                                 bought          Lotus        yesterday

                            Alberto Sim˜es
                                       o      Abordagens na Tradu¸˜o Autom´tica
                                                                 ca       a             (17/38)
Arquitecturas de Tradu¸˜o Autom´tica
                            ca         a
                                                Sistemas de Tradu¸˜o Directa
                                                                 ca
                      TA baseada em regras
                                                Sistemas de Tradu¸˜o por Transferˆncia
                                                                 ca               e
                     TA orientada aos dados
                                                Sistemas de Tradu¸˜o por Interl´
                                                                 ca            ıngua
                                 Conclus˜es
                                         o


 Sistemas de Tradu¸˜o por Transferˆncia
                  ca              e

                      Exemplo de tradu¸˜o (l´
                                      ca    ıngua destino)
                                     S
            @@@hhhhhh
       @@@@           hhh
   @ @@
    @                     hh
 NP                                                                  VP ⇔
                                                                    $$ˆˆˆ
                                                         $$$                             ˆˆ
sources                                         SBAR-A ⇔
                                                   2–                                     VB
                                        2         2          –––
                                     222                                ––
                                    S                                    COMP             said
                      $$ˆˆˆˆ
                  $ $
                  $$        ˆˆ
               NP             NP-A                VP ⇔                     that
                                                    4˜
                                                4          ˜
           yesterday           IBM            NP-A          VB

                                              Lotus      bought
                            Alberto Sim˜es
                                       o        Abordagens na Tradu¸˜o Autom´tica
                                                                   ca       a              (18/38)
Arquitecturas de Tradu¸˜o Autom´tica
                           ca         a
                                              Sistemas de Tradu¸˜o Directa
                                                               ca
                     TA baseada em regras
                                              Sistemas de Tradu¸˜o por Transferˆncia
                                                               ca               e
                    TA orientada aos dados
                                              Sistemas de Tradu¸˜o por Interl´
                                                               ca            ıngua
                                Conclus˜es
                                        o


Dicion´rios: tradu¸˜o directa vs transferˆncia
      a           ca                     e
     Directa                                            Transferˆncia
                                                                 e
   1 dicion´rio
           a                                             3 dicion´rios
                                                                 a
   RU → EN
                                                      RU
                                                     num → plural
primer     → example                         primer → cat → nome
                                                       lem → primer
                                                     
primery    → examples
                                                           RU → EN
                                                   primer      → example
                                                               EN
                                             lem    →      example
                                                                    → example
                                             num    →      singular
                                             lem    →      example
                                                                    → examples
                                             num    →       plural

                           Alberto Sim˜es
                                      o       Abordagens na Tradu¸˜o Autom´tica
                                                                 ca       a            (19/38)
Arquitecturas de Tradu¸˜o Autom´tica
                           ca         a
                                              Sistemas de Tradu¸˜o Directa
                                                               ca
                     TA baseada em regras
                                              Sistemas de Tradu¸˜o por Transferˆncia
                                                               ca               e
                    TA orientada aos dados
                                              Sistemas de Tradu¸˜o por Interl´
                                                               ca            ıngua
                                Conclus˜es
                                        o


Dicion´rios: tradu¸˜o directa vs transferˆncia
      a           ca                     e
     Directa                                          Transferˆncia
                                                               e
 1 novo dicion´rio
              a                                     2 novos dicion´rios
                                                                  a
    RU → ES
                                                      RU
                                                     num → plural
primer     → ejemplo                         primer → cat → nome
                                                       lem → primer
                                                     
primery    → ejemplos
                                                           RU → ES
                                                   primer      → ejemplo
                                                               EN
                                             lem    →      ejemplo
                                                                    → ejemplo
                                             num    →      singular
                                             lem    →      ejemplo
                                                                    → ejemplos
                                             num    →       plural

                           Alberto Sim˜es
                                      o       Abordagens na Tradu¸˜o Autom´tica
                                                                 ca       a            (20/38)
Arquitecturas de Tradu¸˜o Autom´tica
                          ca         a
                                            Sistemas de Tradu¸˜o Directa
                                                             ca
                    TA baseada em regras
                                            Sistemas de Tradu¸˜o por Transferˆncia
                                                             ca               e
                   TA orientada aos dados
                                            Sistemas de Tradu¸˜o por Interl´
                                                             ca            ıngua
                               Conclus˜es
                                       o


Vantagens dos sitemas de Transferˆncia
                                 e


Os m´dulos de an´lise e s´
    o           a        ıntese s˜o reutiliz´veis:
                                 a          a
    separa¸˜o de informa¸˜o espec´
           ca            ca       ıfica da l´
                                           ıngua da informa¸˜o
                                                           ca
    multilingue;
    opera¸˜es realizadas num nivel superior de abstrac¸˜o;
          co                                          ca
As regras podem ser generalizadas tendo em conta
propriedades morfol´gicas, lexemas, configura¸˜es de ´rvores
                   o                          co    a
de parsing, etc.
´
E poss´ aceder a propriedades lingu´
       ıvel                          ısticas para
desambigua¸˜o.
            ca




                          Alberto Sim˜es
                                     o      Abordagens na Tradu¸˜o Autom´tica
                                                               ca       a            (21/38)
Arquitecturas de Tradu¸˜o Autom´tica
                                 ca         a
                                                    Sistemas de Tradu¸˜o Directa
                                                                     ca
                           TA baseada em regras
                                                    Sistemas de Tradu¸˜o por Transferˆncia
                                                                     ca               e
                          TA orientada aos dados
                                                    Sistemas de Tradu¸˜o por Interl´
                                                                     ca            ıngua
                                      Conclus˜es
                                              o


       Sistemas de Tradu¸˜o por Transferˆncia
                        ca              e

        ınguas, 5 × 6 = 30
Para 5 l´
m´dulos:
 o
    5 abstractores / parsers;
                                                      L1                                           L2
    5 × 4 m´dulos de
            o
                                                                 IR1                   IR2
    transferˆncia;
            e
    5 geradores;
                                               L3          IR3                               IR4         L4


Mais m´dulos que num
         o                                                                  IR5
sistema de tradu¸˜o directa,
                 ca
mas mais pequenos, simples,
e reutiliz´veis.
          a                                                                 L5




                                 Alberto Sim˜es
                                            o       Abordagens na Tradu¸˜o Autom´tica
                                                                       ca       a              (22/38)
Arquitecturas de Tradu¸˜o Autom´tica
                         ca         a
                                           Sistemas de Tradu¸˜o Directa
                                                            ca
                   TA baseada em regras
                                           Sistemas de Tradu¸˜o por Transferˆncia
                                                            ca               e
                  TA orientada aos dados
                                           Sistemas de Tradu¸˜o por Interl´
                                                            ca            ıngua
                              Conclus˜es
                                      o


Sistemas de Tradu¸˜o por Interl´
                 ca            ıngua




                   análise                             síntese
     Texto                        Representação                        Texto
      L.O.                         inter-língua                         L.D.




                dicionários e                       dicionários e
                 gramáticas                          gramáticas
                     L.O                                 L.D.




                         Alberto Sim˜es
                                    o      Abordagens na Tradu¸˜o Autom´tica
                                                              ca       a            (23/38)
Arquitecturas de Tradu¸˜o Autom´tica
                              ca         a
                                                Sistemas de Tradu¸˜o Directa
                                                                 ca
                        TA baseada em regras
                                                Sistemas de Tradu¸˜o por Transferˆncia
                                                                 ca               e
                       TA orientada aos dados
                                                Sistemas de Tradu¸˜o por Interl´
                                                                 ca            ıngua
                                   Conclus˜es
                                           o


    Sistemas de Tradu¸˜o por Interl´
                     ca            ıngua

Duas fases no processo de tradu¸˜o:
                               ca
    An´lise
       a
    A frase na l´
                ıngua de origem ´ analisada e ´ criada uma
                                e             e
    representa¸˜o (independente de l´
              ca                    ıngua) do seu significado.

    Gera¸˜o
        ca
    A representa¸˜o semˆntica ´ convertida numa frase na l´
                ca     a      e                           ıngua
    de destino.



Teoricamente n˜o existe informa¸˜o bilingue no sistema.
              a                ca


                              Alberto Sim˜es
                                         o      Abordagens na Tradu¸˜o Autom´tica
                                                                   ca       a            (24/38)
Arquitecturas de Tradu¸˜o Autom´tica
                              ca         a
                                                Sistemas de Tradu¸˜o Directa
                                                                 ca
                        TA baseada em regras
                                                Sistemas de Tradu¸˜o por Transferˆncia
                                                                 ca               e
                       TA orientada aos dados
                                                Sistemas de Tradu¸˜o por Interl´
                                                                 ca            ıngua
                                   Conclus˜es
                                           o


   Sistemas de Tradu¸˜o por Interl´
                    ca            ıngua

Uma vantagem:
    para cada l´
               ıngua adicionada ao sistema ´ necess´rio
                                           e       a
    desenvolver apenas um m´dulo de an´lise e um de gera¸˜o;
                             o           a              ca


Uma maior desvantagem:
   qual seria a representa¸˜o independente de l´
                          ca                   ıngua?
         como representar os conceitos?
         l´
          ınguas diferentes tˆm conceitos diferentes
                             e
         (3 vs n formas de classificar neve)
         ser´ que a representa¸˜o independente ´ a intersec¸˜o ou a
            a                  ca                e         ca
         uni˜o de todos estes conceitos?
             a



                              Alberto Sim˜es
                                         o      Abordagens na Tradu¸˜o Autom´tica
                                                                   ca       a            (25/38)
Arquitecturas de Tradu¸˜o Autom´tica
                              ca         a
                                                     Sistemas de Tradu¸˜o Directa
                                                                      ca
                        TA baseada em regras
                                                     Sistemas de Tradu¸˜o por Transferˆncia
                                                                      ca               e
                       TA orientada aos dados
                                                     Sistemas de Tradu¸˜o por Interl´
                                                                      ca            ıngua
                                   Conclus˜es
                                           o


   Sistemas de Tradu¸˜o por Interl´
                    ca            ıngua
        ınguas, 5 × 2 = 10 m´dulos:
Para 5 l´                     o
    5 abstractores / parsers;
    5 geradores;

                             L1                                  L2


                                                IL
                  L3                                                       L4


                                                L5

         Infelizmente a ideia de interl´
                                       ıngua n˜o ´ realista.
                                              a e

                              Alberto Sim˜es
                                         o           Abordagens na Tradu¸˜o Autom´tica
                                                                        ca       a            (26/38)
Arquitecturas de Tradu¸˜o Autom´tica
                         ca         a
                   TA baseada em regras    Sistemas de Tradu¸˜o Estat´
                                                            ca       ıstica
                  TA orientada aos dados   Sistemas de Tradu¸˜o baseada em Exemplos
                                                            ca
                              Conclus˜es
                                      o


Sistemas orientados aos dados

                               tradução à palavra




            matching                                      recombinação
                             tradução de segmento




                           exemplo exacto existente

   Texto origem                                              Texto destino

                             (representa¸˜o t´
                                        ca ıpica)

                         Alberto Sim˜es
                                    o      Abordagens na Tradu¸˜o Autom´tica
                                                              ca       a              (27/38)
Arquitecturas de Tradu¸˜o Autom´tica
                         ca         a
                   TA baseada em regras      Sistemas de Tradu¸˜o Estat´
                                                              ca       ıstica
                  TA orientada aos dados     Sistemas de Tradu¸˜o baseada em Exemplos
                                                              ca
                              Conclus˜es
                                      o


Tradu¸˜o Estat´
     ca       ıstica

                    Texto
                                                        Texto na
                   bilingue
                                                          L.D.
                  L.O. / L.D.


                                    Candidatos a
     Texto                                                             Texto
                                     Tradução
      L.O.                                                              L.D.
                  análise             na L.D.            análise
                 estatíistica                           estatística


                 Modelo de                                Modelo
                 tradução                               linguístico



                                Algoritmo de tradução
                                argmaxe P(e) x P(s|e)




                                                                         (Knight, 2004a)
                         Alberto Sim˜es
                                    o        Abordagens na Tradu¸˜o Autom´tica
                                                                ca       a              (28/38)
Arquitecturas de Tradu¸˜o Autom´tica
                               ca         a
                         TA baseada em regras    Sistemas de Tradu¸˜o Estat´
                                                                  ca       ıstica
                        TA orientada aos dados   Sistemas de Tradu¸˜o baseada em Exemplos
                                                                  ca
                                    Conclus˜es
                                            o


    Modelo do Canal Ruidoso (Noisy Channel Model)

Pretende-se um modelo P(e|f ) que estima a probabilidade
condicional de uma frase (tradu¸˜o) e na l´
                               ca         ıngua E , dada a frase f
na l´
    ıngua F .
    Modelo de L´
               ıngua
         dado um segmento e na L.D. (p.e. inglˆs), calcular P(e);
                                              e
         um segmento de bom inglˆs, ent˜o P(e) ´ elevada;
                                e      a        e
         um segmento de mau inglˆs, ent˜o P(e) ´ baixa;
                                e      a        e
    Modelo de Tradu¸˜o
                   ca
         dado um par de segmentos, f , e , calcular P(f |e);
         se f , e parecem-se com tradu¸˜es, ent˜o P(f |e) ´ elevada;
                                      co        a          e
         se f , e n˜o se parecem com tradu¸˜o, ent˜o P(f |e) ´ baixa;
                   a                       ca       a         e
Pretende-se estimar: arg maxe P(e|f ) = arg maxe P(e)P(f |e)


                               Alberto Sim˜es
                                          o      Abordagens na Tradu¸˜o Autom´tica
                                                                    ca       a              (29/38)
Arquitecturas de Tradu¸˜o Autom´tica
                          ca         a
                    TA baseada em regras    Sistemas de Tradu¸˜o Estat´
                                                             ca       ıstica
                   TA orientada aos dados   Sistemas de Tradu¸˜o baseada em Exemplos
                                                             ca
                               Conclus˜es
                                       o


Ainda sobre este modelo



Modelo de L´
           ıngua

Pode ser implementado baseado em trigramas, e estimado de
qualquer corpus (n˜o necessariamente paralelo);
                  a

Modelo de Tradu¸˜o
               ca
´
E treinado a partir de um corpus paralelo nas l´
                                               ınguas em
causa.




                          Alberto Sim˜es
                                     o      Abordagens na Tradu¸˜o Autom´tica
                                                               ca       a              (30/38)
Arquitecturas de Tradu¸˜o Autom´tica
                          ca         a
                    TA baseada em regras    Sistemas de Tradu¸˜o Estat´
                                                             ca       ıstica
                   TA orientada aos dados   Sistemas de Tradu¸˜o baseada em Exemplos
                                                             ca
                               Conclus˜es
                                       o


Exemplo do processo SMT



Frase original:
                 Que hambre tengo yo

Gera¸˜o estat´
    ca       ıstica de tradu¸˜es:
                            co
                 What hunger have I
                 Hungry I am so
                 I am so hungry
                 Have I that hunger




                          Alberto Sim˜es
                                     o      Abordagens na Tradu¸˜o Autom´tica
                                                               ca       a              (31/38)
Arquitecturas de Tradu¸˜o Autom´tica
                          ca         a
                    TA baseada em regras    Sistemas de Tradu¸˜o Estat´
                                                             ca       ıstica
                   TA orientada aos dados   Sistemas de Tradu¸˜o baseada em Exemplos
                                                             ca
                               Conclus˜es
                                       o


Exemplo do processo SMT



                          Que hambre tengo yo

Gera¸˜o estat´
    ca       ıstica de tradu¸˜es com c´lculo da probabilidade
                            co        a
usando apenas o modelo de tradu¸˜o:
                                  ca

                     What hunger have I               0.0000140
                     Hungry I am so                   0.0000010
                     I am so hungry                   0.0000015
                     Have I that hunger               0.0000200




                          Alberto Sim˜es
                                     o      Abordagens na Tradu¸˜o Autom´tica
                                                               ca       a              (32/38)
Arquitecturas de Tradu¸˜o Autom´tica
                          ca         a
                    TA baseada em regras    Sistemas de Tradu¸˜o Estat´
                                                             ca       ıstica
                   TA orientada aos dados   Sistemas de Tradu¸˜o baseada em Exemplos
                                                             ca
                               Conclus˜es
                                       o


Exemplo do processo SMT

                          Que hambre tengo yo

Gera¸˜o estat´
    ca       ıstica de tradu¸˜es e avalia¸˜o com modelo
                            co           ca
completo:
         What hunger have I                 0.0000140 × 0.00000100
         Hungry I am so                     0.0000010 × 0.00000140
         I am so hungry                     0.0000015 × 0.00010000
         Have I that hunger                 0.0000200 × 0.00000098

Valida¸˜o arg maxe P(e) × P(s|e)
      ca
                 I am so hungry

                                                                        (Knight, 2004a)

                          Alberto Sim˜es
                                     o      Abordagens na Tradu¸˜o Autom´tica
                                                               ca       a              (33/38)
Arquitecturas de Tradu¸˜o Autom´tica
                         ca         a
                   TA baseada em regras    Sistemas de Tradu¸˜o Estat´
                                                            ca       ıstica
                  TA orientada aos dados   Sistemas de Tradu¸˜o baseada em Exemplos
                                                            ca
                              Conclus˜es
                                      o


Tradu¸˜o baseada em exemplos
     ca




                     Texto
                    bilingue                         Corpora
                   L.O. / L.D.


     Texto                          Fragmentos                        Texto
      L.O.                             L.D.                            L.D.
                   matching                       recombinação




                         Alberto Sim˜es
                                    o      Abordagens na Tradu¸˜o Autom´tica
                                                              ca       a              (34/38)
Arquitecturas de Tradu¸˜o Autom´tica
                              ca         a
                        TA baseada em regras    Sistemas de Tradu¸˜o Estat´
                                                                 ca       ıstica
                       TA orientada aos dados   Sistemas de Tradu¸˜o baseada em Exemplos
                                                                 ca
                                   Conclus˜es
                                           o


   Problemas na EBMT



Principais problemas da EBMT:
    procurar as maiores concordˆncias (matches) exactas de
                                a
    por¸˜es de texto a ser traduzido;
       co
    combinar as tradu¸˜es posteriormente;
                     co
    e, para que isto funcione, ´ preciso determinar que peda¸o da
                               e                            c
    tradu¸˜o na base de exemplos corresponde ` por¸˜o de texto
          ca                                    a    ca
    que foi realmente encontrado (matched).




                              Alberto Sim˜es
                                         o      Abordagens na Tradu¸˜o Autom´tica
                                                                   ca       a              (35/38)
Arquitecturas de Tradu¸˜o Autom´tica
                              ca         a
                        TA baseada em regras    Sistemas de Tradu¸˜o Estat´
                                                                 ca       ıstica
                       TA orientada aos dados   Sistemas de Tradu¸˜o baseada em Exemplos
                                                                 ca
                                   Conclus˜es
                                           o


    EBMT vs SMT
Os sistemas baseados em estat´ıstica, sendo baseados em corpora,
est˜o muito perto dos sistemas baseados em exemplos:
   a
    tal como os baseados em exemplos, s˜o treinados em corpora
                                       a
    paralelos;
    ao contr´rio dos baseados em exemplos, n˜o armazenam os
            a                               a
    exemplos originais depois de treinados;

                                                                              (Brown, 2002)

Embora tenha existido uma separa¸˜o inicial na abordagem, cada
                                 ca
vez mais se fala em Tradu¸˜o Estat´
                         ca       ıstica ou Tradu¸˜o Baseada em
                                                  ca
Dados referindo-se ao uso conjunto destas t´cnicas.
                                           e
                                                                             (Sim˜es, 2009)
                                                                                 o


                              Alberto Sim˜es
                                         o      Abordagens na Tradu¸˜o Autom´tica
                                                                   ca       a              (36/38)
Arquitecturas de Tradu¸˜o Autom´tica
                              ca         a
                        TA baseada em regras
                       TA orientada aos dados
                                   Conclus˜es
                                           o


   Ferramentas Concretas
Tradu¸˜o baseada em regras
     ca
    tradu¸˜o directa;
          ca
    (Systran, originalmente)
    tradu¸˜o por regras de transferˆncia;
          ca                       e
    (Systran, Logos/OpenLogos, Reverso, Apertium)
    tradu¸˜o interl´
          ca        ıngua;
    (EUROTRA)
Tradu¸˜o orientada aos dados
     ca
    tradu¸˜o estat´
          ca       ıstica;
    (Pharaoh/Moses/Phramer)
    tradu¸˜o baseada em exemplos;
          ca
    (Gaijin/MaTrEx, EDGAR)
Abordagens H´ıbridas
(Pangloss Mark III)
                              Alberto Sim˜es
                                         o      Abordagens na Tradu¸˜o Autom´tica
                                                                   ca       a       (37/38)
Arquitecturas de Tradu¸˜o Autom´tica
                          ca         a
                    TA baseada em regras
                   TA orientada aos dados
                               Conclus˜es
                                       o


Conclus˜es
       o



Aproveitar experiˆncia das abordagens baseadas em regras:
                 e
    regras j´ destiladas;
            a
    recursos j´ produzidos;
              a
Aproveitar recursos bilingues existentes:
    extrair dicion´rios;
                  a
    extrair regras de tradu¸˜o;
                              ca
    extrair dados estat´ ısticos sobre a tradu¸˜o
                                              ca
Unir abordagens para ter sucesso.




                          Alberto Sim˜es
                                     o      Abordagens na Tradu¸˜o Autom´tica
                                                               ca       a       (38/38)

Weitere ähnliche Inhalte

Mehr von Alberto Simões

Language Identification: A neural network approach
Language Identification: A neural network approachLanguage Identification: A neural network approach
Language Identification: A neural network approachAlberto Simões
 
Making the most of a 100-year-old dictionary
Making the most of a 100-year-old dictionaryMaking the most of a 100-year-old dictionary
Making the most of a 100-year-old dictionaryAlberto Simões
 
Dictionary Alignment by Rewrite-based Entry Translation
Dictionary Alignment by Rewrite-based Entry TranslationDictionary Alignment by Rewrite-based Entry Translation
Dictionary Alignment by Rewrite-based Entry TranslationAlberto Simões
 
Aula 04 - Introdução aos Diagramas de Sequência
Aula 04 - Introdução aos Diagramas de SequênciaAula 04 - Introdução aos Diagramas de Sequência
Aula 04 - Introdução aos Diagramas de SequênciaAlberto Simões
 
Aula 03 - Introdução aos Diagramas de Atividade
Aula 03 - Introdução aos Diagramas de AtividadeAula 03 - Introdução aos Diagramas de Atividade
Aula 03 - Introdução aos Diagramas de AtividadeAlberto Simões
 
Aula 02 - Engenharia de Requisitos
Aula 02 - Engenharia de RequisitosAula 02 - Engenharia de Requisitos
Aula 02 - Engenharia de RequisitosAlberto Simões
 
Aula 01 - Planeamento de Sistemas de Informação
Aula 01 - Planeamento de Sistemas de InformaçãoAula 01 - Planeamento de Sistemas de Informação
Aula 01 - Planeamento de Sistemas de InformaçãoAlberto Simões
 
Extracção de Recursos para Tradução Automática
Extracção de Recursos para Tradução AutomáticaExtracção de Recursos para Tradução Automática
Extracção de Recursos para Tradução AutomáticaAlberto Simões
 
Controlo de Versões com SVN
Controlo de Versões com SVNControlo de Versões com SVN
Controlo de Versões com SVNAlberto Simões
 
Corpora para Processamento de Linguagem Natural
Corpora para Processamento de Linguagem NaturalCorpora para Processamento de Linguagem Natural
Corpora para Processamento de Linguagem NaturalAlberto Simões
 
Bilingual Terminology Extraction based on Translation Patterns
Bilingual Terminology Extraction based on Translation PatternsBilingual Terminology Extraction based on Translation Patterns
Bilingual Terminology Extraction based on Translation PatternsAlberto Simões
 

Mehr von Alberto Simões (20)

Language Identification: A neural network approach
Language Identification: A neural network approachLanguage Identification: A neural network approach
Language Identification: A neural network approach
 
Making the most of a 100-year-old dictionary
Making the most of a 100-year-old dictionaryMaking the most of a 100-year-old dictionary
Making the most of a 100-year-old dictionary
 
Dictionary Alignment by Rewrite-based Entry Translation
Dictionary Alignment by Rewrite-based Entry TranslationDictionary Alignment by Rewrite-based Entry Translation
Dictionary Alignment by Rewrite-based Entry Translation
 
Modelação de Dados
Modelação de DadosModelação de Dados
Modelação de Dados
 
Aula 04 - Introdução aos Diagramas de Sequência
Aula 04 - Introdução aos Diagramas de SequênciaAula 04 - Introdução aos Diagramas de Sequência
Aula 04 - Introdução aos Diagramas de Sequência
 
Aula 03 - Introdução aos Diagramas de Atividade
Aula 03 - Introdução aos Diagramas de AtividadeAula 03 - Introdução aos Diagramas de Atividade
Aula 03 - Introdução aos Diagramas de Atividade
 
Aula 02 - Engenharia de Requisitos
Aula 02 - Engenharia de RequisitosAula 02 - Engenharia de Requisitos
Aula 02 - Engenharia de Requisitos
 
Aula 01 - Planeamento de Sistemas de Informação
Aula 01 - Planeamento de Sistemas de InformaçãoAula 01 - Planeamento de Sistemas de Informação
Aula 01 - Planeamento de Sistemas de Informação
 
Redes de Pert
Redes de PertRedes de Pert
Redes de Pert
 
Dancing Tutorial
Dancing TutorialDancing Tutorial
Dancing Tutorial
 
Sistemas de Numeração
Sistemas de NumeraçãoSistemas de Numeração
Sistemas de Numeração
 
Álgebra de Boole
Álgebra de BooleÁlgebra de Boole
Álgebra de Boole
 
Extracção de Recursos para Tradução Automática
Extracção de Recursos para Tradução AutomáticaExtracção de Recursos para Tradução Automática
Extracção de Recursos para Tradução Automática
 
Dicionário Aberto
Dicionário AbertoDicionário Aberto
Dicionário Aberto
 
Keynote Globs
Keynote GlobsKeynote Globs
Keynote Globs
 
Workshop GLOBS
Workshop GLOBSWorkshop GLOBS
Workshop GLOBS
 
Controlo de Versões com SVN
Controlo de Versões com SVNControlo de Versões com SVN
Controlo de Versões com SVN
 
Corpora para Processamento de Linguagem Natural
Corpora para Processamento de Linguagem NaturalCorpora para Processamento de Linguagem Natural
Corpora para Processamento de Linguagem Natural
 
Bilingual Terminology Extraction based on Translation Patterns
Bilingual Terminology Extraction based on Translation PatternsBilingual Terminology Extraction based on Translation Patterns
Bilingual Terminology Extraction based on Translation Patterns
 
Remote secure backups
Remote secure backupsRemote secure backups
Remote secure backups
 

Arquitecturas de Tradução Automática

  • 1. Arquitecturas de Tradu¸˜o Autom´tica ca a TA baseada em regras TA orientada aos dados Conclus˜es o Abordagens na Tradu¸˜o Autom´tica ca a Alberto Manuel Brand˜o Sim˜es a o ambs@di.uminho.pt Escola de Ver˜o – Junho 2009 a Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (1/38)
  • 2. Arquitecturas de Tradu¸˜o Autom´tica ca a TA baseada em regras TA orientada aos dados Conclus˜es o 1 Arquitecturas de Tradu¸˜o Autom´tica ca a 2 TA baseada em regras Sistemas de Tradu¸˜o Directa ca Sistemas de Tradu¸˜o por Transferˆncia ca e Sistemas de Tradu¸˜o por Interl´ ca ıngua 3 TA orientada aos dados Sistemas de Tradu¸˜o Estat´ ca ıstica Sistemas de Tradu¸˜o baseada em Exemplos ca 4 Conclus˜es o Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (2/38)
  • 3. Arquitecturas de Tradu¸˜o Autom´tica ca a TA baseada em regras TA orientada aos dados Conclus˜es o Arquitecturas de Tradu¸˜o Autom´tica ca a Tradu¸˜o Baseada em Regras ca (Rule-Based Machine Translation) Tradu¸˜o directa (direct MT); ca Tradu¸˜o por transferˆncia (transfer MT); ca e Tradu¸˜o por interl´ ca ıngua (interlingua MT); Tradu¸˜o Orientada a Dados ca (Data-Driven Machine Translation) Tradu¸˜o estat´ ca ıstica (Statistical MT); Tradu¸˜o baseada em exemplos (Example-Based MT); ca Solu¸˜es h´ co ıbridas... Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (3/38)
  • 4. Arquitecturas de Tradu¸˜o Autom´tica ca a TA baseada em regras TA orientada aos dados Conclus˜es o Sistemas baseados em regras Baseados em: modelos formais de tradu¸˜o; ca conhecimento “lingu´ ıstico”; Problemas: caros e trabalhosos (batalh˜es de linguistas); o baseiam-se em conhecimento preciso (e quem o tem? ); Vantagens: previs´ ıveis (as regras s˜o analis´veis); a a erros f´ceis de detectar e corrigir; a Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (4/38)
  • 5. Arquitecturas de Tradu¸˜o Autom´tica ca a TA baseada em regras TA orientada aos dados Conclus˜es o Sistemas orientados aos dados Baseados em: dados (corpora); t´cnicas de aprendizagem; e Problemas: poucos dados ou dados parciais; (corpora pequenos, corpora enviesados, ...) dados com pouca qualidade; (fracas tradu¸˜es, maus alinhamentos, ...) co Vantagens: precisam de pouca m˜o-de-obra; a s˜o concili´veis com sistemas baseados em regras; a a (e vice-versa, claro...) Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (5/38)
  • 6. Arquitecturas de Tradu¸˜o Autom´tica ca a TA baseada em regras TA orientada aos dados Conclus˜es o Ferramentas PLN na TA A implementa¸˜o de qualquer uma destas abordagens requer ca ferramentas de processamento de linguagem natural robustas para as l´ ınguas envolvidas, como sejam: Anotadores de Part-of-Speech e lematizadores; Analisadores sint´cticos (parsers); a Classificadores semˆnticos; a Desambigua¸˜o de sentidos; ca Reconhecimento de Entidades Mencionadas; Extrac¸˜o de Informa¸˜o; ca ca ... Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (6/38)
  • 7. Arquitecturas de Tradu¸˜o Autom´tica ca a Sistemas de Tradu¸˜o Directa ca TA baseada em regras Sistemas de Tradu¸˜o por Transferˆncia ca e TA orientada aos dados Sistemas de Tradu¸˜o por Interl´ ca ıngua Conclus˜es o Sistemas baseados em regras Interlíngua Semântica L.O. Semântica L.D. ge se ra áli çã an o Sintaxe L.O. Sintaxe L.D. Texto origem Texto destino tradução directa (representa¸˜o t´ ca ıpica) Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (7/38)
  • 8. Arquitecturas de Tradu¸˜o Autom´tica ca a Sistemas de Tradu¸˜o Directa ca TA baseada em regras Sistemas de Tradu¸˜o por Transferˆncia ca e TA orientada aos dados Sistemas de Tradu¸˜o por Interl´ ca ıngua Conclus˜es o Sistemas de Tradu¸˜o Directa ca Análise e Síntese Texto Texto L.O. L.D. L.O. -> L.D. dicionários e gramáticas Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (8/38)
  • 9. Arquitecturas de Tradu¸˜o Autom´tica ca a Sistemas de Tradu¸˜o Directa ca TA baseada em regras Sistemas de Tradu¸˜o por Transferˆncia ca e TA orientada aos dados Sistemas de Tradu¸˜o por Interl´ ca ıngua Conclus˜es o Sistemas de Tradu¸˜o Directa ca Tradu¸˜o realizada palavra-a-palavra; ca Pouca an´lise ao texto na l´ a ıngua de origem (sem an´lise sint´ctica ou semˆntica) a a a Baseia-se em grandes dicion´rios bilingues: a para cada palavra na l´ ıngua de origem, o dicion´rio especifica a um conjunto de regras para traduzir essa palavra Ap´s a tradu¸˜o das palavras, ´ realizada reordena¸˜o simples; o ca e ca (por exemplo, a t´ ıpica troca de ordem de nomes e adjectivos). Todo este processamento ´ realizado numa janela deslizante e com um n´mero fixo de palavras. u Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (9/38)
  • 10. Arquitecturas de Tradu¸˜o Autom´tica ca a Sistemas de Tradu¸˜o Directa ca TA baseada em regras Sistemas de Tradu¸˜o por Transferˆncia ca e TA orientada aos dados Sistemas de Tradu¸˜o por Interl´ ca ıngua Conclus˜es o Sistemas de Tradu¸˜o Directa ca Regras para a tradu¸˜o de much ou many para Russo: ca Se precedida por how ⇒ skol’ko Sen˜o se precedida por as ⇒ stol’ko zhe a Sen˜o se a palavra ´ much a e Se precedida por very ⇒⊥ Sen˜o se seguida por um nome ⇒ mnogo a Sen˜o (a palavra ´ many ) a e Se precedida por preposi¸˜o e seguida por nome ⇒ mnogii ca Sen˜o ⇒ mnogo a Retirado de Jurafsky e Martin, edi¸˜o 2, cap´ ca ıtulo 25. Originalmente de um sistema de Panov, 1960. Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (10/38)
  • 11. Arquitecturas de Tradu¸˜o Autom´tica ca a Sistemas de Tradu¸˜o Directa ca TA baseada em regras Sistemas de Tradu¸˜o por Transferˆncia ca e TA orientada aos dados Sistemas de Tradu¸˜o por Interl´ ca ıngua Conclus˜es o Sistemas de Tradu¸˜o Directa – Vantagens ca simples de aplicar t´cnicas de aprendizagem autom´tica; e a (inferir regras a partir de corpora paralelos) simples de aproveitar similaridades entre l´ ınguas: a similaridade n˜o ´ acidental (raz˜es geogr´ficas e hist´ricas); a e o a o relativamente simples de obter um sistema directo com tradu¸˜o de qualidade para l´ ca ınguas pr´ximas; o Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (11/38)
  • 12. Arquitecturas de Tradu¸˜o Autom´tica ca a Sistemas de Tradu¸˜o Directa ca TA baseada em regras Sistemas de Tradu¸˜o por Transferˆncia ca e TA orientada aos dados Sistemas de Tradu¸˜o por Interl´ ca ıngua Conclus˜es o Sistemas de Tradu¸˜o Directa – Problemas ca ´ ıcil E dif´ (ou imposs´ ıvel) de detectar reordenamentos longos: EN: Sources said that IBM bought Lotus yesterday. JP: Sources yesterday IBM Lotus bought that said As palavras s˜o traduzidas sem desambigua¸˜o da sua fun¸˜o a ca ca sint´ctica; a As regras s˜o t´cticas e n˜o estrat´gicas (n˜o generalizam): a a a e a pouca relevˆncia lingu´ a ıstica; Dif´ de manter (sistemas grandes): ıcil interac¸˜o entre um grande n´mero de regras; ca u as regras n˜o s˜o completamente independentes; a a N˜o h´ reutiliza¸˜o de c´digo! a a ca o Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (12/38)
  • 13. Arquitecturas de Tradu¸˜o Autom´tica ca a Sistemas de Tradu¸˜o Directa ca TA baseada em regras Sistemas de Tradu¸˜o por Transferˆncia ca e TA orientada aos dados Sistemas de Tradu¸˜o por Interl´ ca ıngua Conclus˜es o Sistemas de Tradu¸˜o Directa ca ınguas, 5 × 4 = 20 tradutores! Para 5 l´ L1 L2 L3 L4 L5 Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (13/38)
  • 14. Arquitecturas de Tradu¸˜o Autom´tica ca a Sistemas de Tradu¸˜o Directa ca TA baseada em regras Sistemas de Tradu¸˜o por Transferˆncia ca e TA orientada aos dados Sistemas de Tradu¸˜o por Interl´ ca ıngua Conclus˜es o Sistemas de Tradu¸˜o por Transferˆncia ca e análise transferência síntese Texto repres. repres. Texto L.O. L.O. L.D. L.D. dicionários e dicionários e dicionários gramáticas gramáticas L.O. -> L.D. L.O. L.D. regras de transferência Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (14/38)
  • 15. Arquitecturas de Tradu¸˜o Autom´tica ca a Sistemas de Tradu¸˜o Directa ca TA baseada em regras Sistemas de Tradu¸˜o por Transferˆncia ca e TA orientada aos dados Sistemas de Tradu¸˜o por Interl´ ca ıngua Conclus˜es o Sistemas de Tradu¸˜o por Transferˆncia ca e Trˆs (ou cinco) fases na tradu¸˜o: e ca 1.a An´lise Morfol´gica a o PalavraA −→ (LemaA + Categoria + Propriedades) 1.b Classifica¸˜o Lexical ca (LemaA + Cat + Prop) −→ LemaA + Cat + Prop + Significado 2.a Transferˆncia Lexical e LemaA + Cat + Prop + Sign −→ LemaB + Cat + Prop 2.b Transferˆncia Estrutural e ajuste de concordˆncias (g´nero e n´mero), reordenamento de a e u palavras e sintagmas. 3 Gera¸˜o Morfol´gica ca o LemaB + Categoria + Propriedades −→ PalavraB Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (15/38)
  • 16. Arquitecturas de Tradu¸˜o Autom´tica ca a Sistemas de Tradu¸˜o Directa ca TA baseada em regras Sistemas de Tradu¸˜o por Transferˆncia ca e TA orientada aos dados Sistemas de Tradu¸˜o por Interl´ ca ıngua Conclus˜es o Sistemas de Tradu¸˜o por Transferˆncia ca e As ´rvores de parsing podem variar de simples an´lises a a superficiais at´ an´lises mais profundas. e a (incluindo mesmo representa¸˜es semˆnticas); co a As regras de transferˆncia podem ser compar´veis `s regras e a a dos sistemas directos, mas podem operar sobre estruturas sint´cticas. a (ou mesmo semˆnticas) a Torna-se mais simples a detec¸˜o de reordena¸˜o a longa ca ca distˆncia. a Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (16/38)
  • 17. Arquitecturas de Tradu¸˜o Autom´tica ca a Sistemas de Tradu¸˜o Directa ca TA baseada em regras Sistemas de Tradu¸˜o por Transferˆncia ca e TA orientada aos dados Sistemas de Tradu¸˜o por Interl´ ca ıngua Conclus˜es o Sistemas de Tradu¸˜o por Transferˆncia ca e Exemplo de tradu¸˜o (l´ ca ıngua origem) S €€ €€ NP VP €€€ € sources VB SBAR-A $$ˆˆˆ $$ $ ˆˆ said COMP S $$ˆˆˆ $$ $ ˆ ˆ that NP-A VP $ˆ $ $ ¤¤ ˆˆˆ $ $ ˆ IBM VB NP-A NP bought Lotus yesterday Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (17/38)
  • 18. Arquitecturas de Tradu¸˜o Autom´tica ca a Sistemas de Tradu¸˜o Directa ca TA baseada em regras Sistemas de Tradu¸˜o por Transferˆncia ca e TA orientada aos dados Sistemas de Tradu¸˜o por Interl´ ca ıngua Conclus˜es o Sistemas de Tradu¸˜o por Transferˆncia ca e Exemplo de tradu¸˜o (l´ ca ıngua destino) S @@@hhhhhh @@@@ hhh @ @@ @ hh NP VP ⇔ $$ˆˆˆ $$$ ˆˆ sources SBAR-A ⇔ 2– VB 2 2 ––– 222 –– S COMP said $$ˆˆˆˆ $ $ $$ ˆˆ NP NP-A VP ⇔ that 4˜ 4 ˜ yesterday IBM NP-A VB Lotus bought Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (18/38)
  • 19. Arquitecturas de Tradu¸˜o Autom´tica ca a Sistemas de Tradu¸˜o Directa ca TA baseada em regras Sistemas de Tradu¸˜o por Transferˆncia ca e TA orientada aos dados Sistemas de Tradu¸˜o por Interl´ ca ıngua Conclus˜es o Dicion´rios: tradu¸˜o directa vs transferˆncia a ca e Directa Transferˆncia e 1 dicion´rio a 3 dicion´rios a RU → EN  RU num → plural primer → example primer → cat → nome lem → primer  primery → examples RU → EN primer → example EN lem → example → example num → singular lem → example → examples num → plural Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (19/38)
  • 20. Arquitecturas de Tradu¸˜o Autom´tica ca a Sistemas de Tradu¸˜o Directa ca TA baseada em regras Sistemas de Tradu¸˜o por Transferˆncia ca e TA orientada aos dados Sistemas de Tradu¸˜o por Interl´ ca ıngua Conclus˜es o Dicion´rios: tradu¸˜o directa vs transferˆncia a ca e Directa Transferˆncia e 1 novo dicion´rio a 2 novos dicion´rios a RU → ES  RU num → plural primer → ejemplo primer → cat → nome lem → primer  primery → ejemplos RU → ES primer → ejemplo EN lem → ejemplo → ejemplo num → singular lem → ejemplo → ejemplos num → plural Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (20/38)
  • 21. Arquitecturas de Tradu¸˜o Autom´tica ca a Sistemas de Tradu¸˜o Directa ca TA baseada em regras Sistemas de Tradu¸˜o por Transferˆncia ca e TA orientada aos dados Sistemas de Tradu¸˜o por Interl´ ca ıngua Conclus˜es o Vantagens dos sitemas de Transferˆncia e Os m´dulos de an´lise e s´ o a ıntese s˜o reutiliz´veis: a a separa¸˜o de informa¸˜o espec´ ca ca ıfica da l´ ıngua da informa¸˜o ca multilingue; opera¸˜es realizadas num nivel superior de abstrac¸˜o; co ca As regras podem ser generalizadas tendo em conta propriedades morfol´gicas, lexemas, configura¸˜es de ´rvores o co a de parsing, etc. ´ E poss´ aceder a propriedades lingu´ ıvel ısticas para desambigua¸˜o. ca Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (21/38)
  • 22. Arquitecturas de Tradu¸˜o Autom´tica ca a Sistemas de Tradu¸˜o Directa ca TA baseada em regras Sistemas de Tradu¸˜o por Transferˆncia ca e TA orientada aos dados Sistemas de Tradu¸˜o por Interl´ ca ıngua Conclus˜es o Sistemas de Tradu¸˜o por Transferˆncia ca e ınguas, 5 × 6 = 30 Para 5 l´ m´dulos: o 5 abstractores / parsers; L1 L2 5 × 4 m´dulos de o IR1 IR2 transferˆncia; e 5 geradores; L3 IR3 IR4 L4 Mais m´dulos que num o IR5 sistema de tradu¸˜o directa, ca mas mais pequenos, simples, e reutiliz´veis. a L5 Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (22/38)
  • 23. Arquitecturas de Tradu¸˜o Autom´tica ca a Sistemas de Tradu¸˜o Directa ca TA baseada em regras Sistemas de Tradu¸˜o por Transferˆncia ca e TA orientada aos dados Sistemas de Tradu¸˜o por Interl´ ca ıngua Conclus˜es o Sistemas de Tradu¸˜o por Interl´ ca ıngua análise síntese Texto Representação Texto L.O. inter-língua L.D. dicionários e dicionários e gramáticas gramáticas L.O L.D. Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (23/38)
  • 24. Arquitecturas de Tradu¸˜o Autom´tica ca a Sistemas de Tradu¸˜o Directa ca TA baseada em regras Sistemas de Tradu¸˜o por Transferˆncia ca e TA orientada aos dados Sistemas de Tradu¸˜o por Interl´ ca ıngua Conclus˜es o Sistemas de Tradu¸˜o por Interl´ ca ıngua Duas fases no processo de tradu¸˜o: ca An´lise a A frase na l´ ıngua de origem ´ analisada e ´ criada uma e e representa¸˜o (independente de l´ ca ıngua) do seu significado. Gera¸˜o ca A representa¸˜o semˆntica ´ convertida numa frase na l´ ca a e ıngua de destino. Teoricamente n˜o existe informa¸˜o bilingue no sistema. a ca Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (24/38)
  • 25. Arquitecturas de Tradu¸˜o Autom´tica ca a Sistemas de Tradu¸˜o Directa ca TA baseada em regras Sistemas de Tradu¸˜o por Transferˆncia ca e TA orientada aos dados Sistemas de Tradu¸˜o por Interl´ ca ıngua Conclus˜es o Sistemas de Tradu¸˜o por Interl´ ca ıngua Uma vantagem: para cada l´ ıngua adicionada ao sistema ´ necess´rio e a desenvolver apenas um m´dulo de an´lise e um de gera¸˜o; o a ca Uma maior desvantagem: qual seria a representa¸˜o independente de l´ ca ıngua? como representar os conceitos? l´ ınguas diferentes tˆm conceitos diferentes e (3 vs n formas de classificar neve) ser´ que a representa¸˜o independente ´ a intersec¸˜o ou a a ca e ca uni˜o de todos estes conceitos? a Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (25/38)
  • 26. Arquitecturas de Tradu¸˜o Autom´tica ca a Sistemas de Tradu¸˜o Directa ca TA baseada em regras Sistemas de Tradu¸˜o por Transferˆncia ca e TA orientada aos dados Sistemas de Tradu¸˜o por Interl´ ca ıngua Conclus˜es o Sistemas de Tradu¸˜o por Interl´ ca ıngua ınguas, 5 × 2 = 10 m´dulos: Para 5 l´ o 5 abstractores / parsers; 5 geradores; L1 L2 IL L3 L4 L5 Infelizmente a ideia de interl´ ıngua n˜o ´ realista. a e Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (26/38)
  • 27. Arquitecturas de Tradu¸˜o Autom´tica ca a TA baseada em regras Sistemas de Tradu¸˜o Estat´ ca ıstica TA orientada aos dados Sistemas de Tradu¸˜o baseada em Exemplos ca Conclus˜es o Sistemas orientados aos dados tradução à palavra matching recombinação tradução de segmento exemplo exacto existente Texto origem Texto destino (representa¸˜o t´ ca ıpica) Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (27/38)
  • 28. Arquitecturas de Tradu¸˜o Autom´tica ca a TA baseada em regras Sistemas de Tradu¸˜o Estat´ ca ıstica TA orientada aos dados Sistemas de Tradu¸˜o baseada em Exemplos ca Conclus˜es o Tradu¸˜o Estat´ ca ıstica Texto Texto na bilingue L.D. L.O. / L.D. Candidatos a Texto Texto Tradução L.O. L.D. análise na L.D. análise estatíistica estatística Modelo de Modelo tradução linguístico Algoritmo de tradução argmaxe P(e) x P(s|e) (Knight, 2004a) Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (28/38)
  • 29. Arquitecturas de Tradu¸˜o Autom´tica ca a TA baseada em regras Sistemas de Tradu¸˜o Estat´ ca ıstica TA orientada aos dados Sistemas de Tradu¸˜o baseada em Exemplos ca Conclus˜es o Modelo do Canal Ruidoso (Noisy Channel Model) Pretende-se um modelo P(e|f ) que estima a probabilidade condicional de uma frase (tradu¸˜o) e na l´ ca ıngua E , dada a frase f na l´ ıngua F . Modelo de L´ ıngua dado um segmento e na L.D. (p.e. inglˆs), calcular P(e); e um segmento de bom inglˆs, ent˜o P(e) ´ elevada; e a e um segmento de mau inglˆs, ent˜o P(e) ´ baixa; e a e Modelo de Tradu¸˜o ca dado um par de segmentos, f , e , calcular P(f |e); se f , e parecem-se com tradu¸˜es, ent˜o P(f |e) ´ elevada; co a e se f , e n˜o se parecem com tradu¸˜o, ent˜o P(f |e) ´ baixa; a ca a e Pretende-se estimar: arg maxe P(e|f ) = arg maxe P(e)P(f |e) Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (29/38)
  • 30. Arquitecturas de Tradu¸˜o Autom´tica ca a TA baseada em regras Sistemas de Tradu¸˜o Estat´ ca ıstica TA orientada aos dados Sistemas de Tradu¸˜o baseada em Exemplos ca Conclus˜es o Ainda sobre este modelo Modelo de L´ ıngua Pode ser implementado baseado em trigramas, e estimado de qualquer corpus (n˜o necessariamente paralelo); a Modelo de Tradu¸˜o ca ´ E treinado a partir de um corpus paralelo nas l´ ınguas em causa. Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (30/38)
  • 31. Arquitecturas de Tradu¸˜o Autom´tica ca a TA baseada em regras Sistemas de Tradu¸˜o Estat´ ca ıstica TA orientada aos dados Sistemas de Tradu¸˜o baseada em Exemplos ca Conclus˜es o Exemplo do processo SMT Frase original: Que hambre tengo yo Gera¸˜o estat´ ca ıstica de tradu¸˜es: co What hunger have I Hungry I am so I am so hungry Have I that hunger Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (31/38)
  • 32. Arquitecturas de Tradu¸˜o Autom´tica ca a TA baseada em regras Sistemas de Tradu¸˜o Estat´ ca ıstica TA orientada aos dados Sistemas de Tradu¸˜o baseada em Exemplos ca Conclus˜es o Exemplo do processo SMT Que hambre tengo yo Gera¸˜o estat´ ca ıstica de tradu¸˜es com c´lculo da probabilidade co a usando apenas o modelo de tradu¸˜o: ca What hunger have I 0.0000140 Hungry I am so 0.0000010 I am so hungry 0.0000015 Have I that hunger 0.0000200 Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (32/38)
  • 33. Arquitecturas de Tradu¸˜o Autom´tica ca a TA baseada em regras Sistemas de Tradu¸˜o Estat´ ca ıstica TA orientada aos dados Sistemas de Tradu¸˜o baseada em Exemplos ca Conclus˜es o Exemplo do processo SMT Que hambre tengo yo Gera¸˜o estat´ ca ıstica de tradu¸˜es e avalia¸˜o com modelo co ca completo: What hunger have I 0.0000140 × 0.00000100 Hungry I am so 0.0000010 × 0.00000140 I am so hungry 0.0000015 × 0.00010000 Have I that hunger 0.0000200 × 0.00000098 Valida¸˜o arg maxe P(e) × P(s|e) ca I am so hungry (Knight, 2004a) Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (33/38)
  • 34. Arquitecturas de Tradu¸˜o Autom´tica ca a TA baseada em regras Sistemas de Tradu¸˜o Estat´ ca ıstica TA orientada aos dados Sistemas de Tradu¸˜o baseada em Exemplos ca Conclus˜es o Tradu¸˜o baseada em exemplos ca Texto bilingue Corpora L.O. / L.D. Texto Fragmentos Texto L.O. L.D. L.D. matching recombinação Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (34/38)
  • 35. Arquitecturas de Tradu¸˜o Autom´tica ca a TA baseada em regras Sistemas de Tradu¸˜o Estat´ ca ıstica TA orientada aos dados Sistemas de Tradu¸˜o baseada em Exemplos ca Conclus˜es o Problemas na EBMT Principais problemas da EBMT: procurar as maiores concordˆncias (matches) exactas de a por¸˜es de texto a ser traduzido; co combinar as tradu¸˜es posteriormente; co e, para que isto funcione, ´ preciso determinar que peda¸o da e c tradu¸˜o na base de exemplos corresponde ` por¸˜o de texto ca a ca que foi realmente encontrado (matched). Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (35/38)
  • 36. Arquitecturas de Tradu¸˜o Autom´tica ca a TA baseada em regras Sistemas de Tradu¸˜o Estat´ ca ıstica TA orientada aos dados Sistemas de Tradu¸˜o baseada em Exemplos ca Conclus˜es o EBMT vs SMT Os sistemas baseados em estat´ıstica, sendo baseados em corpora, est˜o muito perto dos sistemas baseados em exemplos: a tal como os baseados em exemplos, s˜o treinados em corpora a paralelos; ao contr´rio dos baseados em exemplos, n˜o armazenam os a a exemplos originais depois de treinados; (Brown, 2002) Embora tenha existido uma separa¸˜o inicial na abordagem, cada ca vez mais se fala em Tradu¸˜o Estat´ ca ıstica ou Tradu¸˜o Baseada em ca Dados referindo-se ao uso conjunto destas t´cnicas. e (Sim˜es, 2009) o Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (36/38)
  • 37. Arquitecturas de Tradu¸˜o Autom´tica ca a TA baseada em regras TA orientada aos dados Conclus˜es o Ferramentas Concretas Tradu¸˜o baseada em regras ca tradu¸˜o directa; ca (Systran, originalmente) tradu¸˜o por regras de transferˆncia; ca e (Systran, Logos/OpenLogos, Reverso, Apertium) tradu¸˜o interl´ ca ıngua; (EUROTRA) Tradu¸˜o orientada aos dados ca tradu¸˜o estat´ ca ıstica; (Pharaoh/Moses/Phramer) tradu¸˜o baseada em exemplos; ca (Gaijin/MaTrEx, EDGAR) Abordagens H´ıbridas (Pangloss Mark III) Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (37/38)
  • 38. Arquitecturas de Tradu¸˜o Autom´tica ca a TA baseada em regras TA orientada aos dados Conclus˜es o Conclus˜es o Aproveitar experiˆncia das abordagens baseadas em regras: e regras j´ destiladas; a recursos j´ produzidos; a Aproveitar recursos bilingues existentes: extrair dicion´rios; a extrair regras de tradu¸˜o; ca extrair dados estat´ ısticos sobre a tradu¸˜o ca Unir abordagens para ter sucesso. Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (38/38)