Diese Präsentation wurde erfolgreich gemeldet.
Die SlideShare-Präsentation wird heruntergeladen. ×

Arquitecturas de Tradução Automática

Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Nächste SlideShare
Source Code Quality
Source Code Quality
Wird geladen in …3
×

Hier ansehen

1 von 38 Anzeige

Arquitecturas de Tradução Automática

Herunterladen, um offline zu lesen

Apresentação sobre arquitecturas de tradução automática, realizada na Escola de Verão em PLN realizada em 2009 na Faculdade de Letras da Universidade do Porto, Portugal.

Apresentação sobre arquitecturas de tradução automática, realizada na Escola de Verão em PLN realizada em 2009 na Faculdade de Letras da Universidade do Porto, Portugal.

Anzeige
Anzeige

Weitere Verwandte Inhalte

Weitere von Alberto Simões (20)

Aktuellste (20)

Anzeige

Arquitecturas de Tradução Automática

  1. 1. Arquitecturas de Tradu¸˜o Autom´tica ca a TA baseada em regras TA orientada aos dados Conclus˜es o Abordagens na Tradu¸˜o Autom´tica ca a Alberto Manuel Brand˜o Sim˜es a o ambs@di.uminho.pt Escola de Ver˜o – Junho 2009 a Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (1/38)
  2. 2. Arquitecturas de Tradu¸˜o Autom´tica ca a TA baseada em regras TA orientada aos dados Conclus˜es o 1 Arquitecturas de Tradu¸˜o Autom´tica ca a 2 TA baseada em regras Sistemas de Tradu¸˜o Directa ca Sistemas de Tradu¸˜o por Transferˆncia ca e Sistemas de Tradu¸˜o por Interl´ ca ıngua 3 TA orientada aos dados Sistemas de Tradu¸˜o Estat´ ca ıstica Sistemas de Tradu¸˜o baseada em Exemplos ca 4 Conclus˜es o Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (2/38)
  3. 3. Arquitecturas de Tradu¸˜o Autom´tica ca a TA baseada em regras TA orientada aos dados Conclus˜es o Arquitecturas de Tradu¸˜o Autom´tica ca a Tradu¸˜o Baseada em Regras ca (Rule-Based Machine Translation) Tradu¸˜o directa (direct MT); ca Tradu¸˜o por transferˆncia (transfer MT); ca e Tradu¸˜o por interl´ ca ıngua (interlingua MT); Tradu¸˜o Orientada a Dados ca (Data-Driven Machine Translation) Tradu¸˜o estat´ ca ıstica (Statistical MT); Tradu¸˜o baseada em exemplos (Example-Based MT); ca Solu¸˜es h´ co ıbridas... Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (3/38)
  4. 4. Arquitecturas de Tradu¸˜o Autom´tica ca a TA baseada em regras TA orientada aos dados Conclus˜es o Sistemas baseados em regras Baseados em: modelos formais de tradu¸˜o; ca conhecimento “lingu´ ıstico”; Problemas: caros e trabalhosos (batalh˜es de linguistas); o baseiam-se em conhecimento preciso (e quem o tem? ); Vantagens: previs´ ıveis (as regras s˜o analis´veis); a a erros f´ceis de detectar e corrigir; a Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (4/38)
  5. 5. Arquitecturas de Tradu¸˜o Autom´tica ca a TA baseada em regras TA orientada aos dados Conclus˜es o Sistemas orientados aos dados Baseados em: dados (corpora); t´cnicas de aprendizagem; e Problemas: poucos dados ou dados parciais; (corpora pequenos, corpora enviesados, ...) dados com pouca qualidade; (fracas tradu¸˜es, maus alinhamentos, ...) co Vantagens: precisam de pouca m˜o-de-obra; a s˜o concili´veis com sistemas baseados em regras; a a (e vice-versa, claro...) Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (5/38)
  6. 6. Arquitecturas de Tradu¸˜o Autom´tica ca a TA baseada em regras TA orientada aos dados Conclus˜es o Ferramentas PLN na TA A implementa¸˜o de qualquer uma destas abordagens requer ca ferramentas de processamento de linguagem natural robustas para as l´ ınguas envolvidas, como sejam: Anotadores de Part-of-Speech e lematizadores; Analisadores sint´cticos (parsers); a Classificadores semˆnticos; a Desambigua¸˜o de sentidos; ca Reconhecimento de Entidades Mencionadas; Extrac¸˜o de Informa¸˜o; ca ca ... Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (6/38)
  7. 7. Arquitecturas de Tradu¸˜o Autom´tica ca a Sistemas de Tradu¸˜o Directa ca TA baseada em regras Sistemas de Tradu¸˜o por Transferˆncia ca e TA orientada aos dados Sistemas de Tradu¸˜o por Interl´ ca ıngua Conclus˜es o Sistemas baseados em regras Interlíngua Semântica L.O. Semântica L.D. ge se ra áli çã an o Sintaxe L.O. Sintaxe L.D. Texto origem Texto destino tradução directa (representa¸˜o t´ ca ıpica) Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (7/38)
  8. 8. Arquitecturas de Tradu¸˜o Autom´tica ca a Sistemas de Tradu¸˜o Directa ca TA baseada em regras Sistemas de Tradu¸˜o por Transferˆncia ca e TA orientada aos dados Sistemas de Tradu¸˜o por Interl´ ca ıngua Conclus˜es o Sistemas de Tradu¸˜o Directa ca Análise e Síntese Texto Texto L.O. L.D. L.O. -> L.D. dicionários e gramáticas Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (8/38)
  9. 9. Arquitecturas de Tradu¸˜o Autom´tica ca a Sistemas de Tradu¸˜o Directa ca TA baseada em regras Sistemas de Tradu¸˜o por Transferˆncia ca e TA orientada aos dados Sistemas de Tradu¸˜o por Interl´ ca ıngua Conclus˜es o Sistemas de Tradu¸˜o Directa ca Tradu¸˜o realizada palavra-a-palavra; ca Pouca an´lise ao texto na l´ a ıngua de origem (sem an´lise sint´ctica ou semˆntica) a a a Baseia-se em grandes dicion´rios bilingues: a para cada palavra na l´ ıngua de origem, o dicion´rio especifica a um conjunto de regras para traduzir essa palavra Ap´s a tradu¸˜o das palavras, ´ realizada reordena¸˜o simples; o ca e ca (por exemplo, a t´ ıpica troca de ordem de nomes e adjectivos). Todo este processamento ´ realizado numa janela deslizante e com um n´mero fixo de palavras. u Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (9/38)
  10. 10. Arquitecturas de Tradu¸˜o Autom´tica ca a Sistemas de Tradu¸˜o Directa ca TA baseada em regras Sistemas de Tradu¸˜o por Transferˆncia ca e TA orientada aos dados Sistemas de Tradu¸˜o por Interl´ ca ıngua Conclus˜es o Sistemas de Tradu¸˜o Directa ca Regras para a tradu¸˜o de much ou many para Russo: ca Se precedida por how ⇒ skol’ko Sen˜o se precedida por as ⇒ stol’ko zhe a Sen˜o se a palavra ´ much a e Se precedida por very ⇒⊥ Sen˜o se seguida por um nome ⇒ mnogo a Sen˜o (a palavra ´ many ) a e Se precedida por preposi¸˜o e seguida por nome ⇒ mnogii ca Sen˜o ⇒ mnogo a Retirado de Jurafsky e Martin, edi¸˜o 2, cap´ ca ıtulo 25. Originalmente de um sistema de Panov, 1960. Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (10/38)
  11. 11. Arquitecturas de Tradu¸˜o Autom´tica ca a Sistemas de Tradu¸˜o Directa ca TA baseada em regras Sistemas de Tradu¸˜o por Transferˆncia ca e TA orientada aos dados Sistemas de Tradu¸˜o por Interl´ ca ıngua Conclus˜es o Sistemas de Tradu¸˜o Directa – Vantagens ca simples de aplicar t´cnicas de aprendizagem autom´tica; e a (inferir regras a partir de corpora paralelos) simples de aproveitar similaridades entre l´ ınguas: a similaridade n˜o ´ acidental (raz˜es geogr´ficas e hist´ricas); a e o a o relativamente simples de obter um sistema directo com tradu¸˜o de qualidade para l´ ca ınguas pr´ximas; o Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (11/38)
  12. 12. Arquitecturas de Tradu¸˜o Autom´tica ca a Sistemas de Tradu¸˜o Directa ca TA baseada em regras Sistemas de Tradu¸˜o por Transferˆncia ca e TA orientada aos dados Sistemas de Tradu¸˜o por Interl´ ca ıngua Conclus˜es o Sistemas de Tradu¸˜o Directa – Problemas ca ´ ıcil E dif´ (ou imposs´ ıvel) de detectar reordenamentos longos: EN: Sources said that IBM bought Lotus yesterday. JP: Sources yesterday IBM Lotus bought that said As palavras s˜o traduzidas sem desambigua¸˜o da sua fun¸˜o a ca ca sint´ctica; a As regras s˜o t´cticas e n˜o estrat´gicas (n˜o generalizam): a a a e a pouca relevˆncia lingu´ a ıstica; Dif´ de manter (sistemas grandes): ıcil interac¸˜o entre um grande n´mero de regras; ca u as regras n˜o s˜o completamente independentes; a a N˜o h´ reutiliza¸˜o de c´digo! a a ca o Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (12/38)
  13. 13. Arquitecturas de Tradu¸˜o Autom´tica ca a Sistemas de Tradu¸˜o Directa ca TA baseada em regras Sistemas de Tradu¸˜o por Transferˆncia ca e TA orientada aos dados Sistemas de Tradu¸˜o por Interl´ ca ıngua Conclus˜es o Sistemas de Tradu¸˜o Directa ca ınguas, 5 × 4 = 20 tradutores! Para 5 l´ L1 L2 L3 L4 L5 Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (13/38)
  14. 14. Arquitecturas de Tradu¸˜o Autom´tica ca a Sistemas de Tradu¸˜o Directa ca TA baseada em regras Sistemas de Tradu¸˜o por Transferˆncia ca e TA orientada aos dados Sistemas de Tradu¸˜o por Interl´ ca ıngua Conclus˜es o Sistemas de Tradu¸˜o por Transferˆncia ca e análise transferência síntese Texto repres. repres. Texto L.O. L.O. L.D. L.D. dicionários e dicionários e dicionários gramáticas gramáticas L.O. -> L.D. L.O. L.D. regras de transferência Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (14/38)
  15. 15. Arquitecturas de Tradu¸˜o Autom´tica ca a Sistemas de Tradu¸˜o Directa ca TA baseada em regras Sistemas de Tradu¸˜o por Transferˆncia ca e TA orientada aos dados Sistemas de Tradu¸˜o por Interl´ ca ıngua Conclus˜es o Sistemas de Tradu¸˜o por Transferˆncia ca e Trˆs (ou cinco) fases na tradu¸˜o: e ca 1.a An´lise Morfol´gica a o PalavraA −→ (LemaA + Categoria + Propriedades) 1.b Classifica¸˜o Lexical ca (LemaA + Cat + Prop) −→ LemaA + Cat + Prop + Significado 2.a Transferˆncia Lexical e LemaA + Cat + Prop + Sign −→ LemaB + Cat + Prop 2.b Transferˆncia Estrutural e ajuste de concordˆncias (g´nero e n´mero), reordenamento de a e u palavras e sintagmas. 3 Gera¸˜o Morfol´gica ca o LemaB + Categoria + Propriedades −→ PalavraB Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (15/38)
  16. 16. Arquitecturas de Tradu¸˜o Autom´tica ca a Sistemas de Tradu¸˜o Directa ca TA baseada em regras Sistemas de Tradu¸˜o por Transferˆncia ca e TA orientada aos dados Sistemas de Tradu¸˜o por Interl´ ca ıngua Conclus˜es o Sistemas de Tradu¸˜o por Transferˆncia ca e As ´rvores de parsing podem variar de simples an´lises a a superficiais at´ an´lises mais profundas. e a (incluindo mesmo representa¸˜es semˆnticas); co a As regras de transferˆncia podem ser compar´veis `s regras e a a dos sistemas directos, mas podem operar sobre estruturas sint´cticas. a (ou mesmo semˆnticas) a Torna-se mais simples a detec¸˜o de reordena¸˜o a longa ca ca distˆncia. a Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (16/38)
  17. 17. Arquitecturas de Tradu¸˜o Autom´tica ca a Sistemas de Tradu¸˜o Directa ca TA baseada em regras Sistemas de Tradu¸˜o por Transferˆncia ca e TA orientada aos dados Sistemas de Tradu¸˜o por Interl´ ca ıngua Conclus˜es o Sistemas de Tradu¸˜o por Transferˆncia ca e Exemplo de tradu¸˜o (l´ ca ıngua origem) S €€ €€ NP VP €€€ € sources VB SBAR-A $$ˆˆˆ $$ $ ˆˆ said COMP S $$ˆˆˆ $$ $ ˆ ˆ that NP-A VP $ˆ $ $ ¤¤ ˆˆˆ $ $ ˆ IBM VB NP-A NP bought Lotus yesterday Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (17/38)
  18. 18. Arquitecturas de Tradu¸˜o Autom´tica ca a Sistemas de Tradu¸˜o Directa ca TA baseada em regras Sistemas de Tradu¸˜o por Transferˆncia ca e TA orientada aos dados Sistemas de Tradu¸˜o por Interl´ ca ıngua Conclus˜es o Sistemas de Tradu¸˜o por Transferˆncia ca e Exemplo de tradu¸˜o (l´ ca ıngua destino) S @@@hhhhhh @@@@ hhh @ @@ @ hh NP VP ⇔ $$ˆˆˆ $$$ ˆˆ sources SBAR-A ⇔ 2– VB 2 2 ––– 222 –– S COMP said $$ˆˆˆˆ $ $ $$ ˆˆ NP NP-A VP ⇔ that 4˜ 4 ˜ yesterday IBM NP-A VB Lotus bought Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (18/38)
  19. 19. Arquitecturas de Tradu¸˜o Autom´tica ca a Sistemas de Tradu¸˜o Directa ca TA baseada em regras Sistemas de Tradu¸˜o por Transferˆncia ca e TA orientada aos dados Sistemas de Tradu¸˜o por Interl´ ca ıngua Conclus˜es o Dicion´rios: tradu¸˜o directa vs transferˆncia a ca e Directa Transferˆncia e 1 dicion´rio a 3 dicion´rios a RU → EN  RU num → plural primer → example primer → cat → nome lem → primer  primery → examples RU → EN primer → example EN lem → example → example num → singular lem → example → examples num → plural Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (19/38)
  20. 20. Arquitecturas de Tradu¸˜o Autom´tica ca a Sistemas de Tradu¸˜o Directa ca TA baseada em regras Sistemas de Tradu¸˜o por Transferˆncia ca e TA orientada aos dados Sistemas de Tradu¸˜o por Interl´ ca ıngua Conclus˜es o Dicion´rios: tradu¸˜o directa vs transferˆncia a ca e Directa Transferˆncia e 1 novo dicion´rio a 2 novos dicion´rios a RU → ES  RU num → plural primer → ejemplo primer → cat → nome lem → primer  primery → ejemplos RU → ES primer → ejemplo EN lem → ejemplo → ejemplo num → singular lem → ejemplo → ejemplos num → plural Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (20/38)
  21. 21. Arquitecturas de Tradu¸˜o Autom´tica ca a Sistemas de Tradu¸˜o Directa ca TA baseada em regras Sistemas de Tradu¸˜o por Transferˆncia ca e TA orientada aos dados Sistemas de Tradu¸˜o por Interl´ ca ıngua Conclus˜es o Vantagens dos sitemas de Transferˆncia e Os m´dulos de an´lise e s´ o a ıntese s˜o reutiliz´veis: a a separa¸˜o de informa¸˜o espec´ ca ca ıfica da l´ ıngua da informa¸˜o ca multilingue; opera¸˜es realizadas num nivel superior de abstrac¸˜o; co ca As regras podem ser generalizadas tendo em conta propriedades morfol´gicas, lexemas, configura¸˜es de ´rvores o co a de parsing, etc. ´ E poss´ aceder a propriedades lingu´ ıvel ısticas para desambigua¸˜o. ca Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (21/38)
  22. 22. Arquitecturas de Tradu¸˜o Autom´tica ca a Sistemas de Tradu¸˜o Directa ca TA baseada em regras Sistemas de Tradu¸˜o por Transferˆncia ca e TA orientada aos dados Sistemas de Tradu¸˜o por Interl´ ca ıngua Conclus˜es o Sistemas de Tradu¸˜o por Transferˆncia ca e ınguas, 5 × 6 = 30 Para 5 l´ m´dulos: o 5 abstractores / parsers; L1 L2 5 × 4 m´dulos de o IR1 IR2 transferˆncia; e 5 geradores; L3 IR3 IR4 L4 Mais m´dulos que num o IR5 sistema de tradu¸˜o directa, ca mas mais pequenos, simples, e reutiliz´veis. a L5 Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (22/38)
  23. 23. Arquitecturas de Tradu¸˜o Autom´tica ca a Sistemas de Tradu¸˜o Directa ca TA baseada em regras Sistemas de Tradu¸˜o por Transferˆncia ca e TA orientada aos dados Sistemas de Tradu¸˜o por Interl´ ca ıngua Conclus˜es o Sistemas de Tradu¸˜o por Interl´ ca ıngua análise síntese Texto Representação Texto L.O. inter-língua L.D. dicionários e dicionários e gramáticas gramáticas L.O L.D. Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (23/38)
  24. 24. Arquitecturas de Tradu¸˜o Autom´tica ca a Sistemas de Tradu¸˜o Directa ca TA baseada em regras Sistemas de Tradu¸˜o por Transferˆncia ca e TA orientada aos dados Sistemas de Tradu¸˜o por Interl´ ca ıngua Conclus˜es o Sistemas de Tradu¸˜o por Interl´ ca ıngua Duas fases no processo de tradu¸˜o: ca An´lise a A frase na l´ ıngua de origem ´ analisada e ´ criada uma e e representa¸˜o (independente de l´ ca ıngua) do seu significado. Gera¸˜o ca A representa¸˜o semˆntica ´ convertida numa frase na l´ ca a e ıngua de destino. Teoricamente n˜o existe informa¸˜o bilingue no sistema. a ca Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (24/38)
  25. 25. Arquitecturas de Tradu¸˜o Autom´tica ca a Sistemas de Tradu¸˜o Directa ca TA baseada em regras Sistemas de Tradu¸˜o por Transferˆncia ca e TA orientada aos dados Sistemas de Tradu¸˜o por Interl´ ca ıngua Conclus˜es o Sistemas de Tradu¸˜o por Interl´ ca ıngua Uma vantagem: para cada l´ ıngua adicionada ao sistema ´ necess´rio e a desenvolver apenas um m´dulo de an´lise e um de gera¸˜o; o a ca Uma maior desvantagem: qual seria a representa¸˜o independente de l´ ca ıngua? como representar os conceitos? l´ ınguas diferentes tˆm conceitos diferentes e (3 vs n formas de classificar neve) ser´ que a representa¸˜o independente ´ a intersec¸˜o ou a a ca e ca uni˜o de todos estes conceitos? a Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (25/38)
  26. 26. Arquitecturas de Tradu¸˜o Autom´tica ca a Sistemas de Tradu¸˜o Directa ca TA baseada em regras Sistemas de Tradu¸˜o por Transferˆncia ca e TA orientada aos dados Sistemas de Tradu¸˜o por Interl´ ca ıngua Conclus˜es o Sistemas de Tradu¸˜o por Interl´ ca ıngua ınguas, 5 × 2 = 10 m´dulos: Para 5 l´ o 5 abstractores / parsers; 5 geradores; L1 L2 IL L3 L4 L5 Infelizmente a ideia de interl´ ıngua n˜o ´ realista. a e Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (26/38)
  27. 27. Arquitecturas de Tradu¸˜o Autom´tica ca a TA baseada em regras Sistemas de Tradu¸˜o Estat´ ca ıstica TA orientada aos dados Sistemas de Tradu¸˜o baseada em Exemplos ca Conclus˜es o Sistemas orientados aos dados tradução à palavra matching recombinação tradução de segmento exemplo exacto existente Texto origem Texto destino (representa¸˜o t´ ca ıpica) Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (27/38)
  28. 28. Arquitecturas de Tradu¸˜o Autom´tica ca a TA baseada em regras Sistemas de Tradu¸˜o Estat´ ca ıstica TA orientada aos dados Sistemas de Tradu¸˜o baseada em Exemplos ca Conclus˜es o Tradu¸˜o Estat´ ca ıstica Texto Texto na bilingue L.D. L.O. / L.D. Candidatos a Texto Texto Tradução L.O. L.D. análise na L.D. análise estatíistica estatística Modelo de Modelo tradução linguístico Algoritmo de tradução argmaxe P(e) x P(s|e) (Knight, 2004a) Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (28/38)
  29. 29. Arquitecturas de Tradu¸˜o Autom´tica ca a TA baseada em regras Sistemas de Tradu¸˜o Estat´ ca ıstica TA orientada aos dados Sistemas de Tradu¸˜o baseada em Exemplos ca Conclus˜es o Modelo do Canal Ruidoso (Noisy Channel Model) Pretende-se um modelo P(e|f ) que estima a probabilidade condicional de uma frase (tradu¸˜o) e na l´ ca ıngua E , dada a frase f na l´ ıngua F . Modelo de L´ ıngua dado um segmento e na L.D. (p.e. inglˆs), calcular P(e); e um segmento de bom inglˆs, ent˜o P(e) ´ elevada; e a e um segmento de mau inglˆs, ent˜o P(e) ´ baixa; e a e Modelo de Tradu¸˜o ca dado um par de segmentos, f , e , calcular P(f |e); se f , e parecem-se com tradu¸˜es, ent˜o P(f |e) ´ elevada; co a e se f , e n˜o se parecem com tradu¸˜o, ent˜o P(f |e) ´ baixa; a ca a e Pretende-se estimar: arg maxe P(e|f ) = arg maxe P(e)P(f |e) Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (29/38)
  30. 30. Arquitecturas de Tradu¸˜o Autom´tica ca a TA baseada em regras Sistemas de Tradu¸˜o Estat´ ca ıstica TA orientada aos dados Sistemas de Tradu¸˜o baseada em Exemplos ca Conclus˜es o Ainda sobre este modelo Modelo de L´ ıngua Pode ser implementado baseado em trigramas, e estimado de qualquer corpus (n˜o necessariamente paralelo); a Modelo de Tradu¸˜o ca ´ E treinado a partir de um corpus paralelo nas l´ ınguas em causa. Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (30/38)
  31. 31. Arquitecturas de Tradu¸˜o Autom´tica ca a TA baseada em regras Sistemas de Tradu¸˜o Estat´ ca ıstica TA orientada aos dados Sistemas de Tradu¸˜o baseada em Exemplos ca Conclus˜es o Exemplo do processo SMT Frase original: Que hambre tengo yo Gera¸˜o estat´ ca ıstica de tradu¸˜es: co What hunger have I Hungry I am so I am so hungry Have I that hunger Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (31/38)
  32. 32. Arquitecturas de Tradu¸˜o Autom´tica ca a TA baseada em regras Sistemas de Tradu¸˜o Estat´ ca ıstica TA orientada aos dados Sistemas de Tradu¸˜o baseada em Exemplos ca Conclus˜es o Exemplo do processo SMT Que hambre tengo yo Gera¸˜o estat´ ca ıstica de tradu¸˜es com c´lculo da probabilidade co a usando apenas o modelo de tradu¸˜o: ca What hunger have I 0.0000140 Hungry I am so 0.0000010 I am so hungry 0.0000015 Have I that hunger 0.0000200 Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (32/38)
  33. 33. Arquitecturas de Tradu¸˜o Autom´tica ca a TA baseada em regras Sistemas de Tradu¸˜o Estat´ ca ıstica TA orientada aos dados Sistemas de Tradu¸˜o baseada em Exemplos ca Conclus˜es o Exemplo do processo SMT Que hambre tengo yo Gera¸˜o estat´ ca ıstica de tradu¸˜es e avalia¸˜o com modelo co ca completo: What hunger have I 0.0000140 × 0.00000100 Hungry I am so 0.0000010 × 0.00000140 I am so hungry 0.0000015 × 0.00010000 Have I that hunger 0.0000200 × 0.00000098 Valida¸˜o arg maxe P(e) × P(s|e) ca I am so hungry (Knight, 2004a) Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (33/38)
  34. 34. Arquitecturas de Tradu¸˜o Autom´tica ca a TA baseada em regras Sistemas de Tradu¸˜o Estat´ ca ıstica TA orientada aos dados Sistemas de Tradu¸˜o baseada em Exemplos ca Conclus˜es o Tradu¸˜o baseada em exemplos ca Texto bilingue Corpora L.O. / L.D. Texto Fragmentos Texto L.O. L.D. L.D. matching recombinação Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (34/38)
  35. 35. Arquitecturas de Tradu¸˜o Autom´tica ca a TA baseada em regras Sistemas de Tradu¸˜o Estat´ ca ıstica TA orientada aos dados Sistemas de Tradu¸˜o baseada em Exemplos ca Conclus˜es o Problemas na EBMT Principais problemas da EBMT: procurar as maiores concordˆncias (matches) exactas de a por¸˜es de texto a ser traduzido; co combinar as tradu¸˜es posteriormente; co e, para que isto funcione, ´ preciso determinar que peda¸o da e c tradu¸˜o na base de exemplos corresponde ` por¸˜o de texto ca a ca que foi realmente encontrado (matched). Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (35/38)
  36. 36. Arquitecturas de Tradu¸˜o Autom´tica ca a TA baseada em regras Sistemas de Tradu¸˜o Estat´ ca ıstica TA orientada aos dados Sistemas de Tradu¸˜o baseada em Exemplos ca Conclus˜es o EBMT vs SMT Os sistemas baseados em estat´ıstica, sendo baseados em corpora, est˜o muito perto dos sistemas baseados em exemplos: a tal como os baseados em exemplos, s˜o treinados em corpora a paralelos; ao contr´rio dos baseados em exemplos, n˜o armazenam os a a exemplos originais depois de treinados; (Brown, 2002) Embora tenha existido uma separa¸˜o inicial na abordagem, cada ca vez mais se fala em Tradu¸˜o Estat´ ca ıstica ou Tradu¸˜o Baseada em ca Dados referindo-se ao uso conjunto destas t´cnicas. e (Sim˜es, 2009) o Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (36/38)
  37. 37. Arquitecturas de Tradu¸˜o Autom´tica ca a TA baseada em regras TA orientada aos dados Conclus˜es o Ferramentas Concretas Tradu¸˜o baseada em regras ca tradu¸˜o directa; ca (Systran, originalmente) tradu¸˜o por regras de transferˆncia; ca e (Systran, Logos/OpenLogos, Reverso, Apertium) tradu¸˜o interl´ ca ıngua; (EUROTRA) Tradu¸˜o orientada aos dados ca tradu¸˜o estat´ ca ıstica; (Pharaoh/Moses/Phramer) tradu¸˜o baseada em exemplos; ca (Gaijin/MaTrEx, EDGAR) Abordagens H´ıbridas (Pangloss Mark III) Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (37/38)
  38. 38. Arquitecturas de Tradu¸˜o Autom´tica ca a TA baseada em regras TA orientada aos dados Conclus˜es o Conclus˜es o Aproveitar experiˆncia das abordagens baseadas em regras: e regras j´ destiladas; a recursos j´ produzidos; a Aproveitar recursos bilingues existentes: extrair dicion´rios; a extrair regras de tradu¸˜o; ca extrair dados estat´ ısticos sobre a tradu¸˜o ca Unir abordagens para ter sucesso. Alberto Sim˜es o Abordagens na Tradu¸˜o Autom´tica ca a (38/38)

×