Este documento discute como as máquinas de tradução podem melhor servir os tradutores humanos. Propõe duas áreas principais de melhoria tecnológica: (1) gestão contextual do conhecimento para facilitar pesquisa e decisão; e (2) ferramentas de aprendizagem de edição para automatizar tarefas repetitivas como edição e verificação. Os tradutores devem participar no desenvolvimento destas novas ferramentas para assegurar que atendem às suas necessidades.
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
Félix do Carmo e Luís Trigo - Tradutores e máquinas de tradução
1. O que querem os tradutores das
máquinas de tradução?
Félix do Carmo (TIPS e CLUP) e Luís Trigo (CLUP e INESC)
Faculdade de Letras do Porto Maio 2013
2. Plano
• A tradução é uma corrida
• E as máquinas correm mais do que nós
• Diferentes formas de inteligência
• Diferentes papéis e formas de interacção
• O que querem os tradutores
• Sugestões e soluções tecnológicas
3. A tradução é uma corrida
E as máquinas correm mais do que nós
4. A tradução já não é o que era
Clicar aqui para referência.
5. A tradução é uma corrida
• Volumes, capacidades, métricas, bitolas, tempo,
dinheiro…
• A importância das ferramentas de produtividade
Onde fica a qualidade?
• A qualidade deixou de ser discutida em termos de
subjectividade.
• A qualidade é objectiva e mensurável:
• A medida é a tradução humana.
• A responsabilidade pela qualidade é dos tradutores.
6. E as máquinas correm muito…
Apesar de …
• O Google Translate poluir a água do seu próprio poço (recolhe, alinha e insere
nos modelos de aprendizagem traduções produzidas automaticamente) (clicar
aqui para referência);
• Ter atingido o limite de aumento de qualidade: a duplicação dos (biliões de)
dados produz só uma melhoria de 0,5% nos índices BLEU (referência);
• Apenas 1% das necessidades mundiais de tradução profissional são satisfeitas
por tradução automática (referência)…
Os números não mentem…
• A tradução automática traduz 195 vezes mais depressa do que uma pessoa
(referência);
• O Google Translate traduz todos os dias 1 milhão de livros por dia (o mesmo
que todos os tradutores do mundo fazem num ano) (referência).
8. Inteligência artificial e tradução
• Tradução automática estatística – Aplicação de princípios da
Inteligência artificial
• Modelo de aprendizagem de línguas pelo reconhecimento de
unidades mínimas e reutilização nos contextos certos
• Produz modelos descritivos de duas línguas e da tradução entre elas
• Integração de conhecimento linguístico (anotação morfológica,
sintática e semântica) em modelos factorizados
• Algoritmos eficientes de pesquisa em campos de pesquisa com
várias dimensões
• Algoritmos de smoothing e pruning (duas técnicas de limpeza dos
dados)
9. Ferramentas de tradução
• CATs comerciais que podem receber dados de TA:
• SDL Studio, DéjàVu, memoQ, OmegaT, etc…
• Ferramentas comerciais de TA por regras (ou híbridas):
• Systran, ProMT…
• Serviços empresariais baseados em TA estatística:
• Asia Online, Prompsit, Pangeanic…
• Plataformas online de acesso livre:
• OpenTrad (regras); Google Translate, Bing Translator, etc…
• Interfaces de pós-edição de TA online:
• Google Translator Toolkit, KantanMT…
• Ferramentas de pós-edição de TA estatística:
• PET (Universidade de Sheffield)
10. Fazer depressa e bem
2 modelos de interacção:
máquina/homem OU homem/máquina
• Modelo de pós-edição (máquina/homem)
• A máquina produz rapidamente e em quantidade
• O homem corrige
Risco: tradução voluntária e gratuita (modelo da “computação humana”)
• Modelo de produtividade (homem/máquina)
• TA como ferramenta de produtividade para tradução humana
11. Modelo de produtividade
• O que faz um tradutor?
• PESQUISA
• DECIDE
• ESCREVE/EDITA
• VERIFICA
• As CATs auxiliam e são eficientes nestas tarefas?
• Limites dos segmentos e das bases de dados terminológicas
• Limites das funções de verificação de qualidade (QA) – números,
pontuação e pouco mais…
• Que suporte dão à revisão?
12. Papel da máquina
• Em que são úteis os métodos estatísticos?
• Classificar e ordenar dados linguísticos
• Identificar agrupamentos de textos
• Encontrar correspondências com extensões variáveis em grandes
volumes de dados
• Aprender operações e repeti-las
13. O que querem os
tradutores
Sugestões e soluções tecnológicas
14. Do que precisamos?
• Uma nova geração de ferramentas CAT que:
• Facilitem a gestão do conhecimento
• Classifiquem e ordenem dados linguísticos
• Identifiquem agrupamentos de textos
• Encontrem correspondências com extensões variáveis em grandes volumes
de dados
• Auxiliem as tarefas repetitivas de correcção
• Aprendam operações executadas e lhes dêem suporte
• Projectos de investigação destas ferramentas:
• Caitra; MateCAT; CasmaCAT; QTLaunchPad; EXPERT…
15. Duas áreas tecnológicas
• Gestão contextual do conhecimento
• PESQUISAR e DECIDIR
• Organização automática do conhecimento textual
recolhido e produzido
• Aprendizagem de edição
• EDITAR e VERIFICAR
• Ferramentas que aprendem as nossas correcções
16. Contextualização, please!
• PESQUISAR e DECIDIR
• E se houvesse uma tecnologia que apenas pela análise
estatística separasse na nossa TM de “Informática” os
textos e os segmentos de “software de contabilidade” dos
que pertencem a “manuais de utilizador de impressoras”?
• E que agrupasse as nossas pesquisas na web, em núcleos
de referências temáticas?
• Essa tecnologia existe.
17. Information Retrieval
• Segmentação de termos
• Extracção de domínios para treino de modelos de
tradução e línguas
• Procura automática - grafos de dependências de
termos
• Extracção automática de tópicos através da
semelhança entre os termos, por Clustering de
Documentos e Termos, Análise da Semântica Latente
(LSA) e Relevance Feedback
18. Information Extraction
• Segmentação de termos
• Reconhecimento de entidades nomeadas
• Procura
• Extracção automática de ontologias
(aproveitando os grafos de dependências
extraídos com Information Retrieval)
19. Mapas visuais de recursos
• Information Retrieval
• Clustering de Documentos e
Termos
• Expansão/colapso de clusters
• MDS - Multidimensional Scaling
• Técnicas estatísticas para
visualização de informação
através da exploração das
semelhanças nos dados
20. Trabalho em equipa
• Gestão de recursos
• Identificação de equipas de tradutores e
revisores com a mesma especialização
• Atribuição de projectos por domínio de
especialização
• Integração com ferramentas de gestão
automática de projectos
• Revisão
• Identificação de fontes de referência para
validação das traduções
21. I shall say this only once…
• EDITAR e VERIFICAR
• E se cada vez que nós corrigimos um sintagma nominal, a
ferramenta fizesse essa alteração sempre?
• E se cada vez que movemos um adjectivo para depois de
um substantivo, de cada vez que inserimos um artigo, que
mudamos o género de uma ou várias palavras, que
mudamos o número de um verbo, ou que inserimos um
“que” para criar uma oração subordinada, a ferramenta
pudesse fazer essa alteração novamente no mesmo
contexto?
• Yes, they can…
22. Aprendizagem interactiva
• Extracção de um modelo estatístico online do texto original
• Adicionado aos modelos de tradução e de língua
• Identificação de unidades e sub-unidades
• Usado como modelo de correcção
• À medida que o texto é editado, aprende novos alinhamentos
sub-segmento e corrige o modelo de tradução
• Aplica os alinhamentos aprendidos ao modelo de texto, à
medida que o tradutor avança
• Pode ou não adicionar os novos alinhamentos ao modelo de
tradução global
23. Aprendizagem de edição
• Tradução automática interactiva
• Projecto Caitra (Universidade de Edimburgo)
• Correcção dos alinhamentos com base na edição
• PET - Post-editing tool
• Editor para pós-edição de tradução automática e avaliação
humana das traduções
• SMARTedit - Simple MAcro-Recognition Tool editor
• Paradigma de programação por demonstração
• A aplicação grava operações de edição do utilizador para
posterior aplicação em situações semelhantes
24. Correcção por guias de estilo
Language Tool
• Corrector gramatical e de estilo
• Fácil geração de regras
• Pode ser definido para cada um dos projectos de
edição/tradução
• Corrector gramatical com regras em Galego
CoGrOO
• Corrector gramatical para OpenOffice com regras PT-BR
25. Conclusões
• Neste momento estão a ser desenvolvidas as ferramentas de
tradução do futuro.
• Se os tradutores não participarem na definição do “caderno de
encargos”, estas ferramentas vão ter muitos níveis de controlo, mas
podem não servir para as necessidades dos tradutores.
• Desde que cumpram as 3 leis da robótica, as máquinas são nossas
amigas.