O documento discute a importância da tradução automática, seu desenvolvimento histórico e as abordagens atuais baseadas em regras e estatísticas. Também analisa os desafios linguísticos envolvidos e a necessidade de mais pesquisa interdisciplinar entre a linguística e a engenharia.
2. A importância da Tradução Automática (TA)
O fascínio da TA
O meu interesse em TA
Um pouco de história
A Linguística, a Engenharia e a TA
Possibilidades e limitações da TA
‘State-of-the-art’ em TA
2
3. Razões políticas
Multilinguismo como política europeia
Razões sociais
Relações culturais
Importância comercial
3
4. Interesse científico
Um desafio científico para:
◦ A Linguística
◦ A Engenharia Informática
◦ A Inteligência Artificial
Interesse filosófico
◦ Será possível criar ‘Comunicação’ entre o Homem e
a Máquina?
◦ Ou será que nunca haverá inteligência na máquina,
como na ‘Chinese Room’ de John Searle (1980)?
4
5. Como:
Falante nativa de Inglês
Formadora de tradutores profissionais
Adepta da teoria da Linguística Sistémico-
Funcional…
Podem achar que sou a pessoa menos
indicada para estar fascinada com a TA!
5
6. O Inglês, mesmo sendo a ‘língua franca’ entre
certos grupos, não substitui as outras
línguas/culturas
A TA contribui para o multilinguismo
Os bons tradutores usam a TA como
ferramenta
A TA pode acabar com os maus tradutores...
A Linguística Sistémico-Funcional ajuda a
mostrar as limitações (pelo menos atuais) da
Inteligência Artificial…
6
7. Fonética
Fonologia
Morfologia
Morfo-sintaxe
Semântica
O léxico geral – e os léxicos de especialidade
O texto
O contexto
O mundo real
7
8. A história da TA é longa e complexa – ver
Hutchins (2010)
Depois da 2ª Guerra Mundial…
Percepção de que a linguagem humana é
igual a um código
◦ O objetivo é descodificar a linguagem
◦ É tudo uma questão de tempo
Mas não só muito tempo ....
Muito dinheiro e muito esforço
8
9. Linguística estruturalista
◦ Foca a estrutura das línguas
◦ Favorece a ‘langue’ a custa da ‘parole’
Estudo das regras de sintaxe
◦ Verbos e a sua complementação
Transformação: Sub + Adj (PT) >> Adj + Sub (EN)
◦ Estrutura básica das frases
◦ Etc.
Léxico geral – sentido denotativo das palavras
9
10. O sonho de uma estrutura universal da
linguagem
◦ Descobrir a estrutura comum
◦ Descobrir as regras das línguas individuais
◦ Descobrir as regras de conversão
Língua A <> estrutura universal <> Língua B
MAS
◦ A ‘estrutura universal’ é sintática ou semântica?
◦ ‘Sentido denotativo’ vs ‘sentido conotativo?
◦ A metáfora? E a palavra em contexto? E o texto?
10
11. A relação morfologia <> sintaxe?
A relação sintaxe <> léxico?
A relação frase <> texto?
A relação <> texto <> contexto <> mundo
real?
Necessidade de criar muitas regras
Regras baseadas em normas qualitativas – ou
na intuição de ‘bons’ linguistas
11
12. RBMT - Linguistas > intuições e muitas regras
Melhorias possíveis com
◦ Bons dicionários
◦ Bases de dados terminológicas para domínios
específicos – exemplo: METEO
◦ Mais informação quantitativa
Grande problema – difícil conversão de um
sistema RBMT entre as línguas A<>B para um
sistema entre as línguas C<>D
12
13. A disponibilidade de textos em formato
digital > estudo quantitativo das línguas
Corpora
Wordnets
Framenets
Treebanks
Dicionários, Thesauri
Corretores ortográficos / gramaticais
Dedução de regras com base em análise
deste material...
13
14. Os linguistas e os engenheiros trabalham
juntos para produzir corpora e ferramentas
Os engenheiros compreenderam que o
estudo da linguagem oferece a base para:
◦ A Internet
GOOGLE – motor de pesquisa baseado em
processamento de linguagem
◦ Data mining
◦ Information retrieval
◦ Knowledge management
◦ Inteligência artificial .....
14
15. ‘Working with translators’ (Hoft 1995 –
Chapter 8)
Memórias de Tradução
Bases de dados
TA baseada na extração de informação de
memórias de tradução/corpora paralelos-ou
re-aproveitamento de Tradução Humana
Não é tão fácil como isto, mas...
15
16. TA baseada em Regras (RBMT)
◦ Exemplos: Systran, Logos, etc
◦ Exige muita mão-de-obra (sem falar em ‘que teoria
de base?’...)
TA baseada em Estatística (SBMT)
◦ Exemplos: Google Translate e Bing Translator
◦ Existem muito textos paralelos, mas há limites no
progresso
◦ Importa más traduções
16
17. MAS entre RBMT e SBMT - há um leque
enorme de teorias e metodologias...
17
18. Fonética
Fonologia
Morfologia
Morfo-sintaxe
Semântica
O léxico geral – e os léxicos de especialidade
O texto
O contexto
O mundo real
18
19. Fonética e Fonologia
Conhecimentos necessários
1. Reconhecimento da fala > texto
2. Texto > TA > tradução
3. Tradução > fala
19
20. Morfologia
Morfo-sintaxe
Semântica
Léxico geral
Áreas básicas para TA baseada em Regras
Eventualmente + léxicos específicos num
domínio especificado...
20
21. SBMT precisa de:
◦ Grandes quantidades de texto
◦ Grandes memórias de tradução
◦ Corpora anotados
SBMT procura:
◦ Palavras
◦ N-grams ou multipalavras
◦ Entidades Nomeadas
◦ Números, pontuação, etc
◦ Ontologias (para distinguir domínios)
◦ Eventualmente... padrões sintáticos, etc.
21
22. Opinião geral > Hibridização
◦ RBMT + SBMT
Os resultados do motor de regras são seleccionados por
estatística
◦ SBMT + RBMT
Os resultados da estatística são corrigidos por regras
Regras extraídas de corpora anotados
Mais e melhores corpora e memórias de
tradução
Correcção humana de TA + ‘machine learning’
22
24. Halliday, M.A.K. 2004. “Introduction: How Big is a Language?
On the Power of Language.” In The Language of Science:
Volume 5 in the Collected Works of M.A.K. Edited by
J.J.Webster. London and New York: Continuum. p. xi.
Hoft, Nancy 1995. International Technical Communication.
New York: John Wiley and Sons.
Hutchins, John. Várias Publicações -
http://www.hutchinsweb.me.uk/
MT-Archive - http://www.mt-archive.info/
Searle, John. 1980. “Minds, Brains, and Programs.” Behavioral
and Brain Sciences 3, 417-424.
24