SlideShare ist ein Scribd-Unternehmen logo
1 von 24
Downloaden Sie, um offline zu lesen
Belinda Maia
FLUP
13 de Maio 2013
1
 A importância da Tradução Automática (TA)
 O fascínio da TA
 O meu interesse em TA
 Um pouco de história
 A Linguística, a Engenharia e a TA
 Possibilidades e limitações da TA
 ‘State-of-the-art’ em TA
2
 Razões políticas
 Multilinguismo como política europeia
 Razões sociais
 Relações culturais
 Importância comercial
3
 Interesse científico
 Um desafio científico para:
◦ A Linguística
◦ A Engenharia Informática
◦ A Inteligência Artificial
 Interesse filosófico
◦ Será possível criar ‘Comunicação’ entre o Homem e
a Máquina?
◦ Ou será que nunca haverá inteligência na máquina,
como na ‘Chinese Room’ de John Searle (1980)?
4
Como:
 Falante nativa de Inglês
 Formadora de tradutores profissionais
 Adepta da teoria da Linguística Sistémico-
Funcional…
 Podem achar que sou a pessoa menos
indicada para estar fascinada com a TA!
5
 O Inglês, mesmo sendo a ‘língua franca’ entre
certos grupos, não substitui as outras
línguas/culturas
 A TA contribui para o multilinguismo
 Os bons tradutores usam a TA como
ferramenta
 A TA pode acabar com os maus tradutores...
 A Linguística Sistémico-Funcional ajuda a
mostrar as limitações (pelo menos atuais) da
Inteligência Artificial…
6
 Fonética
 Fonologia
 Morfologia
 Morfo-sintaxe
 Semântica
 O léxico geral – e os léxicos de especialidade
 O texto
 O contexto
 O mundo real
7
 A história da TA é longa e complexa – ver
Hutchins (2010)
 Depois da 2ª Guerra Mundial…
 Percepção de que a linguagem humana é
igual a um código
◦ O objetivo é descodificar a linguagem
◦ É tudo uma questão de tempo
 Mas não só muito tempo ....
 Muito dinheiro e muito esforço
8
 Linguística estruturalista
◦ Foca a estrutura das línguas
◦ Favorece a ‘langue’ a custa da ‘parole’
 Estudo das regras de sintaxe
◦ Verbos e a sua complementação
 Transformação: Sub + Adj (PT) >> Adj + Sub (EN)
◦ Estrutura básica das frases
◦ Etc.
 Léxico geral – sentido denotativo das palavras
9
 O sonho de uma estrutura universal da
linguagem
◦ Descobrir a estrutura comum
◦ Descobrir as regras das línguas individuais
◦ Descobrir as regras de conversão
 Língua A <> estrutura universal <> Língua B
 MAS
◦ A ‘estrutura universal’ é sintática ou semântica?
◦ ‘Sentido denotativo’ vs ‘sentido conotativo?
◦ A metáfora? E a palavra em contexto? E o texto?
10
 A relação morfologia <> sintaxe?
 A relação sintaxe <> léxico?
 A relação frase <> texto?
 A relação <> texto <> contexto <> mundo
real?
 Necessidade de criar muitas regras
 Regras baseadas em normas qualitativas – ou
na intuição de ‘bons’ linguistas
11
 RBMT - Linguistas > intuições e muitas regras
 Melhorias possíveis com
◦ Bons dicionários
◦ Bases de dados terminológicas para domínios
específicos – exemplo: METEO
◦ Mais informação quantitativa
 Grande problema – difícil conversão de um
sistema RBMT entre as línguas A<>B para um
sistema entre as línguas C<>D
12
 A disponibilidade de textos em formato
digital > estudo quantitativo das línguas
 Corpora
 Wordnets
 Framenets
 Treebanks
 Dicionários, Thesauri
 Corretores ortográficos / gramaticais
 Dedução de regras com base em análise
deste material...
13
 Os linguistas e os engenheiros trabalham
juntos para produzir corpora e ferramentas
 Os engenheiros compreenderam que o
estudo da linguagem oferece a base para:
◦ A Internet
 GOOGLE – motor de pesquisa baseado em
processamento de linguagem
◦ Data mining
◦ Information retrieval
◦ Knowledge management
◦ Inteligência artificial .....
14
 ‘Working with translators’ (Hoft 1995 –
Chapter 8)
 Memórias de Tradução
 Bases de dados
 TA baseada na extração de informação de
memórias de tradução/corpora paralelos-ou
re-aproveitamento de Tradução Humana
 Não é tão fácil como isto, mas...
15
 TA baseada em Regras (RBMT)
◦ Exemplos: Systran, Logos, etc
◦ Exige muita mão-de-obra (sem falar em ‘que teoria
de base?’...)
 TA baseada em Estatística (SBMT)
◦ Exemplos: Google Translate e Bing Translator
◦ Existem muito textos paralelos, mas há limites no
progresso
◦ Importa más traduções
16
 MAS entre RBMT e SBMT - há um leque
enorme de teorias e metodologias...
17
 Fonética
 Fonologia
 Morfologia
 Morfo-sintaxe
 Semântica
 O léxico geral – e os léxicos de especialidade
 O texto
 O contexto
 O mundo real
18
 Fonética e Fonologia
 Conhecimentos necessários
1. Reconhecimento da fala > texto
2. Texto > TA > tradução
3. Tradução > fala
19
 Morfologia
 Morfo-sintaxe
 Semântica
 Léxico geral
 Áreas básicas para TA baseada em Regras
Eventualmente + léxicos específicos num
domínio especificado...
20
 SBMT precisa de:
◦ Grandes quantidades de texto
◦ Grandes memórias de tradução
◦ Corpora anotados
 SBMT procura:
◦ Palavras
◦ N-grams ou multipalavras
◦ Entidades Nomeadas
◦ Números, pontuação, etc
◦ Ontologias (para distinguir domínios)
◦ Eventualmente... padrões sintáticos, etc.
21
 Opinião geral > Hibridização
◦ RBMT + SBMT
 Os resultados do motor de regras são seleccionados por
estatística
◦ SBMT + RBMT
 Os resultados da estatística são corrigidos por regras
 Regras extraídas de corpora anotados
 Mais e melhores corpora e memórias de
tradução
 Correcção humana de TA + ‘machine learning’
22
OBRIGADA!
23
 Halliday, M.A.K. 2004. “Introduction: How Big is a Language?
On the Power of Language.” In The Language of Science:
Volume 5 in the Collected Works of M.A.K. Edited by
J.J.Webster. London and New York: Continuum. p. xi.
 Hoft, Nancy 1995. International Technical Communication.
New York: John Wiley and Sons.
 Hutchins, John. Várias Publicações -
http://www.hutchinsweb.me.uk/
 MT-Archive - http://www.mt-archive.info/
 Searle, John. 1980. “Minds, Brains, and Programs.” Behavioral
and Brain Sciences 3, 417-424.
24

Weitere ähnliche Inhalte

Ähnlich wie Belinda Maia - Introdução à tradução automática

Minerando informações de textos
Minerando informações de textosMinerando informações de textos
Minerando informações de textosBarbara Barbosa
 
Perspectivas na Análise de Textos Não-Estruturados
Perspectivas na Análise de Textos Não-EstruturadosPerspectivas na Análise de Textos Não-Estruturados
Perspectivas na Análise de Textos Não-EstruturadosBruno Guide
 
Dt 2008 o_que_mudou_resumo
Dt 2008 o_que_mudou_resumoDt 2008 o_que_mudou_resumo
Dt 2008 o_que_mudou_resumoEduardcoelho
 
Vocabulário de termos e listas de postings
Vocabulário de termos e listas de postingsVocabulário de termos e listas de postings
Vocabulário de termos e listas de postingsAlexandre Duarte
 
Aula 00 português
Aula 00   portuguêsAula 00   português
Aula 00 portuguêsricardo17754
 
Aula 2 - PIE - LFA - (2018.2) CCO 6 NA
Aula 2 - PIE - LFA - (2018.2) CCO 6 NAAula 2 - PIE - LFA - (2018.2) CCO 6 NA
Aula 2 - PIE - LFA - (2018.2) CCO 6 NACloves da Rocha
 
Apresentação Dicionário 22
Apresentação  Dicionário 22Apresentação  Dicionário 22
Apresentação Dicionário 22esteribeiroc
 
Linguagens de Programação
Linguagens de ProgramaçãoLinguagens de Programação
Linguagens de ProgramaçãoBeDMK
 
BMT20231 100 100 Textos e Documentos.pdf
BMT20231 100 100 Textos e Documentos.pdfBMT20231 100 100 Textos e Documentos.pdf
BMT20231 100 100 Textos e Documentos.pdfGeraldo Xexéo
 
2023_Enanpad_Workshop Ferramentas de IA na Pesquisa.pdf
2023_Enanpad_Workshop Ferramentas de IA na Pesquisa.pdf2023_Enanpad_Workshop Ferramentas de IA na Pesquisa.pdf
2023_Enanpad_Workshop Ferramentas de IA na Pesquisa.pdfAnatalia Saraiva Martins Ramos
 
Prova concurso ufpe analista de sistemas
Prova concurso ufpe   analista de sistemasProva concurso ufpe   analista de sistemas
Prova concurso ufpe analista de sistemasJ M
 
Enem na sala de aula
Enem na sala de aulaEnem na sala de aula
Enem na sala de aulatelasnorte1
 
Processamento Automático da Língua Portuguesa - Campus Party Br 6
Processamento Automático da Língua Portuguesa - Campus Party Br 6Processamento Automático da Língua Portuguesa - Campus Party Br 6
Processamento Automático da Língua Portuguesa - Campus Party Br 6William Colen
 
Revisão Final INSS 2016
Revisão Final  INSS 2016 Revisão Final  INSS 2016
Revisão Final INSS 2016 Rafaela Freitas
 

Ähnlich wie Belinda Maia - Introdução à tradução automática (20)

Minerando informações de textos
Minerando informações de textosMinerando informações de textos
Minerando informações de textos
 
Perspectivas na Análise de Textos Não-Estruturados
Perspectivas na Análise de Textos Não-EstruturadosPerspectivas na Análise de Textos Não-Estruturados
Perspectivas na Análise de Textos Não-Estruturados
 
Gestão de Terminologia
Gestão de TerminologiaGestão de Terminologia
Gestão de Terminologia
 
Paradigmas de programação
Paradigmas de programaçãoParadigmas de programação
Paradigmas de programação
 
Dt 2008 o_que_mudou_resumo
Dt 2008 o_que_mudou_resumoDt 2008 o_que_mudou_resumo
Dt 2008 o_que_mudou_resumo
 
Vocabulário de termos e listas de postings
Vocabulário de termos e listas de postingsVocabulário de termos e listas de postings
Vocabulário de termos e listas de postings
 
Aula 00
Aula 00Aula 00
Aula 00
 
Aula 00 português
Aula 00   portuguêsAula 00   português
Aula 00 português
 
Aula 2 - PIE - LFA - (2018.2) CCO 6 NA
Aula 2 - PIE - LFA - (2018.2) CCO 6 NAAula 2 - PIE - LFA - (2018.2) CCO 6 NA
Aula 2 - PIE - LFA - (2018.2) CCO 6 NA
 
Apresentação Dicionário 22
Apresentação  Dicionário 22Apresentação  Dicionário 22
Apresentação Dicionário 22
 
DicionáRio
DicionáRioDicionáRio
DicionáRio
 
Aula 2
Aula 2Aula 2
Aula 2
 
Linguagens de Programação
Linguagens de ProgramaçãoLinguagens de Programação
Linguagens de Programação
 
BMT20231 100 100 Textos e Documentos.pdf
BMT20231 100 100 Textos e Documentos.pdfBMT20231 100 100 Textos e Documentos.pdf
BMT20231 100 100 Textos e Documentos.pdf
 
2023_Enanpad_Workshop Ferramentas de IA na Pesquisa.pdf
2023_Enanpad_Workshop Ferramentas de IA na Pesquisa.pdf2023_Enanpad_Workshop Ferramentas de IA na Pesquisa.pdf
2023_Enanpad_Workshop Ferramentas de IA na Pesquisa.pdf
 
Prova concurso ufpe analista de sistemas
Prova concurso ufpe   analista de sistemasProva concurso ufpe   analista de sistemas
Prova concurso ufpe analista de sistemas
 
internetes
 internetes internetes
internetes
 
Enem na sala de aula
Enem na sala de aulaEnem na sala de aula
Enem na sala de aula
 
Processamento Automático da Língua Portuguesa - Campus Party Br 6
Processamento Automático da Língua Portuguesa - Campus Party Br 6Processamento Automático da Língua Portuguesa - Campus Party Br 6
Processamento Automático da Língua Portuguesa - Campus Party Br 6
 
Revisão Final INSS 2016
Revisão Final  INSS 2016 Revisão Final  INSS 2016
Revisão Final INSS 2016
 

Mehr von I Conferência Internacional de Tradução e Tecnologia (9)

Bernardo Santos - memoQ
Bernardo Santos - memoQBernardo Santos - memoQ
Bernardo Santos - memoQ
 
Lucia Specia - SMT e pós-edição
Lucia Specia - SMT e pós-ediçãoLucia Specia - SMT e pós-edição
Lucia Specia - SMT e pós-edição
 
Anabela Barreiro - Alinhamentos
Anabela Barreiro - AlinhamentosAnabela Barreiro - Alinhamentos
Anabela Barreiro - Alinhamentos
 
José Ramom Campos - RBMT e distâncias linguísticas
José Ramom Campos - RBMT e distâncias linguísticasJosé Ramom Campos - RBMT e distâncias linguísticas
José Ramom Campos - RBMT e distâncias linguísticas
 
Félix do Carmo e Luís Trigo - Tradutores e máquinas de tradução
Félix do Carmo e Luís Trigo - Tradutores e máquinas de traduçãoFélix do Carmo e Luís Trigo - Tradutores e máquinas de tradução
Félix do Carmo e Luís Trigo - Tradutores e máquinas de tradução
 
José Ramom Campos - Opentrad
José Ramom Campos - OpentradJosé Ramom Campos - Opentrad
José Ramom Campos - Opentrad
 
Lucia Specia - Estimativa de qualidade em TA
Lucia Specia - Estimativa de qualidade em TALucia Specia - Estimativa de qualidade em TA
Lucia Specia - Estimativa de qualidade em TA
 
Anabela Barreiro - Hibridização de TA
Anabela Barreiro - Hibridização de TAAnabela Barreiro - Hibridização de TA
Anabela Barreiro - Hibridização de TA
 
Luísa Coheur - Projecto PT-STAR
Luísa Coheur - Projecto PT-STARLuísa Coheur - Projecto PT-STAR
Luísa Coheur - Projecto PT-STAR
 

Belinda Maia - Introdução à tradução automática

  • 2.  A importância da Tradução Automática (TA)  O fascínio da TA  O meu interesse em TA  Um pouco de história  A Linguística, a Engenharia e a TA  Possibilidades e limitações da TA  ‘State-of-the-art’ em TA 2
  • 3.  Razões políticas  Multilinguismo como política europeia  Razões sociais  Relações culturais  Importância comercial 3
  • 4.  Interesse científico  Um desafio científico para: ◦ A Linguística ◦ A Engenharia Informática ◦ A Inteligência Artificial  Interesse filosófico ◦ Será possível criar ‘Comunicação’ entre o Homem e a Máquina? ◦ Ou será que nunca haverá inteligência na máquina, como na ‘Chinese Room’ de John Searle (1980)? 4
  • 5. Como:  Falante nativa de Inglês  Formadora de tradutores profissionais  Adepta da teoria da Linguística Sistémico- Funcional…  Podem achar que sou a pessoa menos indicada para estar fascinada com a TA! 5
  • 6.  O Inglês, mesmo sendo a ‘língua franca’ entre certos grupos, não substitui as outras línguas/culturas  A TA contribui para o multilinguismo  Os bons tradutores usam a TA como ferramenta  A TA pode acabar com os maus tradutores...  A Linguística Sistémico-Funcional ajuda a mostrar as limitações (pelo menos atuais) da Inteligência Artificial… 6
  • 7.  Fonética  Fonologia  Morfologia  Morfo-sintaxe  Semântica  O léxico geral – e os léxicos de especialidade  O texto  O contexto  O mundo real 7
  • 8.  A história da TA é longa e complexa – ver Hutchins (2010)  Depois da 2ª Guerra Mundial…  Percepção de que a linguagem humana é igual a um código ◦ O objetivo é descodificar a linguagem ◦ É tudo uma questão de tempo  Mas não só muito tempo ....  Muito dinheiro e muito esforço 8
  • 9.  Linguística estruturalista ◦ Foca a estrutura das línguas ◦ Favorece a ‘langue’ a custa da ‘parole’  Estudo das regras de sintaxe ◦ Verbos e a sua complementação  Transformação: Sub + Adj (PT) >> Adj + Sub (EN) ◦ Estrutura básica das frases ◦ Etc.  Léxico geral – sentido denotativo das palavras 9
  • 10.  O sonho de uma estrutura universal da linguagem ◦ Descobrir a estrutura comum ◦ Descobrir as regras das línguas individuais ◦ Descobrir as regras de conversão  Língua A <> estrutura universal <> Língua B  MAS ◦ A ‘estrutura universal’ é sintática ou semântica? ◦ ‘Sentido denotativo’ vs ‘sentido conotativo? ◦ A metáfora? E a palavra em contexto? E o texto? 10
  • 11.  A relação morfologia <> sintaxe?  A relação sintaxe <> léxico?  A relação frase <> texto?  A relação <> texto <> contexto <> mundo real?  Necessidade de criar muitas regras  Regras baseadas em normas qualitativas – ou na intuição de ‘bons’ linguistas 11
  • 12.  RBMT - Linguistas > intuições e muitas regras  Melhorias possíveis com ◦ Bons dicionários ◦ Bases de dados terminológicas para domínios específicos – exemplo: METEO ◦ Mais informação quantitativa  Grande problema – difícil conversão de um sistema RBMT entre as línguas A<>B para um sistema entre as línguas C<>D 12
  • 13.  A disponibilidade de textos em formato digital > estudo quantitativo das línguas  Corpora  Wordnets  Framenets  Treebanks  Dicionários, Thesauri  Corretores ortográficos / gramaticais  Dedução de regras com base em análise deste material... 13
  • 14.  Os linguistas e os engenheiros trabalham juntos para produzir corpora e ferramentas  Os engenheiros compreenderam que o estudo da linguagem oferece a base para: ◦ A Internet  GOOGLE – motor de pesquisa baseado em processamento de linguagem ◦ Data mining ◦ Information retrieval ◦ Knowledge management ◦ Inteligência artificial ..... 14
  • 15.  ‘Working with translators’ (Hoft 1995 – Chapter 8)  Memórias de Tradução  Bases de dados  TA baseada na extração de informação de memórias de tradução/corpora paralelos-ou re-aproveitamento de Tradução Humana  Não é tão fácil como isto, mas... 15
  • 16.  TA baseada em Regras (RBMT) ◦ Exemplos: Systran, Logos, etc ◦ Exige muita mão-de-obra (sem falar em ‘que teoria de base?’...)  TA baseada em Estatística (SBMT) ◦ Exemplos: Google Translate e Bing Translator ◦ Existem muito textos paralelos, mas há limites no progresso ◦ Importa más traduções 16
  • 17.  MAS entre RBMT e SBMT - há um leque enorme de teorias e metodologias... 17
  • 18.  Fonética  Fonologia  Morfologia  Morfo-sintaxe  Semântica  O léxico geral – e os léxicos de especialidade  O texto  O contexto  O mundo real 18
  • 19.  Fonética e Fonologia  Conhecimentos necessários 1. Reconhecimento da fala > texto 2. Texto > TA > tradução 3. Tradução > fala 19
  • 20.  Morfologia  Morfo-sintaxe  Semântica  Léxico geral  Áreas básicas para TA baseada em Regras Eventualmente + léxicos específicos num domínio especificado... 20
  • 21.  SBMT precisa de: ◦ Grandes quantidades de texto ◦ Grandes memórias de tradução ◦ Corpora anotados  SBMT procura: ◦ Palavras ◦ N-grams ou multipalavras ◦ Entidades Nomeadas ◦ Números, pontuação, etc ◦ Ontologias (para distinguir domínios) ◦ Eventualmente... padrões sintáticos, etc. 21
  • 22.  Opinião geral > Hibridização ◦ RBMT + SBMT  Os resultados do motor de regras são seleccionados por estatística ◦ SBMT + RBMT  Os resultados da estatística são corrigidos por regras  Regras extraídas de corpora anotados  Mais e melhores corpora e memórias de tradução  Correcção humana de TA + ‘machine learning’ 22
  • 24.  Halliday, M.A.K. 2004. “Introduction: How Big is a Language? On the Power of Language.” In The Language of Science: Volume 5 in the Collected Works of M.A.K. Edited by J.J.Webster. London and New York: Continuum. p. xi.  Hoft, Nancy 1995. International Technical Communication. New York: John Wiley and Sons.  Hutchins, John. Várias Publicações - http://www.hutchinsweb.me.uk/  MT-Archive - http://www.mt-archive.info/  Searle, John. 1980. “Minds, Brains, and Programs.” Behavioral and Brain Sciences 3, 417-424. 24