SlideShare ist ein Scribd-Unternehmen logo
1 von 49
Downloaden Sie, um offline zu lesen
1
Como Transformar um Sistema de Tradução
Automática por Regras num Sistema Híbrido?
Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
2
 Estado da Arte em Tradução Automática
– Sistemas por regras versus sistemas estatísticos
 OpenLogos – Plataforma para Sistema Híbrido
– Descrição do sistema, arquitetura, características, etc.
 Como Transformar OpenLogos num Sistema Híbrido
– Trabalho futuro
 Exploração do OpenLogos
– criação de novos recursos e aplicações
 Divulgação, esforços, apoio
– Disponibilidade dos recursos gratuitos do OpenLogos
Sumário
Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
3
 Investigadores e criadores de sistemas de TA têm um objetivo principal: criar
sistemas que produzam tradução de alta qualidade comparável à que é
produzida por tradutores humanos.
 Décadas de investigação resultaram na invenção e aperfeiçoamento de métodos
estatísticos que aceleram o processo de tradução
 Desenvolveram-se recursos linguísticos de melhor qualidade, em maior
quantidade e para mais línguas
 Os avanços alcançados em diferentes aproximações e técnicas de TA tornam-se um
campo fértil para o desenvolvimento de uma nova geração de sistemas de TA
linguisticamente mais avançada: os sistemas híbridos
 Reunir métodos diferentes, com os seus pontos fortes, fortificará e melhorará a TA
Estado da Arte em Tradução Automática
visão otimista…
Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
4
 A TA não é um problema resolvido – há erros que perduram depois de
décadas de investigação na área
 Sistemas por regras envolvem um grande investimento de tempo e
recursos humanos (= dinheiro)
 Sistemas estatísticos precisam de enormes quantidades de corpora
paralelos, que para algumas línguas não existem e para outras línguas
existem mas são de má qualidade.
 A hibridização de sistemas de TA é uma linha de investigação
promissora
Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
Estado da Arte em Tradução Automática
a realidade…
5
 Não precisam de corpora paralelos
 Produzem tradução de boa qualidade com
poucos dados e poucas regras
 Funcionam bem em domínios especializados, com bons dicionários e
terminologias
 De construção morosa
 E muito cara…
 Envolvem recursos humanos muito especializados
 Conhecimentos linguísticos avançados para cada par de línguas
Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
Vantagens e Desvantagens dos Sistemas por Regras
6
 Cometem erros linguísticos crassos resolvidos há 20 anos por sistemas
por regras.
 Mesmo com muitos dados, é necessário fazer
pós-edição de erros muito simples (ex: concordância entre substantivo e
adjetivo qualificativo; concordância entre sujeito e verbo, etc.)
 É possível desenvolver um sistema estatístico muito rapidamente, basta
que existam alguns corpora paralelos
 Muito mais barato
 Não são necessários muitos recursos humanos
(especializados)
Vantagens e Desvantagens dos Sistemas Estatísticos
Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
7
Frase original em inglês Tradução do OpenLogos
(RBMT)
Tradução do Google Translate
(SMT)
Kennedy works. Kennedy trabalha. Kennedy funciona.
Kennedy showed the office to Wayne. Kennedy mostrou o escritório a Wayne. Kennedy mostrou o escritório para Wayne.
Kennedy showed Wayne the office. Kennedy mostrou o escritório a Wayne. Kennedy mostrou Wayne no escritório.
Kennedy became a manager. Kennedy tornou-se gerente. Kennedy se tornou um gerente.
Kennedy is working. Kennedy está trabalhando. Kennedy está funcionando.
She hired him. Ela contratou-o. Ela o contratou.
He hired her. Ele contratou-a. Ele a contratou.
He showed it to her. Ele mostrou-o a ela. Ele mostrou a ela.
He showed it to Mary. Ele mostrou-o a Mary. Ele mostrou a Maria.
He interviewed them. Ele entrevistou-os. Ele entrevistou-los.
They interviewed him. Eles entrevistaram-na. Eles entrevistaram ele.
Kennedy interviewed me. Kennedy entrevistou-me. Kennedy me entrevistou.
We interviewed Kennedy. Entrevistámos Kennedy. Entrevistamos Kennedy.
Kennedy interviewed us. Kennedy entrevistou-nos. Kennedy nos entrevistaram.
You interviewed Kennedy. Você entrevistou Kennedy. Você entrevistou Kennedy.
Kennedy interviewed you. Kennedy entrevistou-o. Kennedy entrevistei.
She and I interviewed Kennedy. Ela e eu entrevistámos Kennedy. Ela e eu entrevistei Kennedy.
I and she interviewed Kennedy. Eu e ela entrevistámos Kennedy. Eu e ela entrevistou Kennedy.
Me and her interviewed Kennedy. Eu e ela entrevistámos Kennedy. Eu e ela entrevistou Kennedy.
Her and me interviewed Kennedy. Ela e eu entrevistámos Kennedy. Ela e me entrevistou Kennedy.
Kennedy interviewed her and me. Kennedy entrevistou a ela e a mim. Kennedy entrevistou ela e eu.
Kennedy interviewed me and her. Kennedy entrevistou a mim e a ela. Kennedy me e seu entrevistado.
Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
Sistema por Regras versus Sistema Estatístico
evidência empírica
8
Frase original em inglês Tradução do OpenLogos
(RBMT)
Tradução do Google Translate
(SMT)
She manages whom? Ela dirige quem? Ela consegue quem?
She manages who? Ela dirige quem? Ela consegue quem?
She showed whom an office? Ela mostrou quem um escritório? Ela mostrou que um escritório?
She showed who an office? Ela mostrou quem um escritório? Ela mostrou que um escritório?
Whom does she work for? Quem trabalha ela para? Quem ela trabalha?
Who does she work for? Quem trabalha ela para? Quem é que ela trabalha?
It is time for an interview. É o tempo para uma entrevista. Está na hora de uma entrevista.
It is true that Kennedy hired Wayne. É verdadeiro que Kennedy contratou Wayne. É verdade que Kennedy contratou Wayne.
There are programmers. Há programadores. Existem programadores.
There are programmers working for Michael. Há programadores que trabalham para Michael. Existem programadores que trabalham para Michael.
There are programmers older than Michael. Há programadores mais velhos que Michael. Há programadores mais velhos do que Michael.
There stands in the office a bookcase. Está de pé uma estante no escritório aí. Não está no escritório uma estante.
A manager works. Um gerente trabalha. A gerente funciona.
Managers work. Os gerentes trabalham. Gerentes de trabalho.
Kennedy hired this employee. Kennedy contratou este empregado. Kennedy contratou este funcionário.
Kennedy hired these employees. Kennedy contratou estes empregados. Kennedy contratado esses funcionários.
List women who have bookcases. Enumere mulheres que têm estantes. Lista de mulheres que têm estantes.
List bookcases which women have. Enumere estantes que as mulheres têm. Lista de estantes que as mulheres têm.
The woman evaluated herself. A mulher avaliou-se. A mulher avaliou a si mesma.
The women evaluated themselves. As mulheres avaliaram-se. As mulheres avaliadas si.
Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
Sistema por Regras versus Sistema Estatístico
evidência empírica
9
Frase original em inglês Tradução do OpenLogos
(RBMT)
Tradução do Google Translate
(SMT)
Kennedy hired women who were competent.
Kennedy contratou mulheres que foram
competentes.
Kennedy contratou mulheres que estavam
competente.
Kennedy hired a woman who Wayne interviewed.
Kennedy contratou uma mulher quem Wayne
entrevistou.
Kennedy contratou uma mulher que Wayne
entrevistado.
Kennedy hired a woman who Wayne approved of.
Kennedy contratou uma mulher que Wayne
aprovou.
Kennedy contratou uma mulher que aprovado de
Wayne.
Kennedy has a bookcase which is heavy. Kennedy tem uma estante que é pesada. Kennedy tem uma estante que é pesado.
Kennedy has a bookcase that is heavy. Kennedy tem uma estante que é pesada. Kennedy tem uma estante que é pesado.
Kennedy has an office that Wayne showed Mary.
Kennedy tem um escritório que Wayne mostrou a
Mary.
Kennedy tem um escritório que Wayne mostrou
Mary.
Kennedy has an office Wayne showed Mary.
Kennedy tem um escritório que Wayne mostrou a
Mary. Kennedy tem um escritório Wayne mostrou Mary.
Kennedy hired a woman Wayne interviewed.
Kennedy contratou uma mulher que Wayne
entrevistou.
Kennedy contratou uma mulher Wayne
entrevistado.
Kennedy hired a woman Wayne approved of.
Kennedy contratou uma mulher que Wayne
aprovou. Kennedy contratou uma mulher Wayne aprovado.
List managers of projects who work for Kennedy.
Enumere gerentes de projectos que trabalham para
Kennedy.
Gerentes lista de projetos que trabalham para
Kennedy.
Kennedy hired anyone competent to work on the
project.
Kennedy contratou qualquer um competente de
trabalhar no projecto.
Kennedy contratou ninguém competente para
trabalhar no projeto.
Kennedy approved of who Mary hired. Kennedy aprovou quem Mary contratou. Kennedy aprovou que Mary contratado.
Kennedy approved of where Mary worked. Kennedy aprovou de onde Mary trabalhou. Kennedy aprovado de onde Mary trabalhou.
Kennedy hired a woman of whom Mary approved. Kennedy contratou uma mulher que Mary aprovou.
Kennedy contratou uma mulher de quem Mary
aprovado.
Is Kennedy competent? É competente Kennedy? Kennedy é competente?
Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
Sistema por Regras versus Sistema Estatístico
evidência empírica
10
 Integração de conhecimento linguístico em sistemas de tradução
automática estatística (SMT)
 Aplicação de técnicas estatísticas de alinhamento a sistemas de
tradução automática baseados em regras (RBMT)
Hibridização em Tradução Automática
Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
11
 Estado da Arte em Tradução Automática
– Sistemas por regras versus sistemas estatísticos
 OpenLogos – Plataforma para Sistema Híbrido
– Descrição do sistema, arquitetura, características, etc.
 Como Transformar OpenLogos num Sistema Híbrido
– Trabalho futuro
 Exploração do OpenLogos
– criação de novos recursos e aplicações
 Divulgação, esforços, apoio
– Disponibilidade dos recursos gratuitos do OpenLogos
Sumário
Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
12
 Legado Logos - um dos primeiros sistemas de TA no mundo – 1970-2001
– Considerado de alta qualidade, com grande ênfase na semântica – aproximação através
da análise da língua de forma a que esta seja “entendida” pelo sistema computacional.
– A aproximação Logos assemelha-se em espírito à aproximação estatística na medida em
que as regras são aplicadas a padões em contexto (semântico-sintáticos)
– O conhecimento linguístico envolvido no sistema permite complementar a TA estatística
colmatando dificuldades e fraquezas apresentadas pelos métodos estatísticos.
 Produto comercial – desenvolvido pela empresa norte-americana Logos Corporation
– Estados Unidos, Alemanha e Itália
– 25-100 empregados - 30 anos
– Investimento de 80 milhões de dólares
– 8 pares de línguas: EN-GE, EN-FR, EN-ES, EN-IT, EN-PT e GR-EN, GE-FR, GE-IT
– Clientes em 12 países incluiram: Ericsson of Sweden, the Canadian Secretary of State,
SAP, Siemens-Nixdorg, Oce Netherlands, and Union Fenosa
OpenLogos – Plataforma para Sistema Híbrido
Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
13
 Disponível em código aberto
– adaptado pelo DFKI e no SourceForge
– Qualquer utilizador pode ter acesso à tecnologia
– Disponível para uso comercial e privado
 Adaptável às necessidades do utilizador
– Desenvolvimento de novos recursos linguísticos (bases de dados de regras,
vocabulários, dicionários bilingues, corpora, etc.)
 Oportunidade para a prestação de serviços
– Serviços linguísticos e técnicos e/ou apoio ao cliente
– Integração do sistema/dados noutros pacotes (incluir OpenLogos nos 5
maiores distribuidores de Linux pode representar uma fonte de rendimentos
significativa)
OpenLogos – Plataforma para Sistema Híbrido
Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
14
 Investigação e uso académico
– Dar vida a uma tecnologia hibernada (metáfora de Fénix)
– Componente de regras e representação linguística - plataforma ideal para um
sistema híbrido de TA linguisticamente mais sofisticado
– TA para universidades, unidades de investigação e institutos governamentais
 Línguas minoritárias, negligenciadas e em vias de extinção
– Criação de novos sistemas de TA que contemplem estas línguas
– Não contempladas em programas comerciais
– Resposta a programas de administrações e ONGs para a promoção e
ressurgência destas línguas
 Avanços científicos para a comunidade de PLN/LC
OpenLogos – Plataforma para Sistema Híbrido
Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
 Sistema multi-alvo
– A análise numa língua-fonte pode gerar qualquer número de línguas-alvo
 Análise linguística completa
– Dicionários extensíveis com alicerces semântico-sintáticos subjacentes
– Morfologia
– Significado (semântica)
– Estrutura e função gramatical (sintaxe)
– A análise sintática é específica apenas da língua-fonte; a geração é específica da
língua-alvo.
– A análise abrangente permite construir uma tradução completa e idiomaticamente
correta na língua-alvo.
 Arquitetura em forma de oleoduto
 Software de língua neutra
– Todo o conhecimento linguístico está numa base de dados relacional
15
Caraterísticas do OpenLogos
Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
 Linguagem de Abstração Semântico-Sintática (representação SAL)
– Taxonomia hierárquica com características ontológicas
– Todas as frases da língua natural (LN) que entram no sistema são imediatamente
convertidas para frases SAL
– SAL é a força motriz do processo de tradução no sistema OpenLogos
– O parser (analisador sintático) consegue melhores resultados devido à SAL do que um
analisador puramente sintático conseguiria
 Processamento semântico
– Tabela Semântica (= SEMTAB) contém milhares de regras transformacionais
 Características de interlíngua
– Inicialmente um sistema por transferência, evoluiu para um sistema com características
de interlíngua, que são inerentes ao sistema.
16
Características do OpenLogos
Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
17
Formato
RES1
RES2
P1
P2
P3
P4
S
T4
T3
T1
T2
GEN
Formato
SEMTAB
Regras-alvo SEMTAB
SEMTAB
Regras SAL
Regras-alvo
Regras-alvo
• Modular
• Processamento incremental
• Sistema multi-alvo
• Análise de baixo para cima
• Determinístico
Entrada
Saída SEMTAB
Arquitetura
Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
L2F – INESC-ID FLUP, Porto, 13-14 de Maio de 2013
18
Segmentação em orações ways of cooking lentils - V
Resolução de homógrafos types of [cooking utensils] - ADJ
A análise determinística obriga a que todas as ambiguidades POS sejam resolvidas
(98% precisão)
Formato
RES2
RES1
Regras SAL
SEMTAB
Entrada
no
sistema
Análise Incremental da Língua-Fonte
Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
L2F – INESC-ID FLUP, Porto, 13-14 de Maio de 2013
19
Parse1
Parse3
Parse4
S
Parse2
• SN simples
• resolução
semântica
• SN Prep SN
• orações
relativas
•resolução
semântica
• semântica
dos verbos
•SN
complexos
• orações
simples
•resolução
semântica
•Ordem em
frases
complexas
• resolução
semântica
Regras SAL
SEMTAB
Ex.: a book on the presidency
on = about; concerning
≠ a book on the table
on = over
19
Análise Incremental da Língua-Fonte
Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
SAL - Semantico-syntactic Abstraction Language
 SAL Taxonomy: 3 levels organized hierarchically
– Superconjuntos (supersets)/ Conjuntos (sets)/ Subconjuntos (subsets)
 Continuum semântico-sintáctico da palavra da LN até à categoria gramatical
(POS)
– Palavra literal: airport
– Morfema raíz: port
– SAL Subset: Agfunc (agentive functional location)
– SAL Set: func (functional location)
– SAL Superset: PL (place)
– Categoria: N
Tanto o fluxo de entrada, como as regras são expressas em SAL
20
Linguagem de Representação SAL
Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
21
Ex.: two pieces of cake
Análise do SN:
- morfologia plural de pieces
- semântica de cake
Desenvolvido:
- indutivamente
- por tentativa-erro
- ao longo dos anos
- pela equipa de desenvolvimento
Superconjuntos SAL: Substantivos
Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
22
Superconjunto dos
Substantivos Abstratos 
Conjunto dos Substantivos
Abstratos Não-Verbais 
Sub-
conjuntos
Não-Verbais
Conjunto dos Substantivos
Abstratos Verbais 
Conjuntos
Verbais
Classifications
Methods / Procedures
Taxonomia para os Substantivos Abstratos
23
A palavra cooking é um verbo ou um adjetivo?
ways of cooking lentils
types of cooking utensils
ways  N(AB/method)  tendência verbo
types  N(AB/class)  tendência não-verbo
SAL contribui para a
resolução do homógrafo
O código SAL N(AB/method) na regra
emparelha com um código SAL
semelhante na sequência de entrada
O efeito deste emparelhamento é resolver
cooking como um verbo
Uso de SAL na Resolução de Homógrafos
Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
As regras SAL têm 5 Components
 Padrão SAL
– PARSE2 exemplo: N(IN/data;u) Prep(“on”;u) N(u;u) (a book on the presidency)
 Restrição
– Emparelha apenas se as condições são verdadeiras ou falsas
 Ação-Fonte
– Regras RES: Resolve ambiguidade sintática
– Regras PARSE: Cria uma árvore sintática
– Regras SEMTAB : Resolve ambiguidade semântica
 Ação-Alvo (opcional)
– Leva a efeito a transferência sintática e/ou semântica
 Linha de Comentário
– PARSE2 exemplo: NP(info) Prep(“on”) NP  N1 “about” N2
E.g., book on political satire  book about ....
24
Componentes das Regras SAL
Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
 Complexidade
– Saturação lógica
– A base de dados torna-se demasiado grande
– Há degradação na performance
– Difícil manutenção
– Inércia na melhoria do sistema
 Ambiguidade
– Qualidade/precisão do output – depende de uma desambiguação eficaz
– Desambiguação eficaz provoca um crescimento da base de dados
 Dilema clássico
– A redução da base de dados que permite aliviar a complexidade provoca um
enfraquecimento na desambiguação
– Um aumento do tamanho da base de dados de forma a ajudar a resolver
ambiguidades aumenta a complexidade
25
Problema Clássico dos Sistemas por Regras
Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
26
 Complexidade
– Regras e fluxo de entrada são expressos como padrões SAL
– Mapeamento homogéneo
– As regras são padrões SAL patterns armazenados e organizados num dicionário de
padrões indexado
– O fluxo de entrada SAL serve de argumento de pesquisa para as regras SAL
– Não existe limite quanto ao tamanho das bases de regras e não existe impacto na
performance
– As regras são ordenáveis e fáceis de manter
 Ambiguidade
– Resolução de homógrafos sintáticos
– Escopo de adjetivos, preposições
– Polissemia
Ambiguidade e Complexidade para o OpenLogos
Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
27
metáfora: rede neural biológica
– Vectores V1-V6 = fluxo SAL
– Células nos vectores de entrada = elementos/palavras SAL nos quais o fluxo de
entrada em LN foi convertido
– Nesta rede, R1 a P4 = camadas escondidas que contêm as regras SAL
– R1 prepresenta RES1, P1 representa Parse1 e assim sucessivamente.
– Cada camada escondida contém entre 2-4 mil regras, organizadas pelo seu padrão
SAL, como num dicionário.
À medida em que
a análise evolui:
1- células tornam-
se mais escassas
(natureza abstrata
da análise
sintática)
2- vectores
tornam-se mais
claros
(desambiguação
semântica)
Aplicação das Regras
Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
28
 Principal semelhança
– Interação eficaz entre o fluxo de entrada SAL e as regras das camadas
escondidas
– Apenas as regras que devem ser aplicadas são acedidas
– Não é necessário desenvolver metaregras ou redes de discriminação para
alcançar eficácia no mapeamento de regras
– Mapeamento eficaz de regras é uma característica do design do sistema
metáfora: rede neural biológica
Aplicação das Regras
Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
29
Linguagem de representação SAL em interação com SEMTAB
SEMTAB fornece uma tradução que se sobrepõe à tradução do dicionário
para o verbo “raise”
Sequência LN Regra SEMTAB Tradução em Português
raise a child  V(‘raise’) N(ANdes)  criar. . .
raise corn  V(‘raise’) N(MAedib)  cultivar. . .
raise the rent  V(‘raise’) N(MEabs)  aumentar. . .
Resolução da Polissemia no OpenLogos
Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
30
Uma única regra em estrutura profunda
reconhece múltiplas estruturas de superfície
e produz traduções corretas na língua-alvo
he raised the rent  ele aumentou a renda V+Objecto
the raising of the rent  o aumento da renda Gerúndio
the rent, raised by …  a renda, aumentada por… ADJ Part.
a rent raise  um aumento de renda Substantivo
Regras de SEMTAB em Estrutura Profunda
Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
31
 Aplicar estatística e cálculo de probabilidades na resolução de homógrafos
(RES)
 Aplicar estatística em padrões semântico-sintáticos (SAL), em vez de em n-
gramas
 Métodos de aquisição automática de alinhamentos de unidades semantico-
sintáticas e multipalavras baseadas em alinhamentos supervisionados´-
aprendizagem automática
 Integrar recursos ontológicos e um módulo de parafraseamento alimentado por
um tesauro para reconhecer e integrar paráfrases no fluxo de trabalho da
tradução
Como Transformar OpenLogos num Sistema Híbrido
Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
32
 Novas tecnologias, recursos e técnicas, que contribuem para um
desenvolvimento mais fácil e rápido de novos pares de línguas.
– computação em nuvem
– big data
– técnicas avançadas de alinhamento (aprendizagem)
– crowdsourcing especializado para aumentar a qualidade da TA
Trabalho Futuro
Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
33
 Estado da Arte em Tradução Automática
– Sistemas por regras versus sistemas estatísticos
 OpenLogos – Plataforma para Sistema Híbrido
– Descrição do sistema, arquitetura, características, etc.
 Como Transformar OpenLogos num Sistema Híbrido
– Trabalho futuro
 Exploração do OpenLogos
– criação de novos recursos e aplicações
 Divulgação, esforços, apoio
– Disponibilidade dos recursos gratuitos do OpenLogos
Sumário
Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
34
 SPIDER
– System for Paraphrasing In Document Editing and Revision.
– Baseado em tecnologia NooJ (http://ww.nooj4nlp.net/)
– Disponível em: http://www.linguateca.pt/ReEscreve/
– Optimização da escrita, aplicável à pré-edição para a TA.
 1ª versão – ReEscreve (Português) e ReWriter (Inglês)
 2ª versão – eSPERTo (Português)
Integração num projeto ciberescola no âmbito de uma programa
educacional para ensinar alunos a melhorar as suas capacidades de
escrita em Português
 EXPERT (protótipo) – Escrita de textos em domínios especializados
Recursos OpenLogos Usados em Novas Aplicações
Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
35
 ParaMT
– Parafraseador bilíngue/multilíngue (protótipo de tradutor)
– Utiliza uma metodologia semelhante à empregue pelo SPIDER
– Utiliza dados bilíngues
– Diretamente aplicável à TA
 Corpógrafo
– Ferramenta de gestão de corpora multilingue
– Disponível em: http://www.linguateca.pt/corpografo/
Recursos OpenLogos Usados em Novas Aplicações
Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
36
ReEscreve: Sugestões de Reescrita
37
Texto Reescrito pelo ReEscreve
38
SPIDER: Sugestões de Reescrita
Sugestões de reescrita para
fenómenos linguísticos gerais
Advérbios compostos >
advérbios simples
Construções com verbos-
suporte> verbos simples
Relativas> particípios
passados adjectivais
Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
39
EXPERT: Seleção de Dicionários de Domínio
Identificação de termos jurídicos num
texto
Sugestões para o termo “breach of
law”
O utilizador pode selecionar um termo de uma lista de sugestões ou
apresentar a sua própria sugestão
O utilizador pode selecionar entre dicionários gerais e técnicos e gramáticas para
transformações linguísticas específicas
Texto jurídico
40
Reconhecimento
de CVS em PT e
tradução por
verbos em EN
Tradução
Automática
$EN
Verbos - EN
Construção com com verbo
suporte - PT
>
ParaMT: um Parafraseador para a TA
41
 Estado da Arte em Tradução Automática
– Sistemas por regras versus sistemas estatísticos
 OpenLogos – Plataforma para Sistema Híbrido
– Descrição do sistema, arquitetura, características, etc.
 Como Transformar OpenLogos num Sistema Híbrido
– Trabalho futuro
 Exploração do OpenLogos
– criação de novos recursos e aplicações
 Divulgação, esforços, apoio
– Disponibilidade dos recursos gratuitos do OpenLogos
Sumário
Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
42
 Anusaaraka LTRC, IIIT-Hyderabad
– Protótipo de um sistema de TA Inglês-Hindú
Chaudhury, S.; Rao, A.; Sharma, D. M. (2010). "Anusaaraka: An Expert System based
Machine Translation System". In Proceedings of 2010 IEEE International Conference on
Natural Language Processing and Knowledge Engineering (IEEE NLP-KE2010), Beijing,
China, Aug 21- 23, 2010.
 Kalinga Institute of Industrial Technology, KIIT
– Criação de um laboratório de investigação com tecnologia OpenLogos
OpenLogos para Línguas Minoritárias
Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
43
 Departmento de Ciências Políticas, Sociais e Comunicação,
Universidade de Salerno
– Tese de doutoramento onde foram aplicadas metodologia e regras
SEMTAB do sistema inglês-italiano do OpenLogos, apoiadas pela
tecnologia NooJ na representação dos princípios teóricos e
metodológicos da Teoria Léxico-Gramática
Monti, Johanna (2013). Multi-word unit processing in Machine Translation. Developing and
using linguistic resources for multi-word unit processing in Machine Translation
 Principais universidades da África Austral
– Esforços iniciais para usar OpenLogos como plataforma para a TA entre
Inglês e Línguas Africanas (recursos escassos, falta de corpora
paralelos, etc.) numa iniciativa semlhante à que foi tomada para as
línguas da Índia
Outros Esforços com OpenLogos
Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
44
 DFKI adaptou o OpenLogos do sistema comercial Logos
 Também disponível em Sourceforge, com a licença GPL
 OpenLogos usa apenas componentes em código aberto:
– Ferramentas e compiladores, tais como GCC
– Código e bibliotecas abertas (APITest, logos_batch)
– Bases de dados de código aberto. Os recursos foram convertidos para
PostgreSQL
– Uso de normas abertas em vez de protocolos comerciais
– Platforma Linux
 Recursos, tais como gramáticas para análise (RES) e transferência (TRAN) para as
línguas-fonte e alvo, e bases de dados com dicionários multilíngues
 Ferramentas: LogosTermBuilder, LogosAdmin, linha de comandos (APITest,
openlogos), e interface para começar e monitorizar as traduções
(LogosTransCenter)
Recursos do OpenLogos na DFKI
Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
 Lista de e-mails OpenLogos (DFKI) dedicada a discussão e troca de
informação no que diz respeito ao desenvolvimento do sistema e
discussão de problemas:
http://www.dfki.de/mailman/listinfo/openlogos-list
 Grupo de Discussão no LinkedIn: OpenLogos Machine Translation
 Página no Facebook: OpenLogos
45
Apoio para o OpenLogos
Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
46
 LearnLogos
http://www.l2f.inesc-id.pt/~abarreiro/openlogos-tutorial/newbase_for_learnlogos.htm
 Tutorial SAL
http://www.l2f.inesc-id.pt/~abarreiro/openlogos-tutorial/new_A2menu.htm
LearnLogos e Tutorial SAL
Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
47
Publicações e artigos técnicos com a descrição de:
 Linguagem de representação SAL
 Arquitetura do sistema e fluxo de trabalho
Anabela Barreiro, Bernard Scott, Walter Kasper and Bernd Kiefer. OpenLogos Rule-Based
Machine Translation: Philosophy, Model, Resources, and Customization. In Machine
Translation, volume 25 number 2, Pages 107-126, Springer, Heidelberg, 2011. ISSN: 0922-
6567. DOI: 10.1007/s10590-011-9091-z
Bernard Scott and Anabela Barreiro. OpenLogos MT and the SAL Representation Language.
In Proceedings of the First International Workshop on Free/Open-Source Rule-Based
Machine Translation. Edited by Juan Antonio Pérez-Ortiz, Felipe Sánchez-Martínez, Francis
M. Tyers. Alicante, Spain: Universidad de Alicante. Departamento de Lenguajes y Sistemas
Informáticos. 2–3 November 2009, pp. 19–26
Bernard Scott. The Logos Model: an Historical Perspective. In Machine Translation, vol. 18
(2003), pp. 1–72.
Publicações Mais Relevantes
Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
48
Anabela Barreiro. "SPIDER: a System for Paraphrasing In Document Editing and Revision -
Applicability in Machine Translation Pre-Editing". Computational Linguistics and
Intelligent Text Processing. Proceedings of the 12th International Conference 6609 (2011),
pp. 365-376. Springer. ISSN: 0302-9743. e-ISSN: 1611-3349. DOI: 10.1007/978-3-642-
19400-9. Part II, Lecture Notes in Computer Science
Anabela Barreiro. "ParaMT: a Paraphraser for Machine Translation". In António Teixeira, Vera
Lúcia Strube de Lima, Luís Caldas de Oliveira & Paulo Quaresma (eds.), Computational
Processing of the Portuguese Language, 8th International Conference, Proceedings
(PROPOR 2008) Vol. 5190, (Aveiro, Portugal, 8-10 de Setembro de 2008), Springer Verlag.
Lecture Notes in Computer Science,pp. 202-211.
Anabela Barreiro & Luís Miguel Cabral. "ReEscreve: a translator-friendly multi-purpose
paraphrasing software tool". In Marie-Josée Goulet, Christiane Melançon, Alain Désilets &
Elliott Macklovitch (eds.),Proceedings of the Workshop Beyond Translation Memories: New
Tools for Translators, The Twelfth Machine Translation Summit (Château Laurier, Ottawa,
Ontario, Canada, 29 August 2009), pp. 1-8.
Publicações sobre as Aplicações de Paráfrase e
Reescrita
Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
49
Como Transformar um Sistema de Tradução
Automática por Regras num Sistema Híbrido?
Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia

Weitere ähnliche Inhalte

Mehr von I Conferência Internacional de Tradução e Tecnologia

Mehr von I Conferência Internacional de Tradução e Tecnologia (10)

Bernardo Santos - memoQ
Bernardo Santos - memoQBernardo Santos - memoQ
Bernardo Santos - memoQ
 
Lucia Specia - SMT e pós-edição
Lucia Specia - SMT e pós-ediçãoLucia Specia - SMT e pós-edição
Lucia Specia - SMT e pós-edição
 
Anabela Barreiro - Alinhamentos
Anabela Barreiro - AlinhamentosAnabela Barreiro - Alinhamentos
Anabela Barreiro - Alinhamentos
 
José Ramom Campos - RBMT e distâncias linguísticas
José Ramom Campos - RBMT e distâncias linguísticasJosé Ramom Campos - RBMT e distâncias linguísticas
José Ramom Campos - RBMT e distâncias linguísticas
 
Félix do Carmo e Luís Trigo - Tradutores e máquinas de tradução
Félix do Carmo e Luís Trigo - Tradutores e máquinas de traduçãoFélix do Carmo e Luís Trigo - Tradutores e máquinas de tradução
Félix do Carmo e Luís Trigo - Tradutores e máquinas de tradução
 
José Ramom Campos - Opentrad
José Ramom Campos - OpentradJosé Ramom Campos - Opentrad
José Ramom Campos - Opentrad
 
Lucia Specia - Estimativa de qualidade em TA
Lucia Specia - Estimativa de qualidade em TALucia Specia - Estimativa de qualidade em TA
Lucia Specia - Estimativa de qualidade em TA
 
Hilário Fontes - Tradução automática na CE
Hilário Fontes - Tradução automática na CEHilário Fontes - Tradução automática na CE
Hilário Fontes - Tradução automática na CE
 
Luísa Coheur - Projecto PT-STAR
Luísa Coheur - Projecto PT-STARLuísa Coheur - Projecto PT-STAR
Luísa Coheur - Projecto PT-STAR
 
Belinda Maia - Introdução à tradução automática
Belinda Maia - Introdução à tradução automáticaBelinda Maia - Introdução à tradução automática
Belinda Maia - Introdução à tradução automática
 

Kürzlich hochgeladen

Kürzlich hochgeladen (6)

Padrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemploPadrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemplo
 
Boas práticas de programação com Object Calisthenics
Boas práticas de programação com Object CalisthenicsBoas práticas de programação com Object Calisthenics
Boas práticas de programação com Object Calisthenics
 
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docxATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
 
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docxATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
 
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docxATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
 
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docxATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
 

Anabela Barreiro - Hibridização de TA

  • 1. 1 Como Transformar um Sistema de Tradução Automática por Regras num Sistema Híbrido? Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
  • 2. 2  Estado da Arte em Tradução Automática – Sistemas por regras versus sistemas estatísticos  OpenLogos – Plataforma para Sistema Híbrido – Descrição do sistema, arquitetura, características, etc.  Como Transformar OpenLogos num Sistema Híbrido – Trabalho futuro  Exploração do OpenLogos – criação de novos recursos e aplicações  Divulgação, esforços, apoio – Disponibilidade dos recursos gratuitos do OpenLogos Sumário Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
  • 3. 3  Investigadores e criadores de sistemas de TA têm um objetivo principal: criar sistemas que produzam tradução de alta qualidade comparável à que é produzida por tradutores humanos.  Décadas de investigação resultaram na invenção e aperfeiçoamento de métodos estatísticos que aceleram o processo de tradução  Desenvolveram-se recursos linguísticos de melhor qualidade, em maior quantidade e para mais línguas  Os avanços alcançados em diferentes aproximações e técnicas de TA tornam-se um campo fértil para o desenvolvimento de uma nova geração de sistemas de TA linguisticamente mais avançada: os sistemas híbridos  Reunir métodos diferentes, com os seus pontos fortes, fortificará e melhorará a TA Estado da Arte em Tradução Automática visão otimista… Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
  • 4. 4  A TA não é um problema resolvido – há erros que perduram depois de décadas de investigação na área  Sistemas por regras envolvem um grande investimento de tempo e recursos humanos (= dinheiro)  Sistemas estatísticos precisam de enormes quantidades de corpora paralelos, que para algumas línguas não existem e para outras línguas existem mas são de má qualidade.  A hibridização de sistemas de TA é uma linha de investigação promissora Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia Estado da Arte em Tradução Automática a realidade…
  • 5. 5  Não precisam de corpora paralelos  Produzem tradução de boa qualidade com poucos dados e poucas regras  Funcionam bem em domínios especializados, com bons dicionários e terminologias  De construção morosa  E muito cara…  Envolvem recursos humanos muito especializados  Conhecimentos linguísticos avançados para cada par de línguas Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia Vantagens e Desvantagens dos Sistemas por Regras
  • 6. 6  Cometem erros linguísticos crassos resolvidos há 20 anos por sistemas por regras.  Mesmo com muitos dados, é necessário fazer pós-edição de erros muito simples (ex: concordância entre substantivo e adjetivo qualificativo; concordância entre sujeito e verbo, etc.)  É possível desenvolver um sistema estatístico muito rapidamente, basta que existam alguns corpora paralelos  Muito mais barato  Não são necessários muitos recursos humanos (especializados) Vantagens e Desvantagens dos Sistemas Estatísticos Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
  • 7. 7 Frase original em inglês Tradução do OpenLogos (RBMT) Tradução do Google Translate (SMT) Kennedy works. Kennedy trabalha. Kennedy funciona. Kennedy showed the office to Wayne. Kennedy mostrou o escritório a Wayne. Kennedy mostrou o escritório para Wayne. Kennedy showed Wayne the office. Kennedy mostrou o escritório a Wayne. Kennedy mostrou Wayne no escritório. Kennedy became a manager. Kennedy tornou-se gerente. Kennedy se tornou um gerente. Kennedy is working. Kennedy está trabalhando. Kennedy está funcionando. She hired him. Ela contratou-o. Ela o contratou. He hired her. Ele contratou-a. Ele a contratou. He showed it to her. Ele mostrou-o a ela. Ele mostrou a ela. He showed it to Mary. Ele mostrou-o a Mary. Ele mostrou a Maria. He interviewed them. Ele entrevistou-os. Ele entrevistou-los. They interviewed him. Eles entrevistaram-na. Eles entrevistaram ele. Kennedy interviewed me. Kennedy entrevistou-me. Kennedy me entrevistou. We interviewed Kennedy. Entrevistámos Kennedy. Entrevistamos Kennedy. Kennedy interviewed us. Kennedy entrevistou-nos. Kennedy nos entrevistaram. You interviewed Kennedy. Você entrevistou Kennedy. Você entrevistou Kennedy. Kennedy interviewed you. Kennedy entrevistou-o. Kennedy entrevistei. She and I interviewed Kennedy. Ela e eu entrevistámos Kennedy. Ela e eu entrevistei Kennedy. I and she interviewed Kennedy. Eu e ela entrevistámos Kennedy. Eu e ela entrevistou Kennedy. Me and her interviewed Kennedy. Eu e ela entrevistámos Kennedy. Eu e ela entrevistou Kennedy. Her and me interviewed Kennedy. Ela e eu entrevistámos Kennedy. Ela e me entrevistou Kennedy. Kennedy interviewed her and me. Kennedy entrevistou a ela e a mim. Kennedy entrevistou ela e eu. Kennedy interviewed me and her. Kennedy entrevistou a mim e a ela. Kennedy me e seu entrevistado. Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia Sistema por Regras versus Sistema Estatístico evidência empírica
  • 8. 8 Frase original em inglês Tradução do OpenLogos (RBMT) Tradução do Google Translate (SMT) She manages whom? Ela dirige quem? Ela consegue quem? She manages who? Ela dirige quem? Ela consegue quem? She showed whom an office? Ela mostrou quem um escritório? Ela mostrou que um escritório? She showed who an office? Ela mostrou quem um escritório? Ela mostrou que um escritório? Whom does she work for? Quem trabalha ela para? Quem ela trabalha? Who does she work for? Quem trabalha ela para? Quem é que ela trabalha? It is time for an interview. É o tempo para uma entrevista. Está na hora de uma entrevista. It is true that Kennedy hired Wayne. É verdadeiro que Kennedy contratou Wayne. É verdade que Kennedy contratou Wayne. There are programmers. Há programadores. Existem programadores. There are programmers working for Michael. Há programadores que trabalham para Michael. Existem programadores que trabalham para Michael. There are programmers older than Michael. Há programadores mais velhos que Michael. Há programadores mais velhos do que Michael. There stands in the office a bookcase. Está de pé uma estante no escritório aí. Não está no escritório uma estante. A manager works. Um gerente trabalha. A gerente funciona. Managers work. Os gerentes trabalham. Gerentes de trabalho. Kennedy hired this employee. Kennedy contratou este empregado. Kennedy contratou este funcionário. Kennedy hired these employees. Kennedy contratou estes empregados. Kennedy contratado esses funcionários. List women who have bookcases. Enumere mulheres que têm estantes. Lista de mulheres que têm estantes. List bookcases which women have. Enumere estantes que as mulheres têm. Lista de estantes que as mulheres têm. The woman evaluated herself. A mulher avaliou-se. A mulher avaliou a si mesma. The women evaluated themselves. As mulheres avaliaram-se. As mulheres avaliadas si. Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia Sistema por Regras versus Sistema Estatístico evidência empírica
  • 9. 9 Frase original em inglês Tradução do OpenLogos (RBMT) Tradução do Google Translate (SMT) Kennedy hired women who were competent. Kennedy contratou mulheres que foram competentes. Kennedy contratou mulheres que estavam competente. Kennedy hired a woman who Wayne interviewed. Kennedy contratou uma mulher quem Wayne entrevistou. Kennedy contratou uma mulher que Wayne entrevistado. Kennedy hired a woman who Wayne approved of. Kennedy contratou uma mulher que Wayne aprovou. Kennedy contratou uma mulher que aprovado de Wayne. Kennedy has a bookcase which is heavy. Kennedy tem uma estante que é pesada. Kennedy tem uma estante que é pesado. Kennedy has a bookcase that is heavy. Kennedy tem uma estante que é pesada. Kennedy tem uma estante que é pesado. Kennedy has an office that Wayne showed Mary. Kennedy tem um escritório que Wayne mostrou a Mary. Kennedy tem um escritório que Wayne mostrou Mary. Kennedy has an office Wayne showed Mary. Kennedy tem um escritório que Wayne mostrou a Mary. Kennedy tem um escritório Wayne mostrou Mary. Kennedy hired a woman Wayne interviewed. Kennedy contratou uma mulher que Wayne entrevistou. Kennedy contratou uma mulher Wayne entrevistado. Kennedy hired a woman Wayne approved of. Kennedy contratou uma mulher que Wayne aprovou. Kennedy contratou uma mulher Wayne aprovado. List managers of projects who work for Kennedy. Enumere gerentes de projectos que trabalham para Kennedy. Gerentes lista de projetos que trabalham para Kennedy. Kennedy hired anyone competent to work on the project. Kennedy contratou qualquer um competente de trabalhar no projecto. Kennedy contratou ninguém competente para trabalhar no projeto. Kennedy approved of who Mary hired. Kennedy aprovou quem Mary contratou. Kennedy aprovou que Mary contratado. Kennedy approved of where Mary worked. Kennedy aprovou de onde Mary trabalhou. Kennedy aprovado de onde Mary trabalhou. Kennedy hired a woman of whom Mary approved. Kennedy contratou uma mulher que Mary aprovou. Kennedy contratou uma mulher de quem Mary aprovado. Is Kennedy competent? É competente Kennedy? Kennedy é competente? Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia Sistema por Regras versus Sistema Estatístico evidência empírica
  • 10. 10  Integração de conhecimento linguístico em sistemas de tradução automática estatística (SMT)  Aplicação de técnicas estatísticas de alinhamento a sistemas de tradução automática baseados em regras (RBMT) Hibridização em Tradução Automática Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
  • 11. 11  Estado da Arte em Tradução Automática – Sistemas por regras versus sistemas estatísticos  OpenLogos – Plataforma para Sistema Híbrido – Descrição do sistema, arquitetura, características, etc.  Como Transformar OpenLogos num Sistema Híbrido – Trabalho futuro  Exploração do OpenLogos – criação de novos recursos e aplicações  Divulgação, esforços, apoio – Disponibilidade dos recursos gratuitos do OpenLogos Sumário Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
  • 12. 12  Legado Logos - um dos primeiros sistemas de TA no mundo – 1970-2001 – Considerado de alta qualidade, com grande ênfase na semântica – aproximação através da análise da língua de forma a que esta seja “entendida” pelo sistema computacional. – A aproximação Logos assemelha-se em espírito à aproximação estatística na medida em que as regras são aplicadas a padões em contexto (semântico-sintáticos) – O conhecimento linguístico envolvido no sistema permite complementar a TA estatística colmatando dificuldades e fraquezas apresentadas pelos métodos estatísticos.  Produto comercial – desenvolvido pela empresa norte-americana Logos Corporation – Estados Unidos, Alemanha e Itália – 25-100 empregados - 30 anos – Investimento de 80 milhões de dólares – 8 pares de línguas: EN-GE, EN-FR, EN-ES, EN-IT, EN-PT e GR-EN, GE-FR, GE-IT – Clientes em 12 países incluiram: Ericsson of Sweden, the Canadian Secretary of State, SAP, Siemens-Nixdorg, Oce Netherlands, and Union Fenosa OpenLogos – Plataforma para Sistema Híbrido Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
  • 13. 13  Disponível em código aberto – adaptado pelo DFKI e no SourceForge – Qualquer utilizador pode ter acesso à tecnologia – Disponível para uso comercial e privado  Adaptável às necessidades do utilizador – Desenvolvimento de novos recursos linguísticos (bases de dados de regras, vocabulários, dicionários bilingues, corpora, etc.)  Oportunidade para a prestação de serviços – Serviços linguísticos e técnicos e/ou apoio ao cliente – Integração do sistema/dados noutros pacotes (incluir OpenLogos nos 5 maiores distribuidores de Linux pode representar uma fonte de rendimentos significativa) OpenLogos – Plataforma para Sistema Híbrido Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
  • 14. 14  Investigação e uso académico – Dar vida a uma tecnologia hibernada (metáfora de Fénix) – Componente de regras e representação linguística - plataforma ideal para um sistema híbrido de TA linguisticamente mais sofisticado – TA para universidades, unidades de investigação e institutos governamentais  Línguas minoritárias, negligenciadas e em vias de extinção – Criação de novos sistemas de TA que contemplem estas línguas – Não contempladas em programas comerciais – Resposta a programas de administrações e ONGs para a promoção e ressurgência destas línguas  Avanços científicos para a comunidade de PLN/LC OpenLogos – Plataforma para Sistema Híbrido Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
  • 15.  Sistema multi-alvo – A análise numa língua-fonte pode gerar qualquer número de línguas-alvo  Análise linguística completa – Dicionários extensíveis com alicerces semântico-sintáticos subjacentes – Morfologia – Significado (semântica) – Estrutura e função gramatical (sintaxe) – A análise sintática é específica apenas da língua-fonte; a geração é específica da língua-alvo. – A análise abrangente permite construir uma tradução completa e idiomaticamente correta na língua-alvo.  Arquitetura em forma de oleoduto  Software de língua neutra – Todo o conhecimento linguístico está numa base de dados relacional 15 Caraterísticas do OpenLogos Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
  • 16.  Linguagem de Abstração Semântico-Sintática (representação SAL) – Taxonomia hierárquica com características ontológicas – Todas as frases da língua natural (LN) que entram no sistema são imediatamente convertidas para frases SAL – SAL é a força motriz do processo de tradução no sistema OpenLogos – O parser (analisador sintático) consegue melhores resultados devido à SAL do que um analisador puramente sintático conseguiria  Processamento semântico – Tabela Semântica (= SEMTAB) contém milhares de regras transformacionais  Características de interlíngua – Inicialmente um sistema por transferência, evoluiu para um sistema com características de interlíngua, que são inerentes ao sistema. 16 Características do OpenLogos Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
  • 17. 17 Formato RES1 RES2 P1 P2 P3 P4 S T4 T3 T1 T2 GEN Formato SEMTAB Regras-alvo SEMTAB SEMTAB Regras SAL Regras-alvo Regras-alvo • Modular • Processamento incremental • Sistema multi-alvo • Análise de baixo para cima • Determinístico Entrada Saída SEMTAB Arquitetura Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia L2F – INESC-ID FLUP, Porto, 13-14 de Maio de 2013
  • 18. 18 Segmentação em orações ways of cooking lentils - V Resolução de homógrafos types of [cooking utensils] - ADJ A análise determinística obriga a que todas as ambiguidades POS sejam resolvidas (98% precisão) Formato RES2 RES1 Regras SAL SEMTAB Entrada no sistema Análise Incremental da Língua-Fonte Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia L2F – INESC-ID FLUP, Porto, 13-14 de Maio de 2013
  • 19. 19 Parse1 Parse3 Parse4 S Parse2 • SN simples • resolução semântica • SN Prep SN • orações relativas •resolução semântica • semântica dos verbos •SN complexos • orações simples •resolução semântica •Ordem em frases complexas • resolução semântica Regras SAL SEMTAB Ex.: a book on the presidency on = about; concerning ≠ a book on the table on = over 19 Análise Incremental da Língua-Fonte Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
  • 20. SAL - Semantico-syntactic Abstraction Language  SAL Taxonomy: 3 levels organized hierarchically – Superconjuntos (supersets)/ Conjuntos (sets)/ Subconjuntos (subsets)  Continuum semântico-sintáctico da palavra da LN até à categoria gramatical (POS) – Palavra literal: airport – Morfema raíz: port – SAL Subset: Agfunc (agentive functional location) – SAL Set: func (functional location) – SAL Superset: PL (place) – Categoria: N Tanto o fluxo de entrada, como as regras são expressas em SAL 20 Linguagem de Representação SAL Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
  • 21. 21 Ex.: two pieces of cake Análise do SN: - morfologia plural de pieces - semântica de cake Desenvolvido: - indutivamente - por tentativa-erro - ao longo dos anos - pela equipa de desenvolvimento Superconjuntos SAL: Substantivos Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
  • 22. 22 Superconjunto dos Substantivos Abstratos  Conjunto dos Substantivos Abstratos Não-Verbais  Sub- conjuntos Não-Verbais Conjunto dos Substantivos Abstratos Verbais  Conjuntos Verbais Classifications Methods / Procedures Taxonomia para os Substantivos Abstratos
  • 23. 23 A palavra cooking é um verbo ou um adjetivo? ways of cooking lentils types of cooking utensils ways  N(AB/method)  tendência verbo types  N(AB/class)  tendência não-verbo SAL contribui para a resolução do homógrafo O código SAL N(AB/method) na regra emparelha com um código SAL semelhante na sequência de entrada O efeito deste emparelhamento é resolver cooking como um verbo Uso de SAL na Resolução de Homógrafos Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
  • 24. As regras SAL têm 5 Components  Padrão SAL – PARSE2 exemplo: N(IN/data;u) Prep(“on”;u) N(u;u) (a book on the presidency)  Restrição – Emparelha apenas se as condições são verdadeiras ou falsas  Ação-Fonte – Regras RES: Resolve ambiguidade sintática – Regras PARSE: Cria uma árvore sintática – Regras SEMTAB : Resolve ambiguidade semântica  Ação-Alvo (opcional) – Leva a efeito a transferência sintática e/ou semântica  Linha de Comentário – PARSE2 exemplo: NP(info) Prep(“on”) NP  N1 “about” N2 E.g., book on political satire  book about .... 24 Componentes das Regras SAL Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
  • 25.  Complexidade – Saturação lógica – A base de dados torna-se demasiado grande – Há degradação na performance – Difícil manutenção – Inércia na melhoria do sistema  Ambiguidade – Qualidade/precisão do output – depende de uma desambiguação eficaz – Desambiguação eficaz provoca um crescimento da base de dados  Dilema clássico – A redução da base de dados que permite aliviar a complexidade provoca um enfraquecimento na desambiguação – Um aumento do tamanho da base de dados de forma a ajudar a resolver ambiguidades aumenta a complexidade 25 Problema Clássico dos Sistemas por Regras Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
  • 26. 26  Complexidade – Regras e fluxo de entrada são expressos como padrões SAL – Mapeamento homogéneo – As regras são padrões SAL patterns armazenados e organizados num dicionário de padrões indexado – O fluxo de entrada SAL serve de argumento de pesquisa para as regras SAL – Não existe limite quanto ao tamanho das bases de regras e não existe impacto na performance – As regras são ordenáveis e fáceis de manter  Ambiguidade – Resolução de homógrafos sintáticos – Escopo de adjetivos, preposições – Polissemia Ambiguidade e Complexidade para o OpenLogos Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
  • 27. 27 metáfora: rede neural biológica – Vectores V1-V6 = fluxo SAL – Células nos vectores de entrada = elementos/palavras SAL nos quais o fluxo de entrada em LN foi convertido – Nesta rede, R1 a P4 = camadas escondidas que contêm as regras SAL – R1 prepresenta RES1, P1 representa Parse1 e assim sucessivamente. – Cada camada escondida contém entre 2-4 mil regras, organizadas pelo seu padrão SAL, como num dicionário. À medida em que a análise evolui: 1- células tornam- se mais escassas (natureza abstrata da análise sintática) 2- vectores tornam-se mais claros (desambiguação semântica) Aplicação das Regras Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
  • 28. 28  Principal semelhança – Interação eficaz entre o fluxo de entrada SAL e as regras das camadas escondidas – Apenas as regras que devem ser aplicadas são acedidas – Não é necessário desenvolver metaregras ou redes de discriminação para alcançar eficácia no mapeamento de regras – Mapeamento eficaz de regras é uma característica do design do sistema metáfora: rede neural biológica Aplicação das Regras Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
  • 29. 29 Linguagem de representação SAL em interação com SEMTAB SEMTAB fornece uma tradução que se sobrepõe à tradução do dicionário para o verbo “raise” Sequência LN Regra SEMTAB Tradução em Português raise a child  V(‘raise’) N(ANdes)  criar. . . raise corn  V(‘raise’) N(MAedib)  cultivar. . . raise the rent  V(‘raise’) N(MEabs)  aumentar. . . Resolução da Polissemia no OpenLogos Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
  • 30. 30 Uma única regra em estrutura profunda reconhece múltiplas estruturas de superfície e produz traduções corretas na língua-alvo he raised the rent  ele aumentou a renda V+Objecto the raising of the rent  o aumento da renda Gerúndio the rent, raised by …  a renda, aumentada por… ADJ Part. a rent raise  um aumento de renda Substantivo Regras de SEMTAB em Estrutura Profunda Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
  • 31. 31  Aplicar estatística e cálculo de probabilidades na resolução de homógrafos (RES)  Aplicar estatística em padrões semântico-sintáticos (SAL), em vez de em n- gramas  Métodos de aquisição automática de alinhamentos de unidades semantico- sintáticas e multipalavras baseadas em alinhamentos supervisionados´- aprendizagem automática  Integrar recursos ontológicos e um módulo de parafraseamento alimentado por um tesauro para reconhecer e integrar paráfrases no fluxo de trabalho da tradução Como Transformar OpenLogos num Sistema Híbrido Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
  • 32. 32  Novas tecnologias, recursos e técnicas, que contribuem para um desenvolvimento mais fácil e rápido de novos pares de línguas. – computação em nuvem – big data – técnicas avançadas de alinhamento (aprendizagem) – crowdsourcing especializado para aumentar a qualidade da TA Trabalho Futuro Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
  • 33. 33  Estado da Arte em Tradução Automática – Sistemas por regras versus sistemas estatísticos  OpenLogos – Plataforma para Sistema Híbrido – Descrição do sistema, arquitetura, características, etc.  Como Transformar OpenLogos num Sistema Híbrido – Trabalho futuro  Exploração do OpenLogos – criação de novos recursos e aplicações  Divulgação, esforços, apoio – Disponibilidade dos recursos gratuitos do OpenLogos Sumário Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
  • 34. 34  SPIDER – System for Paraphrasing In Document Editing and Revision. – Baseado em tecnologia NooJ (http://ww.nooj4nlp.net/) – Disponível em: http://www.linguateca.pt/ReEscreve/ – Optimização da escrita, aplicável à pré-edição para a TA.  1ª versão – ReEscreve (Português) e ReWriter (Inglês)  2ª versão – eSPERTo (Português) Integração num projeto ciberescola no âmbito de uma programa educacional para ensinar alunos a melhorar as suas capacidades de escrita em Português  EXPERT (protótipo) – Escrita de textos em domínios especializados Recursos OpenLogos Usados em Novas Aplicações Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
  • 35. 35  ParaMT – Parafraseador bilíngue/multilíngue (protótipo de tradutor) – Utiliza uma metodologia semelhante à empregue pelo SPIDER – Utiliza dados bilíngues – Diretamente aplicável à TA  Corpógrafo – Ferramenta de gestão de corpora multilingue – Disponível em: http://www.linguateca.pt/corpografo/ Recursos OpenLogos Usados em Novas Aplicações Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
  • 38. 38 SPIDER: Sugestões de Reescrita Sugestões de reescrita para fenómenos linguísticos gerais Advérbios compostos > advérbios simples Construções com verbos- suporte> verbos simples Relativas> particípios passados adjectivais Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
  • 39. 39 EXPERT: Seleção de Dicionários de Domínio Identificação de termos jurídicos num texto Sugestões para o termo “breach of law” O utilizador pode selecionar um termo de uma lista de sugestões ou apresentar a sua própria sugestão O utilizador pode selecionar entre dicionários gerais e técnicos e gramáticas para transformações linguísticas específicas Texto jurídico
  • 40. 40 Reconhecimento de CVS em PT e tradução por verbos em EN Tradução Automática $EN Verbos - EN Construção com com verbo suporte - PT > ParaMT: um Parafraseador para a TA
  • 41. 41  Estado da Arte em Tradução Automática – Sistemas por regras versus sistemas estatísticos  OpenLogos – Plataforma para Sistema Híbrido – Descrição do sistema, arquitetura, características, etc.  Como Transformar OpenLogos num Sistema Híbrido – Trabalho futuro  Exploração do OpenLogos – criação de novos recursos e aplicações  Divulgação, esforços, apoio – Disponibilidade dos recursos gratuitos do OpenLogos Sumário Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
  • 42. 42  Anusaaraka LTRC, IIIT-Hyderabad – Protótipo de um sistema de TA Inglês-Hindú Chaudhury, S.; Rao, A.; Sharma, D. M. (2010). "Anusaaraka: An Expert System based Machine Translation System". In Proceedings of 2010 IEEE International Conference on Natural Language Processing and Knowledge Engineering (IEEE NLP-KE2010), Beijing, China, Aug 21- 23, 2010.  Kalinga Institute of Industrial Technology, KIIT – Criação de um laboratório de investigação com tecnologia OpenLogos OpenLogos para Línguas Minoritárias Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
  • 43. 43  Departmento de Ciências Políticas, Sociais e Comunicação, Universidade de Salerno – Tese de doutoramento onde foram aplicadas metodologia e regras SEMTAB do sistema inglês-italiano do OpenLogos, apoiadas pela tecnologia NooJ na representação dos princípios teóricos e metodológicos da Teoria Léxico-Gramática Monti, Johanna (2013). Multi-word unit processing in Machine Translation. Developing and using linguistic resources for multi-word unit processing in Machine Translation  Principais universidades da África Austral – Esforços iniciais para usar OpenLogos como plataforma para a TA entre Inglês e Línguas Africanas (recursos escassos, falta de corpora paralelos, etc.) numa iniciativa semlhante à que foi tomada para as línguas da Índia Outros Esforços com OpenLogos Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
  • 44. 44  DFKI adaptou o OpenLogos do sistema comercial Logos  Também disponível em Sourceforge, com a licença GPL  OpenLogos usa apenas componentes em código aberto: – Ferramentas e compiladores, tais como GCC – Código e bibliotecas abertas (APITest, logos_batch) – Bases de dados de código aberto. Os recursos foram convertidos para PostgreSQL – Uso de normas abertas em vez de protocolos comerciais – Platforma Linux  Recursos, tais como gramáticas para análise (RES) e transferência (TRAN) para as línguas-fonte e alvo, e bases de dados com dicionários multilíngues  Ferramentas: LogosTermBuilder, LogosAdmin, linha de comandos (APITest, openlogos), e interface para começar e monitorizar as traduções (LogosTransCenter) Recursos do OpenLogos na DFKI Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
  • 45.  Lista de e-mails OpenLogos (DFKI) dedicada a discussão e troca de informação no que diz respeito ao desenvolvimento do sistema e discussão de problemas: http://www.dfki.de/mailman/listinfo/openlogos-list  Grupo de Discussão no LinkedIn: OpenLogos Machine Translation  Página no Facebook: OpenLogos 45 Apoio para o OpenLogos Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
  • 46. 46  LearnLogos http://www.l2f.inesc-id.pt/~abarreiro/openlogos-tutorial/newbase_for_learnlogos.htm  Tutorial SAL http://www.l2f.inesc-id.pt/~abarreiro/openlogos-tutorial/new_A2menu.htm LearnLogos e Tutorial SAL Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
  • 47. 47 Publicações e artigos técnicos com a descrição de:  Linguagem de representação SAL  Arquitetura do sistema e fluxo de trabalho Anabela Barreiro, Bernard Scott, Walter Kasper and Bernd Kiefer. OpenLogos Rule-Based Machine Translation: Philosophy, Model, Resources, and Customization. In Machine Translation, volume 25 number 2, Pages 107-126, Springer, Heidelberg, 2011. ISSN: 0922- 6567. DOI: 10.1007/s10590-011-9091-z Bernard Scott and Anabela Barreiro. OpenLogos MT and the SAL Representation Language. In Proceedings of the First International Workshop on Free/Open-Source Rule-Based Machine Translation. Edited by Juan Antonio Pérez-Ortiz, Felipe Sánchez-Martínez, Francis M. Tyers. Alicante, Spain: Universidad de Alicante. Departamento de Lenguajes y Sistemas Informáticos. 2–3 November 2009, pp. 19–26 Bernard Scott. The Logos Model: an Historical Perspective. In Machine Translation, vol. 18 (2003), pp. 1–72. Publicações Mais Relevantes Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
  • 48. 48 Anabela Barreiro. "SPIDER: a System for Paraphrasing In Document Editing and Revision - Applicability in Machine Translation Pre-Editing". Computational Linguistics and Intelligent Text Processing. Proceedings of the 12th International Conference 6609 (2011), pp. 365-376. Springer. ISSN: 0302-9743. e-ISSN: 1611-3349. DOI: 10.1007/978-3-642- 19400-9. Part II, Lecture Notes in Computer Science Anabela Barreiro. "ParaMT: a Paraphraser for Machine Translation". In António Teixeira, Vera Lúcia Strube de Lima, Luís Caldas de Oliveira & Paulo Quaresma (eds.), Computational Processing of the Portuguese Language, 8th International Conference, Proceedings (PROPOR 2008) Vol. 5190, (Aveiro, Portugal, 8-10 de Setembro de 2008), Springer Verlag. Lecture Notes in Computer Science,pp. 202-211. Anabela Barreiro & Luís Miguel Cabral. "ReEscreve: a translator-friendly multi-purpose paraphrasing software tool". In Marie-Josée Goulet, Christiane Melançon, Alain Désilets & Elliott Macklovitch (eds.),Proceedings of the Workshop Beyond Translation Memories: New Tools for Translators, The Twelfth Machine Translation Summit (Château Laurier, Ottawa, Ontario, Canada, 29 August 2009), pp. 1-8. Publicações sobre as Aplicações de Paráfrase e Reescrita Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia
  • 49. 49 Como Transformar um Sistema de Tradução Automática por Regras num Sistema Híbrido? Anabela Barreiro I Conferência Internacional de Tradução e Tecnologia