SlideShare una empresa de Scribd logo
1 de 17
TAUS OPEN SOURCE MACHINE TRANSLATION SHOWCASE


Integration of Advanced Language Processing Techniques into
Statistical Machine Translation

11:10-11:30
Wednesday, 17 October

Diego Bartolome
Tauyou
Language Processing Techniques
                          for
Statistical Machine Translation



      Contact: Diego Bartolome – dbc@tauyou.com
      C/ Les Planes 39, 1o 2a – 08201 Sabadell – Spain
      Tel. +34 93 711 29 96
To start ...




               Contact: Diego Bartolome – dbc@tauyou.com
               C/ Les Planes 39, 1o 2a – 08201 Sabadell – Spain
               Tel. +34 93 711 29 96
… you choose Moses ...

Translation memories + linguistic assets

Cleaning and training following tutorials

BLEU score seems ok in training

                                  … but ...

the results are awful!


             Contact: Diego Bartolome – dbc@tauyou.com
             C/ Les Planes 39, 1o 2a – 08201 Sabadell – Spain
             Tel. +34 93 711 29 96
Why?

Not enough data
Unclean translation memories
Misalignments
Spelling and grammar errors
Difficult language pairs
Selection of wrong parameters
Application of suboptimal techniques

So many things … what can you do?
             Contact: Diego Bartolome – dbc@tauyou.com
             C/ Les Planes 39, 1o 2a – 08201 Sabadell – Spain
             Tel. +34 93 711 29 96
Contact: Diego Bartolome – dbc@tauyou.com
C/ Les Planes 39, 1o 2a – 08201 Sabadell – Spain
Tel. +34 93 711 29 96
Some steps

Maximum exploitation of existing assets

Source content optimization

Data selection and cleaning

Improvement of the models

Linguistic processing

...


            Contact: Diego Bartolome – dbc@tauyou.com
            C/ Les Planes 39, 1o 2a – 08201 Sabadell – Spain
            Tel. +34 93 711 29 96
Existing assets: increase TM leverage

Translation memory sharing

   Clients, Partners, Competitors, EU, UN, TAUS

Relevant on-line data retrieval

Advanced TM techniques

   Sub-segment matching

   Parts of Speech replacement


             Contact: Diego Bartolome – dbc@tauyou.com
             C/ Les Planes 39, 1o 2a – 08201 Sabadell – Spain
             Tel. +34 93 711 29 96
Source optimization (I): Pre-editing

new
doc
                                         proposed
                                            doc              +    html
                                                                 report

        Spell check
        Grammar check
        Style check
        Terminology check
        Client checklist

          Contact: Diego Bartolome – dbc@tauyou.com
          C/ Les Planes 39, 1o 2a – 08201 Sabadell – Spain
          Tel. +34 93 711 29 96
Source optimization (II): Summarization

new
doc
                                         proposed
                                            doc              +    html
                                                                 report

       % to reduce
       Use translation memories
             Project
             Client
             All

          Contact: Diego Bartolome – dbc@tauyou.com
          C/ Les Planes 39, 1o 2a – 08201 Sabadell – Spain
          Tel. +34 93 711 29 96
Summarization example

                  http://www.translationautomation.com/press-
                  releases/free-open-source-machine-translation-
                  tutorial-is-made-available-by-taus




         Contact: Diego Bartolome – dbc@tauyou.com
         C/ Les Planes 39, 1o 2a – 08201 Sabadell – Spain
         Tel. +34 93 711 29 96
Data selection and cleaning – a sample

Clean translation memories

   Length, punctuation, terminology, repetitions …

   Segment splitting

Optimize weight of most frequent n-grams in corpus

   Validate their translations

Add out-of-domain data for irrelevant n-grams


             Contact: Diego Bartolome – dbc@tauyou.com
             C/ Les Planes 39, 1o 2a – 08201 Sabadell – Spain
             Tel. +34 93 711 29 96
Models optimization

Filter the translation tables
   Remove the garbage + tune the weights if necessary
Optimize language models
   Adapt them to the translation purpose
Tune parameters correctly
   Tune set, test set, optimization parameters …

Improve recasing
              Contact: Diego Bartolome – dbc@tauyou.com
              C/ Les Planes 39, 1o 2a – 08201 Sabadell – Spain
              Tel. +34 93 711 29 96
Linguistic processing

In the source and/or target language

   Grammar checking

   Entities detection

      proper nouns, alphanumeric words, numbers, ...

   Compund words splitting

   Sentence reordering


           Contact: Diego Bartolome – dbc@tauyou.com
           C/ Les Planes 39, 1o 2a – 08201 Sabadell – Spain
           Tel. +34 93 711 29 96
An example from
Source
XXX 335102 doses are calculated as a free acid of the sodium salt (NA).
The potential toxicity of XXX 335102 was studied in a number of acute toxicity studies in mouse and rat
and repeat dose toxicity studies of 8 and 32 weeks each in rat and monkeys.
XXX 335102 was negative in a panel of in vivo and in vitro tests to assess mutagenicity and
clastogenicity identifying no genotoxic risks for human subjects.
An in vitro assay for phototoxic potential suggested that XXX 335102 is photoxic/photosensitive.
In the 8-week studies in monkeys, increases in unconjugated bilirubin were noted at the doses tested
(33, 88, 192 and 444mg/kg/day); the greatest increases occurring at Week 4 and declining or returning
to control levels by Week 8.

Reference
Las dosis de XXX 335102 se calculan como la sal sódica sin ácido (AS).
La toxicidad potencial de XXX 335102 se estudió en varios estudios de toxicidad aguda en ratones y
ratas y en estudios de toxicidad con administración repetida de 8 y 32 semanas en ratas y monos.
Se obtuvieron resultados negativos en un grupo de pruebas in vivo e in vitro para evaluar su mutagenia
y clastogenia, sin identificarse riesgos genotóxicos para el ser humano.
En un estudio in vitro de su potencial fototóxico se sugirió que XXX 335102 es fototóxico o
fotosensibilizador.
En los estudios de 8 semanas en monos se apreció el aumento de la bilirrubina no conjugada con las
dosis estudiadas (33, 88, 192 y 444 mg/kg/día), produciéndose el mayor incremento en la semana 4 y
disminuyendo o volviendo a los niveles de control en la semana 8.
Generic engine
XXX 335102 se calculan en forma de dosis de ácido libre del sodio sal (NA).
La Toxicidad potencial de XXX 335102 fue estudiado en una serie de estudios de toxicidad aguda en
ratón y rata y vuelva a dosis estudios de toxicidad, de 8 y de 32 semanas en rata y cada uno de los
monos.
XXX 335102 era negativo en un grupo de in vivo y pruebas in vitro para evaluar mutagenicidad y
genotóxicas clastogenicity no identificar los riesgos para los participantes humanos.
Un para fines de ensayo in vitro phototoxic potencial se sugirió que XXX 335102
photoxic/Photosensitive.
En Los 8 -week estudios en los monos, aumentos en unconjugated bilirrubina salieron a las dosis
analizada (33, 88, 192 y 444 mg/kg/día); los mayores incrementos habidos En la semana 4 y la
reducción o devolver a nivel de control de 8 Por semana.

Medical engine with improvements
Las dosis XXX 335102 se calculan como ácido libre de la sal sódica (AS).
La toxicidad potencial de XXX 335102 se estudió en varios estudios de toxicidad aguda en ratones y
ratas y en estudios de toxicidad con administración repetida de 8 y 32 semanas en ratas y monos.
XXX 335102 dio negativo en un grupo de pruebas in vivo e in vitro para evaluar su mutagenia y
clastogenia, sin identificarse riesgos genotóxicos para el ser humano.
En un estudio in vitro de su potencial fototóxico se sugirió que XXX 335102 es fototóxico o
fotosensibilizador.
En los estudios de 8 semanas en monos, el aumento de la bilirrubina no conjugada con las dosis
estudiadas (33, 88, 192 y 444 mg/kg/día); el mayor incremento en la semana 4 y disminuyendo o
volviendo a los niveles de control en la semana 8.
Conclusions

MT can be combined with other advanced techniques

Creating an improving an engine requires time

   You can also be lucky at the first try!

The optimum results require translators

   Implementation of the linguistic knowledge

   Continuous improvement


          Contact: Diego Bartolome – dbc@tauyou.com
          C/ Les Planes 39, 1o 2a – 08201 Sabadell – Spain
          Tel. +34 93 711 29 96

Más contenido relacionado

Destacado

TAUS MT SHOWCASE, Microsoft Translator, Chris Wendt, Microsoft, 10 October 2013
TAUS MT SHOWCASE,  Microsoft Translator, Chris Wendt, Microsoft, 10 October 2013TAUS MT SHOWCASE,  Microsoft Translator, Chris Wendt, Microsoft, 10 October 2013
TAUS MT SHOWCASE, Microsoft Translator, Chris Wendt, Microsoft, 10 October 2013TAUS - The Language Data Network
 
TAUS OPEN SOURCE MACHINE TRANSLATION SHOWCASE, Paris, Fred Hollowood, Symante...
TAUS OPEN SOURCE MACHINE TRANSLATION SHOWCASE, Paris, Fred Hollowood, Symante...TAUS OPEN SOURCE MACHINE TRANSLATION SHOWCASE, Paris, Fred Hollowood, Symante...
TAUS OPEN SOURCE MACHINE TRANSLATION SHOWCASE, Paris, Fred Hollowood, Symante...TAUS - The Language Data Network
 
Home Goods Retailer pg 11
Home Goods Retailer pg 11Home Goods Retailer pg 11
Home Goods Retailer pg 11Eugene Beukes
 
LA INFORMATICA EN LA SALUD
LA INFORMATICA EN LA SALUDLA INFORMATICA EN LA SALUD
LA INFORMATICA EN LA SALUDguest6a65b7
 
Strengthening learning contexts: An introduction
Strengthening learning contexts: An introductionStrengthening learning contexts: An introduction
Strengthening learning contexts: An introductionDenis Gillet
 
Comparte Marketing - Producción creativa - Lartaun Pérez
Comparte Marketing - Producción creativa - Lartaun PérezComparte Marketing - Producción creativa - Lartaun Pérez
Comparte Marketing - Producción creativa - Lartaun PérezLas Iniciativas
 
#SITNL pubquiz 2013
#SITNL pubquiz 2013#SITNL pubquiz 2013
#SITNL pubquiz 2013svleuken
 
Icv forum programm_2012
Icv forum programm_2012Icv forum programm_2012
Icv forum programm_2012ICV_eV
 

Destacado (12)

TAUS MT SHOWCASE, Microsoft Translator, Chris Wendt, Microsoft, 10 October 2013
TAUS MT SHOWCASE,  Microsoft Translator, Chris Wendt, Microsoft, 10 October 2013TAUS MT SHOWCASE,  Microsoft Translator, Chris Wendt, Microsoft, 10 October 2013
TAUS MT SHOWCASE, Microsoft Translator, Chris Wendt, Microsoft, 10 October 2013
 
TAUS OPEN SOURCE MACHINE TRANSLATION SHOWCASE, Paris, Fred Hollowood, Symante...
TAUS OPEN SOURCE MACHINE TRANSLATION SHOWCASE, Paris, Fred Hollowood, Symante...TAUS OPEN SOURCE MACHINE TRANSLATION SHOWCASE, Paris, Fred Hollowood, Symante...
TAUS OPEN SOURCE MACHINE TRANSLATION SHOWCASE, Paris, Fred Hollowood, Symante...
 
Quality Management in Localization Certification
Quality Management in Localization CertificationQuality Management in Localization Certification
Quality Management in Localization Certification
 
Terminology in the cloud with memoQ and TaaS, CHAT2013
Terminology in the cloud with memoQ and TaaS, CHAT2013Terminology in the cloud with memoQ and TaaS, CHAT2013
Terminology in the cloud with memoQ and TaaS, CHAT2013
 
Home Goods Retailer pg 11
Home Goods Retailer pg 11Home Goods Retailer pg 11
Home Goods Retailer pg 11
 
LA INFORMATICA EN LA SALUD
LA INFORMATICA EN LA SALUDLA INFORMATICA EN LA SALUD
LA INFORMATICA EN LA SALUD
 
Strengthening learning contexts: An introduction
Strengthening learning contexts: An introductionStrengthening learning contexts: An introduction
Strengthening learning contexts: An introduction
 
Comparte Marketing - Producción creativa - Lartaun Pérez
Comparte Marketing - Producción creativa - Lartaun PérezComparte Marketing - Producción creativa - Lartaun Pérez
Comparte Marketing - Producción creativa - Lartaun Pérez
 
#SITNL pubquiz 2013
#SITNL pubquiz 2013#SITNL pubquiz 2013
#SITNL pubquiz 2013
 
Icv forum programm_2012
Icv forum programm_2012Icv forum programm_2012
Icv forum programm_2012
 
el Cachorro
el Cachorroel Cachorro
el Cachorro
 
Revista digital innovación.
Revista digital  innovación.Revista digital  innovación.
Revista digital innovación.
 

Más de TAUS - The Language Data Network

TAUS Global Content Summit Amsterdam 2019 / Beyond MT. A few premature reflec...
TAUS Global Content Summit Amsterdam 2019 / Beyond MT. A few premature reflec...TAUS Global Content Summit Amsterdam 2019 / Beyond MT. A few premature reflec...
TAUS Global Content Summit Amsterdam 2019 / Beyond MT. A few premature reflec...TAUS - The Language Data Network
 
TAUS Global Content Summit Amsterdam 2019 / Measure with DQF, Dace Dzeguze (T...
TAUS Global Content Summit Amsterdam 2019 / Measure with DQF, Dace Dzeguze (T...TAUS Global Content Summit Amsterdam 2019 / Measure with DQF, Dace Dzeguze (T...
TAUS Global Content Summit Amsterdam 2019 / Measure with DQF, Dace Dzeguze (T...TAUS - The Language Data Network
 
TAUS Global Content Summit Amsterdam 2019 / Automatic for the People by Domin...
TAUS Global Content Summit Amsterdam 2019 / Automatic for the People by Domin...TAUS Global Content Summit Amsterdam 2019 / Automatic for the People by Domin...
TAUS Global Content Summit Amsterdam 2019 / Automatic for the People by Domin...TAUS - The Language Data Network
 
TAUS Global Content Summit Amsterdam 2019 / The Quantum Leap: Human Parity, C...
TAUS Global Content Summit Amsterdam 2019 / The Quantum Leap: Human Parity, C...TAUS Global Content Summit Amsterdam 2019 / The Quantum Leap: Human Parity, C...
TAUS Global Content Summit Amsterdam 2019 / The Quantum Leap: Human Parity, C...TAUS - The Language Data Network
 
TAUS Global Content Summit Amsterdam 2019 / Growing Business by Connecting Co...
TAUS Global Content Summit Amsterdam 2019 / Growing Business by Connecting Co...TAUS Global Content Summit Amsterdam 2019 / Growing Business by Connecting Co...
TAUS Global Content Summit Amsterdam 2019 / Growing Business by Connecting Co...TAUS - The Language Data Network
 
Achieving Translation Efficiency and Accuracy for Video Content, Xiao Yuan (P...
Achieving Translation Efficiency and Accuracy for Video Content, Xiao Yuan (P...Achieving Translation Efficiency and Accuracy for Video Content, Xiao Yuan (P...
Achieving Translation Efficiency and Accuracy for Video Content, Xiao Yuan (P...TAUS - The Language Data Network
 
Introduction Innovation Contest Shenzhen by Henri Broekmate (Lionbridge)
Introduction Innovation Contest Shenzhen by Henri Broekmate (Lionbridge)Introduction Innovation Contest Shenzhen by Henri Broekmate (Lionbridge)
Introduction Innovation Contest Shenzhen by Henri Broekmate (Lionbridge)TAUS - The Language Data Network
 
Game Changer for Linguistic Review: Shifting the Paradigm, Klaus Fleischmann...
 Game Changer for Linguistic Review: Shifting the Paradigm, Klaus Fleischmann... Game Changer for Linguistic Review: Shifting the Paradigm, Klaus Fleischmann...
Game Changer for Linguistic Review: Shifting the Paradigm, Klaus Fleischmann...TAUS - The Language Data Network
 
A translation memory P2P trading platform - to make global translation memory...
A translation memory P2P trading platform - to make global translation memory...A translation memory P2P trading platform - to make global translation memory...
A translation memory P2P trading platform - to make global translation memory...TAUS - The Language Data Network
 
Shiyibao — The Most Efficient Translation Feedback System Ever, Guanqing Hao ...
Shiyibao — The Most Efficient Translation Feedback System Ever, Guanqing Hao ...Shiyibao — The Most Efficient Translation Feedback System Ever, Guanqing Hao ...
Shiyibao — The Most Efficient Translation Feedback System Ever, Guanqing Hao ...TAUS - The Language Data Network
 
Stepes – Instant Human Translation Services for the Digital World, Carl Yao (...
Stepes – Instant Human Translation Services for the Digital World, Carl Yao (...Stepes – Instant Human Translation Services for the Digital World, Carl Yao (...
Stepes – Instant Human Translation Services for the Digital World, Carl Yao (...TAUS - The Language Data Network
 
Smart Translation Resource Management: Semantic Matching, Kirk Zhang (Wiitran...
Smart Translation Resource Management: Semantic Matching, Kirk Zhang (Wiitran...Smart Translation Resource Management: Semantic Matching, Kirk Zhang (Wiitran...
Smart Translation Resource Management: Semantic Matching, Kirk Zhang (Wiitran...TAUS - The Language Data Network
 
The Theory and Practice of Computer Aided Translation Training System, Liu Q...
 The Theory and Practice of Computer Aided Translation Training System, Liu Q... The Theory and Practice of Computer Aided Translation Training System, Liu Q...
The Theory and Practice of Computer Aided Translation Training System, Liu Q...TAUS - The Language Data Network
 
How to efficiently use large-scale TMs in translation, Jing Zhang (Tmxmall)
How to efficiently use large-scale TMs in translation, Jing Zhang (Tmxmall)How to efficiently use large-scale TMs in translation, Jing Zhang (Tmxmall)
How to efficiently use large-scale TMs in translation, Jing Zhang (Tmxmall)TAUS - The Language Data Network
 
A use-case for getting MT into your company, Kerstin Berns (berns language c...
 A use-case for getting MT into your company, Kerstin Berns (berns language c... A use-case for getting MT into your company, Kerstin Berns (berns language c...
A use-case for getting MT into your company, Kerstin Berns (berns language c...TAUS - The Language Data Network
 

Más de TAUS - The Language Data Network (20)

TAUS Global Content Summit Amsterdam 2019 / Beyond MT. A few premature reflec...
TAUS Global Content Summit Amsterdam 2019 / Beyond MT. A few premature reflec...TAUS Global Content Summit Amsterdam 2019 / Beyond MT. A few premature reflec...
TAUS Global Content Summit Amsterdam 2019 / Beyond MT. A few premature reflec...
 
TAUS Global Content Summit Amsterdam 2019 / Measure with DQF, Dace Dzeguze (T...
TAUS Global Content Summit Amsterdam 2019 / Measure with DQF, Dace Dzeguze (T...TAUS Global Content Summit Amsterdam 2019 / Measure with DQF, Dace Dzeguze (T...
TAUS Global Content Summit Amsterdam 2019 / Measure with DQF, Dace Dzeguze (T...
 
TAUS Global Content Summit Amsterdam 2019 / Automatic for the People by Domin...
TAUS Global Content Summit Amsterdam 2019 / Automatic for the People by Domin...TAUS Global Content Summit Amsterdam 2019 / Automatic for the People by Domin...
TAUS Global Content Summit Amsterdam 2019 / Automatic for the People by Domin...
 
TAUS Global Content Summit Amsterdam 2019 / The Quantum Leap: Human Parity, C...
TAUS Global Content Summit Amsterdam 2019 / The Quantum Leap: Human Parity, C...TAUS Global Content Summit Amsterdam 2019 / The Quantum Leap: Human Parity, C...
TAUS Global Content Summit Amsterdam 2019 / The Quantum Leap: Human Parity, C...
 
TAUS Global Content Summit Amsterdam 2019 / Growing Business by Connecting Co...
TAUS Global Content Summit Amsterdam 2019 / Growing Business by Connecting Co...TAUS Global Content Summit Amsterdam 2019 / Growing Business by Connecting Co...
TAUS Global Content Summit Amsterdam 2019 / Growing Business by Connecting Co...
 
Achieving Translation Efficiency and Accuracy for Video Content, Xiao Yuan (P...
Achieving Translation Efficiency and Accuracy for Video Content, Xiao Yuan (P...Achieving Translation Efficiency and Accuracy for Video Content, Xiao Yuan (P...
Achieving Translation Efficiency and Accuracy for Video Content, Xiao Yuan (P...
 
Introduction Innovation Contest Shenzhen by Henri Broekmate (Lionbridge)
Introduction Innovation Contest Shenzhen by Henri Broekmate (Lionbridge)Introduction Innovation Contest Shenzhen by Henri Broekmate (Lionbridge)
Introduction Innovation Contest Shenzhen by Henri Broekmate (Lionbridge)
 
Game Changer for Linguistic Review: Shifting the Paradigm, Klaus Fleischmann...
 Game Changer for Linguistic Review: Shifting the Paradigm, Klaus Fleischmann... Game Changer for Linguistic Review: Shifting the Paradigm, Klaus Fleischmann...
Game Changer for Linguistic Review: Shifting the Paradigm, Klaus Fleischmann...
 
A translation memory P2P trading platform - to make global translation memory...
A translation memory P2P trading platform - to make global translation memory...A translation memory P2P trading platform - to make global translation memory...
A translation memory P2P trading platform - to make global translation memory...
 
Shiyibao — The Most Efficient Translation Feedback System Ever, Guanqing Hao ...
Shiyibao — The Most Efficient Translation Feedback System Ever, Guanqing Hao ...Shiyibao — The Most Efficient Translation Feedback System Ever, Guanqing Hao ...
Shiyibao — The Most Efficient Translation Feedback System Ever, Guanqing Hao ...
 
Stepes – Instant Human Translation Services for the Digital World, Carl Yao (...
Stepes – Instant Human Translation Services for the Digital World, Carl Yao (...Stepes – Instant Human Translation Services for the Digital World, Carl Yao (...
Stepes – Instant Human Translation Services for the Digital World, Carl Yao (...
 
Farmer Lv (TrueTran)
Farmer Lv (TrueTran)Farmer Lv (TrueTran)
Farmer Lv (TrueTran)
 
Smart Translation Resource Management: Semantic Matching, Kirk Zhang (Wiitran...
Smart Translation Resource Management: Semantic Matching, Kirk Zhang (Wiitran...Smart Translation Resource Management: Semantic Matching, Kirk Zhang (Wiitran...
Smart Translation Resource Management: Semantic Matching, Kirk Zhang (Wiitran...
 
The Theory and Practice of Computer Aided Translation Training System, Liu Q...
 The Theory and Practice of Computer Aided Translation Training System, Liu Q... The Theory and Practice of Computer Aided Translation Training System, Liu Q...
The Theory and Practice of Computer Aided Translation Training System, Liu Q...
 
Translation Technology Showcase in Shenzhen
Translation Technology Showcase in ShenzhenTranslation Technology Showcase in Shenzhen
Translation Technology Showcase in Shenzhen
 
How to efficiently use large-scale TMs in translation, Jing Zhang (Tmxmall)
How to efficiently use large-scale TMs in translation, Jing Zhang (Tmxmall)How to efficiently use large-scale TMs in translation, Jing Zhang (Tmxmall)
How to efficiently use large-scale TMs in translation, Jing Zhang (Tmxmall)
 
SDL Trados Studio 2017, Jocelyn He (SDL)
SDL Trados Studio 2017, Jocelyn He (SDL)SDL Trados Studio 2017, Jocelyn He (SDL)
SDL Trados Studio 2017, Jocelyn He (SDL)
 
How we train post-editors - Yongpeng Wei (Lingosail)
How we train post-editors - Yongpeng Wei (Lingosail)How we train post-editors - Yongpeng Wei (Lingosail)
How we train post-editors - Yongpeng Wei (Lingosail)
 
A use-case for getting MT into your company, Kerstin Berns (berns language c...
 A use-case for getting MT into your company, Kerstin Berns (berns language c... A use-case for getting MT into your company, Kerstin Berns (berns language c...
A use-case for getting MT into your company, Kerstin Berns (berns language c...
 
QE integrated in XTM, by Bob Willans (XTM)
QE integrated in XTM, by Bob Willans (XTM)QE integrated in XTM, by Bob Willans (XTM)
QE integrated in XTM, by Bob Willans (XTM)
 

Último

Trabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdfTrabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdfedepmariaperez
 
GonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptxGonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptx241523733
 
El uso de las tic en la vida ,lo importante que son
El uso de las tic en la vida ,lo importante  que sonEl uso de las tic en la vida ,lo importante  que son
El uso de las tic en la vida ,lo importante que son241514984
 
El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.241514949
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxNombre Apellidos
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA241531640
 
Mapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMidwarHenryLOZAFLORE
 
Tecnologias Starlink para el mundo tec.pptx
Tecnologias Starlink para el mundo tec.pptxTecnologias Starlink para el mundo tec.pptx
Tecnologias Starlink para el mundo tec.pptxGESTECPERUSAC
 
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxEl_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxAlexander López
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxazmysanros90
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxaylincamaho
 
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPOAREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPOnarvaezisabella21
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadMiguelAngelVillanuev48
 
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del PerúRed Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del PerúCEFERINO DELGADO FLORES
 
Los Microcontroladores PIC, Aplicaciones
Los Microcontroladores PIC, AplicacionesLos Microcontroladores PIC, Aplicaciones
Los Microcontroladores PIC, AplicacionesEdomar AR
 
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptx
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptxModelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptx
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptxtjcesar1
 
Presentación sobre la Inteligencia Artificial
Presentación sobre la Inteligencia ArtificialPresentación sobre la Inteligencia Artificial
Presentación sobre la Inteligencia Artificialcynserafini89
 
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.pptTEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.pptJavierHerrera662252
 
Excel (1) tecnologia.pdf trabajo Excel taller
Excel  (1) tecnologia.pdf trabajo Excel tallerExcel  (1) tecnologia.pdf trabajo Excel taller
Excel (1) tecnologia.pdf trabajo Excel tallerValentinaTabares11
 
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfLa Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfjeondanny1997
 

Último (20)

Trabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdfTrabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdf
 
GonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptxGonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptx
 
El uso de las tic en la vida ,lo importante que son
El uso de las tic en la vida ,lo importante  que sonEl uso de las tic en la vida ,lo importante  que son
El uso de las tic en la vida ,lo importante que son
 
El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
 
Mapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptx
 
Tecnologias Starlink para el mundo tec.pptx
Tecnologias Starlink para el mundo tec.pptxTecnologias Starlink para el mundo tec.pptx
Tecnologias Starlink para el mundo tec.pptx
 
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxEl_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptx
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
 
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPOAREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidad
 
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del PerúRed Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
 
Los Microcontroladores PIC, Aplicaciones
Los Microcontroladores PIC, AplicacionesLos Microcontroladores PIC, Aplicaciones
Los Microcontroladores PIC, Aplicaciones
 
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptx
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptxModelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptx
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptx
 
Presentación sobre la Inteligencia Artificial
Presentación sobre la Inteligencia ArtificialPresentación sobre la Inteligencia Artificial
Presentación sobre la Inteligencia Artificial
 
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.pptTEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
 
Excel (1) tecnologia.pdf trabajo Excel taller
Excel  (1) tecnologia.pdf trabajo Excel tallerExcel  (1) tecnologia.pdf trabajo Excel taller
Excel (1) tecnologia.pdf trabajo Excel taller
 
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfLa Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
 

TAUS OPEN SOURCE MACHINE TRANSLATION SHOWCASE, Seattle, Language Processing Techniques for Statistical Machine Translation, Diego Bartolome, tauyou, 17 October 2012

  • 1. TAUS OPEN SOURCE MACHINE TRANSLATION SHOWCASE Integration of Advanced Language Processing Techniques into Statistical Machine Translation 11:10-11:30 Wednesday, 17 October Diego Bartolome Tauyou
  • 2. Language Processing Techniques for Statistical Machine Translation Contact: Diego Bartolome – dbc@tauyou.com C/ Les Planes 39, 1o 2a – 08201 Sabadell – Spain Tel. +34 93 711 29 96
  • 3. To start ... Contact: Diego Bartolome – dbc@tauyou.com C/ Les Planes 39, 1o 2a – 08201 Sabadell – Spain Tel. +34 93 711 29 96
  • 4. … you choose Moses ... Translation memories + linguistic assets Cleaning and training following tutorials BLEU score seems ok in training … but ... the results are awful! Contact: Diego Bartolome – dbc@tauyou.com C/ Les Planes 39, 1o 2a – 08201 Sabadell – Spain Tel. +34 93 711 29 96
  • 5. Why? Not enough data Unclean translation memories Misalignments Spelling and grammar errors Difficult language pairs Selection of wrong parameters Application of suboptimal techniques So many things … what can you do? Contact: Diego Bartolome – dbc@tauyou.com C/ Les Planes 39, 1o 2a – 08201 Sabadell – Spain Tel. +34 93 711 29 96
  • 6. Contact: Diego Bartolome – dbc@tauyou.com C/ Les Planes 39, 1o 2a – 08201 Sabadell – Spain Tel. +34 93 711 29 96
  • 7. Some steps Maximum exploitation of existing assets Source content optimization Data selection and cleaning Improvement of the models Linguistic processing ... Contact: Diego Bartolome – dbc@tauyou.com C/ Les Planes 39, 1o 2a – 08201 Sabadell – Spain Tel. +34 93 711 29 96
  • 8. Existing assets: increase TM leverage Translation memory sharing Clients, Partners, Competitors, EU, UN, TAUS Relevant on-line data retrieval Advanced TM techniques Sub-segment matching Parts of Speech replacement Contact: Diego Bartolome – dbc@tauyou.com C/ Les Planes 39, 1o 2a – 08201 Sabadell – Spain Tel. +34 93 711 29 96
  • 9. Source optimization (I): Pre-editing new doc proposed doc + html report Spell check Grammar check Style check Terminology check Client checklist Contact: Diego Bartolome – dbc@tauyou.com C/ Les Planes 39, 1o 2a – 08201 Sabadell – Spain Tel. +34 93 711 29 96
  • 10. Source optimization (II): Summarization new doc proposed doc + html report % to reduce Use translation memories Project Client All Contact: Diego Bartolome – dbc@tauyou.com C/ Les Planes 39, 1o 2a – 08201 Sabadell – Spain Tel. +34 93 711 29 96
  • 11. Summarization example http://www.translationautomation.com/press- releases/free-open-source-machine-translation- tutorial-is-made-available-by-taus Contact: Diego Bartolome – dbc@tauyou.com C/ Les Planes 39, 1o 2a – 08201 Sabadell – Spain Tel. +34 93 711 29 96
  • 12. Data selection and cleaning – a sample Clean translation memories Length, punctuation, terminology, repetitions … Segment splitting Optimize weight of most frequent n-grams in corpus Validate their translations Add out-of-domain data for irrelevant n-grams Contact: Diego Bartolome – dbc@tauyou.com C/ Les Planes 39, 1o 2a – 08201 Sabadell – Spain Tel. +34 93 711 29 96
  • 13. Models optimization Filter the translation tables Remove the garbage + tune the weights if necessary Optimize language models Adapt them to the translation purpose Tune parameters correctly Tune set, test set, optimization parameters … Improve recasing Contact: Diego Bartolome – dbc@tauyou.com C/ Les Planes 39, 1o 2a – 08201 Sabadell – Spain Tel. +34 93 711 29 96
  • 14. Linguistic processing In the source and/or target language Grammar checking Entities detection proper nouns, alphanumeric words, numbers, ... Compund words splitting Sentence reordering Contact: Diego Bartolome – dbc@tauyou.com C/ Les Planes 39, 1o 2a – 08201 Sabadell – Spain Tel. +34 93 711 29 96
  • 15. An example from Source XXX 335102 doses are calculated as a free acid of the sodium salt (NA). The potential toxicity of XXX 335102 was studied in a number of acute toxicity studies in mouse and rat and repeat dose toxicity studies of 8 and 32 weeks each in rat and monkeys. XXX 335102 was negative in a panel of in vivo and in vitro tests to assess mutagenicity and clastogenicity identifying no genotoxic risks for human subjects. An in vitro assay for phototoxic potential suggested that XXX 335102 is photoxic/photosensitive. In the 8-week studies in monkeys, increases in unconjugated bilirubin were noted at the doses tested (33, 88, 192 and 444mg/kg/day); the greatest increases occurring at Week 4 and declining or returning to control levels by Week 8. Reference Las dosis de XXX 335102 se calculan como la sal sódica sin ácido (AS). La toxicidad potencial de XXX 335102 se estudió en varios estudios de toxicidad aguda en ratones y ratas y en estudios de toxicidad con administración repetida de 8 y 32 semanas en ratas y monos. Se obtuvieron resultados negativos en un grupo de pruebas in vivo e in vitro para evaluar su mutagenia y clastogenia, sin identificarse riesgos genotóxicos para el ser humano. En un estudio in vitro de su potencial fototóxico se sugirió que XXX 335102 es fototóxico o fotosensibilizador. En los estudios de 8 semanas en monos se apreció el aumento de la bilirrubina no conjugada con las dosis estudiadas (33, 88, 192 y 444 mg/kg/día), produciéndose el mayor incremento en la semana 4 y disminuyendo o volviendo a los niveles de control en la semana 8.
  • 16. Generic engine XXX 335102 se calculan en forma de dosis de ácido libre del sodio sal (NA). La Toxicidad potencial de XXX 335102 fue estudiado en una serie de estudios de toxicidad aguda en ratón y rata y vuelva a dosis estudios de toxicidad, de 8 y de 32 semanas en rata y cada uno de los monos. XXX 335102 era negativo en un grupo de in vivo y pruebas in vitro para evaluar mutagenicidad y genotóxicas clastogenicity no identificar los riesgos para los participantes humanos. Un para fines de ensayo in vitro phototoxic potencial se sugirió que XXX 335102 photoxic/Photosensitive. En Los 8 -week estudios en los monos, aumentos en unconjugated bilirrubina salieron a las dosis analizada (33, 88, 192 y 444 mg/kg/día); los mayores incrementos habidos En la semana 4 y la reducción o devolver a nivel de control de 8 Por semana. Medical engine with improvements Las dosis XXX 335102 se calculan como ácido libre de la sal sódica (AS). La toxicidad potencial de XXX 335102 se estudió en varios estudios de toxicidad aguda en ratones y ratas y en estudios de toxicidad con administración repetida de 8 y 32 semanas en ratas y monos. XXX 335102 dio negativo en un grupo de pruebas in vivo e in vitro para evaluar su mutagenia y clastogenia, sin identificarse riesgos genotóxicos para el ser humano. En un estudio in vitro de su potencial fototóxico se sugirió que XXX 335102 es fototóxico o fotosensibilizador. En los estudios de 8 semanas en monos, el aumento de la bilirrubina no conjugada con las dosis estudiadas (33, 88, 192 y 444 mg/kg/día); el mayor incremento en la semana 4 y disminuyendo o volviendo a los niveles de control en la semana 8.
  • 17. Conclusions MT can be combined with other advanced techniques Creating an improving an engine requires time You can also be lucky at the first try! The optimum results require translators Implementation of the linguistic knowledge Continuous improvement Contact: Diego Bartolome – dbc@tauyou.com C/ Les Planes 39, 1o 2a – 08201 Sabadell – Spain Tel. +34 93 711 29 96