Submit Search
Upload
Как выбрать и приручить машинный перевод / How to choose and tame the Machine Translation
•
0 likes
•
4,684 views
Konstantin Savenkov
Follow
Talk at Translation Forum Russia in Saint-Petersburg, August 2019.
Read less
Read more
Technology
Report
Share
Report
Share
1 of 27
Download now
Download to read offline
Recommended
Сравнительный анализ систем машинного перевода
Сравнительный анализ систем машинного перевода
Konstantin Savenkov
GPT and other Text Transformers: Black Swans and Stochastic Parrots
GPT and other Text Transformers: Black Swans and Stochastic Parrots
Konstantin Savenkov
Dodging AI biases in future-proof Machine Translation solutions
Dodging AI biases in future-proof Machine Translation solutions
Konstantin Savenkov
Building Multi-Purpose MT Portfolio
Building Multi-Purpose MT Portfolio
Konstantin Savenkov
Machine Translation Insights
Machine Translation Insights
Konstantin Savenkov
Progress in Commercial Machine Translation Systems
Progress in Commercial Machine Translation Systems
Konstantin Savenkov
Cloud Artificial Intelligence Landscape
Cloud Artificial Intelligence Landscape
Konstantin Savenkov
Intento Enterprise MT Hub
Intento Enterprise MT Hub
Konstantin Savenkov
Recommended
Сравнительный анализ систем машинного перевода
Сравнительный анализ систем машинного перевода
Konstantin Savenkov
GPT and other Text Transformers: Black Swans and Stochastic Parrots
GPT and other Text Transformers: Black Swans and Stochastic Parrots
Konstantin Savenkov
Dodging AI biases in future-proof Machine Translation solutions
Dodging AI biases in future-proof Machine Translation solutions
Konstantin Savenkov
Building Multi-Purpose MT Portfolio
Building Multi-Purpose MT Portfolio
Konstantin Savenkov
Machine Translation Insights
Machine Translation Insights
Konstantin Savenkov
Progress in Commercial Machine Translation Systems
Progress in Commercial Machine Translation Systems
Konstantin Savenkov
Cloud Artificial Intelligence Landscape
Cloud Artificial Intelligence Landscape
Konstantin Savenkov
Intento Enterprise MT Hub
Intento Enterprise MT Hub
Konstantin Savenkov
State of the Machine Translation by Intento (stock engines, Jun 2019)
State of the Machine Translation by Intento (stock engines, Jun 2019)
Konstantin Savenkov
State of the Machine Translation by Intento (stock engines, Jan 2019)
State of the Machine Translation by Intento (stock engines, Jan 2019)
Konstantin Savenkov
State of the Domain-Adaptive Machine Translation by Intento (November 2018)
State of the Domain-Adaptive Machine Translation by Intento (November 2018)
Konstantin Savenkov
EVALUATION IN USE: NAVIGATING THE MT ENGINE LANDSCAPE WITH THE INTENTO EVALUA...
EVALUATION IN USE: NAVIGATING THE MT ENGINE LANDSCAPE WITH THE INTENTO EVALUA...
Konstantin Savenkov
Improving the Demand Side of the AI Economy (API World 2018)
Improving the Demand Side of the AI Economy (API World 2018)
Konstantin Savenkov
State of the Machine Translation by Intento (July 2018)
State of the Machine Translation by Intento (July 2018)
Konstantin Savenkov
Cloud Sentiment Analysis - Vendor Overview (April 2018)
Cloud Sentiment Analysis - Vendor Overview (April 2018)
Konstantin Savenkov
State of the Machine Translation by Intento (March 2018)
State of the Machine Translation by Intento (March 2018)
Konstantin Savenkov
State of the Machine Translation by Intento (November 2017)
State of the Machine Translation by Intento (November 2017)
Konstantin Savenkov
NLU / Intent Detection Benchmark by Intento, August 2017
NLU / Intent Detection Benchmark by Intento, August 2017
Konstantin Savenkov
Intento Machine Translation Benchmark, July 2017
Intento Machine Translation Benchmark, July 2017
Konstantin Savenkov
Building a Data Driven Business
Building a Data Driven Business
Konstantin Savenkov
Управление бизнесом на основе данных
Управление бизнесом на основе данных
Konstantin Savenkov
Messengers, Bots and Personal Assistants
Messengers, Bots and Personal Assistants
Konstantin Savenkov
Рекомендательные системы: роль и оценка эффективности
Рекомендательные системы: роль и оценка эффективности
Konstantin Savenkov
Measuring the agile process improvement
Measuring the agile process improvement
Konstantin Savenkov
Lean production для SAAS
Lean production для SAAS
Konstantin Savenkov
Driving Business Goals with Recommender Systems @ YAC/m 2015
Driving Business Goals with Recommender Systems @ YAC/m 2015
Konstantin Savenkov
The Economics of Recommender Systems
The Economics of Recommender Systems
Konstantin Savenkov
Recommender Systems in a nutshell
Recommender Systems in a nutshell
Konstantin Savenkov
More Related Content
More from Konstantin Savenkov
State of the Machine Translation by Intento (stock engines, Jun 2019)
State of the Machine Translation by Intento (stock engines, Jun 2019)
Konstantin Savenkov
State of the Machine Translation by Intento (stock engines, Jan 2019)
State of the Machine Translation by Intento (stock engines, Jan 2019)
Konstantin Savenkov
State of the Domain-Adaptive Machine Translation by Intento (November 2018)
State of the Domain-Adaptive Machine Translation by Intento (November 2018)
Konstantin Savenkov
EVALUATION IN USE: NAVIGATING THE MT ENGINE LANDSCAPE WITH THE INTENTO EVALUA...
EVALUATION IN USE: NAVIGATING THE MT ENGINE LANDSCAPE WITH THE INTENTO EVALUA...
Konstantin Savenkov
Improving the Demand Side of the AI Economy (API World 2018)
Improving the Demand Side of the AI Economy (API World 2018)
Konstantin Savenkov
State of the Machine Translation by Intento (July 2018)
State of the Machine Translation by Intento (July 2018)
Konstantin Savenkov
Cloud Sentiment Analysis - Vendor Overview (April 2018)
Cloud Sentiment Analysis - Vendor Overview (April 2018)
Konstantin Savenkov
State of the Machine Translation by Intento (March 2018)
State of the Machine Translation by Intento (March 2018)
Konstantin Savenkov
State of the Machine Translation by Intento (November 2017)
State of the Machine Translation by Intento (November 2017)
Konstantin Savenkov
NLU / Intent Detection Benchmark by Intento, August 2017
NLU / Intent Detection Benchmark by Intento, August 2017
Konstantin Savenkov
Intento Machine Translation Benchmark, July 2017
Intento Machine Translation Benchmark, July 2017
Konstantin Savenkov
Building a Data Driven Business
Building a Data Driven Business
Konstantin Savenkov
Управление бизнесом на основе данных
Управление бизнесом на основе данных
Konstantin Savenkov
Messengers, Bots and Personal Assistants
Messengers, Bots and Personal Assistants
Konstantin Savenkov
Рекомендательные системы: роль и оценка эффективности
Рекомендательные системы: роль и оценка эффективности
Konstantin Savenkov
Measuring the agile process improvement
Measuring the agile process improvement
Konstantin Savenkov
Lean production для SAAS
Lean production для SAAS
Konstantin Savenkov
Driving Business Goals with Recommender Systems @ YAC/m 2015
Driving Business Goals with Recommender Systems @ YAC/m 2015
Konstantin Savenkov
The Economics of Recommender Systems
The Economics of Recommender Systems
Konstantin Savenkov
Recommender Systems in a nutshell
Recommender Systems in a nutshell
Konstantin Savenkov
More from Konstantin Savenkov
(20)
State of the Machine Translation by Intento (stock engines, Jun 2019)
State of the Machine Translation by Intento (stock engines, Jun 2019)
State of the Machine Translation by Intento (stock engines, Jan 2019)
State of the Machine Translation by Intento (stock engines, Jan 2019)
State of the Domain-Adaptive Machine Translation by Intento (November 2018)
State of the Domain-Adaptive Machine Translation by Intento (November 2018)
EVALUATION IN USE: NAVIGATING THE MT ENGINE LANDSCAPE WITH THE INTENTO EVALUA...
EVALUATION IN USE: NAVIGATING THE MT ENGINE LANDSCAPE WITH THE INTENTO EVALUA...
Improving the Demand Side of the AI Economy (API World 2018)
Improving the Demand Side of the AI Economy (API World 2018)
State of the Machine Translation by Intento (July 2018)
State of the Machine Translation by Intento (July 2018)
Cloud Sentiment Analysis - Vendor Overview (April 2018)
Cloud Sentiment Analysis - Vendor Overview (April 2018)
State of the Machine Translation by Intento (March 2018)
State of the Machine Translation by Intento (March 2018)
State of the Machine Translation by Intento (November 2017)
State of the Machine Translation by Intento (November 2017)
NLU / Intent Detection Benchmark by Intento, August 2017
NLU / Intent Detection Benchmark by Intento, August 2017
Intento Machine Translation Benchmark, July 2017
Intento Machine Translation Benchmark, July 2017
Building a Data Driven Business
Building a Data Driven Business
Управление бизнесом на основе данных
Управление бизнесом на основе данных
Messengers, Bots and Personal Assistants
Messengers, Bots and Personal Assistants
Рекомендательные системы: роль и оценка эффективности
Рекомендательные системы: роль и оценка эффективности
Measuring the agile process improvement
Measuring the agile process improvement
Lean production для SAAS
Lean production для SAAS
Driving Business Goals with Recommender Systems @ YAC/m 2015
Driving Business Goals with Recommender Systems @ YAC/m 2015
The Economics of Recommender Systems
The Economics of Recommender Systems
Recommender Systems in a nutshell
Recommender Systems in a nutshell
Как выбрать и приручить машинный перевод / How to choose and tame the Machine Translation
1.
КАК ВЫБРАТЬ И
ПРИРУЧИТЬ МАШИННЫЙ ПЕРЕВОД Konstantin Savenkov CEO Intento, Inc. © Intento, Inc. Translation Forum Russia Saint-Petersburg, Russia August 2019
2.
Intento ПЛАН ДОКЛАДА 1 Последние
новости МП 2 Доступные сервисы 3 Выбираем и приручаем: 3.1 Цели и задачи применения МП 3.2 Определение свойств проекта 3.3 Выбор движков-кандидатов 3.4 Подготовка данных и моделей 3.5 Выбор модели-победителя 3.6 Интеграция 3.7 Поддержка 2© Intento, Inc. / август 2019
3.
Intento 3 INTENTO Discover, evaluate and use
best-of- breed AI models © Intento, Inc. / август 2019
4.
4 1949 I Меморандум МП 1996 II Доступный стоковый RBMT 2006 III Доступный стоковый SMT 2016 IV Доступный стоковый
NMT V Доступный адаптивный NMT Intento 1 Последние новости машинного перевода МЫ ЗДЕСЬ VI NMT со словарями 2018 NDA NDA © Intento, Inc. / август 2019
5.
Доступный кастомный NMT
— Доменно-адаптивные модели 5 “Заказной NMT” (с нуля) доменно- адаптивный NMT в основе открытые или частные фреймворки NMT стоковые модели или корпуса необходимый объем данных 1M…10M сегментов 1K…100К сегментов подготовка данных и тренировка вручную автоматически основные статьи расходов лицензия, трудозатраты $$$$-$$$$$ электричество $$-$$$ Intento Очень дорого даже попробовать © Intento, Inc. / август 2019
6.
Машинный перевод в
2018 Восход доменно-адаптивного NMT* 6 Sep 2017 Oct 2018 * Нейросетевой машинный перевод с автоматической кастомизацией моделей при помощи доменно- специфичного корпуса, также известной как “доменная адаптация". Nov 2017 May 2018 Jun 2018 Jul 2018 Globalese Custom NMT Lilt Adaptive NMT IBM Custom NMT Microsoft Custom Translator Google AutoML Translation SDL ETS 8.0 ModernMT Enterprise Apr 2018 Systran PNMT Intento© Intento, Inc. / август 2019
7.
Машинный перевод в
2019 NMT со словарями 7 Jun 2018 Oct 2018 Oct 2018 Jan 2019 Apr 2019 Amazon Translate Google Translate v3 SDL BeGlobal 4.1 Microsoft Custom Translator Nov 2018 Systran PNMT IBM Custom NMT Intento© Intento, Inc. / август 2019 “forced glossary customisation” “phrase dictionaries” “custom terminology” “syntax-aware custom terminology” May 2019 Yandex Cloud Translate v2 dynamic glossaries “glossaries” “glossary feature”
8.
Intento Разные кейсы = Разные
критерии выбора 8© Intento, Inc. / август 2019 Корпоративные порталы перевода eDiscovery Перевод сайтов “на лету” Службы IT- поддержки Системы корпоративного обучения Управление товарным ассортиментом Пост- редактирование Перевод UGC Непрерывные процессы локализации
9.
Intento 2 ДОСТУПНЫЕ СЕРВИСЫ 9©
Intento, Inc. / август 2019
10.
Intento Зачем выбирать? Фрагментация по
качеству 10 8 различных движков МП для наилучшего качества — Поменялось для 19 пар за последние полгода © Intento, Inc. / август 2019
11.
Intento Зачем выбирать? Различные кривые
обучения 11 Разные требования к объему и качеству данных — Разное качество базовых моделей — Разные кривые обучения — Зависит от языковой пары и домена © Intento, Inc. / август 2019
12.
Intento Зачем выбирать? Разброс цен 12 в
зависимости от сервиса и объема использования удельная цена может отличаться в 400 раз © Intento, Inc. / август 2019
13.
Intento 13 Зачем выбирать? Чтобы выигрывать
в качестве и цене © Intento, Inc. / август 2019
14.
Intento Что может пойти не
так? Неправильная оценка ROI: - cтрах увеличения затрат - страх уменьшения бюджета — Недооценка возможностей МП — Долгий, дорогой или неправильный выбор МП — Недостаток качественных данных 14 Неправильная настройка и тренировка МП — Технические проблемы при интеграции — Неправильные бизнес-процессы — Недостаточная внутренняя экспертиза - продажники - инженеры / архитекторы - переводчики / пост-редакторы © Intento, Inc. / август 2019
15.
Intento 3 Выбираем и
приручаем 3.1 Цели и задачи МП — 3.2 Определение свойств проекта — 3.3 Выбор движков-кандидатов — 3.4 Подготовка данных и моделей — 3.5 Выбор движка-победителя — 3.6 Интеграция — 3.7 Поддержка 15© Intento, Inc. / август 2019
16.
Intento 3.1 Цели и
задачи выбора МП Основные приоритеты: Скорость перевода — Стоимость перевода — Другие KPI (включая стоимость редактуры) — Отсутствие критических ошибок 16 Тоже может быть важно: Принципиальная применимость — Скорость отклика — Отсутствие второстепенных ошибок (fluency) — Отсутствие пропусков и добавлений (fidelity) — Правильная терминология — Правильный тон — Наличие обратной связи — Постоянное улучшение — Безопасность — Соответствие нормативным требованиям — Удобство оплаты — Удобство интеграции © Intento, Inc. / август 2019
17.
Intento 3.2 Определение списка
проектов и их свойств Цели / тип проекта (критерии выбора МП) — Языковая пара — Доступные данные: > формат и тип контента для перевода > наличие и объем тренировочного корпуса / ТМ > наличие, тип и объем глоссария > имена собственные 17© Intento, Inc. / август 2019
18.
Intento 3.3 Выбор движков-кандидатов Поддержка
языковой пары, домена и необходимой доменной адаптации — Поддержка тегов / форматирования — Тип развертывания — Защита данных и конфиденциальность — География — Удобство заключения контракта и оплаты 18© Intento, Inc. / август 2019
19.
Intento 3.4 Подготовка данных
и моделей Очистка данных — Тренировка моделей — Настройка глоссариев и списков имен собственных 19© Intento, Inc. / август 2019 базовая модель адаптированнаямодель
20.
Intento 3.4 Выбор движка-победителя Автоматический
скоринг Корпусные метрики — Степень согласия разных метрик — Отсеивание аутсайдеров 20© Intento, Inc. / август 2019
21.
Intento 3.4 Выбор движка-победителя Выбор
сегментов для ручного анализа Сложные сегменты — Спорные сегменты — Лучшие сегменты — Типичные сегменты 21© Intento, Inc. / август 2019 hard controversial easy typical
22.
Intento 3.4 Выбор движка-победителя Экспертная
оценка Лингвистический анализ — Метрики пост- редактирования — WTF*-метрика — А/Б-тестирование 22 * Worse Than Failure © Intento, Inc. / август 2019
23.
Intento 3.4 Выбор движка-победителя Оценка
стоимости владения Стоимость перевода — Стоимость обучение — Стоимость поддержки 23© Intento, Inc. / август 2019
24.
Intento 3.4 Интеграция Плагины, коннекторы,
API — Нюансы: технические лимиты, коды ошибок, retry / failover, мультиязычность — Автоматическое определение категории контента — Автоматическое определение языка — Необходимые типы файлов — Кеширование, пре- / пост-обработка 24© Intento, Inc. / август 2019
25.
Intento 3.4 Поддержка Изменения в
бизнесе - новые языковые пары и домены — Изменения в технологии - новые лидеры МП — Изменения в данных - обновление ТМ и глоссариев 25© Intento, Inc. / август 2019
26.
Intento Заключение 26© Intento, Inc.
/ август 2019 “Experience is something you don’t get until just after you need it” Steven Wright
27.
Спасибо за внимание! Константин Савенков ks@inten.to Konstantin
Savenkov ks@inten.to 2150 Shattuck Ave Berkeley CA 94705 27
Download now