SlideShare a Scribd company logo
1 of 83
Георгий Моисеенко (gmoiseenko@yandex.ru) Введение  в систему автоматизированного перевода  Déjà Vu X Workgroup
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Основные темы
Объективная необходимость использования автоматизированных систем перевода Новое направление в технологии перевода
Повторение пройденного  ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Прежние переводы хранятся в бумажном виде При большом объеме хранимых документов поиск конкретной фразы практически неосуществим
Наглядный  пример В данном фрагменте Руководства пользователя  количество повторов уже переведенного составляет 57%.
Современные требования ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Структура системы Память переводов Терминологическая база Проект Лет 10 назад компания  IBM  разработала  «Систему памяти переводов»   -  Translation memory system
Структура системы Новое   название -  Computer-assisted translation tool (CAT tool) –  Автоматизированная система перевода Память переводов Терминологическая база Лексикон Проект
Объективная необходимость ,[object Object],[object Object],[object Object],[object Object]
Основные понятия автоматизированных систем перевода Новое направление в технологии перевода
Сегментация Исходный текст CONFIDENTIALITY AGREEMENT August  ,2004 [address] Re:  Confidentiality Agreement Ladies and Gentlemen: You have requested Confidential Information from Company1 Corporation ("Company1") concerning Company1 that is either confidential, proprietary, or publicly unavailable in connection with your consideration of a possible business combination ("Transaction") between you and Company1 involving TLLC.   As a condition, and in consideration, of furnishing to you "Confidential Information" (as defined below), Andrew requires that you treat the Confidential Information so furnished confidentially as set forth in this letter agreement (the "Confidentiality Agreement"). 1.  Confidential Information   As used in this Confidentiality Agreement, the term "Confidential Information" means all information concerning Company1 and its subsidiaries or affiliates that is furnished or made available to you by Company1 or any agent or representative of Company1 or that is obtained or derived by you from any of the foregoing persons as part of your consideration of the Transaction,
Сегментация  Текст, разбитый на сегменты Сегмент -  абзац, предложение и т.п. Сегмент оригинала
Память переводов Сводная таблица Сегмент оригинала Сегмент перевода
Наиболее популярные системы Новое направление в технологии перевода
Основные функции систем  ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Наиболее популярные системы По данным опроса, проведенного  Imperial College London  в августе 2006 года среди 900 переводчиков из 54 стран, наибольшей популярностью пользуются системы  Trados ,  D é j à  Vu X   и  Wordfast  с разными приоритетами среди разных групп переводчиков Количество пользователей различно в разных подгруппах (внештатные переводчики, бюро переводов и т.п.).  Deja Vu  используется равномерно во всех группах.
Количество   пользователей, использующих различные системы как основные (в %)
Оценка четырех систем по функциональным и нефункциональным критериям 3,4 3,9 4,0 3,3 Средний рейтинг 2,6 3,7 3,7 2,5 Поддержка пользователей 3,1 4,6 4,3 2,9 Соотношение "цена-качество" 3,4 4,1 4,0 3,3 Простота обучения 3,5 4,2 4,2 3,5 Удобство использования 3,4 3,8 4,1 3,3 Надежность 3,7 3,9 4,1 3,7 Быстродействие 3,8 3,4 3,8 3,3 Правильность  нахождения совпадений 3,3 3,4 3,8 3,3 Нахождение совпадений 3,6 3,9 4,1 3,5 Функциональные возможности SDL Trados  2006 Wordfast D é j à  Vu Trados Рейтинг систем по следующим критериям
Сводные оценки пяти систем ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Налицо явное противоречие между тем, что наибольшей популярностью пользуется система  Trados , и тем, что большинство пользователей отдали превосходство системе  D é j à  Vu  как по функциональным, так и по другим характеристикам. Многие пользователи, от которых требуют перевести  документы в  Trados , переводят их в более удобной системе  Déjà Vu X ,   конвертируя результат в  Trados .
Источники Приведенные результаты взяты из документа: http :// www 3. imperial . ac . uk / portal / pls / portallive / docs /1/7307707. PDF Некоторые более ранние сведения приведены в документах: http :// www . accurapid . com / journal /03 TM 2. htm http :// www . accurapid . com / journal /03 TM 1. htm http :// www . atril . com / docs / Benis - ITI - DVX . pdf http :// www . techwr - l . com / techwhirl / magazine / technical / translationmemory . html Попытка собрать сведения о сравнительной эффективности популярных систем была сделана на форуме http://www.trworkshop.net/forum/viewtopic.php?t=6254 Плюсы и минусы систем неоднократно обсуждались на форумах http://trworkshop.net/forum/viewforum.php?f=16 http :// www . libra - k . ru / forum / viewforum . php ? f =18& sid =346091 f 51 e 807035 cfb 94 de 841 eaa 0 b 3 http :// tech . groups . yahoo . com / group / dejavu - L http://www.lisa.org
ПОЧЕМУ Déjà Vu X?   Новое направление в технологии перевода
Все системы умеют находить в памяти переводов предложения, сходные с переведенными  Запустите Déjà Vu X и откройте нужную память переводов ( Translation memory ). Выберите в меню  Database  команду  Find Duplicate Sentences  и задайте нужные параметры, чтобы удалить дублирующие записи (проверьте правильность указания языков).  Выберите в меню  Database  команду  Find Duplicate Sentences .  Пометьте   поле  Find sets of duplicate source sentences. Пометьте   поле  Find sets of duplicate source sentences with identical translations. Пометьте поле  Delete redundant sentences in each set of duplicates. Укажите нужные языки. Пометьте   в   разделе  Miscellaneous :   Удаление ненужных переводов одного и того же оригинала. Запустите Déjà Vu X и откройте нужную память переводов ( Translation memory ). Выберите в меню  Database  команду  Find Duplicate Sentences .  Пометьте поле  Find sets of duplicate source sentences with different translations. Укажите нужные языки. Пометьте   в   разделе  Miscellaneous :  Для просмотра дубликатов и их переводов выберите  Duplicate Only  в фильтре строк. Выберите в меню  View  команду  Toggle Sorting , чтобы упорядочить память переводов по алфавиту.
Запустите Déjà Vu X и откройте нужную память переводов ( Translation memory ). Выберите в меню  Database  команду  Find Duplicate Sentences  и задайте нужные параметры, чтобы удалить дублирующие записи (проверьте правильность указания языков).  Выберите в меню  Database  команду  Find Duplicate Sentences .   Пометьте   поле  Find sets of duplicate source sentences. Пометьте   поле  Find sets of duplicate source sentences   with identical translations. Пометьте поле   Delete redundant sentences in each set of duplicates. Укажите нужные языки. Пометьте   в   разделе  Miscellaneous :   Удаление ненужных переводов одного и того же оригинала.  Запустите Déjà Vu X и откройте нужную память переводов ( Translation memory ). Выберите в меню  Database  команду  Find Duplicate Sentences .  Пометьте поле  Find sets of duplicate source sentences   with different translations. Укажите нужные языки . Пометьте   в   разделе  Miscellaneous :  Для просмотра дубликатов и их переводов выберите  Duplicate Only  в фильтре строк. Выберите в меню   View  команду  Toggle Sorting , чтобы упорядочить память переводов по алфавиту. Déjà Vu X , кроме того, автоматически подставляет фрагменты предложений  из памяти переводов
Запустите  Déjà Vu X и  откройте  нужную  память переводов   ( Translation memory ). Выберите   в меню   Database   команду   Find Duplicate Sentences  и  задайте  нужные  параметры , чтобы  удалить  дублирующие   записи  ( проверьте  правильность указания языков).  Выберите в меню  Database  команду  Find Duplicate Sentences .   Пометьте   поле  Find sets of duplicate source sentences. Пометьте   поле  Find sets of duplicate source sentences  with identical translations. Пометьте поле   Delete redundant sentences in each set of duplicates. Укажите  нужные  языки . Пометьте   в   разделе  Miscellaneous :   Удаление  ненужных  переводов  одного и того же  оригинала .   Запустите Déjà Vu X и откройте нужную память переводов ( Translation memory) . Выберите в меню  Database  команду  Find Duplicate  Sentences .  Пометьте поле  Find sets of duplicate source sentences  with different translations. Укажите нужные языки . Пометьте   в   разделе  Miscellaneous :  Для  просмотра  дубликатов и их  переводов   выберите   Duplicate Only  в фильтре строк. Выберите в меню   View  команду   Toggle Sorting , чтобы упорядочить  память   переводов  по алфавиту. Déjà Vu X  автоматически подставляет слова и из терминологической базы
Запустите Déjà Vu X и откройте нужную память переводов ( Translation memory ). Выберите в меню  Database  команду  Find Duplicate Sentences .  Укажите нужные языки . Пометьте   в   разделе  Miscellaneous :  Количество символов текста – 1052 Обычная система найдет 190 символов повторяющихся предложений  -  18%: Обнаруживается больше повторов
Запустите   откройте   память переводов   Выберите   в   меню   команду   задайте   параметры ,  удалить   записи   проверьте   Выберите в меню  Database  команду  Find Duplicate Sentences .   Пометьте   поле   Пометьте   поле  Find sets of duplicate source sentences Пометьте поле . Укажите   языки . Пометьте   разделе Удаление   переводов   оригинала .   Запустите Déjà Vu X и откройте нужную память переводов ( Translation memory) . Выберите в меню  Database  команду  Find Duplicate Sentences .  Пометьте поле  Find sets of duplicate source sentences Укажите нужные языки . Пометьте   в   разделе  Miscellaneous :  просмотра   переводов   выберите Déjà Vu X   дополнительно найдет 424 символа повторяющихся фрагментов – 40%, итого -  58% . Не считая английских слов и чисел, которые подставляются в перевод автоматически  ( View ,  Toggle Sorting  и т.п., здесь не учтены)   . 58%  против  18%! C  помощью   функции "мозаичного перевода "  ( AutoAssemble ) перевод автоматически собирается из фрагментов сегментов, найденных в памяти переводов, и терминов из терминологической базы. Обнаруживается больше повторов
Эффективность Новое направление в технологии перевода
Эффективность Статистика для одного из больших документов  Точное совпадение с предложениями в памяти переводов  33,1%  Неточное совпадение с предложениями в памяти  4,2%  Сборка из фрагментов предложений в памяти и терминов  0,3% Копирование перевода аналогичных предложений  далее по тексту  37,3% Перевод вручную   25,2% ------------------------- ----------------------------------------------------------------------- --- Примечание:  Высокая степень совпадений объясняется тем, что  в памяти переводов уже содержался предварительный перевод трех разделов данного документа.  Полученная выгода очевидна
Analyze :  Анализ наличия и степени повторений для другого реального проекта – оценка трудоемкости будущей работы Дубликатов –  17% Сходных элементов  - 25% (сходство более 20%),  - 16% (сходство до 20%) Точных совпадений –  21% Всего Несходных элементов – 23%
Почему Déjà Vu X Пример еще одного проекта  44%  текста подставлено автоматически  (память составлена по одному файлу)
Статистика для последнего проекта Экономические выгоды для бюро переводов в месяц   легко подсчитываются
Эффективность Средний процент повторений в документах, обнаруживаемый системой –  20-30% .  В месяце – 22 рабочих дня по 8 часов =  176  часов Норма переводчика: 1 страница в час   20% от 176 =  35  часов  =  35  страниц  =  4 рабочих дня ! В больших пакетах документов для некоторых документов процент повторений достигал  100% . Умножим на зарплату в час!
Удобство и эффективность перевода Этапы и функции Новое направление в технологии перевода
Основные этапы   Создание и настройка проекта Импорт файлов Автоматический поиск в памяти переводов с использованием нечеткой логики и автоматическая сборка  Ручной перевод Экспорт Переводчик создает и настраивает проект Переводчик импортирует документы DVX  находит сходные предложения или строит  часть перевода автоматически Переводчик переводит остальное DVX  экспортирует документы Предварительная обработка документов проекта Переводчик приводит документы к виду, облегчающему перевод и предотвращающему возникновение проблем Редактирование и форматирование переводов Переводчик редактирует и форматирует экспортированные переведенные документы
Управление проектом ,[object Object],[object Object],[object Object],[object Object],[object Object]
Конфигурация проекта ,[object Object],[object Object],[object Object],[object Object]
[object Object],[object Object],[object Object],Поддерживаемые языки ,[object Object],Поддерживаемые языки Поддерживаемые языки
Предварительная обработка файлов   ,[object Object],[object Object],[object Object]
[object Object],[object Object],Импорт файлов разных форматов, без конвертирования в промежуточные форматы. Представление всех документов в едином формате.  Импорт. Форматы. Совместимость
Импорт и экспорт документов ,[object Object],[object Object],[object Object],[object Object],[object Object]
Выборочный импорт части файла ( Excel ) Для  текста, который не нужно переводить, задайте  красный цвет шрифта,  а при импорте  укажите в параметрах фильтра "Ignore Red Text" . Если  сделать копию столбца оригинала и задать для исходного столбца красный цвет шрифта, то первый столбец не будет импортирован и  останется неизменным, а второй -  будет импортирован и переведен, в результате чего получится таблица с колонками оригинала и перевода.
Заполнение исходной памяти переводов ,[object Object],[object Object],[object Object],[object Object]
Сведение  ( Alignment )  файла-оригинала и файла-перевода ,[object Object],Оригинал Перевод
Режимы перевода ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Глобальный предварительный перевод ( Pretr anslation ) DVX  просматривает памяти переводов и терминологические базы, чтобы автоматически вставить точный или сходный перевод
Автоматический поиск переводов сходных предложений ( Auto S earch ) Сходные сегменты Отличие оригинала от найденного сегмента Отличие найденного сегмента от оригинала При единственном выборе перевод подставляется в поле перевода автоматически
Поиск на основе нечеткой логики ,[object Object],[object Object]
Нечеткий поиск при предварительном переводе и ручном переводе При ручном переводе автоматический поиск с использованием нечеткой логики обнаруживает большее количество сходных сегментов
Автоматическая сборка ( AutoAssemble ) Автоматическая сборка перевода из фрагментов предложений в памяти переводов и элементов терминологической базы, если не найден перевод всего предложения ,  –  уникальная функция, которая имеется только в  Déjà Vu X Наличие нескольких вариантов перевода указывается цветом. Просмотр – нажатием правой кнопки мыши. Перевод подставляется в поле перевода автоматически
Ручной поиск в файлах памяти переводов ( Scan ) Сходные сегменты Искомое слово или словосочетание Найденный оригинал Найденный перевод
Поиск с использованием  трафаретных символов  ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Автоматический контроль ( AutoCheck )  и обеспечение единообразия ,[object Object],[object Object],[object Object],[object Object],[object Object]
Перевод и базы данных  ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Временный экспорт в  MS Word  для анализа и редактирования его средствами с возвратом в  Déjà Vu X
Экспорт примечаний Примечания, введенные при работе в  D é j à  Vu X   (как указано выше), будут видны и в экспортированном файле:
Статистика ,[object Object]
[object Object],[object Object],[object Object],[object Object],Надежность и защищенность
[object Object],[object Object],[object Object],[object Object],[object Object],Защита от несанкционированного внесения изменений
Удобный, легко настраиваемый интерфейс Новое направление в технологии перевода
Интерфейс пользователя Гибкость настроек и размещения окон
Привычный интерфейс   ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
[object Object],Интерфейс пользователя ,[object Object],[object Object],[object Object],[object Object]
Сегментированный текст оригинала Редактируемые ячейки Фрагменты, найденные в памяти переводов и  терминологической базе Предложения, найденные  в памяти переводов Список импорти-рованных файлов Рабочее пространство
Выборочный вывод сегментов на экран Мощная система фильтрации сегментов по более чем десяти параметрам, включая заданные пользователем на основе SQL
Память переводов Терминологическая база Лексикон Новое направление в технологии перевода
Особенности ,[object Object],[object Object],[object Object],[object Object],[object Object],Термины оригинала Переводы термина на разные языки,  его синонимы и антонимы Атрибуты для обоих языков, включая контекст
Особенности ,[object Object],[object Object]
Несколько баз данных ,[object Object],[object Object],[object Object]
Лексикон ,[object Object],[object Object],Частота употребления Число слов Упорядочено по частоте
[object Object],[object Object],[object Object],[object Object],[object Object],Лексикон
Импорт-экспорт баз данных,  обмен с другими системами ,[object Object],[object Object],[object Object],[object Object],[object Object]
Управление содержанием ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Язык структурированных запросов  SQL ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Принципы ведения памяти переводов   ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Версии и информационные ресурсы Новое направление в технологии перевода
Варианты систем  DVX DVX Workgroup DVX Professional DVX Standard Standard   –  Автономная программа для внештатных переводчиков, может создавать проекты, не имеет некоторых развитых и автоматизированных возможностей . Professional  –  Классическая версия, предназначена для внештатных переводчиков и имеет все возможности. Workgroup   –   Все функции   Professional   плюс мощные возможности для управления работой переводчиков и организации групповой работы .
[object Object],[object Object],Скромные системные требования
Загрузка и обновление системы Déjà Vu X ,[object Object],[object Object],[object Object],[object Object],[object Object]
Примерная структура каталогов
[object Object],[object Object],[object Object],[object Object],Ресурсы в сети Интернет для Déjà Vu X, основные форумы   , где можно получить информацию и помощь
Ресурсы в сети Интернет для Déjà Vu X, основные форумы  , где можно получить информацию и помощь 5.   Автоматизированный   перевод .  Из   открытой   для   дополнения   энциклопедии  Wikipedia –   http://en.wikipedia.org/wiki/Computer-assisted_translation#Computer-assisted translation   6. Greek Translation Vortal --  http://www.translatum.gr/dics/translation-memory.htm   7 .  Форум  Lingvoda  http://www.lingvoda.ru/forum/actualtopics.aspx?bid=9 8 . English Spanish Translator Org: Translation Forum – Translators Forums –  CAT Tools -  http://www.english-spanish-translator.org/cat-tools/
Спасибо за внимание!  Успехов!

More Related Content

Viewers also liked

Excelleren is ondernemen
Excelleren is ondernemenExcelleren is ondernemen
Excelleren is ondernemenbuitengewoon
 
The Westin Grande Sukhumvit Bangkok Hotel Presentation
The Westin Grande Sukhumvit Bangkok Hotel PresentationThe Westin Grande Sukhumvit Bangkok Hotel Presentation
The Westin Grande Sukhumvit Bangkok Hotel Presentationwestin_bangkok
 
Educación Fisica 1º trimeste
Educación Fisica 1º trimeste  Educación Fisica 1º trimeste
Educación Fisica 1º trimeste Silvia_D_G_A
 
Educación Física.
Educación Física.Educación Física.
Educación Física.Silvia_D_G_A
 
Patient confidentiality
Patient confidentialityPatient confidentiality
Patient confidentialityptamayo1958
 
Managed care program
Managed care programManaged care program
Managed care programptamayo1958
 
არაორგანული ქიმიის საგამოცდო ტესტის იმიტაცია
არაორგანული ქიმიის საგამოცდო ტესტის იმიტაციაარაორგანული ქიმიის საგამოცდო ტესტის იმიტაცია
არაორგანული ქიმიის საგამოცდო ტესტის იმიტაციაlika_86
 

Viewers also liked (14)

Notes on fets
Notes on fetsNotes on fets
Notes on fets
 
Fets notes 2
Fets notes 2Fets notes 2
Fets notes 2
 
Excelleren is ondernemen
Excelleren is ondernemenExcelleren is ondernemen
Excelleren is ondernemen
 
The Westin Grande Sukhumvit Bangkok Hotel Presentation
The Westin Grande Sukhumvit Bangkok Hotel PresentationThe Westin Grande Sukhumvit Bangkok Hotel Presentation
The Westin Grande Sukhumvit Bangkok Hotel Presentation
 
Mate power ppoint
Mate power ppointMate power ppoint
Mate power ppoint
 
Educación Fisica 1º trimeste
Educación Fisica 1º trimeste  Educación Fisica 1º trimeste
Educación Fisica 1º trimeste
 
3th to 9th february
3th to 9th february3th to 9th february
3th to 9th february
 
Camping
CampingCamping
Camping
 
Educación Física.
Educación Física.Educación Física.
Educación Física.
 
es
eses
es
 
Patient confidentiality
Patient confidentialityPatient confidentiality
Patient confidentiality
 
Managed care program
Managed care programManaged care program
Managed care program
 
არაორგანული ქიმიის საგამოცდო ტესტის იმიტაცია
არაორგანული ქიმიის საგამოცდო ტესტის იმიტაციაარაორგანული ქიმიის საგამოცდო ტესტის იმიტაცია
არაორგანული ქიმიის საგამოცდო ტესტის იმიტაცია
 
Shot put
Shot put Shot put
Shot put
 

Similar to Presentation deja vu_x_animated_05-02-20010_gm

Практическое применение семантического анализа для фильтрации трафика (Яков М...
Практическое применение семантического анализа для фильтрации трафика (Яков М...Практическое применение семантического анализа для фильтрации трафика (Яков М...
Практическое применение семантического анализа для фильтрации трафика (Яков М...Ontico
 
Zend Framework и мультиязычность
Zend Framework и мультиязычностьZend Framework и мультиязычность
Zend Framework и мультиязычностьStepan Tanasiychuk
 
презентация технологии машинного перевода и Soylem net
презентация технологии машинного перевода и Soylem netпрезентация технологии машинного перевода и Soylem net
презентация технологии машинного перевода и Soylem netBerik Badayev
 
Viacheslav Eremin about DOT NET (rus lang)
Viacheslav Eremin about DOT NET (rus lang)Viacheslav Eremin about DOT NET (rus lang)
Viacheslav Eremin about DOT NET (rus lang)Viacheslav Eremin
 
Современный подход к локализации на примере одного проекта
Современный подход к локализации на примере одного проектаСовременный подход к локализации на примере одного проекта
Современный подход к локализации на примере одного проектаSQALab
 
08 машинный перевод
08 машинный перевод08 машинный перевод
08 машинный переводLidia Pivovarova
 
Query expansion
Query expansionQuery expansion
Query expansionNLPseminar
 
LimeOn - Облачный сервис автоматизированного перевода документов SOYLEM CAT
LimeOn - Облачный сервис автоматизированного перевода документов SOYLEM CATLimeOn - Облачный сервис автоматизированного перевода документов SOYLEM CAT
LimeOn - Облачный сервис автоматизированного перевода документов SOYLEM CATLimeOn Global Company
 
Автоматизированный подход к локализации корпоративных приложений
Автоматизированный подход к локализации корпоративных приложенийАвтоматизированный подход к локализации корпоративных приложений
Автоматизированный подход к локализации корпоративных приложенийSoftengi
 
Обзор систем совместной работы
Обзор систем совместной работыОбзор систем совместной работы
Обзор систем совместной работыАнтон Широков
 
Обзор систем совместной работы
Обзор систем совместной работыОбзор систем совместной работы
Обзор систем совместной работыolden_idle
 
CFEngine, Puppet, Chef, SAltStack and Ansible Failover'14
CFEngine, Puppet, Chef, SAltStack and Ansible Failover'14CFEngine, Puppet, Chef, SAltStack and Ansible Failover'14
CFEngine, Puppet, Chef, SAltStack and Ansible Failover'14Serguei Gitinsky
 
Alfresco как система для СЭД
Alfresco как система для СЭДAlfresco как система для СЭД
Alfresco как система для СЭДSergey Gorobets
 
IT talk SPb "Локализация приложения на 15+ языков и его тестирование"
IT talk SPb "Локализация приложения на 15+ языков и его тестирование" IT talk SPb "Локализация приложения на 15+ языков и его тестирование"
IT talk SPb "Локализация приложения на 15+ языков и его тестирование" DataArt
 
Fact Extraction (ideograph)
Fact Extraction (ideograph)Fact Extraction (ideograph)
Fact Extraction (ideograph)NLPseminar
 
MT as a Translator's Tool (TFR_11) - in Russian
MT as a Translator's Tool (TFR_11) - in RussianMT as a Translator's Tool (TFR_11) - in Russian
MT as a Translator's Tool (TFR_11) - in Russianoleg_vigodsky
 

Similar to Presentation deja vu_x_animated_05-02-20010_gm (20)

Практическое применение семантического анализа для фильтрации трафика (Яков М...
Практическое применение семантического анализа для фильтрации трафика (Яков М...Практическое применение семантического анализа для фильтрации трафика (Яков М...
Практическое применение семантического анализа для фильтрации трафика (Яков М...
 
Lande, Jigalo
Lande, JigaloLande, Jigalo
Lande, Jigalo
 
Zend Framework и мультиязычность
Zend Framework и мультиязычностьZend Framework и мультиязычность
Zend Framework и мультиязычность
 
презентация технологии машинного перевода и Soylem net
презентация технологии машинного перевода и Soylem netпрезентация технологии машинного перевода и Soylem net
презентация технологии машинного перевода и Soylem net
 
кулагин поиск близких по смыслу языковых выражений
кулагин поиск близких по смыслу языковых выраженийкулагин поиск близких по смыслу языковых выражений
кулагин поиск близких по смыслу языковых выражений
 
Viacheslav Eremin about DOT NET (rus lang)
Viacheslav Eremin about DOT NET (rus lang)Viacheslav Eremin about DOT NET (rus lang)
Viacheslav Eremin about DOT NET (rus lang)
 
Invisible
InvisibleInvisible
Invisible
 
Современный подход к локализации на примере одного проекта
Современный подход к локализации на примере одного проектаСовременный подход к локализации на примере одного проекта
Современный подход к локализации на примере одного проекта
 
08 машинный перевод
08 машинный перевод08 машинный перевод
08 машинный перевод
 
Query expansion
Query expansionQuery expansion
Query expansion
 
Извлечение перевожных эквивалентов из параллельных корпусов
Извлечение перевожных эквивалентов из параллельных корпусовИзвлечение перевожных эквивалентов из параллельных корпусов
Извлечение перевожных эквивалентов из параллельных корпусов
 
LimeOn - Облачный сервис автоматизированного перевода документов SOYLEM CAT
LimeOn - Облачный сервис автоматизированного перевода документов SOYLEM CATLimeOn - Облачный сервис автоматизированного перевода документов SOYLEM CAT
LimeOn - Облачный сервис автоматизированного перевода документов SOYLEM CAT
 
Автоматизированный подход к локализации корпоративных приложений
Автоматизированный подход к локализации корпоративных приложенийАвтоматизированный подход к локализации корпоративных приложений
Автоматизированный подход к локализации корпоративных приложений
 
Обзор систем совместной работы
Обзор систем совместной работыОбзор систем совместной работы
Обзор систем совместной работы
 
Обзор систем совместной работы
Обзор систем совместной работыОбзор систем совместной работы
Обзор систем совместной работы
 
CFEngine, Puppet, Chef, SAltStack and Ansible Failover'14
CFEngine, Puppet, Chef, SAltStack and Ansible Failover'14CFEngine, Puppet, Chef, SAltStack and Ansible Failover'14
CFEngine, Puppet, Chef, SAltStack and Ansible Failover'14
 
Alfresco как система для СЭД
Alfresco как система для СЭДAlfresco как система для СЭД
Alfresco как система для СЭД
 
IT talk SPb "Локализация приложения на 15+ языков и его тестирование"
IT talk SPb "Локализация приложения на 15+ языков и его тестирование" IT talk SPb "Локализация приложения на 15+ языков и его тестирование"
IT talk SPb "Локализация приложения на 15+ языков и его тестирование"
 
Fact Extraction (ideograph)
Fact Extraction (ideograph)Fact Extraction (ideograph)
Fact Extraction (ideograph)
 
MT as a Translator's Tool (TFR_11) - in Russian
MT as a Translator's Tool (TFR_11) - in RussianMT as a Translator's Tool (TFR_11) - in Russian
MT as a Translator's Tool (TFR_11) - in Russian
 

Presentation deja vu_x_animated_05-02-20010_gm

  • 1. Георгий Моисеенко (gmoiseenko@yandex.ru) Введение в систему автоматизированного перевода Déjà Vu X Workgroup
  • 2.
  • 3. Объективная необходимость использования автоматизированных систем перевода Новое направление в технологии перевода
  • 4.
  • 5. Прежние переводы хранятся в бумажном виде При большом объеме хранимых документов поиск конкретной фразы практически неосуществим
  • 6. Наглядный пример В данном фрагменте Руководства пользователя количество повторов уже переведенного составляет 57%.
  • 7.
  • 8. Структура системы Память переводов Терминологическая база Проект Лет 10 назад компания IBM разработала «Систему памяти переводов» - Translation memory system
  • 9. Структура системы Новое название - Computer-assisted translation tool (CAT tool) – Автоматизированная система перевода Память переводов Терминологическая база Лексикон Проект
  • 10.
  • 11. Основные понятия автоматизированных систем перевода Новое направление в технологии перевода
  • 12. Сегментация Исходный текст CONFIDENTIALITY AGREEMENT August ,2004 [address] Re: Confidentiality Agreement Ladies and Gentlemen: You have requested Confidential Information from Company1 Corporation ("Company1") concerning Company1 that is either confidential, proprietary, or publicly unavailable in connection with your consideration of a possible business combination ("Transaction") between you and Company1 involving TLLC. As a condition, and in consideration, of furnishing to you "Confidential Information" (as defined below), Andrew requires that you treat the Confidential Information so furnished confidentially as set forth in this letter agreement (the "Confidentiality Agreement"). 1. Confidential Information As used in this Confidentiality Agreement, the term "Confidential Information" means all information concerning Company1 and its subsidiaries or affiliates that is furnished or made available to you by Company1 or any agent or representative of Company1 or that is obtained or derived by you from any of the foregoing persons as part of your consideration of the Transaction,
  • 13. Сегментация Текст, разбитый на сегменты Сегмент - абзац, предложение и т.п. Сегмент оригинала
  • 14. Память переводов Сводная таблица Сегмент оригинала Сегмент перевода
  • 15. Наиболее популярные системы Новое направление в технологии перевода
  • 16.
  • 17. Наиболее популярные системы По данным опроса, проведенного Imperial College London в августе 2006 года среди 900 переводчиков из 54 стран, наибольшей популярностью пользуются системы Trados , D é j à Vu X и Wordfast с разными приоритетами среди разных групп переводчиков Количество пользователей различно в разных подгруппах (внештатные переводчики, бюро переводов и т.п.). Deja Vu используется равномерно во всех группах.
  • 18. Количество пользователей, использующих различные системы как основные (в %)
  • 19. Оценка четырех систем по функциональным и нефункциональным критериям 3,4 3,9 4,0 3,3 Средний рейтинг 2,6 3,7 3,7 2,5 Поддержка пользователей 3,1 4,6 4,3 2,9 Соотношение "цена-качество" 3,4 4,1 4,0 3,3 Простота обучения 3,5 4,2 4,2 3,5 Удобство использования 3,4 3,8 4,1 3,3 Надежность 3,7 3,9 4,1 3,7 Быстродействие 3,8 3,4 3,8 3,3 Правильность нахождения совпадений 3,3 3,4 3,8 3,3 Нахождение совпадений 3,6 3,9 4,1 3,5 Функциональные возможности SDL Trados 2006 Wordfast D é j à Vu Trados Рейтинг систем по следующим критериям
  • 20.
  • 21. Источники Приведенные результаты взяты из документа: http :// www 3. imperial . ac . uk / portal / pls / portallive / docs /1/7307707. PDF Некоторые более ранние сведения приведены в документах: http :// www . accurapid . com / journal /03 TM 2. htm http :// www . accurapid . com / journal /03 TM 1. htm http :// www . atril . com / docs / Benis - ITI - DVX . pdf http :// www . techwr - l . com / techwhirl / magazine / technical / translationmemory . html Попытка собрать сведения о сравнительной эффективности популярных систем была сделана на форуме http://www.trworkshop.net/forum/viewtopic.php?t=6254 Плюсы и минусы систем неоднократно обсуждались на форумах http://trworkshop.net/forum/viewforum.php?f=16 http :// www . libra - k . ru / forum / viewforum . php ? f =18& sid =346091 f 51 e 807035 cfb 94 de 841 eaa 0 b 3 http :// tech . groups . yahoo . com / group / dejavu - L http://www.lisa.org
  • 22. ПОЧЕМУ Déjà Vu X? Новое направление в технологии перевода
  • 23. Все системы умеют находить в памяти переводов предложения, сходные с переведенными Запустите Déjà Vu X и откройте нужную память переводов ( Translation memory ). Выберите в меню Database команду Find Duplicate Sentences и задайте нужные параметры, чтобы удалить дублирующие записи (проверьте правильность указания языков). Выберите в меню Database команду Find Duplicate Sentences . Пометьте поле Find sets of duplicate source sentences. Пометьте поле Find sets of duplicate source sentences with identical translations. Пометьте поле Delete redundant sentences in each set of duplicates. Укажите нужные языки. Пометьте в разделе Miscellaneous : Удаление ненужных переводов одного и того же оригинала. Запустите Déjà Vu X и откройте нужную память переводов ( Translation memory ). Выберите в меню Database команду Find Duplicate Sentences . Пометьте поле Find sets of duplicate source sentences with different translations. Укажите нужные языки. Пометьте в разделе Miscellaneous : Для просмотра дубликатов и их переводов выберите Duplicate Only в фильтре строк. Выберите в меню View команду Toggle Sorting , чтобы упорядочить память переводов по алфавиту.
  • 24. Запустите Déjà Vu X и откройте нужную память переводов ( Translation memory ). Выберите в меню Database команду Find Duplicate Sentences и задайте нужные параметры, чтобы удалить дублирующие записи (проверьте правильность указания языков). Выберите в меню Database команду Find Duplicate Sentences . Пометьте поле Find sets of duplicate source sentences. Пометьте поле Find sets of duplicate source sentences with identical translations. Пометьте поле Delete redundant sentences in each set of duplicates. Укажите нужные языки. Пометьте в разделе Miscellaneous : Удаление ненужных переводов одного и того же оригинала. Запустите Déjà Vu X и откройте нужную память переводов ( Translation memory ). Выберите в меню Database команду Find Duplicate Sentences . Пометьте поле Find sets of duplicate source sentences with different translations. Укажите нужные языки . Пометьте в разделе Miscellaneous : Для просмотра дубликатов и их переводов выберите Duplicate Only в фильтре строк. Выберите в меню View команду Toggle Sorting , чтобы упорядочить память переводов по алфавиту. Déjà Vu X , кроме того, автоматически подставляет фрагменты предложений из памяти переводов
  • 25. Запустите Déjà Vu X и откройте нужную память переводов ( Translation memory ). Выберите в меню Database команду Find Duplicate Sentences и задайте нужные параметры , чтобы удалить дублирующие записи ( проверьте правильность указания языков). Выберите в меню Database команду Find Duplicate Sentences . Пометьте поле Find sets of duplicate source sentences. Пометьте поле Find sets of duplicate source sentences with identical translations. Пометьте поле Delete redundant sentences in each set of duplicates. Укажите нужные языки . Пометьте в разделе Miscellaneous : Удаление ненужных переводов одного и того же оригинала . Запустите Déjà Vu X и откройте нужную память переводов ( Translation memory) . Выберите в меню Database команду Find Duplicate Sentences . Пометьте поле Find sets of duplicate source sentences with different translations. Укажите нужные языки . Пометьте в разделе Miscellaneous : Для просмотра дубликатов и их переводов выберите Duplicate Only в фильтре строк. Выберите в меню View команду Toggle Sorting , чтобы упорядочить память переводов по алфавиту. Déjà Vu X автоматически подставляет слова и из терминологической базы
  • 26. Запустите Déjà Vu X и откройте нужную память переводов ( Translation memory ). Выберите в меню Database команду Find Duplicate Sentences . Укажите нужные языки . Пометьте в разделе Miscellaneous : Количество символов текста – 1052 Обычная система найдет 190 символов повторяющихся предложений - 18%: Обнаруживается больше повторов
  • 27. Запустите откройте память переводов Выберите в меню команду задайте параметры , удалить записи проверьте Выберите в меню Database команду Find Duplicate Sentences . Пометьте поле Пометьте поле Find sets of duplicate source sentences Пометьте поле . Укажите языки . Пометьте разделе Удаление переводов оригинала . Запустите Déjà Vu X и откройте нужную память переводов ( Translation memory) . Выберите в меню Database команду Find Duplicate Sentences . Пометьте поле Find sets of duplicate source sentences Укажите нужные языки . Пометьте в разделе Miscellaneous : просмотра переводов выберите Déjà Vu X дополнительно найдет 424 символа повторяющихся фрагментов – 40%, итого - 58% . Не считая английских слов и чисел, которые подставляются в перевод автоматически ( View , Toggle Sorting и т.п., здесь не учтены) . 58% против 18%! C помощью функции "мозаичного перевода " ( AutoAssemble ) перевод автоматически собирается из фрагментов сегментов, найденных в памяти переводов, и терминов из терминологической базы. Обнаруживается больше повторов
  • 28. Эффективность Новое направление в технологии перевода
  • 29. Эффективность Статистика для одного из больших документов Точное совпадение с предложениями в памяти переводов 33,1% Неточное совпадение с предложениями в памяти 4,2% Сборка из фрагментов предложений в памяти и терминов 0,3% Копирование перевода аналогичных предложений далее по тексту 37,3% Перевод вручную 25,2% ------------------------- ----------------------------------------------------------------------- --- Примечание: Высокая степень совпадений объясняется тем, что в памяти переводов уже содержался предварительный перевод трех разделов данного документа. Полученная выгода очевидна
  • 30. Analyze : Анализ наличия и степени повторений для другого реального проекта – оценка трудоемкости будущей работы Дубликатов – 17% Сходных элементов - 25% (сходство более 20%), - 16% (сходство до 20%) Точных совпадений – 21% Всего Несходных элементов – 23%
  • 31. Почему Déjà Vu X Пример еще одного проекта 44% текста подставлено автоматически (память составлена по одному файлу)
  • 32. Статистика для последнего проекта Экономические выгоды для бюро переводов в месяц легко подсчитываются
  • 33. Эффективность Средний процент повторений в документах, обнаруживаемый системой – 20-30% . В месяце – 22 рабочих дня по 8 часов = 176 часов Норма переводчика: 1 страница в час 20% от 176 = 35 часов = 35 страниц = 4 рабочих дня ! В больших пакетах документов для некоторых документов процент повторений достигал 100% . Умножим на зарплату в час!
  • 34. Удобство и эффективность перевода Этапы и функции Новое направление в технологии перевода
  • 35. Основные этапы Создание и настройка проекта Импорт файлов Автоматический поиск в памяти переводов с использованием нечеткой логики и автоматическая сборка Ручной перевод Экспорт Переводчик создает и настраивает проект Переводчик импортирует документы DVX находит сходные предложения или строит часть перевода автоматически Переводчик переводит остальное DVX экспортирует документы Предварительная обработка документов проекта Переводчик приводит документы к виду, облегчающему перевод и предотвращающему возникновение проблем Редактирование и форматирование переводов Переводчик редактирует и форматирует экспортированные переведенные документы
  • 36.
  • 37.
  • 38.
  • 39.
  • 40.
  • 41.
  • 42. Выборочный импорт части файла ( Excel ) Для текста, который не нужно переводить, задайте красный цвет шрифта, а при импорте укажите в параметрах фильтра "Ignore Red Text" . Если сделать копию столбца оригинала и задать для исходного столбца красный цвет шрифта, то первый столбец не будет импортирован и останется неизменным, а второй - будет импортирован и переведен, в результате чего получится таблица с колонками оригинала и перевода.
  • 43.
  • 44.
  • 45.
  • 46. Глобальный предварительный перевод ( Pretr anslation ) DVX просматривает памяти переводов и терминологические базы, чтобы автоматически вставить точный или сходный перевод
  • 47. Автоматический поиск переводов сходных предложений ( Auto S earch ) Сходные сегменты Отличие оригинала от найденного сегмента Отличие найденного сегмента от оригинала При единственном выборе перевод подставляется в поле перевода автоматически
  • 48.
  • 49. Нечеткий поиск при предварительном переводе и ручном переводе При ручном переводе автоматический поиск с использованием нечеткой логики обнаруживает большее количество сходных сегментов
  • 50. Автоматическая сборка ( AutoAssemble ) Автоматическая сборка перевода из фрагментов предложений в памяти переводов и элементов терминологической базы, если не найден перевод всего предложения , – уникальная функция, которая имеется только в Déjà Vu X Наличие нескольких вариантов перевода указывается цветом. Просмотр – нажатием правой кнопки мыши. Перевод подставляется в поле перевода автоматически
  • 51. Ручной поиск в файлах памяти переводов ( Scan ) Сходные сегменты Искомое слово или словосочетание Найденный оригинал Найденный перевод
  • 52.
  • 53.
  • 54.
  • 55. Временный экспорт в MS Word для анализа и редактирования его средствами с возвратом в Déjà Vu X
  • 56. Экспорт примечаний Примечания, введенные при работе в D é j à Vu X (как указано выше), будут видны и в экспортированном файле:
  • 57.
  • 58.
  • 59.
  • 60. Удобный, легко настраиваемый интерфейс Новое направление в технологии перевода
  • 61. Интерфейс пользователя Гибкость настроек и размещения окон
  • 62.
  • 63.
  • 64. Сегментированный текст оригинала Редактируемые ячейки Фрагменты, найденные в памяти переводов и терминологической базе Предложения, найденные в памяти переводов Список импорти-рованных файлов Рабочее пространство
  • 65. Выборочный вывод сегментов на экран Мощная система фильтрации сегментов по более чем десяти параметрам, включая заданные пользователем на основе SQL
  • 66. Память переводов Терминологическая база Лексикон Новое направление в технологии перевода
  • 67.
  • 68.
  • 69.
  • 70.
  • 71.
  • 72.
  • 73.
  • 74.
  • 75.
  • 76. Версии и информационные ресурсы Новое направление в технологии перевода
  • 77. Варианты систем DVX DVX Workgroup DVX Professional DVX Standard Standard – Автономная программа для внештатных переводчиков, может создавать проекты, не имеет некоторых развитых и автоматизированных возможностей . Professional – Классическая версия, предназначена для внештатных переводчиков и имеет все возможности. Workgroup – Все функции Professional плюс мощные возможности для управления работой переводчиков и организации групповой работы .
  • 78.
  • 79.
  • 81.
  • 82. Ресурсы в сети Интернет для Déjà Vu X, основные форумы , где можно получить информацию и помощь 5. Автоматизированный перевод . Из открытой для дополнения энциклопедии Wikipedia – http://en.wikipedia.org/wiki/Computer-assisted_translation#Computer-assisted translation 6. Greek Translation Vortal -- http://www.translatum.gr/dics/translation-memory.htm 7 . Форум Lingvoda http://www.lingvoda.ru/forum/actualtopics.aspx?bid=9 8 . English Spanish Translator Org: Translation Forum – Translators Forums – CAT Tools - http://www.english-spanish-translator.org/cat-tools/