Перевод из машины: что было на круглом столе TAUS

22 мая в Москве мы проводили круглый стол TAUS. Впервые в России международная организация, которая исследует вопросы автоматизации перевода (подробнее о TAUS смотрите в предыдущем посте), собрала экспертов отрасли, чтобы поговорить об инновациях в сфере лингвистических технологий и о том, что это значит для переводчиков, переводческих компаний, их клиентов и тех, кто плотно работает с индустрией.

Этот пост мы решили посвятить докладам мероприятия: на круглом столе удалось собрать уникальный состав экспертов. Итак, о чём же говорили на московском TAUS Translation Automation Roundtable.

Мероприятие открыл основатель TAUS Яп ван дер Меер с докладом Planning for an Uncertain Future, в котором он рассказал о переменах в индустрии перевода и локализации, а также об инновациях, которые предопределяют такие перемены. В частности, он коснулся эволюции отрасли: основных возможностей для роста поставщиков лингвистических услуг, особенностей переводимого контента и рабочих инструментов. Так, к 1990-м годам исходная информация для перевода переехала с бумаги на цифровые носители, в нулевых переводился в основном статический веб-контент, а к 2010-му году в мировой практике преобладал уже динамический веб-контент. Яп считает, что в 2020-е годы баланс сместится в сторону персонализированного контента и UGC.

Основатель TAUS Яп ван дер Меер с докладом Planning for an Uncertain Future

Безусловно, на развитие отрасли влияет совокупность внешних условий — то, что Яп называет гиперглобализацией: рост международной торговли, открытость коммерческих структур, экспансия новых рынков, повышение уровня сервиса и пр. При этом он считает, что следующий скачок случится с новым миллиардом пользователей интернета — после преодоления сдерживающих факторов, кончено. Однако работы переводчикам и переводческим компаниям только прибавится: в своей презентации Яп оптимистично сообщил, что зетабайты информации ждут своего перевода на 1 000+ языков. Для индустрии это значит ровно то, о чем говорится на всех мероприятиях TAUS: перевод становится услугой массового потребления и встаёт в один ряд с электричеством, водоснабжением, Интернетом и т. п. Сейчас лингвистические услуги, как выразился Яп, «переключают скорость»: из премиального сервиса для ограниченного спроса они становятся насущной потребностью пользователей и бизнесов, вовлеченных в глобальную коммуникацию. Перевод становится мобильным, непрерывным, встроенным, быстрым — в сущности, таким же, как и контент. Роль лингвистических технологий продолжает расти: они объединяются с поиском, речью и системами использования знаний.

Жан-Люк Сайар, руководитель североамериканского подразделения ABBYY Language Services, чуть подробнее остановился на эволюции лингвистических технологий и посвятил свой доклад облачным средствам автоматизации перевода. В частности, облачные технологии позволяют сделать наиболее удобный инструмент для переводчика: такой инструмент не нужно устанавливать, доступ можно получить с любого компьютера через браузер, обновленная версия всегда под рукой — всё это открывает новые возможности командной работы в режиме реального времени. Кроме того, «облака» ничуть не мешают создавать единую интегрированную рабочую среду с подключённой терминологической системой (глоссарии, автоматическая проверка, морфологический поиск), настроенными «движками» машинного перевода, OCR-технологиями, встроенными метриками производительности. Жан-Люк отметил, что в настоящий момент подобных рабочих инструментов практически нет и (спойлер!) что разработчики ABBYY Language Services готовят решение — облачный SmartCAT, которым смогут пользоваться все переводчики-фрилансеры совершенно бесплатно.

Жан-Люк Сайар с докладом Translation Automation Going Cloud: The New Landscape for Professional Translators

Максим Лобанов, старший специалист по иностранным языкам в Google, рассказал в своём докладе о читабельности, которую компания старается положить в основу собственной системы оценки качества перевода. Google тщательно проверяет тексты от вендоров и использует для этого внутренний инструмент для контроля качества, инструментарий собственного «движка» машинного перевода и отдельный сервер, куда складываются все результаты таких проверок. Все проекты оцениваются по шести типам лингвистических ошибок (среди которых терминология, смысл и читабельность), при этом каждый тип имеет три степени тяжести. Количество ошибок считается на кластер в 1000 слов: документ успешно проходит проверку, если в нём меньше трёх ошибок на тысячу слов. Категория читабельности — одна из основных: Максим заметил, что, несмотря на отсутствие грамматических, пунктуационных и других ошибок, переводы могли быть откровенно неважными. Поэтому в дальнейшем Google продолжит стандартизацию и настройку системы контроля качества, выделяя критерий читабельности, а полученный опыт собирается активно использовать в улучшении своего машинного перевода.

Максим Лобанов с докладом Readability: Cornerstone of Google's L10N Quality Evaluation System

Фархат Аминов, менеджер проектов «Яндекс.Перевода», посвятил свой доклад машинному переводу в «Яндексе». Например, гости круглого стола TAUS узнали, что автоматический переводчик «Яндекса» за день пропускает около 100 гигабайт (в том числе и через мобильное приложение). Сейчас специалисты работают над включением в систему азиатских языков, а первыми доступными языковыми направлениями были «английский-русский» и «украинский-русский» — они вводились по популярности поисковых запросов. Среди основных проблем, с которыми сталкиваются разработчики «движка», Фархат назвал флективность языков, редкость использования конкретного языка и, как следствие, отсутствие параллельных текстов в вебе. Кстати, первыми «пользователями» машинного перевода стали сервисы «Яндекса». А обычные пользователи чаще всего переводят личную переписку, описания товаров из зарубежных магазинов и учебные материалы.

Фархат Аминов с докладом MT at Yandex: Overview and Ways We Use it in Localization

Тему машинного перевода продолжила Индра Самит из латвийской компании-разработчика лингвистических технологий Tilde. В своём докладе она рассказала о применении машинного перевода для электронного правительства в Евросоюзе. Не секрет, что в ЕС — 80 языков, только 23 из них являются официальными, а все публичные консультации и делопроизводство ведутся в основном на английском языке. С 2010 года идёт работа над машинным переводчиком для Евросоюза: планируется, что его можно будет встроить в веб-сайты и многоязычные онлайн-сервисы, при его разработке будут использоваться передовые лингвистические технологии, а данные такой системы войдут в исследования по улучшению «движка». Индра привела в качестве примера кейс Tilde в Латвии, где из 2,1 миллиона людей 36 % населения говорит по-русски: здесь уже началось тестирование машинного перевода для нужд электронного правительства, и лингвистам удалось собрать более полутора миллиардов параллельных предложений и опробовать более 120 «движков».

Индра Самит с докладом Is MT ready for e-Government? The Latvian Story.

Ренат Бикматов из компании Logrus International представил участникам доклад CAT or TMS Implementation: Calculation of the Number of Licenses and the Total Cost of Ownership. В нём он поделился опытом, как оптимизировать расходы на покупку ПО для автоматизации перевода. В частности, поставщикам лингвистических услуг стоит постоянно сравнивать производительность разных CAT- и TMS-решений со схожими функциями, продуктивность и уровень компетенций отдельных исполнителей, качество машинного перевода и обращать внимание на особенности работы с каждым отдельным клиентом. Также Ренат сообщил, что на практике оптимальным сроком лицензирования оказался 5-дневный период, а все лицензии со сроком дольше 30 дней вообще оказались слишком затратными.

Ренат Бикматов с докладом CAT or TMS Implementation: Calculation of the Number of Licenses and the Total Cost of Ownership

Директор по инновациям ABBYY Language Services Антон Воронов посвятил свой доклад особенностям профессионального использования машинного перевода. Как встроить машинный перевод в производственные процессы, что для этого нужно, на что стоит обратить внимание, как быть с качеством перевода: обо всём этом можно почитать в нашем техноблоге на Хабре — там мы подробнее рассказываем о докладе Антона. Кстати, именно он в конце круглого стола получил награду за лучший доклад — TAUS Excellence Award. Принимаем поздравления ☺

Антон Воронов с докладом Machine Translation in Professional Translation Process: Continuous Customization and Measured Productivity

Практике применения машинного перевода был также посвящен доклад Юлии Епифанцевой, директора по развитию ProMT. В нём она сосредоточилась на тех случаях, когда автопереводчик используется для понимания общего смысла текста: общение по электронной почте, в блогах, на форумах и в соцсетях, поиск информации в Интернете, онлайн-шопинг, отдых за границей, изучение иностранных языков и веб-сервисы. Юлия рассказала о нескольких корпоративных кейсах. Например, некоторые компании разворачивают системы машинного перевода для внутренних нужд: перевода документации и деловой переписки. Другие используют эту технологию для динамического перевода пользовательского контента: отзывов, рекомендаций, комментариев. Во всех случаях компаниям удаётся оптимизировать затраты на локализацию, поскольку человеческий перевод покупается только в тех ситуациях, когда он действительно необходим, а установленные «движки» машинного перевода обучаются на реальных текстах: чем дольше ими пользуешься, тем больше базы и тем выше качество перевода.

Юлия Епифанцева с докладом The Practice of MT at ProMT

Дион Уиггинс, представитель Asia Online, в своём докладе поделился видением того, какой должна быть идеальная система машинного перевода и компания-разработчик. Высокое качество машинного перевода не так-то легко достижимо без дополнительных вложений: времени, упорной работы, соответствующих навыков и инвестиций. И Дион привёл в пример необходимые навыки и компетенции для создания настроенных «движков» машинного перевода, способных работать на достойном уровне: этих требований оказалось немало. Также он остановился на основных причинах неудач в проектах с использованием MT: это и отсутствие опыта у команды по настройке «движка», и неверные ожидания, что всё будет легко, и др. По мнению Диона, разработчик машинного перевода должен внимательно следить за бизнес-стратегией, поддержкой продаж, проведением регулярных тренингов, постоянным развитием «движков» и технической поддержкой.

Заключительным докладчиком стал Яп ван дер Меер. Своё выступление с говорящим названием Together We Know More он посвятил важности совместной работы для всех представителей индустрии. Отрасль перевода и локализации активно развивается во всём мире: меняется технологическая основа и ландшафт рынка, масштабируются системы, множится объём контента. И если все игроки переводческого рынка будут делиться друг с другом своим опытом и накопленными лингвистическими ресурсами, создавать единые стандарты и работать над развитием отрасли, то это положительно отразится на качестве перевода и состоянии бизнеса. Яп рассказал, что сейчас приоритетными для TAUS направлениями являются:

  • данные (Data) — сбор параллельных текстов, баз памяти переводов и глоссариев для настройки «движков» машинного перевода;
  • технологии (Automate) — создание базы знаний, службы поддержки и помощи при работе с современными средствами автоматизации перевода;
  • метрики (Evaluate) — лучшие практики по измерению и оценке качества перевода, выполненного с помощью средств автоматизации, оценка производительности исполнителей и создание автоматических систем контроля качества наряду с оценкой специалистов;
  • API — создание технической базы для максимально удобной работы веб-сервисов по переводу.

Также среди отраслевых перспектив основатель TAUS указал плотное сотрудничество с учебными заведениями: только так возможно подготовить новое поколение профессионалов для индустрии лингвистических услуг и технологий.

Яп ван дер Меер и самый активный участник круглого стола — Кирилл Соловьев (Acronis)

Хоть мы и старались сделать наш пост поменьше, всё равно получилось многабукаф. Кроме докладов на круглом столе было много живых обсуждений, которые, к счастью к сожалению, мы не можем вам передать. В общем, было здорово и полезно. Надеемся, увидимся на следующем мероприятии вместе с TAUS.

Перевод из машины: что было на первом круглом столе TAUS в Москве



Оставить комментарий

'