Mozilla развивает собственную систему машинного перевода

Материал из Викиновостей, свободного источника новостей

21 октября 2019 года

Машинный перевод

Компания Mozilla в рамках проекта Bergamot приступила к созданию системы машинного перевода, работающей на стороне браузера. Проект позволит интегрировать в Firefox самодостаточный движок перевода страниц, не обращающийся к внешним облачным сервисам и обрабатывающий данные исключительно на системе пользователя. Главной целью разработки является обеспечение конфиденциальности и защита данных пользователя от возможных утечек при переводе содержимого открываемых в браузере страниц.

Разработка Bergamot ведётся в берлинском офисе Mozilla при участии исследователей из нескольких университетов Великобритании, Эстонии и Чехии. Разработку финансирует Евросоюз в рамках гранта, полученного по программе Horizon 2020. Размер гранта составляет три миллиона евро. Проект рассчитан на три года. В Mozilla открыта вакансия специалиста по системам машинного обучения для участия в разработке движка для перевода с одного языка на другой.

Из смежных разработок, имеющих отношение к проекту Bergamot, упомянуты:

  • Развиваемый в Эдинбургском университете фреймворк машинного перевода Marian, построенный на базе рекуррентной нейронной сети. Фреймворк написан на языке C++, может задействовать GPU для ускорения обучения и перевода, и поставляется под лицензией MIT.
  • Созданный в Пражском университете инструментарий Neural Monkey для обработки информации на естественном языке с использованием методов последовательного машинного обучения. Проект применяет фреймворк TensorFlow и может использоваться для быстрого создания прототипов систем машинного перевода и классификации информации на естественном языке. Код доступен под лицензией BSD.
  • Подготовленный в Шеффилдском университете проект QuEst++, применяемый для оценки и прогнозирования качества систем машинного перевода.
  • Развиваемые в Mozilla синтезатор речи (TTS) и движок распознавания речи (Deep Speech)
  • Финансируемый Евросоюзом проект ParaCrawl, накапливающий базу синхронных переводов различных фраз на разных языках, которую можно использовать для тренировки систем машинного обучения. Основой проекта является бот bitextor, который индексирует многоязычные web-сайты и автоматически находит одинаковые тексты, представленные на нескольких языках. База примеров параллельных переводов формируется для 24 языков, в том числе для русского (БД для русского языка занимает 637MB в сжатом виде и включает более 12 млн примеров перевода).

Разработка Bergamot началась в январе этого года, но наработки проекта пока недоступны для публичного тестирования. Тем не менее, несколько дней назад разработчики опубликовали видео с демонстрацией начального прототипа.

Напомним, что в Firefox уже имеется встроенный механизм для перевода страниц, но он завязан на использовании внешних облачных сервисов (поддерживаются Google, Yandex и Bing) и не активирован по умолчанию (для включения в about: config следует изменить настройки «browser.translation»). Механизм перевода в том числе поддерживает автоматическое определение языка при открытии страницы на неизвестном языке и выводит специальный индикатор с предложением осуществить перевод страницы. Развиваемый в рамках проекта Bergamot прототип системы перевода использует этот же интерфейс для взаимодействия с пользователем, но вместо обращения к внешним сервисам запускается встроенный обработчик.

Источники[править]

Комментарии[править]

Викиновости и Wikimedia Foundation не несут ответственности за любые материалы и точки зрения, находящиеся на странице и в разделе комментариев.