Facebook опубликовал открытую систему распознавания речи Wav2letter++
22 декабря 2018 года
Разработчики из лаборатории искусственного интеллекта Facebook AI Research представили первый выпуск новой системы распознавания речи Wav2letter++, построенной с использованием свёрточной нейронной сети. В отличие от опубликованного в январе начального прототипа, реализация wav2letter++ полностью переписана на языке C++ с использованием библиотек ArrayFire и Flashlight (первый прототип был в форме Torch-модуля на языке Lua). Код проекта распространяется под лицензией BSD. Доступны уже натренированные модели ( 1(недоступная ссылка), 2(недоступная ссылка), 3(недоступная ссылка)) для английского языка.
Для распознавания в Wav2letter++ предложена новая архитектура, основанная на использовании акустической и языковой моделей, созданных при помощи системы машинного обучения на базе свёрточной нейронной сети (CNN). Система использует метод посимвольного предсказания на основе разбора необработанной формы сигнала без предварительного разделения фонем при проведении машинного обучения. После фазы посимвольного разбора для определения слов применяется внешняя языковая модель, выполненная также на основе свёрточной нейронной сети. Задействованные в проекте функции низкоуровневой обработки звука основаны на библиотеки Libsndfile, а для цифровой обработки сигналов при помощи дискретного преобразования Фурье применяется библиотека FFTW.
Для обучения в проекте реализована техника автоматического сегментирования, которая позволяет обучить систему на основе записи звука и текстовой транскрипции, без дополнительных аннотаций. Для работы декодировщика требуется только список слов и языковая модель - весовые характеристики букв выделяются из акустической модели, без необходимости подключения словарей фонетической лексики. Для ускорения проведения обучения поддерживается задействование GPU (CUDA) и кластерных систем (OpenMPI и TorchMPI).
Система демонстрирует хорошую производительность, которая позволяет по скорости конкурировать с решениями на базе рекуррентных нейронных сетей. По скорости обучения в некоторых ситуациях Wav2letter++ более чем в два раза опережает другие оптимизированные фреймворки распознавания речи на базе алгоритмов машинного обучения. Время обучения линейно масштабируется в зависимости от числа GPU. Скорость декодирования в Wav2letter++ на порядок опережает реализации OpenSeq2Seq и ESPNet при сопоставимом или меньшем уровне ошибок. На тестовом наборе LibriSpeech система демонстрирует уровень ошибок 4.91-5% (в зависимости от настроек производительности), в то время как для распознавания человеком этот показатель составляет 5.83%, при работе Mozilla Voice ( Deep Speech) - 5-6.5%, Google Speech - 6.64%, wit.ai - 7.94%, Bing Speech - 11.73%, Apple Dictation - 14.24%.
Источники
[править]
Любой участник может оформить статью: добавить иллюстрации, викифицировать, заполнить шаблоны и добавить категории.
Любой редактор может снять этот шаблон после оформления и проверки.
Комментарии[править]
Если вы хотите сообщить о проблеме в статье (например, фактическая ошибка и т. д.), пожалуйста, используйте обычную страницу обсуждения.
Комментарии на этой странице могут не соответствовать политике нейтральной точки зрения, однако, пожалуйста, придерживайтесь темы и попытайтесь избежать брани, оскорбительных или подстрекательных комментариев. Попробуйте написать такие комментарии, которые заставят задуматься, будут проницательными или спорными. Цивилизованная дискуссия и вежливый спор делают страницу комментариев дружелюбным местом. Пожалуйста, подумайте об этом.
Несколько советов по оформлению реплик:
- Новые темы начинайте, пожалуйста, снизу.
- Используйте символ звёздочки «*» в начале строки для начала новой темы. Далее пишите свой текст.
- Для ответа в начале строки укажите на одну звёздочку больше, чем в предыдущей реплике.
- Пожалуйста, подписывайте все свои сообщения, используя четыре тильды (~~~~). При предварительном просмотре и сохранении они будут автоматически заменены на ваше имя и дату.
Обращаем ваше внимание, что комментарии не предназначены для размещения ссылок на внешние ресурсы не по теме статьи, которые могут быть удалены или скрыты любым участником. Тем не менее, на странице комментариев вы можете сообщить о статьях в СМИ, которые ссылаются на эту заметку, а также о её обсуждении на сторонних ресурсах.