Открыт код системы для разделения музыки и голоса Spleeter

Материал из Викиновостей, свободного источника новостей
Перейти к навигации Перейти к поиску

11 ноября 2019 года

<dynamicpagelist>

category = Опубликовано category = Наука и технологии‎ notcategory = Не публиковать notcategory = Ожидаемые события по датам notcategory = Архивные новости notcategory=Викиновости коротко count = 8 stablepages = only suppresserrors = true namespace = Main addfirstcategorydate = true ordermethod = created

</dynamicpagelist><dynamicpagelist>

category = Опубликовано category = Музыка notcategory = Не публиковать notcategory = Викиновости коротко notcategory = Ожидаемые события по датам notcategory = Архивные новости count = 8 stablepages = only suppresserrors = true namespace = Main addfirstcategorydate = true ordermethod = created </dynamicpagelist>

Логотип Deezer

Провайдер потокового вещания Deezer открыл исходные тексты экспериментального проекта Spleeter, развивающего систему машинного обучения для разделения источников звука из сложных звуковых композиций. Программа позволяет удалить из композиции вокал и оставить только музыкальное сопровождение, манипулировать звучанием отдельных инструментов или отбросить музыку и оставить голос для наложения на другой звуковой ряд, создания миксов, караоке или транскрипции. Код проекта написан на языке Python с использованием движка Tensorflow и распространяется под лицензией MIT.

Для загрузки предлагаются уже натренированные модели для отделения вокала (одного голоса) от аккомпанемента, а также для разделения на 4 и 5 потоков, включающих вокал, барабаны, басы, пианино и остальной звук. Spleeter может применяться как в виде Python-библиотеки, так и в форме обособленной утилиты командной строки. В простейшем случае на основе исходного файла создаётся два, четыре или пять файлов с голосом и составляющими из аккомпанемента (vocals.wav, drums.wav, bass.wav, piano.wav, other.wav).

При разделении на 2 и 4 потока Spleeter обеспечивает очень высокую производительность, например, при задействовании GPU разделение звукового файла на 4 потока занимает в 100 раз меньше времени, чем продолжительность исходной композиции. На системе с GPU NVIDIA GeForce GTX 1080 и 32-ядерном CPU Intel Xeon Gold 6134 обработка тестовой коллекции musDB, продолжительностью три часа 27 минут, была выполнена за 90 секунд.

Из достоинств Spleeter, по сравнению с другими разработками в области разделения звука, такими как открытый проект Open-Unmix, упоминается применение более качественных моделей, построенных на основе обширной коллекции звуковых файлов. Из-за ограничений авторских прав исследователи в области машинного обучения ограничены доступом к достаточно скудным общедоступным коллекциям музыкальных файлов, в то время как для Spleeter модели были построены с привлечением данных из обширного музыкального каталога Deezer.

По сравнению с Open-Unmix инструментарий Spleeter выполняет разделение примерно на 35 % быстрее при тестировании на CPU, поддерживает MP3-файлы и генерирует заметно более качественный результат (при выделении голоса в Open-Unmix остаются следы некоторых инструментов, что, вероятно, объясняется тем, что модели Open-Unmix натренированы на коллекции из всего 150 композиций).

 

Ссылки[править]

Источники[править]

 

Комментарии:Открыт код системы для разделения музыки и голоса Spleeter