Сбер выпустил альбомThriving Machine, созданный с помощью нейронной сети, которая способна сочинять уникальные музыкальные композиции. Альбом состоит из произведений разных жанров — эмбиент, поп, электро, рок, лаунж и классика. Послушать его можно в аудиосервисе СберЗвук. Послушать композиции целиком можно, зарегистрировавшись на ресурсе. Об этом рассказал СТО Сбербанк Груп, исполнительный вице-президент Давид Рафаловский во время международной конференции AI Journey 2021.
Обложкой альбома стал коллаж из 4 рисунков, сгенерированных нейросетью ruDALL-E, которая создает изображения по описанию на русском языке. Изображения были получены по запросам «процветающая вселенная» и «струнный оркестр галактики». Названия треков были сгенерированы нейросетью ruGPT-3.
Команда SberDevices при содействии SberCloud разработала собственную нейросетевую архитектуру SymFormer, основанную на открытой модели Performer, и обучила нейросеть на суперкомпьютере Кристофари при помощи платформы ML Space. В результате получилась модель для генерации музыкальных произведений, основанная на принципе рассмотрения музыки в качестве нотного текста. Модель обучалась на датасете из 160 тысяч композиций разных стилей: от классики до современной электронной музыки и рока. С её помощью можно создавать не только аудиозаписи, но и фоновую музыку с открытой лицензией для видеороликов и презентаций, а также использовать в работе диджеев и композиторов.
Создание музыкальных композиций при помощи SymFormer происходит в два этапа: сначала нейросеть получает информацию о стиле и генерирует несколько вариантов структуры будущей композиции. На втором этапе создаётся несколько вариантов мультиинструментальной композиции, соответствующих заданному стилю. Далее модель-ранжировщик выбирает, какие из вариантов наиболее удачны и максимально соответствуют описанию стиля и структуры композиции. Таким образом получается уникальное музыкальное произведение.
Эта разработка — очередной шаг на пути развития креативного искусственного интеллекта, способного создавать безграничное количество материала не только для развлечения, но и для бизнеса — сгенерированные треки могут использоваться для производства самого разного мультимедийного контента. Эволюция подобных нейросетей также позволяет нам продвинуться на пути развития виртуальных ассистентов нового поколения, которые смогут не только отвечать на вопросы, заказывать еду или управлять умным домом, но и выполнять роль личного композитора, писателя или художника
Давид Рафаловский
СТО Сбербанк Групп, исполнительный вице-президент