
«`html
Инструкция Instruct-MusicGen: новый подход искусственного интеллекта к редактированию текста в музыку, способствующий совместному музыкальному и текстовому контролю
Исследователи из C4DM, Университета Королевы Марии в Лондоне, Sony AI и Music X Lab, MBZUAI, представили Instruct-MusicGen для решения проблемы редактирования текста в музыку, где текстовые запросы используются для изменения музыки, таких как изменение стиля или настройка инструментальных компонентов. Текущие методы требуют обучения специальных моделей с нуля, затратны на ресурсы и требуют подходов к восстановлению отредактированного аудио, что приводит к недостаточным результатам. Цель исследования — разработать более эффективный и эффективный метод, который использует предварительно обученные модели для выполнения качественного редактирования музыки на основе текстовых инструкций.
Практические решения и ценность
Текущие методы редактирования текста в музыку включают обучение специализированных моделей с нуля, что неэффективно и требует больших ресурсов, а также использование больших языковых моделей для интерпретации и редактирования музыки, что часто приводит к неточному восстановлению аудио. Эти методы либо слишком дороги, либо не обеспечивают точных результатов. Для преодоления этих проблем исследователи предлагают Instruct-MusicGen — новый подход, который донастраивает предварительно обученную модель MusicGen для эффективного выполнения редактирования музыки. Этот подход включает модуль объединения текста и модуль объединения аудио в исходную архитектуру MusicGen, позволяя ей обрабатывать текстовые инструкции и аудиовходы параллельно. Instruct-MusicGen значительно сокращает необходимость обширного обучения и дополнительных параметров, обеспечивая при этом превосходные результаты в различных задачах.
Instruct-MusicGen улучшает исходную модель MusicGen, включая два новых модуля: модуль объединения аудио и модуль объединения текста. Модуль объединения аудио позволяет модели принимать и обрабатывать внешние аудиовходы, обеспечивая точное редактирование аудио. Это достигается путем дублирования модулей самовнимания и включения перекрестного внимания между исходной музыкой и условным аудио. Модуль объединения текста изменяет поведение текстового кодера для обработки текстовых входов, позволяя модели эффективно следовать текстовым командам редактирования. Объединенные модули позволяют Instruct-MusicGen добавлять, отделять и удалять стемы из аудио на основе текстовых инструкций.
Модель была обучена с использованием синтезированного набора данных, созданного на основе набора данных Slakh2100, который включает высококачественные аудиодорожки и соответствующие файлы MIDI. Процесс обучения был оптимизирован для требования всего 8% дополнительных параметров по сравнению с исходной моделью MusicGen и завершен за 5000 шагов, что значительно сократило использование ресурсов. Производительность Instruct-MusicGen была оценена на двух наборах данных: тестовом наборе Slakh и наборе данных MoisesDB вне области. Модель превзошла существующие базовые уровни в различных задачах, демонстрируя свою эффективность и эффективность в редактировании текста в музыку. Она достигла превосходного качества звука, соответствия текстовым описаниям и улучшения отношения сигнал/шум.
В заключение, Instruct-MusicGen решает ограничения существующих методов редактирования текста в музыку, используя предварительно обученные модели и предлагая эффективные методы обучения. Предложенный подход значительно сокращает требуемые вычислительные ресурсы и достигает высококачественных результатов в задачах редактирования музыки. Хотя он хорошо справляется с различными метриками, остаются некоторые ограничения, такие как использование синтетических обучающих данных и потенциальные неточности на уровне сигнала. Разработка Instruct-MusicGen является значимым шагом вперед в области создания музыки с помощью искусственного интеллекта, сочетая в себе эффективность и высокую производительность.
Проверьте статью. Вся заслуга за это исследование принадлежит исследователям этого проекта. Также не забудьте подписаться на наш Twitter. Присоединяйтесь к нашему каналу в Telegram, каналу в Discord и группе в LinkedIn.
Если вам нравится наша работа, вам понравится наш бюллетень.
Не забудьте присоединиться к нашему 44k+ ML SubReddit
Пост Instruct-MusicGen: новый подход искусственного интеллекта к редактированию текста в музыку, способствующий совместному музыкальному и текстовому контролю впервые появился на MarkTechPost.
«`