Программа Instruct-MusicGen для создания музыки из текста: новый подход искусственного интеллекта

«`html

Инструкция Instruct-MusicGen: новый подход искусственного интеллекта к редактированию текста в музыку, способствующий совместному музыкальному и текстовому контролю

Исследователи из C4DM, Университета Королевы Марии в Лондоне, Sony AI и Music X Lab, MBZUAI, представили Instruct-MusicGen для решения проблемы редактирования текста в музыку, где текстовые запросы используются для изменения музыки, таких как изменение стиля или настройка инструментальных компонентов. Текущие методы требуют обучения специальных моделей с нуля, затратны на ресурсы и требуют подходов к восстановлению отредактированного аудио, что приводит к недостаточным результатам. Цель исследования — разработать более эффективный и эффективный метод, который использует предварительно обученные модели для выполнения качественного редактирования музыки на основе текстовых инструкций.

Практические решения и ценность

Текущие методы редактирования текста в музыку включают обучение специализированных моделей с нуля, что неэффективно и требует больших ресурсов, а также использование больших языковых моделей для интерпретации и редактирования музыки, что часто приводит к неточному восстановлению аудио. Эти методы либо слишком дороги, либо не обеспечивают точных результатов. Для преодоления этих проблем исследователи предлагают Instruct-MusicGen — новый подход, который донастраивает предварительно обученную модель MusicGen для эффективного выполнения редактирования музыки. Этот подход включает модуль объединения текста и модуль объединения аудио в исходную архитектуру MusicGen, позволяя ей обрабатывать текстовые инструкции и аудиовходы параллельно. Instruct-MusicGen значительно сокращает необходимость обширного обучения и дополнительных параметров, обеспечивая при этом превосходные результаты в различных задачах.

Instruct-MusicGen улучшает исходную модель MusicGen, включая два новых модуля: модуль объединения аудио и модуль объединения текста. Модуль объединения аудио позволяет модели принимать и обрабатывать внешние аудиовходы, обеспечивая точное редактирование аудио. Это достигается путем дублирования модулей самовнимания и включения перекрестного внимания между исходной музыкой и условным аудио. Модуль объединения текста изменяет поведение текстового кодера для обработки текстовых входов, позволяя модели эффективно следовать текстовым командам редактирования. Объединенные модули позволяют Instruct-MusicGen добавлять, отделять и удалять стемы из аудио на основе текстовых инструкций.

Модель была обучена с использованием синтезированного набора данных, созданного на основе набора данных Slakh2100, который включает высококачественные аудиодорожки и соответствующие файлы MIDI. Процесс обучения был оптимизирован для требования всего 8% дополнительных параметров по сравнению с исходной моделью MusicGen и завершен за 5000 шагов, что значительно сократило использование ресурсов. Производительность Instruct-MusicGen была оценена на двух наборах данных: тестовом наборе Slakh и наборе данных MoisesDB вне области. Модель превзошла существующие базовые уровни в различных задачах, демонстрируя свою эффективность и эффективность в редактировании текста в музыку. Она достигла превосходного качества звука, соответствия текстовым описаниям и улучшения отношения сигнал/шум.

В заключение, Instruct-MusicGen решает ограничения существующих методов редактирования текста в музыку, используя предварительно обученные модели и предлагая эффективные методы обучения. Предложенный подход значительно сокращает требуемые вычислительные ресурсы и достигает высококачественных результатов в задачах редактирования музыки. Хотя он хорошо справляется с различными метриками, остаются некоторые ограничения, такие как использование синтетических обучающих данных и потенциальные неточности на уровне сигнала. Разработка Instruct-MusicGen является значимым шагом вперед в области создания музыки с помощью искусственного интеллекта, сочетая в себе эффективность и высокую производительность.

Проверьте статью. Вся заслуга за это исследование принадлежит исследователям этого проекта. Также не забудьте подписаться на наш Twitter. Присоединяйтесь к нашему каналу в Telegram, каналу в Discord и группе в LinkedIn.

Если вам нравится наша работа, вам понравится наш бюллетень.

Не забудьте присоединиться к нашему 44k+ ML SubReddit

Пост Instruct-MusicGen: новый подход искусственного интеллекта к редактированию текста в музыку, способствующий совместному музыкальному и текстовому контролю впервые появился на MarkTechPost.

«`

saile.ru • ИИ в продажах

Программа Instruct-MusicGen для создания музыки из текста: новый подход искусственного интеллекта

Инструкция Instruct-MusicGen: новый подход искусственного интеллекта к редактированию текста в музыку, способствующий совместному музыкальному и текстовому контролю

Практические решения и ценность

Бесплатный ИИ: для автоматизации продаж

Как составить отчет по воронке продаж с комментариями: ИИ визуализирует этапы и предложит интерпретации

Как выстроить мотивацию маркетинга за продажи: ИИ предложит модель KPI и бонусов

Как собрать инсайты из отзывов клиентов: ИИ выделит паттерны и ключевые фразы

Как определить маржинальность по менеджерам и сегментам: ИИ выделит прибыльных клиентов и зоны просадки

Как продавать через сторителлинг: ИИ предложит 3 истории для продукта

Как вести себя при потоке клиентов: ИИ составит алгоритм из 4 шагов на перегруженной точке

Как оценить эффективность менеджера по продажам: ИИ предложит KPI и матрицу оценки по ролям

Как построить индивидуальную стратегию развития ключевого клиента на 12 месяцев: ИИ разложит по этапам CJM и точкам роста

Как измерить эффективность акций и скидок: ИИ определит прирост, каннибализацию и ROI

Как объяснить сложный технический продукт клиенту за 3 минуты: ИИ предложит структуру демо-презентации с понятными примерами

Как составить отчет по продажам без Excel: ИИ создаст шаблон под презентацию руководству

Как повысить отклик в WhatsApp/Telegram: ИИ предложит 3 шаблона сообщений для лида

Умные продажи

Инструмент для сбора данных с веб-сайтов и преобразования их в Markdown или структурированные данные.

Как настроить GPT-3.5 для эффективных писем с предложениями

Luma выпустила Dream Machine: создание видео с помощью ИИ, превращающее текст и изображения в высококачественные, реалистичные и фантастические сцены.

Простая и эффективная настройка моделей Mistral для экономии памяти и повышения производительности

Набор данных с 425 тыс. естественных запросов на 17 языках с разной степенью токсичности

Ученые из Университета Брауна представляют Symplectic Graph Neural Networks (SympGNNs) для революции в моделировании высокоразмерных гамильтоновых систем

Как продавать цифровые продукты: все, что нужно знать [+ 8 лучших цифровых продуктов для продажи]

11 бесплатных программ для учета и бухгалтерии в 2022 году

Политика конфиденциальности

FAQ

Доступность

Страница главного редактора

Подписка

Редакционная политика