Itinai.com beautiful russian high fashion sales representativ e8ce0e05 a01f 4fa9 91b3 ff171711e669 1
Itinai.com beautiful russian high fashion sales representativ e8ce0e05 a01f 4fa9 91b3 ff171711e669 1

Новая модель текст в речь MARS5: удивительная интонация

 Camb AI Releases MARS5 TTS: A Novel Open Source Text to Speech Model for Insane Prosody

«`html

MARS5 TTS: Инновационная модель текст в речь с отличным управлением просодией

MARS5 TTS, революционная система в области открытых текст в речь систем, была выпущена командой Camb AI. Эта инновационная модель предлагает исключительное управление просодией и возможности клонирования голоса, требуя менее 5 секунд аудиовхода. Система использует двухэтапную архитектуру, состоящую из 750M авторегрессионной (AR) модели и 450M нон-авторегрессионной (NAR) модели. MARS5 использует BPE токенизатор, обеспечивающий точное управление над пунктуацией, паузами и остановками, тем самым продвигая область синтеза речи.

Уникальная архитектура модели

Архитектура модели MARS5 следует уникальному двухэтапному AR-NAR конвейеру. На первом этапе авторегрессионная трансформерная модель генерирует грубые (L0) закодированные речевые особенности из входного текста и ссылочной аудиозаписи. Впоследствии эти особенности вместе с текстом и ссылкой улучшаются с использованием мультиномиальной вероятностной модели денойзинга (DDPM) для создания оставшихся значений кодовой книги. Наконец, вокодер преобразует выход DDPM в окончательный аудиофайл.

Преимущества модели MARS5

Компонент AR MARS5 предсказывает грубые токены L0, которые затем дополнительно улучшаются моделью NAR DDPM. Этот улучшенный выход обрабатывается вокодером для создания окончательного аудио. Обучение модели на сыром аудио в сочетании с текстом, закодированным парами байтов, позволяет тонко управлять просодией через пунктуацию и капитализацию. Например, добавление запятых вносит паузы, а слова с заглавной буквы подчеркиваются, предоставляя естественный метод управления просодией генерируемого вывода.

Сравнение с другими моделями

В сравнении с другими ведущими языковыми моделями, такими как GPT и Gemini, MARS5 отличается своим специализированным фокусом на синтезе текста в речь и уникальной архитектурой AR-NAR. В то время как GPT и Gemini в основном разработаны для генерации и понимания текста, MARS5 оптимизирована для создания высококачественного управляемого речевого вывода. Использование DDPM на этапе NAR и включение управления просодией через форматирование текста выделяет ее в области синтеза речи.

Практические применения и преимущества

MARS5 демонстрирует впечатляющие результаты в клонировании голоса и управлении просодией. Система поддерживает два режима вывода: быстрое «поверхностное клонирование», которое не требует транскрипции исходной аудиозаписи, и медленное, но более качественное «глубокое клонирование», использующее транскрипцию промпта. С помощью всего 5 секунд аудио и текстового отрывка MARS5 может генерировать речь для различных и сложных сценариев, включая комментарии к спортивным событиям и озвучку аниме, демонстрируя свою универсальность и эффективность.

Применение и инструкции по использованию

Для использования MARS5 предоставляется исходный аудиофайл продолжительностью от 2 до 12 секунд, с 6-секундными образцами, обеспечивающими оптимальные результаты. Система принимает вход текста с пунктуацией и капитализацией для управления просодией. Пользователи могут выполнить «глубокое клонирование» для улучшения качества, предоставив транскрипцию исходной аудиозаписи, хотя этот процесс занимает больше времени. Способность MARS5 обрабатывать сложные просодические сценарии делает ее подходящей для различных приложений в области развлечений, образования и доступности.

Заключение

MARS5 TTS представляет собой значительный прогресс в области открытых текст в речь технологий. Ее инновационная архитектура, объединяющая AR и NAR модели с DDPM, обеспечивает беспрецедентный контроль над синтезом речи. Способность системы клонировать голоса с минимальным входом и генерировать высококачественную, просодически насыщенную речь позиционирует ее как ценный инструмент для разработчиков и исследователей в области искусственного интеллекта и речевой технологии.

Посетите GitHub для получения модели. Вся заслуга за этот проект принадлежит его исследователям. Также не забудьте подписаться на наш Twitter.

Присоединяйтесь к нашему каналу в Telegram и группе в LinkedIn.

Если вам нравится наша работа, вам понравится наш новостной бюллетень.

Не забудьте присоединиться к нашему SubReddit с более чем 45 тысячами подписчиков.

Оригинальная статья доступна на MarkTechPost.


«`

Бесплатный ИИ: для автоматизации продаж