
«`html
High-fidelity waveform generation в приложениях текст в речь (TTS) и аудиогенерации
Генерация высококачественных волновых форм, особенно в приложениях текст в речь (TTS) и аудиогенерации, включает в себя несколько критических вызовов. Точная генерация естественно звучащего аудио остается основной проблемой, необходимой для практического применения. Захват естественной периодичности высокоразрешающих волновых форм и производство высококачественного выхода без артефактов, таких как металлические звуки или шум, затруднителен. Кроме того, медленная скорость вывода ограничивает практичность многих высококачественных генеративных моделей. Преодоление этих вызовов важно для развития возможностей ИИ в области преобразования голоса, TTS и общей синтезации аудио.
Существующие подходы к генерации волновых форм
Текущие подходы к генерации волновых форм в основном используют модели на основе GAN, такие как MelGAN, HiFi-GAN и BigVGAN. Однако они сталкиваются с существенными ограничениями, включая необходимость в обширной настройке гиперпараметров, сложные функции потерь и восприимчивость к несоответствиям между обучением и выводом, что может приводить к нежелательным артефактам в сгенерированном аудио. Модели диффузии, такие как Multi-Band Diffusion (MBD), пытаются решить проблемы качества, но сталкиваются с медленной скоростью генерации и трудностями в точном захвате высокочастотной информации, что ограничивает их практическое применение в реальном времени или в контексте высокой отдачи.
ПериодWave: новый метод генерации волновых форм
Команда исследователей из Университета Аджу, Университета Кореи и KT Corp. предлагает ПериодWave, новый метод генерации волновых форм, который включает соответствие потоков, учитывающее периоды. Этот подход захватывает периодические особенности сигналов волновых форм путем включения нескольких периодов в процесс оценки, отражая тем самым естественную периодичность высокоразрешающих волновых форм. Основной инновацией является использование соответствия потоков для оценки векторных полей на основе оптимальных транспортных путей, обеспечивая быструю и точную генерацию волновых форм. Метод также вводит периодический универсальный оценщик, что позволяет параллельный вывод по различным периодам, существенно повышая вычислительную эффективность. Кроме того, ПериодWave использует дискретное вейвлет-преобразование (DWT) для разделения частот, улучшая способность модели генерировать точные высокочастотные компоненты. Эта комбинация техник представляет собой значительный прогресс, предлагая более эффективное и масштабируемое решение для генерации волновых форм высокой отдачи.
Превосходство ПериодWave
ПериодWave демонстрирует превосходство над существующими моделями как по объективным, так и по субъективным метрикам. На наборе данных LJSpeech он достигает значительного улучшения производительности по различным метрикам, включая M-STFT, PESQ, периодичность и точность высоты тона, превосходя передовые модели, такие как BigVGAN и HiFi-GAN, с значительно меньшим количеством обучающих шагов. Например, PeriodWave+FreeU достигает оценки PESQ 4.293 и расстояния ошибки тона 15.753, превосходя оценку PESQ BigVGAN в 4.210 и расстояние ошибки тона 19.019. Возможность генерации высококачественных волновых форм за сокращенное время обучения (всего три дня) подчеркивает его эффективность. Кроме того, он проявляет устойчивость в сценариях вне распределения, успешно проявляя себя на наборе данных MUSDB18-HQ, включающем различные типы аудио помимо речи, демонстрируя тем самым универсальность и устойчивость в реальных приложениях.
Заключение
ПериодWave представляет собой прорывный шаг в генерации волновых форм, предлагая новый метод соответствия периодов, который эффективно захватывает естественную периодичность сигналов высокого разрешения. Метод решает ограничения существующих моделей, использующих GAN и диффузию, вводя инновации, такие как мультипериодную оценку, DWT для разделения частот и FreeU для уменьшения шума. Результаты показывают, что ПериодWave не только улучшает качество сгенерированных волновых форм, но и значительно сокращает время обучения, делая его эффективным и практичным решением для применения в TTS, аудиогенерации и за ее пределами. ПериодWave представляет собой значительный шаг в синтезе аудио, предоставляя надежный и масштабируемый инструмент, способный потенциально заменить традиционные нейронные вокодеры в различных приложениях.
«`