
Ключевые особенности MovieGen
Генерация видео высокого разрешения
Одной из выдающихся особенностей MovieGen является способность генерировать видео продолжительностью 16 секунд с разрешением 1080p и частотой кадров 16 кадров в секунду, с синхронизированным аудио. Это достигается благодаря колоссальной модели с 30 миллиардами параметров, использующей передовые техники латентной диффузии. Модель отличается способностью создавать высококачественные, согласованные видео, идеально сочетающиеся с текстовыми подсказками, открывая новые горизонты в создании контента и повествовании.
Продвинутая синтезированная аудио
Помимо генерации видео, MovieGen представляет модель с 13 миллиардами параметров, специально разработанную для синтеза видео/текста в аудио. Эта модель генерирует 48 кГц кинематографическое аудио, синхронизированное с визуальным входом и способное обрабатывать медиа различной продолжительности до 30 секунд. Благодаря изучению визуально-аудио ассоциаций, модель может создавать как диегетические, так и недиегетические звуки и музыку, улучшая реализм и эмоциональное воздействие созданного контента.
Универсальная обработка аудио контекста
Возможности генерации аудио MovieGen дополняются тренировкой с маскированным прогнозированием аудио, что позволяет модели обрабатывать различные аудио контексты, включая генерацию, расширение и заполнение. Это означает, что одну и ту же модель можно использовать для множества аудио задач без необходимости в специализированных моделях, делая ее универсальным инструментом для создателей контента.
Эффективная тренировка и вывод
MovieGen использует цель сопоставления потока для эффективной тренировки и вывода, в сочетании с архитектурой Diffusion Transformer (DiT). Этот подход ускоряет процесс обучения и снижает вычислительные требования, обеспечивая более быструю генерацию медиа контента высокого качества.