
«`html
Google DeepMind Introduces Video-to-Audio V2A Technology: Synchronizing Audiovisual Generation
Звук неотъемлем для обогащения человеческих впечатлений, улучшения коммуникации и добавления эмоциональной глубины в медиа. Однако внедрение звука в модели генерации видео с использованием искусственного интеллекта с такой же тонкостью и нюансировкой, как у контента, созданного человеком, остается сложной задачей. Создание музыкального сопровождения для этих бесзвучных видео является значительным шагом в развитии сгенерированных фильмов.
Технология Video-to-Audio (V2A) от Google DeepMind
Технология V2A позволяет создавать синхронизированный аудиовизуальный контент. С использованием комбинации видеопикселей и текстовых инструкций на естественном языке V2A создает погружающий звук для действий на экране. После проведения экспериментов с авторегрессивными и диффузионными методами для поиска наилучшей масштабируемой архитектуры ИИ, результаты показали, что использование диффузионного метода для генерации аудио было наиболее убедительным и реалистичным в отношении синхронизации аудио и визуального контента.
Применение технологии V2A
Первый этап технологии video-to-audio — сжатие входного видео. Аудио многократно очищается от фонового шума с использованием модели диффузии. Визуальные данные и естественноязыковые подсказки используются для управления этим процессом, что позволяет генерировать реалистичное синхронизированное аудио, тесно соответствующее инструкциям. Декодирование, генерация волн и объединение аудио- и визуальных данных составляют заключительный этап процесса вывода аудио.
Прежде чем итеративно подавать видео и аудиовводные данные через модель диффузии, V2A их кодирует. Следующим шагом является создание сжатого аудио, раскодированного в виде волны. Исследователи дополнили процесс обучения дополнительной информацией, такой как транскрипции речи и AI-сгенерированные аннотации с подробным описанием звука, чтобы улучшить способность модели производить высококачественное аудио и обучить ее создавать конкретные звуки.
Представленная технология учится реагировать на информацию в транскрипциях или аннотациях, ассоциируя различные звуковые события с различными визуальными сценами путем обучения на видео, аудио и добавленных аннотациях. Для создания съемок с драматическим саундтреком, реалистичными звуковыми эффектами или диалогами, дополняющими персонажей и настроение видео, технологию V2A можно сочетать с моделями генерации видео, такими как Veo.
Благодаря возможности создавать саундтреки для широкого спектра классических видео, таких как немые фильмы и архивные материалы, технология V2A открывает мир творческих возможностей. Самое захватывающее в этом — то, что она может генерировать столько саундтреков, сколько захочет пользователь для любого видео. Пользователи могут определить «позитивную подсказку», чтобы направить вывод в желаемом направлении, или «негативную подсказку», чтобы избежать нежелательных звуков. Эта гибкость дает пользователям беспрецедентный контроль над аудиовыводом V2A, поощряя дух экспериментов и позволяя им быстро найти идеальное сочетание для своего творческого видения.
Непрерывное развитие технологии
Команда активно работает над решением ряда проблем, таких как снижение качества аудиовывода из-за дефектов или артефактов в видео, находящихся за пределами обучающего распределения модели. Они также работают над улучшением синхронизации губ для видео с озвучкой. Анализируя входные транскрипции, V2A стремится создавать речь, идеально синхронизированную с движениями губ персонажей. Команда также осознает несоответствие, которое может возникнуть, когда видеомодель не соответствует транскрипции, что приводит к странному липсинкингу. Они активно работают над устранением этих проблем, демонстрируя свое стремление поддерживать высокие стандарты и непрерывно улучшать технологию.
Команда активно ищет отзывы от известных создателей и режиссеров, признавая их ценные идеи и вклад в развитие технологии V2A. Такой коллаборативный подход гарантирует, что технология V2A может положительно влиять на творческое сообщество, удовлетворяя его потребности и улучшая его работу. Для защиты ИИ-сгенерированного контента от злоупотреблений, они интегрировали инструментарий SynthID в исследование V2A и пометили его всё, демонстрируя свое стремление к этичному использованию технологии.
Источник: MarkTechPost
Применение ИИ в вашем бизнесе
Если вы хотите, чтобы ваша компания развивалась с помощью искусственного интеллекта (ИИ) и оставалась в числе лидеров, грамотно используйте технологии, подобные Video-to-Audio V2A, для обогащения ваших процессов и продуктов.
Практические шаги
Проанализируйте, как ИИ может изменить вашу работу и где можно применить автоматизацию. Определите ключевые показатели эффективности (KPI), которые вы хотите улучшить с помощью ИИ. Подберите подходящее решение, внедряйте его постепенно, начиная с малого проекта, и анализируйте результаты и KPI. На основе полученных данных и опыта расширяйте автоматизацию.
Если вам нужны советы по внедрению ИИ, пишите нам на Telegram. Следите за новостями о ИИ в нашем Телеграм-канале или в Twitter.
Попробуйте AI Sales Bot. Этот AI-ассистент в продажах поможет отвечать на вопросы клиентов, генерировать контент для отдела продаж и снижать нагрузку на первую линию.
Узнайте, как ИИ может изменить ваши процессы с решениями от AI Lab. Будущее уже здесь!
«`