Itinai.com it company office background blured photography by 9691e87f f228 4a59 b0d8 fbfbf8ecaad9 3
Itinai.com it company office background blured photography by 9691e87f f228 4a59 b0d8 fbfbf8ecaad9 3

Фреймворк для подписи видео на основе экспертов, превосходящий GPT-4V и Gemini-Pro-1.5 в различных видеосценах, автономном вождении и робототехнике

 Wolf: A Mixture-of-Experts Video Captioning Framework that Outperforms GPT-4V and Gemini-Pro-1.5 in General Scenes, Autonomous Driving, and Robotics Videos

«`html

Видео подписывание: сложности и решения

Подписывание видео становится все более важным для понимания контента, поиска и обучения моделей для задач, связанных с видео. Однако генерация точных, детальных и описательных подписей к видео представляет собой сложную задачу в областях компьютерного зрения и обработки естественного языка. Ряд ключевых препятствий мешает прогрессу в этой области.

Препятствия и решения

Одним из примеров является недостаток качественных данных, так как данные из интернета неточны, а большие наборы данных очень дороги. Кроме того, подписывание видео в своей сути более сложно, чем подписывание изображений из-за временных корреляций и движения камеры. Отсутствие установленных стандартов и критическая необходимость в правильности в приложениях, связанных с безопасностью, делают этот вызов более сложным в этой области.

Недавние достижения и решения

Недавние достижения в области моделей визуального языка улучшили подписывание изображений, однако эти модели сталкиваются с проблемами при подписывании видео из-за временных сложностей. Для решения этой проблемы были разработаны видео-специфические модели, такие как PLLaVa, Video-llava и Video-LLama. Их техники включают параметр-бесплатное пулинг, совместное обучение изображений и видео и обработку аудиовхода. Исследователи также изучили использование больших языковых моделей (LLM) для задач суммаризации, как это показали LLaDA и метод повторного подписывания OpenAI. Несмотря на эти достижения, в этой области требуется установленный стандарт и критическая необходимость в точности в приложениях, связанных с безопасностью.

Предложенные решения и результаты

Исследователи из NVIDIA, UC Berkeley, MIT, UT Austin, University of Toronto и Stanford University предложили Wolf — WOrLd Framework для точного подписывания видео. Wolf использует подход смеси экспертов, используя как модели визуального языка для изображений, так и видео, чтобы захватить разные уровни информации и эффективно суммировать. Фреймворк разработан для улучшения понимания видео, авто-маркировки и подписывания. Исследователи представили CapScore, метрику на основе LLM, которая оценивает сходство и качество созданных подписей по сравнению с истиной. Wolf превосходит текущие передовые методы и коммерческие решения, значительно увеличивая CapScore в сложных видео с вождением.

Заключение

В заключение, исследователи представили Wolf — WOrLd Framework для точного подписывания видео. Wolf представляет собой значительное достижение в автоматическом подписывании видео, объединяя модели подписывания и техники суммаризации для создания детальных и корректных описаний. Этот подход позволяет полноценно понимать видео с различных точек зрения, особенно в сложных сценариях, таких как видео с множественными видами вождения. Исследователи создали лидерборд для поощрения конкуренции и инноваций в технологии подписывания видео.

Проверьте статью и проект. Вся заслуга за это исследование принадлежит исследователям этого проекта. Также не забудьте подписаться на наш Твиттер и присоединиться к нашему Телеграм-каналу и группе в LinkedIn. Если вам нравится наша работа, вам понравится наша рассылка.

Не забудьте присоединиться к нашему сообществу AI на Reddit.

Найдите предстоящие вебинары по ИИ здесь.

Arcee AI выпустила DistillKit: открытый инструмент для моделирования моделей, преобразующий модель дистилляции для создания эффективных малых языковых моделей.

Статья Wolf: A Mixture-of-Experts Video Captioning Framework that Outperforms GPT-4V and Gemini-Pro-1.5 in General Scenes, Autonomous Driving, and Robotics Videos была опубликована на MarkTechPost.


«`

Бесплатный ИИ: для автоматизации продаж

Умные продажи