
«`html
Моделирование видео с длинным контекстом — это продвинутое направление, позволяющее моделям обрабатывать фильмы, документальные программы и живые трансляции, продолжающиеся несколько часов. Однако, несмотря на успехи в понимании видео, остаются сложности с обработкой очень длинных видеороликов. Одной из ключевых проблем является понимание контекста длинных видео.
Исследователи из Шэньчжэньского института передовых технологий разработали метод иерархической компрессии видео-токенов (HiCo), который оптимизирует процесс обработки длинных видеороликов. Метод снижает визуальные избыточности, сжимаяExtended контексты с уровня клипов до уровня видео и минимизируя вычисления без потери критически важных данных.
Дополнительно, система VideoChat-Flash включает в себя многоступенчатую схему обучения, основанную на реальных длинных видеоданных. Она эффективно обучает модели пониманию длинных видео, применяя высокую степень параллелизма при обучении.
HiCo и VideoChat-Flash предлагают:
Система показала значительное снижение вычислительных затрат до двух порядков в экспериментах. VideoChat-Flash оказалась эффективной как для коротких, так и для длинных видео с высокими точностями. Они смогли достичь нового состояния на графиках точности понимания видео.
Исследователи внедрили метод иерархической компрессии HiCo и систему VideoChat-Flash, что позволяет значительно уменьшить вычислительные затраты на обработку длинных видео, а также достичь высоких показателей точности.
Если вы хотите, чтобы ваша компания развивалась с помощью искусственного интеллекта (ИИ) и оставалась в числе лидеров, вот несколько советов:
На основе полученных данных расширяйте автоматизацию. Если вам нужны советы по внедрению ИИ, пишите нам в Телеграм.
Изучайте, как ИИ может изменить процесс продаж в вашей компании с решениями, которые мы предлагаем! Будущее уже здесь!
«`
Оставьте заявку — мы свяжемся с вами и расскажем, как начать работу