
«`html
Модели VLMs сталкиваются с важной проблемой: как лучше обобщать информацию за пределами обучающих данных, сохраняя при этом эффективность затрат и вычислительных ресурсов.
Подходы, такие как супервизируемая дообучение с цепочкой мыслей (CoT-SFT), часто приводят к переобучению, из-за чего модели хорошо работают на уже известной информации, но с трудом справляются с новыми задачами. Это ограничивает их использование в таких областях, как автономные системы, медицинская визуализация и визуальное мышление.
Для решения этих проблем Deep Agent представил R1-V. Этот новый подход на основе обучения с подкреплением позволяет моделям VLMs лучше обобщать информацию и быть более экономичными. R1-V показывает, как обучение с подкреплением с проверяемыми наградами (RLVR) может превзойти традиционные методы в плане эффективности и устойчивости, особенно на данных, которые не были в обучении.
Основная цель R1-V – улучшить обобщающие способности моделей VLMs. Он использует методы обучения с подкреплением, которые помогают модели развивать общие навыки, а не просто запоминать примеры из обучения. В частности, внимание уделяется развитию навыков визуального счета, что очень важно в таких приложениях, как распознавание изображений и автономные системы.
Разработка R1-V поддерживает открытие в области ИИ, предоставляя доступ к коду, весам моделей и наборам данных. Это дает возможность исследовательскому сообществу улучшать модели VLMs. Подход обучения с подкреплением обеспечивает быстрое усвоение структур в данных.
Если вы хотите, чтобы ваша компания развивалась с помощью ИИ, вот несколько шагов:
Если вам нужны советы по внедрению ИИ, пишите нам. Следите за новостями об ИИ в нашем Telegram-канале.
Попробуйте AI Sales Bot — это ИИ-ассистент для продаж, который помогает отвечать на вопросы клиентов и генерировать контент для отдела продаж. Узнайте, как ИИ может изменить процесс продаж в вашей компании! Будущее уже здесь!
«`
Оставьте заявку — мы свяжемся с вами и расскажем, как начать работу