
«`html
Модели VLA обучаются путем объединения больших языковых моделей с визуальными кодировщиками и их дообучения на различных наборах данных роботов. Это позволяет моделям обобщать новые инструкции и объекты. Однако большинство реальных наборов данных требуют человеческого контроля, что затрудняет масштабирование.
Данные из интернет-видео предлагают множество примеров человеческого поведения и взаимодействий, что помогает преодолеть ограничения небольших специализированных наборов данных. Однако обучение на интернет-видео сложно из-за отсутствия четких меток действий и различий в средах, где работают роботы.
Модели VLM, обученные на больших наборах данных, показывают способность понимать и генерировать текст и мультимодальные данные. Включение дополнительных целей, таких как визуальные следы и языковые пути, улучшает производительность. Однако эти методы по-прежнему сильно зависят от размеченных данных, что ограничивает масштабируемость.
Исследователи предложили метод LAPA, который использует видео без меток действий робота. Этот метод включает в себя:
Метод LAPA значительно превосходит существующие технологии, обучающие политики манипуляции роботов. Он показывает лучшие результаты на реальных задачах манипуляции и более эффективен в предварительном обучении.
LAPA — это масштабируемый метод предварительного обучения для создания VLA, который значительно улучшает перенос к downstream задачам. Он также демонстрирует возможность применения к видео манипуляции людьми, где отсутствует явная информация о действиях.
Если вы хотите развивать свою компанию с помощью ИИ, используйте метод LAPA:
Если вам нужны советы по внедрению ИИ, пишите нам в Телеграм.
Попробуйте AI Sales Bot — это AI ассистент для продаж, который помогает отвечать на вопросы клиентов и генерировать контент для отдела продаж.
«`
Оставьте заявку — мы свяжемся с вами и расскажем, как начать работу