
«`html
Технологические достижения в области сенсоров, искусственного интеллекта и вычислительной мощности за последние десятилетия подняли навигацию роботов на новый уровень.
Мультимодальная навигация с использованием долгосрочных моделей зрения и топологических графов
Для того чтобы роботы стали обычной частью нашей жизни, необходимо перенести естественное пространство языка ObjNav и VLN в мультимодальное пространство, чтобы робот мог одновременно выполнять команды как в текстовом, так и визуальном формате. Это новый тип морской деятельности, который исследователи называют Мультимодальной Инструкционной Навигацией (MIN).
MIN включает в себя широкий спектр действий, включая изучение окружающей среды и выполнение инструкций для навигации. Однако использование демонстрационного тура позволяет избежать необходимости исследования окружающей среды.
Исследование Google DeepMind представляет и исследует класс задач, называемый Мультимодальной Инструкционной Навигацией с Турами (MINT). MINT использует демонстрационные туры и занимается выполнением мультимодальных пользовательских инструкций.
Для решения MINT команда предлагает Mobility VLA, иерархическую навигационную политику Vision-Language-Action (VLA), которая интегрирует знание окружающей среды и способность интуитивного мышления из долгосрочных VLM с низкоуровневой навигационной политикой, построенной на топологических сетях.
Тестирование Mobility VLA в реалистичной офисной среде и жилой зоне показало многообещающие результаты. На сложных задачах MINT Mobility VLA достигла уровня успешности 86% и 90% соответственно, что значительно превышает базовые техники.
Возможность широкого применения Mobility VLA вызывает оптимизм и является шагом вперед в области робототехники и искусственного интеллекта.
Подробнее ознакомиться с исследованием можно по ссылке на оригинальную статью.
Вся заслуга за это исследование принадлежит исследователям этого проекта.
Присоединяйтесь к нашему Telegram каналу и группе в LinkedIn.
Если вам нравится наша работа, вам понравится и наша рассылка.
Не забудьте присоединиться к нашему сообществу в Reddit.