
«`html
Исследование UC Berkeley: Learnable Latent Codes as Bridges (LCB)
Робототехника исследовала две основные архитектурные парадигмы: модульные иерархические политики и политики от начала до конца. Модульные иерархии используют жесткие слои, такие как символьное планирование, генерация траекторий и отслеживание, в то время как политики от начала до конца используют высокоемкие нейронные сети для отображения сенсорного ввода непосредственно на действия. Появление больших языковых моделей (LLM) возродило интерес к иерархическим архитектурам управления, с недавними исследованиями, использующими LLM для замены символьных планировщиков, достигая значительных успехов, таких как перестановка подвижных объектов на основе инструкций с открытым словарем. Однако иерархические архитектуры все еще сталкиваются с проблемами в определении управляющих примитивов и установлении интерфейсов между слоями, особенно в координации разнообразных человекоподобных движений за пределами семантических глаголов действия.
Применение LLM в робототехнике
Появление LLM вызвало интерес к их применению в робототехнике, особенно в иерархических архитектурах управления. Предыдущие исследования продемонстрировали использование LLM для высокоуровневого рассуждения через различные подходы, такие как небольшие наборы подсказок, кодирование функций и взаимодействие с людьми через язык. Интеграция LLM в планирование задач и рассуждение требует вызова низкоуровневых навыков, достижимых через языком-условные политики. Также наблюдается растущий тренд в переориентации больших моделей, изначально обученных для задач зрения или языка, для робототехнических приложений.
Архитектура Latent Codes as Bridges (LCB)
Исследователи из Университета Калифорнии, Беркли, представили архитектуру Latent Codes as Bridges (LCB), которая объединяет преимущества модульных иерархических архитектур с обучением от начала до конца. Она позволяет непосредственное использование LLM для высокоуровневого рассуждения наряду с предварительно обученными навыками для низкоуровневого управления, улучшая их через обучение от начала до конца. Путем включения токена
Преимущества архитектуры LCB
Предложенная архитектура LCB интегрирует преимущества модульных иерархических архитектур и обучения от начала до конца. Она использует дополнительный скрытый код для соединения высокоуровневого рассуждения с низкоуровневой языковой политикой, сохраняя как абстрактные цели, так и пространство вложения языка. Этот подход решает ограничения существующих методов, предлагая улучшенную гибкость и сохранение понимания языка во время тонкой настройки. Архитектура включает предварительно обученную мультимодальную LLM и предварительно обученную политику, облегчая мультимодальное понимание и выходные действия на основе наблюдений окружающей среды и скрытых условий. Обработка данных включает генерацию разговорного взаимодействия для обучения модели на языково-управляемое выполнение действий.
Результаты и применение
Эксперименты на бенчмарках Language Table и CALVIN показывают превосходство LCB над базовыми вариантами, включая те, которые используют GPT-4V, в задачах, требующих рассуждения и многошаговых поведенческих моделей. Интеграция модели языка и зрения в LCB улучшает производительность задач путем эффективного извлечения признаков.
Выводы
Данная работа представляет LCB, надежный метод объединения рассуждения больших языковых моделей с низкоуровневыми действиями.
В отличие от предыдущих подходов, LCB интегрирует эти возможности плавно через изученный скрытый интерфейс.
Оценка на бенчмарках Language Table и CALVIN демонстрирует профессионализм LCB в интерпретации и выполнении разнообразных рассуждений и долгосрочных задач.
Иерархическая гибкость, обеспечиваемая LCB, имеет потенциал для практического применения в робототехнике.
Подробнее ознакомьтесь с исследованием и проектом. Вся заслуга за это исследование принадлежит исследователям этого проекта. Также не забудьте подписаться на наш Twitter. Присоединяйтесь к нашему каналу в Telegram, Discord и группе в LinkedIn.
Если вам нравится наша работа, вам понравится наша рассылка.
Не забудьте присоединиться к нашему SubReddit с более чем 42 тысячами подписчиков.
Статья UC Berkeley Researchers Introduce Learnable Latent Codes as Bridges (LCB): A Novel AI Approach that Combines the Abstract Reasoning Capabilities of Large Language Models with Low-Level Action Policies доступна на сайте MarkTechPost.
Применение искусственного интеллекта в продажах и маркетинге
Если вы хотите, чтобы ваша компания развивалась с помощью искусственного интеллекта (ИИ) и оставалась в числе лидеров, грамотно используйте UC Berkeley Researchers Introduce Learnable Latent Codes as Bridges (LCB): A Novel AI Approach that Combines the Abstract Reasoning Capabilities of Large Language Models with Low-Level Action Policies.
Проанализируйте, как ИИ может изменить вашу работу. Определите, где возможно применение автоматизации: найдите моменты, когда ваши клиенты могут извлечь выгоду из AI.
Определитесь какие ключевые показатели эффективности (KPI): вы хотите улучшить с помощью ИИ.
Подберите подходящее решение, сейчас очень много вариантов ИИ. Внедряйте ИИ решения постепенно: начните с малого проекта, анализируйте результаты и KPI.
На полученных данных и опыте расширяйте автоматизацию.
Если вам нужны советы по внедрению ИИ, пишите нам на Telegram. Следите за новостями о ИИ в нашем Телеграм-канале itinainews или в Twitter @itinairu45358.
Попробуйте AI Sales Bot itinai.ru/aisales. Этот AI ассистент в продажах, помогает отвечать на вопросы клиентов, генерировать контент для отдела продаж, снижать нагрузку на первую линию.
Узнайте, как ИИ может изменить ваши процессы с решениями от AI Lab itinai.ru будущее уже здесь!