
«`html
Новый стандарт измерения производительности и надежности искусственного интеллекта в реальных условиях с динамичным взаимодействием с пользователем и инструментами
Текущие стандарты для языковых агентов не учитывают их способность эффективно взаимодействовать с людьми и следовать сложным, специфическим для области правилам — необходимым для практического применения. Для приложений в реальном мире необходимо, чтобы агенты безупречно взаимодействовали с пользователями и API в течение продолжительных разговоров, следили за подробными политиками и обеспечивали постоянную и надежную производительность. Например, агент по бронированию авиабилетов должен общаться с пользователями для изменения бронирования, соблюдать политику авиакомпании и точно навигировать в системах бронирования. Однако существующие стандарты в основном сосредотачиваются на упрощенных автономных задачах без человеческого взаимодействия или соблюдения правил, что ограничивает их релевантность для реальных сценариев.
Новый подход к оценке надежности и производительности языковых агентов
Исследователи из Sierra представили τ-bench, новый стандарт, разработанный для имитации динамических разговоров между языковым агентом и симулированным человеческим пользователем с включением API и руководящих принципов, специфичных для области. Этот стандарт оценивает способность агента взаимодействовать последовательно и надежно, сравнивая конечное состояние базы данных после разговора с ожидаемым целевым состоянием. Исследования в области обслуживания клиентов, таких как розничная торговля и авиакомпании, показывают, что передовые агенты, такие как GPT-4, успешны менее чем в 50% задач и проявляют несогласованное поведение в течение испытаний. τ-bench направлен на развитие более надежных агентов, способных выполнять сложное рассуждение и последовательное следование правилам в реальном мире.
Комбинирование оценки разговорных навыков и возможностей использования инструментов
Большинство текущих стандартов для языковых агентов оценивают разговорные навыки или возможности использования инструментов отдельно. В отличие от этого, τ-bench объединяет оба аспекта в реалистичных условиях, оценивая взаимодействие агентов с пользователями и соблюдение специфических для области правил. Существующие стандарты, такие как лидерборд по вызову функций Беркли и ToolBench, сосредоточены на оценке вызовов функций из API, но включают в себя взаимодействия с одним шагом. Сравнение ориентированных на задачи диалоговых стандартов либо основано на статических наборах данных, либо на правилах симуляторов пользователя. τ-bench использует передовые языковые модели для имитации реалистичных долгих разговоров на различные темы, обеспечивая надежное тестирование согласованности агентов. В отличие от предыдущих работ, τ-bench акцентирует внимание на надежности агентов в динамичных многошаговых взаимодействиях, характерных для приложений в реальном мире.
Практическое применение и оценка производительности современных языковых моделей
Исследование сравнивало современные языковые модели для задаченаправленных агентов с использованием API OpenAI, Anthropic, Google, Mistral и AnyScale. Оценка сосредоточилась на методах вызова функций и показала, что GPT-4 показал лучшие результаты в целом, особенно в розничной торговле и авиационных сферах. Методы вызова функций превзошли подходы, основанные на тексте, такие как ReAct. Однако моделям требовалась помощь в выполнении сложных задач, таких как рассуждение о базе данных, соблюдение правил, специфичных для области, и обработка сложных запросов. Надежность GPT-4 уменьшалась при повторных испытаниях, что указывает на проблемы с согласованностью и надежностью. Анализ затрат выявил значительные расходы из-за обширных запросов, указывая на области для улучшения эффективности.
Заключение и приглашение к дальнейшему обсуждению
τ-bench — это стандарт, разработанный для оценки надежности языковых агентов в динамических взаимодействиях в реальном мире. Несмотря на использование передовых языковых моделей, результаты показывают значительные проблемы: агенты часто сталкиваются с непоследовательным соблюдением правил и обработкой разнообразных инструкций пользователей. Улучшения могут сосредоточиться на улучшении симуляций пользователей, уточнении политик области и разработке более надежных метрик оценки. Будущая работа также должна устранить предвзятость в подборе данных и исследовать возможности для отслеживания информации на длительную перспективу и фокусирования на контексте. Решение этих проблем критично для продвижения автоматизации в реальном мире и улучшения взаимодействия между человеком и агентом.
Посмотреть статью и подробности. Вся заслуга за данное исследование принадлежит его авторам.
Также не забудьте подписаться на нас в Twitter.
Присоединяйтесь к нашему каналу на Telegram и группе в LinkedIn.
Если вам нравится наша работа, вам понравится наша рассылка.
Не забудьте присоединиться к нашей группе ML SubReddit
Применение Искусственного Интеллекта для Улучшения Вашего Бизнеса
Если вы хотите, чтобы ваша компания развивалась с помощью искусственного интеллекта (ИИ) и оставалась в числе лидеров, грамотно используйте τ-bench: A New Benchmark to Evaluate AI Agents’ Performance and Reliability in Real-World Settings with Dynamic User and Tool Interaction.
Проанализируйте, как ИИ может изменить вашу работу. Определите, где возможно применение автоматизации: найдите моменты, когда ваши клиенты могут извлечь выгоду из AI.
Определитесь какие ключевые показатели эффективности (KPI): вы хотите улучшить с помощью ИИ.
Подберите подходящее решение, сейчас очень много вариантов ИИ. Внедряйте ИИ решения постепенно: начните с малого проекта, анализируйте результаты и KPI.
На полученных данных и опыте расширяйте автоматизацию.
Если вам нужны советы по внедрению ИИ, пишите нам на https://t.me/itinai. Следите за новостями о ИИ в нашем Телеграм-канале t.me/itinainews или в Twitter @itinairu45358.
Попробуйте AI Sales Bot https://itinai.ru/aisales. Этот AI ассистент в продажах помогает отвечать на вопросы клиентов, генерировать контент для отдела продаж, снижать нагрузку на первую линию.
Узнайте, как ИИ может изменить ваши процессы с решениями от AI Lab itinai.ru будущее уже здесь!
«`




















