Itinai.com it company office background blured chaos 50 v 37924f9a 5cdc 441e b9ab 1def82065f09 1
Itinai.com it company office background blured chaos 50 v 37924f9a 5cdc 441e b9ab 1def82065f09 1

ToolHop: Новый набор данных для оценки LLM в сценариях многократного использования инструментов

 ToolHop: A Novel Dataset Designed to Evaluate LLMs in Multi-Hop Tool Use Scenarios

«`html

Многоступенчатые запросы и их значение

Многоступенчатые запросы всегда были сложными для агентов LLM, так как требуют нескольких шагов рассуждений и информации из разных источников. Они важны для анализа понимания модели, ее способности к рассуждениям и вызову функций.

Проблемы существующих методов

Существующие работы в этой области не предлагают надежных методов оценки. Методы, предложенные до сих пор, основывались на конструкциях данных, управляемых инструментами, что создает проблемы с оценкой многоступенчатого рассуждения и вводит предвзятость моделей.

Решение ToolHop

Исследователи из Университета Фудань и ByteDance представили ToolHop — набор данных, специально разработанный для оценки многоступенчатых инструментов. Он включает 995 тщательно разработанных пользовательских запросов и 3,912 связанных инструментов.

Ключевые этапы нового подхода

Предложенная схема состоит из трех ключевых этапов:

  • Создание инструментов: Создается предварительный набор документов инструментов на основе многоступенчатого запроса пользователя.
  • Уточнение документов: Подготовленный документ проходит фильтрацию для поддержки оценки моделей в сложных многоступенчатых сценариях.
  • Генерация кода: На этом этапе создаются локально исполняемые функции, которые позволяют осуществлять взаимодействие между моделью и инструментами.

Результаты исследования

Команда провела оценку ToolHop на четырнадцати LLM из пяти семейств. Использование инструментов увеличило производительность моделей в среднем на 12%, а для моделей GPT — на 23%. Однако модели все еще ошибались около 10% времени.

Заключение

Данная работа представляет собой обширный набор данных для решения многоступенчатых запросов с использованием специально разработанных запросов и инструментов. Хотя LLM значительно улучшили свои способности к решению сложных многоступенчатых запросов, есть еще много возможностей для улучшения.

Практические рекомендации для бизнеса

Если вы хотите, чтобы ваша компания развивалась с помощью искусственного интеллекта (ИИ), следуйте этим шагам:

  • Проанализируйте, как ИИ может изменить вашу работу.
  • Определите ключевые показатели эффективности (KPI), которые хотите улучшить с помощью ИИ.
  • Подберите подходящее решение, учитывая множество доступных вариантов ИИ.
  • Внедряйте ИИ постепенно: начните с малого проекта, анализируйте результаты и KPI.
  • На основе полученных данных расширяйте автоматизацию.

Если вам нужны советы по внедрению ИИ, пишите нам. Узнайте, как ИИ может изменить процесс продаж в вашей компании с решением от saile.ru — будущее уже здесь!

«`

Бесплатный ИИ: для автоматизации продаж

Умные продажи