Itinai.com it company office background blured chaos 50 v 32924e8d 918f 458e ae6f 0f5d897c5b7b 1
Itinai.com it company office background blured chaos 50 v 32924e8d 918f 458e ae6f 0f5d897c5b7b 1

Новая статья: бенчмарк и агент для сложных веб-задач.

 This AI Paper Introduces AssistantBench and SeePlanAct: A Benchmark and Agent for Complex Web-Based Tasks

«`html

Искусственный интеллект (ИИ)

Искусственный интеллект (ИИ) посвящен разработке систем, способных выполнять задачи, требующие типичного для человека интеллекта. Однако на этом пути возникает множество вызовов. Один из таких вызовов в ИИ заключается в создании систем, способных управлять сложными, реалистичными задачами, требующими обширного взаимодействия с динамическими окружающими средами. Часто эти задачи включают поиск и синтез информации из веб-ресурсов, процесс, в котором текущие модели требуют помощи для выполнения с высокой точностью и надежностью. Этот разрыв в возможностях подчеркивает необходимость более продвинутых систем искусственного интеллекта.

Методы решения задач на основе веб-ресурсов

Существующие методы решения задач на основе веб-ресурсов включают модели языковых моделей (LM) с закрытой книгой и модели с извлечением информации из веб-ресурсов. Модели с закрытой книгой полагаются исключительно на предварительные знания, закодированные в их параметрах, что часто приводит к галлюцинациям, когда модель генерирует неправильную информацию. Модели с извлечением информации пытаются собирать и использовать соответствующие данные из веб-ресурсов. Однако качество и актуальность извлеченной информации могут значительно варьироваться, ограничивая общую эффективность этих моделей.

Новый бенчмарк ASSISTANTBENCH и агент SPA

Исследователи из Тель-Авивского университета, Университета Пенсильвании, Института Аллена по искусственному интеллекту, Университета Вашингтона и Принстонского университета представили новый бенчмарк под названием ASSISTANTBENCH для решения этих вызовов, направленный на оценку возможностей веб-агентов в выполнении реалистичных, требующих много времени задач на веб-ресурсах. Этот бенчмарк состоит из 214 разнообразных задач, охватывающих различные области и требующих взаимодействия с веб-ресурсами. Кроме того, исследователи предложили модель SPA (SEEPLANACT), нового веб-агента, разработанного для улучшения выполнения задач путем включения планирующего компонента и буфера памяти.

Преимущества модели SPA

SPA базируется на существующей модели SEEACT и вносит несколько улучшений для повышения навигации по веб-ресурсам и выполнения задач. Планирующий компонент позволяет SPA стратегически подходить к каждой задаче, позволяя ему динамически перепланировать и корректировать свою стратегию на основе взаимодействия с элементами веб-ресурсов. Буфер памяти сохраняет информацию, собранную во время задачи, позволяя SPA эффективно использовать эту информацию в течение всего времени выполнения задачи. Эти улучшения позволяют SPA взаимодействовать более надежно с элементами веб-ресурсов, динамически навигировать и корректировать свой план по мере необходимости, предоставляя более эффективное решение для решения сложных задач на веб-ресурсах.

Результаты и перспективы

Оценка производительности SPA на бенчмарке ASSISTANTBENCH показала значительные улучшения по сравнению с предыдущими моделями. SPA достигла показателя точности 11 пунктов, что существенно превышает 4,2 пункта, достигнутые ранее моделью SEEACT. Более того, SPA продемонстрировала более высокую точность, с увеличением на 10 пунктов в количестве правильно отвеченных вопросов. Несмотря на эти достижения, общая точность лучших моделей не превысила 25%, что подчеркивает продолжающиеся вызовы в разработке надежных веб-решений на основе ИИ.

В более подробных показателях производительности интеграция планирующих и памятных компонентов SPA позволила ему превзойти другие модели по показателям частоты ответов и точности. Частота ответов SPA составила 38,8%, по сравнению с 20%, достигнутыми ранее моделью SEEACT. Точность SPA также была выше, составляя 29,0% по сравнению с 19,6% SEEACT. Комбинируя SPA с моделью с закрытой книгой, ансамбльная модель достигла лучших общих показателей производительности, с точностью 25,2 пункта, что дополнительно подчеркивает эффективность SPA в улучшении производительности задач.

Заключение и перспективы

Это исследование подчеркивает критические вызовы в разработке систем ИИ, способных выполнять реалистичные, требующие много времени задачи на веб-ресурсах. Введение ASSISTANTBENCH и SPA представляет собой значительный шаг в решении этих вызовов. Однако остается значительный разрыв в достижении надежных, высокоточных решений ИИ для навигации по веб-ресурсам, что подчеркивает необходимость продолжения инноваций и улучшений в этой области. Достижения, сделанные исследовательскими группами из Тель-Авивского университета, Университета Пенсильвании, Института Аллена по искусственному интеллекту, Университета Вашингтона и Принстонского университета, обнадеживающи, но подчеркивают необходимость продолжающихся исследований и развития для устранения разрыва в возможностях веб-ориентированных систем ИИ.

Посмотрите статью и проект. Вся благодарность за это исследование принадлежит исследователям этого проекта. Кроме того, не забудьте подписаться на наш Твиттер и присоединиться к нашему Телеграм-каналу и группе в LinkedIn. Если вам нравится наша работа, вам понравится наша рассылка.

Не забудьте присоединиться к нашему сообществу 47 тыс. подписчиков на Reddit по машинному обучению.

Найдите предстоящие вебинары по ИИ здесь.

Статья была опубликована на портале MarkTechPost.

Если вы заинтересованы в том, чтобы ваша компания развивалась с помощью искусственного интеллекта (ИИ) и оставалась в числе лидеров, грамотно используйте This AI Paper Introduces AssistantBench and SeePlanAct: A Benchmark and Agent for Complex Web-Based Tasks.

Проанализируйте, как ИИ может изменить вашу работу. Определите, где возможно применение автоматизации: найдите моменты, когда ваши клиенты могут извлечь выгоду из AI.

Определитесь, какие ключевые показатели эффективности (KPI) вы хотите улучшить с помощью ИИ.

Подберите подходящее решение. Сейчас очень много вариантов ИИ. Внедряйте ИИ решения постепенно: начните с малого проекта, анализируйте результаты и KPI.

На основе полученных данных и опыта расширяйте автоматизацию.

Если вам нужны советы по внедрению ИИ, пишите нам на https://t.me/itinai.

Следите за новостями о ИИ в нашем Телеграм-канале t.me/itinainews или в Twitter @itinairu45358.

Попробуйте AI Sales Bot https://itinai.ru/aisales. Этот AI ассистент в продажах помогает отвечать на вопросы клиентов, генерировать контент для отдела продаж и снижать нагрузку на первую линию.

Узнайте, как ИИ может изменить ваши процессы с решениями от AI Lab itinai.ru. Будущее уже здесь!

«`

Бесплатный ИИ: для автоматизации продаж