Новая статья: бенчмарк и агент для сложных веб-задач.

«`html

Искусственный интеллект (ИИ)

Искусственный интеллект (ИИ) посвящен разработке систем, способных выполнять задачи, требующие типичного для человека интеллекта. Однако на этом пути возникает множество вызовов. Один из таких вызовов в ИИ заключается в создании систем, способных управлять сложными, реалистичными задачами, требующими обширного взаимодействия с динамическими окружающими средами. Часто эти задачи включают поиск и синтез информации из веб-ресурсов, процесс, в котором текущие модели требуют помощи для выполнения с высокой точностью и надежностью. Этот разрыв в возможностях подчеркивает необходимость более продвинутых систем искусственного интеллекта.

Методы решения задач на основе веб-ресурсов

Существующие методы решения задач на основе веб-ресурсов включают модели языковых моделей (LM) с закрытой книгой и модели с извлечением информации из веб-ресурсов. Модели с закрытой книгой полагаются исключительно на предварительные знания, закодированные в их параметрах, что часто приводит к галлюцинациям, когда модель генерирует неправильную информацию. Модели с извлечением информации пытаются собирать и использовать соответствующие данные из веб-ресурсов. Однако качество и актуальность извлеченной информации могут значительно варьироваться, ограничивая общую эффективность этих моделей.

Новый бенчмарк ASSISTANTBENCH и агент SPA

Исследователи из Тель-Авивского университета, Университета Пенсильвании, Института Аллена по искусственному интеллекту, Университета Вашингтона и Принстонского университета представили новый бенчмарк под названием ASSISTANTBENCH для решения этих вызовов, направленный на оценку возможностей веб-агентов в выполнении реалистичных, требующих много времени задач на веб-ресурсах. Этот бенчмарк состоит из 214 разнообразных задач, охватывающих различные области и требующих взаимодействия с веб-ресурсами. Кроме того, исследователи предложили модель SPA (SEEPLANACT), нового веб-агента, разработанного для улучшения выполнения задач путем включения планирующего компонента и буфера памяти.

Преимущества модели SPA

SPA базируется на существующей модели SEEACT и вносит несколько улучшений для повышения навигации по веб-ресурсам и выполнения задач. Планирующий компонент позволяет SPA стратегически подходить к каждой задаче, позволяя ему динамически перепланировать и корректировать свою стратегию на основе взаимодействия с элементами веб-ресурсов. Буфер памяти сохраняет информацию, собранную во время задачи, позволяя SPA эффективно использовать эту информацию в течение всего времени выполнения задачи. Эти улучшения позволяют SPA взаимодействовать более надежно с элементами веб-ресурсов, динамически навигировать и корректировать свой план по мере необходимости, предоставляя более эффективное решение для решения сложных задач на веб-ресурсах.

Результаты и перспективы

Оценка производительности SPA на бенчмарке ASSISTANTBENCH показала значительные улучшения по сравнению с предыдущими моделями. SPA достигла показателя точности 11 пунктов, что существенно превышает 4,2 пункта, достигнутые ранее моделью SEEACT. Более того, SPA продемонстрировала более высокую точность, с увеличением на 10 пунктов в количестве правильно отвеченных вопросов. Несмотря на эти достижения, общая точность лучших моделей не превысила 25%, что подчеркивает продолжающиеся вызовы в разработке надежных веб-решений на основе ИИ.

В более подробных показателях производительности интеграция планирующих и памятных компонентов SPA позволила ему превзойти другие модели по показателям частоты ответов и точности. Частота ответов SPA составила 38,8%, по сравнению с 20%, достигнутыми ранее моделью SEEACT. Точность SPA также была выше, составляя 29,0% по сравнению с 19,6% SEEACT. Комбинируя SPA с моделью с закрытой книгой, ансамбльная модель достигла лучших общих показателей производительности, с точностью 25,2 пункта, что дополнительно подчеркивает эффективность SPA в улучшении производительности задач.

Заключение и перспективы

Это исследование подчеркивает критические вызовы в разработке систем ИИ, способных выполнять реалистичные, требующие много времени задачи на веб-ресурсах. Введение ASSISTANTBENCH и SPA представляет собой значительный шаг в решении этих вызовов. Однако остается значительный разрыв в достижении надежных, высокоточных решений ИИ для навигации по веб-ресурсам, что подчеркивает необходимость продолжения инноваций и улучшений в этой области. Достижения, сделанные исследовательскими группами из Тель-Авивского университета, Университета Пенсильвании, Института Аллена по искусственному интеллекту, Университета Вашингтона и Принстонского университета, обнадеживающи, но подчеркивают необходимость продолжающихся исследований и развития для устранения разрыва в возможностях веб-ориентированных систем ИИ.

Посмотрите статью и проект. Вся благодарность за это исследование принадлежит исследователям этого проекта. Кроме того, не забудьте подписаться на наш Твиттер и присоединиться к нашему Телеграм-каналу и группе в LinkedIn. Если вам нравится наша работа, вам понравится наша рассылка.

Не забудьте присоединиться к нашему сообществу 47 тыс. подписчиков на Reddit по машинному обучению.

Найдите предстоящие вебинары по ИИ здесь.

Статья была опубликована на портале MarkTechPost.

Если вы заинтересованы в том, чтобы ваша компания развивалась с помощью искусственного интеллекта (ИИ) и оставалась в числе лидеров, грамотно используйте This AI Paper Introduces AssistantBench and SeePlanAct: A Benchmark and Agent for Complex Web-Based Tasks.

Проанализируйте, как ИИ может изменить вашу работу. Определите, где возможно применение автоматизации: найдите моменты, когда ваши клиенты могут извлечь выгоду из AI.

Определитесь, какие ключевые показатели эффективности (KPI) вы хотите улучшить с помощью ИИ.

Подберите подходящее решение. Сейчас очень много вариантов ИИ. Внедряйте ИИ решения постепенно: начните с малого проекта, анализируйте результаты и KPI.

На основе полученных данных и опыта расширяйте автоматизацию.

Если вам нужны советы по внедрению ИИ, пишите нам на https://t.me/itinai.

Следите за новостями о ИИ в нашем Телеграм-канале t.me/itinainews или в Twitter @itinairu45358.

Попробуйте AI Sales Bot https://itinai.ru/aisales. Этот AI ассистент в продажах помогает отвечать на вопросы клиентов, генерировать контент для отдела продаж и снижать нагрузку на первую линию.

Узнайте, как ИИ может изменить ваши процессы с решениями от AI Lab itinai.ru. Будущее уже здесь!

«`

saile.ru • ИИ в продажах

Новая статья: бенчмарк и агент для сложных веб-задач.

Искусственный интеллект (ИИ)

Методы решения задач на основе веб-ресурсов

Новый бенчмарк ASSISTANTBENCH и агент SPA

Преимущества модели SPA

Результаты и перспективы

Заключение и перспективы

Бесплатный ИИ: для автоматизации продаж

Как закрыть сделку на Zoom: ИИ предложит 5 реплик, которые работают на финале воронки

Как организовать автоворонку прогрева лида: ИИ создаст email-цепочку и контент-логику

Как сделать продающий лендинг на один экран: ИИ предложит блоки и тексты под конверсию

Как выстроить план продаж на квартал: ИИ рассчитает цели, шаги и загрузку команды по каналам

Как собирать контакты после диалога: ИИ предложит 3 формулировки, чтобы получить номер или подписку

Как сократить цикл пресейла: ИИ предложит оптимизацию демо, техобоснований и согласований

Как рассчитать идеальную цену для новых товаров: ИИ применит эластичность и сравнит с конкурентами

Как провести ABC-анализ клиентов и распределить усилия: ИИ подскажет фокусные сегменты

Как выявить пробелы в навыках команды: ИИ сгенерирует диагностическую сессию на 30 минут

Как объяснить сложный технический продукт клиенту за 3 минуты: ИИ предложит структуру демо-презентации с понятными примерами

Как за 5 минут составить скрипт исходящего звонка под продукт: ИИ предложит структуру и фразы под целевую аудиторию

Как собрать инсайты из отзывов клиентов: ИИ выделит паттерны и ключевые фразы

Умные продажи

INTELLECT-1: Первое децентрализованное обучение ИИ модели с 10 миллиардами параметров

Plurai представляет IntellAgent: открытая платформа для оценки сложных систем разговорного ИИ.

25 самых популярных языков программирования и их применение

15 способов использования ChatGPT для рекрутеров.

Microsoft AI представляет SCBench: новый тест для оценки методов длинного контекста в больших языковых моделях.

6 Необычных (но Эффективных) Методов Исследования Потенциальных Клиентов

Google AI представляет CardBench: обширный бенчмарк с более чем 20 реальными базами данных и тысячами запросов для революционизации оценки кардинальности.

Исследователи Qwen представили CodeElo: ИИ-тест для оценки навыков программирования LLM с помощью рейтинга Эло.

Политика конфиденциальности

Карта сайта

Куки-политика

Реклама

О нас

Подписка