Ограничения больших языковых моделей: новые показатели для задач классификации

«`html

Ограничения больших языковых моделей (LLM): новые бенчмарки и метрики для задач классификации

Большие языковые модели (LLM) показали впечатляющую производительность в ряде задач, особенно в задачах классификации. Однако их способность выбирать из возможностей, даже если ни одна из них не является правильной, вызывает значительные опасения относительно их реального понимания и интеллекта в сценариях классификации.

Проблемы в контексте LLM:

1. Универсальность и обработка меток: LLM могут работать с любым набором меток, включая те, точность которых подвергается сомнению. Для избежания введения пользователей в заблуждение они должны имитировать человеческое поведение, распознавая точные метки или указывая на их отсутствие.

2. Дискриминационные и генеративные возможности: LLM в основном предназначены для генеративных моделей и часто не обладают дискриминационными возможностями. Существующие показатели производительности могут недооценивать полезность LLM.

Новые бенчмарки и метрики:

В последних исследованиях были представлены три общих задачи категоризации в качестве бенчмарков для дальнейших исследований:

1. BANK77: Задача классификации намерений.

2. MC-TEST: Задача многовариантного вопросно-ответного тестирования.

3. EQUINFER: Недавно разработанная задача, определяющая правильное уравнение из четырех вариантов на основе окружающих абзацев в научных статьях.

Этот набор бенчмарков назван KNOW-NO и покрывает проблемы классификации с различными размерами, длинами и областями меток, включая пространства меток на уровне экземпляра и задачи.

Была предложена новая метрика под названием OMNIACCURACY для более точной оценки производительности LLM. Эта статистика оценивает навыки категоризации LLM, объединяя их результаты из двух измерений фреймворка KNOW-NO.

Основные вклады:

1. Это первое исследование, которое обращает внимание на ограничения LLM, когда правильные ответы отсутствуют в задачах классификации.

2. Был представлен новый фреймворк CLASSIFY-W/O-GOLD для оценки LLM и описания этой задачи.

3. Был представлен бенчмарк KNOW-NO, включающий одну новую задачу и две хорошо известные задачи категоризации, для оценки LLM в сценарии CLASSIFY-W/O-GOLD.

4. Была предложена метрика OMNIACCURACY, объединяющая результаты при наличии и отсутствии правильных меток для оценки производительности LLM в задачах классификации.

Ознакомьтесь с статьей. Вся заслуга за это исследование принадлежит его ученым. Также не забудьте подписаться на наш Twitter.

Присоединяйтесь к нашему каналу в Telegram и группе в LinkedIn.

Если вам понравилась наша работа, вам понравится и наш новостной бюллетень.

Не забудьте присоединиться к нашему SubReddit с 45 тыс. подписчиков.

Источник: MarkTechPost.

«`

saile.ru • ИИ в продажах

Ограничения больших языковых моделей: новые показатели для задач классификации

Ограничения больших языковых моделей (LLM): новые бенчмарки и метрики для задач классификации

Проблемы в контексте LLM:

Новые бенчмарки и метрики:

Основные вклады:

Бесплатный ИИ: для автоматизации продаж

Как продавать через сторителлинг: ИИ предложит 3 истории для продукта

Как построить email-цепочку для новых лидов: ИИ предложит 5 писем с темами и CTA

Как провести технический аудит инфраструктуры клиента перед внедрением: ИИ предложит чек-лист

Как провести самодиагностику по воронке: ИИ предложит чек-лист из 10 пунктов

Как связать маркетинг и продажи через общую воронку: ИИ предложит структуру интеграции и точки контроля

Как определить маржинальность по менеджерам и сегментам: ИИ выделит прибыльных клиентов и зоны просадки

Как выстроить мотивацию маркетинга за продажи: ИИ предложит модель KPI и бонусов

Как убедить клиента в безопасности и стабильности решения: ИИ подберёт аргументы и ссылки на стандарты

Как закрыть сделку на Zoom: ИИ предложит 5 реплик, которые работают на финале воронки

Как отвечать на вопрос “чем вы лучше?” без заученных фраз: ИИ предложит 3 варианта под ваш продукт

Как определить ключевые факторы роста в B2B продажах: ИИ выделит драйверы из CRM и покажет корреляции

Как продать второй товар при покупке первого: ИИ предложит 3 техники апселла и кросселла на кассе

Умные продажи

Институт технологий инноваций ОАЭ выпустил Falcon 3: серию открытых AI-моделей с 30 новыми контрольными точками от 1B до 10B.

Использование больших языковых моделей для коррекции текста после оптического распознавания символов (OCR)

Ученые из Университета Фрайбурга и Bosch AI предлагают HW-GPT-Bench: бенчмарк для языковых моделей, учитывающий аппаратное обеспечение.

DeBaTeR: Новый метод ИИ, использующий временную информацию для улучшения фильтрации и прогнозирования в нейронных графах.

10 лучших платформ для практики Python

Превращение бесзвучных видео в звучащие: обещание технологии Video-to-Audio (V2A) от Google DeepMind

Проблема лесть в искусственном интеллекте: вызовы и идеи из обучения на обратной связи людей

Знакомьтесь с DiscoveryWorld: виртуальная среда для разработки и оценки способностей агента к полному циклу научных открытий.

Пресс-релизы

Куки-политика

О нас

Политика конфиденциальности

Условия использования

FAQ