Itinai.com beautiful russian high fashion sales representativ 0edfe09d 3b43 4794 add3 7ea2d8b87dbc 0
Itinai.com beautiful russian high fashion sales representativ 0edfe09d 3b43 4794 add3 7ea2d8b87dbc 0

Ограничения больших языковых моделей: новые показатели для задач классификации

 Understanding the Limitations of Large Language Models (LLMs): New Benchmarks and Metrics for Classification Tasks

«`html

Ограничения больших языковых моделей (LLM): новые бенчмарки и метрики для задач классификации

Большие языковые модели (LLM) показали впечатляющую производительность в ряде задач, особенно в задачах классификации. Однако их способность выбирать из возможностей, даже если ни одна из них не является правильной, вызывает значительные опасения относительно их реального понимания и интеллекта в сценариях классификации.

Проблемы в контексте LLM:

1. Универсальность и обработка меток: LLM могут работать с любым набором меток, включая те, точность которых подвергается сомнению. Для избежания введения пользователей в заблуждение они должны имитировать человеческое поведение, распознавая точные метки или указывая на их отсутствие.

2. Дискриминационные и генеративные возможности: LLM в основном предназначены для генеративных моделей и часто не обладают дискриминационными возможностями. Существующие показатели производительности могут недооценивать полезность LLM.

Новые бенчмарки и метрики:

В последних исследованиях были представлены три общих задачи категоризации в качестве бенчмарков для дальнейших исследований:

1. BANK77: Задача классификации намерений.

2. MC-TEST: Задача многовариантного вопросно-ответного тестирования.

3. EQUINFER: Недавно разработанная задача, определяющая правильное уравнение из четырех вариантов на основе окружающих абзацев в научных статьях.

Этот набор бенчмарков назван KNOW-NO и покрывает проблемы классификации с различными размерами, длинами и областями меток, включая пространства меток на уровне экземпляра и задачи.

Была предложена новая метрика под названием OMNIACCURACY для более точной оценки производительности LLM. Эта статистика оценивает навыки категоризации LLM, объединяя их результаты из двух измерений фреймворка KNOW-NO.

Основные вклады:

1. Это первое исследование, которое обращает внимание на ограничения LLM, когда правильные ответы отсутствуют в задачах классификации.

2. Был представлен новый фреймворк CLASSIFY-W/O-GOLD для оценки LLM и описания этой задачи.

3. Был представлен бенчмарк KNOW-NO, включающий одну новую задачу и две хорошо известные задачи категоризации, для оценки LLM в сценарии CLASSIFY-W/O-GOLD.

4. Была предложена метрика OMNIACCURACY, объединяющая результаты при наличии и отсутствии правильных меток для оценки производительности LLM в задачах классификации.

Ознакомьтесь с статьей. Вся заслуга за это исследование принадлежит его ученым. Также не забудьте подписаться на наш Twitter.

Присоединяйтесь к нашему каналу в Telegram и группе в LinkedIn.

Если вам понравилась наша работа, вам понравится и наш новостной бюллетень.

Не забудьте присоединиться к нашему SubReddit с 45 тыс. подписчиков.

Источник: MarkTechPost.

«`

Бесплатный ИИ: для автоматизации продаж

Умные продажи