
«`html
Ограничения больших языковых моделей (LLM): новые бенчмарки и метрики для задач классификации
Большие языковые модели (LLM) показали впечатляющую производительность в ряде задач, особенно в задачах классификации. Однако их способность выбирать из возможностей, даже если ни одна из них не является правильной, вызывает значительные опасения относительно их реального понимания и интеллекта в сценариях классификации.
Проблемы в контексте LLM:
1. Универсальность и обработка меток: LLM могут работать с любым набором меток, включая те, точность которых подвергается сомнению. Для избежания введения пользователей в заблуждение они должны имитировать человеческое поведение, распознавая точные метки или указывая на их отсутствие.
2. Дискриминационные и генеративные возможности: LLM в основном предназначены для генеративных моделей и часто не обладают дискриминационными возможностями. Существующие показатели производительности могут недооценивать полезность LLM.
Новые бенчмарки и метрики:
В последних исследованиях были представлены три общих задачи категоризации в качестве бенчмарков для дальнейших исследований:
1. BANK77: Задача классификации намерений.
2. MC-TEST: Задача многовариантного вопросно-ответного тестирования.
3. EQUINFER: Недавно разработанная задача, определяющая правильное уравнение из четырех вариантов на основе окружающих абзацев в научных статьях.
Этот набор бенчмарков назван KNOW-NO и покрывает проблемы классификации с различными размерами, длинами и областями меток, включая пространства меток на уровне экземпляра и задачи.
Была предложена новая метрика под названием OMNIACCURACY для более точной оценки производительности LLM. Эта статистика оценивает навыки категоризации LLM, объединяя их результаты из двух измерений фреймворка KNOW-NO.
Основные вклады:
1. Это первое исследование, которое обращает внимание на ограничения LLM, когда правильные ответы отсутствуют в задачах классификации.
2. Был представлен новый фреймворк CLASSIFY-W/O-GOLD для оценки LLM и описания этой задачи.
3. Был представлен бенчмарк KNOW-NO, включающий одну новую задачу и две хорошо известные задачи категоризации, для оценки LLM в сценарии CLASSIFY-W/O-GOLD.
4. Была предложена метрика OMNIACCURACY, объединяющая результаты при наличии и отсутствии правильных меток для оценки производительности LLM в задачах классификации.
Ознакомьтесь с статьей. Вся заслуга за это исследование принадлежит его ученым. Также не забудьте подписаться на наш Twitter.
Присоединяйтесь к нашему каналу в Telegram и группе в LinkedIn.
Если вам понравилась наша работа, вам понравится и наш новостной бюллетень.
Не забудьте присоединиться к нашему SubReddit с 45 тыс. подписчиков.
Источник: MarkTechPost.
«`