
«`html
Недавние успехи в области больших языковых моделей (LLM) вызвали интерес к их математическим навыкам, особенно с использованием бенчмарка GSM8K, который оценивает математические способности на уровне начальной школы. Несмотря на улучшения, остаются сомнения в том, действительно ли их способности к рассуждению улучшились.
Исследования показывают, что LLM полагаются на вероятностное сопоставление шаблонов, а не на истинное логическое рассуждение. Это приводит к предвзятости токенов и чувствительности к небольшим изменениям во входных данных. Статическая природа GSM8K и использование единственного показателя ограничивают его эффективность в оценке способностей LLM.
Логическое рассуждение является важным для интеллектуальных систем, но его последовательность в LLM еще не определена. Некоторые исследования показывают, что LLM могут выполнять задачи, используя вероятностное сопоставление шаблонов, но часто им не хватает формального рассуждения.
Исследователи из Apple провели масштабное исследование, чтобы оценить способности LLM к рассуждению с использованием нового бенчмарка под названием GSM-Symbolic. Этот бенчмарк генерирует разнообразные математические вопросы, что позволяет проводить более надежные и контролируемые оценки.
Результаты показали, что производительность LLM значительно снижается при увеличении числовых значений или сложности вопросов. Добавление нерелевантной информации также приводит к снижению производительности до 65%, что указывает на зависимость LLM от сопоставления шаблонов.
Набор данных GSM8K состоит из более чем 8000 вопросов и ответов по математике, но его популярность привела к рискам, таким как загрязнение данных. Для решения этой проблемы был разработан GSM-Symbolic, который генерирует разнообразные задачи с использованием символических шаблонов.
Этот подход позволяет более надежно оценивать LLM, предлагая лучший контроль над сложностью вопросов и тестируя способности моделей в различных вариациях. Бенчмарк оценивает более 20 открытых и закрытых моделей, раскрывая информацию о математических способностях и ограничениях LLM.
Исследование подчеркивает необходимость дальнейшего развития для улучшения логических способностей LLM. Если вы хотите, чтобы ваша компания развивалась с помощью искусственного интеллекта (ИИ), следуйте этим шагам:
Если вам нужны советы по внедрению ИИ, пишите нам. Узнайте, как ИИ может изменить процесс продаж в вашей компании с решением от saile.ru — будущее уже здесь!
«`
Оставьте заявку — мы свяжемся с вами и расскажем, как начать работу