
«`html
Большие языковые модели (LLMs) используются для создания вопросов на основе заданных фактов или контекста. Однако оценить качество этих вопросов бывает сложно. Вопросы, созданные LLM, часто отличаются от человеческих по длине, типу и соответствию контексту.
Проверка качества вопросов затруднена, так как большинство методов требует много ручной работы или использует простые числовые показатели, которые не отражают полной картины. Это создает трудности в правильной оценке вопросов и мешает улучшению работы LLM.
Существующие методы генерации вопросов используют автоматизированные техники, но они либо полагаются на простые статистические меры, либо требуют значительных усилий по ручной маркировке. Эти методы не могут глубоко оценить качество генерируемых вопросов.
Исследователи из Университета Калифорнии в Беркли, KACST и Университета Вашингтона предложили автоматизированную оценочную структуру, использующую LLM. Эта структура генерирует вопросы на основе контекста и оценивает их по шести критериям: тип вопроса, длина, охват контекста, возможность ответа, редкость и необходимая длина ответа.
В ходе исследования были проанализированы 860,000 абзацев из набора данных WikiText для генерации самообъемлющих вопросов. Средняя длина вопроса составила 15 слов, а охват контекста — 51.1% на уровне слов и 66.7% на уровне предложений. Важность контекста была подтверждена высокой возможностью ответа с контекстом и низкой без него.
Если вы хотите, чтобы ваша компания развивалась с помощью ИИ, следуйте этим шагам:
Если вам нужны советы по внедрению ИИ, пишите нам в Telegram.
Следите за новостями об ИИ в нашем Телеграм-канале.
Узнайте, как ИИ может изменить процесс продаж в вашей компании с решением от saile.ru — будущее уже здесь!
«`
Оставьте заявку — мы свяжемся с вами и расскажем, как начать работу