Itinai.com it company office background blured chaos 50 v 74e4829b a652 4689 ad2e c962916303b4 1
Itinai.com it company office background blured chaos 50 v 74e4829b a652 4689 ad2e c962916303b4 1

Новая статья исследователей Института Аллена представляет OLMES: обеспечение справедливой и воспроизводимой оценки языкового моделирования

 This AI Paper by Allen Institute Researchers Introduces OLMES: Paving the Way for Fair and Reproducible Evaluations in Language Modeling

«`html

Оценка языковых моделей в исследованиях по искусственному интеллекту

Оценка языковых моделей — критически важный аспект исследований в области искусственного интеллекта, который сосредоточен на оценке возможностей и производительности моделей в различных задачах. Эти оценки помогают исследователям понять сильные и слабые стороны различных моделей, направляя будущее развитие и улучшения. Одной из значительных проблем в сообществе искусственного интеллекта является стандартизированный каркас оценки для языковых моделей. Этот недостаток стандартизации приводит к несоответствию в измерении производительности, что затрудняет воспроизводимость результатов и справедливое сравнение различных моделей. Общий стандарт оценки поддерживает достоверность научных утверждений о производительности моделей искусственного интеллекта.

Стандартизация оценки языковых моделей

В настоящее время существуют несколько усилий, таких как бенчмарк HELM и рейтинговая таблица Hugging Face Open LLM Leaderboard, направленные на стандартизацию оценок. Однако эти методы должны быть более последовательными в обосновании форматирования запросов, методах нормализации и формулировке задач. Эти несоответствия часто приводят к значительным отклонениям в отчетной производительности, усложняя справедливые сравнения.

Исследователи из Института искусственного интеллекта Аллена предложили OLMES (Open Language Model Evaluation Standard), чтобы решить эти проблемы. OLMES нацелен на обеспечение полноценного, практичного и полностью документированного стандарта для воспроизводимых оценок языковых моделей. Этот стандарт поддерживает смысловые сравнения моделей, устраняя неоднозначности в процессе оценки.

Стандартизация процесса оценки

OLMES стандартизирует процесс оценки, уточняя подробные рекомендации для обработки набора данных, форматирования запросов, примеров в контексте, нормализации вероятности и формулировки задач. Например, OLMES рекомендует использовать согласованные префиксы и суффиксы в запросах, такие как «Вопрос:» и «Ответ:», для естественного уточнения задач. Стандарт также включает ручную кураторскую работу с пятью примерами для каждой задачи, обеспечивая высококачественные и сбалансированные примеры, охватывающие пространство меток эффективно. Кроме того, OLMES указывает на использование различных методов нормализации, таких как нормализация взаимной информации (PMI), для определенных задач для коррекции вероятности выбора ответов. OLMES нацелен на то, чтобы процесс оценки стал прозрачным и воспроизводимым, учитывая эти факторы.

Эксперименты и результаты OLMES

Исследовательская группа провела обширные эксперименты для проверки OLMES. Они сравнили несколько моделей, используя как новый стандарт, так и существующие методы, продемонстрировав, что OLMES обеспечивает более последовательные и воспроизводимые результаты. Например, модели Llama2-13B и Llama3-70B значительно улучшили производительность при оценке с использованием OLMES. Эксперименты показали, что рекомендуемые OLMES методы нормализации, такие как PMI для ARC-Challenge и CommonsenseQA, эффективно снижают вариации производительности. Заметно, что результаты показали, что некоторые модели сообщали до 25% более высокую точность с использованием OLMES по сравнению с другими методами, подчеркивая эффективность стандарта в обеспечении справедливых сравнений.

Чтобы дополнительно проиллюстрировать влияние OLMES, исследователи оценили популярные бенчмарк-задачи, такие как ARC-Challenge, OpenBookQA и MMLU. Результаты показали, что модели, оцененные с использованием OLMES, показали более высокую производительность и уменьшили различия в отчетной производительности по различным источникам. Например, модель Llama3-70B достигла выдающейся точности в 93,7% в задаче ARC-Challenge в формате с выбором из нескольких вариантов ответов, по сравнению с 69,0% в формате закрытого вопроса. Это значительное различие подчеркивает важность использования стандартизированных практик оценки для получения надежных результатов.

Заключение и перспективы

Проблема несогласованных оценок в исследованиях по искусственному интеллекту была эффективно решена благодаря введению OLMES. Новый стандарт предлагает полноценное решение, стандартизируя практики оценки и предоставляя подробные рекомендации для всех аспектов процесса оценки. Исследователи из Института искусственного интеллекта Аллена продемонстрировали, что OLMES улучшает надежность измерений производительности и поддерживает смысловые сравнения различных моделей. Приняв OLMES, сообщество искусственного интеллекта может достичь большей прозрачности, воспроизводимости и справедливости в оценке языковых моделей. Ожидается, что это развитие стимулирует дальнейший прогресс в исследованиях и разработке искусственного интеллекта, способствуя инновациям и сотрудничеству среди исследователей и разработчиков.

Посмотреть статью. Все заслуги за это исследование принадлежат исследователям проекта. Также не забудьте подписаться на наш Twitter.

Присоединяйтесь к нашему Telegram-каналу и группе в LinkedIn.

Если вам нравится наша работа, вам понравится наш новостной бюллетень.

Не забудьте присоединиться к нашему подпреддиту ML SubReddit.

Статья: This AI Paper by Allen Institute Researchers Introduces OLMES: Paving the Way for Fair and Reproducible Evaluations in Language Modeling

«`

Бесплатный ИИ: для автоматизации продаж