Itinai.com beautiful russian high fashion sales representativ 072b5713 2b69 43c0 945f 6f5dbb20cf52 1
Itinai.com beautiful russian high fashion sales representativ 072b5713 2b69 43c0 945f 6f5dbb20cf52 1

Обновление рейтинга Open LLM Leaderboard 2: более сложные тесты, справедливая оценка и улучшенное взаимодействие с сообществом для оценки языковых моделей

 Hugging Face Releases Open LLM Leaderboard 2: A Major Upgrade Featuring Tougher Benchmarks, Fairer Scoring, and Enhanced Community Collaboration for Evaluating Language Models

«`html

Объявление о выпуске Open LLM Leaderboard v2 от Hugging Face: значительное обновление

Компания Hugging Face объявила о выпуске Open LLM Leaderboard v2, значительного обновления, направленного на решение проблем и ограничений предыдущей версии. Новый Leaderboard вводит более строгие бенчмарки, улучшенные методы оценки и более справедливую систему оценки, обещая оживить конкурентное поле для языковых моделей.

Решение проблемы насыщения бенчмарков

За последний год оригинальный Open LLM Leaderboard стал ключевым ресурсом в сообществе машинного обучения, привлекая более 2 миллионов уникальных посетителей и вовлекая 300 000 активных пользователей ежемесячно. Несмотря на успех, растущая производительность моделей привела к насыщению бенчмарков. Модели начали достигать базовой человеческой производительности на бенчмарках, таких как HellaSwag, MMLU и ARC, что снизило их эффективность в различении возможностей моделей. Кроме того, некоторые модели проявили признаки загрязнения, так как были обучены на данных, аналогичных бенчмаркам, что подорвало целостность их оценок.

Введение новых бенчмарков

Для решения этих проблем Open LLM Leaderboard v2 вводит шесть новых бенчмарков, охватывающих различные возможности моделей:

  • MMLU-Pro
  • GPQA (Google-Proof Q&A Benchmark)
  • MuSR (Multistep Soft Reasoning)
  • MATH (Mathematics Aptitude Test of Heuristics, Level 5 subset)
  • IFEval (Instruction Following Evaluation)
  • BBH (Big Bench Hard)

Более справедливые рейтинги с нормализованными оценками

Заметное изменение в новом Leaderboard — принятие нормализованных оценок для ранжирования моделей. Ранее сырые баллы суммировались, что могло искажать производительность из-за различной сложности бенчмарков. Теперь баллы нормализуются между случайной базовой линией (0 баллов) и максимально возможным баллом (100 баллов). Этот подход обеспечивает более справедливое сравнение между различными бенчмарками, предотвращая доминирование какого-либо отдельного бенчмарка в окончательном рейтинге.

Улучшенная воспроизводимость и интерфейс

Hugging Face обновила набор оценок в сотрудничестве с EleutherAI для улучшения воспроизводимости. Интерфейс также значительно улучшен благодаря команде Gradio, в частности, Freddy Boulton. Это улучшение обеспечивает пользователям более быстрый и более безупречный опыт.

Приоритет моделей, важных для сообщества

Новый Leaderboard вводит категорию «выбор сопровождающего», выделяя высококачественные модели из различных источников. Этот отобранный список направлен на включение передовых LLM и приоритизацию оценок наиболее полезных моделей для сообщества.

Голосование за актуальность моделей

Введена система голосования для управления большим объемом представленных моделей. Члены сообщества могут голосовать за предпочтительные модели, и те, у которых больше всего голосов, будут приоритизированы для оценки.

В заключение, Open LLM Leaderboard v2 от Hugging Face представляет собой значительный шаг в оценке языковых моделей. С более сложными бенчмарками, более справедливой системой оценки и улучшенной воспроизводимостью, он нацелен на расширение границ развития моделей и предоставление более надежных исследований возможностей моделей. Команда Hugging Face оптимистично смотрит в будущее, ожидая продолжения инноваций и улучшений при оценке моделей на этом новом, более строгом Leaderboard.

Проверьте Leaderboard и подробности. Вся заслуга за это исследование принадлежит исследователям этого проекта. Также не забудьте подписаться на нас в Twitter.

Присоединяйтесь к нашему Telegram-каналу и группе LinkedIn.

Если вам нравится наша работа, вам понравится наша рассылка.

Не забудьте присоединиться к нашему 45k+ ML SubReddit

«`

Бесплатный ИИ: для автоматизации продаж