Обновление рейтинга Open LLM Leaderboard 2: более сложные тесты, справедливая оценка и улучшенное взаимодействие с сообществом для оценки языковых моделей

«`html

Объявление о выпуске Open LLM Leaderboard v2 от Hugging Face: значительное обновление

Компания Hugging Face объявила о выпуске Open LLM Leaderboard v2, значительного обновления, направленного на решение проблем и ограничений предыдущей версии. Новый Leaderboard вводит более строгие бенчмарки, улучшенные методы оценки и более справедливую систему оценки, обещая оживить конкурентное поле для языковых моделей.

Решение проблемы насыщения бенчмарков

За последний год оригинальный Open LLM Leaderboard стал ключевым ресурсом в сообществе машинного обучения, привлекая более 2 миллионов уникальных посетителей и вовлекая 300 000 активных пользователей ежемесячно. Несмотря на успех, растущая производительность моделей привела к насыщению бенчмарков. Модели начали достигать базовой человеческой производительности на бенчмарках, таких как HellaSwag, MMLU и ARC, что снизило их эффективность в различении возможностей моделей. Кроме того, некоторые модели проявили признаки загрязнения, так как были обучены на данных, аналогичных бенчмаркам, что подорвало целостность их оценок.

Введение новых бенчмарков

Для решения этих проблем Open LLM Leaderboard v2 вводит шесть новых бенчмарков, охватывающих различные возможности моделей:

MMLU-Pro
GPQA (Google-Proof Q&A Benchmark)
MuSR (Multistep Soft Reasoning)
MATH (Mathematics Aptitude Test of Heuristics, Level 5 subset)
IFEval (Instruction Following Evaluation)
BBH (Big Bench Hard)

Более справедливые рейтинги с нормализованными оценками

Заметное изменение в новом Leaderboard — принятие нормализованных оценок для ранжирования моделей. Ранее сырые баллы суммировались, что могло искажать производительность из-за различной сложности бенчмарков. Теперь баллы нормализуются между случайной базовой линией (0 баллов) и максимально возможным баллом (100 баллов). Этот подход обеспечивает более справедливое сравнение между различными бенчмарками, предотвращая доминирование какого-либо отдельного бенчмарка в окончательном рейтинге.

Улучшенная воспроизводимость и интерфейс

Hugging Face обновила набор оценок в сотрудничестве с EleutherAI для улучшения воспроизводимости. Интерфейс также значительно улучшен благодаря команде Gradio, в частности, Freddy Boulton. Это улучшение обеспечивает пользователям более быстрый и более безупречный опыт.

Приоритет моделей, важных для сообщества

Новый Leaderboard вводит категорию «выбор сопровождающего», выделяя высококачественные модели из различных источников. Этот отобранный список направлен на включение передовых LLM и приоритизацию оценок наиболее полезных моделей для сообщества.

Голосование за актуальность моделей

Введена система голосования для управления большим объемом представленных моделей. Члены сообщества могут голосовать за предпочтительные модели, и те, у которых больше всего голосов, будут приоритизированы для оценки.

В заключение, Open LLM Leaderboard v2 от Hugging Face представляет собой значительный шаг в оценке языковых моделей. С более сложными бенчмарками, более справедливой системой оценки и улучшенной воспроизводимостью, он нацелен на расширение границ развития моделей и предоставление более надежных исследований возможностей моделей. Команда Hugging Face оптимистично смотрит в будущее, ожидая продолжения инноваций и улучшений при оценке моделей на этом новом, более строгом Leaderboard.

Проверьте Leaderboard и подробности. Вся заслуга за это исследование принадлежит исследователям этого проекта. Также не забудьте подписаться на нас в Twitter.

Присоединяйтесь к нашему Telegram-каналу и группе LinkedIn.

Если вам нравится наша работа, вам понравится наша рассылка.

Не забудьте присоединиться к нашему 45k+ ML SubReddit

«`

saile.ru • ИИ в продажах

Обновление рейтинга Open LLM Leaderboard 2: более сложные тесты, справедливая оценка и улучшенное взаимодействие с сообществом для оценки языковых моделей

Объявление о выпуске Open LLM Leaderboard v2 от Hugging Face: значительное обновление

Решение проблемы насыщения бенчмарков

Введение новых бенчмарков

Более справедливые рейтинги с нормализованными оценками

Улучшенная воспроизводимость и интерфейс

Приоритет моделей, важных для сообщества

Голосование за актуальность моделей

Бесплатный ИИ: для автоматизации продаж

Как оценить эффективность обучения: ИИ предложит шаблон отчета по модели Kirkpatrick

Как разработать индивидуальную программу обучения продажам: ИИ создаст структуру из 5 модулей под вашу команду

Как сегментировать клиентов для персонализированных офферов: ИИ предложит сегментацию на основе поведения

Как составить отчет по воронке продаж с комментариями: ИИ визуализирует этапы и предложит интерпретации

Как повысить отклик в WhatsApp/Telegram: ИИ предложит 3 шаблона сообщений для лида

Как построить email-цепочку для новых лидов: ИИ предложит 5 писем с темами и CTA

Как подготовить предложение по апсейлу на основе данных клиента: ИИ построит логику апгрейда

Как усилить вовлеченность клиента в продукт: ИИ подскажет 5 триггеров вовлечения и сценариев взаимодействия

Как выйти на лицо, принимающее решение: ИИ подскажет формулировки для B2B звонка

Как сделать продающий лендинг на один экран: ИИ предложит блоки и тексты под конверсию

Как выявить пробелы в навыках команды: ИИ сгенерирует диагностическую сессию на 30 минут

Как создать FAQ по продукту для ускорения продаж: ИИ сгенерирует 15 технических вопросов и ответов

Умные продажи

Новые алгоритмы UCB-E и UCB-E-LRF для эффективной и экономичной оценки многорукого бандита

Как использовать ChatGPT для создания увлекательных технических презентаций

IBM выпустила Qiskit SDK v1.2: улучшение оптимизации квантовых схем и расширение возможностей квантовых вычислений.

AutoCBT: Адаптивная система для улучшенной автоматизированной когнитивно-поведенческой терапии

Машинное обучение упрощает моделирование потерь сигнала с помощью упрощенных функций

Метод AI для заполнения прозрачных объектов.

Примеры панелей управления продажами для настройки вашей собственной

Новая статья: Улучшение моделирования последовательностей с помощью техник FFT

Карта сайта

Политика конфиденциальности

Политика комментариев

Пресс-релизы

Реклама

Страница главного редактора