Itinai.com beautiful russian high fashion sales representativ 1842ca81 1c46 4a4f a47a e39d13635ca8 2
Itinai.com beautiful russian high fashion sales representativ 1842ca81 1c46 4a4f a47a e39d13635ca8 2

Open-Reasoner-Zero: реализация с открытым исходным кодом крупномасштабного обучения с подкреплением, ориентированного на рассуждения

Масштабное обучение с подкреплением (RL) для языковых моделей, направленное на решение задач, стало многообещающей техникой для освоения сложных навыков решения проблем. Современные методы, такие как o1 от OpenAI и R1-Zero от DeepSeek, продемонстрировали замечательное увеличение производительности при масштабировании времени обучения. Оба модели показывают стабильный рост как в показателях, так и в длине ответов без признаков насыщения по мере увеличения вычислительных ресурсов.

Исследователи из StepFun и Университета Цинхуа предложили Open-Reasoner-Zero (ORZ), открытую реализацию масштабного обучения с подкреплением для языковых моделей. ORZ улучшает разнообразные навыки рассуждения с использованием проверяемых вознаграждений, включая арифметику, логику, программирование и общее рассуждение. Он решает важные задачи стабильности обучения, оптимизации длины ответов и улучшения производительности через комплексную стратегию обучения.

ORZ использует Qwen2.5-{7B, 32B} в качестве базовой модели и реализует прямое масштабное обучение RL без предварительных этапов тонкой настройки. Система использует масштабированную версию стандартного алгоритма PPO, оптимизированного для задач рассуждения. Набор данных для обучения состоит из тщательно подобранных пар вопросов и ответов, сосредоточенных на STEM, математике и различных задачах рассуждения.

Результаты обучения демонстрируют значительные улучшения производительности по нескольким метрикам для обеих конфигураций Open-Reasoner-Zero. Обучающие кривые показывают постоянные улучшения в метриках вознаграждений и длине ответов. Модель Open-Reasoner-Zero-32B достигает сопоставимых длины ответов с DeepSeek-R1-Zero (671B MoE) при использовании всего 1/5.8 от количества шагов обучения, что подтверждает эффективность минималистского подхода к масштабному обучению RL.

Основные экспериментальные результаты показывают, что Open-Reasoner-Zero демонстрирует выдающиеся результаты по нескольким оценочным метрикам, особенно в конфигурации 32B. Он превосходит DeepSeek-R1-Zero-Qwen2.5-32B на бенчмарке GPQA DIAMOND, требуя всего 1/30 шагов обучения. Кроме того, 7B вариант показывает интересные динамики обучения с постоянным увеличением точности и резким ростом длины ответов.

В данной работе исследователи представили Open-Reasoner-Zero, что стало важным шагом к демократизации масштабного обучения с подкреплением для языковых моделей. Исследование показывает, что упрощенный подход с использованием стандартного PPO может достигать конкурентоспособных результатов по сравнению с более сложными системами. Успешная реализация без регуляризации KL доказывает, что сложные архитектурные изменения могут не быть необходимыми для достижения сильных способностей рассуждения.

Изучите, как технологии искусственного интеллекта могут изменить ваш подход к работе. Найдите процессы, которые можно автоматизировать, и моменты взаимодействия с клиентами, где ИИ может добавить наибольшую ценность. Определите важные KPI, чтобы убедиться, что ваши инвестиции в ИИ действительно положительно влияют на бизнес. Начните с небольшого проекта, соберите данные о его эффективности и постепенно расширяйте использование ИИ в вашей работе.

 По вопросам сотрудничества пишите:

Telegram: @itinai
Почта: itinai.com@gmail.com

 

Бесплатный ИИ: для автоматизации продаж

Умные продажи