Google Deepmind представляет BOND: новый метод обучения с подкреплением для тонкой настройки политики.

«`html

Усиление обучения на основе обратной связи от человека (RLHF) для улучшения качества и безопасности в языковых моделях

RLHF существенен для обеспечения качества и безопасности в языковых моделях. Современные языковые модели, такие как Gemini и GPT-4, проходят три этапа обучения: предварительное обучение на больших корпусах, SFT и RLHF для улучшения качества генерации. RLHF включает в себя обучение модели вознаграждения (RM) на основе предпочтений людей и оптимизацию языковой модели для максимизации предсказанных вознаграждений. Этот процесс сложен из-за забывания предварительно обученных знаний и взлома вознаграждения.

Практический подход для улучшения качества генерации

Практический подход для улучшения качества генерации — это Best-of-N сэмплирование, которое выбирает лучший результат из N сгенерированных кандидатов, эффективно балансируя вознаграждение и вычислительные затраты.

Инновационный алгоритм RLHF: Best-of-N Distillation (BOND)

Исследователи Google DeepMind представили BOND, инновационный алгоритм RLHF, разработанный для репликации производительности Best-of-N сэмплирования без высоких вычислительных затрат. BOND — алгоритм сопоставления распределений, который выравнивает выход политики с распределением Best-of-N. Используя дивергенцию Джеффриса, BOND итеративно улучшает политику через подход с движущейся якорной точкой. Эксперименты на абстрактном резюмировании и моделях Gemma показывают, что BOND, особенно его вариант J-BOND, превосходит другие алгоритмы RLHF, улучшая компромисс между вознаграждением и производительностью.

Преимущества и эффективность BOND

BOND — новый метод RLHF, который улучшает политики через онлайн дистилляцию распределения Best-of-N сэмплирования. Алгоритм J-BOND улучшает практичность и эффективность, интегрируя оценку квантилей методом Монте-Карло, объединяя цели прямой и обратной дивергенции Кульбака-Лейблера и используя итеративную процедуру с якорной точкой экспоненциального скользящего среднего. Этот подход улучшает фронт Парето между дивергенцией и вознаграждением и превосходит современные базовые уровни.

Подробнее о исследовании можно узнать в статье. Вся заслуга за это исследование принадлежит его авторам. Также не забудьте подписаться на наш Twitter и присоединиться к нашему Telegram-каналу и группе в LinkedIn. Если вам понравилась наша работа, вам понравится и наш новостной бюллетень.

Не забудьте присоединиться к нашему сообществу из 47 000+ участников на ML SubReddit.

Узнайте о предстоящих вебинарах по ИИ здесь.

Используйте ИИ для улучшения ваших бизнес-процессов и оставайтесь в числе лидеров!

«`

saile.ru • ИИ в продажах

Google Deepmind представляет BOND: новый метод обучения с подкреплением для тонкой настройки политики.

Усиление обучения на основе обратной связи от человека (RLHF) для улучшения качества и безопасности в языковых моделях

Практический подход для улучшения качества генерации

Инновационный алгоритм RLHF: Best-of-N Distillation (BOND)

Преимущества и эффективность BOND

Бесплатный ИИ: для автоматизации продаж

Как выстроить план продаж на квартал: ИИ рассчитает цели, шаги и загрузку команды по каналам

Как мотивировать команду без увеличения фонда оплаты: ИИ предложит нематериальные модели мотивации

Как подготовить предложение по апсейлу на основе данных клиента: ИИ построит логику апгрейда

Как составить отчет по воронке продаж с комментариями: ИИ визуализирует этапы и предложит интерпретации

Как подготовить технический блок в коммерческом предложении: ИИ составит текст на 1 страницу

Как сократить цикл сделки: ИИ предложит действия по ускорению на каждом этапе

Как за 5 минут составить скрипт исходящего звонка под продукт: ИИ предложит структуру и фразы под целевую аудиторию

Как убедить клиента в безопасности и стабильности решения: ИИ подберёт аргументы и ссылки на стандарты

Как не “свалиться” в презентацию вместо диалога: ИИ составит структуру вопросов на выявление боли

Как визуализировать продажи по регионам за 10 минут: ИИ соберёт карту и отметит аномалии

Как выявить пробелы в навыках команды: ИИ сгенерирует диагностическую сессию на 30 минут

Как выстроить мотивацию маркетинга за продажи: ИИ предложит модель KPI и бонусов

Умные продажи

Anthropic AI представила новый API для подсчёта токенов

Появление интеллекта в больших языковых моделях: как сложность влияет на системы с правилами

Модель Fox Foundation от TensorOpera: уникальный шаг в развитии малых языковых моделей для облачных и краевых вычислений.

MBA-SLAM: Новый ИИ-фреймворк для надежного RGB-D SLAM с двумя версиями — неявными радиационными полями и явным гауссовым разбиением.

Gaze-LLE: Новый ИИ-модель для определения точки взгляда на основе статической визуальной модели

Google Quantum AI представляет чип Willow: новый квантовый процессор с прорывом в снижении ошибок.

Новый инструмент для создания среды для тестирования агентов с использованием искусственного интеллекта: Crab Framework

Контакты

Партнеры

Вакансии

Редакционная политика

О нас

Подписка