Itinai.com beautiful russian high fashion sales representativ e8ce0e05 a01f 4fa9 91b3 ff171711e669 3
Itinai.com beautiful russian high fashion sales representativ e8ce0e05 a01f 4fa9 91b3 ff171711e669 3

Алгоритм гибридного обучения с подкреплением, использующий оффлайн данные для оптимизации предпочтений на основе контраста и онлайн неразмеченные данные для регуляризации KL.

 HyPO: A Hybrid Reinforcement Learning Algorithm that Uses Offline Data for Contrastive-based Preference Optimization and Online Unlabeled Data for KL Regularization

«`html

Решения для продаж и маркетинга: Применение искусственного интеллекта (ИИ) для улучшения бизнеса

Ключевым аспектом исследований в области ИИ является настройка больших языковых моделей (LLM) для соответствия предпочтениям человека. Эта настройка гарантирует, что системы ИИ генерируют полезные, актуальные и соответствующие ожиданиям пользователя ответы. Текущая парадигма в области ИИ подчеркивает важность обучения на основе данных о предпочтениях людей для улучшения этих моделей, решая сложности ручной спецификации функций вознаграждения для различных задач. Два основных метода в этой области — это онлайн обучение с подкреплением (RL) и офлайн контрастные методы, каждый из которых имеет уникальные преимущества и вызовы.

Проблема и практические решения

Одной из центральных проблем настройки LLM для отражения предпочтений людей является ограниченное покрытие статических наборов данных. Эти наборы данных должны адекватно представлять разнообразие и динамический спектр человеческих предпочтений в реальных приложениях. Проблема покрытия набора данных становится особенно острой, когда модели обучаются исключительно на предварительно собранных данных, что потенциально приводит к субоптимальной производительности. Это подчеркивает необходимость методов эффективного использования статических наборов данных и данных в реальном времени для улучшения соответствия модели предпочтениям людей.

Существующие техники для настройки предпочтений в LLM включают онлайн методы RL, такие как Proximal Policy Optimization (PPO), и офлайн контрастные методы, такие как Direct Preference Optimization (DPO). Онлайн методы RL включают двухэтапную процедуру, при которой модель вознаграждения обучается на фиксированном офлайн наборе предпочтений, за которым следует обучение RL с использованием данных в реальном времени. Этот подход позволяет получать обратную связь в реальном времени, но требует больших вычислительных ресурсов. В отличие от этого, офлайн контрастные методы оптимизируют политики исключительно на основе предварительно собранных данных, избегая необходимости выборки в реальном времени, но потенциально страдая от переобучения и ограниченных возможностей обобщения.

Новый метод HyPO: гибридная оптимизация предпочтений

Исследователи из университетов Carnegie Mellon, Aurora Innovation и Cornell University представили новый метод под названием Hybrid Preference Optimization (HyPO). Этот гибридный подход объединяет мощь онлайн и офлайн техник с целью улучшения производительности модели при сохранении вычислительной эффективности. HyPO использует офлайн данные для начальной оптимизации предпочтений и онлайн неразмеченные данные для регуляризации Kullback-Leibler (KL), обеспечивая близость модели к эталонной политике и лучшее обобщение за пределами обучающих данных.

HyPO эффективно решает проблемы чисто офлайн методов, такие как переобучение и недостаточное покрытие набора данных, путем интеграции преимуществ онлайн методов RL без их вычислительной сложности.

Результаты и выводы

Результаты оценки производительности HyPO на нескольких бенчмарках, включая задачу TL;DR суммирования и общие бенчмарки чата, показали впечатляющие результаты. HyPO продемонстрировал значительное улучшение производительности по сравнению с DPO, подчеркивая потенциал для достижения более точных и надежных систем ИИ.

В заключение, внедрение гибридной оптимизации предпочтений (HyPO), которая эффективно сочетает офлайн и онлайн данные, решает ограничения существующих методов и улучшает соответствие больших языковых моделей предпочтениям людей. Улучшение производительности, продемонстрированное в эмпирических оценках, подчеркивает потенциал HyPO для достижения более точных и надежных систем ИИ.

Подробнее ознакомьтесь с исследованием. Все заслуги за это исследование принадлежат его авторам. Также не забудьте подписаться на наш Twitter и присоединиться к нашему каналу в Telegram и группе в LinkedIn. Если вам нравится наша работа, вам понравится наша рассылка.

Не забудьте присоединиться к нашему сообществу Reddit

Найдите предстоящие вебинары по ИИ здесь

Этот пост был опубликован на MarkTechPost.

«`

Бесплатный ИИ: для автоматизации продаж