SimPO: эффективный и масштабируемый RLHF для больших языковых моделей

«`html

Преимущества SimPO для оптимизации предпочтений в обучении с подкреплением

Искусственный интеллект продолжает развиваться, сосредотачиваясь на оптимизации алгоритмов для улучшения производительности и эффективности больших языковых моделей (LLM). Одной из основных проблем в этой области является оптимизация функций вознаграждения, используемых в обучении с подкреплением. Традиционные методы включают сложные многоэтапные процессы, требующие значительных вычислительных ресурсов и могут привести к субоптимальной производительности из-за расхождений между метриками обучения и вывода. Существующие исследования включают методы, такие как DPO, IPO, KTO и ORPO, которые предлагают вариации обработки данных предпочтений и оптимизации без ссылочных моделей.

SimPO: простое и эффективное решение

Исследователи из Университета Вирджинии и Принстонского университета представили SimPO, более простой и эффективный подход к оптимизации предпочтений. SimPO использует среднюю логарифмическую вероятность последовательности в качестве неявного вознаграждения, лучше соответствуя генерации модели и устраняя необходимость в ссылочной модели. Метод также включает целевую границу вознаграждения для обеспечения значительной разницы между победными и проигрышными ответами, что улучшает стабильность производительности.

Ядро инновации SimPO заключается в использовании нормализованного по длине вознаграждения, рассчитанного как средняя логарифмическая вероятность всех токенов в ответе. Этот подход обеспечивает соответствие вознаграждения метрике генерации, улучшая производительность модели. Кроме того, SimPO вводит целевую границу вознаграждения для цели Bradley-Terry для поощрения большей разницы между победными и проигрышными ответами.

Преимущества SimPO

SimPO значительно превосходит DPO и его последние варианты на различных настройках обучения, включая базовые и инструкционные модели. На бенчмарке AlpacaEval 2 SimPO превзошел DPO на 6,4 пункта, продемонстрировав значительное улучшение в генерации точных и релевантных ответов. Также SimPO показал еще более впечатляющую производительность на сложном бенчмарке Arena-Hard, превзойдя DPO на 7,5 пункта. Топовая модель, построенная на Llama3-8B-Instruct, достигла замечательной длинно-контролируемой победной ставки на AlpacaEval 2, превзойдя Claude 3 Opus в рейтинге, и 33,8% победной ставки на Arena-Hard, что делает ее самой мощной 8B моделью с открытым исходным кодом на сегодняшний день.

Практичность SimPO заключается в эффективном использовании данных предпочтений, что приводит к более точному ранжированию вероятности победы и поражения на проверочном наборе. Это переводится в лучшую модель политики, способную последовательно генерировать качественные ответы. Эффективность SimPO также проявляется в его вычислительных требованиях, снижая необходимость в обширных вычислительных ресурсах.

В заключение, SimPO представляет собой значительное достижение в оптимизации предпочтений для обучения с подкреплением, предлагая более простой и эффективный метод, который последовательно обеспечивает превосходную производительность. Внедрение целевой границы вознаграждения также гарантирует, что сгенерированные ответы не только релевантны, но также высокого качества, делая SimPO ценным инструментом для будущих разработок в области искусственного интеллекта.

Проверьте статью и GitHub. Вся заслуга за это исследование принадлежит исследователям этого проекта. Также не забудьте подписаться на нас в Twitter. Присоединяйтесь к нашему Telegram-каналу, Discord-каналу и группе LinkedIn.

Если вам нравится наша работа, вам понравится наш новостной бюллетень.

Не забудьте присоединиться к нашему 43k+ ML SubReddit | Также, ознакомьтесь с нашей платформой AI Events.

Источник: MarkTechPost

«`

saile.ru • ИИ в продажах

SimPO: эффективный и масштабируемый RLHF для больших языковых моделей

Преимущества SimPO для оптимизации предпочтений в обучении с подкреплением

SimPO: простое и эффективное решение

Преимущества SimPO

Бесплатный ИИ: для автоматизации продаж

Как построить индивидуальную стратегию развития ключевого клиента на 12 месяцев: ИИ разложит по этапам CJM и точкам роста

Как составить отчет по продажам без Excel: ИИ создаст шаблон под презентацию руководству

Как рассчитать идеальную цену для новых товаров: ИИ применит эластичность и сравнит с конкурентами

Как усилить вовлеченность клиента в продукт: ИИ подскажет 5 триггеров вовлечения и сценариев взаимодействия

Как составить отчет по воронке продаж с комментариями: ИИ визуализирует этапы и предложит интерпретации

Как быстро отработать 7 типовых возражений клиента: ИИ предложит готовые формулировки под скрипт

Как спрогнозировать продажи на следующий квартал с учётом сезонности: ИИ построит модель тренда и сезонных факторов

Как автоматизировать ежедневный отчёт по KPI отдела продаж: ИИ соберёт шаблон под CRM и формат дашборда

Как построить SEO-ядро для блога: ИИ подберет 30 ключевых слов по поисковым запросам ЦА

Как вести себя при потоке клиентов: ИИ составит алгоритм из 4 шагов на перегруженной точке

Как сформулировать УТП для лендинга: ИИ предложит 3 варианта в формате “для кого — решение — выгода”

Как оценить эффективность обучения: ИИ предложит шаблон отчета по модели Kirkpatrick

Умные продажи

Как мозг использует встроенные представления и инкарнацию для кодирования чувств и декодирования символов?

Появление интеллекта в больших языковых моделях: как сложность влияет на системы с правилами

Управляемая безопасность: ИИ-рамка для адаптации моделей к различным требованиям безопасности без переобучения

LLMDet: Как большие языковые модели улучшают обнаружение объектов с открытым словарем

TREAT: Фреймворк глубокого обучения для точного моделирования динамических систем с учетом симметрии обратного времени

Выбор моделей вознаграждения и обучение с использованием нескольких моделей вознаграждения.

R3GAN: Упрощенная и стабильная основа для генеративных состязательных сетей (GAN)

Новый метод для улучшения больших языковых моделей: ввод векторов в контексте (ICV) от ученых из Стэнфорда

Доступность

О нас

Контакты

Редакционная политика

Политика конфиденциальности

Политика комментариев