
«`html
Настройка больших языковых моделей на основе обратной связи от человека
Большие языковые модели (LLM) существенно продвинулись в последнее время, в основном благодаря увеличенной способности эффективно следовать командам человека. Обучение с подкреплением на основе обратной связи от человека (RLHF) является основной техникой соответствия LLM целям человека. Этот метод работает путем оптимизации функции вознаграждения, которая может быть перепараметризована в политике LLM или быть независимой моделью.
Выравнивание преследует цель
Данные о предпочтениях человека относительно пар запрос-ответ используются для выведения этой функции вознаграждения. Разнообразие ответов, обнаруженное в данных предпочтений, является критическим компонентом эффективности этого выравнивания. Это разнообразие облегчает разработку более адаптивных и мощных языковых моделей, предотвращая застревание моделей вознаграждения в локальных оптимумах.
Оффлайн и онлайн выравнивание
Выравнивание может проводиться в основном онлайн или оффлайн. Оффлайн выравнивание предполагает ручное создание разнообразных ответов для предопределенных запросов, но оно не очень успешно охватывает широкий диапазон возможностей естественного языка. В отличие от этого, онлайн выравнивание использует итеративную процедуру, в ходе которой новые данные предпочтения для обучения модели вознаграждения генерируются через обратную связь после выборки ответов от LLM.
Улучшение процесса исследования
Для решения проблемы пассивного исследования и склонности к переобучению предложен метод, который активно исследует регионы, находящиеся вне распределения. Результативный подход под названием SELM способен значительно улучшить производительность на бенчмарках, таких как MT-Bench и AlpacaEval 2.0, и показывает хорошие результаты в различных контекстах.
Результатом является значительное улучшение соответствия LLM целям человека и создание более капабельных и надежных языковых моделей.
Подробнее см. в документе и на GitHub.
«`




















