Интегрирование человеческих ценностей после обучения модели с использованием алгоритмов на основе обучения требует тонкой настройки LLMs, что требует больше вычислительной мощности и занимает много времени. Кроме того, это приводит к появлению предвзятых и нежелательных ответов от пользователя. Необходимо разработать модель, которая может эффективно адаптироваться к предпочтениям пользователя в реальном времени, интегрируя алгоритмы, способные вмешиваться на этапе вывода. Этот метод позволит избежать многократного переобучения моделей для достижения желаемых результатов, замораживая базовую модель и снижая вычислительные затраты на тонкую настройку LLMs.
Исследователи разработали методы выравнивания на этапе вывода для интеграции человеческих ценностей после тонкой настройки LLMs с использованием неявных и явных функций без изменения базовой модели. Неявные функции используются для генерации токенов, проводя оценку слово за словом и предпочитая вывод с наивысшей вероятностью. В отличие от этого, явные функции требуют жесткой структуры для оценки более крупных фрагментов текста и генерации следующей последовательности слов с наивысшей вероятностью, сохраняя общий контекст. Явная функция не гибкая и вычислительно дорогостоящая, не способна решить задачи оптимизации на уровне токенов, в то время как неявная функция сталкивается с проблемами интерпретируемости и требует частых прямых проходов, что приводит к низкой эффективности в реальном времени.
Для преодоления недостатков обеих функций предложенный метод, Integrated Value Guidance (IVG), объединяет оптимизацию на уровне токенов неявной функции и широкий обзор явной функции. Это позволило преодолеть вызовы адаптации и компромиссы в эффективности выравнивания, приводя к уменьшению различий в производительности и упрощая реализацию. Эти преимущества способствовали лучшей производительности в задачах, таких как управляемая генерация настроения и резюмирование. IVG, в сочетании с более маленькими моделями, такими как GPT-2, мог бы конкурировать с более крупными моделями.
IVG включает две функции ценности, неявную и явную функции, для выравнивания модели с человеческими ценностями. Сначала выборочная настройка на уровне токенов тонко настраивает отдельные токены на определенную длину последовательности, генерируя несколько последовательностей. Затем поиск лучшего варианта на уровне фрагмента сравнивает вероятности этих последовательностей и выбирает ту, у которой наивысшая вероятность. Хотя этот метод гарантирует, что вывод более надежен, вычислительная мощность увеличивается во время вывода из-за частых прямых проходов, что приводит к замедлению ответов.