
Исследователи Google DeepMind предлагают метод GenRM: обучение верификаторов с предсказанием следующего токена для использования способностей текстового поколения LLMs
Искусственный интеллект (ИИ), в частности область генеративного ИИ, фокусируется на создании систем способных генерировать текст, решать сложные задачи логического рассуждения. Эти модели имеют важное значение в различных областях, включая обработку естественного языка. Их основная функция — предсказание последующих слов в последовательности, генерация связного текста и решение логических и математических проблем.
Проблема
Одной из значительных проблем в этой области является тенденция генеративных моделей ИИ производить результаты, которые, хотя и уверенные и убедительные, могут потребовать коррекции. Это вызывает сложности в областях, где важна точность, таких как образование, финансы и здравоохранение. Основная проблема заключается в неспособности моделей последовательно генерировать правильные ответы, что подрывает их потенциал в приложениях с большой ответственностью.
Решение
Исследователи из Google DeepMind предложили новый подход, называемый Generative Reward Modeling (GenRM). Этот метод переосмысливает процесс верификации, представляя его как задачу предсказания следующего токена, основную способность LLMs. В отличие от традиционных дискриминационных моделей GenRM интегрирует способности генерации текста LLMs в процесс верификации, позволяя модели генерировать и оценивать потенциальные решения одновременно. Этот подход также поддерживает логику мышления (Chain-of-Thought, CoT), позволяя модели генерировать промежуточные логические шаги перед принятием конечного решения. Таким образом, метод GenRM не только оценивает правильность решений, но и улучшает общий процесс рассуждения, позволяя более детальные и структурированные оценки.
Преимущества и результаты
Производительность модели GenRM, особенно в сочетании с логикой мышления CoT, значительно превосходит традиционные методы верификации. В серии строгих тестов, включая задачи по элементарной математике и алгоритмическим задачам, модель GenRM продемонстрировала заметное улучшение точности. Исследователи сообщили о 16-64% увеличении процента верно решенных задач по сравнению с дискриминационными моделями и методом LLM-as-a-Judge. Это значительное улучшение подчеркивает способность модели устранять ошибки, которые часто упускают стандартные верификаторы, особенно в сложных ситуациях рассуждения. Кроме того, исследователи обнаружили, что модель GenRM эффективно масштабируется с увеличением размера набора данных и мощности модели, что дополнительно улучшает ее применимость к различным задачам рассуждения.
Заключение
Введение метода GenRM исследователями из Google DeepMind является значительным прогрессом в области генеративного ИИ, особенно в решении проблем верификации связанных со сложными рассуждениями. Модель GenRM предлагает более надежный и точный подход к решению сложных задач путем объединения генерации решения и его верификации в единый процесс. Этот метод улучшает точность ИИ-сгенерированных решений и улучшает общий процесс рассуждения, делая его ценным инструментом для будущих приложений ИИ в различных областях.