
Исследование контекстного обучения с подкреплением в крупных языковых моделях с помощью разреженных автоэнкодеров
Практические решения и ценность
Крупные языковые модели (LLM) продемонстрировали удивительные возможности обучения в контексте в различных областях, включая перевод, функциональное обучение и обучение с подкреплением. Однако механизмы, лежащие в их основе, особенно в обучении с подкреплением (RL), остаются плохо понятыми. Исследователи пытаются раскрыть, как LLM учатся генерировать действия, максимизирующие будущие дисконтированные вознаграждения методом проб и ошибок, имея только скалярный сигнал вознаграждения. Центральная проблема заключается в понимании того, как LLM реализуют обучение методом временной разницы (TD), фундаментальное понятие в RL, которое включает в себя обновление оценок ценности на основе разницы между ожидаемыми и фактическими вознаграждениями.
Предыдущие исследования исследовали контекстное обучение с механистической точки зрения, демонстрируя, что трансформеры могут обнаруживать существующие алгоритмы без явного руководства. Исследования показали, что трансформеры могут реализовывать различные методы регрессии и обучения с подкреплением в контексте. Разреженные автоэнкодеры успешно использовались для декомпозиции активаций языковой модели на интерпретируемые признаки, выявляя как конкретные, так и абстрактные концепции. Несколько исследований изучили интеграцию обучения с подкреплением и языковых моделей для улучшения производительности в различных задачах. Эти исследования вносят вклад в область, фокусируясь на понимании механизмов, через которые крупные языковые модели реализуют обучение с подкреплением, продолжая тем самым существующую литературу по контекстному обучению и интерпретируемости моделей.
Исследователи из Института по искусственному интеллекту, Центра вычислительного здравоохранения им. Гельмгольца и Института биологической кибернетики им. Макса Планка применили разреженные автоэнкодеры (SAE) для анализа представлений, поддерживающих контекстное обучение в настройках RL. Этот подход оказался успешным в построении механистического понимания нейронных сетей и их представлений. Предыдущие исследования применяли SAE к различным аспектам анализа нейронных сетей, демонстрируя их эффективность в выявлении основных механизмов. Используя SAE для изучения контекстного RL в Llama 3 70B, исследователи стремятся систематически исследовать и манипулировать процессами обучения модели. Этот метод позволяет выявить представления, аналогичные ошибкам TD и Q-значениям в различных задачах, предоставляя понимание того, как LLM реализуют алгоритмы RL через предсказание следующего токена.
Исследователи разработали методологию для анализа контекстного обучения с подкреплением в Llama 3 70B с использованием SAE. Они разработали простой процесс принятия решений Маркова, вдохновленный задачей с двумя шагами, где Llama должна была делать последовательные выборы для максимизации вознаграждений. Производительность модели оценивалась на протяжении 100 независимых экспериментов, каждый из которых состоял из 30 эпизодов. SAE обучались на выходах остаточного потока из трансформаторных блоков Llama, используя вариации задачи с двумя шагами для создания разнообразного набора данных. Этот подход позволил исследователям выявить представления, аналогичные ошибкам TD и Q-значениям, предоставляя понимание того, как Llama реализует алгоритмы RL через предсказание следующего токена.
Исследователи расширили свой анализ до более сложной задачи навигации по сетке 5×5, где Llama предсказывала действия агентов Q-обучения. Они обнаружили, что Llama улучшала свои предсказания действий со временем, особенно при наличии правильной информации о вознаграждении. SAE, обученные на представлениях остаточного потока Llama, выявили латенты, сильно коррелирующие с Q-значениями и ошибками TD генерирующего агента. Деактивация или зажим этих TD-латент значительно ухудшали способность Llama предсказывать действия и снижали корреляции с Q-значениями и ошибками TD. Эти результаты дополнительно подтверждают гипотезу о том, что внутренние представления Llama кодируют подобные обучению с подкреплением вычисления, даже в более сложных средах с большими пространствами состояний и действий.
Исследователи изучают способность Llama изучать графовые структуры без вознаграждений, используя концепцию Successor Representation (SR). Они предложили Llama наблюдения из случайного блуждания по латентному графу сообщества. Результаты показали, что Llama быстро научилась предсказывать следующее состояние с высокой точностью и разработала представления, аналогичные SR, захватывая глобальную геометрию графа. Анализ разреженного автоэнкодера показал более сильные корреляции с SR и связанными с ней ошибками TD, чем с альтернативами на основе модели. Деактивация ключевых TD-латентов ухудшила точность предсказаний Llama и нарушила ее изученные графовые представления, демонстрируя причинную роль подобных обучению с подкреплением вычислений в способности Llama изучать структурные знания.
Это исследование предоставляет доказательства того, что крупные языковые модели (LLM) реализуют обучение методом временной разницы (TD) для решения проблем обучения с подкреплением в контексте. Используя разреженные автоэнкодеры, исследователи выявили и манипулировали ключевыми признаками для контекстного обучения, демонстрируя их влияние на поведение и представления LLM. Этот подход открывает пути для изучения различных способностей контекстного обучения и устанавливает связь между механизмами обучения LLM и наблюдаемыми у биологических агентов, оба из которых реализуют вычисления TD в аналогичных сценариях.
Продвижение вашего продукта или услуги среди AI разработчиков и исследователей
Если вы хотите, чтобы ваша компания развивалась с помощью искусственного интеллекта (ИИ) и оставалась в числе лидеров, грамотно используйте Exploring In-Context Reinforcement Learning in LLMs with Sparse Autoencoders.
Проанализируйте, как ИИ может изменить вашу работу. Определите, где возможно применение автоматизации: найдите моменты, когда ваши клиенты могут извлечь выгоду из AI.
Определитесь какие ключевые показатели эффективности (KPI): вы хотите улучшить с помощью ИИ.
Подберите подходящее решение, сейчас очень много вариантов ИИ. Внедряйте ИИ решения постепенно: начните с малого проекта, анализируйте результаты и KPI.
На полученных данных и опыте расширяйте автоматизацию.
Если вам нужны советы по внедрению ИИ, пишите нам на Telegram. Следите за новостями об ИИ в нашем Телеграм-канале.
Попробуйте AI Sales Bot. Это AI ассистент для продаж, он помогает отвечать на вопросы клиентов, генерировать контент для отдела продаж, снижать нагрузку на первую линию.
Узнайте, как ИИ может изменить процесс продаж в вашей компании с решением от saile.ru будущее уже здесь!





















