Исследование Массачусетского технологического института о том, как обучать языковые модели забывать

«`html

Изучение поведения обобщения в забывании навыков языковых моделей

Языковые модели (LM) привлекли значительное внимание в последние годы благодаря своим удивительным возможностям. Во время обучения этих моделей сначала происходит предварительное обучение нейронных последовательностей на большом минимально обработанном тексте из Интернета, а затем происходит тонкая настройка с использованием конкретных примеров и обратной связи от людей. Однако эти модели часто обладают нежелательными навыками или знаниями, которые создатели хотели бы убрать перед внедрением. Проблема заключается в эффективном «забывании» или удалении конкретного потенциала без потери общей производительности модели. В то время как недавние исследования сосредоточены на разработке техник для удаления целевых навыков и знаний из LM, было ограниченное оценивание того, как это забывание обобщается на другие входы.

Решения и практические выводы:

Существующие попытки решить проблему машинного «забывания» развивались от предыдущих методов, сфокусированных на удалении нежелательных данных из обучающих наборов, к более продвинутым техникам. К ним относятся методы, основанные на оптимизации, редактировании модели с использованием оценки важности параметров и градиентном восхождении на нежелательные ответы. Некоторые методы включают фреймворки для сравнения незабытых сетей с полностью переобученными, в то время как некоторые методы специфичны для больших языковых моделей (LLM), таких как подсадочные вопросы или манипулирование представлениями модели. Однако большинство этих подходов имеют ограничения в осуществимости, обобщаемости или применимости к сложным моделям, таким как LLM.

Исследователи из MIT предложили новый подход для изучения поведения обобщения в забывании навыков в LM. Этот метод включает тонкую настройку моделей на случайно помеченных данных для целевых задач, простую, но эффективную технику для вызывания забывания. Эксперименты проводятся для охарактеризации обобщения забывания и выявления нескольких ключевых результатов. Подход подчеркивает характер забывания в LMs и сложности эффективного удаления нежелательного потенциала из этих систем. Это исследование показывает сложные закономерности кросс-задачевой изменчивости в забывании и необходимость дальнейшего изучения того, какие данные, использованные для забывания, влияют на предсказания модели в других областях.

Для осуществления всесторонней оценочной рамки используется 21 задача с выбором из нескольких вариантов ответов в различных областях, таких как здравый смысл, понимание прочитанного, математика, токсичность и понимание языка. Эти задачи выбраны для охвата широкого спектра возможностей при сохранении последовательного формата с выбором из нескольких вариантов ответов. Процесс оценки следует стандартам оценки языковых моделей (LMEH) для нулевой оценки, используя стандартные подсказки и оценивая вероятности выбора. Задачи бинаризованы, и предпринимаются шаги по очистке наборов данных путем удаления перекрывающихся между обучающими и тестовыми данными и ограничению размеров выборок для сохранения последовательности. Эксперименты в основном используют базовую модель на 7-B параметров Llama2, обеспечивая прочную основу для анализа поведения забывания.

Результаты демонстрируют разнообразное поведение забывания в различных задачах. После тонкой настройки точность теста возрастает, хотя она может немного снизиться, поскольку набор проверки не идентичен набору теста. Фаза забывания производит три различные категории поведения:

Точность забывания очень похожа на точность тонкой настройки.
Точность забывания уменьшается, но все равно остается выше точности предварительного обучения.
Точность забывания уменьшается до уровня ниже точности предварительного обучения и возможно до 50%.

Эти результаты подчеркивают сложную природу забывания в LMs и зависящую от задачи природу обобщения забывания.

В заключение, исследователи из MIT разработали подход для изучения поведения обобщения в забывании навыков в LM. В данной статье отмечается эффективность тонкой настройки LM на случайные ответы для вызывания забывания конкретных навыков. Оценочные задачи определяют степень забывания, и факторы, такие как сложность набора данных и уверенность модели, не предсказывают, насколько хорошо происходит забывание. Однако полная изменчивость скрытых состояний модели коррелирует с успехом забывания. Будущие исследования должны направляться на понимание того, почему некоторые примеры забываются в пределах задач и изучение механизмов объяснения процесса забывания.

«`

saile.ru • ИИ в продажах

Исследование Массачусетского технологического института о том, как обучать языковые модели забывать

Изучение поведения обобщения в забывании навыков языковых моделей

Решения и практические выводы:

Бесплатный ИИ: для автоматизации продаж

Как подготовить технический блок в коммерческом предложении: ИИ составит текст на 1 страницу

Как собирать контакты после диалога: ИИ предложит 3 формулировки, чтобы получить номер или подписку

Как продавать через сторителлинг: ИИ предложит 3 истории для продукта

Как создать серию упражнений по отработке “дорого/надо подумать”: ИИ сгенерирует 5 ролевых кейсов

Как провести технический аудит инфраструктуры клиента перед внедрением: ИИ предложит чек-лист

Как обучать новых менеджеров быстрее: ИИ составит чек-лист онбординга и KPI на 2 недели

Как закрыть сделку на Zoom: ИИ предложит 5 реплик, которые работают на финале воронки

Как проводить еженедельные touchpoints с клиентом: ИИ предложит структуру коротких регулярных созвонов

Как перераспределить нагрузку между менеджерами: ИИ проанализирует воронку и укажет узкие места

Как составить план действий на день: ИИ подскажет порядок задач на утро/день/вечер

Как настроить CJM для новой целевой аудитории: ИИ разложит этапы и боли по шаблону

Как сформулировать УТП для лендинга: ИИ предложит 3 варианта в формате “для кого — решение — выгода”

Умные продажи

Генератор оптимального кода для PyTorch на GPU.

SVDQuant: Новый метод 4-битной постобучающей квантизации для диффузионных моделей

6 распространенных способов, которыми продавцы тратят свое время (и как избежать их) — советы от настоящих лидеров продаж

Суть метода обучения языковой модели

6 обязательных курсов по социальным продажам на 2024 год [и советы экспертов по социальным продажам]

Лучшие практики CRM: Как выбрать бесплатную CRM-систему

Семантический хаб: Когнитивный подход к представлениям языковых моделей

Объединение больших и маленьких языковых моделей для создания достоверной информации

О нас

Доступность

Вакансии

Авторские права

FAQ

Подписка