
«`html
Проблема: Алгоритмы прямой настройки, такие как DPO и IPO, иногда не улучшают производительность модели, несмотря на увеличение вероятности предпочтительных результатов. Это указывает на недостаток использования вероятности как основной цели настройки.
Исследователи из University College London и Cohere изучают, как увеличение вероятности лучших завершений и минимизация вероятности худших завершений влияют на производительность. Они обнаружили, что высокая вероятность не всегда соответствует лучшей производительности модели. Снижение вероятности может увеличить разнообразие выходных данных, что улучшает обобщение на новых данных.
Исследователи определили два основных индикатора, которые сигнализируют о начале переоптимизации:
В исследовании анализировалась связь между вероятностью завершения и показателями производительности на различных алгоритмах. Использовались две модели с 7B и 35B параметрами, обученные на наборе данных ULTRAFEEDBACK. Модели обучались с разными гиперпараметрами и применялись схемы регуляризации для снижения переоптимизации.
Результаты показали, что высокая вероятность предпочтительных завершений не всегда улучшает вероятность выигрыша по сравнению с моделями, такими как GPT-3.5 Turbo. Модели с немного сниженной вероятностью предпочтительных завершений демонстрировали большее разнообразие выходных данных, что положительно влияло на обобщение, особенно на ранних этапах обучения.
Ключевой вывод: Важно поддерживать оптимальный баланс между увеличением вероятности предпочтительных завершений и поощрением разнообразия для улучшения производительности модели. Исследователи предлагают мониторинг энтропии и вероятностной массы как ранние индикаторы переоптимизации.
Если вам нужны советы по внедрению ИИ, пишите нам в Телеграм.
Попробуйте AI Sales Bot — это AI ассистент для продаж, который помогает отвечать на вопросы клиентов и генерировать контент для отдела продаж.
Будущее уже здесь!
«`
Оставьте заявку — мы свяжемся с вами и расскажем, как начать работу