
«`html
Прогрессивное выравнивание в ИИ: новый этап развития
Проблема
Системы искусственного интеллекта (ИИ), включая LLMs, все больше формируют убеждения и ценности людей, выступая в роли персональных ассистентов, образователей и авторов. Они, обученные на огромных объемах данных о людях, часто отражают и распространяют существующие общественные предубеждения. Это явление, известное как «запирание ценностей», может закреплять ошибочные моральные убеждения и практики на общественном уровне, что потенциально усиливает проблематичное поведение, такое как бездействие по климату и дискриминация. Текущие методы выравнивания ИИ, такие как обучение с подкреплением на основе обратной связи от людей, должны быть пересмотрены, чтобы предотвратить это. ИИ-системы должны включать механизмы, имитирующие моральный прогресс, чтобы решить проблему запирания ценностей и способствовать постоянному этическому развитию.
Решение
Исследователи из Университета Пекина и Корнеллского университета представляют «прогрессивное выравнивание» как решение для смягчения запирания ценностей в ИИ-системах. Они представляют ProgressGym, инновационную платформу, использующую девять веков исторических текстов и 18 исторических LLMs для изучения и имитации морального прогресса человека. ProgressGym сосредоточен на трех основных задачах: отслеживание развивающихся ценностей, прогнозирование будущих моральных изменений и регулирование цикла обратной связи между ценностями человека и ИИ. Платформа преобразует эти задачи в измеримые показатели и включает базовые алгоритмы для прогрессивного выравнивания. ProgressGym направлен на поощрение постоянного этического развития в ИИ путем учета временного аспекта выравнивания.
Практическое применение
Прогрессивное выравнивание стремится моделировать и поощрять моральный прогресс в ИИ-системах. Оно формулируется как временное POMDP, где ИИ взаимодействует с развивающимися ценностями человека, и успех измеряется по выравниванию с этими ценностями. ProgressGym поддерживает это, предоставляя обширные исторические данные текстов и моделей с XIII по XXI век. Эта платформа включает задачи, такие как отслеживание, прогнозирование и совместное развитие с ценностями человека. Разнообразные алгоритмы позволяют тестировать и разрабатывать методы выравнивания, учитывая развивающуюся природу морали человека и роль ИИ.
Результаты
ProgressGym предлагает унифицированную платформу для решения задач прогрессивного выравнивания, представляя их как временные POMDP. Каждая задача выравнивает поведение ИИ с развивающимися ценностями человека за девять веков. Платформа использует стандартизированное представление состояний человеческих ценностей, действий ИИ в диалогах и наблюдений из ответов человека. Эти бенчмарки помогают измерить выравнивание ИИ с историческим и моральным прогрессом и предвидеть будущие изменения.
Экспериментальные результаты
Экспериментальные результаты на трех основных задачах — PG-Follow, PG-Predict и PG-Coevolve — показывают, что хотя применение методов выравнивания на протяжении всей жизни демонстрирует хорошие результаты, экстраполяционные методы часто превосходят их с использованием высших порядков экстраполяции. Эти результаты указывают на важность прогностического моделирования для эффективного выравнивания ИИ с развивающимися ценностями человека во времени.
Подробнее о данном исследовании вы можете узнать в этой статье.
Все авторские права на это исследование принадлежат его авторам. Также не забывайте подписываться на наш Twitter.
Присоединяйтесь к нашему каналу в Telegram и группе в LinkedIn.
Если вам нравится наша работа, вам понравится наш новостной бюллетень.
Не забудьте присоединиться к нашему сообществу более чем 45 тысяч подписчиков нашего ML SubReddit.
Ваша компания также может использовать прогрессивное выравнивание в ИИ для достижения новых высот. Присоединяйтесь к нам, и мы поможем вам внедрить эту передовую технологию в ваши бизнес-процессы.
«`