Фреймворк ProgressGym для этической настройки искусственного интеллекта.

«`html

Прогрессивное выравнивание в ИИ: новый этап развития

Проблема

Системы искусственного интеллекта (ИИ), включая LLMs, все больше формируют убеждения и ценности людей, выступая в роли персональных ассистентов, образователей и авторов. Они, обученные на огромных объемах данных о людях, часто отражают и распространяют существующие общественные предубеждения. Это явление, известное как «запирание ценностей», может закреплять ошибочные моральные убеждения и практики на общественном уровне, что потенциально усиливает проблематичное поведение, такое как бездействие по климату и дискриминация. Текущие методы выравнивания ИИ, такие как обучение с подкреплением на основе обратной связи от людей, должны быть пересмотрены, чтобы предотвратить это. ИИ-системы должны включать механизмы, имитирующие моральный прогресс, чтобы решить проблему запирания ценностей и способствовать постоянному этическому развитию.

Решение

Исследователи из Университета Пекина и Корнеллского университета представляют «прогрессивное выравнивание» как решение для смягчения запирания ценностей в ИИ-системах. Они представляют ProgressGym, инновационную платформу, использующую девять веков исторических текстов и 18 исторических LLMs для изучения и имитации морального прогресса человека. ProgressGym сосредоточен на трех основных задачах: отслеживание развивающихся ценностей, прогнозирование будущих моральных изменений и регулирование цикла обратной связи между ценностями человека и ИИ. Платформа преобразует эти задачи в измеримые показатели и включает базовые алгоритмы для прогрессивного выравнивания. ProgressGym направлен на поощрение постоянного этического развития в ИИ путем учета временного аспекта выравнивания.

Практическое применение

Прогрессивное выравнивание стремится моделировать и поощрять моральный прогресс в ИИ-системах. Оно формулируется как временное POMDP, где ИИ взаимодействует с развивающимися ценностями человека, и успех измеряется по выравниванию с этими ценностями. ProgressGym поддерживает это, предоставляя обширные исторические данные текстов и моделей с XIII по XXI век. Эта платформа включает задачи, такие как отслеживание, прогнозирование и совместное развитие с ценностями человека. Разнообразные алгоритмы позволяют тестировать и разрабатывать методы выравнивания, учитывая развивающуюся природу морали человека и роль ИИ.

Результаты

ProgressGym предлагает унифицированную платформу для решения задач прогрессивного выравнивания, представляя их как временные POMDP. Каждая задача выравнивает поведение ИИ с развивающимися ценностями человека за девять веков. Платформа использует стандартизированное представление состояний человеческих ценностей, действий ИИ в диалогах и наблюдений из ответов человека. Эти бенчмарки помогают измерить выравнивание ИИ с историческим и моральным прогрессом и предвидеть будущие изменения.

Экспериментальные результаты

Экспериментальные результаты на трех основных задачах — PG-Follow, PG-Predict и PG-Coevolve — показывают, что хотя применение методов выравнивания на протяжении всей жизни демонстрирует хорошие результаты, экстраполяционные методы часто превосходят их с использованием высших порядков экстраполяции. Эти результаты указывают на важность прогностического моделирования для эффективного выравнивания ИИ с развивающимися ценностями человека во времени.

Подробнее о данном исследовании вы можете узнать в этой статье.

Все авторские права на это исследование принадлежат его авторам. Также не забывайте подписываться на наш Twitter.

Присоединяйтесь к нашему каналу в Telegram и группе в LinkedIn.

Если вам нравится наша работа, вам понравится наш новостной бюллетень.

Не забудьте присоединиться к нашему сообществу более чем 45 тысяч подписчиков нашего ML SubReddit.

Ваша компания также может использовать прогрессивное выравнивание в ИИ для достижения новых высот. Присоединяйтесь к нам, и мы поможем вам внедрить эту передовую технологию в ваши бизнес-процессы.

«`

saile.ru • ИИ в продажах

Фреймворк ProgressGym для этической настройки искусственного интеллекта.

Прогрессивное выравнивание в ИИ: новый этап развития

Проблема

Решение

Практическое применение

Результаты

Экспериментальные результаты

Бесплатный ИИ: для автоматизации продаж

Как быстро выявить потребность клиента: ИИ предложит 5 вопросов, которые не выглядят навязчиво

Как организовать автоворонку прогрева лида: ИИ создаст email-цепочку и контент-логику

Как построить SEO-ядро для блога: ИИ подберет 30 ключевых слов по поисковым запросам ЦА

Как синхронизировать маркетинговый бюджет и планы продаж: ИИ создаст таблицу целей и вложений

Как собрать инсайты продаж из звонков и переписок: ИИ выделит триггеры и возражения

Как управлять внутренней коммуникацией по клиенту: ИИ сгенерирует план согласования задач внутри компании

Как выявить риски потери ключевого клиента: ИИ проанализирует тревожные сигналы и предложит меры

Как составить отчет по продажам без Excel: ИИ создаст шаблон под презентацию руководству

Как обучать новых менеджеров быстрее: ИИ составит чек-лист онбординга и KPI на 2 недели

Как выстроить план продаж на квартал: ИИ рассчитает цели, шаги и загрузку команды по каналам

Как выявить пробелы в навыках команды: ИИ сгенерирует диагностическую сессию на 30 минут

Как сформировать медиаплан для запуска продукта: ИИ предложит каналы, бюджет и частотность

Умные продажи

Новая статья от Narrative BI о гибридном подходе к анализу бизнес-данных с использованием LLM и систем на основе правил

Эффективное моделирование сложной динамики транспорта с помощью нейронного оптимального транспорта и лагранжевых затрат: статья от NYU и Meta.

Знакомьтесь с Verba 1.0: Запуск современной RAG локально с интеграцией Ollama и открытыми моделями.

Huawei разработала алгоритм MatMulScan для повышения эффективности параллельных вычислений с матрицами.

4 возможности в бизнесе по улучшению дома на 884 миллиарда долларов

TREAT: Фреймворк глубокого обучения для точного моделирования динамических систем с учетом симметрии обратного времени

Понимание маркировки данных (Руководство)

Улучшение языковых моделей и поисковых систем с помощью Search4LLM и LLM4Search

Подписка

Куки-политика

Доступность

Вакансии

Карта сайта

Контакты