Itinai.com beautiful russian high fashion sales representativ 0edfe09d 3b43 4794 add3 7ea2d8b87dbc 3
Itinai.com beautiful russian high fashion sales representativ 0edfe09d 3b43 4794 add3 7ea2d8b87dbc 3

Использование системных сообщений для соответствия разнообразным пользовательским предпочтениям: подход JANUS

 Aligning Large Language Models with Diverse User Preferences Using Multifaceted System Messages: The JANUS Approach

«`html

Выравнивание больших языковых моделей с разнообразными пользовательскими предпочтениями с использованием многогранных системных сообщений: подход JANUS

Текущие методы выравнивания LLMs часто соответствуют предпочтениям общественности, предполагая, что это идеально. Однако это упускает разнообразную и тонкую природу индивидуальных предпочтений, которые сложно масштабировать из-за необходимости обширного сбора данных и обучения моделей для каждого человека.

Practical Solutions and Value:

Для выравнивания LLMs с широкими человеческими ценностями, такими как полезность и безопасность, используются техники RLHF и fine-tuning инструкций. Однако этот подход должен учитывать противоречивые индивидуальные предпочтения, что приводит к разногласиям при аннотировании и нежелательным характеристикам модели, таким как многословность.

Практические решения и ценность:

Исследователи KAIST AI и Карнеги-Меллонский университет разработали новый подход, где пользователи указывают свои ценности в сообщениях системы для лучшего выравнивания LLMs с индивидуальными предпочтениями. Они создали MULTIFACETED COLLECTION, набор данных с 192 тыс. уникальных системных сообщений и 65 тыс. инструкций, чтобы обучить LLM на этом наборе данных, достигнув высокой производительности, что демонстрирует, что обучение на разнообразных системных сообщениях улучшает соответствие с индивидуальными и общественными предпочтениями. Их работа доступна на GitHub.

Практические решения и ценность:

Существующие наборы данных для выравнивания обычно отражают широкие предпочтения, такие как полезность и безопасность. Цель — создать набор данных, отражающий более конкретные предпочтения, такие как «код-центричный стиль» или «обеспечение этики кода» для решений в области программирования. Модели обучаются с использованием нескольких методов, включая fine-tuning инструкций и оптимизацию предпочтений.

Практические решения и ценность:

Критерии оценки модели JANUS включают многогранность, полезность и безопасность. Оценка полезности проводится с использованием Alpaca Eval 2.0, MT-Bench и Arena Hard Auto v0.1, в то время как безопасность оценивается с помощью RealToxicityPrompts. Эти результаты демонстрируют способность JANUS адаптироваться к разнообразным предпочтениям и поддерживать соответствие общественным ценностям без ущерба для безопасности.

В заключение, несколько исследований показывают, что JANUS демонстрирует отличную производительность, как с системными сообщениями, так и без них. Метод выравнивания LLMs с помощью уникального протокола системных сообщений и набора данных MULTIFACETED COLLECTION обеспечивает высокую производительность и адаптируемость без постоянной переучивании.

Проверьте Paper and GitHub. Вся эта работа приписывается исследователям данного проекта. Также не забудьте подписаться на наш Twitter.

«`

Бесплатный ИИ: для автоматизации продаж

Умные продажи