Itinai.com beautiful russian high fashion sales representativ 4363bce4 26df 4429 a31b 5b919d981e56 2
Itinai.com beautiful russian high fashion sales representativ 4363bce4 26df 4429 a31b 5b919d981e56 2

Исследование самостоятельного обучения языковых моделей в кооперативных задачах: работа из Университета Калифорнии в Беркли.

 This AI Paper by UC Berkeley Explores the Potential of Self-play Training for Language Models in Cooperative Tasks

«`html

Исследование UC Berkeley: потенциал самообучения для языковых моделей в кооперативных задачах

Искусственный интеллект (ИИ) продемонстрировал значительные достижения через игровые агенты, такие как AlphaGo, достигший сверхчеловеческой производительности благодаря техникам самообучения. Самообучение позволяет моделям улучшаться за счет обучения на данных, сгенерированных из игр против самих себя, что оказалось эффективным в соревновательных средах, таких как Го и шахматы.

Однако существует постоянная проблема в ИИ — улучшение производительности в кооперативных или частично кооперативных языковых задачах. В отличие от соревновательных игр, где цель ясна, языковые задачи часто требуют сотрудничества и поддержания интерпретируемости человеком. Вопрос заключается в том, может ли самообучение, успешное в соревновательных средах, быть адаптировано для улучшения языковых моделей в задачах, где сотрудничество с людьми необходимо.

Практические решения и ценность:

Исследователи из Университета Калифорнии, Беркли, представили новый подход для тестирования самообучения в кооперативных и соревновательных средах с использованием модифицированной версии игры ведения переговоров «Deal or No Deal» (DoND). Эта игра была адаптирована для поддержки различных целей, что делает ее подходящей для оценки улучшений языковых моделей на разных уровнях сотрудничества.

В модифицированной игре DoND два игрока ведут переговоры о делении предметов с собственными функциями стоимости. Игра настраивается на кооперативные, частично соревновательные или соревновательные сценарии. Исследователи использовали фильтрованное клонирование поведения для самообучения. Два идентичных языковых модели играли 500 игр за раунд в течение десяти раундов, и высокооцененные диалоги использовались для настройки. Начальные модели, включая GPT-3.5 и GPT-4, оценивались без примеров с небольшим количеством данных, чтобы избежать предвзятости. Среда, подобная OpenAI Gym, управляла правилами игры, обработкой сообщений и вознаграждениями. Проводились эксперименты с участием людей на Amazon Mechanical Turk с предварительно отобранными работниками для проверки производительности модели.

Самообучение привело к значительному улучшению производительности. В кооперативных и частично соревновательных сценариях модели показали существенные улучшения, с баллами, увеличившимися до 2,5 раза в кооперативных и до шести раз в частично соревновательных сценариях по сравнению с начальными показателями. Это демонстрирует потенциал самообучения для улучшения способности языковых моделей сотрудничать и конкурировать эффективно с людьми, предполагая, что эти техники могут быть адаптированы для более сложных задач в реальном мире.

Несмотря на обнадеживающие результаты в кооперативных и частично соревновательных средах, строго соревновательная среда представляла определенные трудности. Улучшения были минимальными, что указывает на то, что модели часто склонны к переобучению во время самообучения. В этой среде модели часто боролись с обобщением своих стратегий, не достигая действительных соглашений с другими агентами, такими как GPT-4. Предварительные эксперименты с участием людей также показали, что эти модели редко достигали соглашений, подчеркивая сложность применения самообучения в сценариях нулевой суммы, где важны устойчивые, обобщаемые стратегии.

В заключение, данное исследование, проведенное командой Университета Калифорнии, Беркли, подчеркивает потенциал самообучения для обучения языковых моделей в кооперативных задачах. Полученные результаты вызывают сомнения в распространенном предположении о том, что самообучение неэффективно в кооперативных областях или что модели нуждаются в обширных данных от людей для поддержания интерпретируемости языка. Вместо этого значительные улучшения, наблюдаемые всего после десяти раундов самообучения, свидетельствуют о том, что языковые модели с хорошими способностями к обобщению могут извлечь пользу из этих техник. Это может привести к более широкому применению самообучения за пределами соревновательных игр, потенциально улучшая производительность ИИ в различных кооперативных и реальных задачах.

Проверьте статью и код. Вся заслуга за это исследование принадлежит исследователям этого проекта. Также не забудьте подписаться на нас в Twitter.

Присоединяйтесь к нашему Telegram-каналу и группе LinkedIn.

Если вам понравилась наша работа, вам понравится наша рассылка.

Не забудьте присоединиться к нашему подпишитесь на наш SubReddit.

Этот AI ассистент в продажах помогает отвечать на вопросы клиентов, генерировать контент для отдела продаж и снижать нагрузку на первую линию. Попробуйте AI Sales Bot.

Узнайте, как ИИ может изменить ваши процессы с решениями от AI Lab. itinai.ru будущее уже здесь!

«`

Бесплатный ИИ: для автоматизации продаж