
«`html
Мультимодальные агенты ролевой игры: новый подход в развитии и оценке
Большие языковые модели (LLM) привели к появлению агентов ролевой игры (RPA), разработанных для имитации конкретных персонажей и взаимодействия с пользователями или другими персонажами. RPA направлены на создание эмоциональной ценности и поддержку социологических исследований, в отличие от помощников по продуктивности искусственного интеллекта, с применением от эмоциональных компаньонов до цифровых реплик и социальных симуляций. Их основная цель — предложить увлекательные, человекоподобные взаимодействия.
Применение мультимодальных возможностей
Усилия по созданию RPA в основном сосредоточены на использовании LLM, обученных с диалогами конкретных персонажей высокого качества. Недавние работы разработали наборы данных этих диалогов для создания RPA, способных предоставлять эмоциональную ценность для людей или помогать в социологических исследованиях. Однако эти исследования ограничены текстовыми подходами. Оценка RPA с использованием различных методов, таких как тесты с множественным выбором, модели вознаграждения и оценки людей, представляет собой сложную задачу.
Исследователи из Гаолинской школы искусственного интеллекта Университета Ренмин в Китае и колледжа информационной и электротехнической инженерии Китайского сельскохозяйственного университета предложили новую концепцию, называемую мультимодальными агентами ролевой игры (MRPAs). Эти агенты разработаны для имитации конкретных персонажей и ведения разговоров на основе изображений с людьми или другими персонажами. Создана система MMRole для создания и оценки MRPAs, содержащая два основных компонента: масштабный набор данных высокого качества и надежный метод оценки.
Фреймворк MMRole использует модель вознаграждения для оценки MRPAs путем сравнения их производительности с данными настоящих данных по восеми метрикам. Он назначает пары оценок для каждой метрики, и окончательная оценка вычисляется как их отношение. Набор данных MMRole-Data содержит 85 персонажей, более 11 тыс. изображений и 14 тыс. диалогов, стратегически разделенных для тестирования потенциала обобщения. Диалоги разделены на три типа, каждый с различными структурами поворотов.
В заключение, исследователи представили новый метод, называемый мультимодальными агентами ролевой игры (MRPAs), который строит на традиционных агентах ролевой игры, добавляя возможность мультимодального понимания. Кроме того, они разработали MMRole-Data, набор данных для создания и тестирования MRPAs. Результаты показывают, что MMRole-Agent, первый специализированный MRPA, работает лучше и обобщает более эффективно, чем существующие модели.
«`