
«`html
Понимание социальных взаимодействий с использованием MuMA-ToM в ИИ
Для эффективного взаимодействия с человеческой средой, искусственный интеллект должен понимать ментальные состояния и их взаимосвязи. Однако существующие бенчмарки Теории Ума (ToM) в основном фокусируются на индивидуальных ментальных состояниях и не предоставляют многомодальные наборы данных для оценки многоагентной ToM.
Решение
Исследователи из Университета Джонса Хопкинса и Университета Вирджинии представили MuMA-ToM, первый бенчмарк для оценки многомодального многоагентного рассуждения ToM во воплощенных взаимодействиях. Они валидировали MuMA-ToM через эксперименты с людьми и представили новую модель ToM — LIMP (Language model-based Inverse Multi-agent Planning), которая превзошла существующие модели.
Преимущества
MuMA-ToM оценивает модели для понимания многоагентных социальных взаимодействий с использованием видео и текста. Он включает 225 взаимодействий и 900 вопросов, фокусирующихся на три концепции ToM: вывод убеждений, вывод социальных целей и убеждений о целях. Эксперименты показали, что модель LIMP демонстрирует высокую точность, превосходя другие современные модели.
Заключение
MuMA-ToM — первый многомодальный бенчмарк Теории Ума для оценки ментальных рассуждений в сложных многоагентных взаимодействиях. Он использует видео и текст для оценки понимания целей и убеждений в реалистичных домашних ситуациях. Будущая работа будет расширять бенчмарк до более сложных сценариев реального мира, включая взаимодействия с участием нескольких агентов и видео из реальной жизни.
«`