«`html
Исследование: Как GPT-4 и LLaMA-2 соотносятся с человеческим интеллектом
Команда психологов и исследователей из Университетского медицинского центра Хамбурга-Эппендорфа, Итальянского института технологий в Генуе, Университета Тренто и других провела исследование возможностей развивающихся умственных способностей больших языковых моделей (LLM), таких как GPT-4, GPT-3.5 и LLaMA2-70B, и сравнила их с человеческими возможностями. Теория ума, способность приписывать мыслительные состояния себе и другим, является фундаментальной для социальных взаимодействий человека. Поскольку искусственный интеллект и LLM развиваются, возникает новая проблема в их способности понимать и маневрировать социальными сложностями на уровне человека. Данное исследование нацелено на систематическое сравнение способностей LLM в области теории ума с участием человеческих участников при выполнении различных задач, проясняя их сходства, различия и основные механизмы.
Оценка способностей LLM в области теории ума
Для оценки способностей теории ума LLM исследователи использовали систематический экспериментальный подход, вдохновленный психологией. Они применили последовательность хорошо известных тестов теории ума, включая задачи намека, ложного убеждения, распознавания фопов и постижения иронии. Эти тесты охватывают спектр способностей теории ума, начиная от базового понимания ложных убеждений до более сложных интерпретаций социальных ситуаций. LLM, включая GPT-4, GPT-3.5 и LLaMA2-70B, прошли множество повторений каждого теста, что позволило осуществить надежное сравнение с человеческими возможностями. Каждая задача тестировалась на уникальных входных данных, чтобы убедиться, что LLM не просто воспроизводят данные обучения, а проявляют настоящее понимание.
Исследователи тщательно администрировали каждый тест обеим группам, LLM и человеческим участникам, в письменной форме, чтобы обеспечить справедливое сравнение. Они анализировали ответы, используя протоколы оценки, специфические для каждого теста, сравнивая производительность моделей и людей. Важно отметить, что GPT-4 проявляет силы в постижении иронии, намеках и странных историях, часто превосходя производительность человека. Однако он испытывает трудности в неопределенных ситуациях, таких как тест на фоп, где он показывает нежелание делать выводы без полной уверенности. В отличие от этого, GPT-3.5 и LLaMA2-70B демонстрируют предвзятость в подтверждении неуместных утверждений, указывая на отсутствие различий в понимании подразумеваемых знаний. Исследование утверждает, что модели GPT осторожны, потому что они используют меры смягчения, чтобы уменьшить галлюцинации и повысить точность фактов, что делает их чрезмерно осторожными, когда ситуация не ясна. Кроме того, оторванная природа LLM без процессов принятия решений содействует различиям в обработке социальной неопределенности по сравнению с людьми.
В заключение, исследование подчеркивает сложность оценки способностей теории ума LLM и важность систематического тестирования для обеспечения смыслового сравнения с человеческим познанием. В то время как LLM, такие как GPT-4, проявляют замечательные достижения в некоторых задачах теории ума, они уступают в неопределенных сценариях, раскрывая осторожную эпистемическую политику, возможно связанную с методикой обучения. Понимание этих различий имеет важное значение для развития LLM, способных маневрировать социальными взаимодействиями с профессионализмом, подобным человеческому.
Проверьте статью. Вся признательность за это исследование принадлежит исследователям этого проекта. Также не забудьте подписаться на нас в Twitter. Присоединяйтесь к нашему каналу в Telegram, группе в Discord и группе в LinkedIn.
Если вам нравится наша работа, вам понравится наша рассылка.
Не забудьте присоединиться к нашему сообществу в SubReddit
Статья взята с MarkTechPost.
Theory of Mind: How GPT-4 and LLaMA-2 Stack Up Against Human Intelligence
Если вы хотите, чтобы ваша компания развивалась с помощью искусственного интеллекта (ИИ) и оставалась в числе лидеров, грамотно используйте Theory of Mind: How GPT-4 and LLaMA-2 Stack Up Against Human Intelligence .
Применение и внедрение искусственного интеллекта
Проанализируйте, как ИИ может изменить вашу работу. Определите, где возможно применение автоматизации: найдите моменты, когда ваши клиенты могут извлечь выгоду из AI.
Определитесь какие ключевые показатели эффективности (KPI): вы хотите улучшить с помощью ИИ.
Подберите подходящее решение, сейчас очень много вариантов ИИ. Внедряйте ИИ решения постепенно: начните с малого проекта, анализируйте результаты и KPI. На полученных данных и опыте расширяйте автоматизацию.
Если вам нужны советы по внедрению ИИ, пишите нам на https://t.me/itinai. Следите за новостями о ИИ в нашем Телеграм-канале t.me/itinainews или в Twitter @itinairu45358
Попробуйте AI Sales Bot https://itinai.ru/aisales Этот AI ассистент в продажах, помогает отвечать на вопросы клиентов, генерировать контент для отдела продаж, снижать нагрузку на первую линию.
Узнайте, как ИИ может изменить ваши процессы с решениями от AI Lab itinai.ru будущее уже здесь!
«`