
«`html
Мультимодальные большие языковые модели (MLLMs) продемонстрировали впечатляющие способности в визуальном восприятии. Однако они сталкиваются с серьезными проблемами в задачах точного восприятия, таких как обнаружение объектов, что критично для таких приложений, как автономное вождение и навигация роботов.
Современные модели не достигают точного обнаружения, что видно из низких показателей полноты, например, у системы Qwen2-VL, которая составляет всего 43,9% на наборе данных COCO. Эти недостатки возникают из-за конфликтов задач восприятия и понимания, а также из-за ограниченных наборов данных.
Традиционные попытки интегрировать восприятие в MLLMs часто включают токенизацию координат ограничивающих рамок, что приводит к каскадным ошибкам и двусмысленности в предсказаниях объектов. Использование фреймворков на основе извлечения также не всегда эффективно.
Исследователи из Международной академии цифровой экономики (IDEA) разработали ChatRex, продвинутую MLLM с разделенной архитектурой, которая строго отделяет задачи восприятия и понимания. ChatRex использует фреймворк на основе извлечения, где обнаружение объектов рассматривается как извлечение индексов ограничивающих рамок, что повышает точность обнаружения.
Разработанная Универсальная сеть предложений (UPN) генерирует предложения ограничивающих рамок на разных уровнях детализации, что позволяет эффективно решать проблемы неоднозначности. Архитектура включает двойной визуальный кодер, который объединяет высоко- и низкоразрешающие визуальные признаки для повышения точности токенизации объектов.
Для обучения использовалась новая база данных Rexverse-2M, содержащая более двух миллионов аннотированных изображений с многоуровневыми аннотациями, что обеспечивает сбалансированное обучение.
ChatRex показывает выдающиеся результаты как в задачах восприятия, так и в понимании, превосходя все существующие модели. Он демонстрирует высокую точность и полноту в обнаружении объектов на наборах данных COCO и LVIS. Система также успешно генерирует описания изображений и отвечает на специфические запросы.
ChatRex — первая мультимодальная AI модель, которая решает давние конфликты между задачами восприятия и понимания. Это открывает новые возможности в динамичных и сложных средах, позволяя интегрировать восприятие и понимание для достижения полного потенциала мультимодальных систем.
Если вы хотите, чтобы ваша компания развивалась с помощью искусственного интеллекта, грамотно используйте ChatRex. Вот несколько шагов:
Если вам нужны советы по внедрению ИИ, пишите нам в Телеграм.
Подписывайтесь на наш канал, чтобы быть в курсе новостей об ИИ.
Попробуйте AI Sales Bot — это AI ассистент для продаж, который поможет вам в работе с клиентами и генерированием контента.
Узнайте, как ИИ может изменить процесс продаж в вашей компании!
«`
Оставьте заявку — мы свяжемся с вами и расскажем, как начать работу