
«`html
LaMMOn: Решение для многокамерного отслеживания, использующее трансформеры и графовые нейронные сети для улучшенного управления трафиком в реальном времени
Многокамерное отслеживание множественных целей (MTMCT) необходимо для интеллектуальных систем управления транспортом. Однако оно сталкивается с проблемами в применении в реальных условиях из-за ограниченного количества общедоступных данных и трудоемкого процесса ручной аннотации. Эффективное управление трафиком было улучшено благодаря прогрессу в области компьютерного зрения, позволяющему точно предсказывать и анализировать объемы трафика. MTMCT включает в себя отслеживание транспортных средств с помощью нескольких камер, обнаружение объектов, выполнение отслеживания множества объектов в пределах одной камеры и, наконец, кластеризацию траекторий для создания глобальной карты движения транспортных средств. Несмотря на свой потенциал, MTMCT сталкивается с проблемами, такими как необходимость новых правил сопоставления для каждого сценария камеры, ограниченные наборы данных и высокие затраты на ручную разметку.
Решение и Практическое Значение:
Исследователи из Университета Теннесси в Чаттануге и Исследовательского центра L3S при Ганноверском университете имени Лейбница разработали LaMMOn — модель многокамерного отслеживания на основе трансформеров и графовых нейронных сетей. LaMMOn интегрирует три модуля: модуль обнаружения языковой модели (LMD) для обнаружения объектов, модель ассоциации языка и графа (LGMA) для отслеживания и кластеризации траекторий, а также модуль текстовой эмбеддинг (T2E) для генерации объектных эмбеддингов из текста для решения ограничений данных. Эта модель успешно работает на различных наборах данных, включая CityFlow и TrackCUIP, обладая конкурентоспособными результатами и приемлемой скоростью обработки в реальном времени. Дизайн LaMMOn исключает необходимость в новых правилах сопоставления и ручной разметке, используя синтезированные эмбеддинги из текста.
Отслеживание множества объектов (MOT) включает ассоциацию объектов на видеокадрах из одной камеры для создания треклетов, с методами, такими как Tracktor, CenterTrack и TransCenter, улучшающими возможности отслеживания. MTMCT расширяет это, интегрируя движения объектов с нескольких камер, часто рассматривая MTMCT как расширение кластеризации результатов MOT. Техники, такие как пространственно-временная фильтрация и ограничения правил движения, улучшили точность, хотя LaMMOn выделяется тем, что объединяет задачи обнаружения и ассоциации end-to-end. Модели трансформеров, такие как Trackformer и TransTrack, а также графовые нейронные сети, такие как GCN и GAT, использовались для улучшения отслеживания, включая работу с комплексными структурами данных и оптимизацию многокамерного отслеживания.
Фреймворк LaMMOn состоит из трех ключевых модулей: модуль LMD, который обнаруживает объекты и генерирует эмбеддинги; модуль LGMA, который обрабатывает многокамерное отслеживание и кластеризацию траекторий; и модуль T2E, который синтезирует объектные эмбеддинги из текстовых описаний. LMD объединяет видео-входы кадров с позиционными и идентификаторами камер для создания объектных эмбеддингов с использованием Deformable DETR. LGMA использует эти эмбеддинги для выполнения глобальной ассоциации треклистов через графовые токены. Модуль T2E на основе Sentencepiece генерирует синтетические эмбеддинги из текста, решая ограничения данных и снижая затраты на разметку.
Модель LaMMOn была оценена на трех наборах данных MTMCT: CityFlow, I24 и TrackCUIP. На CityFlow LaMMOn достиг результатов IDF1 78.83% и HOTA 76.46% при скорости 12.2 кадра в секунду, превзойдя другие методы, такие как TADAM и BLSTM-MTP. Для набора данных I24 LaMMOn продемонстрировала превосходную производительность по сравнению с предыдущими моделями, показав HOTA 25.7 и Recall 79.4. Результаты TrackCUIP также подчеркивают эффективность LaMMOn, с заметным улучшением IDF1 на 4.42% и HOTA на 2.82% по сравнению с другими методами базового уровня при поддержании эффективной скорости кадров в секунду.
Модель LaMMOn представляет собой решение для многокамерного отслеживания end-to-end, использующее трансформеры и графовые нейронные сети. Она решает ограничения отслеживания с помощью генеративного подхода, минимизируя ручную разметку с помощью синтеза объектных эмбеддингов из текстовых описаний, обеспечиваемых модулями LMD и T2E. Метод кластеризации траекторий с использованием модуля LGMA улучшает генерацию треклистов и адаптируется к различным сценариям движения транспорта. Демонстрируя возможности онлайн-обработки в реальном времени, LaMMOn достигает конкурентоспособной производительности с CityFlow (IDF1 78.83%, HOTA 76.46%), I24 (HOTA 25.7%) и TrackCUIP (IDF1 81.83%, HOTA 80.94%).
Практическое Применение:
Если вы хотите, чтобы ваша компания развивалась с помощью искусственного интеллекта (ИИ) и оставалась в числе лидеров, грамотно используйте LaMMOn: An End-to-End Multi-Camera Tracking Solution Leveraging Transformers and Graph Neural Networks for Enhanced Real-Time Traffic Management.
Проанализируйте, как ИИ может изменить вашу работу. Определите, где возможно применение автоматизации: найдите моменты, когда ваши клиенты могут извлечь выгоду из AI.
Определитесь какие ключевые показатели эффективности (KPI): вы хотите улучшить с помощью ИИ.
Подберите подходящее решение, сейчас очень много вариантов ИИ. Внедряйте ИИ решения постепенно: начните с малого проекта, анализируйте результаты и KPI.
На полученных данных и опыте расширяйте автоматизацию.
Если вам нужны советы по внедрению ИИ, пишите нам на https://t.me/itinai. Следите за новостями о ИИ в нашем Телеграм-канале t.me/itinainews или в Twitter @itinairu45358.
Попробуйте AI Sales Bot https://itinai.ru/aisales. Этот AI ассистент в продажах, помогает отвечать на вопросы клиентов, генерировать контент для отдела продаж, снижать нагрузку на первую линию.
Узнайте, как ИИ может изменить ваши процессы с решениями от AI Lab itinai.ru будущее уже здесь!
Источник: MarkTechPost
«`