Itinai.com beautiful russian high fashion sales representativ da1a379e 0056 42b9 acb8 400821ff1f9c 0
Itinai.com beautiful russian high fashion sales representativ da1a379e 0056 42b9 acb8 400821ff1f9c 0

Улучшение моделей диффузии для более быстрой и точной оценки глубины.

 Simplifying Diffusion Models: Fine-Tuning for Faster and More Accurate Depth Estimation

Упрощение моделей диффузии: настройка для более быстрой и точной оценки глубины

Введение

Монокулярная оценка глубины (MDE) играет важную роль в различных приложениях, включая редактирование изображений и видео, восстановление сцен, синтез нового вида и навигацию роботов. Однако это задача ставит перед собой значительные вызовы из-за неоднозначности масштабного расстояния, делая ее плохо поставленной. Методы на основе обучения должны использовать надежные семантические знания для достижения точных результатов и преодоления этого ограничения.

Практические решения и ценность

Недавние исследования показали, что применение крупных моделей диффузии для MDE, рассматривая предсказание глубины как проблему условной генерации изображений, хотя и обладает медленной скоростью вывода. Вычислительные требования повторного оценивания больших нейронных сетей во время вывода стали серьезной проблемой в этой области.

Разработаны различные методы для решения вызовов в MDE. Один из таких методов — монокулярная оценка глубины, предсказывающая глубину на основе пикселей. Другой метод — метрическая оценка глубины, предоставляющая более детальное представление, но содержащая дополнительные сложности из-за изменений фокусного расстояния камеры. Дополнительно, оценка нормалей поверхности эволюционировала от ранних подходов на основе обучения к сложным методам глубокого обучения.

Исследователи представили инновационное решение для неэффективности диффузионного MDE. Они разработали фиксированную модель, исправив незамеченный ранее недостаток в процессе вывода, где фиксированная модель работает сравнимо с лучшими отчетными конфигурациями, при этом она в 200 раз быстрее. Была реализована настройка от начала до конца с потерями, специфическими для задачи, поверх их одношаговой модели для улучшения производительности.

Предложенный метод использует два синтетических набора данных для обучения: Hypersim для фотореалистичных внутренних сцен и Virtual KITTI 2 для сцен вождения для предоставления высококачественных аннотаций. Для оценки используется разнообразный набор бенчмарков, включая NYUv2 и ScanNet для внутренних сред, ETH3D и DIODE для смешанных внутренне-внешних сцен и KITTI для сцен внешнего вождения.

Результаты показывают, что многошаговый процесс очистки Marigold не работает так, как ожидалось, и производительность снижается с увеличением шагов очистки. Фиксированный планировщик DDIM продемонстрировал превосходную производительность при любом количестве шагов. Сравнения между обычным Marigold, его вариантом модели с латентной согласованностью и одношаговыми моделями исследователей показывают, что фиксированный планировщик DDIM достигает сравнимых или лучших результатов за один шаг без ансамблирования.

В заключение, исследователи предложили решение для неэффективности диффузионного MDE, раскрывая критический недостаток в реализации планировщика DDIM. Это вызывает сомнения в предыдущих выводах в диффузионной монокулярной оценке глубины и нормалей. Результаты показывают, что простая настройка от начала до конца превосходит более сложные конвейеры обучения и архитектуры без потери поддержки гипотезы о том, что предварительное обучение диффузии обеспечивает отличные априорные знания для геометрических задач.

Бесплатный ИИ: для автоматизации продаж