
«`html
Инновационный метод TiTok для токенизации изображений в 1D латентные последовательности
В последние годы генерация изображений значительно продвинулась благодаря развитию трансформеров и моделей диффузии. Многие современные модели генерации изображений теперь используют стандартные токенизаторы и де-токенизаторы. Однако токенизаторы изображений сталкиваются с фундаментальными ограничениями из-за своего дизайна, основанного на предположении о том, что латентное пространство должно сохранять 2D структуру.
Практические решения и ценность
Исследователи из Технического университета Мюнхена и ByteDance предложили инновационный подход к токенизации изображений в 1D латентные последовательности, названный Transformer-based 1-Dimensional Tokenizer (TiTok). TiTok состоит из кодировщика Vision Transformer (ViT), декодировщика ViT и векторного квантизатора, аналогичного типичным моделям с векторным квантованием (VQ). Во время фазы токенизации изображение разделяется на патчи, которые затем выравниваются и объединяются в 1D последовательность латентных токенов. После обработки признаков изображения кодировщиком ViT полученные латентные токены формируют латентное представление изображения.
В дополнение к задаче генерации изображений с использованием токенизатора, TiTok также проявляет свою эффективность в генерации изображений с использованием типичного пайплайна. Для фреймворка генерации используется MaskGIT из-за его простоты и эффективности, что позволяет обучать модель MaskGIT, просто заменив ее токенизатор VQGAN на модель TiTok.
TiTok обеспечивает более компактное представление латентов, что делает его намного эффективнее, чем традиционные методы. Например, изображение размером 256 × 256 × 3 может быть сокращено всего до 32 дискретных токенов, по сравнению с 256 или 1024 токенами, используемыми ранее. Используя тот же фреймворк генерации, TiTok достигает оценки gFID 1,97, превосходя базовую модель MaskGIT на 4,21 на бенчмарке ImageNet 256 × 256. Преимущества TiTok еще более значительны при более высоком разрешении. На бенчмарке ImageNet 512 × 512 TiTok не только превосходит ведущую модель диффузии DiT-XL/2, но и уменьшает количество токенов изображения в 64 раза, что приводит к процессу генерации, который в 410 раз быстрее.
В этой статье исследователи представили инновационный метод токенизации изображений в 1D латентные последовательности под названием TiTok. Он может использоваться для восстановления и генерации естественных изображений. Предложенный метод может представлять изображение с 8-64 раз меньшим количеством токенов, чем обычно используемые 2D токенизаторы. Более того, компактные 1D токены улучшают скорость обучения и вывода модели генерации, а также обеспечивают конкурентоспособную оценку FID на бенчмарках ImageNet. Будущее направление будет сосредоточено на более эффективные модели представления и генерации изображений с использованием 1D токенизации изображений.
Применение в бизнесе
Если вы хотите, чтобы ваша компания развивалась с помощью искусственного интеллекта (ИИ) и оставалась в числе лидеров, грамотно используйте TiTok: An Innovative AI Method for Tokenizing Images into 1D Latent Sequences.
Проанализируйте, как ИИ может изменить вашу работу. Определите, где возможно применение автоматизации: найдите моменты, когда ваши клиенты могут извлечь выгоду из AI. Определитесь какие ключевые показатели эффективности (KPI): вы хотите улучшить с помощью ИИ.
Подберите подходящее решение, сейчас очень много вариантов ИИ. Внедряйте ИИ решения постепенно: начните с малого проекта, анализируйте результаты и KPI. На полученных данных и опыте расширяйте автоматизацию.
Если вам нужны советы по внедрению ИИ, пишите нам на https://t.me/itinai. Следите за новостями о ИИ в нашем Телеграм-канале t.me/itinainews или в Twitter @itinairu45358.
Попробуйте AI Sales Bot https://itinai.ru/aisales. Этот AI ассистент в продажах помогает отвечать на вопросы клиентов, генерировать контент для отдела продаж и снижать нагрузку на первую линию.
Узнайте, как ИИ может изменить ваши процессы с решениями от AI Lab itinai.ru — будущее уже здесь!
Проверьте статью и проект. Вся заслуга за это исследование принадлежит исследователям этого проекта. Также не забудьте подписаться на нас в Twitter.
Присоединяйтесь к нашему каналу в Telegram и группе в LinkedIn.
Если вам нравится наша работа, вам понравится наша рассылка.
Не забудьте присоединиться к нашему 44k+ ML SubReddit.
The post TiTok: An Innovative AI Method for Tokenizing Images into 1D Latent Sequences appeared first on MarkTechPost.
«`