Google DeepMind представляет PaliGemma: мощную модель VLM для обработки текста и изображений.

«`html

Визионно-языковые модели: практические решения и ценность

Эволюция визионно-языковых моделей

В последние годы визионно-языковые модели претерпели значительное развитие, выделив два поколения. Первое поколение, представленное CLIP и ALIGN, расширило предварительное обучение на основе крупномасштабной классификации, используя данные веб-масштаба без необходимости обширной человеческой разметки. Модели использовали встраивания подписей, полученные от языковых кодировщиков, для расширения словаря для задач классификации и поиска. Второе поколение, аналогичное T5 в языковом моделировании, объединило задачи подписывания и вопросно-ответной системы через генеративное кодировщик-декодировщик моделирование. Модели, такие как Flamingo, BLIP-2 и PaLI, дальше масштабировали эти подходы. Недавние разработки внесли дополнительный этап «настройки инструкции» для улучшения удобства использования. Параллельно с этими достижениями проводились систематические исследования с целью выявления ключевых факторов в визионно-языковых моделях.

Представление PaliGemma

Исходя из этого прогресса, исследователи DeepMind представляют PaliGemma — открытую визионно-языковую модель, объединяющую преимущества серии визионно-языковых моделей PaLI с семейством языковых моделей Gemma. Этот инновационный подход основан на успехах предыдущих версий PaLI, которые продемонстрировали впечатляющие возможности масштабирования и улучшения производительности. PaliGemma интегрирует 400M модель визионного представления SigLIP с 2B языковой моделью Gemma, что приводит к созданию визионно-языковой модели объемом менее 3B, которая не уступает по производительности гораздо более крупным предшественникам, таким как PaLI-X, PaLM-E и PaLI-3. Компонент Gemma, производный от той же технологии, что и модели Gemini, вносит свою авторегрессионную декодирующую архитектуру для улучшения возможностей PaliGemma. Это слияние передовых техник обработки изображений и языка позиционирует PaliGemma как значительное достижение в мультимодальном ИИ.

Архитектура PaliGemma

Архитектура модели PaliGemma включает три ключевых компонента: кодировщик изображений SigLIP ViTSo400m, декодирующую языковую модель Gemma-2B v1.0 и линейный проекционный слой. Кодировщик изображений преобразует входные изображения в последовательность токенов, в то время как языковая модель обрабатывает текст с использованием своего токенизатора SentencePiece. Линейный проекционный слой выравнивает размерности токенов изображения и текста, позволяя им быть объединенными. Этот простой, но эффективный дизайн позволяет PaliGemma обрабатывать различные задачи, включая классификацию изображений, подписывание и визуальные вопросно-ответные задачи через гибкий API ввода изображения+текста, вывод текста.

Процесс обучения PaliGemma

Процесс обучения модели PaliGemma включает несколько этапов для обеспечения всестороннего понимания визуально-языковой информации. Он начинается с унимодального предварительного обучения отдельных компонентов, за которым следует мультимодальное предварительное обучение на разнообразной смеси задач. Особенно важно отметить, что кодировщик изображений не замораживается на этом этапе, что позволяет улучшить пространственное и относительное понимание. Обучение продолжается с этапом увеличения разрешения, улучшающим способность модели обрабатывать изображения высокого разрешения и сложные задачи. Наконец, этап трансфера адаптирует базовую модель к конкретным задачам или сценариям использования, демонстрируя универсальность и эффективность PaliGemma в различных приложениях.

Результаты исследования

Результаты демонстрируют впечатляющую производительность PaliGemma в широком спектре визуально-языковых задач. Модель превосходит в подписывании изображений, достигая высоких показателей на бенчмарках, таких как COCO-Captions и TextCaps. В визуально-языковых вопросно-ответных задачах PaliGemma показывает высокую производительность на различных наборах данных, включая VQAv2, GQA и ScienceQA. Модель также успешно справляется с более специализированными задачами, такими как понимание диаграмм (ChartQA) и задачи, связанные с OCR (TextVQA, DocVQA). Особенно важно отметить, что PaliGemma проявляет значительные улучшения при увеличении разрешения изображения с 224px до 448px и 896px, особенно для задач, связанных с деталями или распознаванием текста. Универсальность модели также подтверждается ее способностью обрабатывать видео и задачи сегментации изображений.

Заключение

Это исследование представляет PaliGemma — надежную, компактную открытую базовую визионно-языковую модель, которая превосходит в обучении на различных задачах. Оно демонстрирует, что более маленькие визионно-языковые модели могут достичь впечатляющей производительности на широком спектре бенчмарков, оспаривая утверждение о том, что более крупные модели всегда превосходят. Предоставление базовой модели без настройки инструкции позволяет исследователям создать ценную основу для дальнейших исследований в области настройки инструкции и конкретных приложений. Этот подход способствует более ясному различию между базовыми моделями и моделями с настройкой, открывая потенциально новые возможности для более эффективных и универсальных систем ИИ в области визионно-языкового понимания.

Подробнее о исследовании можно узнать в статье. Вся заслуга за это исследование принадлежит исследователям этого проекта. Также не забудьте подписаться на наш Twitter.

Присоединяйтесь к нашему каналу в Telegram и группе в LinkedIn.

Если вам понравилась наша работа, вам понравится наш новостной бюллетень.

Не забудьте присоединиться к нашему сообществу в Reddit.

Источник: MarkTechPost

«`

saile.ru • ИИ в продажах

Google DeepMind представляет PaliGemma: мощную модель VLM для обработки текста и изображений.

Визионно-языковые модели: практические решения и ценность

Эволюция визионно-языковых моделей

Представление PaliGemma

Архитектура PaliGemma

Процесс обучения PaliGemma

Результаты исследования

Заключение

Бесплатный ИИ: для автоматизации продаж

Как измерить эффективность акций и скидок: ИИ определит прирост, каннибализацию и ROI

Как оценить эффективность менеджера по продажам: ИИ предложит KPI и матрицу оценки по ролям

Как синхронизировать продажи и маркетинг: ИИ предложит модель SLA по лидам и обратной связи

Как определить ключевые факторы роста в B2B продажах: ИИ выделит драйверы из CRM и покажет корреляции

Как быстро выявить потребность клиента: ИИ предложит 5 вопросов, которые не выглядят навязчиво

Как продать второй товар при покупке первого: ИИ предложит 3 техники апселла и кросселла на кассе

Как оценить эффективность обучения: ИИ предложит шаблон отчета по модели Kirkpatrick

Как объяснить сложный технический продукт клиенту за 3 минуты: ИИ предложит структуру демо-презентации с понятными примерами

Как адаптировать решение под инфраструктуру клиента: ИИ создаст таблицу совместимости и подводных камней

Как увеличить конверсию из заявок в сделки: ИИ предложит чек-лист точек провала и скрипт действий

Как управлять внутренней коммуникацией по клиенту: ИИ сгенерирует план согласования задач внутри компании

Как синхронизировать маркетинговый бюджет и планы продаж: ИИ создаст таблицу целей и вложений

Умные продажи

Модель Meta AI для создания персонализированных изображений без настройки под конкретного человека

B2B Reads предлагает обзор лучших методик продаж на 2025 год, рекомендации по устранению функциональных проблем в команде и десять лучших техник для поиска клиентов.

Улучшение эффективности вывода в больших языковых моделях через иерархическое глобальное и локальное моделирование.

Исследователи из ETH Цюрих и ТУМ рассказывают о многомодальной адаптации и обобщении ИИ.

Алгоритм машинного обучения для поиска кратчайших путей с обучением скрытых затрат из траекторий.

От скрытых пространств к современным технологиям: путь LightningDiT

Сравнение моделей языка на основе диффузии: SEDD и GPT-2

Доступность

Отказ от ответственности

Контакты

Политика комментариев

Страница главного редактора

Пресс-релизы