Itinai.com it company office background blured photography by d7e493cb 96a3 4f86 9405 ee801a2c3fe3 3
Itinai.com it company office background blured photography by d7e493cb 96a3 4f86 9405 ee801a2c3fe3 3

Программа оценки VLM от Salesforce AI Research: новый стандарт для оценки ответов на открытые запросы

 Salesforce AI Research Propose Programmatic VLM Evaluation (PROVE): A New Benchmarking Paradigm for Evaluating VLM Responses to Open-Ended Queries

«`html

Модели Визуального Языка (VLM)

Модели визуального языка (VLM) все чаще используются для генерации ответов на запросы о визуальном контенте. Однако они сталкиваются с серьезной проблемой: генерацией правдоподобных, но неверных ответов, известных как галлюцинации. Это может привести к недоверию к таким системам, особенно в критически важных приложениях.

Проблема оценки

Оценка полезности и правдивости ответов VLM сложна, так как требует понимания визуального контента и проверки каждого утверждения. Традиционные методы оценки не справляются с этой задачей, так как ограничиваются простыми вопросами или неполным контекстом.

Решение от Salesforce AI Research

Исследователи из Salesforce AI Research предложили новую методику оценки VLM — Programmatic VLM Evaluation (PROVE). Эта методика позволяет оценивать ответы VLM на открытые визуальные запросы.

Как работает PROVE

В PROVE используется высококачественное представление графа сцены, созданное на основе детализированных описаний изображений. Исследователи применяют крупную языковую модель (LLM) для генерации разнообразных пар вопросов и ответов, а также программ для проверки каждой пары. Это позволяет создать набор данных из 10,5 тыс. сложных и визуально обоснованных пар QA.

Качество оценки

Оценка включает в себя извлечение графов сцены из ответов модели и истинных ответов, а затем расчет оценок на основе точности и полноты этих представлений. Это обеспечивает более надежную и интерпретируемую оценку производительности VLM.

Результаты оценки

Результаты показывают, что современные VLM испытывают трудности с балансом между полезностью и правдивостью. Модели, такие как GPT-4o и Phi-3.5-Vision, показали высокие оценки полезности, но не всегда правдивости. Увеличение размера модели улучшает полезность, но не всегда правдивость.

Заключение

PROVE представляет собой значительное достижение в оценке полезности и правдивости ответов VLM. Используя детализированные графы сцены и программную проверку, этот метод предлагает более надежную оценку. Будущее исследований будет направлено на улучшение как полезности, так и правдивости моделей через новые методы обучения и оценки.

Как использовать ИИ для вашего бизнеса

Если вы хотите, чтобы ваша компания развивалась с помощью искусственного интеллекта (ИИ), следуйте этим шагам:

  • Анализируйте, как ИИ может изменить вашу работу. Определите, где возможно применение автоматизации.
  • Определите ключевые показатели эффективности (KPI). Выберите, что хотите улучшить с помощью ИИ.
  • Подберите подходящее решение. Внедряйте ИИ постепенно, начиная с небольших проектов.
  • Расширяйте автоматизацию. Используйте полученные данные и опыт для дальнейшего развития.

Получите советы по внедрению ИИ

Если вам нужны советы по внедрению ИИ, пишите нам. Следите за новостями об ИИ в нашем Телеграм-канале.

Попробуйте AI Sales Bot

Это AI ассистент для продаж, который помогает отвечать на вопросы клиентов и генерировать контент для отдела продаж. Узнайте, как ИИ может изменить процесс продаж в вашей компании!

«`

Бесплатный ИИ: для автоматизации продаж

Умные продажи