Оценка многофункциональных моделей языка (MLLMs) в сценариях с текстовым контентом: SEED-Bench-2-Plus
Оценка многофункциональных моделей языка (MLLMs) в текстово-визуальных сценариях является ключевой, учитывая их все более широкие возможности. Однако текущие бенчмарки в основном оценивают общее визуальное восприятие, игнорируя тонкие вызовы текстового контента. MLLMs, такие как GPT-4V, Gemini-Pro-Vision и Claude-3-Opus, обладают впечатляющими возможностями, но не имеют комплексной оценки в контексте текстового контента. Понимание текста в изображениях требует интерпретации текстовых и визуальных подсказок, что до сих пор не было тщательно изучено.
SEED-Bench-2-Plus для оценки понимания MLLMs текстового визуального контента
SEED-Bench-2-Plus, разработанный командой исследователей из Tencent AI Lab, ARC Lab, Tencent PCG и Китайского университета в Шэньчжэне, является специализированным бенчмарком для оценки понимания MLLMs текстового визуального контента. Он состоит из 2,3 тыс. тщательно подобранных вариантов выбора, охватывающих три широких категории: диаграммы, карты и веб, охватывая разнообразные реальные сценарии. Человеческие аннотаторы обеспечивают точность, и оценка включает 34 ведущих MLLMs, таких как GPT-4V, Gemini-Pro-Vision и Claude-3-Opus.
Результаты и применение SEED-Bench-2-Plus
SEED-Bench-2-Plus представляет собой комплексный бенчмарк, включающий 2 тыс. вариантов выбора, охватывающих три основные категории: диаграммы, карты и веб. Каждая категория включает в себя различные виды данных, всего 63. Набор данных тщательно подобран, включая диаграммы, карты и снимки веб-страниц, богатые текстовой информацией. Метод генерации вопросов и их последующее уточнение осуществляется с привлечением GPT-4V и человеческих аннотаторов. Оценка проводится с использованием стратегии ранжирования ответов, оценивая производительность MLLMs на основе вероятности разработки правильного ответа для каждого варианта выбора.
Заключение: использование SEED-Bench-2-Plus для развития компании с помощью ИИ
SEED-Bench-2-Plus – это комплексный бенчмарк для оценки MLLMs в сценариях с текстовым контентом. Он предлагает обширную платформу оценки, охватывающую 31 открытую версию и три закрытых MLLMs. Используя доступные данные и учебный код, он предоставляет ценные инсайты для направления будущих исследований в этой области.
Применение ИИ в вашем бизнесе
Если вы хотите улучшить свой бизнес с помощью ИИ, обращайтесь к SEED-Bench-2-Plus и изучите примеры применения автоматизации в различных сферах. Постепенно внедряйте решения ИИ, анализируйте результаты и улучшайте эффективность в процессах вашего бизнеса.
Подписывайтесь на наши обновления
Следите за нашими новостями о ИИ и присоединяйтесь к нам в социальных сетях, чтобы быть в курсе последних технологических достижений.
Полезные ссылки:
AI Lab in Telegram @itinai – бесплатная консультация
Телеграм сообщество – @itinairu
Если вам нужны рекомендации по управлению ИИ в бизнесе, свяжитесь с нами по адресу info@flycode.ru
Изучите, как искусственный интеллект может улучшить ваши продажи и общение с клиентами. Познакомьтесь с нашими решениями на сайте itinai.ru