Itinai.com beautiful russian high fashion sales representativ 4363bce4 26df 4429 a31b 5b919d981e56 2
Itinai.com beautiful russian high fashion sales representativ 4363bce4 26df 4429 a31b 5b919d981e56 2

LLaVA-Critic: Бесплатная модель для оценки производительности моделей на разнообразных задачах.

 LLaVA-Critic: An Open-Source Large Multimodal Model Designed to Assess Model Performance Across Diverse Multimodal Tasks

LLaVA-Critic: первая большая мультимодальная модель с открытым исходным кодом, разработанная для оценки производительности моделей в разнообразных мультимодальных задачах

Оценка производительности моделей важна для развития современных мультимодальных моделей

С развитием современных крупных мультимодальных моделей (LMMs) возрастает значимость обучения оценивать. Переход к пост-тренировке с использованием усовершенствованных искусственных данных AI подчеркивает растущее значение обучения оценивать в современных LMMs. Надежная оценка AI важна для человеческого труда при оценке сложных задач, создания эффективных сигналов вознаграждения в обучении с подкреплением и руководства поисковым процессом во время вывода. Несмотря на прогресс в сценариях с одним изображением, несколькими изображениями и видео, разработка открытых LMMs, способных оценивать производительность других мультимодальных моделей, представляет собой пробел в области.

LLaVA-Critic: практические решения и ценность

LLaVA-Critic разработан путем донастройки предварительно обученной LMM, способной следовать разнообразным инструкциям. Этот подход обеспечивает возможность модели выполнять широкий спектр высококачественных задач по обработке изображений. Процесс обучения включает использование оценочного запроса, который объединяет мультимодальный вход инструкции, ответ(ов) модели и необязательный эталонный ответ. LLaVA-Critic обучается предсказывать количественные оценочные баллы или попарные ранжировки на основе определенных критериев и предоставляет подробные обоснования своих решений. Модель использует стандартное потери кросс-энтропии для оценок и обоснований. Исследователи начинают с предварительно обученной точки контроля LLaVA-OneVision(OV) 7B/72B и донастраивают ее на набор данных LLaVA-Critic-113k для одной эпохи.

Результаты и преимущества LLaVA-Critic

Результаты демонстрируют значительные улучшения как в оценке по баллам, так и в попарном ранжировании LLaVA-Critic по сравнению с базовыми моделями. LLaVA-Critic-72B достигает самого высокого среднего значения коэффициента корреляции Пирсона (0,754) и коэффициента Кендалла (0,933) в оценке по баллам, превосходя базовую модель LLaVA-OV-72B. В попарном ранжировании LLaVA-Critic-72B превосходит GPT-4o и GPT-4V в сравнениях без ничьих, достигая точности 73,6%. LLaVA-Critic-7B превосходит большинство базовых моделей по сравнению с коммерческими моделями и другими мультимодальными LMMs с открытым исходным кодом в сценарии LMM-как-судья. Эти результаты подчеркивают эффективность LLaVA-Critic в качестве альтернативы с открытым исходным кодом для оценки мультимодальных моделей.

Бесплатный ИИ: для автоматизации продаж

Умные продажи