Itinai.com beautiful russian high fashion sales representativ 2cb52b14 a7b5 4f78 abc1 5618816b9c2e 2
Itinai.com beautiful russian high fashion sales representativ 2cb52b14 a7b5 4f78 abc1 5618816b9c2e 2

Улучшение оценки галлюцинаций в моделях зрительно-языкового восприятия

 THRONE: Advancing the Evaluation of Hallucinations in Vision-Language Models

«`html

Понимание и устранение галлюцинаций в моделях зрение-язык (VLVMs)

Понимание и устранение галлюцинаций в моделях зрение-язык (VLVMs) – это новое направление исследований, которое занимается генерацией последовательных, но фактически неверных ответов этими передовыми системами искусственного интеллекта. Поскольку VLVMs все чаще интегрируют текстовые и визуальные данные для генерации ответов, точность этих выводов становится критически важной, особенно в ситуациях, где требуется высокая точность, таких как медицинская диагностика или автономное вождение.

Проявления галлюцинаций в VLVMs

Галлюцинации в VLVMs обычно проявляются как правдоподобные, но неверные детали, сгенерированные по изображению. Эти неточности представляют собой значительные риски, потенциально вводящие в заблуждение при принятии решений в критических областях. Основная задача заключается в обнаружении этих ошибок и разработке методов их эффективного устранения для обеспечения надежности выводов VLVMs.

Новый подход к оценке галлюцинаций

Исследователи из Университета Оксфорда и AWS AI Labs представили новую методику под названием THRONE (Text-from-image Hallucination Recognition with Object-probes for open-ended Evaluation), которая призвана решить эту проблему. THRONE разработана для оценки галлюцинаций типа I, которые возникают в ответ на открытые запросы, требующие детальных описаний изображений. В отличие от предыдущих методов, THRONE использует общедоступные языковые модели для оценки галлюцинаций в свободных ответах, генерируемых различными VLVMs, предлагая более комплексный и строгий подход.

Оценка эффективности THRONE

Оценка эффективности THRONE выявила информативные данные о распространенности и характеристиках галлюцинаций в текущих VLVMs. Несмотря на передовой подход методики, результаты показывают, что многие VLVMs все еще сталкиваются с высоким уровнем галлюцинаций. Например, было обнаружено, что некоторые модели производят ответы с примерно 20% упомянутых объектов, являющихся галлюцинациями. Этот высокий уровень неточностей подчеркивает постоянные трудности в снижении галлюцинаций и повышении надежности выводов VLVMs.

THRONE: продвижение оценки галлюцинаций в моделях зрение-язык

В заключение, методика THRONE представляет собой значительный шаг вперед в оценке галлюцинаций в моделях зрение-язык, особенно в части решения сложной проблемы галлюцинаций типа I в свободных ответах. В отличие от существующих методов, THRONE использует новаторское сочетание общедоступных языковых моделей и надежной системы метрик, включая точность, полноту и метрику F0.5 по классам. Несмотря на эти достижения, высокий уровень обнаруженных галлюцинаций, около 20% в некоторых моделях, подчеркивает постоянные трудности и необходимость дальнейших исследований для повышения точности и надежности VLVMs в практических применениях.

Проверьте статью. Все заслуги за это исследование принадлежат исследователям этого проекта. Также не забудьте подписаться на наш Twitter. Присоединяйтесь к нашему каналу в Telegram, Discord и группе в LinkedIn.

Если вам понравилась наша работа, вам понравится наша рассылка.

Не забудьте присоединиться к нашему подпреддиту с 42 тысячами подписчиков.

Статья: THRONE: Продвижение оценки галлюцинаций в моделях зрение-язык появилась сначала на MarkTechPost.

«`

Бесплатный ИИ: для автоматизации продаж