
«`html
Понимание и устранение галлюцинаций в моделях зрение-язык (VLVMs)
Понимание и устранение галлюцинаций в моделях зрение-язык (VLVMs) – это новое направление исследований, которое занимается генерацией последовательных, но фактически неверных ответов этими передовыми системами искусственного интеллекта. Поскольку VLVMs все чаще интегрируют текстовые и визуальные данные для генерации ответов, точность этих выводов становится критически важной, особенно в ситуациях, где требуется высокая точность, таких как медицинская диагностика или автономное вождение.
Проявления галлюцинаций в VLVMs
Галлюцинации в VLVMs обычно проявляются как правдоподобные, но неверные детали, сгенерированные по изображению. Эти неточности представляют собой значительные риски, потенциально вводящие в заблуждение при принятии решений в критических областях. Основная задача заключается в обнаружении этих ошибок и разработке методов их эффективного устранения для обеспечения надежности выводов VLVMs.
Новый подход к оценке галлюцинаций
Исследователи из Университета Оксфорда и AWS AI Labs представили новую методику под названием THRONE (Text-from-image Hallucination Recognition with Object-probes for open-ended Evaluation), которая призвана решить эту проблему. THRONE разработана для оценки галлюцинаций типа I, которые возникают в ответ на открытые запросы, требующие детальных описаний изображений. В отличие от предыдущих методов, THRONE использует общедоступные языковые модели для оценки галлюцинаций в свободных ответах, генерируемых различными VLVMs, предлагая более комплексный и строгий подход.
Оценка эффективности THRONE
Оценка эффективности THRONE выявила информативные данные о распространенности и характеристиках галлюцинаций в текущих VLVMs. Несмотря на передовой подход методики, результаты показывают, что многие VLVMs все еще сталкиваются с высоким уровнем галлюцинаций. Например, было обнаружено, что некоторые модели производят ответы с примерно 20% упомянутых объектов, являющихся галлюцинациями. Этот высокий уровень неточностей подчеркивает постоянные трудности в снижении галлюцинаций и повышении надежности выводов VLVMs.
THRONE: продвижение оценки галлюцинаций в моделях зрение-язык
В заключение, методика THRONE представляет собой значительный шаг вперед в оценке галлюцинаций в моделях зрение-язык, особенно в части решения сложной проблемы галлюцинаций типа I в свободных ответах. В отличие от существующих методов, THRONE использует новаторское сочетание общедоступных языковых моделей и надежной системы метрик, включая точность, полноту и метрику F0.5 по классам. Несмотря на эти достижения, высокий уровень обнаруженных галлюцинаций, около 20% в некоторых моделях, подчеркивает постоянные трудности и необходимость дальнейших исследований для повышения точности и надежности VLVMs в практических применениях.
Проверьте статью. Все заслуги за это исследование принадлежат исследователям этого проекта. Также не забудьте подписаться на наш Twitter. Присоединяйтесь к нашему каналу в Telegram, Discord и группе в LinkedIn.
Если вам понравилась наша работа, вам понравится наша рассылка.
Не забудьте присоединиться к нашему подпреддиту с 42 тысячами подписчиков.
Статья: THRONE: Продвижение оценки галлюцинаций в моделях зрение-язык появилась сначала на MarkTechPost.
«`