
«`html
Применение метода ProcTag для оценки эффективности данных инструкций документов
Эффективная оценка данных инструкций документов для обучения больших языковых моделей (LLMs) и мультимодальных больших языковых моделей (MLLMs) в вопросно-ответной обработке документов представляет существенную сложность. Существующие методы в основном ориентированы на текст и фокусируются на текстовом содержании инструкций, ограничивая способность всесторонне оценить качество и эффективность наборов данных инструкций. Это влияет на производительность моделей в обработке сложных данных документов, что критично для приложений, таких как автоматический анализ документов и извлечение информации.
Проблемы существующих методов
Текущие методы, такие как InsTag, оценивают разнообразие и сложность текста инструкций, но оказываются недостаточными в области вопросно-ответной обработки документов из-за разнообразных процессов выполнения, требуемых различными типами и макетами документов. Эти ограничения затрудняют эффективный отбор и фильтрацию высококачественных данных инструкций, что приводит к неоптимальным результатам обучения моделей. Кроме того, методы, такие как Instruction-Following Difficulty (IFD), требуют дополнительного обучения моделей, что увеличивает вычислительную сложность и уменьшает практичность для приложений в реальном времени.
Новый подход с использованием метода ProcTag
Команда исследователей из Alibaba Group и Zhejiang University предлагает метод ProcTag, который сдвигает фокус с текста инструкций на процесс их выполнения. Путем маркировки процесса выполнения инструкций ProcTag оценивает эффективность наборов данных инструкций на основе разнообразия и сложности этих маркеров. Этот подход позволяет более детально и точно оценить качество данных. Кроме того, стратегия полуструктурированного представления документов DocLayPrompt улучшает представление документов путем включения информации о макете. Этот инновационный подход значительно повышает эффективность обучения и производительность LLMs и MLLMs в задачах вопросно-ответной обработки документов.
Применение метода ProcTag
Метод ProcTag использует структурированный подход для моделирования процесса выполнения инструкций. Сначала документы представляются с использованием DocLayPrompt, который интегрирует результаты OCR и обнаружения макета для захвата структурной информации. Затем GPT-3.5 подается на генерацию псевдокода пошагового выполнения инструкций, который затем маркируется по разнообразию и сложности. Эти маркеры используются для фильтрации и выбора высокоэффективных данных. Метод применяется как к ручно размеченным наборам данных, таким как DocVQA, так и к сгенерированным наборам данных из источников, таких как RVL-CDIP и PublayNet. Ключевые технические аспекты включают использование подавления немаксимальных значений для очистки входных данных и применение алгоритмов кластеризации для агрегации похожих маркеров.
Экспериментальные результаты
Комплексные экспериментальные результаты демонстрируют, что метод ProcTag значительно превосходит существующие методы, такие как InsTag и случайная выборка. Ключевые показатели производительности включают средний нормализованный коэффициент Левенштейна (ANLS), где выборка на основе метода ProcTag достигает превосходной эффективности с использованием только подмножества данных по сравнению с полным набором данных. Например, в наборе данных DocVQA выборка на основе метода ProcTag достигла полной эффективности, используя всего 30,5% данных. Подход был успешно применен к различным наборам данных, подтверждая его надежность и эффективность в улучшении производительности моделей.
Заключение
Метод ProcTag представляет собой новый подход к оценке эффективности данных инструкций документов с помощью маркировки процесса выполнения, а DocLayPrompt является стратегией представления документов, учитывающей макет. Эти инновации решают ограничения существующих методов оценки на основе текста, предлагая более точный и эффективный подход к обучению LLMs и MLLMs для вопросно-ответной обработки документов. Предложенные методы демонстрируют значительное улучшение оценки качества данных и производительности моделей, продвигая область искусственного интеллекта путем преодоления критической проблемы в понимании документов.
Проверьте статью и GitHub. Вся заслуга за это исследование принадлежит исследователям этого проекта. Также не забудьте подписаться на наш Twitter и присоединиться к нашему каналу в Telegram и группе в LinkedIn. Если вам нравится наша работа, вам понравится наш рассылка.
Не забудьте присоединиться к нашему сообществу более чем 46 тыс. участников на ML SubReddit.
Найдите предстоящие вебинары по искусственному интеллекту здесь.
Источник: MarkTechPost.
«`