Itinai.com beautiful russian high fashion sales representativ 072b5713 2b69 43c0 945f 6f5dbb20cf52 0
Itinai.com beautiful russian high fashion sales representativ 072b5713 2b69 43c0 945f 6f5dbb20cf52 0

ИБМ открывает исходный код Docling: Инструмент ИИ для точного преобразования PDF-документов и поддержания структурной целостности сложных макетов.

 IBM Research Open-Sources Docling: An AI Tool for High-Precision PDF Document Conversion and Structural Integrity Maintenance Across Complex Layouts

«`html

Преобразование документов PDF в машиночитаемые форматы

Преобразование документов, особенно из PDF в машиночитаемые форматы, долгое время представляло существенные трудности из-за разнообразной и часто сложной природы файлов PDF. Эти документы, широко используемые в различных отраслях, часто требуют большей стандартизации, что приводит к потере структурных элементов при оптимизации для печати. Эта потеря структуры усложняет процесс восстановления, поскольку важные элементы, такие как таблицы, рисунки и порядок чтения, могут быть неправильно интерпретированы или полностью потеряны. Поскольку бизнес и исследователи все больше полагаются на цифровые документы, становится критически важной необходимость в эффективных и точных инструментах для преобразования.

Проблема преобразования документов

Одной из критических проблем преобразования документов является надежное извлечение содержимого из PDF с сохранением структурной целостности документа. Традиционные методы часто терпят неудачу из-за широкого разнообразия форматов PDF, что приводит к проблемам, таким как неточная реконструкция таблиц, неправильное размещение текста и потеря метаданных. Эта проблема техническая и практическая, поскольку точность преобразования документов напрямую влияет на последующие задачи, такие как анализ данных, функциональность поиска и извлечение информации.

Текущие инструменты для преобразования PDF

Существующие инструменты для преобразования PDF, как коммерческие, так и открытые, часто должны соответствовать необходимым стандартам производительности и точности. Многие существующие решения ограничены своей зависимостью от собственных алгоритмов и ограничительных лицензий, что затрудняет их адаптивность и широкое использование. Даже популярные методы сталкиваются с определенными задачами, такими как точное распознавание таблиц и анализ макета, критически важные компоненты высококачественного преобразования документов.

Docling: решение для преобразования документов

Группа AI4K в IBM Research представила Docling, открытый пакет, разработанный специально для преобразования документов PDF. Docling отличается использованием специализированных моделей искусственного интеллекта для анализа макета и распознавания структуры таблиц. Эти модели, включая DocLayNet и TableFormer, обучены на обширных наборах данных и могут обрабатывать множество типов и форматов документов. Docling эффективен, работает на оборудовании общего назначения, и универсален, предлагая конфигурации для пакетной обработки и интерактивного использования. Возможность инструмента работать с минимальными ресурсами и при этом обеспечивать высококачественные результаты делает его привлекательным вариантом для академических и коммерческих целей.

Функциональность Docling

Основу функциональности Docling составляет его обработочный конвейер, который работает через серию линейных шагов для обеспечения точного преобразования документов. Сначала инструмент анализирует PDF-документ, извлекая текстовые токены и их геометрические координаты. Затем применяются модели искусственного интеллекта, которые анализируют макет документа, идентифицируют элементы, такие как таблицы и рисунки, и восстанавливают исходную структуру с высокой точностью. Результаты этих анализов затем агрегируются и подвергаются дополнительной обработке для улучшения метаданных, определения языка документа и коррекции порядка чтения. Этот комплексный подход обеспечивает сохранение исходной целостности преобразованного документа, независимо от того, выводится ли он в формате JSON или Markdown.

Производительность Docling

Тесты, проведенные на наборе данных из 225 страниц, показали, что Docling может обрабатывать документы с задержкой менее секунды на страницу на одном процессоре. Например, на MacBook Pro M3 Max с 16 ядрами Docling обработал 92 страниц всего за 103 секунды с использованием 16 потоков, достигнув производительности 2,45 страницы в секунду. Даже на старом оборудовании, таком как Intel Xeon E5-2690, Docling поддерживал уважаемую производительность, обрабатывая 143 страницы за 239 секунд с 16 потоками. Эти результаты подчеркивают способность Docling обеспечивать быстрое и точное преобразование документов, что делает его практичным выбором для сред с различными ограничениями ресурсов.

Заключение

Docling предоставляет надежный метод преобразования сложных документов PDF в машиночитаемые форматы, объединяя передовые модели искусственного интеллекта с гибкой открытой платформой. Его способность поддерживать высокую производительность на стандартном оборудовании, обеспечивая при этом целостность преобразованного содержимого, делает его бесценным инструментом для исследователей и коммерческих пользователей.

«`

Бесплатный ИИ: для автоматизации продаж

Умные продажи