
«`html
Семантические операторы для обработки данных с LOTUS
Практические решения для развития вашего бизнеса с использованием искусственного интеллекта
Современные языковые модели предоставляют возможности для продвинутой аналитики и рассуждений над обширными корпусами знаний. Однако для выполнения сложных задач, таких как резюмирование последних исследований, извлечение биомедицинской информации или анализ внутренних бизнес-транскриптов, требуется сложная обработка данных и рассуждений. Существующие методы, такие как retrieval-augmented generation (RAG), ограничены простыми поисками и не поддерживают более сложные виды запросов.
Исследователи из Стэнфордского университета, США, и Университета Калифорнии в Беркли создали семантические операторы, декларативный интерфейс программирования, который расширяет реляционную модель с AI-операциями для семантических запросов над наборами данных. Эти операторы реализованы в LOTUS, системе запросов с API, похожим на Pandas, что позволяет создавать эффективные и выразительные конвейеры запросов. LOTUS доказал свою эффективность в различных приложениях, включая факт-чекинг, мульти-классификацию и поиск, обеспечивая значительное улучшение точности и времени выполнения.
Несколько предыдущих работ расширили реляционные языки с операциями на основе языковых моделей для специализированных задач. Например, Palimpzest предлагает декларативный подход к очистке данных и ETL-задачам, вводя оператор преобразования для извлечения сущностей и фильтр на основе ИИ. SUQL расширяет SQL для поддержки разговорных агентов с новыми операторами для ответов на вопросы и резюмирования данных. ZenDB и EVAPORATE фокусируются на извлечении полуструктурированных документов в структурированные таблицы. В отличие от них, LOTUS предоставляет общецелевую модель программирования с композируемыми семантическими операторами для различных приложений. Она поддерживает сложные виды запросов, включая объединения, агрегацию, ранжирование и функции поиска, выходя за рамки возможностей LLM UDFs.
Модель программирования LOTUS позволяет разработчикам создавать конвейеры запросов на основе ИИ для обработки больших наборов структурированных и неструктурированных данных. Она расширяет реляционную модель с семантическими операторами, улучшая функциональность через API, построенный на Pandas. Эти операторы включают `sem_filter` для фильтрации, `sem_join` для объединения таблиц, `sem_sim_join` для объединения по сходству и другие для агрегации, ранжирования и кластеризации. LOTUS поддерживает естественноязыковые выражения (langex) для спецификации этих операций, обеспечивая интуитивное и декларативное программирование. Модель включает оптимизационные техники, такие как пакетное вывод, каскадные модели и индексы семантического сходства, для обработки сложных запросов и повышения производительности.
Оценка LOTUS сосредоточена на ее программировании и эффективности в трех приложениях: факт-чекинг, экстремальная мульти-классификация и поиск с ранжированием. Каждое приложение демонстрирует, что с помощью программ LOTUS можно достичь современных результатов с минимальными затратами на разработку. Например, LOTUS может воспроизвести и улучшить точность недавнего конвейера факт-чекинга на 9,5%, существенно сокращая время выполнения. LOTUS достигает до 800 раз более быстрой производительности в экстремальной мульти-классификации по сравнению с традиционными методами. В поиске и ранжировании LOTUS превосходит другие методы в nDCG@10 на 49,4%, при этом работая быстрее. Эксперименты проводились с использованием различных моделей и настроек, включая модели Llama 3 на 4 A100 GPU.
В заключение, исследование представляет семантические операторы, предоставляющие первый декларативный общецелевой интерфейс для массовой семантической обработки. Реализованные в системе LOTUS, эти операторы расширяют реляционную модель, обеспечивая легкое создание продвинутых конвейеров запросов на основе рассуждений над большими наборами данных. LOTUS демонстрирует свою эффективность в приложениях, таких как факт-чекинг, экстремальная мульти-классификация и поиск, показывая выразительность своей программной модели и низкую стоимость разработки. Например, LOTUS улучшает точность на 9,5% на наборе данных FEVER и существенно сокращает время выполнения. LOTUS достигает современных результатов с существенными выгодами в эффективности в задачах мульти-классификации и поиска, подчеркивая свои возможности оптимизации и потенциал для обширной аналитики по обширным корпусам знаний.
Посмотреть статью и GitHub. Вся заслуга за это исследование принадлежит исследователям этого проекта. Также не забудьте подписаться на наш Твиттер и присоединиться к нашему Телеграм-каналу и группе в LinkedIn. Если вам понравилась наша работа, вам понравится и наша рассылка.
Не забудьте присоединиться к нашему сообществу на Reddit.
Посмотреть предстоящие вебинары по ИИ можно здесь
Оригинал статьи: LOTUS: A Query Engine for Reasoning over Large Corpora of Unstructured and Structured Data with LLMs на MarkTechPost.
Если вы хотите, чтобы ваша компания развивалась с помощью искусственного интеллекта (ИИ) и оставалась в числе лидеров, грамотно используйте LOTUS: A Query Engine for Reasoning over Large Corpora of Unstructured and Structured Data with LLMs.
Проанализируйте, как ИИ может изменить вашу работу. Определите, где возможно применение автоматизации: найдите моменты, когда ваши клиенты могут извлечь выгоду из AI.
Определитесь какие ключевые показатели эффективности (KPI): вы хотите улучшить с помощью ИИ.
Подберите подходящее решение, сейчас очень много вариантов ИИ. Внедряйте ИИ решения постепенно: начните с малого проекта, анализируйте результаты и KPI.
На полученных данных и опыте расширяйте автоматизацию.
Если вам нужны советы по внедрению ИИ, пишите нам на https://t.me/itinai. Следите за новостями о ИИ в нашем Телеграм-канале t.me/itinainews или в Twitter @itinairu45358.
Попробуйте AI Sales Bot https://itinai.ru/aisales. Этот AI ассистент в продажах, помогает отвечать на вопросы клиентов, генерировать контент для отдела продаж, снижать нагрузку на первую линию.
Узнайте, как ИИ может изменить ваши процессы с решениями от AI Lab itinai.ru. Будущее уже здесь!
«`