
«`html
Как LLMs могут ускорить открытие научных гипотез, основанных на данных? Знакомьтесь с DiscoveryBench: обширным бенчмарком LLM, который формализует многоэтапный процесс данных-ориентированного открытия
Научное открытие всегда было основой человеческого прогресса, и традиционно оно полагалось на ручные процессы. Однако появление больших языковых моделей (LLMs) с продвинутыми способностями рассуждения и возможностью взаимодействия с внешними инструментами и агентами открывает новые возможности для автономных систем открытий. Основной задачей является разработка полностью автономной системы, способной генерировать и проверять гипотезы в рамках данных-ориентированного открытия. Недавние исследования показали многообещающие результаты в этом направлении, но полный потенциал LLMs в научных открытиях остается неопределенным. Ученые сталкиваются с задачей исследования и расширения возможностей этих ИИ-систем для революционизации научного процесса, что потенциально может ускорить темпы открытий и инноваций в различных областях.
Автоматизированные системы научных открытий: проблемы и перспективы
Предыдущие попытки автоматизированных данных-ориентированных открытий варьировались от ранних систем, таких как Bacon, который подгонял уравнения под идеализированные данные, до более продвинутых решений, таких как AlphaFold, способный решать сложные задачи реального мира. Однако эти системы часто полагались на наборы данных, специфичные для задачи, и заранее построенные конвейеры. Инструменты AutoML, такие как Scikit и облачные решения, сделали шаги в автоматизации рабочих процессов машинного обучения, но их наборы данных в основном используются для обучения моделей, а не для открытых задач открытия. Точно так же, наборы данных и программные пакеты для статистического анализа, такие как Tableau, SAS и R, поддерживают анализ данных, но они ограничены в своем объеме. Набор данных QRData представляет собой шаг в направлении изучения возможностей LLM в статистическом и причинном анализе, но он фокусируется на четко определенных вопросах с уникальными, в основном числовыми ответами. Эти существующие подходы, хотя и ценны, должны предоставить комплексное решение для автоматизации всего процесса открытия, включая идеализацию, семантическое рассуждение и проектирование конвейера.
Ученые из Allen Institute for AI, OpenLocus и University of Massachusetts Amherst предлагают DISCOVERYBENCH, который направлен на систематическую оценку возможностей современных больших языковых моделей (LLMs) в автоматизированных данных-ориентированных открытиях. Этот бенчмарк решает проблемы разнообразия данных-ориентированных открытий в реальном мире в различных областях, предлагая прагматическую формализацию. Он определяет задачи открытия как поиск отношений между переменными в конкретном контексте, где описание этих элементов может не совпадать непосредственно с языком набора данных. Такой подход позволяет систематически и воспроизводимо оценивать широкий спектр задач реального мира, используя ключевые аспекты процесса открытия.
Инновационный подход к автоматизированным системам открытий
DISCOVERYBENCH отличается от предыдущих наборов данных для статистического анализа или AutoML тем, что он включает научное семантическое рассуждение. Это включает в себя выбор соответствующих методов анализа для конкретных областей, очистку и нормализацию данных, а также сопоставление терминов цели с переменными набора данных. Задачи обычно требуют многоэтапных рабочих процессов, охватывая более широкий конвейер данных-ориентированного открытия, а не ограничиваясь только статистическим анализом. Этот комплексный подход делает DISCOVERYBENCH первым масштабным набором данных для изучения возможностей LLMs для всего процесса открытия.
В этом методе исследователи начинают с формализации данных-ориентированного открытия, представляя структурированный подход к представлению и оценке гипотез. Он определяет гипотезы как декларативные предложения, подлежащие проверке через наборы данных, разбивая их на контекст, переменные и отношения. Ключевым новшеством является Hypothesis Semantic Tree, иерархическая структура, представляющая сложные гипотезы с взаимосвязанными переменными. Это дерево позволяет кодировать несколько гипотез в одной структуре. Метод также формализует задачи набора данных как коллекции кортежей, поддерживающие несколько деревьев семантических гипотез, с различными степенями наблюдаемости. Эта структура обеспечивает гибкий, но строгий подход к представлению и оценке сложных задач открытия, позволяя систематическую оценку автоматизированных систем открытия.
DISCOVERYBENCH состоит из двух основных компонентов: DB-REAL и DB-SYNTH. DB-REAL включает гипотезы и рабочие процессы реального мира, извлеченные из опубликованных научных статей в шести областях: социология, биология, гуманитарные науки, экономика, инженерия и мета-наука. Он включает задачи, которые часто требуют анализа нескольких наборов данных, с рабочими процессами от базовой подготовки данных до продвинутого статистического анализа. С другой стороны, DB-SYNTH — это синтетический бенчмарк, который позволяет проводить контролируемые оценки моделей. Он использует большие языковые модели для генерации разнообразных областей, создания семантических деревьев гипотез, создания синтетических наборов данных и формулирования задач открытия различной сложности. Такой двойной подход позволяет DISCOVERYBENCH улавливать как сложность реальных задач открытия, так и систематическую вариацию, необходимую для комплексной оценки моделей.
Исследование оценивает несколько агентов открытия, работающих на различных языковых моделях (GPT-4o, GPT-4p и Llama-3-70B) на наборе данных DISCOVERYBENCH. Агенты включают в себя CodeGen, ReAct, DataVoyager, Reflexion (Oracle) и NoDataGuess. Результаты показывают, что общая производительность низкая для всех пар агент-LLM как для DB-REAL, так и для DB-SYNTH, подчеркивая сложность бенчмарка. Удивительно, что продвинутые агенты рассуждения (ReAct) и планирования с самокритикой (DataVoyager) не существенно превосходят простого агента CodeGen. Однако Reflexion (Oracle), использующий обратную связь для улучшения, показывает заметный прирост производительности по сравнению с CodeGen. Исследование также показывает, что не-рефлексионные агенты в основном решают самые простые случаи, а производительность на DB-REAL и DB-SYNTH схожа, что подтверждает способность синтетического бенчмарка улавливать сложности реального мира.
DISCOVERYBENCH представляет собой значительный прогресс в оценке автоматизированных систем данных-ориентированного открытия. Этот обширный бенчмарк включает 264 задачи открытия реального мира, извлеченные из опубликованных научных рабочих процессов, а также 903 синтетических задачи, разработанных для оценки агентов открытия на различных уровнях сложности. Несмотря на использование современных фреймворков рассуждения, работающих на продвинутых больших языковых моделях, лучший агент достигает лишь 25% успешных результатов. Это скромное достижение подчеркивает сложность автоматизированного научного открытия и показывает значительный потенциал для улучшения в этой области. Предоставляя этот своевременный и надежный бенчмарк, DISCOVERYBENCH нацелен на стимулирование увеличенного интереса и исследовательских усилий в разработке более надежных и воспроизводимых автономных систем научного открытия с использованием больших генеративных моделей.
Ознакомьтесь с статьей о данном исследовании. Вся заслуга за это исследование принадлежит исследователям этого проекта. Также не забудьте подписаться на наш Twitter.
Присоединяйтесь к нашему каналу в Telegram и группе в LinkedIn.
Если вам нравится наша работа, вам понравится наш новостной бюллетень.
Не забудьте присоединиться к нашему подпункту ML в Reddit.
Источник: MarkTechPost.
«`