
Автоматизация воспроизводимости вычислений в научных исследованиях
Проблема
В научных исследованиях, включая психологию, экономику, медицину и информатику, воспроизводимость вычислений представляет существенную сложность. Недавние исследования выявили серьезные недостатки в этой области, даже если код и данные доступны. Препятствия включают неуказанные версии библиотек, различия в архитектуре машин и операционных системах, проблемы совместимости между старыми библиотеками и новым оборудованием, а также вариации результатов. Недостаток воспроизводимости подрывает доверие к научным исследованиям и затрудняет прогресс в вычислительно интенсивных областях.
Решение
Исследователи из Принстонского университета представили CORE-Bench, обширный бенчмарк, включающий 270 задач из 90 статей по информатике, социальным наукам и медицине. CORE-Bench оценивает разнообразные навыки, включая программирование, работу с командной строкой, поиск и использование инструментов, с задачами на Python и R. Бенчмарк предлагает три уровня сложности, имитируя реальные сценарии, с которыми могут столкнуться исследователи. Исследование представляет результаты оценки двух базовых агентов: AutoGPT, общего агента, и CORE-Agent, специализированной версии на базе AutoGPT. Эти оценки демонстрируют потенциал адаптации общих агентов к конкретным задачам, что приводит к значительному улучшению производительности.
Заключение
CORE-Bench представляет собой критически важный инструмент для автоматизации воспроизводимости вычислений в научных исследованиях. Он обеспечивает оценку широкого спектра навыков, необходимых для воспроизведения научных исследований, и способствует улучшению процессов научных исследований.