Itinai.com beautiful russian high fashion sales representativ 98d9bdc3 de2d 480b be57 a58f6b6b19d3 3
Itinai.com beautiful russian high fashion sales representativ 98d9bdc3 de2d 480b be57 a58f6b6b19d3 3

Набор задач CORE-Bench из 270 заданий на основе 90 научных статей по компьютерным наукам, социальным наукам и медицине с кодовой базой на Python или R.

 CORE-Bench: A Benchmark Consisting of 270 Tasks based on 90 Scientific Papers Across Computer Science, Social Science, and Medicine with Python or R Codebases

Автоматизация воспроизводимости вычислений в научных исследованиях

Проблема

В научных исследованиях, включая психологию, экономику, медицину и информатику, воспроизводимость вычислений представляет существенную сложность. Недавние исследования выявили серьезные недостатки в этой области, даже если код и данные доступны. Препятствия включают неуказанные версии библиотек, различия в архитектуре машин и операционных системах, проблемы совместимости между старыми библиотеками и новым оборудованием, а также вариации результатов. Недостаток воспроизводимости подрывает доверие к научным исследованиям и затрудняет прогресс в вычислительно интенсивных областях.

Решение

Исследователи из Принстонского университета представили CORE-Bench, обширный бенчмарк, включающий 270 задач из 90 статей по информатике, социальным наукам и медицине. CORE-Bench оценивает разнообразные навыки, включая программирование, работу с командной строкой, поиск и использование инструментов, с задачами на Python и R. Бенчмарк предлагает три уровня сложности, имитируя реальные сценарии, с которыми могут столкнуться исследователи. Исследование представляет результаты оценки двух базовых агентов: AutoGPT, общего агента, и CORE-Agent, специализированной версии на базе AutoGPT. Эти оценки демонстрируют потенциал адаптации общих агентов к конкретным задачам, что приводит к значительному улучшению производительности.

Заключение

CORE-Bench представляет собой критически важный инструмент для автоматизации воспроизводимости вычислений в научных исследованиях. Он обеспечивает оценку широкого спектра навыков, необходимых для воспроизведения научных исследований, и способствует улучшению процессов научных исследований.

Бесплатный ИИ: для автоматизации продаж