
DSBench: A Comprehensive Benchmark Highlighting the Limitations of Current Data Science Agents in Handling Complex, Real-world Data Analysis and Modeling Tasks
Data science — это быстро развивающаяся область, использующая большие наборы данных для генерации идей, выявления тенденций и поддержки принятия решений в различных отраслях. Она интегрирует машинное обучение, статистические методы и техники визуализации данных для решения сложных проблем, связанных с данными. С увеличением объема данных возрастает спрос на сложные инструменты, способные обрабатывать большие объемы данных и разнообразные типы информации. Data science играет ключевую роль в развитии отраслей, таких как здравоохранение, финансы и бизнес-аналитика, что делает необходимым развитие методов для эффективной обработки и интерпретации данных.
Решение сложных проблем
Одна из фундаментальных проблем в data science — разработка инструментов, способных решать реальные проблемы с обширными данными и сложными структурами. Существующим инструментам часто требуется совершенствование при работе со сложными сценариями, требующими анализа сложных взаимосвязей, многомодальных источников данных и многоэтапных процессов.
Оценка моделей data science
Традиционные методы и инструменты для оценки моделей data science в основном полагались на упрощенные бенчмарки. Многие существующие бенчмарки фокусируются на задачах, таких как генерация кода или решение математических задач, но они ограничены конкретными средами программирования, такими как Python, что снижает их полезность в практических сценариях, требующих гибкости.
DSBench: новый подход к оценке агентов data science
Исследователи из Университета Техаса в Далласе, Tencent AI Lab и Университета Южной Калифорнии представили DSBench — комплексный бенчмарк, разработанный для оценки агентов data science на задачах, близких к реальным условиям. DSBench состоит из 466 задач анализа данных и 74 задач моделирования данных, происходящих из популярных платформ, таких как ModelOff и Kaggle. Бенчмарк оценивает способность агентов генерировать код, рассуждать, манипулировать большими наборами данных и решать проблемы, отражающие практические приложения.
Результаты и вызовы
Начальная оценка современных моделей на DSBench показала значительные разрывы в текущих технологиях. Это подчеркивает значительные вызовы в разработке агентов data science, способных автономно функционировать в сложных реальных сценариях. Результаты указывают на необходимость более продвинутых, интеллектуальных и автономных инструментов, способных решать проблемы data science в реальных условиях.





















