Itinai.com it company office background blured chaos 50 v 14a9a2fa 3bf8 4cd1 b2f6 5c758d82bf3e 0
Itinai.com it company office background blured chaos 50 v 14a9a2fa 3bf8 4cd1 b2f6 5c758d82bf3e 0

Новый тест для оценки возможностей нейронных теорематических доказательств.

 UT Austin Researchers Introduce PUTNAMBENCH: A Comprehensive AI Benchmark for Evaluating the Capabilities of Neural Theorem-Provers with Putnam Mathematical Problems

«`html

Автоматизация математического рассуждения в искусственном интеллекте

Автоматизация математического рассуждения давно является целью искусственного интеллекта. Формальные фреймворки, такие как Lean 4, Isabelle и Coq, играют значительную роль в этом процессе. Они позволяют пользователям писать машинно-проверяемые доказательства математических теорем, предоставляя структурированную среду для решения сложных проблем. Разработка нейронных теоремных доказателей, которые стремятся автоматизировать этот процесс, требует строгих бенчмарков для оценки их эффективности и дальнейших исследований.

Проблема в AI-теоремных доказательствах

Критической проблемой в AI-теоремных доказательствах является отсутствие комплексных бенчмарков, которые бы вызывали эти системы на более сложные математические задачи. Существующие бенчмарки, такие как MINI F2F и FIMO, в основном фокусируются на математике уровня старших классов школы и должны достаточно тестировать возможности нейронных теоремных доказателей на более сложных, уровня университета. Этот разрыв требует создания более надежного бенчмарка, охватывающего более широкий спектр математических задач.

PUTNAMBENCH: новый бенчмарк

Исследователи из Университета Техаса в Остине представили PUTNAMBENCH, новый бенчмарк, разработанный для оценки нейронных теоремных доказателей с использованием задач из математического конкурса Уильяма Лоуэлла Патнема. Этот конкурс известен в Северной Америке своими сложными математическими задачами уровня колледжа, что делает его идеальным источником для строгого бенчмарка. PUTNAMBENCH включает 1697 формализаций 640 задач, доступных в Lean 4 и Isabelle, а значительная часть также в Coq. Такой многоязычный подход обеспечивает всестороннюю оценку в различных средах теоремных доказательств.

Оценка PUTNAMBENCH

Оценка PUTNAMBENCH включала несколько нейронных и символьных теоремных доказателей, включая Draft-Sketch-Prove, COPRA, GPT-4, Sledgehammer и Coqhammer. Эти методы были протестированы на 1697 формализациях, и результаты показали, что текущие методы могут решить лишь небольшую часть задач PUTNAMBENCH.

Заключение

PUTNAMBENCH, предоставляя разнообразный набор формализаций задач конкурса Патнема на нескольких формальных языках доказательств, устраняет ограничения существующих бенчмарков и устанавливает новый стандарт строгости и всесторонности. Результаты текущих оценок показывают, что, несмотря на прогресс, еще многое предстоит сделать в развитии нейронных теоремных доказателей способных решать сложные математические задачи. PUTNAMBENCH будет несомненно играть важную роль в дальнейших исследованиях и инновациях.

Источник изображения: ссылка

Проверьте статью. Вся заслуга за это исследование принадлежит исследователям этого проекта. Также не забудьте подписаться на наш Twitter.

Присоединяйтесь к нашему Telegram-каналу и группе в LinkedIn.

Если вам нравится наша работа, вам понравится наш новостной бюллетень.

Не забудьте присоединиться к нашему подпреддиту ML.

Статья UT Austin Researchers Introduce PUTNAMBENCH: A Comprehensive AI Benchmark for Evaluating the Capabilities of Neural Theorem-Provers with Putnam Mathematical Problems была опубликована на MarkTechPost.

«`

Бесплатный ИИ: для автоматизации продаж

Умные продажи