Новый тест для оценки возможностей нейронных теорематических доказательств.

«`html

Автоматизация математического рассуждения в искусственном интеллекте

Автоматизация математического рассуждения давно является целью искусственного интеллекта. Формальные фреймворки, такие как Lean 4, Isabelle и Coq, играют значительную роль в этом процессе. Они позволяют пользователям писать машинно-проверяемые доказательства математических теорем, предоставляя структурированную среду для решения сложных проблем. Разработка нейронных теоремных доказателей, которые стремятся автоматизировать этот процесс, требует строгих бенчмарков для оценки их эффективности и дальнейших исследований.

Проблема в AI-теоремных доказательствах

Критической проблемой в AI-теоремных доказательствах является отсутствие комплексных бенчмарков, которые бы вызывали эти системы на более сложные математические задачи. Существующие бенчмарки, такие как MINI F2F и FIMO, в основном фокусируются на математике уровня старших классов школы и должны достаточно тестировать возможности нейронных теоремных доказателей на более сложных, уровня университета. Этот разрыв требует создания более надежного бенчмарка, охватывающего более широкий спектр математических задач.

PUTNAMBENCH: новый бенчмарк

Исследователи из Университета Техаса в Остине представили PUTNAMBENCH, новый бенчмарк, разработанный для оценки нейронных теоремных доказателей с использованием задач из математического конкурса Уильяма Лоуэлла Патнема. Этот конкурс известен в Северной Америке своими сложными математическими задачами уровня колледжа, что делает его идеальным источником для строгого бенчмарка. PUTNAMBENCH включает 1697 формализаций 640 задач, доступных в Lean 4 и Isabelle, а значительная часть также в Coq. Такой многоязычный подход обеспечивает всестороннюю оценку в различных средах теоремных доказательств.

Оценка PUTNAMBENCH

Оценка PUTNAMBENCH включала несколько нейронных и символьных теоремных доказателей, включая Draft-Sketch-Prove, COPRA, GPT-4, Sledgehammer и Coqhammer. Эти методы были протестированы на 1697 формализациях, и результаты показали, что текущие методы могут решить лишь небольшую часть задач PUTNAMBENCH.

Заключение

PUTNAMBENCH, предоставляя разнообразный набор формализаций задач конкурса Патнема на нескольких формальных языках доказательств, устраняет ограничения существующих бенчмарков и устанавливает новый стандарт строгости и всесторонности. Результаты текущих оценок показывают, что, несмотря на прогресс, еще многое предстоит сделать в развитии нейронных теоремных доказателей способных решать сложные математические задачи. PUTNAMBENCH будет несомненно играть важную роль в дальнейших исследованиях и инновациях.

Источник изображения: ссылка

Проверьте статью. Вся заслуга за это исследование принадлежит исследователям этого проекта. Также не забудьте подписаться на наш Twitter.

Присоединяйтесь к нашему Telegram-каналу и группе в LinkedIn.

Если вам нравится наша работа, вам понравится наш новостной бюллетень.

Не забудьте присоединиться к нашему подпреддиту ML.

Статья UT Austin Researchers Introduce PUTNAMBENCH: A Comprehensive AI Benchmark for Evaluating the Capabilities of Neural Theorem-Provers with Putnam Mathematical Problems была опубликована на MarkTechPost.

«`

saile.ru • ИИ в продажах

Новый тест для оценки возможностей нейронных теорематических доказательств.

Автоматизация математического рассуждения в искусственном интеллекте

Проблема в AI-теоремных доказательствах

PUTNAMBENCH: новый бенчмарк

Оценка PUTNAMBENCH

Заключение

Бесплатный ИИ: для автоматизации продаж

Как вести себя при потоке клиентов: ИИ составит алгоритм из 4 шагов на перегруженной точке

Как построить стратегию привлечения и конверсии лидов: ИИ разложит путь клиента по CJM и предложит шаги

Как проводить еженедельные touchpoints с клиентом: ИИ предложит структуру коротких регулярных созвонов

Как организовать автоворонку прогрева лида: ИИ создаст email-цепочку и контент-логику

Как подготовиться к QBR с клиентом: ИИ предложит структуру презентации и контрольных тем

Как разработать индивидуальную программу обучения продажам: ИИ создаст структуру из 5 модулей под вашу команду

Как синхронизировать продажи и маркетинг: ИИ предложит модель SLA по лидам и обратной связи

Как определить ключевые факторы роста в B2B продажах: ИИ выделит драйверы из CRM и покажет корреляции

Как выявить пробелы в навыках команды: ИИ сгенерирует диагностическую сессию на 30 минут

Как оценить эффективность обучения: ИИ предложит шаблон отчета по модели Kirkpatrick

Как выявить технические боли клиента до звонка: ИИ предложит 10 уточняющих вопросов по отрасли

Как сократить цикл сделки: ИИ предложит действия по ускорению на каждом этапе

Умные продажи

Пошаговое руководство по проверке и структурированию данных пользователя, продукта и заказа с помощью Pydantic в Python

15 лучших примеров резюме и биографии для LinkedIn [+ как написать свое]

Агент в роли судьи: Современная AI-система для оценки ИИ с учетом отзывов и человеческих суждений.

Познакомьтесь с Parley: стартап, помогающий иммиграционным адвокатам писать заявления на визу с помощью искусственного интеллекта

Обученный агент с обучением с подкреплением в модели диффузии мира

Исследователь GPT: автономный ИИ-агент для всесторонних онлайн-исследований различных задач

Как масштаб влияет на прогнозирование возможностей передовых ИИ-моделей: понимание основной проблемы

Редакционная политика

Политика конфиденциальности

Условия использования

Авторские права

Подписка

Доступность