Фреймворк TransNAR для нейроалгоритмического мышления на трансформерах

«`html

Графовые нейронные сети (GNN), также известные как нейроалгоритмические рассудители (NAR), доказали свою эффективность в решении алгоритмических задач различного размера в различных средах. Однако NAR все еще являются узкими формами искусственного интеллекта, поскольку требуют строго структурированного ввода и не могут быть применены к задачам, поставленным в шумной форме, например, естественным языком, даже если основная проблема является алгоритмической. Напротив, модели языка на основе трансформеров отлично моделируют шумные текстовые данные, но испытывают трудности с алгоритмическими задачами, особенно теми, которые требуют обобщения за пределами распределения. Основной вызов заключается в разработке методов, способных обрабатывать алгоритмическое мышление на естественном языке, сохраняя при этом сильные обобщающие способности.

TransNAR: совмещение Transformer и GNN-based NAR

Исследователи DeepMind предложили TransNAR, который представляет собой гибридную архитектуру, объединяющую возможности понимания языка трансформеров с надежными алгоритмическими способностями предварительно обученных GNN-основанных NAR. Трансформер использует NAR в качестве высокоразмерного инструмента для модуляции своих токенов. Модуль NAR представляет собой GNN, предварительно обученную для выполнения различных алгоритмических вычислений на основе графов. В процессе своего прохода трансформер может получить доступ к эмбеддингам, вычисленным NAR, используя кросс-внимание с обучаемыми весами «склейки». Эта синергия между трансформерами и NAR нацелена на улучшение способностей рассуждения языковых моделей, особенно для алгоритмических задач вне распределения.

Преимущества TransNAR

Метод TransNAR основан на нескольких областях исследований: нейроалгоритмическое рассуждение, обобщение длины в языковых моделях, использование инструментов и мультимодальность. Он вдохновлен работами, демонстрирующими, что NAR может выполнять несколько алгоритмов одновременно и обобщаться далеко за пределы обучающего распределения. TransNAR использует предварительно обученный мультизадачный модуль NAR и развертывает его в большем масштабе, интегрируя его с языковой моделью. Объединяя понимание языка трансформеров с надежным алгоритмическим рассуждением NAR, TransNAR нацелен на улучшение способностей рассуждения, особенно для алгоритмических задач вне распределения, поставленных на естественном языке.

Архитектура и результаты TransNAR

Архитектура TransNAR принимает два входа: текстовую спецификацию алгоритмической задачи и ее соответствующее графовое представление из бенчмарка CLRS-30. Проход модели чередует слои трансформеров, обрабатывающие текстовый ввод, с слоями NAR, работающими с графовым вводом. Критически важно то, что слои трансформеров используют кросс-внимание для условием своих токенов на эмбеддинги узлов, вычисленные NAR. Эта синергия позволяет языковой модели дополнить свое понимание надежными алгоритмическими способностями предварительно обученного модуля NAR. Модель обучается end-to-end с целью предсказания следующего токена в текстовом выводе.

Результаты демонстрируют значительное улучшение модели TransNAR по сравнению с базовым трансформером. TransNAR превосходит базовую модель в целом и по большинству отдельных алгоритмов как в пределах распределения, так и вне его. Важно отметить, что TransNAR не только улучшает существующие возможности обобщения вне распределения, но и позволяет достичь таких возможностей, когда они полностью отсутствуют в базовой модели. Анализ оценки формы показывает, что привязка выводов трансформера к эмбеддингам NAR увеличивает долю входов, для которых модель выдает правильные выводы, устраняя конкретный вид неудач. Однако TransNAR все еще испытывает трудности с алгоритмами, включающими поиск определенного индекса во входном списке, намекая на единый вид неудачи, связанный с обобщением к надежным границам индексов, невидимым во время обучения.

TransNAR: решение для вашего бизнеса

TransNAR — это гибридная архитектура, объединяющая языковую модель трансформера с предварительно обученной графовой нейронной сетью NAR. Путем базирования возможностей понимания языка трансформеров на надежном алгоритмическом рассуждении NAR, TransNAR может эффективно решать алгоритмические задачи, указанные на естественном языке. Оценка на бенчмарке CLRS-Text продемонстрировала превосходство TransNAR над моделями только на трансформерах как в пределах распределения, так и, что критически важно, вне его с увеличенными входными данными.

Подробнее ознакомьтесь с исследованием. Вся заслуга за это исследование принадлежит его авторам. Также не забудьте подписаться на наш Twitter.

Присоединяйтесь к нашему Telegram-каналу и группе в LinkedIn.

Если вам нравится наша работа, вам понравится наша рассылка.

Не забудьте присоединиться к нашему субреддиту по машинному обучению.

«`

saile.ru • ИИ в продажах

Фреймворк TransNAR для нейроалгоритмического мышления на трансформерах

TransNAR: совмещение Transformer и GNN-based NAR

Преимущества TransNAR

Архитектура и результаты TransNAR

TransNAR: решение для вашего бизнеса

Бесплатный ИИ: для автоматизации продаж

Как повысить закрытие сделок на финальном этапе: ИИ предложит 5 триггеров для решения клиента

Как построить SEO-ядро для блога: ИИ подберет 30 ключевых слов по поисковым запросам ЦА

Как проанализировать эффективность кампании: ИИ предложит шаблон отчета и KPI по типу каналов

Как спрогнозировать продажи на следующий квартал с учётом сезонности: ИИ построит модель тренда и сезонных факторов

Как убедить клиента на месте за 2 минуты: ИИ подскажет 3 фразы, которые срабатывают при прямых продажах

Как отвечать на вопрос “чем вы лучше?” без заученных фраз: ИИ предложит 3 варианта под ваш продукт

Как подготовить предложение по апсейлу на основе данных клиента: ИИ построит логику апгрейда

Как синхронизировать продажи и маркетинг: ИИ предложит модель SLA по лидам и обратной связи

Как создать серию упражнений по отработке “дорого/надо подумать”: ИИ сгенерирует 5 ролевых кейсов

Как провести ABC-анализ клиентов и распределить усилия: ИИ подскажет фокусные сегменты

Как отработать возражение “дорого” за 1 фразу: ИИ предложит 5 формулировок для front-line сотрудников

Как разработать индивидуальную программу обучения продажам: ИИ создаст структуру из 5 модулей под вашу команду

Умные продажи

Исследователи из NVIDIA и MIT представили SANA: эффективную систему для создания изображений высокого разрешения, способную генерировать 4K-изображения на ноутбуке.

Исследование Salesforce AI предлагает набор данных для улучшения согласованности рассуждений LLM

Как использовать ChatGPT для создания ИИ-пропитанных ЧаВо и улучшения опыта пользователей

Запуск Streamer от Run:ai: решение для ускоренной загрузки больших моделей

Google Cloud и исследователи Стэнфорда предложили CHASE-SQL: ИИ-рамка для многопутевого рассуждения и оптимального выбора кандидатов в Text-to-SQL

13 Идей для Бизнеса на Основе Искусственного Интеллекта

Новые модели встраивания текста для поиска информации на сербском языке.

Как связать маркетинг и продажи через общую воронку: ИИ предложит структуру интеграции и точки контроля

Карта сайта

Страница главного редактора

Политика комментариев

Редакционная политика

Политика конфиденциальности

Условия использования