Сравнение моделей Mamba, Mamba-2, Mamba-2-Hybrid и Transformer, обученных на до 3,5T токенов: прямое экспериментальное исследование.

«`html

Прямое экспериментальное сравнение моделей Mamba, Mamba-2, Mamba-2-Hybrid и Transformer, обученных на до 3.5T токенов

Модели на основе трансформеров с большими языковыми моделями (LLM) стали основой обработки естественного языка (NLP). Они показали выдающуюся производительность в различных задачах NLP. Механизм творческого самовнимания, который обеспечивает эффективное взаимодействие между токенами в последовательности, является основной причиной их успеха.

Ограничения трансформеров и решения

Однако слои самовнимания не без ограничений, особенно при работе с длинными последовательностями. Вычислительная нагрузка самовнимания растет квадратично с длиной последовательности во время обучения. Для хранения состояния требуется большой кеш ключей-значений, поскольку потребность в памяти во время вывода увеличивается линейно с числом предыдущих токенов. Проводились многочисленные попытки оптимизировать слои самовнимания в ответ на эти трудности эффективности.

Селективные модели пространства состояний (SSM) и их преимущества

Модели SSM, такие как Mamba, решают некоторые фундаментальные ограничения, связанные с трансформерами. SSM обеспечивают более эффективное решение путем снижения этих проблем. Недавние исследования показали, что SSM могут конкурировать с трансформерами, если не превзойти их, в задачах языкового моделирования, что делает их разумной альтернативой.

Сравнение моделей Mamba, Mamba-2, Mamba-2-Hybrid и Transformer

Команда исследователей провела тщательное сравнение, используя 8-миллиардные модели Mamba, Mamba-2 и трансформеры, обученные на наборах данных до 3.5 триллиона токенов, чтобы правильно понять производительность этих архитектур при больших размерах.

Результаты и преимущества модели Mamba-2-Hybrid

Результаты показали, что на нескольких задачах чистые модели SSM, включая Mamba и Mamba-2, либо соответствовали, либо превзошли трансформеры. Однако эти модели не справлялись с задачами, требующими значительного рассуждения на длинном контексте и задачами, требующими сильного копирования или обучения в контексте. На всех 12 оцененных стандартных задачах 8-миллиардная модель Mamba-2-Hybrid превзошла 8-миллиардный трансформер, с средним улучшением в 2.65 балла. Во время вывода гибридная модель продемонстрировала способность генерировать токены восемь раз быстрее.

Расширение исследований и решения

Команда расширила исследования, включив версии моделей Mamba-2-Hybrid и трансформеров, позволяющие длины последовательностей 16K, 32K и 128K, чтобы дополнительно оценить возможности длинного контекста. Гибридная модель продолжала показывать результаты на уровне или лучше трансформера в среднем по 23 дополнительным задачам с длинным контекстом.

Этот исследовательский проект в рамках проекта Megatron-LM от NVIDIA представил код. Вся заслуга за это исследование принадлежит исследователям этого проекта.

Присоединяйтесь к нашему каналу в Telegram и группе в LinkedIn.

Если вам нравится наша работа, вам понравится наша рассылка.

Не забудьте присоединиться к нашему сообществу в Reddit.

Этот пост был опубликован на MarkTechPost.

«`

saile.ru • ИИ в продажах

Сравнение моделей Mamba, Mamba-2, Mamba-2-Hybrid и Transformer, обученных на до 3,5T токенов: прямое экспериментальное исследование.

Прямое экспериментальное сравнение моделей Mamba, Mamba-2, Mamba-2-Hybrid и Transformer, обученных на до 3.5T токенов

Ограничения трансформеров и решения

Селективные модели пространства состояний (SSM) и их преимущества

Сравнение моделей Mamba, Mamba-2, Mamba-2-Hybrid и Transformer

Результаты и преимущества модели Mamba-2-Hybrid

Расширение исследований и решения

Бесплатный ИИ: для автоматизации продаж

Как выявить пробелы в навыках команды: ИИ сгенерирует диагностическую сессию на 30 минут

Как повысить вовлечённость на онлайн-тренингах: ИИ предложит сценарий с вопросами, квизами и упражнениями

Как правильно начать разговор с прохожим/посетителем: ИИ предложит 5 проверенных формулировок для входа в диалог

Как построить email-цепочку для новых лидов: ИИ предложит 5 писем с темами и CTA

Как провести самодиагностику по воронке: ИИ предложит чек-лист из 10 пунктов

Как продать второй товар при покупке первого: ИИ предложит 3 техники апселла и кросселла на кассе

Как провести технический аудит инфраструктуры клиента перед внедрением: ИИ предложит чек-лист

Как проанализировать эффективность кампании: ИИ предложит шаблон отчета и KPI по типу каналов

Как вести переговоры с ИТ-директором клиента: ИИ предложит аргументацию на языке технического лица

Как создать FAQ по продукту для ускорения продаж: ИИ сгенерирует 15 технических вопросов и ответов

Как составить отчет по продажам без Excel: ИИ создаст шаблон под презентацию руководству

Как отвечать на вопрос “чем вы лучше?” без заученных фраз: ИИ предложит 3 варианта под ваш продукт

Умные продажи

Обновление Transformers 4.42: новые функции и улучшения

Что такое большие языковые модели?

7 основных ошибок в поиске клиентов, которые вы можете допускать, по мнению экспертов

OpenLS-DGF: Адаптивная открытая система генерации датасетов для задач машинного обучения в логическом синтезе

Исследование моделей объединения зрения и языка: подробный обзор

29 профессиональных приветствий для автоответчика, чтобы помочь вам записать идеальное сообщение

Как подготовить тренинг по технике SPIN: ИИ создаст сценарий + упражнения под вашу нишу

Фреймворк SelfGoal для улучшения способностей агента на основе LLM достижения высокоуровневых целей.

Условия использования

Карта сайта

Реклама

Подписка

Пресс-релизы

Куки-политика