
В области больших языковых моделей долгое время доминировали авторегрессивные методы, предсказывающие текст последовательно слева направо. Однако у них есть ограничения в вычислительной эффективности и двустороннем мышлении. Исследовательская группа из Китая представила новую архитектуру на основе диффузии под названием LLaDA, которая переосмысляет, как языковые модели обрабатывают информацию.
Текущие языковые модели работают по принципу предсказания следующего слова, что требует сложных вычислений по мере увеличения контекстного окна. Это создает узкие места в скорости обработки и ограничивает эффективность задач, требующих обратного рассуждения.
LLaDA использует динамическую стратегию маскировки на всех этапах диффузии. В отличие от авторегрессивных моделей, она обрабатывает токены параллельно, изучая контекстуальные связи во всех направлениях одновременно.
При масштабировании до 8 миллиардов параметров LLaDA показывает отличные результаты, превосходя аналогичные авторегрессивные модели. Она преодолевает трудности обратного предсказания, достигая 42% точности в задачах завершения стихов.
Если вы хотите, чтобы ваша компания развивалась с помощью ИИ, выполните следующие шаги:
Изучите, как ИИ может изменить процесс продаж в вашей компании, и не упустите возможность быть на шаг впереди!
Оставьте заявку — мы свяжемся с вами и расскажем, как начать работу