Itinai.com beautiful russian high fashion sales representativ 867c65a8 b79e 4878 bf8c fc0d0574b6a0 1
Itinai.com beautiful russian high fashion sales representativ 867c65a8 b79e 4878 bf8c fc0d0574b6a0 1

Экономия памяти GPU без ущерба качеству LLM

 FastGen: Cutting GPU Memory Costs Without Compromising on LLM Quality

«`html

Автодегрессионные языковые модели (ALM)

Автодегрессионные языковые модели (ALM) доказали свои возможности в машинном переводе, генерации текста и т. д. Однако эти модели представляют определенные вызовы, такие как вычислительная сложность и использование памяти GPU. Несмотря на большой успех в различных приложениях, существует срочная необходимость найти экономически эффективный способ обслуживания этих моделей.

Вызовы авто-регрессионных LLM

Генеративный вывод больших языковых моделей (LLM) использует механизм кеширования KV для увеличения скорости генерации. Однако увеличение размера модели и длины генерации приводит к увеличению использования памяти кеша KV. Когда использование памяти превышает емкость GPU, генеративный вывод LLM прибегает к отключению.

Практическое решение: FastGen

Исследователи из Университета Иллинойса в Урбане-Шампейне и Microsoft предложили FastGen — высокоэффективную технику для повышения эффективности вывода LLM без потери видимого качества, используя легкое профилирование модели и адаптивное кеширование ключ-значение. FastGen способен сокращать использование памяти GPU с минимальной потерей качества генерации.

Применение FastGen

FastGen учитывает компрессию адаптивного кеша KV, что позволяет уменьшить объем памяти для генеративного вывода LLM. Этот метод включает два этапа для вывода генеративной модели:

  • Кодирование запроса: Модуль внимания собирает контекстную информацию от всех предыдущих i-1 токенов для i-го токена, сгенерированного авторегрессионной трансформерной LLM.
  • Генерация токена: Завершив кодирование запроса, LLM генерирует выходной токен пошагово, и для каждого шага новые токены, сгенерированные на предыдущем шаге, кодируются с использованием LLM.

Результаты

FastGen превосходит все неадаптивные методы сжатия KV для 30B моделей и достигает более высокого коэффициента сокращения кеша KV при увеличении размера модели, сохраняя качество модели без изменений.

Заключение

FastGen — новая техника для повышения эффективности вывода LLM без потери видимого качества, используя легкое профилирование модели и адаптивное кеширование ключ-значение. Также было внедрено адаптивное сжатие KV Cache для уменьшения памяти генеративного вывода LLM. В будущем предполагается интегрировать FastGen с другими методами сжатия моделей, такими как квантизация и дистилляция, а также использовать групповой запрос внимания и др.

Полный текст статьи доступен по ссылке.

«`

Ресурсы, такие как [ссылка], [ссылка] и [ссылка], были отредактированы, чтобы соответствовать указаниям и быть включенными в HTML-код.

Бесплатный ИИ: для автоматизации продаж

Умные продажи