
«`html
Эффективное расширение контекста для больших языковых моделей с помощью метода CREAM
Большие языковые модели (LLM), такие как трансформеры, обычно предварительно обучаются с фиксированным размером окна контекста, например, 4K токенов. Однако многие приложения требуют обработки гораздо более длинных контекстов, до 256K токенов. Расширение длины контекста этих моделей представляет определенные трудности, особенно в обеспечении эффективного использования информации из средней части контекста, часто называемой проблемой «Потерянное в середине».
Решение методом CREAM
CREAM разработан для эффективного расширения LLM до значительно более длинных контекстов. Он манипулирует позиционными индексами для интерполяции позиционных кодирований в предварительно обученном размере окна контекста и вводит метод усеченной гауссовой выборки для фокусировки на средней части контекста во время тонкой настройки.
Стратегии метода CREAM
Методология CREAM включает две основные стратегии: обеспечение непрерывности и относительности в позиционном кодировании. Для непрерывности CREAM манипулирует позиционными индексами для генерации более коротких последовательностей в предварительно обученном окне контекста, поддерживая плотно связанные позиционные индексы. Для относительности он использует вращающее позиционное кодирование (RoPE) для изучения относительных позиций между парами токенов.
Эффективность и результаты
Эксперименты с моделями Llama-2-7B и Llama-2-7B-Chat продемонстрировали эффективность и эффективность CREAM. CREAM расширил окно контекста от 4K до 256K токенов и показал превосходную производительность в задачах понимания длинного контекста. Он также достиг значительных результатов в задачах вопросно-ответной системы и суммаризации длинных контекстов, превзойдя сильные базовые показатели с минимальными шагами тонкой настройки.
В заключение, CREAM успешно решает ограничения текущих методов путем эффективного расширения длины контекста LLM, сосредотачиваясь на информации среднего контекста. Предложенный метод успешно балансирует непрерывность и относительность в позиционном кодировании и использует метод усеченной гауссовой выборки для улучшения понимания среднего контента. Экспериментальные результаты подтверждают эффективность CREAM в расширении окон контекста и улучшении производительности в сценариях длинного контекста, предлагая практическое решение проблеме «Потерянное в середине».
Подробнее ознакомьтесь с статьей. Вся заслуга за это исследование принадлежит исследователям этого проекта.
Присоединяйтесь к нашему Телеграм-каналу и группе в LinkedIn.
Если вам нравится наша работа, вам понравится наша рассылка.
Не забудьте присоединиться к нашему сабреддиту.
Источник: MarkTechPost.
«`