Itinai.com beautiful russian high fashion sales representativ 2968c28d a2a4 4316 ad5b 153f26fda7a0 3
Itinai.com beautiful russian high fashion sales representativ 2968c28d a2a4 4316 ad5b 153f26fda7a0 3

Роль MoRA в развитии эффективных методов точной настройки параметров

 A Paradigm Shift: MoRA’s Role in Advancing Parameter-Efficient Fine-Tuning Techniques

«`html

Параметр-эффективная тонкая настройка (PEFT)

Техники параметр-эффективной тонкой настройки (PEFT) адаптируют большие языковые модели (LLM) к конкретным задачам путем модификации небольшого подмножества параметров, в отличие от полной тонкой настройки (FFT), которая обновляет все параметры. PEFT, в частности Low-Rank Adaptation (LoRA), значительно снижает требования к памяти, обновляя менее 1% параметров, сохраняя при этом сопоставимую производительность с FFT. LoRA использует низкоранговые матрицы для улучшения производительности без дополнительных вычислительных затрат во время вывода. Объединение этих матриц с исходными параметрами модели позволяет избежать дополнительных затрат на вывод. Множество методов направлено на улучшение LoRA для LLM, в основном подтверждая эффективность через GLUE, достигая лучшей производительности или требуя меньше обучаемых параметров.

Улучшения в LoRA

Улучшения в LoRA включают подход декомпозиции DoRA, дифференциальные скорости обучения LoRA+ и интеграцию ReLoRA во время обучения. Тонкая настройка LLM включает настройку инструкций, сложные задачи рассуждения и непрерывное предварительное обучение. Большинство вариантов LoRA используют настройку инструкций или задачи GLUE, что может не полностью отражать эффективность. Недавние работы тестируют задачи рассуждения, но часто требуют больше обучающих данных, ограничивая точную оценку.

MoRA: переход к высокоранговой настройке

Исследователи из Университета Бейханг и корпорации Microsoft представили MoRA. Этот надежный метод использует квадратную матрицу вместо низкоранговых матриц в LoRA для достижения высокоранговой настройки с тем же количеством обучаемых параметров. MoRA использует четыре непараметрических оператора для корректировки входных и выходных размерностей, гарантируя объединение весов обратно в LLM. Комплексная оценка по пяти задачам – настройка инструкций, математическое рассуждение, непрерывное предварительное обучение, память и предварительное обучение – демонстрирует эффективность MoRA.

Результаты исследования

MoRA показывает схожую производительность с LoRA в настройке инструкций и математическом рассуждении, но превосходит LoRA в биомедицинских и финансовых областях благодаря высокоранговой настройке. В целом варианты LoRA проявляют схожую производительность с LoRA, с AsyLoRA превосходящим в настройке инструкций, но испытывающим затруднения в математическом рассуждении. Производительность ReLoRA страдает при более высоких рангах, например 256, из-за объединения низкоранговых матриц во время обучения. Каждая задача демонстрирует различные требования к тонкой настройке, где ранг 8 достаточен для настройки инструкций, но не подходит для математического рассуждения, что требует увеличения ранга до 256 для сопоставимости с FFT. В непрерывном предварительном обучении LoRA с рангом 256 все еще отстает от FFT.

В данном исследовании анализируются ограничения низкоранговой настройки в LoRA для память-интенсивных задач и предлагается MoRA в качестве решения. MoRA использует непараметрические операторы для высокоранговой настройки и исследует различные методы декомпрессии и компрессии. Сравнение производительности показывает, что MoRA сравним с LoRA в настройке инструкций и математическом рассуждении, превосходя его в непрерывном предварительном обучении и задачах памяти. Эксперименты по предварительному обучению дополнительно подтверждают эффективность высокоранговой настройки, демонстрируя превосходные результаты по сравнению с ReLoRA.

Подробнее ознакомьтесь с статьей. Вся заслуга за это исследование принадлежит исследователям проекта. Также не забудьте подписаться на наш Twitter. Присоединяйтесь к нашему каналу в Telegram, Discord и группе в LinkedIn.

Если вам нравится наша работа, вам понравится наш новостной бюллетень.

Не забудьте присоединиться к нашему SubReddit с 42 тыс. подписчиков.

«`

Бесплатный ИИ: для автоматизации продаж

Умные продажи