
«`html
Метод выравнивания весового диапазона, использующий регуляризацию весового диапазона для ограничения выравнивания весовых диапазонов во время обучения
Модельное слияние предполагает объединение нескольких глубоких моделей в одну. Одно из потенциальных преимуществ метода интерполяции моделей заключается в его способности улучшить понимание исследователями особенностей связности режимов нейронных сетей. В контексте федеративного обучения промежуточные модели обычно отправляются через краевые узлы перед объединением на сервере. Этот процесс вызвал значительный интерес у исследователей из-за его важности в различных приложениях. Основная цель модельного слияния заключается в улучшении обобщаемости, эффективности и устойчивости, сохраняя при этом возможности исходных моделей.
Выбранный метод модельного слияния в глубоких нейронных сетях — это координатное усреднение параметров. В то же время федеративное обучение агрегирует локальные модели с краевых узлов, а исследование связности режимов использует линейную или кусочно-линейную интерполяцию между моделями. Усреднение параметров обладает некоторыми хорошими качествами. Однако оно может работать не так хорошо в более сложных ситуациях обучения, например, при работе с не независимыми и одинаково распределенными данными или различными условиями обучения. В частности, из-за внутренней неоднородности данных локальных узлов, вызванной не независимыми и одинаково распределенными данными в федеративном обучении, агрегация моделей сталкивается с расходящимися направлениями обновлений. Исследования также показывают, что несоответствие нейронов дополнительно увеличивает сложность модельного слияния из-за свойства перестановочной инвариантности, которым обладают нейронные сети. Поэтому были предложены подходы к решению проблемы, направленные на регуляризацию элементов по отдельности или уменьшение влияния перестановочной инвариантности. Однако лишь некоторые из этих подходов учитывали, как различные диапазоны весов моделей влияют на модельное слияние.
Новое исследование ученых Нанкинского университета исследует объединение моделей в различных весовых диапазонах и влияние условий обучения на распределение весов (в данном исследовании называемое «весовой диапазон»). Это первая работа, которая официально исследует влияние весового диапазона на модельное слияние. После проведения нескольких экспериментов в различных условиях качества данных и гиперпараметрах обучения, ученые выявили явление, названное «несоответствием весового диапазона». Они обнаружили, что весовые диапазоны сходных моделей значительно различаются. Несмотря на то, что все распределения приближены к нормальным распределениям, работа показывает значительные изменения в распределениях весов моделей в различных условиях обучения. В частности, параметры моделей, использующих один и тот же оптимизатор, показаны в верхних пяти подрисунках, в то время как модели, использующие различные оптимизаторы, показаны в нижних. Несоответствие диапазонов весов влияет на модельное слияние, как видно из плохой линейной интерполяции, вызванной несовпадением весового диапазона. Ученые объясняют, что легче объединять параметры с похожими распределениями, чем с различными, и слияние моделей с различными параметрами может быть настоящей проблемой.
Параметры каждого слоя подчиняются простому распределению — нормальному распределению. Простое распределение вдохновляет новый и простой метод выравнивания параметров. Ученые используют целевой весовой диапазон для направления обучения моделей, чтобы гарантировать, что веса и диапазоны объединенных моделей синхронизированы. Они агрегируют статистику целевого весового диапазона средним и дисперсией весов параметров в моделях, подлежащих слиянию, для более сложного многоэтапного слияния. «Выравнивание весового диапазона» (WSA) — это название предложенного подхода; «регуляризация весового диапазона» и «слияние весового диапазона» — названия двух вышеупомянутых процессов.
Команда исследует преимущества WSA по сравнению с аналогичными технологиями, реализуя его в ситуациях связности режимов и федеративного обучения. Обучая веса быть как можно ближе к заданному распределению, предложенный WSA оптимизирует успешное модельное слияние, сохраняя баланс между специфичностью и обобщенностью. Он эффективно решает недостатки существующих методов и конкурирует с другими аналогичными методами регуляризации, такими как проксимальный член и уменьшение весов, предоставляя ценные идеи для исследователей и практиков в этой области.
Проверьте статью. Вся заслуга за это исследование принадлежит ученым этого проекта. Также не забудьте подписаться на нас в Twitter и LinkedIn. Присоединяйтесь к нашему каналу в Telegram. Если вам нравится наша работа, вам понравится наша рассылка.
Не забудьте присоединиться к нашему подпреддиту 50k+ ML SubReddit
«`