理解快速超参迁移的机制¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=Q7mLKxQ8qk
领域: 深度学习理论 / 优化动力学
关键词: 超参迁移, µP, 宽度缩放, 优化轨迹, 损失分解

一句话总结¶

本文为「µP 下超参（尤其学习率）能从小模型快速迁移到大模型」这一经验现象建立了一套概念框架：先用收敛速率把「弱迁移 / 快迁移 / 有用迁移」严格区分开，再提出一种沿 EMA 轨迹做线性化的 top-k 损失分解，把最终损失拆成「决定最优超参、随宽度快速稳定的 top-k 分量」和「随宽度持续降低损失、却几乎不影响超参选择的残差分量」，并在合成例子与 LLM 预训练中验证了这一机制。

研究背景与动机¶

领域现状：模型越做越大，逐个网格搜索超参（HP）的代价高到无法承受。一个有希望的方案是「尺度感知超参」——把学习率写成尺度无关常数 \(\eta\) 乘以缩放因子 \(n^{-a}\)（\(n\) 为宽度），先在小模型上搜出最优 \(\eta\)，再直接套用到大模型。Tensor Programs 系列形式化了这一视角，并推导出能保证无穷宽极限下「最优训练」的 Maximal Update Parameterization（µP）：它给每层规定初始化方差与学习率的缩放，使得 \(n\to\infty\) 时激活及其更新都是 \(\Theta(1)\)，从而最优 \(\eta\) 渐近与尺度无关。

现有痛点：µP 在实践中表现出的其实是一个比理论推导更强的性质——快速超参迁移（fast HP transfer）：最优超参随宽度收敛得远快于我们真正关心的性能指标（如验证损失）。正因为「最优超参先稳下来、损失还在慢慢降」，才能在小代理模型上选超参、套到大模型上几乎不掉点。但 µP 的理论推导只保证了「最优 \(\eta\) 渐近存在且尺度无关」，完全没解释为什么收敛会这么快——这一点连提出者都承认是未解之谜。

核心矛盾：「最优超参存在一个尺度无关极限」（弱性质）与「最优超参收敛得比损失更快、因而迁移真有计算优势」（强性质）是两回事。如果最优超参收敛得很慢，小模型上选出的值对大模型就是次优的（论文 Figure 2 给了一个 \(n=8192\) 处最优超参突然漂移的反例）。现有工作要么只在经验上确认迁移有效，要么观察到 Hessian 顶部特征值随宽度快速收敛，却没把这些谱统计量和最优学习率严格挂钩。

本文目标：(1) 给「迁移到底快不快、有没有用」一个可量化的定义；(2) 找出到底是训练过程的什么结构让迁移变快，并把它和最优超参的收敛速率连起来。

切入角度：作者从「优化轨迹的低维结构」这一已知直觉出发——梯度会迅速对齐到 Hessian 顶部特征子空间，真正的损失下降发生在一个很小的子空间里。猜想是：损失依赖所有方向，但学习率只由少数顶部方向决定，而这些顶部方向的统计量随宽度收敛得特别快。

核心 idea：用一个沿 EMA 平滑轨迹的「线性化 + top-k 谱分解」，把损失变化拆成宽度稳定的 top-k 部分（决定最优超参）和宽度敏感的残差部分（继续降损失但几乎不动最优超参），用前者收敛快来解释超参迁移快。

方法详解¶

整体框架¶

本文不是提出一个新算法，而是搭一套分析框架回答「µP 下超参迁移为什么这么快」。整条逻辑分三层推进：

第一层是形式化与刻画。把宽度 \(n\) 下训练用的超参写成 \(H_n(\nu,\gamma) = (\nu_1 n^{-\gamma_1}, \dots, \nu_h n^{-\gamma_h})\)，其中 \(\nu\) 是尺度无关的超参、\(\gamma\) 是缩放指数。固定训练流程、只变宽度 \(n\)，得到最优超参 \(\nu^\star(n) = \arg\min_\nu \varphi_n(\nu)\) 和最优值 \(\varphi_n^\star\)。在此之上定义三个随宽度变化的量（损失差 \(a_n\)、超参差 \(b_n\)、迁移次优差 \(c_n\)），用它们的收敛速率把「弱迁移 / 快迁移 / 有用迁移」严格区分，并证明「快」与「有用」其实是同一个条件 \(\beta>\alpha/2\)。

第二层是合成例子定边界。作者构造两个能精确算出 \((a_n,b_n,c_n)\) 速率的合成场景，说明快速迁移不是免费午餐：随机特征岭回归里迁移可证有计算优势（快），而一个两层 ReLU 网络即便用 µP 也只有「弱迁移」、最优学习率收敛得和损失一样慢。这说明迁移快不快取决于数据、优化器、架构共同涌现出的结构性质。

第三层是机制解释，也是本文核心贡献。作者沿 EMA 平滑后的轨迹做一步线性化，再用一个对齐矩阵做 top-k 谱分解，把损失变化拆成 top-k 分量与残差分量，并给出「top-κ 强凸 + top-κ 不变 + 残差平坦」三条件作为快速迁移的充分机制，最后在 Llama 风格 Transformer 的 µP 预训练上验证。

关键设计¶

1. 三个收敛量：把「快迁移」和「有用迁移」钉成同一个速率条件

痛点是「最优超参收敛到一个极限」（弱迁移）根本不保证迁移有用——收敛慢的话小模型选的超参对大模型就是次优。作者引入三个量精确刻画收敛：损失差 \(a_n = |\varphi_n^\star - \varphi_\infty^\star|\)（有限宽与无穷宽各自最优损失之差）、超参差 \(b_n = \|\nu^\star(n) - \nu^\star(\infty)\|\)（有限宽与无穷宽最优超参之差）、迁移次优差 \(c_n = |\varphi_\infty(\nu^\star(n)) - \varphi_\infty^\star|\)（把宽度 \(n\) 选出的超参用到无穷宽模型上、相比无穷宽自身最优所损失的性能）。\(c_n\) 正是迁移效率的直接度量。

在 \(\varphi_\infty\) 局部强凸的假设下，作者证明 \(b_n = O(a_n^{1/2})\)、\(c_n = \Theta(b_n^2) = O(a_n)\)。于是定义快速迁移为 \(c_n = o(a_n)\)，它等价于 \(b_n = o(a_n^{1/2})\)；若设 \(a_n \sim n^{-\alpha}\)、\(b_n \sim n^{-\beta}\)，则快速迁移当且仅当 \(\beta > \alpha/2\)。更妙的是作者把这个条件接到计算最优网格搜索上（Theorem 2）：给定 \(F\) flops 预算、单次宽度 \(n\) 训练耗 \(n^r\) flops，直接调参的计算最优性能 \(\sim F^{-2\alpha/(h\alpha+2r)}\)，而「小宽度调参 + 迁移到大宽度」的性能 \(\sim F^{-\alpha/r} + F^{-2\beta/(h\beta+r)}\)；两者比较得出迁移有用当且仅当 \(\beta > \alpha/2\)——和快速迁移完全同一个条件。这一步的价值在于：它说明只要超参参数化成尺度无关，迁移渐近上永不输于直接调参，但「为什么 \(\beta\) 能大过 \(\alpha/2\)」仍悬而未决，留给后面的机制去解释。

2. 合成例子：迁移快不快取决于结构，µP 不是充分条件

为了说明上面的速率不是凭空假设，作者给两个能算出确切速率的合成场景。随机特征岭回归（调岭惩罚 \(\lambda\)，目标为单指标模型，比例极限 \(N,d,n\to\infty\)、\(\psi_2 = n/d\)）里，作者用 Theorem 3 精确算出损失差 \(a_n \sim \psi_2^{-1}\)、超参差 \(b_n = O(\psi_2^{-1})\)、次优差 \(c_n = O(\psi_2^{-2}) \ll a_n\)——满足 \(\beta > \alpha/2\)，是可证的快速迁移，也是据作者所知第一个能严格证明「迁移比直接调参更省算力」的具体设定。

反例是两层 ReLU 网络学球指示函数 \(y = \mathbb{1}[\|x\|_2^2 > F^{-1}_{\chi^2_d}(0.5)]\)，用 µP 跑 Adam 调学习率。这里最优学习率虽然有良定义极限，却仍明显向右漂移，幂律拟合给出 \(b_n \sim \sqrt{a_n}\)，即最优超参收敛不比强凸给出的平凡速率更快——只是弱迁移、不是快速迁移。这两个例子合起来传递一个关键信息：µP 保证的是弱迁移，快速迁移则依赖数据 / 优化器 / 架构共同涌现的结构性质，不能想当然。

3. Top-k 轨迹分解：从轨迹里抽出「决定超参的低维子空间」

既然快速迁移需要「某些随宽度快速收敛、且决定最优超参的统计量」，作者就显式地把它从轨迹里抽出来。先做两层处理：把一步损失变化 \(\delta L(w_t) = L(w_{t+1}) - L(w_t)\) 用线性化 \(\delta\varphi(w_t) := \langle g_t, \delta w_t\rangle\) 近似（\(g_t\) 为梯度、\(\delta w_t\) 为更新），并沿轨迹累加成 \(\varphi(\omega) = \sum_t \delta\varphi(w_t) \approx \Delta L(\omega)\)；关键是把 \(\omega\) 取成基础轨迹的指数滑动平均（EMA）——EMA 抹掉了 edge-of-stability 式的振荡，使轨迹足够光滑，线性化才忠实（实验里线性化损失与 EMA 损失几乎重合）。

然后做谱分解。对某层权重 \(W\in\mathbb{R}^{m\times n}\) 及其梯度 \(G\)，定义对齐矩阵 \(S(G,\delta W) := \tfrac{1}{2}(G^\top \delta W + \delta W^\top G)\)，按其特征值绝对值排序 \(|\lambda_1|\ge\cdots\ge|\lambda_n|\)，则该步全部损失变化 \(\delta\varphi(W) = \sum_{i=1}^n \lambda_i\)，而 top-k 损失变化 \(\delta\varphi_k(W) := \sum_{i=1}^k \lambda_i\)（当更新与梯度对齐 \(G\propto\delta W\) 时即 \(G\) 的 top-k 奇异值之和）。沿层与时间累加得 \(\varphi_k(\omega) = \sum_\ell \sum_t \delta\varphi_k(W_t^{(\ell)})\)，于是总损失曲线拆成 top-κ 损失曲线 \(\varphi_n^\kappa\) 与残差损失曲线 \(\varphi_n^{-\kappa} = \varphi_n - \varphi_n^\kappa\)。

由此作者把 Hypothesis 1 落成三条可检验的充分条件：① top-κ 强凸——\(\varphi_n^{\kappa_n}, \varphi_\infty^{\kappa_n}\) 在最优附近局部强凸；② top-κ 不变——top-κ 损失随宽度快速收敛，\(\varphi_n^{\kappa_n}\approx\varphi_\infty^{\kappa_n}\) 且其最优超参 \(\nu^\star_{\kappa_n}(n)\approx\nu^\star_{\kappa_n}(\infty)\)；③ 残差平坦——残差在最优超参附近几乎平的，使得 \(\nu^\star_{\kappa_n}(n)\approx\nu^\star(n)\)。三条合起来推出 \(\nu^\star(n)\approx\nu^\star(\infty)\)，即最优超参跨宽度稳定。截断 \(\kappa\) 的选取是个权衡：太小则 top-κ 最优超参逼近不了真最优，太大则混入宽度敏感的尾部分量；作者定义上界量 \(J_n(\kappa)\)（用 top-κ 不变性与残差平坦度量约束超参差 \(b_n\)），并优化一个代理目标 \(J_{\text{proxy}}(\kappa)\) 得到截断 \(\hat\kappa(n)\)（Algorithm 1）。直觉上 \(\hat\kappa(n)\) 恰落在 \(\varphi^k_n\) 曲线开始「脱离」\(\varphi^k_\infty\) 的拐点——即开始混入宽度敏感方向的位置，且随 \(n\) 增大而增大。

一个例子：top-k 分解在 Transformer 上怎么显形¶

以 µP 下训练的 Llama 风格 Transformer 为例（固定学习率，宽度从 128 扫到 2048），取 \(k=60\) 沿整个训练过程画 top-k 损失与残差损失。结果是：top-k 损失曲线几乎与宽度无关、且承担了绝大部分的损失下降，而残差损失随宽度持续改善、尤其在训练后期。也就是说优化带来的主体改进来自一个低维子空间，而「加宽度」的好处主要体现在残差上、所谓「宽度依赖的学习」主要发生在尾部分量。再用 Algorithm 1 算出随宽度变化的 \(\hat\kappa(n)\)、以最大宽度 2048 当无穷宽代理：跨学习率画 top-κ 损失曲线时它们近乎重叠（top-κ 不变），而总损失曲线在不同宽度间差距很大；同时残差在 top-κ 最优点附近比 top-κ 损失更平（残差平坦）。三个现象正好对上设计 3 的三条件，把「损失自身收敛很慢、最优学习率却收敛很快」这件事讲圆了。

实验关键数据¶

主实验在 µP 下训练 4 层 Llama 风格 Transformer（Adam + WSD 学习率调度，WikiText-103），并扫峰值学习率；合成实验给出可解析的收敛速率。

主实验¶

场景	损失差 \(a_n\)	超参差 \(b_n\)	次优差 \(c_n\)	结论
随机特征岭回归（调 \(\lambda\)）	\(\Theta(\psi_2^{-1})\)	\(O(\psi_2^{-1})\)	\(O(\psi_2^{-2})\)	可证快速迁移（\(c_n\ll a_n\)），首个可证有算力优势的设定
两层 ReLU（调学习率，µP）	\(n^{-\alpha}\)	\(\sim\sqrt{a_n}\)	\(\Theta(a_n)\)	仅弱迁移，最优学习率收敛不快于平凡速率
Llama Transformer（µP，WikiText-103）	\(L = 3.137 + 13.16\,n^{-0.52}\)	远快于损失	极小	快速迁移：\(n{=}128\) 的最优 LR 对所有宽度近乎最优

可降损失随宽度按 \(n^{-0.52}\) 缓慢收敛，但最优学习率收敛快得多——用宽度 128 选出的学习率套到更大宽度，损失曲线几乎完全重叠（Figure 6b），印证了「超参先稳、损失后降」。

分析实验（top-k 分解）¶

观察	现象	对应机制
时间维分解（\(k{=}60\) 固定）	top-k 损失近乎宽度不变、占损失下降主体；残差随宽度改善	top-κ 不变 + 残差承载宽度收益
宽度维分解（\(\hat\kappa(n)\) 自适应）	跨学习率 top-κ 损失曲线近乎重叠，总损失却差距大	top-κ 不变性
残差形状	残差在 top-κ 最优点附近比 top-κ 损失更平	残差平坦性
top-k 剖面	\(\varphi^k_n\) 随 \(k\) 先陡降后变平，\(\hat\kappa(n)\) 落在脱离 \(\varphi^k_\infty\) 的拐点、随 \(n\) 增大	截断权衡得到验证

关键发现¶

损失慢收敛 ≠ 超参慢收敛：损失按 \(n^{-0.52}\) 慢慢降，但最优学习率收敛快得多——根因是决定学习率的 top-k 子空间随宽度迅速稳定，而宽度收益落在不影响最优点的平坦残差里。
µP 只给弱迁移：两层 ReLU 反例下即便用 µP，最优学习率仍按 \(\sqrt{a_n}\) 慢收敛，说明快速迁移是数据/优化器/架构共同涌现的结构，不是 µP 必然产物。
优化器敏感：附录里换 Muon 后迁移更不稳、top-k 不变性更弱；GPT-2 在 FineWeb 上则复现了类似的快速迁移行为。
样本难度视角：CIFAR-10 上引入「逐样本」版 top-k 分解，把迁移质量和样本「难度」联系起来，为「顶部 vs 尾部分量各自在学什么」提供了可解释的切口。

亮点与洞察¶

把模糊的经验现象钉成一个可证速率条件：用 \(a_n,b_n,c_n\) 三个量加 \(\beta>\alpha/2\)，同时刻画了「迁移快」和「迁移在算力上有用」，还顺手给出第一个可证有算力优势的合成设定，这种「先把问题问清楚」的形式化本身就很值。
EMA + 线性化是关键 trick：直接线性化会被 edge-of-stability 的振荡破坏，先做 EMA 平滑再线性化，让 \(\langle g_t,\delta w_t\rangle\) 成为损失变化的忠实代理——这个「先平滑、再分解」的思路可迁移到任何想分析优化轨迹的场景。
对齐矩阵谱分解很巧：用 \(S(G,\delta W)=\tfrac12(G^\top\delta W+\delta W^\top G)\) 的特征值排序来定义 top-k 损失变化，既兼容「更新未必正比于梯度」的真实优化器，又在对齐时退化为梯度奇异值——是个干净且可计算的「哪些方向在真正降损失」的度量。
"超参由顶部、损失由全谱"的直觉被实证：把「学习率由顶部少数方向决定、损失由所有方向决定」这个长期直觉做成了可测的 top-κ / 残差分解，是理解 µP 迁移的有力视角。

局限与展望¶

核心仍是猜想 + 定性验证：三条件（top-κ 强凸/不变、残差平坦）在大规模设定下因算力代价只给了定性证据（用 \(\approx\) 而非确切速率），\(a_n,b_n,c_n\) 的确切标度也未在 µP 网络上解析推导，定量化留给未来。
无穷宽用最大宽度代理：用 \(n_{\max}=2048\) 当无穷宽代理、用幂律拟合估速率，结论对拟合范围与代理选择有依赖。
依赖局部强凸假设：整个速率连接建立在 \(\varphi_\infty\) 局部强凸上；若损失在最优附近很平，超参选择本就无关紧要，框架的适用性边界值得注意。
优化器/架构覆盖有限：主结论在 Adam + Transformer 上最稳，Muon 已显出不稳；不同优化器下 top-k 不变性强弱的机制差异还需更系统的研究。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次为快速超参迁移给出可证速率刻画 + 可检验的轨迹分解机制，问题提法和工具都新。
实验充分度: ⭐⭐⭐⭐ 合成可证 + LLM/GPT-2/CIFAR 多设定验证齐全，但大规模仅定性、确切速率未解析。
写作质量: ⭐⭐⭐⭐⭐ 从形式化到反例到机制层层递进，定义与假设交代清楚。
价值: ⭐⭐⭐⭐⭐ 直击「µP 迁移为何这么快」这一被广泛使用却没讲清的核心问题，对理解与设计尺度感知超参有实在指导意义。