Conflicting Biases at the Edge of Stability: Norm versus Sharpness Regularization¶
会议: ICML2026
arXiv: 2505.21423
代码: 论文附带研究代码(未给出独立仓库链接)
领域: 优化理论 / 隐式偏置 / 泛化
关键词: 梯度下降, 隐式偏置, Edge of Stability, 锐度正则化, 参数范数
一句话总结¶
这是一篇分析性论文:作者指出梯度下降同时存在两种相互冲突的隐式偏置——小学习率倾向于压低参数范数、大学习率(Edge of Stability)倾向于压低损失锐度——学习率在二者之间插值,并通过实验观测到一个由临界学习率 \(\eta_c\) 划分的相变,再用对角线性网络的理论反例证明"任何单一隐式偏置都不足以解释泛化"。
研究背景与动机¶
领域现状:过参数化网络泛化好,常被归因于梯度下降(GD)的"隐式偏置"——即优化算法天然偏好某类"结构良好"的解。这条线索分成两派:一派研究小学习率(乃至梯度流 GF)下的偏置,证明 GD 偏向最小范数解(如 Woodworth 等对对角线性网络的结论、Chou 等对前馈网络组合结构的范数正则化);另一派研究大学习率下的 Edge of Stability(EoS)现象,证明 GD 只能收敛到锐度足够低的极小点(Ahn 等:固定 \(\eta\) 时只能停在 \(S_L(\theta^\star)<2/\eta\) 处)。
现有痛点:这两派几乎都各自孤立地分析单一偏置——要么假设学习率趋于 0,要么只盯着 EoS。但真实训练用的是有限且不接近 0 的学习率,两种偏置会同时起作用。把它们分开研究,就回答不了"它们如何相互作用、谁主导、什么时候主导"。
核心矛盾:低范数和低锐度这两个目标在有限学习率下并不一致,甚至冲突。压低锐度往往要付出范数升高的代价,反之亦然,而这个权衡的旋钮恰恰就是学习率。先前"单一偏置解释泛化"的成功,可能只是因为在那些特例里两个偏置碰巧指向同一个解。
本文目标:(1)刻画两种偏置随学习率的此消彼长;(2)搞清楚泛化最优点落在学习率谱的哪一端;(3)用一个能算清楚的简化模型给出"单一偏置不最优"的硬证据。
切入角度:把学习率当成连续旋钮,固定初始化、扫一遍学习率,比较训练末端 GD 解的锐度与范数,而不是像 Cohen 等那样沿单条轨迹看 Progressive Sharpening→EoS 的时间演化。
核心 idea:学习率在"低范数"与"低锐度"之间插值;最佳泛化往往落在两者平衡的中间学习率处,既不在最小范数端、也未必在最小锐度端。
方法详解¶
本文不是提出新算法,而是一项"实验观测 + 理论反例"的分析工作。所以"方法"指的是它如何系统地揭示并论证两种隐式偏置的冲突。
整体框架¶
论文先给出统一的概念图景:从同一初始化 \(\theta_0\) 出发,用固定学习率 \(\eta\) 跑全批量 GD \(\theta_{k+1}=\theta_k-\eta\nabla L(\theta_k)\) 到某个损失阈值 \(\varepsilon\),记录末端解的锐度与范数。锐度定义为损失 Hessian 的算子范数 \(S_L(\theta):=\|\nabla^2 L(\theta)\|=\max_{\lambda\in\sigma(\nabla^2 L(\theta))}|\lambda|\)(即最大绝对特征值)。经典理论告诉我们 GD 单调下降只在 \(\eta<2/L\) 时有保证,所以一旦锐度超过 \(2/\eta\),迭代就进入 EoS、锐度被压在 \(2/\eta\) 附近震荡。
围绕这个设定,论文的论证分三层逐步收紧:层一用大规模实验展示"扫学习率会看到一个尖锐相变";层二把相变前后命名为 flow-aligned 与 EoS 两个 regime 并刻画各自的范数/锐度走向;层三退到一个能解析求解的对角线性网络,证明范数极小点与锐度极小点既不重合、又都不是泛化最优。这是一篇纯理论/实证分析文,机制靠公式和相图讲清即可,不适合画 pipeline 框架图。
关键设计¶
1. 学习率诱导的两种冲突隐式偏置:把"低范数"与"低锐度"放在同一坐标系里对立
针对"两派各自孤立分析"的痛点,本文把两种偏置摆到同一个实验里直接对撞。小学习率端,GD 贴近梯度流,前馈网络的组合结构使其偏向小参数范数解;大学习率端,EoS 机制让 GD 无法停在过陡区域,只能收敛到低锐度解(因为固定 \(\eta\) 下可达极小点必满足 \(S_L(\theta^\star)<2/\eta\))。关键观察是:当学习率跨过临界值后,末端解的锐度随 \(\eta\) 双曲式下降(贴着 \(\eta\mapsto 2/\eta\)),而 \(\ell_1\) 范数近似线性上升——二者反向变动,说明它们是一对需要权衡的冲突偏置,而非同向增强。这直接反驳了"盯住单一偏置就能解释泛化"的隐含假设。
2. 临界学习率 \(\eta_c=2/s_{GF}\) 与尖锐相变:给"何时切换主导偏置"一个可计算的分界
作者发现两个 regime 之间存在一个由数据和模型决定的尖锐相变,临界学习率近似为 \(\eta_c:=2/s_{GF}^{\varepsilon}\),其中 \(s_{GF}^{\varepsilon}:=\max_{t\le t_\varepsilon}S_L(\theta(t_\varepsilon))\) 是梯度流解在到达损失阈值 \(\varepsilon\) 之前的最大锐度。当 \(\eta<\eta_c\)(flow-aligned regime),GD 与梯度流几乎同步,末端锐度与范数随学习率基本不变;当 \(\eta>\eta_c\)(EoS regime),锐度开始随 \(\eta\) 双曲下降、范数上升。需要强调:这个相变是在"固定初始化、横扫学习率、比较各自末端解"的意义下出现的,不同于 Cohen 等沿单条轨迹观察到的 Progressive Sharpening→EoS 时间相变——两者容易混淆但层次不同。论文通过改变数据集规模、网络宽度/深度(FCN/CNN/ResNet/ViT)、激活(ReLU/tanh)、损失(CE/MSE)、损失阈值(等价于早停)、初始化和参数化(μP/kernel)等一大批变量,验证该相变普遍存在。
3. 对角线性网络的理论反例:证明单一偏置都不最优
实验只能说"相关",要给出"单一偏置不充分"的硬证据,作者退到一个能解析的最简设定:浅层对角线性网络、权重共享、在单个数据点上用平方损失做回归。在零损失解流形 \(L=0\) 上,他们刻画出范数极小点与锐度极小点的位置关系,并比较二者的期望泛化误差。结论是:存在一类场景,最低期望泛化误差既不在范数极小点、也不在锐度极小点取得,而是由学习率连续调控。这构成了一个干净的反例——既然在如此简单的模型里单一偏置都拿不到最优泛化,那么用任何单一隐式偏置解释神经网络泛化都站不住脚。附录进一步把分析扩展到分类设定与多数据点情形。
4. 泛化的 U 型曲线:最佳泛化常在"平衡学习率"处,而非任一极端
把测试损失也作为学习率的函数画出来,作者发现在不少设定下(如 MNIST-5k + MSE)测试损失呈 U 形:最佳泛化出现在范数偏置与锐度偏置势均力敌的中间学习率,而且从不落在最小范数端。这把学习率重新诠释为一个正则化超参数,调控所得模型的泛化容量。论文也诚实地指出这并非铁律——例如 CIFAR-10-5k + MSE 就不呈 U 形,说明两种偏置的相对强弱还依赖于损失函数与数据,但"单一偏置不足以解释泛化"的主结论不受影响。
实验关键数据¶
两个 regime 的对照¶
| 维度 | flow-aligned regime(\(\eta<\eta_c\)) | EoS regime(\(\eta>\eta_c\)) |
|---|---|---|
| 主导偏置 | 范数正则化(贴近梯度流) | 锐度正则化(EoS 震荡) |
| 锐度随 \(\eta\) | 近似不变 | 双曲下降,贴 \(2/\eta\) |
| \(\ell_1\) 范数随 \(\eta\) | 近似不变 | 近似线性上升 |
| 动力学 | 稳定收敛,跟踪 GF 轨迹 | 损失非单调下降,曲率在 \(2/\eta\) 上方震荡 |
实验范围与泛化观测¶
| 变量 | 取值 | 主要结论 |
|---|---|---|
| 架构 | FCN / CNN / ResNet / ViT | 相变与权衡普遍存在 |
| 损失 | CE / MSE | 相变形态相似,时间演化有差异 |
| 设定 | MNIST-5k + MSE | 测试损失呈清晰 U 形,最优在中间 \(\eta\) |
| 设定 | CIFAR-10-5k + CE | 趋势类似但更弱 |
| 设定 | CIFAR-10-5k + MSE | 不呈 U 形(反例,说明非普适) |
关键发现¶
- 锐度贴 \(2/\eta\) 是 EoS 的指纹:训练在 EoS 阶段结束时,末端锐度几乎等于 \(2/\eta\),因此随学习率双曲衰减——这是把"末端锐度"和"学习率"直接挂钩的桥梁。
- 范数极小从不是泛化最优:在所有观察到 U 型的设定里,最佳泛化都不在最小范数(最小学习率)端,这是对"范数即复杂度代理"叙事的直接反驳。
- 相变临界点可预测:\(\eta_c\approx 2/s_{GF}\) 由梯度流解的最大锐度决定,因此改初始化会移动 \(s_{GF}\)、相应平移临界学习率,实验中得到验证。
- flow-aligned 不等于完全贴合 GF:作者特别指出,与 Arora 等的结论不同,flow-aligned regime 里 GD 相对梯度流的绝对偏差不一定可忽略,但二者末端的锐度与范数值几乎相等——所以"对齐"是指末端统计量对齐,而非整条轨迹重合。
- μP 参数化下的宽度无关性:在 μP 参数化里观察到锐度等谱性质的某种宽度无关行为,提示该权衡在大宽度极限下依然稳定,而非小模型的有限尺寸假象。
一个简化模型的直觉¶
对角线性网络(共享权重)在单点回归 + 平方损失下,零损失解构成一个低维流形。沿这条流形移动,参数范数与损失锐度此消彼长:靠近某一端范数最小、另一端锐度最小,而真实信号对应的"泛化最优点"通常落在两者之间。学习率正是决定 GD 最终停在流形哪个位置的旋钮——小 \(\eta\) 把解推向范数极小端,大 \(\eta\) 经 EoS 把解推向锐度极小端,于是"哪个偏置都不最优"在这个能手算的模型里被清清楚楚地展示出来。
亮点与洞察¶
- 把两条独立研究线索摆上同一张相图:以往范数偏置与锐度偏置分属两个学术圈子,本文用"固定初始化横扫学习率"这一干净实验把它们的冲突可视化成尖锐相变,叙事极具说服力。
- 学习率 = 正则化旋钮:将学习率重新定位为调控泛化容量的超参数(而非单纯收敛速度参数),为调参提供了"在范数与锐度之间找平衡点"的直觉。
- 可迁移的方法论:用最简对角线性网络做"反例机器"——当你怀疑某个被广泛接受的单因素解释时,退到能解析的玩具模型构造反例,是一种值得借鉴的证伪范式。
局限与展望¶
- 理论只覆盖玩具模型:解析结论限于浅层对角线性网络、单数据点、平方损失;真实深网上的结论靠实验外推,缺乏严格保证。
- 锐度度量的选择留有争议:本文只用最坏情况锐度(Hessian 算子范数),泛化与锐度的关系本身在文献中尚有分歧;虽附录验证了其他锐度度量下权衡依然存在,但"哪种锐度最能预测泛化"仍是开放问题。
- U 型非普适:CIFAR-10-5k + MSE 的反例说明两种偏置的相对强弱依赖损失与数据,论文未给出"何时呈 U 形"的判据。
- 改进方向:把对角线性网络的反例推广到更现实的网络类,或给出预测"最优学习率落点"的可计算准则,会把这套观察从描述性推向指导性。
相关工作与启发¶
- vs Cohen 等(2021,EoS 原始观察):他们沿单条轨迹刻画固定 \(\eta\) 下锐度爬升到 \(2/\eta\) 的时间相变;本文换一个视角,横扫学习率比较末端解,揭示的是另一层(regime-level)的相变,二者层次不同、互补。
- vs Ahn 等(2022,锐度正则化)/ Chou 等(2023,范数正则化):本文不否定任何一方,而是指出二者孤立时都不足以解释泛化,必须当作一对受学习率调控的冲突偏置来联合分析。
- vs Andriushchenko 等(2023a):他们观察到泛化与学习率等超参数相关;本文为这种相关提供了"范数-锐度权衡"的机制解释,二者结论一致、相互印证。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 把两种隐式偏置当作冲突权衡来联合分析,并用反例证伪单一偏置叙事,视角新颖。
- 实验充分度: ⭐⭐⭐⭐ 横跨多架构/损失/初始化系统扫学习率,但受限于锐度估计只能用小模型。
- 写作质量: ⭐⭐⭐⭐⭐ 概念图景、相图、理论反例层层递进,叙事清晰诚实(主动给出 U 型的反例)。
- 价值: ⭐⭐⭐⭐ 把学习率重新理解为正则化旋钮,对理解泛化与调参有概念性价值。