跳转至

Conflicting Biases at the Edge of Stability: Norm versus Sharpness Regularization

会议: ICML2026
arXiv: 2505.21423
代码: 论文附带研究代码(未给出独立仓库链接)
领域: 优化理论 / 隐式偏置 / 泛化
关键词: 梯度下降, 隐式偏置, Edge of Stability, 锐度正则化, 参数范数

一句话总结

这是一篇分析性论文:作者指出梯度下降同时存在两种相互冲突的隐式偏置——小学习率倾向于压低参数范数、大学习率(Edge of Stability)倾向于压低损失锐度——学习率在二者之间插值,并通过实验观测到一个由临界学习率 \(\eta_c\) 划分的相变,再用对角线性网络的理论反例证明"任何单一隐式偏置都不足以解释泛化"。

研究背景与动机

领域现状:过参数化网络泛化好,常被归因于梯度下降(GD)的"隐式偏置"——即优化算法天然偏好某类"结构良好"的解。这条线索分成两派:一派研究小学习率(乃至梯度流 GF)下的偏置,证明 GD 偏向最小范数解(如 Woodworth 等对对角线性网络的结论、Chou 等对前馈网络组合结构的范数正则化);另一派研究大学习率下的 Edge of Stability(EoS)现象,证明 GD 只能收敛到锐度足够低的极小点(Ahn 等:固定 \(\eta\) 时只能停在 \(S_L(\theta^\star)<2/\eta\) 处)。

现有痛点:这两派几乎都各自孤立地分析单一偏置——要么假设学习率趋于 0,要么只盯着 EoS。但真实训练用的是有限且不接近 0 的学习率,两种偏置会同时起作用。把它们分开研究,就回答不了"它们如何相互作用、谁主导、什么时候主导"。

核心矛盾:低范数和低锐度这两个目标在有限学习率下并不一致,甚至冲突。压低锐度往往要付出范数升高的代价,反之亦然,而这个权衡的旋钮恰恰就是学习率。先前"单一偏置解释泛化"的成功,可能只是因为在那些特例里两个偏置碰巧指向同一个解。

本文目标:(1)刻画两种偏置随学习率的此消彼长;(2)搞清楚泛化最优点落在学习率谱的哪一端;(3)用一个能算清楚的简化模型给出"单一偏置不最优"的硬证据。

切入角度:把学习率当成连续旋钮,固定初始化、扫一遍学习率,比较训练末端 GD 解的锐度与范数,而不是像 Cohen 等那样沿单条轨迹看 Progressive Sharpening→EoS 的时间演化。

核心 idea:学习率在"低范数"与"低锐度"之间插值;最佳泛化往往落在两者平衡的中间学习率处,既不在最小范数端、也未必在最小锐度端。

方法详解

本文不是提出新算法,而是一项"实验观测 + 理论反例"的分析工作。所以"方法"指的是它如何系统地揭示并论证两种隐式偏置的冲突。

整体框架

论文先给出统一的概念图景:从同一初始化 \(\theta_0\) 出发,用固定学习率 \(\eta\) 跑全批量 GD \(\theta_{k+1}=\theta_k-\eta\nabla L(\theta_k)\) 到某个损失阈值 \(\varepsilon\),记录末端解的锐度范数。锐度定义为损失 Hessian 的算子范数 \(S_L(\theta):=\|\nabla^2 L(\theta)\|=\max_{\lambda\in\sigma(\nabla^2 L(\theta))}|\lambda|\)(即最大绝对特征值)。经典理论告诉我们 GD 单调下降只在 \(\eta<2/L\) 时有保证,所以一旦锐度超过 \(2/\eta\),迭代就进入 EoS、锐度被压在 \(2/\eta\) 附近震荡。

围绕这个设定,论文的论证分三层逐步收紧:层一用大规模实验展示"扫学习率会看到一个尖锐相变";层二把相变前后命名为 flow-aligned 与 EoS 两个 regime 并刻画各自的范数/锐度走向;层三退到一个能解析求解的对角线性网络,证明范数极小点与锐度极小点既不重合、又都不是泛化最优。这是一篇纯理论/实证分析文,机制靠公式和相图讲清即可,不适合画 pipeline 框架图。

关键设计

1. 学习率诱导的两种冲突隐式偏置:把"低范数"与"低锐度"放在同一坐标系里对立

针对"两派各自孤立分析"的痛点,本文把两种偏置摆到同一个实验里直接对撞。小学习率端,GD 贴近梯度流,前馈网络的组合结构使其偏向小参数范数解;大学习率端,EoS 机制让 GD 无法停在过陡区域,只能收敛到低锐度解(因为固定 \(\eta\) 下可达极小点必满足 \(S_L(\theta^\star)<2/\eta\))。关键观察是:当学习率跨过临界值后,末端解的锐度随 \(\eta\) 双曲式下降(贴着 \(\eta\mapsto 2/\eta\)),而 \(\ell_1\) 范数近似线性上升——二者反向变动,说明它们是一对需要权衡的冲突偏置,而非同向增强。这直接反驳了"盯住单一偏置就能解释泛化"的隐含假设。

2. 临界学习率 \(\eta_c=2/s_{GF}\) 与尖锐相变:给"何时切换主导偏置"一个可计算的分界

作者发现两个 regime 之间存在一个由数据和模型决定的尖锐相变,临界学习率近似为 \(\eta_c:=2/s_{GF}^{\varepsilon}\),其中 \(s_{GF}^{\varepsilon}:=\max_{t\le t_\varepsilon}S_L(\theta(t_\varepsilon))\) 是梯度流解在到达损失阈值 \(\varepsilon\) 之前的最大锐度。当 \(\eta<\eta_c\)(flow-aligned regime),GD 与梯度流几乎同步,末端锐度与范数随学习率基本不变;当 \(\eta>\eta_c\)(EoS regime),锐度开始随 \(\eta\) 双曲下降、范数上升。需要强调:这个相变是在"固定初始化、横扫学习率、比较各自末端解"的意义下出现的,不同于 Cohen 等沿单条轨迹观察到的 Progressive Sharpening→EoS 时间相变——两者容易混淆但层次不同。论文通过改变数据集规模、网络宽度/深度(FCN/CNN/ResNet/ViT)、激活(ReLU/tanh)、损失(CE/MSE)、损失阈值(等价于早停)、初始化和参数化(μP/kernel)等一大批变量,验证该相变普遍存在。

3. 对角线性网络的理论反例:证明单一偏置都不最优

实验只能说"相关",要给出"单一偏置不充分"的硬证据,作者退到一个能解析的最简设定:浅层对角线性网络、权重共享、在单个数据点上用平方损失做回归。在零损失解流形 \(L=0\) 上,他们刻画出范数极小点锐度极小点的位置关系,并比较二者的期望泛化误差。结论是:存在一类场景,最低期望泛化误差既不在范数极小点、也不在锐度极小点取得,而是由学习率连续调控。这构成了一个干净的反例——既然在如此简单的模型里单一偏置都拿不到最优泛化,那么用任何单一隐式偏置解释神经网络泛化都站不住脚。附录进一步把分析扩展到分类设定与多数据点情形。

4. 泛化的 U 型曲线:最佳泛化常在"平衡学习率"处,而非任一极端

把测试损失也作为学习率的函数画出来,作者发现在不少设定下(如 MNIST-5k + MSE)测试损失呈 U 形:最佳泛化出现在范数偏置与锐度偏置势均力敌的中间学习率,而且从不落在最小范数端。这把学习率重新诠释为一个正则化超参数,调控所得模型的泛化容量。论文也诚实地指出这并非铁律——例如 CIFAR-10-5k + MSE 就不呈 U 形,说明两种偏置的相对强弱还依赖于损失函数与数据,但"单一偏置不足以解释泛化"的主结论不受影响。

实验关键数据

两个 regime 的对照

维度 flow-aligned regime(\(\eta<\eta_c\) EoS regime(\(\eta>\eta_c\)
主导偏置 范数正则化(贴近梯度流) 锐度正则化(EoS 震荡)
锐度随 \(\eta\) 近似不变 双曲下降,贴 \(2/\eta\)
\(\ell_1\) 范数随 \(\eta\) 近似不变 近似线性上升
动力学 稳定收敛,跟踪 GF 轨迹 损失非单调下降,曲率在 \(2/\eta\) 上方震荡

实验范围与泛化观测

变量 取值 主要结论
架构 FCN / CNN / ResNet / ViT 相变与权衡普遍存在
损失 CE / MSE 相变形态相似,时间演化有差异
设定 MNIST-5k + MSE 测试损失呈清晰 U 形,最优在中间 \(\eta\)
设定 CIFAR-10-5k + CE 趋势类似但更弱
设定 CIFAR-10-5k + MSE 呈 U 形(反例,说明非普适)

关键发现

  • 锐度贴 \(2/\eta\) 是 EoS 的指纹:训练在 EoS 阶段结束时,末端锐度几乎等于 \(2/\eta\),因此随学习率双曲衰减——这是把"末端锐度"和"学习率"直接挂钩的桥梁。
  • 范数极小从不是泛化最优:在所有观察到 U 型的设定里,最佳泛化都不在最小范数(最小学习率)端,这是对"范数即复杂度代理"叙事的直接反驳。
  • 相变临界点可预测\(\eta_c\approx 2/s_{GF}\) 由梯度流解的最大锐度决定,因此改初始化会移动 \(s_{GF}\)、相应平移临界学习率,实验中得到验证。
  • flow-aligned 不等于完全贴合 GF:作者特别指出,与 Arora 等的结论不同,flow-aligned regime 里 GD 相对梯度流的绝对偏差不一定可忽略,但二者末端的锐度与范数值几乎相等——所以"对齐"是指末端统计量对齐,而非整条轨迹重合。
  • μP 参数化下的宽度无关性:在 μP 参数化里观察到锐度等谱性质的某种宽度无关行为,提示该权衡在大宽度极限下依然稳定,而非小模型的有限尺寸假象。

一个简化模型的直觉

对角线性网络(共享权重)在单点回归 + 平方损失下,零损失解构成一个低维流形。沿这条流形移动,参数范数与损失锐度此消彼长:靠近某一端范数最小、另一端锐度最小,而真实信号对应的"泛化最优点"通常落在两者之间。学习率正是决定 GD 最终停在流形哪个位置的旋钮——小 \(\eta\) 把解推向范数极小端,大 \(\eta\) 经 EoS 把解推向锐度极小端,于是"哪个偏置都不最优"在这个能手算的模型里被清清楚楚地展示出来。

亮点与洞察

  • 把两条独立研究线索摆上同一张相图:以往范数偏置与锐度偏置分属两个学术圈子,本文用"固定初始化横扫学习率"这一干净实验把它们的冲突可视化成尖锐相变,叙事极具说服力。
  • 学习率 = 正则化旋钮:将学习率重新定位为调控泛化容量的超参数(而非单纯收敛速度参数),为调参提供了"在范数与锐度之间找平衡点"的直觉。
  • 可迁移的方法论:用最简对角线性网络做"反例机器"——当你怀疑某个被广泛接受的单因素解释时,退到能解析的玩具模型构造反例,是一种值得借鉴的证伪范式。

局限与展望

  • 理论只覆盖玩具模型:解析结论限于浅层对角线性网络、单数据点、平方损失;真实深网上的结论靠实验外推,缺乏严格保证。
  • 锐度度量的选择留有争议:本文只用最坏情况锐度(Hessian 算子范数),泛化与锐度的关系本身在文献中尚有分歧;虽附录验证了其他锐度度量下权衡依然存在,但"哪种锐度最能预测泛化"仍是开放问题。
  • U 型非普适:CIFAR-10-5k + MSE 的反例说明两种偏置的相对强弱依赖损失与数据,论文未给出"何时呈 U 形"的判据。
  • 改进方向:把对角线性网络的反例推广到更现实的网络类,或给出预测"最优学习率落点"的可计算准则,会把这套观察从描述性推向指导性。

相关工作与启发

  • vs Cohen 等(2021,EoS 原始观察):他们沿单条轨迹刻画固定 \(\eta\) 下锐度爬升到 \(2/\eta\) 的时间相变;本文换一个视角,横扫学习率比较末端解,揭示的是另一层(regime-level)的相变,二者层次不同、互补。
  • vs Ahn 等(2022,锐度正则化)/ Chou 等(2023,范数正则化):本文不否定任何一方,而是指出二者孤立时都不足以解释泛化,必须当作一对受学习率调控的冲突偏置来联合分析。
  • vs Andriushchenko 等(2023a):他们观察到泛化与学习率等超参数相关;本文为这种相关提供了"范数-锐度权衡"的机制解释,二者结论一致、相互印证。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 把两种隐式偏置当作冲突权衡来联合分析,并用反例证伪单一偏置叙事,视角新颖。
  • 实验充分度: ⭐⭐⭐⭐ 横跨多架构/损失/初始化系统扫学习率,但受限于锐度估计只能用小模型。
  • 写作质量: ⭐⭐⭐⭐⭐ 概念图景、相图、理论反例层层递进,叙事清晰诚实(主动给出 U 型的反例)。
  • 价值: ⭐⭐⭐⭐ 把学习率重新理解为正则化旋钮,对理解泛化与调参有概念性价值。