Conflicting Biases at the Edge of Stability: Norm versus Sharpness Regularization¶

会议: ICML2026
arXiv: 2505.21423
代码: 论文附带研究代码（未给出独立仓库链接）
领域: 优化理论 / 隐式偏置 / 泛化
关键词: 梯度下降, 隐式偏置, Edge of Stability, 锐度正则化, 参数范数

一句话总结¶

这是一篇分析性论文：作者指出梯度下降同时存在两种相互冲突的隐式偏置——小学习率倾向于压低参数范数、大学习率（Edge of Stability）倾向于压低损失锐度——学习率在二者之间插值，并通过实验观测到一个由临界学习率 \(\eta_c\) 划分的相变，再用对角线性网络的理论反例证明"任何单一隐式偏置都不足以解释泛化"。

研究背景与动机¶

领域现状：过参数化网络泛化好，常被归因于梯度下降（GD）的"隐式偏置"——即优化算法天然偏好某类"结构良好"的解。这条线索分成两派：一派研究小学习率（乃至梯度流 GF）下的偏置，证明 GD 偏向最小范数解（如 Woodworth 等对对角线性网络的结论、Chou 等对前馈网络组合结构的范数正则化）；另一派研究大学习率下的 Edge of Stability（EoS）现象，证明 GD 只能收敛到锐度足够低的极小点（Ahn 等：固定 \(\eta\) 时只能停在 \(S_L(\theta^\star)<2/\eta\) 处）。

现有痛点：这两派几乎都各自孤立地分析单一偏置——要么假设学习率趋于 0，要么只盯着 EoS。但真实训练用的是有限且不接近 0 的学习率，两种偏置会同时起作用。把它们分开研究，就回答不了"它们如何相互作用、谁主导、什么时候主导"。

核心矛盾：低范数和低锐度这两个目标在有限学习率下并不一致，甚至冲突。压低锐度往往要付出范数升高的代价，反之亦然，而这个权衡的旋钮恰恰就是学习率。先前"单一偏置解释泛化"的成功，可能只是因为在那些特例里两个偏置碰巧指向同一个解。

本文目标：（1）刻画两种偏置随学习率的此消彼长；（2）搞清楚泛化最优点落在学习率谱的哪一端；（3）用一个能算清楚的简化模型给出"单一偏置不最优"的硬证据。

切入角度：把学习率当成连续旋钮，固定初始化、扫一遍学习率，比较训练末端 GD 解的锐度与范数，而不是像 Cohen 等那样沿单条轨迹看 Progressive Sharpening→EoS 的时间演化。

核心 idea：学习率在"低范数"与"低锐度"之间插值；最佳泛化往往落在两者平衡的中间学习率处，既不在最小范数端、也未必在最小锐度端。

方法详解¶

本文不是提出新算法，而是一项"实验观测 + 理论反例"的分析工作。所以"方法"指的是它如何系统地揭示并论证两种隐式偏置的冲突。

整体框架¶

论文先给出统一的概念图景：从同一初始化 \(\theta_0\) 出发，用固定学习率 \(\eta\) 跑全批量 GD \(\theta_{k+1}=\theta_k-\eta\nabla L(\theta_k)\) 到某个损失阈值 \(\varepsilon\)，记录末端解的锐度与范数。锐度定义为损失 Hessian 的算子范数 \(S_L(\theta):=\|\nabla^2 L(\theta)\|=\max_{\lambda\in\sigma(\nabla^2 L(\theta))}|\lambda|\)（即最大绝对特征值）。经典理论告诉我们 GD 单调下降只在 \(\eta<2/L\) 时有保证，所以一旦锐度超过 \(2/\eta\)，迭代就进入 EoS、锐度被压在 \(2/\eta\) 附近震荡。

围绕这个设定，论文的论证分三层逐步收紧：层一用大规模实验展示"扫学习率会看到一个尖锐相变"；层二把相变前后命名为 flow-aligned 与 EoS 两个 regime 并刻画各自的范数/锐度走向；层三退到一个能解析求解的对角线性网络，证明范数极小点与锐度极小点既不重合、又都不是泛化最优。这是一篇纯理论/实证分析文，机制靠公式和相图讲清即可，不适合画 pipeline 框架图。

关键设计¶

1. 学习率诱导的两种冲突隐式偏置：把"低范数"与"低锐度"放在同一坐标系里对立

针对"两派各自孤立分析"的痛点，本文把两种偏置摆到同一个实验里直接对撞。小学习率端，GD 贴近梯度流，前馈网络的组合结构使其偏向小参数范数解；大学习率端，EoS 机制让 GD 无法停在过陡区域，只能收敛到低锐度解（因为固定 \(\eta\) 下可达极小点必满足 \(S_L(\theta^\star)<2/\eta\)）。关键观察是：当学习率跨过临界值后，末端解的锐度随 \(\eta\) 双曲式下降（贴着 \(\eta\mapsto 2/\eta\)），而 \(\ell_1\) 范数近似线性上升——二者反向变动，说明它们是一对需要权衡的冲突偏置，而非同向增强。这直接反驳了"盯住单一偏置就能解释泛化"的隐含假设。

2. 临界学习率 \(\eta_c=2/s_{GF}\) 与尖锐相变：给"何时切换主导偏置"一个可计算的分界

作者发现两个 regime 之间存在一个由数据和模型决定的尖锐相变，临界学习率近似为 \(\eta_c:=2/s_{GF}^{\varepsilon}\)，其中 \(s_{GF}^{\varepsilon}:=\max_{t\le t_\varepsilon}S_L(\theta(t_\varepsilon))\) 是梯度流解在到达损失阈值 \(\varepsilon\) 之前的最大锐度。当 \(\eta<\eta_c\)（flow-aligned regime），GD 与梯度流几乎同步，末端锐度与范数随学习率基本不变；当 \(\eta>\eta_c\)（EoS regime），锐度开始随 \(\eta\) 双曲下降、范数上升。需要强调：这个相变是在"固定初始化、横扫学习率、比较各自末端解"的意义下出现的，不同于 Cohen 等沿单条轨迹观察到的 Progressive Sharpening→EoS 时间相变——两者容易混淆但层次不同。论文通过改变数据集规模、网络宽度/深度（FCN/CNN/ResNet/ViT）、激活（ReLU/tanh）、损失（CE/MSE）、损失阈值（等价于早停）、初始化和参数化（μP/kernel）等一大批变量，验证该相变普遍存在。

3. 对角线性网络的理论反例：证明单一偏置都不最优

实验只能说"相关"，要给出"单一偏置不充分"的硬证据，作者退到一个能解析的最简设定：浅层对角线性网络、权重共享、在单个数据点上用平方损失做回归。在零损失解流形 \(L=0\) 上，他们刻画出范数极小点与锐度极小点的位置关系，并比较二者的期望泛化误差。结论是：存在一类场景，最低期望泛化误差既不在范数极小点、也不在锐度极小点取得，而是由学习率连续调控。这构成了一个干净的反例——既然在如此简单的模型里单一偏置都拿不到最优泛化，那么用任何单一隐式偏置解释神经网络泛化都站不住脚。附录进一步把分析扩展到分类设定与多数据点情形。

4. 泛化的 U 型曲线：最佳泛化常在"平衡学习率"处，而非任一极端

把测试损失也作为学习率的函数画出来，作者发现在不少设定下（如 MNIST-5k + MSE）测试损失呈 U 形：最佳泛化出现在范数偏置与锐度偏置势均力敌的中间学习率，而且从不落在最小范数端。这把学习率重新诠释为一个正则化超参数，调控所得模型的泛化容量。论文也诚实地指出这并非铁律——例如 CIFAR-10-5k + MSE 就不呈 U 形，说明两种偏置的相对强弱还依赖于损失函数与数据，但"单一偏置不足以解释泛化"的主结论不受影响。

实验关键数据¶

两个 regime 的对照¶

维度	flow-aligned regime（\(\eta<\eta_c\)）	EoS regime（\(\eta>\eta_c\)）
主导偏置	范数正则化（贴近梯度流）	锐度正则化（EoS 震荡）
锐度随 \(\eta\)	近似不变	双曲下降，贴 \(2/\eta\)
\(\ell_1\) 范数随 \(\eta\)	近似不变	近似线性上升
动力学	稳定收敛，跟踪 GF 轨迹	损失非单调下降，曲率在 \(2/\eta\) 上方震荡

实验范围与泛化观测¶

变量	取值	主要结论
架构	FCN / CNN / ResNet / ViT	相变与权衡普遍存在
损失	CE / MSE	相变形态相似，时间演化有差异
设定	MNIST-5k + MSE	测试损失呈清晰 U 形，最优在中间 \(\eta\)
设定	CIFAR-10-5k + CE	趋势类似但更弱
设定	CIFAR-10-5k + MSE	不呈 U 形（反例，说明非普适）

关键发现¶

锐度贴 \(2/\eta\) 是 EoS 的指纹：训练在 EoS 阶段结束时，末端锐度几乎等于 \(2/\eta\)，因此随学习率双曲衰减——这是把"末端锐度"和"学习率"直接挂钩的桥梁。
范数极小从不是泛化最优：在所有观察到 U 型的设定里，最佳泛化都不在最小范数（最小学习率）端，这是对"范数即复杂度代理"叙事的直接反驳。
相变临界点可预测：\(\eta_c\approx 2/s_{GF}\) 由梯度流解的最大锐度决定，因此改初始化会移动 \(s_{GF}\)、相应平移临界学习率，实验中得到验证。
flow-aligned 不等于完全贴合 GF：作者特别指出，与 Arora 等的结论不同，flow-aligned regime 里 GD 相对梯度流的绝对偏差不一定可忽略，但二者末端的锐度与范数值几乎相等——所以"对齐"是指末端统计量对齐，而非整条轨迹重合。
μP 参数化下的宽度无关性：在 μP 参数化里观察到锐度等谱性质的某种宽度无关行为，提示该权衡在大宽度极限下依然稳定，而非小模型的有限尺寸假象。

一个简化模型的直觉¶

对角线性网络（共享权重）在单点回归 + 平方损失下，零损失解构成一个低维流形。沿这条流形移动，参数范数与损失锐度此消彼长：靠近某一端范数最小、另一端锐度最小，而真实信号对应的"泛化最优点"通常落在两者之间。学习率正是决定 GD 最终停在流形哪个位置的旋钮——小 \(\eta\) 把解推向范数极小端，大 \(\eta\) 经 EoS 把解推向锐度极小端，于是"哪个偏置都不最优"在这个能手算的模型里被清清楚楚地展示出来。

亮点与洞察¶

把两条独立研究线索摆上同一张相图：以往范数偏置与锐度偏置分属两个学术圈子，本文用"固定初始化横扫学习率"这一干净实验把它们的冲突可视化成尖锐相变，叙事极具说服力。
学习率 = 正则化旋钮：将学习率重新定位为调控泛化容量的超参数（而非单纯收敛速度参数），为调参提供了"在范数与锐度之间找平衡点"的直觉。
可迁移的方法论：用最简对角线性网络做"反例机器"——当你怀疑某个被广泛接受的单因素解释时，退到能解析的玩具模型构造反例，是一种值得借鉴的证伪范式。

局限与展望¶

理论只覆盖玩具模型：解析结论限于浅层对角线性网络、单数据点、平方损失；真实深网上的结论靠实验外推，缺乏严格保证。
锐度度量的选择留有争议：本文只用最坏情况锐度（Hessian 算子范数），泛化与锐度的关系本身在文献中尚有分歧；虽附录验证了其他锐度度量下权衡依然存在，但"哪种锐度最能预测泛化"仍是开放问题。
U 型非普适：CIFAR-10-5k + MSE 的反例说明两种偏置的相对强弱依赖损失与数据，论文未给出"何时呈 U 形"的判据。
改进方向：把对角线性网络的反例推广到更现实的网络类，或给出预测"最优学习率落点"的可计算准则，会把这套观察从描述性推向指导性。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把两种隐式偏置当作冲突权衡来联合分析，并用反例证伪单一偏置叙事，视角新颖。
实验充分度: ⭐⭐⭐⭐ 横跨多架构/损失/初始化系统扫学习率，但受限于锐度估计只能用小模型。
写作质量: ⭐⭐⭐⭐⭐ 概念图景、相图、理论反例层层递进，叙事清晰诚实（主动给出 U 型的反例）。
价值: ⭐⭐⭐⭐ 把学习率重新理解为正则化旋钮，对理解泛化与调参有概念性价值。