Hyperbolic Aware Minimization: Implicit Bias for Sparsity¶
会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=XKB5Hu0ACY
代码: 随论文附带(附录 G)
领域: optimization
关键词: 隐式偏置, 稀疏训练, 镜像流, 黎曼梯度流, 双曲几何, 符号翻转, 过参数化
一句话总结¶
HAM 用一个轻量的"双曲镜像步"和普通优化器步交替执行,在不增加任何参数/显存的前提下复现了 m⊙w 逐点过参数化带来的稀疏隐式偏置,同时修好了它在原点附近"逆度量塌缩、参数卡死无法翻符号"的老毛病,让稠密训练和稀疏训练都涨点。
研究背景与动机¶
领域现状:现代深度学习的泛化很大程度依赖过参数化带来的隐式偏置(implicit bias)——优化器和过参数化耦合后,会在训练动力学上施加隐式正则,从而改善泛化。最近的稀疏训练把这个思路用到极致:PILoT 和 Sign-In 把每个权重 \(\theta\) 重写成两个参数的逐点乘积 \(m\odot w\),这等价于一个双曲镜像映射(hyperbolic mirror map),能在训练中从隐式 \(L_2\)(稠密)偏置平滑过渡到隐式 \(L_1\)(稀疏)偏置,显著提升稀疏网络的泛化。
现有痛点:m⊙w 这套过参数化有两个硬伤。其一,它在原点附近的逆度量塌缩——m⊙w 对应的黎曼逆度量是 \(g^{-1}(\theta)=\sqrt{\theta^2+\gamma^2}\),当初始化尺度参数 \(\gamma\to 0\) 且权重 \(\theta\) 很小时,逆度量远小于 1,导致参数在 0 附近移动极慢、卡死在 0 处无法翻转符号(sign flip),而符号学习恰恰是稀疏训练能否成功的关键瓶颈。其二,它把参数量直接翻倍,带来额外显存与计算开销。Sign-In 试图通过周期性把 \(\gamma\) 重置回 1 来缓解逆度量塌缩,但这种"硬扰动"不稳定,效果有限。
核心矛盾:既想要 m⊙w 那套有益的双曲几何(促进符号翻转 + 隐式稀疏偏置),又不想要它的逆度量塌缩和翻倍参数。
本文目标:提炼 m⊙w 隐式偏置的本质结构,做成一个即插即用、零额外参数的优化步,且根治原点附近的减速问题。
核心 idea:[交替双曲步] 把 m⊙w 的梯度流改写成一个可以直接作用在 \(\theta\) 上的指数更新步,再把它和任意一阶优化器步交替执行——梯度步负责把卡在 0 的参数推离原点完成符号翻转,双曲指数步负责注入双曲几何与稀疏偏置,两者配合实现"符号对了就精修幅值,符号错了就快速归零去纠错"。
方法详解¶
整体框架¶
HAM 的核心是把"过参数化的隐式偏置"从"显式造两套参数"解耦成"在原参数空间上交替两个更新步"。每一步先走一个标准优化器步(GD/Adam/SAM 皆可)得到中间点 \(\theta_{k+1/2}\),再叠加一个轻量的双曲指数步把结果拉回双曲几何。整个过程不引入新参数,复用已算好的梯度和符号,因此显存零开销、额外 flops 与参数量成线性、可忽略。
flowchart LR
A["θ_k"] --> B["优化器步 (GD/Adam/SAM)<br/>θ_{k+½}=θ_k−η∇f(θ_k)"]
B --> C["双曲指数步 (HYP*)<br/>θ_{k+1}=θ_{k+½}⊙exp(−η(α·sign(θ_{k+½})∇f(θ_k)+β))"]
C --> D["θ_{k+1}"]
D -.下一轮.-> A
关键设计¶
1. 从 m⊙w 反推出免过参数化的指数更新:把双曲几何"解耦"出来。 出发点是 m⊙w 在加权重衰减 \(\beta\) 后的梯度流积分形式 \(\theta_t = u_0^2\odot\exp(-2\int_0^t\nabla f\,ds-4\beta t) - v_0^2\odot\exp(2\int_0^t\nabla f\,ds-4\beta t)\)。作者借助 Wu & Rebeschini 揭示的"该双曲梯度流同时也是指数梯度下降"这一联系,证明(Thm 3.1):只要初始化满足 \(m_0=\mathrm{sign}(\theta_0)w_0=\sqrt{|\theta_0|}\),那么单步指数更新 \(\theta_{k+1}=\theta_k\exp(-\eta(2\,\mathrm{sign}(\theta_k)\nabla f(\theta_k)+4\beta))\) 与原 m⊙w 动力学一阶等价(离散误差 \(O(\eta^2)\))。这一步的意义是:不必再维护 \(m,w\) 两套参数,直接在 \(\theta\) 上写出等价更新。但纯指数更新对应 \(\gamma=0\),会完全禁止符号翻转——参数一旦到 0,更新量正比于 \(\theta=0\) 就永远卡住。
2. 交替机制:用梯度步"踹一脚"破解原点卡死。 这是 HAM 真正的新颖点。把指数步和一个普通梯度步交替起来: $\(\theta_{k+\frac12}=\theta_k-\eta\nabla f(\theta_k)\quad(\text{GD});\qquad \theta_{k+1}=\theta_{k+\frac12}\odot\exp\big(-\eta(\alpha\,\mathrm{sign}(\theta_k)\nabla f(\theta_k)+\beta)\big)\quad(\text{HYP}).\)$ 直觉是:指数步给参数加了一个尺度缩放,当符号正确时它精细打磨幅值;当符号错误时它驱动参数指数级快速趋零;而在趋零的"半路上",单纯指数步会卡在 0,此时穿插的梯度步提供一个非零位移把参数推过 0 完成符号翻转。一句话概括这套交替更新:符号对就学幅值,符号错就快速归零以便纠错。其中超参 \(\alpha\) 控制收敛速度与"双曲感知强度",\(\beta\) 类似 PILoT 那样注入显式稀疏正则。
3. 显存友好的实际部署形式(HYP*):用半步符号替代整步符号。 朴素的 (HYP) 同时依赖 \(\theta_k\) 和 \(\theta_{k+1/2}\),需要两份内存。作者把 \(\mathrm{sign}(\theta_k)\) 替换成 \(\mathrm{sign}(\theta_{k+1/2})\),得到实际部署的
$\(\theta_{k+1}=\theta_{k+\frac12}\odot\exp\big(-\eta(\alpha\,\mathrm{sign}(\theta_{k+\frac12})\nabla f(\theta_k)+\beta)\big)\quad(\text{HYP*}),\)$
这样只需复用当前权重的符号即可,零额外显存。更妙的是,这个改动不只是省内存:把符号与"评估是否该加速"的梯度对齐,反而促成了更稳定、更有意义的符号翻转(附录 D),理论分析(Thm B.6)依旧成立。相比之下 m⊙w 直接翻倍参数,SAM 则要近乎翻倍单步计算。
4. 双曲逆度量与可调的 L2↔L1 隐式偏置:理论刻画为什么有效。 取 \(\eta\to0\),HAM 的黎曼梯度流为(Thm 4.2)
$\(d\theta_t=-(1+\alpha|\theta_t|)\odot\nabla f(\theta_t)\,dt-\beta\theta_t\,dt,\)$
即逆度量 \(g^{-1}_{\text{HAM}}(\theta)=1+\alpha|\theta|\)。对比三者:GD 是 \(1\),m⊙w 是 \(\sqrt{\theta^2+\gamma^2}\)(会塌缩到远小于 1),而 HAM 始终 \(\geq 1\) 且不受噪声/正则影响——这从根上解决了逆度量塌缩,保证收敛速率至少和 GD 一样(Thm 4.3,PL 条件下线性速率 \(\Lambda\))。同时其对应的 Bregman 函数 \(R_\alpha\) 在 \(\alpha\to0\) 时正比于 \(\|\theta\|_{L_2}^2\)、\(\alpha\to\infty\) 时正比于 \(\|\theta\|_{L_1}\)(Thm 4.6),说明 \(\alpha\) 平滑插值出从稠密到稀疏的隐式偏置。实践中因离散化,纯靠 HAM 难以单独压出强稀疏,故定位为"稀疏几何的引导者",与各类稀疏化方法配合使用最佳。
实验关键数据¶
主实验:稠密训练(ResNet50 / ImageNet, Top-1 %)¶
| 方法 | 100 ep | 200 ep | +SAM 100 ep | +SAM 200 ep |
|---|---|---|---|---|
| Baseline | 76.72±0.19 | 77.27±0.13 | 77.10±0.21 | 77.94±0.16 |
| HAM | 77.51±0.11 | 77.86±0.05 | 77.92±0.15 | 78.56±0.12 |
HAM 在所有列上都超过基线,且与 SAM 互补(SAM-HAM 取得最佳 78.56),同时 HAM 单步几乎零额外开销,而 SAM 单步代价翻倍。
稀疏化实验:Dense-to-Sparse / PaI / DST(ResNet50 / ImageNet, Top-1 %)¶
| 类型 | 方法 | s=0.8 | s=0.9 | s=0.95 |
|---|---|---|---|---|
| PaI | Random | 73.87 | 71.56 | 68.72 |
| PaI | Random+Sign-In | 74.12 | 72.19 | 69.38 |
| PaI | Random+HAM | 74.84 | 72.72 | 70.05 |
| DtS | AC/DC | 75.83 | 74.75 | 72.59 |
| DtS | AC/DC+Sign-In | 75.9 | 74.74 | 72.88 |
| DtS | AC/DC+HAM | 77.2 | 76.66 | 75.45 |
| DST | RiGL | 75.02 | 73.7 | 71.89 |
| DST | RiGL+HAM | 76.22 | 74.83 | 72.93 |
| Cont. | STR | 75.49 | 72.4 | 64.94 |
| Cont. | STR+HAM | 76.37 | 75.01 | 71.41 |
AC/DC+HAM 提升最猛(s=0.95 时 72.59→75.45,+2.86),作者归因于 AC/DC 的稠密阶段能充分发挥 HAM 的几何优势;STR 在高稀疏度 s=0.95 时崩到 64.94,加 HAM 拉回 71.41,提升惊人。
关键发现¶
- 符号翻转:Random PaI(90% 稀疏,100 epoch)下,HAM 在各训练区间持续比 baseline 和 Sign-In 翻转更多符号(Fig. 2a),实证支撑其加速原点附近学习的理论。
- 互补机制:HAM 走"隐式稀疏偏置 + 原点加速",SAM 走"找平坦解",二者方向正交,叠加最优。
- 通用性:附录还在 ViT 预训练、LLM 微调、图/节点分类上验证了 HAM 作为通用优化原则的适用性;\(\alpha\) 在不同任务上稳定(最优约 200),\(\beta\) 需像权重衰减一样微调。
亮点与洞察¶
- "解耦"思路漂亮:把过参数化的好处(双曲几何)从"造两套参数"中剥离出来,用一个交替指数步在原参数空间复现,既省显存又可控,是 implicit bias 工程化的范例。
- 诊断 + 对症:先定位
m⊙w的根因是"逆度量在原点塌缩导致符号卡死",再精确给出 \(g^{-1}=1+\alpha|\theta|\geq1\) 的解药,理论闭环干净。 - 即插即用:能挂在 GD/Adam/SAM 任意一阶优化器后面,零参数、近零 flops,且和 SAM 互补,落地门槛极低。
- \(\alpha\) 一旋钮调 L2↔L1:把隐式偏置的"稀疏强度"做成连续可调超参,比
m⊙w那种被噪声/初始化牵着走的隐式 \(\gamma\) 更可控。
局限与展望¶
- 难单独压稀疏:因离散化,\(\alpha\to\infty\) 的强 \(L_1\) 偏置在实践中需极小学习率才收敛,HAM 自身压不出强稀疏,必须搭配 AC/DC/RiGL/STR 等稀疏化方法,定位是"引导者"而非"主力"。
- \(\beta\) 需调:\(\alpha\) 跨任务稳定,但 \(\beta\) 仍需像权重衰减一样针对数据集调(ImageNet 用 1e-3,CIFAR100 用 16e-3)。
- 理论限于线性回归:隐式偏置与收敛性证明主要在欠定线性回归与 PL/凸假设下给出,深网非凸场景的严格保证仍是开放问题。
- 镜像映射可拓展:作者提出未来可用不同镜像映射注入任务/优化器特定的"感知"(如鲁棒性、动量、归一化),是一条有潜力的算法-理论双线方向。
相关工作与启发¶
- 稀疏训练谱系:PaI(SNIP/SynFlow/随机剪枝)、DtS(IMP/LRR/AC/DC/CAP)、DST(RiGL/SET/MEST)、连续稀疏化(PILoT/STR/CS/spred),HAM 直接对标并增强其中的 SOTA。
m⊙w过参数化:PILoT、Sign-In 是 HAM 的直接前身,HAM 抽取其双曲几何精华、抛弃翻倍参数与硬扰动。- 镜像流 / 隐式偏置:Li et al. (2022) 的镜像流即黎曼梯度流框架是理论基石;HAM 还能从自然梯度(Fisher 信息)、贝叶斯(IVON)、指数梯度下降(Kivinen & Warmuth)多视角解读。
- 两步/交替方法:与 SAM、proximal、ADMM、软阈值、birth-death 动力学并列,但 HAM 工作在权重级、目标是稀疏几何而非平坦解,且与 SAM 实证互补。
- 启发:用"等价改写 + 交替执行"把昂贵的过参数化压成零开销优化步,这套"诊断逆度量→设计对症几何"的范式,可推广到其它过参数化(如低秩、张量分解)的隐式偏置工程化。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 把
m⊙w的双曲隐式偏置解耦成免参数的交替指数步,并精确诊断+修复逆度量塌缩,思路与理论都很原创。 - 实验充分度: ⭐⭐⭐⭐ ImageNet/CIFAR100 上稠密+三类稀疏方法全面验证,附 ViT/LLM/图分类拓展;但核心理论只在线性回归,缺更大规模 LLM 主实验。
- 写作质量: ⭐⭐⭐⭐ 动机—诊断—推导—理论—实验逻辑清晰,Table 1/2 与 Fig 1 把对比讲得很直观,部分公式推导偏密。
- 价值: ⭐⭐⭐⭐⭐ 零开销、即插即用、与 SAM 互补、稳定涨点,对稀疏训练社区和 implicit bias 理论都有实打实的贡献。