跳转至

SVRG and Beyond via Posterior Correction

会议: ICML2026
arXiv: 2512.01930
代码: 有(论文称公开于 GitHub,正文未给具体地址 ⚠️ 以原文为准)
领域: 优化理论 / 变分贝叶斯 / 方差缩减
关键词: SVRG, 方差缩减, 后验校正, 贝叶斯学习规则, 自然梯度

一句话总结

论文证明了经典的方差缩减算法 SVRG 其实是贝叶斯"后验校正"(PoCo)在各向同性高斯后验下的一个特例,并由此自动推导出两类此前难以得到的新扩展——一个会同时校正 Hessian 的 Newton 型变体,和一个能扩展到深度学习的 Adam 型变体(IVON-PoCo)。

研究背景与动机

领域现状:方差缩减是加速随机优化的利器,SVRG 用偶尔算一次的全批量梯度去稳定后续小批量更新,十余年来衍生出 SAGA、SARAH、SPIDER、α-SVRG 等一大批变体。

现有痛点:尽管 SVRG 家族研究了十多年,它从未在根本层面和任何贝叶斯方法建立联系。已有工作顶多是"把 SVRG 当工具去加速贝叶斯推断"(如加速随机变分推断),那只是把方差缩减套在贝叶斯流程外面,并没有揭示二者更深层的等价关系。

核心矛盾:缺了这层联系,就意味着无法借贝叶斯原理去系统地"超越 SVRG"——比如想得到一个连 Hessian 也一起校正的 Newton 型 SVRG,现有方差缩减技巧很难自然推出(多数 Newton-SVRG 只校正梯度、从不校正 Hessian)。

本文目标:补上 SVRG 与贝叶斯之间这条缺失的桥,并利用它推导出 SVRG 难以企及的新算法。

切入角度:作者注意到一个最近提出的贝叶斯方法——后验校正(Posterior Correction, PoCo),它本是为持续学习、模型合并这类知识迁移任务设计的,表面上和方差缩减毫无关系。但如果把 SVRG 的双层循环结构和 PoCo 的"用旧后验校正新更新"对照起来,二者形式高度吻合。

核心 idea:证明 SVRG = PoCo 在各向同性高斯后验下的特例;换更灵活的指数族后验,就能自动得到新的 SVRG 扩展。由此 SVRG 的"梯度校正"获得了一个全新解释——它是新旧梯度之间的一种知识迁移机制。

方法详解

整体框架

论文的主线是一条"概率化 → 一般化 → 特例化 → 再一般化"的推导链,而不是一个数据流水线,所以这里用公式而非框图来讲清。

起点是把经验风险最小化(ERM)\(\bm{\theta}_*=\arg\min_{\bm\theta}\sum_{i=1}^N \ell_i(\bm\theta)\) 用变分贝叶斯(VB)改写成在分布 \(q(\bm\theta)\) 上的优化:\(q_*=\arg\min_{q}\sum_i \mathbb{E}_q[\ell_i]+\mathbb{D}_{\rm KL}[q\|p_0]\)。求解它用的是贝叶斯学习规则(BLR)——在自然参数 \(\bm\lambda\) 上做自然梯度下降。BLR 还能写成"贝叶斯更新"形式 \(q\leftarrow q^{1-\eta}\prod_i\exp(-\eta\hat\ell_i)\),其中 \(\hat\ell_i(\bm\theta)=\widetilde\nabla\mathcal{L}_i(\bm\lambda)^\top \mathbf{T}(\bm\theta)\) 是损失的线性化"站点函数"(site function)。

在此之上,PoCo 用一个旧参数 \(\bm\lambda_{\rm out}\) 构造旧后验 \(\hat q_{\rm out}\),并把它乘进/除出 BLR 更新(乘以 1,不改变结果),得到带校正项的更新

\[q\leftarrow q^{1-\eta}\,\hat q_{\rm out}^{\eta}\prod_{i=0}^{N}\exp\!\big(-\eta[\hat\ell_i-\hat\ell_{i|\rm out}]\big).\]

把它做成小批量、双层循环的版本,再针对不同的后验族 \(q\) 特例化,就分别落到 SVRG、Newton 型、Adam 型三种算法。整条链条如下表:

后验族 \(q\) 由 PoCo 特例化得到的算法 校正对象
各向同性高斯 \(\mathcal{N}(\bm m,\mathbf{I})\) SVRG / VSGD-PoCo(Alg. 3) 梯度
满协方差高斯 \(\mathcal{N}(\bm m,\mathbf{S}^{-1})\) VON-PoCo(Newton 型,Alg. 5) 梯度 + Hessian (SVRH)
对角高斯 \(\mathcal{N}(\bm m,\mathrm{diag}(\bm s)^{-1})\) IVON-PoCo / IVON-PoCoMo(Alg. 4) 梯度 + 对角 Hessian,可扩展
Bernoulli STE 的 SVRG 式更新(仅提及) 梯度

关键设计

1. 把 SVRG 重写成"后验校正":方差缩减原来是知识迁移

针对"SVRG 从未与贝叶斯接轨"这一空白,论文的核心动作是证明二者本是同一更新的两种写法。把 PoCo 的带校正更新做成无偏的、采一个样本的小批量双层版本:

\[q_{\rm in}\leftarrow q_{\rm in}^{1-\eta}\,\hat q_{\rm out}^{\eta}\exp\!\big(-\eta N[\hat\ell_{i|\rm in}-\hat\ell_{i|\rm out}]\big),\]

再把它在自然参数 \(\bm\lambda_{\rm in}\) 上展开,就得到与 SVRG 内层更新(\(\mathbf{g}_{\rm in}=\nabla\ell_i(\bm\theta_{\rm in})-\nabla\ell_i(\bm\theta_{\rm out})+\frac1N\mathbf{g}_{\rm out}\))一一对应的式子——所有 \(\bm\theta\) 换成 \(\bm\lambda\)、普通梯度换成自然梯度(定理 1)。当后验取各向同性高斯 \(q=\mathcal{N}(\bm\theta\mid\bm m,\mathbf{I})\)、并用 delta 方法(即把采样噪声 \(\bm\epsilon\leftarrow 0\),等价于 \(\mathbb{E}_q[\ell_i]\approx\ell_i(\bm m)\))时,更新精确退化为 SVRG(定理 2)。由此得到的带噪算法叫 VSGD-PoCo,它和 SVRG 唯一的差别就是在两处加了高斯权重扰动 \(\bm\theta=\bm m+\bm\epsilon\)。这层联系给了 SVRG 一个新解释:全批量梯度 = 旧知识的聚合,梯度校正 = 用旧知识稳住小批量步,即新旧梯度之间的知识迁移。

2. Newton 型扩展:连 Hessian 也一起校正(SVRH)

普通 SVRG 只校正梯度。论文指出,一旦把后验换成满协方差高斯 \(q=\mathcal{N}(\bm m,\mathbf{S}^{-1})\),PoCo 框架会"自动"要求把精度矩阵(即 Hessian)也校正——这不是手工加的,是公式 17 在满高斯下的必然结果(定理 3)。均值更新变成 Newton 式(带预条件 \(\mathbf{S}_{\rm in}^{-1}\) 和近邻项 \(\mathbf{H}_{\rm out\backslash i}(\bm m_{\rm in}-\bm m_{\rm out})\)),而精度矩阵用一个"随机方差缩减 Hessian"(SVRH)估计来更新:

\[\mathbf{S}_{\rm in}\leftarrow(1-\eta)\mathbf{S}_{\rm in}+\eta N\big[\mathbb{E}_{q_{\rm in}}[\nabla^2\ell_i]+\bar{\mathbf{H}}_{\rm out\backslash i}\big].\]

由此得到 VON-PoCo。作者强调,这种 Hessian 校正不会在"把 SVRG 朴素套到贝叶斯算法上"时出现——是 PoCo 里的自然梯度让它得以浮现;据他们所知此前没有 Newton 型 SVRG 这样校正 Hessian。

3. Adam 型可扩展扩展:IVON-PoCo / IVON-PoCoMo

满协方差在大模型上不可行,于是改用对角高斯 \(q=\mathcal{N}(\bm m,\mathrm{diag}(\bm s)^{-1})\),存储开销和 AdamW 同级。这把 PoCo 套到 IVON 优化器上,得到 IVON-PoCo(加动量则为 IVON-PoCoMo)。它避开昂贵且在 LLM 预训练等在线场景不现实的全批量计算,改用"超批量"(mega-batch,可达内层小批的几十倍)逐步估计全批量梯度/Hessian。由于超批量偏离了原始 SVRG,论文用系数 \(\alpha<1\) 给校正项降权:

\[q_{\rm in}\leftarrow q_{\rm in}^{1-\eta}\,\hat q_{\rm out}^{\eta\alpha}\exp\!\big(-\eta N[\hat\ell_{i|\rm in}-\alpha\hat\ell_{i|\rm out}]\big).\]

\(\alpha=0\) 时退回标准 BLR,\(\alpha=1\) 时是全批量下的完美校正;有趣的是,把它用到各向同性高斯上恰好还原出 α-SVRG(Yin et al., 2025),只不过本文从"超批量"出发、α-SVRG 是从"早期降方差调度"出发,殊途同归。计算/内存开销与"用 Adam 实现 α-SVRG"相当,Hessian 校正几乎不额外增成本(Hessian 本就要算),主要开销和所有 SVRG 方法一样在于超批量计算与双梯度。

损失函数 / 训练策略

全文是优化算法的理论统一,无新损失函数。训练遵循 SVRG 式双层循环:外层用旧参数算一次大(全/超)批量梯度(及 Hessian),内层用小批量做带校正的更新,并周期性刷新外层批量。VSGD-PoCo 仅比 SVRG 多两处高斯采样;IVON-PoCoMo 额外多存 \(\mathbf{h}_{\rm out}\)\(\bm\sigma_{\rm out}\)(各 \(\Theta(d)\)),并用 \(\alpha\)、warmup、debias、动量等实用技巧稳住训练。

实验关键数据

主实验

场景 比较 结果
逻辑回归(MNIST / Covertype / CIFAR-10,凸问题) VSGD vs VSGD-PoCo;IVON vs IVON-PoCo 加 PoCo 后均显著提速,能逼近全批量极小值(L-BFGS 水平),每次刷新超批量后性能跳升
GPT-2 (125M) 预训练(OpenWebText, 50B tokens) AdamW / IVON / IVON-PoCoMo 验证困惑度 18.4 / 18.0 / 17.4,IVON-PoCoMo 最低;每次加校正困惑度立即下降
ImageNet ResNet-50 SGD / IVON / AdamW / IVON-PoCo 按"优化步数"算 IVON-PoCo 明显更好;按"见过的数据量/梯度计算量"算则与基线相当

关键发现 / 局限性分析

维度 现象 说明
凸问题 PoCo 带来强提速 和 Johnson & Zhang (2013) 一致,首个外层循环后性能骤升
GPT-2 困惑度更优但无实际提速 IVON-PoCoMo 需更多梯度计算,墙钟时间未省,效果约等于把批量翻三倍
深度学习 按数据量算难超基线 与 Defazio & Bottou (2019)"方差缩减在深度学习上失效"的结论吻合(本文模型更大)

关键发现

  • 在凸的逻辑回归上,PoCo 校正几乎总能把 VSGD/IVON 一举推到全批量极小值水平,且性能跳升与"超批量刷新"时刻精确对应。
  • 在 GPT-2 预训练上,IVON-PoCoMo 拿到了更低的最终验证困惑度(17.4 vs 18.0/18.4),但这并未转化为训练加速——这点与 SVRG 在深度学习上的已知局限一致。
  • 自然梯度是"超越 SVRG"的关键:Newton 型 Hessian 校正只在用自然梯度的 PoCo 框架里自动出现,朴素地把 SVRG 套到贝叶斯算法上得不到。

亮点与洞察

  • 最"啊哈"的一点是把方差缩减重新诠释成知识迁移:SVRG 的全批量梯度=聚合旧知识、梯度校正=新旧梯度间的知识转移,把它和持续学习/模型合并这类看似无关的方法统一在 PoCo 之下。
  • "换后验族就自动得到新算法"是个很有生产力的范式:各向同性高斯→SVRG、满高斯→Newton 型、对角高斯→Adam 型、Bernoulli→STE 的 SVRG,一个框架批量产出变体。
  • Newton 型变体把 Hessian 校正"逼"了出来(SVRH),这是现有 Newton-SVRG 没做到的,且其关键是自然梯度而非朴素移植——这条洞察可指导后续设计更强的二阶方差缩减方法。

局限与展望

  • 深度学习上"不提速"是诚实承认的硬伤:GPT-2 与 ImageNet 上虽有逐步提升,但按数据量/墙钟时间算并不优于 AdamW/IVON,沿袭了 SVRG 在深度学习上的老问题。
  • 超批量与双梯度计算带来的开销不小,\(2nN+\lfloor nN/m\rfloor|\mathcal{M}|\) 的代价在大模型上很现实;只有当 \(|\mathcal{M}|<m\) 时才比 SVRG 省。
  • 满协方差 VON-PoCo 在高维不可行,实用上只能退到对角近似,二阶信息被压缩。
  • 文章定位偏理论奠基,作者也直言"希望未来能让方差缩减对深度学习真正有效"——当下更多是提供视角与算法模板,而非即用即赚的加速器。

相关工作与启发

  • vs 经典 SVRG / SAGA / SARAH / SPIDER:这些都在梯度层面做方差缩减、与贝叶斯无关;本文把 SVRG 收为 PoCo 的特例,给了它贝叶斯解释并据此外推。
  • vs Newton 型 SVRG(Derezinski 2025 / Sadiev 2024 等):他们只校正梯度、不动 Hessian;本文的 VON-PoCo 通过 SVRH 同时校正 Hessian,是首个这样做的。
  • vs α-SVRG(Yin et al., 2025):本文从超批量出发的降权更新在各向同性高斯下恰好还原 α-SVRG,但二者动机不同(超批量 vs 早期降方差调度),本文给了它一个贝叶斯出处。
  • vs BLR / IVON(Khan & Rue 2023;Shen et al. 2024):本文站在 BLR 的肩膀上,把 PoCo 嵌入双层循环,把 IVON 升级成带方差缩减的 IVON-PoCo。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次在根本层面打通 SVRG 与贝叶斯,并自动派生出 Newton/Adam 型新变体。
  • 实验充分度: ⭐⭐⭐⭐ 凸问题验证扎实,深度学习覆盖 GPT-2 与 ImageNet,但提速结论偏负面。
  • 写作质量: ⭐⭐⭐⭐ 推导链条清晰、特例化层次分明,理论密度高需要一定背景。
  • 价值: ⭐⭐⭐⭐ 提供了"换后验即得新算法"的统一框架,为二阶/贝叶斯方差缩减打下基础。