Error as Signal: Stiffness-Aware Diffusion Sampling via Embedded Runge-Kutta Guidance¶
会议: ICLR2026
arXiv: 2603.03692
代码: mlvlab/ERK-Guid
领域: 图像生成
关键词: diffusion sampling, stiffness, local truncation error, embedded Runge-Kutta, guidance
一句话总结¶
提出 ERK-Guid,利用嵌入式 Runge-Kutta 求解器的阶差误差作为 guidance 信号,在刚性区域自适应纠正局部截断误差(LTE),无需额外网络评估即可提升扩散模型采样质量。
背景与动机¶
- 扩散模型采样本质上是求解一个 ODE/SDE,采样质量同时取决于模型精度和数值求解器精度
- Classifier-Free Guidance(CFG)和 Autoguidance(AG)等方法关注的是模型误差(条件/无条件预测差异),但完全忽略了求解器误差(LTE)
- 在 ODE 的刚性区域(stiff regions),drift 方向急剧变化,数值求解器的 LTE 会显著恶化采样质量
- 关键观察:在刚性区域中,LTE 与 drift Jacobian 的主特征向量(dominant eigenvector)高度对齐,这意味着可以利用该方向信息来纠正误差
核心问题¶
现有 guidance 方法(CFG、AG 等)仅利用模型层面的信号来引导采样,而求解器在刚性区域产生的 LTE 无人关注。如何在不增加网络评估次数的前提下,利用求解器自身的误差信息作为 guidance 信号来降低 LTE?
方法详解¶
1. 理论基础:LTE 与主特征向量的对齐¶
对 Heun 方法(二阶 Runge-Kutta),同时产生 Euler(一阶)和 Heun(二阶)两个解,构成嵌入式 Runge-Kutta 对(ERK pair)。定义:
- ERK solution difference: \(\Delta^{\mathbf{x}} = \mathbf{x}^{\text{Heun}} - \mathbf{x}^{\text{Euler}}\)
- ERK drift difference: \(\Delta^{\mathbf{f}} = f(\mathbf{x}^{\text{Heun}}; \sigma) - f(\mathbf{x}^{\text{Euler}}; \sigma)\)
在局部线性化假设下,LTE 和 ERK solution difference 均可在 Jacobian 特征基下分解。当 \(|z_k| = |h\lambda_k|\) 较大时(即刚性区域),主特征向量对应的分量会主导这些误差,实现对齐。
2. 零成本估计器¶
刚性度估计器:利用 ERK drift difference 与 ERK solution difference 的范数比来近似 Jacobian 的最大特征值:
主特征向量估计器:以归一化的 ERK drift difference 作为主特征向量估计,因为 drift difference 近似于 Jacobian 对 solution difference 的作用(等效一步 JVP power iteration),自然放大主特征方向:
两个估计器所需的全部量在 Heun 求解过程中已经计算,不需要额外的网络调用。
3. ERK-Guid 更新公式¶
其中: - \(\beta = \mathbf{1}_{\{\hat{\rho} > w_{\text{con}}\}}\) 为置信度门控,仅在刚性度超过阈值时激活 guidance - \(z = w_{\text{stiff}} \cdot h \cdot \hat{\rho}\) 为自适应缩放因子 - \(w_{\text{stiff}}\) 控制整体 guidance 强度,\(w_{\text{con}}\) 控制激活阈值 - 用 \(z^2\) 替代理论上的 \(\alpha(z)\),避免不精确估计下的过度放大
等价地可改写为传统 guidance 形式:在两个 drift 评估的差异方向上做外推,与 CFG/AG 结构类似但信号来源完全不同。
实验关键数据¶
ImageNet 512×512(EDM2 + Heun sampler)¶
| 步数 | 方法 | FD-DINOv2↓ | FID↓ |
|---|---|---|---|
| 32 | 无 guidance | 90.1 | 2.58 |
| 32 | ERK-Guid (\(w_{\text{stiff}}\)=2.0) | 82.8 | 2.74 |
| 16 | 无 guidance | 97.4 | 2.79 |
| 16 | ERK-Guid (\(w_{\text{stiff}}\)=0.75) | 88.9 | 2.68 |
| 8 | 无 guidance | 161.2 | 7.06 |
| 8 | ERK-Guid (\(w_{\text{stiff}}\)=0.5) | 136.9 | 4.91 |
与 CFG/Autoguidance 组合(32步)¶
| 基线方法 | FD-DINOv2↓ | +ERK-Guid FD-DINOv2↓ |
|---|---|---|
| CFG | 88.5 | 83.9 |
| Autoguidance | 50.4 | 47.6 |
跨求解器适配(ImageNet 64×64, 6 NFEs)¶
| 求解器 | FID↓ | +ERK-Guid FID↓ |
|---|---|---|
| Heun | 89.63 | 85.19 |
| DPM-Solver | 44.83 | 31.59 |
| DEIS | 12.57 | 9.56 |
低步数场景下改进尤为显著(8步 FID 从 7.06 降至 4.91),符合 LTE 在少步时主导误差的预期。
亮点¶
- 视角新颖:首次将 ODE 求解器的截断误差作为 guidance 信号,与基于模型误差的 CFG/AG 形成正交互补
- 零计算开销:所有估计量原本就在 Heun 更新中产生,无需额外网络前向传播
- 即插即用:可与 Heun、DPM-Solver、DEIS 等任意 Runge-Kutta 求解器组合,且与 CFG、Autoguidance 兼容叠加
- 理论扎实:从 ODE 数值分析中推导出 LTE 与主特征向量对齐的理论依据,并通过 2D toy 实验和 ImageNet 实验验证
- 低步数优势:步数越少,LTE 占误差比例越大,ERK-Guid 改善越显著
局限与展望¶
- 需要使用产生嵌入式对的求解器(如 Heun),对纯一阶求解器(如 Euler/DDIM)不直接适用
- 超参数 \(w_{\text{stiff}}\) 和 \(w_{\text{con}}\) 需要根据模型/步数调优,虽然实验显示对超参鲁棒但仍增加调参负担
- 理论分析依赖局部线性化假设,在高度非线性区域可能不够精确
- 目前只讨论了 deterministic ODE 采样,未涉及 SDE 采样器场景
- 主实验在 EDM2 框架上进行,虽然也测了 PixArt-α(DiT),但对其他主流架构(如 SD3、FLUX)的验证有限
与相关工作的对比¶
| 方法 | 信号来源 | 额外开销 | 互补性 |
|---|---|---|---|
| CFG | 条件/无条件模型差异 | 2× NFE | 与 ERK-Guid 互补 |
| Autoguidance | 强/弱模型差异 | 需辅助网络 | 与 ERK-Guid 互补 |
| PCG | CFG 的 predictor-corrector 解释 | 同 CFG | 理论视角相关 |
| DPM-Solver | 高阶数值求解器 | 无 | ERK-Guid 可叠加 |
| ERK-Guid(本文) | 求解器阶差误差 | 无 | 正交于模型 guidance |
启发与关联¶
- 从数值分析角度审视扩散采样是一个有前景的方向:可以进一步探索 stiffness-aware 的自适应步长调度
- 将"误差即信号"的思路推广到 flow matching 采样或 SDE 求解器中值得探索
- 对于视频生成等高维场景,LTE 的影响可能更大,ERK-Guid 有潜在应用价值
- 与 distillation 方法(如 consistency model)结合:在少步蒸馏模型中,每步误差更关键
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ (首次利用求解器误差作为 guidance 信号,视角独特)
- 实验充分度: ⭐⭐⭐⭐ (ImageNet/FFHQ/PixArt 多数据集、多求解器验证,但缺少更多架构)
- 写作质量: ⭐⭐⭐⭐⭐ (理论推导清晰,从 2D toy 到真实数据层层递进)
- 价值: ⭐⭐⭐⭐ (零成本即插即用的实用方法,低步数场景价值突出)