Fewer Denoising Steps or Cheaper Per-Step Inference: Towards Compute-Optimal Diffusion Model Deployment¶

会议: ICCV 2025
arXiv: 2508.06160
代码: https://github.com/GATECH-EIC/PostDiff
领域: 扩散模型 / 模型压缩
关键词: 扩散模型加速, 混合分辨率去噪, 模块缓存, 训练无关压缩, 计算最优部署

一句话总结¶

本文提出 PostDiff——一个无需训练的扩散模型加速框架，在输入层面通过混合分辨率去噪策略（早期低分辨率→后期高分辨率）和模块层面通过混合缓存策略（DeepCache + 交叉注意力缓存）减少冗余，系统性地回答了"减少去噪步数 vs 降低每步计算成本哪个更有效"这一关键问题——答案是后者在大多数效率范围内更优。

研究背景与动机¶

领域现状：扩散模型在图像/视频生成任务上取得巨大成功，但其迭代去噪的本质和复杂的模型架构导致计算密集，限制了资源受限平台上的部署。

现有痛点： - 减少去噪步数（如 DDIM、DPM-Solver、一致性模型）和降低每步计算成本（如 Token 合并/剪枝、模块缓存、量化）是两大加速路线 - 但缺乏系统性研究来比较这两种策略在 post-training 设置下的效率-质量权衡 - 减少步数增大了步间特征变化的方差，可能降低压缩兼容性；保持更多步数则保留了步间冗余，更适合压缩

核心矛盾：在不微调的 post-training 部署场景下，应该选择更少的去噪步数还是更便宜的每步推理？这个问题对研究者和工程师都至关重要，但缺乏明确答案。

本文目标 - 提出统一框架 PostDiff 同时从输入和模块两个层面减少冗余 - 通过受控实验系统比较两种策略 - 发现并解释混合分辨率去噪的"低分辨率增强低频→提升最终质量"现象

切入角度：早期去噪步主要生成低频语义布局，不需要高分辨率；后期步骤添加高频细节才需要高分辨率。这种阶段性特征可以被利用。

核心 idea：早期步用低分辨率去噪（增强低频+省算力），后期切换到高分辨率精炼细节，配合模块缓存，实现"降低每步成本比减少步数更有效"。

方法详解¶

整体框架¶

PostDiff 由两个互补的训练无关技术组成：（1）输入层面的混合分辨率去噪策略——早期去噪步使用低分辨率 latent，在特定步骤切换到高分辨率；（2）模块层面的混合模块缓存策略——结合 DeepCache（缓存 U-Net 深层 skip 分支）和交叉注意力缓存（缓存条件引导信息）在步间复用计算。

关键设计¶

混合分辨率去噪（Mixed-Resolution Denoising）
- 功能：在去噪过程中动态切换输入分辨率——早期步用低分辨率，后期步用高分辨率。
- 核心思路：初始化低分辨率 latent \(x_T^l\)，形状为 \((\beta w, \beta h)\)，其中 \(0 < \beta < 1\) 为缩放因子。在步 \(t = sT\) 时切换到高分辨率：先用 Eq.(2) 计算低分辨率的预测 \(\hat{x}_0^{l,t}\)，通过双线性插值上采样 \(\hat{x}_0^{f,t} = \text{Upsample}(\hat{x}_0^{l,t})\)，再通过前向扩散公式 \(x_t^f = \sqrt{\alpha_t}\hat{x}_0^{f,t} + \sqrt{1-\alpha_t}\epsilon\) 转换到高分辨率 latent，后续正常去噪。
- 设计动机：早期去噪步主导低频语义布局生成，低分辨率足够且有利——文献和实验都表明低分辨率早期步能增强低频分量，反而提升最终生成质量（win-win）。这与级联扩散模型的经验一致：低分辨率阶段的低频信息有助于高分辨率阶段。
"低分辨率增强"现象的可视化验证
- 功能：逐步可视化去噪过程中每一步的 CLIP Score 变化。
- 核心思路：对比全分辨率去噪和不同 \(s\) 设置下的混合分辨率去噪。观察到：(a) 适量低分辨率步可以提升最终 CLIP Score；(b) 低分辨率步虽然初始 CLIP Score 更低，但切换到高分辨率后 CLIP Score 回升更快并最终超越全分辨率方案；(c) 低/高分辨率步数的平衡至关重要。
- 设计动机：这一可视化不仅解释了方法有效的原因（低分辨率确实增强了低频分量），也为选择超参数 \(s\) 提供了直觉。
混合模块缓存策略（Hybrid Module Caching）
- 功能：在模块层面复用计算减少冗余。
- 核心思路：结合两种缓存：(a) DeepCache——缓存 U-Net 深层 skip 分支并在后续 \(k=2\) 步复用；(b) 交叉注意力缓存——在步 \(m\) 后停止 CFG 并缓存条件交叉注意力，选择 "Cond" 模式作为缓存（\(CA_{cache} = CA_t^c\)），因为实验表明它效果最好。关键洞察：CFG 的主要作用是在早期步确定布局，后期冗余；且可以在低分辨率步预计算交叉注意力供后续使用。
- 设计动机：(a) 步间特征图高度相似是缓存有效的基础；(b) 交叉注意力主要传递文本引导的布局信息，布局在早期步确定后不再变化→后期可复用；(c) 两种缓存互补——DeepCache 减少空间计算，交叉注意力缓存减少条件引导计算。

损失函数 / 训练策略¶

PostDiff 完全是训练无关（training-free）的——不需要任何微调或蒸馏，可即时应用于预训练扩散模型。超参数通过小校准集快速确定（校准集性能与完整评估集高度相关）。

核心超参数： - \(\beta\)：低分辨率缩放因子（SD V1.5 用 1/2，SDXL/PixArt 用 3/4） - \(s\)：低-高分辨率切换点（通常 1/2 或 1/5） - \(m\)：停止 CFG 的步骤（通常 5-15）

实验关键数据¶

主实验：多个 SOTA 扩散模型上的效果¶

模型	步数	Mix	Cache	FID ↓	CLIP Score ↑	FLOPs (T) ↓	延迟(s) ↓
SD V1.5	20			18.42	30.80	30.420	2.930
SD V1.5	8			20.60	30.41	12.168	1.298
SD V1.5	20	✓		15.69	30.78	19.035	1.945
SD V1.5	20	✓	✓	16.65	30.25	11.129	1.139
SDXL	20			14.10	31.95	119.641	6.521
SDXL	8			18.01	30.92	47.856	2.843
SDXL	20	✓	✓	14.18	31.11	52.682	3.119
PixArt-α	20			29.16	30.41	85.640	7.093
PixArt-α	8			33.09	30.21	34.256	3.031
PixArt-α	20	✓	✓	25.44	30.23	54.718	4.768

重要发现：SD V1.5 上 PostDiff 实现 63.14% FLOPs 减少，同时 FID 还改善了 1.8。

消融实验：交叉注意力缓存策略对比¶

配置	FLOPs (T) ↓	FID ↓	CLIP Score ↑
Original	30.420	18.42	30.80
DeepCache (DC)	17.787	17.79	30.75
DC + CA (m=5, Ave)	11.610	18.77	28.40
DC + CA (m=5, Cond)	11.610	18.82	29.20
DC + CA (m=5, CFG)	11.610	103.71	18.22
DC + CA (m=10, Cond)	15.061	21.26	30.11
DC + CA (m=15, Cond)	16.360	21.67	30.37

与其他训练无关方法对比（SD V1.5）：

方法	FID ↓	CLIP Score ↑	延迟(s) ↓
Original	18.42	30.80	2.930
DeepCache	17.79	30.75	1.737
TGATE	19.51	29.55	1.992
ToMe	17.43	30.55	2.730
PostDiff	16.65	30.25	1.139

关键发现¶

降低每步成本 > 减少步数：当目标是保持较高生成质量（FID < 20）时，保持更多步数+使用 PostDiff 减少每步成本更优。仅在追求极端效率（减少 > 60% FLOPs）时，减少步数才更有利。
混合分辨率是 win-win：适当的低分辨率早期步不仅省算力，还能通过增强低频分量提升最终 FID（SD V1.5 的最优 FID 从 18.42 降至 15.69）。
CFG 缓存不能太早：\(m=5\) 时完全放弃 CFG（CFG模式）导致质量崩溃（FID > 100）；"Cond" 模式在所有设置下最稳定。
跨架构通用：PostDiff 在 U-Net 和 Transformer 架构、大/小模型、LDM/LCM 上均有效。
PostDiff 达到最低延迟：SD V1.5 上 1.139s vs 次好 DeepCache 的 1.737s（-34%）。

亮点与洞察¶

系统性回答了"更少步 vs 更便宜每步"的关键问题：此前缺乏对这两种加速路线的公平对比。PostDiff 作为统一框架使得控制变量实验成为可能，得出的"每步成本更重要"结论对部署决策有直接指导意义。
低分辨率增强低频的发现：不仅是工程 trick，而是对扩散过程的洞察——早期步的低分辨率去噪实际上"迫使"模型专注于低频语义结构，避免了高频噪声的干扰，这与级联扩散的成功原理一致。
完全训练无关：无需任何微调或蒸馏，即插即用到任何预训练扩散模型上，实用性极强。

局限与展望¶

采用简单的二值分辨率策略（低→高），更复杂的渐进分辨率调度可能进一步提升效果。
交叉注意力缓存依赖 CFG 机制，对不使用 CFG 的模型（如流匹配）适用性有待验证。
未探索与量化、剪枝等训练感知压缩方法的组合效果。
校准集确定超参数的过程虽然高效，但仍需一定计算开销。
仅在图像生成上验证，视频扩散模型可能有不同的冗余模式。

评分¶

新颖性: ⭐⭐⭐⭐ 混合分辨率去噪策略简洁有效，"系统性比较两种加速路线"的研究角度有价值
实验充分度: ⭐⭐⭐⭐⭐ 4个 SOTA 模型 × 多种配置，FID-FLOPs 权衡曲线详尽，与6+种方法对比
写作质量: ⭐⭐⭐⭐ 研究问题聚焦，实验设计合理，可视化分析（CLIP Score 逐步变化）说服力强
价值: ⭐⭐⭐⭐ 实用的 training-free 加速方案 + 对扩散模型部署策略的系统性指导