TC-Padé: Trajectory-Consistent Padé Approximation for Diffusion Acceleration¶

会议: CVPR 2026
arXiv: 2603.02943
领域: 图像生成
关键词: 扩散模型加速, 特征缓存, Padé近似, 轨迹一致性, 残差预测

一句话总结¶

提出基于 Padé 有理函数近似的特征残差预测框架 TC-Padé，通过自适应系数调节和分阶段感知策略，在低步数（20-30步）扩散采样场景下实现轨迹一致的加速（FLUX.1-dev 2.88×、Wan2.1 1.72×），显著优于基于 Taylor 展开的现有方法。

研究背景与动机¶

扩散模型（Diffusion Models）在图像和视频生成中取得了 SOTA 表现，但其迭代去噪过程需要数十到上百次网络前向传播，计算成本极高。现有加速手段可分为两大方向：

减少采样步数：如 DDIM、DPM-Solver 等求解器方法，以及蒸馏方法（一致性模型、对抗蒸馏）

降低每步计算量：如模型压缩（剪枝、量化）和特征缓存

特征缓存方法因其 无需训练、即插即用 的特性而受到关注。然而现有方法存在关键局限：

复用类方法（ToCa、Δ-DiT、TeaCache）：在步数较多时（50步）效果尚可，但当步数降至 20-30 步时，相邻步之间时间间隔增大，特征相似度指数级衰减，直接复用导致严重轨迹偏移
预测类方法（TaylorSeer）：基于 Taylor 级数展开做多项式外推，但 Taylor 展开存在有限收敛半径，间隔增大后近似误差急剧放大

作者通过 PCA 可视化证实，现有缓存方法在 20 步采样下的特征轨迹与真实轨迹存在显著偏差。

方法详解¶

整体框架¶

TC-Padé 要解决的是低步数（20-30 步）扩散采样下的特征缓存失效：步数一少，相邻步时间间隔变大，特征相似度指数衰减，复用类方法（ToCa、TeaCache）轨迹漂移，预测类方法（TaylorSeer）则因 Taylor 展开收敛半径有限而误差暴涨。TC-Padé 改用 Padé 有理函数来外推残差，并把采样轨迹切成长度 $\mathcal{N}$ 的缓存区间，每个区间只第一步算完整网络，之后每步由轨迹稳定性指标（TSI）自适应决定是跳过还是重算： $$\text{TSI}(\mathcal{R}_{t+3}, \mathcal{R}_{t+2}, \mathcal{R}_{t+1}) = \frac{1}{2}\|\mathbf{u}_{t+1} - \mathbf{u}_{t+2}\|_2$$ 其中 $\mathbf{u}_t = (\mathcal{R}_t - \mathcal{R}_{t+1}) / \|\mathcal{R}_t - \mathcal{R}_{t+1}\|_2$ 为归一化残差差分向量。$\text{TSI} \geq \theta$ 时跳过计算、用 Padé 预测残差；否则回退到完整计算保质量。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["采样轨迹切成长度 N 的缓存区间"] --> B["区间首步：完整网络前向"]
    B --> C["后续步：算轨迹稳定性指标 TSI"]
    C -->|"TSI 低于 θ：轨迹突变"| B
    C -->|"TSI ≥ θ：轨迹稳定"| D["基于残差的 Padé 近似预测<br/>有理函数外推层间残差"]
    D --> E["自适应系数调节<br/>按稳定性因子收放预测力度"]
    E --> F["去噪阶段感知策略<br/>早/中/后各一套残差更新"]
    F --> G["重建输出：用预测残差补回特征"]
    G --> C

关键设计¶

1. 基于残差的 Padé 近似预测：用有理函数替代多项式外推

TaylorSeer 直接预测原始高维特征，间隔一大余弦相似度就跌破 0.5；TC-Padé 先把预测对象换成残差（层间增量 $\mathcal{R}_t^{l:r} = x_t^r - x_t^l$），因为残差在时间维上的相似度远高于原始特征。预测器则用 Padé 有理函数 $P_m(x)/Q_n(x)$ 取代 Taylor 多项式——多项式收敛半径有限、大间隔下发散，而有理函数能刻画渐近行为和非线性相变。具体取 $[2/1]$ 阶（$k=3, m=1$）： $$\mathcal{R}_{Pad\acute{e},t} = \frac{b_0 \mathcal{R}_{t+3} + b_1 \mathcal{R}_{t+2}}{1 + a_1 \mathcal{R}_{t+1}}$$ 预测出残差后重建输出 $\bar{x}_t = x_{t+1} + \mathcal{R}_{Pad\acute{e},t}$。

2. 自适应系数调节：按残差稳定性收放预测力度

经典 Padé 解析求系数，在轨迹突变时会过激。TC-Padé 改用稳定性因子动态调节： $$\sigma_{stab} = \exp\left(-\lambda \frac{\|\mathcal{R}_{t+1} - \mathcal{R}_{t+2}\|}{\|\mathcal{R}_{t+1} + \mathcal{R}_{t+2}\|}\right)$$ 残差剧变时 $\sigma_{stab} \to 0$、系数趋于保守，残差稳定时 $\sigma_{stab} \to 1$、放手预测，三个系数随之取 $b_0 = 2\sigma_{stab}$、$b_1 = -\sigma_{stab}$、$a_1 = \frac{1}{\lambda}\sigma_{stab}$。这样预测力度始终和当前轨迹的可信度挂钩。

3. 去噪阶段感知策略：早中后各用一套残差更新

扩散不同阶段的动力学不同，一套外推吃不下全程。TC-Padé 按阶段切换：早期（$t > 0.7T$）结构快速演化，直接加权最近两步残差 $\alpha_1 \mathcal{R}_{t+1} + \alpha_2 \mathcal{R}_{t+2}$（$\alpha_1 + \alpha_2 = 1$）；中期（$0.2T \leq t \leq 0.7T$）用完整 Padé 近似 $\mathcal{R}_{Pad\acute{e},t}$ 抓长程依赖；后期（$t < 0.2T$）在 Padé 上叠一阶差分项 $\beta(\mathcal{R}_{t+1} - \mathcal{R}_{t+2})$ 捕捉细微速度变化。

损失函数¶

无训练方法，不涉及损失函数设计。核心是在推理阶段用 Padé 有理函数近似替代完整网络计算。

实验关键数据¶

主实验：文本到图像生成（FLUX.1-dev, 20步, COCO 2017）¶

方法	加速比	FID↓	CLIP↑	PSNR↑	SSIM↑	LPIPS↓
FLUX.1-dev（基线）	1.00×	23.38	32.10	-	-	-
ToCa (N=5)	1.81×	24.18	31.48	17.29	0.613	0.481
TeaCache (fast)	2.15×	24.11	31.50	18.02	0.690	0.419
TaylorSeer (N=5)	2.31×	†严重退化	31.52	17.46	0.525	0.616
TC-Padé (slow)	2.20×	23.85	31.90	24.67	0.861	0.144
TC-Padé (fast)	2.88×	24.14	31.82	21.96	0.782	0.290

主实验：文本到视频生成（Wan2.1-1.3B, 20步, VBench-2.0）¶

方法	加速比	VBench-2.0↑	PSNR↑	SSIM↑	LPIPS↓
Wan2.1（基线）	1.00×	64.16%	-	-	-
TeaCache (slow)	1.17×	60.73%	27.19	0.867	0.107
TaylorSeer (N=4)	1.66×	54.50%	14.93	0.353	0.586
TC-Padé (fast)	1.72×	60.38%	21.70	0.639	0.300

主实验：类条件图像生成（DiT-XL/2, 20步, ImageNet）¶

方法	加速比	FID↓	IS↑	Precision↑	Recall↑
DiT-XL/2（基线）	1.00×	3.56	221.27	0.78	0.58
ToCa (N=3)	1.35×	10.72	164.40	0.69	0.49
TaylorSeer (N=4)	1.51×	7.86	175.11	0.71	0.53
TC-Padé (fast)	1.46×	6.93	185.12	0.72	0.54

消融实验：缓存残差粒度（FLUX.1-dev）¶

粒度	加速比	Aesthetic↑	CLIP↑	ImgRwd↑
Double-stream	1.36×	5.10	31.31	0.792
Single-stream	1.94×	5.69	31.66	0.872
Entire Block	2.88×	5.76	31.83	0.918

消融实验：TSI 阈值 θ 的影响¶

θ	加速比	Aesthetic↑	CLIP↑	ImgRwd↑
1.3	1.63×	5.80	32.02	0.956
1.0	2.20×	5.77	31.97	0.924
0.7	2.88×	5.76	31.83	0.918

部署效率：与量化叠加¶

配置	FID↓	CLIP↑	Aesthetic↑
FLUX.1-dev	23.38	32.10	6.25
TC-Padé	24.14	31.82	6.11
TC-Padé + 量化	24.31	31.08	6.01

TC-Padé + 量化在 batch=1 时将生成延迟从 9s 降至 1.83s（约 6× 加速），吞吐量从 0.22 img/s 提升至 0.54-0.57 img/s。

关键发现¶

TC-Padé 在 20 步设置下的 PSNR/SSIM/LPIPS 远优于所有对比方法，表明其生成结果与全步数基线高度一致
TaylorSeer 在 20 步 FLUX.1-dev 上 FID 严重退化（标记为†），而 TC-Padé 仅产生约 3% 的 FID 损失
与量化技术叠加可实现约 6× 延迟降低，且质量损失极小

亮点与洞察¶

数学基础扎实：用 Padé 有理函数代替 Taylor 多项式的动机清晰——有理函数可捕捉渐近行为和极点，而多项式展开在大间隔下发散。这是从数值分析迁移到深度学习的优雅设计
残差而非原始特征：预测残差（层间增量）比预测原始高维特征更稳定，这个观察本身就有独立价值
分阶段策略有道理：早期保守复用、中期 Padé 预测、后期叠加差分修正，符合扩散模型不同阶段的动力学特征
自适应稳定性检测：TSI 指标和自适应系数设计使方法能感知轨迹突变，在不稳定时回退到完整计算
与量化正交可叠加：证明可与量化等其他加速技术组合使用，实用性强

局限性¶

超参数敏感：λ、θ、α、β 等超参需要调整，不同模型和任务可能需要不同设置
低阶近似限制：为效率采用 [2/1] 阶 Padé，在特征剧烈变化区域精度可能不足
仅验证 20 步：虽然目标是低步数场景，但缺少对更极端低步数（如 8-10 步）的验证
加速比受限：在 DiT-XL/2 上仅 1.46×，视频生成上 1.72×，相比蒸馏方法差距仍大
未与蒸馏方法正面对比：仅在特征缓存类方法中对比，未展示与一致性模型等的差异
步感知策略的阶段划分（0.2T, 0.7T）是启发式的，缺乏理论依据

评分¶

⭐⭐⭐⭐ (4/5)

数学动机清晰、方法设计 elegant，实验充分覆盖图像和视频生成。在低步数特征缓存加速这一赛道上取得了明显进步。不过方法核心更偏工程优化层面改进，理论深度和通用性尚有提升空间。