DisCa: Accelerating Video Diffusion Transformers with Distillation-Compatible Learnable Feature Caching¶

会议: CVPR 2026
arXiv: 2602.05449
代码: 即将公开
领域: 视频生成 / 扩散模型加速
关键词: 特征缓存, 步蒸馏, MeanFlow, 可学习预测器, HunyuanVideo

一句话总结¶

DisCa 首次将可学习特征缓存与步蒸馏统一为兼容框架，用轻量神经预测器（<4% 模型参数）替代手工缓存策略，配合 Restricted MeanFlow 稳定大规模视频 DiT 蒸馏，在 HunyuanVideo 上实现 11.8× 近无损加速。

研究背景与动机¶

领域现状：视频扩散模型（如 HunyuanVideo）生成质量已达 SOTA 水平，但推理极慢——以 HunyuanVideo 为例，50 步 CFG 推理生成一段 5 秒 704×704 视频需 1155 秒。现有加速手段主要有两条路线：减少采样步数的步蒸馏（如 MeanFlow），以及跳过冗余计算的特征缓存（如 TaylorSeer、TeaCache）。

现有痛点：步蒸馏方面，MeanFlow 在图像生成上表现优秀，但直接应用于大规模视频 DiT 时，JVP 运算的数值误差加上原始设计过于激进（目标一步生成），导致训练发散和严重伪影——10 步 MeanFlow 语义分直降 17.1%。特征缓存方面，传统方法依赖步间特征相似性进行复用或 Taylor 展开预测，但在步蒸馏后采样轨迹变得稀疏，相邻步特征差异剧增，简单手工策略完全失效——TaylorSeer 在高加速比场景下语义分也下降 13.3%。

核心矛盾：两种加速路线各有局限且难以兼容——蒸馏后的稀疏轨迹恰好破坏了缓存方法所依赖的步间冗余假设，简单叠加两者反而比单独使用更差。

本文目标 如何让步蒸馏和特征缓存两种加速策略真正兼容并互补，在大规模视频 DiT 上实现极致加速而不牺牲质量。

切入角度：用可学习的神经网络预测器替代手工缓存公式来捕捉高维特征演化；同时通过限制 MeanFlow 的压缩范围来稳定蒸馏过程。

核心 idea：蒸馏后的特征演化虽然超出 Taylor 展开等手工方法的建模能力，但轻量神经网络仍可准确学到这种高维演化规律。

方法详解¶

整体框架¶

DisCa 想解决的是一个看似矛盾的问题：步蒸馏和特征缓存这两条加速路线，单独用都有效，叠在一起反而更差——因为蒸馏把采样轨迹压稀疏后，相邻步的特征差异剧增，破坏了缓存方法赖以工作的"步间冗余"假设。DisCa 的做法是把两者重新组织成一条三级级联流水线，让它们互补而非互斥。

输入端先用 CFG 蒸馏把条件/无条件双分支推理合成单分支，省掉一半前向（2× 加速）；中间用 Restricted MeanFlow 做步蒸馏，把 50 步采样压到 10 步（约 5× 加速）；最后用 Learnable Feature Caching，在蒸馏后的稀疏轨迹上让一个轻量预测器替完整 DiT 干活——每 $N$ 步才做一次完整前向把缓存"刷新"一遍，中间 $N-1$ 步全部交给预测器快速出结果。三级叠加，最终在 HunyuanVideo 上跑到 11.8× 加速而质量近无损。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["文本提示 + 噪声"] --> B["CFG 蒸馏<br/>条件/无条件双分支合成单分支（2×）"]
    B --> C["Restricted MeanFlow<br/>限制区间 I∈[0,R] 稳住蒸馏，50→10 步（约 5×）"]
    C --> D{"第 t 步是否刷新点"}
    D -->|"每 N 步一次"| E["完整 DiT 前向<br/>算输出并刷新缓存"]
    D -->|"其余 N−1 步"| F["Learnable Feature Caching<br/>预测器 P 读缓存 + 噪声快速出结果"]
    E --> G["Memory-Efficient 缓存<br/>仅存最后一层单张量 C（+0.43GB，免跨卡同步）"]
    G -.读取.-> F
    E --> H["10 步采样完成 → 视频输出"]
    F --> H

关键设计¶

1. Restricted MeanFlow：用区间限制把激进的步蒸馏拉回稳定区

直接把 MeanFlow 搬到大规模视频 DiT 上会训练发散——10 步时语义分暴跌 17.1%。问题出在 MeanFlow 把平均速度区间 $\mathcal{I}=(t-r)$ 一路采样到 $[0,1]$、奔着一步生成去，可视频 DiT 的高复杂度让其中 JVP 运算的数值误差被放大，而过大的时间区间（高压缩比）又让误差层层累积，最终崩盘。Restricted MeanFlow 的修法朴素到只改一个采样范围：引入限制因子 $\mathcal{R}\in(0,1)$，把区间约束成 $\mathcal{I}\in[0,\mathcal{R}]$，相当于直接剪掉压缩比过高的训练样本（实验里 $\mathcal{R}=0.2$ 最优）。与其逼模型学全局平均速度，不如让它稳稳学好局部平均速度，再靠多步串联拼出高质量结果——这一改在 10 步场景换来 12.0% 的语义分回升。

2. Learnable Feature Caching：用神经预测器接住手工公式接不住的特征演化

蒸馏之后步间特征差异巨大，已经超出 Taylor 展开这类手工缓存公式的建模上限——这正是 TaylorSeer 在高加速比下掉 13.3% 语义分的原因。DisCa 的判断是：这种高维非线性演化手工算不出，但数据驱动的网络学得出。于是它训练一个只含 2 个 DiT Block 的轻量预测器 $\mathcal{P}$（参数量 <4% 主模型），输入上一步完整计算留下的缓存 $\mathcal{C}$ 和当前噪声 $x_{t'}$，直接预测当前步的平均速度输出。关键差别在于：TaylorSeer 之流要为每层维护多阶导数缓存、额外吃掉 33.5GB 显存，而 DisCa 把"复杂缓存结构"换成了"预测器的学习能力"，只需保留最后一层的单个缓存张量（额外仅 0.43GB）。

3. Memory-Efficient 缓存：单张量缓存绕开分布式并行的通信瓶颈

显存只是一面，另一面是分布式部署里的隐性代价。在实际的 sequence parallel（并行度 4）环境下，为 DiT 每层维护多张量缓存意味着每步都要跨 GPU 同步这些缓存，通信开销反而把省下来的计算又吃回去。DisCa 干脆不为每层缓存，只把模型最终输出的那一个张量留作缓存传给预测器——既把额外显存压到 0.43GB，又彻底消掉了跨卡同步，使它成为唯一在真实部署里同时满足显存和延迟约束的方案。

一个完整示例：N=4 时一段视频怎么生成¶

设蒸馏后只剩 10 步采样、缓存间隔 $N=4$。第 1 步走完整 DiT 前向，算出输出的同时把最后一层张量存进缓存 $\mathcal{C}$；第 2、3、4 步不再碰大模型，全部由轻量预测器 $\mathcal{P}$ 读着 $\mathcal{C}$ 和当前噪声 $x_{t'}$ 快速出结果；到第 5 步重新做一次完整前向、把 $\mathcal{C}$ 刷新；第 6、7、8 步又交给预测器……如此循环。10 步里真正跑完整 DiT 的只有 3 次（第 1/5/9 步），其余 7 步都走预测器——这就是缓存层在蒸馏的 5× 之上又叠出来的那部分加速来源。

损失函数 / 训练策略¶

Predictor 训练采用 MSE + GAN 的两阶段策略：

MSE 阶段（500 iter）：最小化预测器输出与大模型真实输出的 L2 距离 $$\mathcal{L}_\mathcal{P} = \mathbb{E}\|\mathcal{M}_{\theta_M}(x_{t'}, r', t') - \mathcal{P}_{\theta_p}(\mathcal{C}, x_{t'}, r', t')\|_2^2$$
GAN 阶段（1000 iter）：引入多尺度谱归一化判别器 $\mathcal{D}$，使用 Hinge Loss 进行对抗训练，强制预测器输出保留高频细节和视觉保真度。以大模型本身作为特征提取器 $\mathcal{F}$，在特征空间进行对抗
超参：预测器学习率 $10^{-4}$，判别器学习率 $10^{-2}$，对抗损失权重 $\lambda=1.0$

实验关键数据¶

主实验¶

实验在 HunyuanVideo 上进行，生成 704×704 分辨率、129 帧、5 秒视频，使用 VBench 评测。

Restricted MeanFlow 对比（与原始 MeanFlow 基线比）：

方法	步数	加速比	语义分↑	质量分↑	总分↑
Original 50 步	50×2	1.0×	73.5%	81.5%	79.9%
MeanFlow 20 步	20	4.96×	66.6%	81.8%	78.8%
Restricted MeanFlow (R=0.2) 20 步	20	4.97×	70.4% (+5.7%)	81.8%	79.5%
MeanFlow 10 步	10	9.68×	60.9%	80.6%	76.7%
Restricted MeanFlow (R=0.2) 10 步	10	9.68×	68.2% (+12.0%)	81.3%	78.7%

DisCa 与现有加速方法全面对比：

方法	加速比	Peak VRAM	语义分↑	质量分↑	总分↑
Original 50 步	1.0×	99.23GB	73.5%	81.5%	79.9%
Δ-DiT (N=8)	4.55×	97.68GB	42.7% (-41.9%)	70.9%	65.2%
PAB (N=8)	6.46×	121.3GB	56.3% (-23.4%)	76.1%	72.1%
TeaCache (l=0.4)	9.22×	97.70GB	62.1% (-15.5%)	78.7%	75.4%
TaylorSeer (N=6)	6.96×	130.7GB	63.7% (-13.3%)	79.9%	76.7%
FORA (N=6)	8.01×	124.6GB	57.5% (-21.8%)	76.4%	72.6%
DisCa (R=0.2, N=2)	7.56×	97.64GB	70.8% (-3.7%)	81.9%	79.7%
DisCa (R=0.2, N=3)	8.84×	97.64GB	70.3% (-4.4%)	81.8%	79.5%
DisCa (R=0.2, N=4)	11.8×	97.64GB	69.3% (-5.7%)	81.1%	78.8%

消融实验¶

Restricted MeanFlow	Learnable Predictor	GAN Training	语义分↑	质量分↑	总分↑
✔	✔	✔	69.3% (+0.0%)	81.1% (+0.0%)	78.7%
✘	✔	✔	65.2% (-5.9%)	80.3% (-1.0%)	77.3%
✔	✘	—	67.3% (-2.9%)	80.5% (-0.7%)	77.9%
✔	✔	✘	68.5% (-1.2%)	81.0% (-0.1%)	78.5%

关键发现¶

Restricted MeanFlow 是基石：不用 Restricted 直接在原始 MeanFlow 上训练缓存，语义分暴跌 5.9%，生成结果出现"完全不可接受的畸变"
可学习预测器 vs 免训练缓存：即使在 Restricted MeanFlow 加持下，免训练缓存仍损失 2.9% 语义分和 0.7% 质量分——高维特征演化确实需要学习才能捕捉
GAN 训练不可或缺：去掉对抗训练语义分下降 1.2%，说明 MSE 损失+对抗损失的组合对保持语义保真度至关重要
显存效率优势明显：DisCa 仅需 97.64GB（额外 +0.43GB），而 TaylorSeer 需 130.7GB（+33.5GB）、FORA 需 124.6GB（+27.4GB）

亮点与洞察¶

DisCa 首次证明步蒸馏和特征缓存可以互补而非冲突：关键在于用可学习预测器替代对步间冗余的硬性依赖，从而在蒸馏带来的稀疏采样轨迹上仍能有效加速。这为扩散模型加速开辟了"training-free + training-aware 协同"的新路线。
Restricted MeanFlow 的设计极其朴素——仅仅限制训练时的时间区间采样范围——却在 10 步场景下带来 12.0% 的语义分提升。这揭示了一个重要直觉：对于大规模复杂模型的蒸馏，放弃极端压缩目标反而能获得全局更优的质量-速度权衡。
单张量缓存设计不仅节省显存，还在分布式并行环境下避免了跨 GPU 通信的延迟瓶颈，使得 DisCa 成为唯一在实际部署场景下同时满足显存和延迟约束的方案。

局限与展望¶

需要额外训练预测器和判别器（约 1500 iter），不再是完全免训练方案，每换一个基础模型或分辨率都需要重新训练
仅在 HunyuanVideo 上验证，对其他视频 DiT（CogVideoX、Wan 等）的迁移性未知
限制因子 $\mathcal{R}$ 需要手动调参（实验中 0.2 最优），缺乏自适应选择策略

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次提出蒸馏兼容的可学习缓存框架，将两大加速路线统一
实验充分度: ⭐⭐⭐⭐⭐ 在 HunyuanVideo 上全面对比 6 种方法，消融清晰，显存/延迟分析完整
写作质量: ⭐⭐⭐⭐ 结构清晰、动机强，符号偏多但推导完整
价值: ⭐⭐⭐⭐⭐ 11.8× 近无损加速对视频生成实际部署价值极大