Transition Matching Distillation for Fast Video Generation¶

会议: CVPR 2026
论文: CVF Open Access
代码: 无
领域: 视频生成 / 扩散模型蒸馏
关键词: 视频扩散蒸馏, 少步生成, Transition Matching, MeanFlow, 分布匹配蒸馏

一句话总结¶

TMD 把视频扩散教师模型拆成「主干（提语义）+ 轻量 flow head（迭代精修细节）」的解耦学生，再用「TM-MeanFlow 预训练 flow head + 带 flow head 展开的 DMD2-v 分布匹配蒸馏」两阶段训练，把 Wan2.1 1.3B/14B 蒸成 1~4 步生成器，在可比推理成本下视觉保真度和文本对齐都超过现有蒸馏方法。

研究背景与动机¶

领域现状：大规模视频扩散/流模型（HunyuanVideo、Wan、Cosmos 以及 Sora/Veo/Kling 等）已能从文本生成连贯逼真的视频，但它们靠多步去噪采样——往往要几十上百步迭代——才能把噪声逐渐变成清晰视频。

现有痛点：这种迭代采样导致推理延迟高、算力消耗大，使大扩散模型在实时交互场景（实时视频生成、内容编辑、agent 训练用的世界模型）里基本不可用。为加速，已有大量「扩散蒸馏」工作把长去噪轨迹压成几步，分两大家族：轨迹蒸馏（知识蒸馏、一致性模型，直接回归教师轨迹）和分布蒸馏（对抗式、变分得分蒸馏，对齐学生与教师分布）。在图像域它们已能压到 1~2 步。

核心矛盾：把这些方法搬到视频上很难。视频有高时空维度和复杂的帧间依赖，蒸馏时既要保住全局运动连贯、又要保住细粒度空间细节。更关键的是，多数现有方法把扩散网络当成一个不可分的整体映射，忽视了大视频扩散主干内部「先抽语义、再补细节」的层级结构和语义递进。

本文目标：在不牺牲视觉质量的前提下，把视频扩散模型蒸成极少步（如 <4 步）生成器，并提供一个可在速度和质量间灵活权衡的旋钮。

切入角度：作者从 Transition Matching（TM）出发——TM 把多步去噪近似成一个紧凑的「少步概率转移过程」，每一步转移跨越相隔很远的两个噪声水平，让学生能迈大步且匹配教师分布。再结合一个观察：扩散主干本就有层级结构，可以拆成「负责语义的前面大半层」和「负责细节精修的最后几层」。

核心 idea：把教师解耦成「主干 + flow head」，让 flow head 在每个大转移步内做几次轻量「内层流」精修，从而用「外层少步转移 + 内层轻量精修」的双层结构，在少步预算下兼顾语义演化与细节保真。

方法详解¶

整体框架¶

TMD 要解决的是「把多步视频扩散教师蒸成 1~4 步学生，同时保住质量」。它的核心转法分两层：外层用少数几个大转移步（M 步）从噪声跳到数据，每一步要预测一个辅助变量 \(y=x_1-x\)（噪声减数据，DTM 形式），由它可确定性地得到下一状态 \(x_{t_{i-1}}=x_{t_i}-(t_i-t_{i-1})y\)；内层则把「预测 \(y\)」这件事本身再用一个 N 步的轻量流来逼近。

为此学生被设计成解耦架构：从预训练教师里切出（1）主干 \(m_\theta\)——前面大多数层，吃噪声样本 \(x_t\)、时间步 \(t\)、文本条件 \(c\)，输出语义特征 \(m_t\)；（2）flow head \(f_\theta\)——最后几层，条件于 \(m_t\) 反复做 N 次内层流更新，把更噪的 \(y_s\) 精修到更干净的 \(y_r\)。训练分两阶段：阶段一用 TM-MeanFlow 把 flow head 变成一个能少步精修的「flow map」；阶段二用改进版分布匹配蒸馏 DMD2-v，并在每个转移步展开 flow head 来对齐学生转移分布与教师去噪分布。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["预训练教师<br/>Wan2.1 1.3B / 14B"] --> B["解耦架构<br/>主干 m + flow head f"]
    B --> C["阶段1：TM-MeanFlow 预训练<br/>把 flow head 变成内层 flow map"]
    C --> D["阶段2：DMD2-v + flow head 展开<br/>分布匹配蒸馏"]
    D -->|外层 M 步·内层 N 步| E["少步学生生成器<br/>NFE≈1.2~3"]

关键设计¶

1. 解耦架构：把教师切成「语义主干 + 轻量 flow head」，让一次转移步内能多次精修细节

现有蒸馏把扩散网络当成单一映射，无法在「迈大步省算力」和「保细节」之间灵活调节。TMD 把预训练教师拆成主干 \(m_\theta\)（特征提取器，占大多数层）和 flow head \(f_\theta\)（最后几层，做迭代精修），在每个外层转移步 \(t_i\) 上，flow head 以主干特征为条件迭代预测 \(y\)：

\[y_{s_{j-1}} \leftarrow f_\theta\big(y_{s_j}, s_j, s_{j-1}; m_\theta(x_{t_i}, t_i)\big)\]

其中 \(0=s_0<s_1<\cdots<s_N=1\) 是内层流的时间离散。这样主干算一次语义、flow head 复用它做几步轻量精修，就提供了一个「调 N（内层步数）和 H（flow head 层数）就能换速度/质量」的旋钮。设计上有两点讲究：flow head 的目标取 DTM 形式 \(y=x_1-x\)（实测优于直接预测样本 \(y=x\)）；主特征 \(m_{t_i}\) 与带噪的 \(y_{s_j}\) 用一个时间条件门控（gating）融合层拼起来，保证学生的初始前向与教师一致，最小化对预训练模型的扰动。

2. Transition Matching MeanFlow（TM-MF）预训练：用 MeanFlow 把 flow head 变成「几步就够」的内层 flow map

直接用 flow matching 训 flow head 去逼近内层速度，理论上仍需很多内层步才能逼出 \(y\)，违背少步初衷。TMD 借 MeanFlow——它学的是平均速度而非瞬时速度的 flow map \(f(y_s,s,r)=y_s+(s-r)u(y_s,s,r)\)，靠下面这个恒等式把「积分」变成可训练目标：

\[u(y_s,s,r)+(s-r)\frac{d}{ds}u(y_s,s,r)=v(y_s,s)\]

训练目标是 \(\mathcal{L}(\theta)=\mathbb{E}\big[\lVert u_\theta(y_s,s,r)-\hat u\rVert^2\big]\)，其中 \(\hat u\) 用停梯度把目标速度减去总导数项构造。但作者发现让 flow head 直接预测平均速度 \(u_\theta\) 效果很差，假设是 flow head 输出应贴近预训练教师的输出，而教师预测的是外层流速度。于是把平均速度重参数化为 \(u_\theta(y_s,s,r;m):=y_1-\mathrm{head}_\theta(y_s,s,r;m)\)——这样 \(\mathrm{head}_\theta\) 的输出在 \(r\to s\) 极限下就逼近教师的速度预测，flow head 从教师权重初始化后只需微调。工程上还做了三点稳定化：一部分 batch 退化成普通 TM（flow matching）、用 CFG 并按概率丢文本条件、自适应损失归一化；由于 JVP 在 flash attention / FSDP / context parallelism 下难实现，改用有限差分近似 JVP，让算法不依赖具体架构和训练技巧。消融显示 TM-MF 给第二阶段提供的初始化优于纯 TM（TM 可看作 \(r=s\) 时 MeanFlow 的特例）。

3. DMD2-v + flow head 展开蒸馏：为视频改进 DMD2，并让梯度穿过整条内层流以消除训练-推理失配

第二阶段用分布匹配蒸馏对齐学生与教师分布。原始 DMD2 是为图像设计的，作者识别出三处对视频更优的改动，合称 DMD2-v：（1）GAN 判别器用 Conv3D——联合处理时空特征比 Conv1D-2D 分离卷积或 attention head 都好，说明局部时空特征对 GAN 损失很重要；（2）KD warm-up 只在一步蒸馏用——它在一步生成里有帮助，但在多步生成里会引入 DMD2 难以修掉的粗粒度伪影；（3）时间步 shifting——对外层转移步采样或在 VSD 损失里加噪时，用 \(t=\frac{\sigma t'}{(\sigma-1)t'+1}\)（\(\sigma\ge1\)）对均匀采样的 \(t'\) 做偏移，能提升性能并防止 mode collapse（不 shift 会导致 VBench 都测不出的严重崩塌）。

在此之上做 flow head 展开（rollout）：蒸馏时把内层流展开，整体当成每个转移步的样本生成器 \(g_\theta(x_{t_i},t_i;y_1):=x_1-\mathrm{INNERFLOW}(m_\theta(x_{t_i},t_i))\)，把 DMD2-v 的 VSD 损失作用在这个展开输出上，梯度自然回传穿过全部 N 个内层流步且不 detach。因为 flow head 很轻（如从 30 个 DiT block 里取最后 5 个、展开 2 步，只增加 <17% 的学生参数更新算力），这仍然高效。这一步直接消除了「训练时不展开、推理时要展开」的失配，消融（图 7）显示加了 rollout 收敛更快、性能更好。

损失函数 / 训练策略¶

阶段一（TM-MF 预训练）：MeanFlow 目标 \(\mathcal{L}(\theta)=\mathbb{E}_{s,r,y_s}\lVert u_\theta-\hat u\rVert^2\)，平均速度按 \(u_\theta=y_1-\mathrm{head}_\theta\) 重参数化，flow head 从教师初始化；瞬时速度用条件速度 \(v(y_s,s)=y_1-y\) 近似，总导数用有限差分近似。
阶段二（DMD2-v 蒸馏）：变分得分蒸馏（VSD/反向 KL）对齐分布 + Conv3D GAN 损失；fake score 用教师权重初始化并在学生数据上持续训练，判别器是作用于 fake score/教师中间特征的轻量 head；VSD 梯度穿过展开的内层流。
数据/教师：教师为 Wan2.1 1.3B / 14B T2V-480p；用 50 万文本-视频对（文本采自 VidProM 并由 Qwen-2.5 扩写，视频由 Wan2.1 14B 生成），潜空间分辨率 \([T,H,W]=[21,60,104]\)，解码为 81 帧 480×832。

实验关键数据¶

自定义指标——有效 NFE（Effective NFE）：为公平比较算力，作者把 NFE 定义为生成时用到的 DiT block 总数除以教师层数 \(L\)。对基线就是步数 \(M\)，对 TMD 则为

\[\text{Effective NFE}:=M\Big(1+\frac{(N-1)H}{L}\Big)\]

其中 \(N\) 是内层步数、\(H\) 是 flow head 的 block 数（Wan2.1 1.3B 的 \(L=30\)、14B 的 \(L=40\)）。这让 TMD 能取分数 NFE，从而比整数步基线更细粒度地控质量-效率权衡。命名 N2H5 = 2 内层步 + 5 个 flow head block。

主实验¶

蒸馏 Wan2.1 1.3B（VBench Overall score）：

方法	NFE	Overall	Quality	Semantic
rCM（最强基线）	4	84.43	85.38	80.63
DMD2-v	4	84.60	86.03	79.87
rCM	2	84.09	84.90	80.86
DMD2-v	2	84.39	85.65	79.32
TMD-N2H5	2.33	84.68	85.71	80.55
rCM	1	82.65	83.60	78.82
DMD2-v	1	83.24	84.28	79.10
TMD-N2H5	1.17	83.80	85.07	78.69

NFE=2.33 的 TMD 就超过 NFE=4 的最强基线 rCM；近一步（NFE=1.17）也胜过所有一步蒸馏方法。

蒸馏 Wan2.1 14B：

方法	NFE	Overall	Quality	Semantic
Wan2.1 14B（教师）	50×2	86.22	86.67	84.44
rCM	1	83.02	83.57	80.81
DMD2-v	1	83.69	84.46	80.61
TMD-N4H5	1.38	84.24	84.89	81.65

一步设置下 TMD-N4H5（NFE=1.38）比一步 rCM 高 +1.22，且无需 DMD2-v 那种昂贵的 KD warm-up。用户偏好研究（vs DMD2-v，14B）：两步设置下视觉质量胜率 63.3%、文本对齐 71.9%；一步设置下视觉质量 51.8%、文本对齐 63.2%——文本对齐优势尤其明显，印证内层 flow head 精修对 prompt 遵循的作用。（注：14B 的两步设置 TMD-N4H5 未能超过两步基线，仅胜过 4 步 DMD2-v，作者如实承认。）

消融实验¶

配置	Overall	说明
Conv3D 判别器	83.24	默认，最优
Conv1D-2D 判别器	82.32	时空分离卷积，掉 0.92
Attention 判别器	82.36	展平成 token 自注意力
w/o GAN	81.63	去掉 GAN 损失掉 1.61
两步 w/ KD warm-up	83.79	多步反而更差
两步 w/o KD warm-up	84.39	故多步不用 KD
两步 w/ timestep shift	84.39	默认
两步 w/o timestep shift	83.44	掉 0.95，且会 mode collapse
N4H5 预训练 TM-MF	84.67	优于纯 TM
N4H5 预训练 TM	84.29	掉 0.38

关键发现¶

GAN 损失与 Conv3D 判别器贡献明显：去掉 GAN 掉 1.61，换非 Conv3D head 掉约 0.9，说明局部时空特征对视频对抗损失关键。
KD warm-up 是「一步友好、多步有害」：一步下有帮助，多步下引入难修的粗粒度伪影，故只在一步用——这是把图像 DMD2 搬到视频时容易踩的坑。
timestep shifting 不可省：不 shift 会触发 VBench 都测不出的严重 mode collapse。
flow head rollout 让蒸馏收敛更快、性能更高：消除训练-推理失配的回报很直接。
质量随 NFE 单调改善：调 N 和 H 增大有效 NFE，VBench overall 总体上升，验证了 TMD 提供的细粒度速度/质量旋钮。

亮点与洞察¶

把「网络结构层级」直接用作蒸馏的设计自由度：主干算语义、flow head 补细节，这个解耦让「外层迈大步 + 内层轻量精修」的双层采样成为可能，而不是把网络当黑箱压步数——这是相对现有蒸馏最本质的差异。
分数 NFE 是个聪明的工程抽象：因为 flow head 只占少数层，展开几步只增加零头算力，于是 NFE 可以取 1.17、1.38、2.33 这种分数，质量-效率曲线被填得很密，比只能取整数步的基线更可控。
flow head 展开 + 不 detach 梯度：训练时就模拟推理时的内层流并让梯度全程回传，干净地消除训练-推理失配，思路可迁移到其他「内外两层迭代」的蒸馏/采样器。
MeanFlow 的重参数化技巧：让 head 预测教师式速度（\(u_\theta=y_1-\mathrm{head}_\theta\)）而非直接预测平均速度，使从教师初始化的 head 在极限下天然对齐教师——这种「让新模块退化成已知好模块」的初始化对齐很值得借鉴。

局限与展望¶

14B 两步设置未超基线：TMD-N4H5（NFE=2.75）在 14B 两步下没能胜过两步 rCM/DMD2-v，只在一步设置显著领先，说明优势区间偏向极少步。
依赖大量合成数据与强教师：训练用 50 万对、视频由 Wan2.1 14B 生成，蒸馏质量上限受教师约束，未探究教师本身瑕疵会否被继承。
未直接用教师速度表示内层速度：作者用条件速度 \(y_1-y\) 近似内层速度，并指出对特定 \(y\) 可由教师速度推导出内层速度表示，留作未来工作——这可能进一步提升预训练质量。
超参（N、H、shift 的 \(\sigma\)）需按模型规模调：1.3B 用 N2H5、14B 用 N4H5，迁移到新教师时这套旋钮的最优点需重新搜索。

评分¶

新颖性: ⭐⭐⭐⭐ 把网络层级解耦、TM、MeanFlow、DMD2 缝成一套自洽的双层少步视频蒸馏框架，组合创新扎实
实验充分度: ⭐⭐⭐⭐ 1.3B/14B 双规模 + VBench + 用户研究 + 三组 DMD2-v 消融 + 预训练/rollout 消融，且诚实报告 14B 两步未达标
写作质量: ⭐⭐⭐⭐ 双层结构与两阶段训练讲得清楚，公式与命名（N×H×、有效 NFE）规范
价值: ⭐⭐⭐⭐ 把大视频扩散压到 1~2 步且质量可比，对实时视频生成/世界模型很实用，分数 NFE 旋钮工程价值高