VDOT: Efficient Unified Video Creation via Optimal Transport Distillation¶
会议: CVPR 2026
论文: CVF Open Access
代码: https://vdot-page.github.io (项目页)
领域: 视频生成 / 扩散模型蒸馏
关键词: 统一视频创作, 分布匹配蒸馏(DMD), 最优传输, 少步生成, 对抗判别器
一句话总结¶
VDOT 把一个 14B 的统一视频创作大模型(VACE-Wan2.1)蒸馏成只需 4 步去噪的少步生成器,关键是在分布匹配蒸馏(DMD)里首次引入熵正则最优传输(OT)距离作为几何约束,缓解 KL 蒸馏在少步场景下的 zero-forcing / 梯度坍塌问题,再配一个对抗判别器引入真实视频,最终 4 步效果追平甚至超过教师 50 步。
研究背景与动机¶
领域现状:统一视频创作(unified video creation)想用一个模型支持各种条件——文本、参考图、深度/姿态/光流、mask 编辑等。代表工作 VACE 把所有条件统一成「帧 + mask」表示,UNIC 把所有输入编码成三类 token,都达到了不错的视觉保真度。
现有痛点:这些统一模型为了同时吃下多种条件,架构复杂、参数量巨大(VACE 基于 Wan-14B),推理时要跑 50~100 步去噪,单条视频生成动辄几十秒到几分钟,根本没法在真实应用里部署。
核心矛盾:能不能既保留统一模型的多任务能力,又把推理步数压到个位数?现成的扩散蒸馏方案在视频上水土不服——Self-Forcing 把 DMD 范式搬到视频,但在 4 步这种极少步场景下,只靠反向 KL 散度做分布匹配会出问题:反向 KL 是 mode-seeking 的,初期真假分布差距巨大、又没有方向引导,训练很容易 zero-forcing(学生分布不去覆盖教师有概率但自己概率趋零的区域)或梯度坍塌(学生有概率而教师概率趋零的区域梯度炸到 \(+\infty\)),导致训练不稳、多样性丢失。
本文目标:(1) 给少步蒸馏一个比 KL 更稳的分布匹配目标;(2) 引入真实视频数据修正纯蒸馏带来的分数估计误差和教师的坏习惯;(3) 补上统一视频创作缺失的大规模训练数据与评测基准。
切入角度:反向 KL 的毛病在于它没有几何结构——它只看逐点的概率比值,不管"把质量从哪搬到哪"。最优传输(OT)天生带几何约束:它显式地为两个分布之间建立一条传输计划,告诉你每个样本该往哪个目标对齐,这正好能给少步蒸馏初期那种"乱跑"的优化提供方向。
核心 idea:在 DMD 的分布匹配里,用熵正则 OT 距离(Sinkhorn 可解)替代/补充反向 KL,再叠加一个对抗判别器引入真实视频,三个损失(OTD + DMD + GAN)交替优化,把 14B 教师蒸成 4 步学生。
方法详解¶
整体框架¶
VDOT 接受文本、图像、视频、mask 四类输入,输出一段符合任务要求的视频,整个推理只需 4 步去噪。它以预训练的 VACE-Wan2.1-14B 为教师与生成器骨架:VACE 用一个 Video Condition Unit(VCU) \(V=[T;F;M]\) 把异构条件统一成「文本 + 上下文帧 \(F\) + 对齐 mask \(M\)」三元组,通过调整帧与 mask 的取值就能表达 T2V / R2V / V2V / MV2V 等所有任务(如 T2V 时帧全 0、mask 全 1)。
训练沿用 DMD 范式,但用了三个分数/判别网络协同:一个冻结的真实分数网络 \(F_\psi\)(教师,估计真实分布的分数)、一个可学习的假分数网络 \(F_\phi\)(学生,估计当前生成分布的分数)、一个判别器 \(D_\tau\)。生成器 \(G_\theta\) 的训练目标由三部分构成——OTD 损失(OT 几何约束)、DMD 损失(原始 KL 分布匹配)、GAN 损失(对抗引入真实数据)。优化采用交替策略:每一步内部先冻结 \(F_\phi\) 训 \(G_\theta\)、再冻结 \(G_\theta\) 训 \(F_\phi\) 和 \(D_\tau\);而步与步之间则在「分布匹配目标」与「对抗目标」之间交替(step 为偶数走 OTD+DMD / denoising,为奇数走 GAN)。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}%%
flowchart TD
A["输入:文本/图像/视频/mask<br/>VCU 统一成 [T;F;M]"] --> B["生成器 G_θ<br/>4 步去噪产出 x̂₀"]
B --> C{"step 奇偶<br/>交替目标"}
C -->|偶数步| D["最优传输蒸馏<br/>OTD:熵正则 OT 几何约束"]
C -->|偶数步| E["DMD 损失<br/>反向 KL 分布匹配"]
C -->|奇数步| F["GAN 判别器 D_τ<br/>引入真实视频校准分数"]
subgraph G["交替优化(生成器↔评论家)"]
direction TB
H["冻结 F_φ → 更新 G_θ"]
I["冻结 G_θ → 更新 F_φ 与 D_τ"]
end
D --> G
E --> G
F --> G
G --> J["AccWanInit 初始化<br/>+ 两阶段训练"]
J --> K["4 步统一视频生成器"]
关键设计¶
1. 最优传输蒸馏(OTD):给分布匹配装上几何约束
这是全文最核心的创新,专治少步蒸馏里反向 KL 的 zero-forcing / 梯度坍塌。反向 KL \(D_{KL}(p_{fake}\|p_{real})\) 是逐点比较概率密度比值的,没有"质量从哪搬到哪"的方向信息:在 \(p_{fake}\to0, p_{real}>0\) 的区域积分趋 0,学生干脆不去更新这些区域(zero-forcing,覆盖不全);在 \(p_{fake}>0, p_{real}\to0\) 的区域积分趋 \(+\infty\),梯度炸掉(训练不稳)。OTD 的做法是把两个分数分布看成两堆样本 \(p_{fake}=[a_i]\in\mathbb{R}^{I\times D}\)、\(p_{real}=[b_j]\in\mathbb{R}^{J\times D}\)(\(I,J\) 是展平的空间维度,即 latent 高×宽),求它们之间的熵正则最优传输(EOT)距离:
其中 \(D\) 是样本间的平方欧氏距离矩阵,第二项是熵正则(\(\epsilon\) 控强度),让问题可以用 Sinkhorn 算法以 \(O(IJ)\) 复杂度高效求解。最优传输计划 \(T^*\) 充当了一个 "frame"-级的空间对齐。根据包络定理,目标对距离矩阵的导数就是 \(T^*\) 本身,于是对样本 \(a_i\) 的梯度为 \(\nabla_{a_i}W_2^\epsilon=\sum_j T^*_{ij}(a_i-b_j)\),再经链式法则得到对噪声样本 \(x_t\) 的梯度 \(\nabla_{OT}(x_t,t)\)(实现上直接用 torch.autograd)。最后 OTD 损失和 DMD 损失同构:
为什么有效:OT 计划 \(T^*\) 显式规定了"每个假样本该被搬向哪个真样本",给优化方向上了一道几何护栏,避免学生分布乱跑或只往局部高概率区扎堆。相比 ADP 那种"先用对抗预训练缓解 mode-seeking"的方案(要离线收集大量教师 ODE 对、再插值生成噪声样本,又贵又费人力),OTD 是直接在分布匹配目标里加约束,更轻量。作者称这是 OT 首次用于 DMD。
2. 对抗判别器:引入真实视频修正分数误差
VDOT 沿用 Self-Forcing 而非 Teacher-Forcing——它不拿真实视频帧当去噪条件,而是用前面已去噪的帧来去噪当前帧,从而保持训练/测试一致。但代价是训练时完全看不到真实数据:纯分布匹配会让真实分数网络 \(F_\psi\) 的近似误差表现为视频纹理/细节上的伪影,而且生成质量被教师模型天花板锁死,还会继承教师的一些坏习惯。为此 VDOT 加了一个判别器 \(D_\tau\) 把真实视频引进来:从假分数网络 \(F_\phi\) 的去噪块里选 第 23、31、39 块,引入三个可学习的 registration token 通过 cross-attention 与这些块交互,输出沿通道维拼接后过一个线性分类器给出真假 logits。给定与输入 prompt 对应的真实视频,先用预训练 VAE 编码进同一 latent 空间得 \(x_{real}\),再按调度器随机时间步给 \(x_{real}\) 和 \(\hat{x}_0\) 加噪得 \(x_t^{real}, x_t^{fake}\),用 relative GAN loss 校准分数:
判别器侧目标 \(L_{GAN}(\tau)\) 方向相反。这一支让生成器有机会"看见"真实视频统计量,突破教师天花板、压掉伪影。
3. AccWanInit + 两阶段训练:给少步生成器一个强初始化
少步生成器若从零或从教师权重直接起训,收敛慢、效率低。VDOT 用两阶段训练并提出 AccWanInit 初始化:阶段一用 Self-Forcing 管线把 Wan2.1-T2V-14B 蒸成少步生成器(1500 步,Artgrid 字幕);阶段二把生成器从 VACE-Wan2.1-14B 结合阶段一权重初始化(即用一个已蒸好的少步 Wan 去初始化 VACE 里的 Wan 块,这个过程就叫 AccWanInit),再在多任务数据(8 单条件 + 10 复合任务)上训 1200 步。消融显示 AccWanInit 提供了更强的初始化、显著加快训练效率(图 5 的 quality-vs-steps 曲线)。
损失函数 / 训练策略¶
生成器目标在偶数步为 \(L_\theta=L_{OTD}(\theta)+\lambda L_{DMD}(\theta)\)、奇数步为 \(L_{GAN}(\theta)\);评论家侧偶数步训假模型的扩散去噪损失 \(L_{Denoising}(\phi)\)、奇数步训判别器 \(L_{GAN}(\tau)\)。真实分数 \(F_\psi\) 全程冻结。实现上基于 Wan2.1-VACE-14B,Adam 优化器,critic 学习率 \(4\times10^{-7}\)、TTUR 比 5;阶段一生成器学习率 \(2\times10^{-6}\)、阶段二 \(1\times10^{-6}\);4 卡 H200、每卡 batch 1、gradient checkpointing(size 4)省显存。
实验关键数据¶
评测用自建的 UVCBench(18 任务:8 单条件 + 10 复合,每任务 20 条视频),用 VBench 的六维指标(美学质量、背景一致性、动态程度、成像质量、运动平滑度、主体一致性)算 Normalized Average,外加 20 人 user study(Prompt Following / Temporal Consistency / Video Quality,1–5 Likert)。
主实验¶
下表节选几个任务的 Normalized Average 与 NFE(去噪步数),对比教师 VACE-Wan-14B(100 步):
| 任务 | 方法 | 步数 NFE | 客观 Norm. Avg | User Study Avg |
|---|---|---|---|---|
| Depth | VACE (Wan-14B) | 100 | 77.34% | 4.46 |
| Depth | VDOT | 4 | 78.50% | 4.46 |
| Pose | VACE (Wan-14B) | 100 | 79.56% | 4.43 |
| Pose | VDOT | 4 | 80.54% | 4.47 |
| Flow | VACE (Wan-14B) | 100 | 80.35% | 4.45 |
| Flow | VDOT | 4 | 80.18% | 4.51 |
| Extension | VACE (Wan-14B) | 100 | 77.10% | 4.52 |
| Extension | VDOT | 4 | 80.53% | 4.36 |
| R2V | VACE (Wan-14B) | 100 | 82.54% | 4.66 |
| R2V | VDOT | 4 | 81.32% | 4.64 |
核心结论:VDOT 用 4 步就在多数任务上追平或超过教师 100 步的客观指标,成像质量(Imaging Quality)几乎都拿到最佳或次佳;user study 平均偏好与教师持平甚至更高。相比 SD-1.5 系的任务专用方法(Control-A-Video、ControlVideo、Follow-Your-Pose 等,多为 50~100 步且分数明显更低),优势显著。R2V 上不及在线商业系统 Keling-1.6(83.50%),但已优于 Vidu-2.0。
消融实验¶
下表为 Normalized Average(部分任务),基座 VACE-Wan2.1-14B,除 row(1) 外都训 1200 步:
| 配置 | DMD | OTD | GAN | AccWanInit | Depth | Pose | R2V |
|---|---|---|---|---|---|---|---|
| (2) Self-Forcing(仅 DMD) | ✓ | 76.89% | 78.34% | 76.45% | |||
| (3) 去掉 GAN | ✓ | ✓ | ✓ | 78.24% | 80.14% | 77.66% | |
| (4) 去掉 OTD | ✓ | ✓ | ✓ | 78.05% | 80.79% | 78.40% | |
| (5) 去掉 AccWanInit | ✓ | ✓ | ✓ | 77.15% | 79.83% | 77.00% | |
| VDOT(全量) | ✓ | ✓ | ✓ | ✓ | 78.50% | 80.54% | 81.32% |
关键发现¶
- 只用 DMD(row 2,等价 Self-Forcing)是所有配置里最差的,验证了"少步场景纯 KL 蒸馏不够稳"的动机;加上 OTD/GAN/AccWanInit 后各任务普遍回升。
- 去掉 OTD(row 4)或去掉 GAN(row 3)都会一致掉点,说明几何约束和真实数据校准各自不可替代;OTD 对 R2V 这类语义/结构要求高的任务增益尤其明显(77.66%→81.32%)。
- AccWanInit(row 5 → 全量)主要贡献训练效率:它给少步生成器更强初始化,图 5 的 quality-vs-training-steps 曲线显示带 OTD+AccWanInit 收敛更快。
亮点与洞察¶
- 把 OT 引入 DMD 是个干净的"换度量"创新:不改 DMD 的损失形式(\(L_{OTD}\) 和 \(L_{DMD}\) 同构),只把"逐点 KL 梯度"换成"OT 传输计划梯度",几乎零侵入地给少步蒸馏装上几何护栏,思路可迁移到任何用 DMD 的图像/视频蒸馏。
- 熵正则 + Sinkhorn 让 OT 在高维 latent 上变得可算(\(O(IJ)\)),把原本"理论上更好但算不动"的 Wasserstein 约束落地,是工程上的关键一步。
- 判别器挂在假分数网络的中间块上(23/31/39 块 + registration token + cross-attention),复用了已有特征而非另起一个独立大判别器,省参数又能引真实数据,是个可复用的轻量判别器接法。
- 数据/评测一起补:全自动数据管线(25 万 4K 视频 + InternVL/Qwen3 字幕与任务感知过滤)+ UVCBench(18 任务含 10 复合任务)填了统一视频创作评测的空白,对后续工作有基础设施价值。
局限与展望¶
- R2V 等高难任务仍落后商业系统(Keling-1.6 83.50% vs VDOT 81.32%),少步蒸馏在最难的语义保持上还有差距。
- 强依赖教师 VACE-Wan-14B:方法是"把这个特定教师蒸小",GAN 虽能部分突破教师天花板,但整体能力上限仍受教师约束;换教师需重训。
- 复合任务结果主要放在附录,正文主表以单条件任务为主,复合任务(10 个里占多数)的稳健性披露不够充分。
- \(\lambda\)、\(\epsilon\)(熵正则强度)等关键超参的敏感性分析缺失,OTD 与 DMD 的配比对结果影响多大正文没给。
相关工作与启发¶
- vs Self-Forcing(DMD 视频蒸馏):Self-Forcing 仅用 DMD + denoising loss 蒸少步视频生成器;VDOT 指出其在少步下的 zero-forcing/坍塌问题,用 OTD 几何约束 + GAN 真实数据补强,消融里 Self-Forcing(row 2)正是最差配置。
- vs VACE / UNIC(统一视频创作):它们追求多任务统一与高保真但架构臃肿、需几十上百步;VDOT 不重造统一架构,而是直接把 VACE 蒸成 4 步,复用其 VCU 统一表示。
- vs ADP(对抗缓解 mode-seeking):ADP 靠对抗预训练 + 离线收集教师 ODE 对来缓解 KL 的 mode-seeking,代价高;VDOT 用 OT 几何约束在线解决,无需离线 ODE 对。
- vs WGAN / Wasserstein Autoencoder(OT 在生成里的经典用法):前者把 OT 用在数据↔模型分布的对齐;VDOT 把 OT 创新地用在师生分数分布的匹配上(DMD 框架内),定位不同。
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次把熵正则 OT 引入 DMD 分布匹配,动机清晰、切口干净,但属于"在成熟范式上换度量 + 拼判别器"的组合式创新。
- 实验充分度: ⭐⭐⭐⭐ 18 任务大基准 + 客观/主观双评 + 完整消融,少步对教师的对比有说服力;但 R2V 落后商业系统、复合任务披露偏附录、关键超参敏感性缺失。
- 写作质量: ⭐⭐⭐⭐ OT/DMD 推导完整、算法伪代码清楚,框架与损失交替策略讲得明白。
- 价值: ⭐⭐⭐⭐ 把 14B 统一视频模型压到 4 步且质量不掉,实用价值高;附带的全自动数据管线与 UVCBench 对社区有基础设施意义。