DynaVid: Learning to Generate Highly Dynamic Videos using Synthetic Motion Data¶

会议: CVPR 2026
arXiv: 2604.01666
代码: 无
领域: 图像生成
关键词: 视频扩散模型, 合成运动数据, 光流, 动态运动生成, 相机控制

一句话总结¶

DynaVid 提出利用计算机图形学渲染的合成光流（而非合成视频）来训练视频扩散模型，通过运动生成器+运动引导视频生成器的两阶段框架，实现了高度动态运动的逼真视频合成和精细相机控制。

研究背景与动机¶

领域现状：当前视频扩散模型（如 Wan2.2、CogVideoX）已能生成高质量视频，但仍严重依赖大规模训练数据中的运动类型分布。主流训练数据集中，高度动态的运动场景（如街舞、快速相机旋转）极度稀缺。
现有痛点：
- 模型难以合成含高度动态运动的逼真视频，因为训练集中此类样本不足
- 相机控制模型（如 CameraCtrl、AC3D）需要准确的 3D 相机位姿标注，但极端运动场景下的位姿估计极不可靠
- 直接使用合成渲染视频训练会引入严重的外观域差距——模型会复现合成数据的人工纹理和光照
核心矛盾：合成数据能提供丰富的动态运动和精确的控制信号，但其非真实的外观特征又会 pollute 生成模型的视觉质量。如何"取其精华（运动信息），去其糟粕（人工外观）"是关键难题。
本文目标
- 如何让模型学到高度动态的运动模式但不牺牲视觉真实感？
- 如何在极端相机运动下实现精确的相机轨迹控制？
切入角度：光流天然只编码运动信息、与外观解耦，因此用渲染的光流替代渲染视频可以消除外观域差距。
核心 idea：用合成光流（而非合成视频）训练运动生成器学动态运动模式，再用真实视频训练运动引导视频生成器保真实外观，两阶段解耦实现"运动来自合成、外观来自真实"。

方法详解¶

整体框架¶

DynaVid 是一个两阶段视频生成框架。第一阶段，运动生成器接受文本条件，生成以光流表示的运动序列；第二阶段，运动引导视频生成器以生成的光流为条件，合成 RGB 视频帧。两阶段均基于 Wan2.2-5B 视频扩散模型，采用 VACE 架构注入控制信号。对于相机控制场景，运动生成器额外接收 Plücker 嵌入作为相机参数输入。

关键设计¶

合成运动数据集构建（DynaVid-Human & DynaVid-Camera）:
- 功能：提供高度动态的运动监督信号和精确的相机控制标注
- 核心思路：使用 Blender Cycles 渲染器构建 3D 场景。DynaVid-Human 整合 Mixamo 运动序列和可动画人物模型，渲染出动态人体运动的光流。DynaVid-Camera 在复杂 3D 环境中用 NURBS 曲线插值关键相机位置，生成快速视角变化的轨迹和光流。核心产出是合成光流 \(\mathcal{F}^{syn}\) 而非合成视频。
- 设计动机：光流仅编码运动信息，与外观完全解耦，避免了合成视频的非真实外观问题
光流的 HSV-RGB 转换与 VAE 编码:
- 功能：将光流映射到 RGB 域以复用预训练 VAE
- 核心思路：先对光流向量归一化，用 99 百分位数作为缩放因子 \(s_f\)，再将归一化后的幅值和方向分别映射到 HSV 色彩空间的明度和色相通道，最后转 RGB 并编码到潜空间
- 设计动机：避免为光流单独训练 VAE，直接复用现有视频 VAE，降低训练成本
两阶段解耦训练策略:
- 功能：实现"运动从合成数据学，外观从真实数据学"的解耦
- 核心思路：运动生成器先用真实光流 \(\mathcal{F}^{real}\)（从真实视频用 WAFT 估计）预训练学通用运动统计，再用合成光流 \(\mathcal{F}^{syn}\) 微调学动态运动，微调时每个 batch 混合真实和合成光流避免遗忘。运动引导视频生成器仅在真实视频-光流配对上训练，学习将光流条件转化为真实外观。两阶段均使用 Flow Matching 目标函数
- 设计动机：混合训练避免模型过拟合到合成运动模式而丢失自然运动先验；仅用真实数据训练视频生成器确保外观真实性

损失函数 / 训练策略¶

运动生成器采用 Flow Matching 目标：\(\mathbb{E}[\|\hat{u}^{\mathcal{F}}(\mathcal{F}_{t_f}; c_{txt}, C, t_f) - v^{\mathcal{F}}\|_2^2]\)
运动引导视频生成器同样采用 Flow Matching：\(\mathbb{E}[\|\hat{u}^{\mathcal{I}}(\mathcal{I}_{t_I}; c_{txt}, \mathcal{F}, t_I) - v^{\mathcal{I}}\|_2^2]\)
数据过滤：通过光流循环一致性误差（阈值 1.19 像素，90 百分位数）过滤不准确的真实光流-视频对，提升运动引导视频生成器的运动保真度

实验关键数据¶

主实验 — 动态物体运动生成¶

方法	数据集	FVD↓	A-Qual↑	I-Qual↑	M-Smooth↑	T-Flick↑
CogVideoX-5B	Pexels	1519.54	0.5646	0.6613	0.9844	0.9673
Wan2.2-5B	Pexels	1172.02	0.5779	0.7235	0.9928	0.9883
DynaVid	Pexels	1126.38	0.5807	0.7342	0.9900	0.9748
CogVideoX-5B	DynaVid-Human	2238.68	0.5071	0.5562	0.9779	0.9565
Wan2.2-5B	DynaVid-Human	1775.99	0.5389	0.6974	0.9904	0.9791
DynaVid	DynaVid-Human	1351.94	0.5312	0.7352	0.9931	0.9864

主实验 — 极端相机控制¶

方法	数据集	mRotErr↓	FVD↓	A-Qual↑	I-Qual↑
AC3D	DynaVid-Camera	1.1529	782.01	0.4483	0.5407
GEN3C	DynaVid-Camera	1.1852	237.15*	0.3889	0.5659
DynaVid	DynaVid-Camera	0.9289	674.72	0.4501	0.6713

消融实验¶

配置	Pexels FVD↓	DynaVid-Human FVD↓	说明
Full model	1126.38	1351.94	完整模型
w/o 合成运动数据	1076.53	1878.98	动态场景严重退化 (+527 FVD)
w/o batch mixture	1885.74	1229.70	Pexels 严重退化，过拟合合成模式
w/ 合成视频（非光流）	1230.81	698.0*	产生人工外观，Pexels 退化

关键发现¶

合成运动数据是动态场景性能的关键：去掉后 DynaVid-Human FVD 从 1352 暴涨到 1879，但在普通场景 Pexels 上变化甚微
混合批次训练至关重要：仅用合成数据微调会导致严重过拟合，Pexels FVD 涨到 1886
用光流而非渲染视频正确性：用合成视频训练虽然在合成测试集上 FVD 低，但产生人工外观，在真实场景 Pexels 上 FVD 明显上升
运动引导视频生成器在 20dB 以上噪声时保持鲁棒性

亮点与洞察¶

用光流代替渲染视频消除域差距：这个思路非常巧妙——光流天然只编码运动不编码外观，完美解决了"合成数据好用但长得假"的矛盾。这种"选择正确的中间表示来桥接合成与真实"的策略可迁移到其他跨域学习场景
两阶段解耦框架：运动与外观的解耦设计使得可以对两者分别用最合适的数据源训练。这种解耦思路可用于任何需要分开建模内容和运动的生成任务
数据过滤基于循环一致性：简单但有效的质量控制方法，90 百分位阈值就能显著提升运动保真度

局限与展望¶

合成数据集以单人场景为主，多人动态运动场景生成效果较差
依赖于光流估计器的质量，估计误差会影响训练数据的准确性
未探索更复杂的运动表示（如场景流、3D 运动场），仅用 2D 光流可能限制 3D 一致性
可以扩展合成数据集的多样性（多人交互、物体运动等）

评分¶

新颖性: ⭐⭐⭐⭐ 用光流替代渲染视频消除域差距的思路新颖且有效
实验充分度: ⭐⭐⭐⭐⭐ 消融全面，覆盖动态运动和相机控制两个场景，噪声鲁棒性也有验证
写作质量: ⭐⭐⭐⭐ 逻辑清晰，动机阐述到位
价值: ⭐⭐⭐⭐ 提供了一种利用合成数据增强视频生成能力的通用框架思路