MotionStone: Decoupled Motion Intensity Modulation with Diffusion Transformer for Image-to-Video Generation¶

会议: CVPR 2025
arXiv: 2412.05848
代码: 无
领域: 视频生成
关键词: 图像到视频生成, 运动强度估计, 物体/相机运动解耦, 对比学习, 扩散模型

一句话总结¶

提出 MotionStone，通过训练独立的运动强度估计器将视频运动解耦为物体运动和相机运动两个维度，并以解耦方式注入 Diffusion Transformer，实现精细的运动强度可控 I2V 生成。

I2V 生成中，运动强度控制是关键但未被充分解决的问题。现有方法存在以下不足：

核心洞察：人虽然很难给单个视频打绝对运动分数，但比较两个视频哪个运动更强是相对容易的。基于此，作者设计了一种相对标注 + 对比学习的框架来训练运动估计器。

MotionStone 包含两大模块：(1) 独立的运动强度估计器，预测视频的物体运动分数和相机运动分数（1-10 范围）；(2) 基于 CogVideoX 的 I2V 扩散模型，以解耦运动嵌入作为条件进行视频生成。

运动强度估计器（Motion Estimator）：采用 TAdaConv 作为视频运动表征骨干网络，提取运动特征 \(M = \text{TAdaConv}(\mathbf{x}; \phi)\)，然后经过全局平均池化后分别输入两个 MLP 头：\(s^{object} = \text{MLP}_{object}(\text{GAP}(M); \theta)\) 和 \(s^{camera} = \text{MLP}_{camera}(\text{GAP}(M); \theta)\)，分别预测物体和相机运动分数。设计动机：使用轻量级时序自适应卷积作为骨干，双头结构自然实现运动解耦。
相对标注与对比训练：构建 5000 个视频对，标注者仅需判断哪个视频的物体/相机运动更强。训练使用 pairwise ranking loss：\(L_o = \max(0, s_2^{object} - s_1^{object})\)（假设视频 1 运动更强），\(L_c = \max(0, s_2^{camera} - s_1^{camera})\)。为避免预测分数过于集中，额外使用跟踪轨迹生成的伪标签进行回归训练：\(\mathcal{L}_r = \|s^{object} - y^{object}\|_2^2 + \|s^{camera} - y^{camera}\|_2^2\)。总损失 \(\mathcal{L}_{total} = \mathcal{L}_o + \mathcal{L}_c + \lambda \mathcal{L}_r\)。
解耦运动条件注入（Decoupled Motion Embedding）：物体和相机运动分数分别通过独立的 MLP 映射到高维向量，拼接后加到时间步嵌入 \(t\) 上，通过 adaptive LayerNorm 调制 DiT 中的视觉和文本特征。设计动机：物体运动和相机运动在空间维度上含义不同，混合注入会模糊各自贡献，解耦保持语义清晰。

方法	Background Consistency ↑	Aesthetic Quality ↑	Imaging Quality ↑
I2VGen-XL	90.93%	40.14%	58.35%
SVD	93.17%	42.38%	59.61%
AnimateAnything	93.89%	46.04%	61.69%
CogVideoX-5B	94.91%	45.88%	61.99%
MotionStone	95.76%	46.78%	62.29%

配置	BG Consistency ↑	Aesthetic ↑	Imaging ↑	说明
w/o 运动估计器 (固定 5)	95.13%	45.61%	60.15%	训练数据运动多样性导致混淆
w/ 特征差异估计 (S)	94.97%	46.13%	60.73%	与人类感知不一致
w/ SSIM 估计	92.99%	45.72%	54.75%	SSIM 无法解耦，最差
w/o 解耦注入	94.03%	46.27%	58.73%	混合注入模糊运动贡献
MotionStone (完整)	95.76%	46.78%	62.29%	最优

方法	运动估计准确率
SSIM	44.56%
本文 Motion Estimator	72.80%