MotionShot: Adaptive Motion Transfer across Arbitrary Objects for Text-to-Video Generation¶
会议: ICCV 2025
arXiv: 2507.16310
代码: 项目页面
领域: 视频生成
关键词: motion transfer, text-to-video, training-free, TPS warping, temporal attention guidance
一句话总结¶
提出 MotionShot,一个无需训练的运动迁移框架,通过高层语义对齐和低层形态对齐的两级运动对齐策略,实现在外观和结构差异显著的任意参考-目标物体对之间的高保真运动迁移。
研究背景与动机¶
运动迁移的挑战: - 现有方法大多只能处理外观相似的参考-目标对(如人→人、动物→同类动物) - 当参考物体和目标物体存在显著外观/结构差异时(如动漫人物→维尼熊),运动迁移效果急剧下降
现有方法的局限:
关键点序列方法:需要为每类物体预定义关键点,无法泛化到任意物体
时空特征方法:运动和外观在潜在表示中纠缠,导致参考外观泄漏
深度/边缘/光流条件:不考虑区域级语义对应和像素级结构对应,面对大差异物体对失败
基于注意力的方法:运动与结构高度耦合,目标与参考差异大时运动不兼容
核心问题:如何在保持目标物体外观的同时,准确迁移参考物体的运动模式?
方法详解¶
整体框架¶
MotionShot 基于 AnimateDiff 视频生成框架,包含三个主要阶段: 1. 语义运动对齐:建立参考-目标物体间的高层语义对应 2. 形态运动对齐:通过 TPS 变换实现低层结构映射 3. 注意力引导生成:用变形后的参考帧引导视频生成
关键设计¶
-
语义运动对齐(Semantic Motion Alignment):
- 假目标生成:使用 ControlNet-segmentation 模型,输入退化的参考物体分割图(粗略初始姿态提示)+ 文本提示,生成与参考物体初始姿态相近的假目标物体。ControlNet 条件权重设为 0.6,确保文本提示主导
- 结构感知关键点采样:在参考物体上采样 \(m=30\) 个关键点,包括均匀轮廓采样(间隔 \(d=200\))和泊松盘内部采样,确保关键点分散分布在物体各区域
- 语义特征匹配:融合 Stable Diffusion 特征(低层空间信息)和 DINOv2 特征(高层语义信息),通过 \(L_2\) 距离计算相似度:\(\text{Sim}(i,j) = -\|f_\text{tar}^s(i) - f_\text{ref}^s(j)\|_2\)
- 设计动机:SD 特征提供精细空间细节但在歧义区域易出错,DINO 捕获高层语义但可能遗漏细节,融合互补
-
形态运动对齐(Morphological Motion Alignment):
- 目标关键点序列构建:使用 CoTracker3 跟踪参考关键点,通过全局运动(椭圆旋转和平移)和局部运动(极坐标相对偏移)迁移到目标空间
- 全局运动:\(K_\text{tar}^t = \mathcal{S}(\mathcal{R}(K_\text{tar}^0, \Delta\Theta^t), \Delta O^t)\)
- 局部运动:将关键点偏移分解为径向缩放和极角偏移
- TPS 形状变形:利用 TPS(Thin Plate Spline)变换将参考帧变形为目标形状 \(\mathcal{T}^t(p) = A^t\begin{bmatrix}p\\1\end{bmatrix} + \sum_{i=1}^m w^{t,i}\mathcal{U}(\|\mathbf{K}_\text{tar}^{t,i}-p\|^2)\)
- 设计动机:点级引导缺乏连续性,破坏时间注意力;TPS 变形提供连续的形状映射
-
注意力引导视频生成(Attention-guided Generation):
- 对变形后的参考帧进行单步加噪-去噪,提取时间注意力图 \(A_\text{ref}^\tau\)
- 选取 top-k(\(k=1\))稀疏控制掩码,减少噪声
- 定义能量函数:\(g = \|M^\tau \cdot (A_\text{ref}^\tau - A_\text{gen}^t)\|_2^2\)
- 通过 score-based guidance 引导扩散采样:\(\hat{\epsilon}_\theta = \epsilon_\theta(z_t, \text{text}, t) - \lambda\nabla_{z_t}g\)
- 使用 DDIM 采样器,300 步中前 180 步应用引导
- 设计动机:由于参考帧已被变形为目标形状,时间注意力中的运动信息自然与目标结构对齐
损失函数 / 训练策略¶
MotionShot 是完全无训练的框架: - 不需要额外的训练数据或微调 - 基于预训练的 AnimateDiff、ControlNet、Stable Diffusion、DINOv2、CoTracker3 - 所有对齐通过特征匹配和几何变换实现
实验关键数据¶
主实验 (表格)¶
定量比较(CLIP Scores + 用户研究):
| 方法 | Text Align↑ | Temporal Consist↑ | Motion Preserv↑ | Appear Diversity↑ | User-Text↑ | User-Temporal↑ |
|---|---|---|---|---|---|---|
| VideoComposer | 26.54 | 95.95 | 3.00 | 2.72 | 2.79 | 2.82 |
| Gen-1 | 22.79 | 97.67 | 2.87 | 2.71 | 2.75 | 2.87 |
| VMC | 26.77 | 97.72 | 2.80 | 2.78 | 2.78 | 2.87 |
| Tune-A-Video | 26.60 | 95.99 | 2.86 | 2.78 | 2.88 | 2.86 |
| Control-A-Video | 24.87 | 95.54 | 2.94 | 2.66 | 2.40 | 2.92 |
| MotionClone | 26.41 | 97.48 | 2.90 | 2.50 | 2.80 | 2.82 |
| MotionShot | 26.95 | 97.81 | 4.95 | 4.95 | 4.94 | 4.90 |
- 用户研究中 MotionShot 在所有四个维度上均接近满分(5分制),远超其他方法
消融实验 (表格)¶
关键点数量消融:
| 关键点数 \(m\) | 轮廓点 | 内部点 | 效果 |
|---|---|---|---|
| 10 | 8 | 2 | TPS 变形失败,无法匹配目标形状 |
| 30 | 24 | 6 | 合理变形,最佳效果 |
| 60 | 48 | 12 | 过拟合,变形结果不自然 |
语义特征匹配方法比较:
| 方法 | 效果描述 |
|---|---|
| X-Pose 关键点检测器 | 仅预测 17 点,分布不均,外观不匹配 |
| 仅 SD 特征 | 精细空间细节,但歧义区域易错(如尾巴) |
| 仅 DINO 特征 | 高层语义好,但遗漏细节(如腿部) |
| SD + DINO 融合 | 平衡精细与高层精度,效果最优 |
形状重定向方法比较:
| 方法 | 问题 |
|---|---|
| 原始序列不变形 | 运动-形状不匹配,生成物体变形 |
| 简单缩放 | 尺寸一致但拓扑扭曲(如腿部错位) |
| 关键点 TPS 变形 | 运动精度和结构一致性俱佳 |
关键发现¶
- 用户研究中运动保留和外观多样性得分接近满分(4.95/5),远超第二名(~3.0/5)
- 纯无训练方法在运动迁移质量上大幅超越需要训练的方法
- SD+DINO 特征融合对语义匹配至关重要,单独使用任一特征均不够
- TPS 变形是关键步骤,点级引导或简单缩放都会导致形状问题
- 30 个关键点是最佳数量,太少变形不充分,太多过拟合
亮点与洞察¶
- 两级对齐框架:首次显式建模高层语义对齐和低层形态对齐,解决了任意物体对运动迁移的核心难题
- 完全无训练:不需要任何额外训练或微调,组合现有预训练模型实现强大功能
- 假目标生成策略:利用退化分割图引导生成初始姿态一致的假目标,巧妙解决初始姿态不匹配问题
- 结构感知关键点采样:均匀轮廓+泊松盘内部的采样策略确保关键点在物体各区域的均匀覆盖
- 运动分解:全局旋转+平移 + 局部极坐标偏移的运动分解方式,细粒度地迁移复杂运动
局限与展望¶
- 当参考物体和目标物体完全没有语义相似性时(如飞机→花朵),方法失效
- 语义对应依赖 SD 和 DINO 的特征质量,对于远离预训练分布的物体可能不可靠
- 基于 AnimateDiff 框架,视频质量和长度受底层模型限制
- 300 步采样 + 前 180 步引导,推理效率有待提升
- 仅支持单物体运动迁移,多物体交互的运动迁移未探索
相关工作与启发¶
- 两级对齐(语义+形态)的思路可推广到其他需要跨域对应的任务(如风格迁移、动画)
- TPS 变形作为连续的空间映射工具,比离散点级引导更适合注意力引导方案
- 无训练方法通过巧妙组合预训练模型,可以解决复杂的视觉生成问题
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 两级运动对齐框架是首创,解决了运动迁移中长期存在的任意物体对难题
- 实验充分度: ⭐⭐⭐⭐ 定量+用户研究+详细消融,但缺少更多定量指标(自动化运动保真度评估)
- 写作质量: ⭐⭐⭐⭐ 方法描述清晰,图示丰富,动机论述到位
- 价值: ⭐⭐⭐⭐⭐ 用户研究中几乎满分的表现证明了方法的实际价值,无训练设计降低使用门槛