跳转至

MOFA-Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image-to-Video Diffusion Model

会议: ECCV 2024
arXiv: 2405.20222
领域: 图像生成

一句话总结

提出 MOFA-Video,通过设计多个领域感知运动场适配器(MOFA-Adapter)为冻结的视频扩散模型(SVD)添加可控运动能力,支持手绘轨迹、人脸关键点等多种控制信号及其组合,实现开放域可控图像动画。

研究背景与动机

  • 领域内动画方法(如 SadTalker)可精细控制特定类别(人脸、流体),但受限于特定领域,无法泛化到开放域
  • 扩散式 I2V 模型(如 SVD、AnimateDiff)可处理开放域图像动画,但生成内容可能偏离输入图像,且仅支持文本或简单闲置动画,控制能力弱
  • 已有控制方法的不足:DragNUWA 通过自适应归一化建模轨迹但空间对应性差;MotionCtrl 依赖 T2V 模型缺少世界坐标系
  • 核心问题:如何构建一个统一框架,在开放域图像上实现来自多个运动领域的精细可控动画?

方法详解

整体框架

MOFA-Video 在冻结的 Stable Video Diffusion(SVD)上附加 MOFA-Adapter 作为运动控制模块,类似 ControlNet 的思路。核心是将不同领域的控制信号统一为稀疏运动向量表示,再通过统一的适配器结构生成视频。

关键设计

1. MOFA-Adapter 结构: - 稀疏到稠密(S2D)运动生成网络:接受第一帧图像和稀疏运动提示,生成稠密光流场,采用 CMP 网络结构 - 参考图像编码器:多尺度卷积特征编码器,提取第一帧的多尺度特征用于 warp - 融合编码器:SVD 编码器的可训练副本,将 warp 后的特征与 SVD 解码器的特征融合

2. 领域感知运动控制: - 开放域轨迹:从视频光流中采样稀疏运动向量进行训练,推理时接受手绘轨迹 - 人脸关键点:将面部关键点位移转化为稀疏运动向量,统一表示简化框架 - 多适配器组合:不同领域的 MOFA-Adapter 可零样本联合使用,通过掩码感知策略融合不同区域的控制信号

3. 长视频生成:提出周期采样策略,每个扩散步内将帧分组(14帧/组,7帧重叠),对重叠帧的预测噪声取平均,实现更长视频的时序一致性

损失函数

冻结 SVD 参数,仅优化 MOFA-Adapter 参数 \(\theta_{\mathcal{M}}\)

\[\mathcal{L} = \| \mathcal{S}(\mathcal{V}_t, t, \mathcal{M}(\mathcal{V}_t, t, I, F^s; \theta_{\mathcal{M}})) - \mathcal{V} \|^2\]

其中 \(\mathcal{S}\) 为冻结的 SVD,\(\mathcal{V}\) 为视频潜在表示。

实验关键数据

主实验

轨迹控制对比(vs DragNUWA)

方法 帧一致性↑ LPIPS↓ FID↓ FVD↓ 控制精度(用户)↑ 视觉质量(用户)↑
DragNUWA 0.9302 0.2705 19.66 91.38 2.76 3.18
MOFA-Video 0.9390 0.2274 16.82 86.76 3.58 3.42

人像动画对比(vs SadTalker, StyleHEAT)

方法 CPBD↑ ID↑ 保真度(用户)↑ 自然度(用户)↑ 视觉质量(用户)↑
SadTalker 0.3218 0.9188 4.15 3.12 3.97
StyleHEAT 0.2577 0.7993 3.26 3.65 3.70
MOFA-Video 0.4075 0.9293 4.80 3.97 4.52

消融实验

网络结构消融(轨迹控制)

变体 LPIPS↓ FID↓ FVD↓
w/o warping(纯稀疏条件) 0.2619 18.80 184.27
w/o S2D(稀疏 warp) 0.2376 16.87 81.80
w/o tuning(直接用重建模型) 0.2163 16.97 102.17
完整模型 0.2274 16.82 86.76

关键发现

  • 稀疏条件模型无法精确控制目标物体轨迹,因为缺乏空间 warp 操作导致空间不对齐
  • 稀疏 warp 模型能控制轨迹但由于缺少稠密光流指导,生成结果有严重伪影
  • 不同领域的 MOFA-Adapter 必须分别训练,直接用开放域模型做人脸动画会导致不自然表情
  • 周期采样策略显著优于朴素帧分组方法,有效解决了长视频的误差累积和时序不一致问题

亮点与洞察

  • 将多领域运动控制统一为稀疏运动向量问题,设计优雅且可扩展
  • 显式的稀疏到稠密光流生成 + 特征 warp 策略在控制精度和生成质量之间取得了良好平衡
  • 多 MOFA-Adapter 的零样本组合能力使得同时控制人脸表情和背景运动成为可能
  • 相比 DragNUWA 的隐式轨迹建模,显式光流方法能更好地限定运动区域

局限性

  • 无法控制/生成远离输入图像的新内容(受限于 SVD 的短视频训练数据)
  • 大运动引导下可能出现模糊或结构损失等视觉伪影
  • 视频长度受限于 SVD 的 14 帧窗口,长视频需要额外的周期采样策略

评分

  • 新颖性: 7/10 — 适配器思路源自 ControlNet,核心创新在于运动场的统一建模和多领域组合
  • 技术深度: 8/10 — S2D + warp 的显式运动建模设计扎实,多适配器组合方案合理
  • 实验充分度: 8/10 — 对比实验和消融实验较全面,但缺少定量的长视频评估
  • 影响力: 7/10 — 为可控视频生成提供了实用的统一框架