跳转至

Music-Aligned Holistic 3D Dance Generation via Hierarchical Motion Modeling

会议: ICCV 2025
arXiv: 2507.14915
代码: 项目主页
领域: image_generation (3D舞蹈生成)
关键词: 舞蹈生成, 音乐对齐, 全身动作, 层次化残差向量量化, 跨模态检索

一句话总结

提出 SoulDance 数据集(首个含身体+手部+面部的高质量3D舞蹈数据集)和 SoulNet 框架(层次化残差向量量化 + 音乐对齐生成模型 + 跨模态检索),实现首个面部表情与身体手部动作协调一致、与音乐节奏情感对齐的全身3D舞蹈生成。

研究背景与动机

核心问题: 现有方法只能生成身体或身体+手部的舞蹈动作,缺乏面部表情生成,导致情感表达不完整;同时存在音乐-舞蹈跨模态对齐不足的问题。

三大挑战:

数据集缺失: 现有舞蹈数据集要么只有身体动作(AIST++),要么缺少面部表情(FineDance),且大多来自视频姿态估计,精度不足

建模困难: 身体、手部、面部之间存在复杂的层次化依赖关系,现有方法无法有效捕捉跨部位的协调运动

跨模态对齐差: 现有方法直接将低级音频特征(如 Librosa、Jukebox 特征)输入运动生成器,缺乏显式的音乐-舞蹈对齐机制

动机: 用专业动捕系统构建首个包含全身动作的数据集,同时设计层次化量化和跨模态对齐框架解决协调生成与音乐同步问题。

方法详解

整体框架

SoulNet 由三个核心组件构成:

  1. HRVQ (Hierarchical Residual Vector Quantization): 层次化残差向量量化,建模身体-手部-面部的跨部位依赖
  2. MAGM (Music-Aligned Generative Model): 音乐对齐生成模型,基于 Transformer 生成舞蹈 token 序列
  3. MMR (Music-Motion Retrieval Module): 音乐-动作检索模块,预训练的跨模态对齐先验

关键设计 1: HRVQ

传统 VQ-VAE 将全身动作统一量化,信息损失严重且忽略部位间关系。HRVQ 的核心创新是多层身体-手部-面部链式设计

  • 将全身动作分解为身体 \(m^b\)、手部 \(m^h\)、面部 \(m^f\) 三个分量
  • 在每个 RVQ 层级 \(v\),先量化身体残差得到 \(b^v\),再将 \(b^v\) 作为 hint 传递给手部量化得到 \(h^v\),最后将 \(h^v\) 作为 hint 传递给面部量化得到 \(f^v\)
  • 通过变换函数 \(\mathcal{T}\) 融合上游部位信息与当前部位残差,实现层次化依赖建模
\[b^v = VQ_b(r_b^v), \quad h^v = VQ_h(\mathcal{T}(r_h^v, b^v)), \quad f^v = VQ_f(\mathcal{T}(r_f^v, h^v))\]

设置 \(V=5\) 层残差量化层,在重建精度和生成效率之间取得平衡。

关键设计 2: MAGM 两阶段生成

  • 阶段 1: Transformer 层对基础层 \(T_0\)(body+hand+face 拼接 token)执行 mask-and-predict,结合音乐特征生成主体动作 token
  • 阶段 2: \(V-1\) 个残差层逐层预测残差 \(T_{1:V}\),细化动作细节
  • 每阶段分别通过 \(\mathcal{L}_{\text{Align-body}}\)\(\mathcal{L}_{\text{Align-whole}}\) 引入 MMR 对齐约束

关键设计 3: MMR 跨模态检索

借鉴 CLIP 的思路,预训练音乐-动作对齐模型:

  • Motion Encoder: 将动作序列压缩为潜在编码 \(\mathbf{z}\)
  • Music Encoder: 基于 Jukebox 编码器提取音频特征,映射到对齐空间 \(\mathbf{c}\)
  • 使用对比学习损失 \(\mathcal{L}_{\text{Align}}\) 拉近匹配的音乐-舞蹈对
  • 训练两个 MMR 模块:\(\mathcal{L}_{\text{Align-body}}\) 对齐身体动作与节拍,\(\mathcal{L}_{\text{Align-whole}}\) 对齐全身动态与音乐情感

损失函数

HRVQ 训练:

\[\mathcal{L}_{hrvq} = \|m - \hat{m}\|_1 + \alpha \sum_v \|r_b^v - sg[b^v]\|_2 + \beta \sum_v \|r_h^v - sg[h^v]\|_2 + \gamma \sum_v \|r_f^v - sg[f^v]\|_2\]

MAGM 训练 (分两阶段):

\[\mathcal{L}_{mask} = \sum_{t_i \in \text{mask}} -\log_\theta(T_0 | T_0^m, C) + \lambda_b \mathcal{L}_{\text{Align-body}}\]
\[\mathcal{L}_{res} = \sum_{i=1}^{V} -\log_\phi(T_{i:V} | T_0, C) + \lambda_w \mathcal{L}_{\text{Align-whole}}\]

其中 \(\lambda_b = \lambda_w = 0.5\)

实验关键数据

SoulDance 数据集

特性 数值
总时长 12.5 小时
帧率 60 FPS
舞种 15 种
音乐片段 284 段
舞者数量 5 位专业舞者
含身体/手部/面部 ✓/✓/✓(唯一全身数据集)
运动捕捉相机 15 台光学相机
面部参数 ARKit 52 维 blendshape

主实验: 动作重建 (MPJPE, mm↓)

方法 全身 身体 手部 面部
Vanilla VQ (512) 137.130 97.660 129.518 4.013
RVQ-5 108.983 71.831 106.836 2.379
HRVQ-5 (Ours) 83.679 47.895 85.085 1.153

HRVQ 相比 RVQ 在全身重建上降低误差 23.2%

主实验: 舞蹈生成 (SoulDance)

方法 FID↓ Div↑ MM↑ MMR-MS↓ BAS↑ EAS↑
FACT 1.008 0.646 0.656 0.685 0.221 0.358
Bailando 1.379 1.307 1.117 0.585 0.236 0.401
EDGE 2.619 0.723 0.745 0.716 0.241 0.246
FineNet 1.463 1.262 0.832 0.694 0.213 0.263
SoulNet 0.029 1.312 1.310 0.369 0.244 0.594

SoulNet 的 FID 仅为 0.029(次优方法 1.008),MMR-MS 降低 46.3%(vs Bailando),EAS 提升 48.1%(vs Bailando)。

消融实验: HRVQ + MMR

方法 FID↓ MMR-MS↓
VQ-512 1.610 0.703
RVQ-512 + MMR 0.067 0.540
HRVQ-512 0.048 0.418
HRVQ-512 + MMR 0.029 0.369

消融实验: 对齐损失

\(\mathcal{L}_{\text{Align-body}}\) \(\mathcal{L}_{\text{Align-whole}}\) FID↓ BAS↑ MMR-MS↓
0.029 0.244 0.369
0.031 0.242 0.387
0.042 0.237 0.372

\(\mathcal{L}_{\text{Align-body}}\) 主要改善局部特征对齐(FID、BAS),\(\mathcal{L}_{\text{Align-whole}}\) 主要提升全局结构对齐(MMR-MS)。

用户研究 (1-10分)

方法 整体 身体 手部 情感 对齐
FineNet 6.44 5.89 6.11 5.33 6.56
SoulNet 7.33 8.45 7.56 7.67 7.78

关键发现

  • 残差层数 \(V\) 从 1 增到 5 持续提升性能,超过 5-6 层后生成质量反而下降
  • MMR 模块对 FID 改善有限但对 MMR-MS(音乐对齐)效果显著
  • 推理速度为 0.086s(vs FACT 1.782s、EDGE 1.521s),快 17-20 倍

亮点与洞察

  1. 首个全身舞蹈数据集: SoulDance 是第一个同时包含身体、手部、面部的高质量动捕舞蹈数据集,填补了领域空白
  2. 链式层次量化设计: HRVQ 的 body→hand→face 链式信息传递非常巧妙——利用身体动作作为 hint 指导手部量化,手部再指导面部,符合舞蹈中动作协调的物理规律
  3. 双粒度对齐: \(\mathcal{L}_{\text{Align-body}}\) 负责局部节拍对齐,\(\mathcal{L}_{\text{Align-whole}}\) 负责全局情感对齐,两者互补
  4. 新评估指标: EmotionAlign Score 和 MMR-Matching Score 弥补了现有指标对面部表情和细粒度节奏对齐评估的不足
  5. 推理效率高: 基于 mask-and-predict 的生成方式比扩散模型快一个数量级

局限性

  1. 数据集规模: SoulDance 仅 12.5 小时、15 种舞种,相比 FineDance 的 22 种舞种覆盖不够广
  2. AIST++ 上多样性不足: 论文承认在小数据集 AIST++ 上 SoulNet 的 Diversity 低于部分方法
  3. 面部表情表示有限: 使用 ARKit 52 维 blendshape 而非更精细的面部模型,可能在细微表情上存在损失
  4. 链式量化的单向依赖: body→hand→face 的单向链无法建模面部表情对身体动作的反向影响
  5. 评估指标依赖预训练模型: EAS 依赖表情识别算法的准确性,MMR-MS 依赖自身预训练质量,存在循环评估风险

相关工作与启发

  • Bailando (VQ-VAE + RL): 首个将 VQ-VAE 引入舞蹈生成,但训练复杂且无全身建模
  • EDGE (Diffusion-based): 扩散模型生成高质量身体舞蹈,但忽略手部和面部
  • FineNet (FineDance): 第一个同时生成身体+手部的方法,但无面部表情
  • MoMask (RVQ for motion): 将 RVQ 引入人体动作生成,本文在此基础上扩展为层次化 RVQ
  • CLIP (对比学习): MMR 模块直接借鉴 CLIP 的跨模态对齐思路
  • 启发: 链式层次化量化思路可推广到其他多部位协调生成任务(如全身手语生成、角色动画等)

评分

维度 分数 (1-10) 说明
创新性 8 首个全身舞蹈数据集 + HRVQ链式量化设计新颖
技术深度 8 三模块协同设计完整,HRVQ 理论推导清晰
实验充分性 9 三数据集、多消融、用户研究、两个新指标,非常全面
写作质量 8 论文结构清楚,图表信息量大
实用价值 7 数据集和框架对全身动画领域有直接应用价值
总分 8.0 数据集贡献 + 方法设计 + 实验充分,ICCV 级别扎实工作

评分

  • 新颖性: 待评
  • 实验充分度: 待评
  • 写作质量: 待评
  • 价值: 待评