跳转至

VimoRAG: Video-based Retrieval-augmented 3D Motion Generation for Motion Language Models

会议: NeurIPS 2025
arXiv: 2508.12081
代码: GitHub
领域: 人体理解 / 人机交互
关键词: 动作生成, 检索增强生成, 视频先验, 运动语言模型, DPO

一句话总结

提出 VimoRAG 框架,利用大规模野外视频数据库作为2D运动先验来增强3D运动生成,通过 Gemini-MVR 检索器和 McDPO 训练策略解决人体动作视频检索和错误传播两大瓶颈。

研究背景与动机

从文本生成多样且真实的3D人体动作在游戏、机器人和VR中有广泛应用。运动语言模型(Motion LLM)将运动理解与生成统一在LLM框架下,但面临严重的分布外(OOD)/词汇外(OOV)问题——现有文本-运动配对数据集仅约14K样本,标注成本极高。

先前的ReMoDiffuse提出了从3D运动数据库检索增强的思路,但3D运动数据库本身规模也只有14K。相比之下,野外视频数据量几乎无限、动作多样性丰富,且视频中2D人体运动与3D运动本质共享相似特征。

然而基于视频的运动RAG面临两大挑战:

检索困难:现有视频基础模型(VFM)虽擅长识别物体和属性,但在区分人体姿态和动作方面表现不佳

错误传播:检索质量差时,不准确的视频先验会严重影响生成质量

方法详解

整体框架

VimoRAG 是一个两步流水线:(1) 给定运动描述文本,通过 Gemini-MVR 从无标注视频数据库检索语义相关的视频(取rank-1);(2) 将文本和检索到的视频一起输入LLM生成运动token,再由VQ-VAE解码为运动序列。

视频数据库 HcVD:汇集了425,988个人体中心视频,来源于IDEA400、Kinetics、UCF101、NTU等数据集。用Qwen2-VL合成文本描述(仅用于训练检索器),AlphaPose过滤无人体检测的视频。

关键设计

  1. Gemini Motion Video Retriever (Gemini-MVR)

设计双通道检索架构: - 动作级检索器:提取视频的2D人体关键点,通过预训练的AlphaPose检测器和MotionBERT编码器获取帧级特征,加上位置嵌入后送入Transformer时序编码器(含残差)得到动作嵌入 \(\mathbf{a}\)。文本侧用InternVideo文本编码器初始化的谓词语义提取器 \(\theta_\mathcal{P}\) 得到嵌入 \(\mathbf{p}\)。用对比学习损失训练:\(\mathcal{L}_{action} = \mathcal{L}_{p2a} + \mathcal{L}_{a2p}\) - 物体级检索器:直接采用InternVideo作为VFM,利用其在大规模预训练中获得的丰富通用知识。 - 动作感知路由器 \(\mathcal{I}\):轻量级线性模型,根据动作嵌入自适应分配两个检索器权重:

$s(t,v) = \frac{\mathcal{I}_0(\mathbf{a}) \cdot s(\mathbf{p},\mathbf{a})}{\mathcal{I}_0(\mathbf{a})+\mathcal{I}_1(\mathbf{a})} + \frac{\mathcal{I}_1(\mathbf{a}) \cdot s(\mathbf{g},\mathbf{o})}{\mathcal{I}_0(\mathbf{a})+\mathcal{I}_1(\mathbf{a})}$

训练分两阶段:Stage 1 分别微调两个检索器;Stage 2 冻结检索器、仅训练路由器。

  1. Motion-centric Dual-alignment DPO Trainer (McDPO)

分两阶段训练LLM: - Stage 1 — 视觉示范增强指令微调:将文本 \(x\)、检索视频 \(v\)、系统提示拼接后输入LLM,用VQ-VAE编码的运动token \(y\) 作为目标,标准自回归损失 \(\mathcal{L}_{sft} = -\sum_n \log p_\theta(y_n | y_{<n}, E^f)\) - Stage 2 — 双对齐DPO训练:对Stage 1得到的基线模型 \(\pi_{ref}\),随机采样 \(\kappa\) 次生成候选运动集。设计双对齐奖励模型

$r(x,v,\hat{y_i}) = -\left(w_\ell \frac{\ell(\hat{y_i}, y)}{\sum_{j\in\kappa}\ell(\hat{y}_j, y)} + w_d \frac{d(\hat{y}_i, x)}{\sum_{j\in\kappa}d(\hat{y}_j, x)}\right)$

其中 \(\ell(\cdot)\) 衡量运动特征空间中的分布距离(运动内对齐),\(d(\cdot)\) 衡量文本-运动语义空间的欧氏距离(跨模态对齐)。据此选出偏好/拒绝样本构建DPO数据集,用标准DPO损失训练。

设计动机:让LLM学会何时利用、何时忽略检索视频中的先验信息——当检索质量差时自动降低依赖。

损失函数 / 训练策略

  • 检索器:对比学习损失(InfoNCE)
  • 生成器Stage 1:自回归SFT损失
  • 生成器Stage 2:DPO目标函数
  • 骨干LLM:Phi3-3.8B,全程LoRA微调(rank=128, α=256)

实验关键数据

主实验

模型 骨干 FID↓ R-Top1↑ R-Top3↑ MM-Dist↓
MotionGPT (Phi3) Phi3-3.8B 0.501 0.396 0.673 3.724
VimoRAG Phi3-3.8B 0.131 0.452 0.764 3.146
提升幅度 - -73% +14% +13% -15%
MoMask - 0.048 0.519 0.809 2.955
BiPO - 0.030 0.523 0.809 2.880

零样本跨域测试 (IDEA400):

模型 FID↓ R-Top3↑ MM-Dist↓
MotionGPT (LLM) 5.544 0.236 6.300
MLD 5.410 0.270 6.005
VimoRAG 2.388 0.270 5.888

消融实验

配置 FID↓ 说明
Gemini-MVR + McDPO (完整) 0.148 最优
Random检索 + McDPO 0.544 (↓72.8%) 随机检索大幅降低质量
InternVideo + McDPO 0.205 (↓27.8%) Gemini-MVR优于通用VFM
Gemini-MVR (无McDPO) 0.260 (↓43.1%) McDPO有效缓解错误传播

检索器对比 (R@1):

检索器 人体视频集 单人视频集
InternVideo 53.6 52.3
Gemini-MVR 58.3 (+8.8%) 61.0 (+16.6%)

关键发现

  • VimoRAG在OOD场景(IDEA400)取得最佳FID 2.388,远超所有运动专家模型和LLM
  • McDPO使模型具备了区分有信息量/无信息量视频先验的能力——即使输入随机视频,性能也不会严重下降
  • 检索库规模越大,FID和MM-Dist持续下降,展现良好的可扩展性
  • 在同一骨干(Phi3-3.8B)下,VimoRAG使FID降低73%,显著超过朴素MotionGPT

亮点与洞察

  • 首次提出基于视频的运动RAG范式,突破了3D运动数据规模的瓶颈
  • 双通道检索器设计巧妙:动作级关注人体姿态、物体级利用VFM通用知识,两者权重自适应分配
  • McDPO是实用的鲁棒性增强策略,让生成模型面对噪声检索结果时能自我纠正
  • 检索库可无限扩展,性能随之持续提升——这在实际应用中意义重大

局限与展望

  • 基于LLM的框架推理延迟较高(较运动专家模型慢)
  • 2D视频先验到3D运动的模态跨越仍存在信息损失
  • 当前仅用rank-1视频,可探索top-k多视频融合
  • 未来可将视频、3D数据、图像统一到一个多模态RAG框架中

相关工作与启发

  • 对比 ReMoDiffuse(文本到文本检索、受限于3D数据库规模)→ VimoRAG 实现了从3D Motion RAG到Video-based RAG的范式跃迁
  • DPO在运动生成中的应用为其他生成任务提供了对齐思路
  • 视频-运动跨模态对齐思路可推广到其他视觉先验增强场景
  • 关键点感知路由机制可启发多模态检索系统的设计

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首创视频检索增强运动生成范式,Gemini-MVR和McDPO均有原创设计
  • 实验充分度: ⭐⭐⭐⭐ 域内域外实验完整,消融细致,但缺少与更多LLM骨干的对比
  • 写作质量: ⭐⭐⭐⭐ 问题定义清晰,框架图易懂
  • 价值: ⭐⭐⭐⭐⭐ 打开了利用海量视频数据增强运动生成的新方向,可扩展性强