VIM: Versatile Interactive Motion-Language Model¶

会议: ICCV 2025
arXiv: 2410.05628
代码: https://vim-motion-language.github.io/
领域: LLM/NLP
关键词: 交互运动生成, 运动-语言模型, 多轮对话, RQ-VAE, 双人交互

一句话总结¶

提出 VIM，首个能在统一框架内同时理解和生成双人交互运动与文本的多模态大模型，配合82.7K多轮交互运动指令数据集 Inter-MT²，支持文本到运动、运动到文本、反应生成、运动编辑和运动推理等多种任务。

研究背景与动机¶

领域现状：运动-语言模型主要关注单人运动的单向任务（如文本到运动），缺乏对双人交互运动的建模能力。

现有痛点：(1) 缺少多轮交互运动的训练数据；(2) 现有模型无法同时输入输出运动和文本两种模态；(3) 双人交互需要建模空间协调关系。

核心 idea：构建 Inter-MT² 数据集（82K多轮对话+153K交互运动样本），基于 LLaMA-3.1-8B 建立统一的运动-文本双向生成模型。

方法详解¶

关键设计¶

交互运动分词器: 使用 RQ-VAE 将双人运动序列 \(\{m_a, m_b\}\) 编码为离散token，交替排列两人token以保留交互时序关系
三阶段训练:
- 第一阶段：训练 RQ-VAE 运动分词器
- 第二阶段：在运动-文本配对数据上预训练，使用 LoRA 对齐模态
- 第三阶段：在 Inter-MT² 上指令微调，处理多轮复杂指令
Inter-MT² 数据集: 利用 GPT-4o 生成多轮指令（编辑、推理、故事生成），用 InterGEN 合成对应运动

实验关键数据¶

任务	VIM	专用基线	说明
文本→运动 FID	竞争力	各任务专用	单一模型vs专用模型
运动→文本 METEOR	竞争力	各任务专用	首次统一处理
反应生成	竞争力	ReMoS等	一个模型做所有

关键发现¶

VIM 是首个能用单一架构处理所有交互运动任务的模型
Inter-MT² 的多轮数据显著提升了推理和编辑能力
合成运动的质量（检索精度0.701）接近真实数据

Inter-MT²数据集构成¶

任务类型	样本数	来源
文本→运动	45K	InterHuman
运动→文本	38K	InterHuman
多轮编辑	28K	GPT-4o生成
运动推理	22K	GPT-4o生成
故事生成	20K	GPT-4o生成
合计	153K	-

各任务性能对比¶

任务	VIM	专用基线	差距
T2M FID↓	2.8	2.5(InterGen)	接近
M2T BLEU↑	14.2	13.8	超越
反应生成FID↓	3.1	3.0(ReMoS)	接近

亮点与洞察¶

统一架构的价值在于模态间的知识共享，理解运动的能力可以反哺运动生成，反之亦然
交替排列双人token的简单设计有效保留了交互的时序对应关系

局限与展望¶

运动分词器的量化损失限制了运动质量的上限，RQ-VAE重建精度直接影响最终输出。
依赖 InterGEN 生成合成运动，受限于其生成质量和多样性。
Inter-MT²数据集由GPT-4o生成指令，可能存在指令多样性不足的问题。
RQ-VAE的交替排列双人 token 方式在多人（>2）交互场景中可能不处理。
模型在复杂接触场景（如摆手、打斗）中的表现未充分评估。
未探索与物理仿真的结合——生成的交互运动可能物理上不合理。
仅在SMPL参数空间中建模，未包含手部和面部细节。
在实时交互场景（如游戏、VR）中的推理速度未评估。

评分¶

新颖性: ⭐⭐⭐⭐ 首个统一双人交互运动-语言模型
实验充分度: ⭐⭐⭐⭐ 多任务评估+新数据集
写作质量: ⭐⭐⭐⭐ 框架清晰
价值: ⭐⭐⭐⭐ 为交互运动建模开辟新方向

VIM: Versatile Interactive Motion-Language Model¶

一句话总结¶

研究背景与动机¶

方法详解¶

关键设计¶

实验关键数据¶

关键发现¶

Inter-MT²数据集构成¶

各任务性能对比¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

补充讨论¶

评分¶

VIM: Versatile Interactive Motion-Language Model¶

一句话总结¶

研究背景与动机¶

方法详解¶

关键设计¶

实验关键数据¶

关键发现¶

Inter-MT²数据集构成¶

各任务性能对比¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

补充讨论¶

评分¶

相关论文¶