SemGeoMo: Dynamic Contextual Human Motion Generation with Semantic and Geometric Guidance¶
会议: CVPR 2025
arXiv: 2503.01291
代码: 项目主页
领域: Human Understanding
关键词: 动态上下文运动生成, 语义几何引导, Affordance Map, LLM标注器, 人物交互
一句话总结¶
提出SemGeoMo,通过LLM自动标注器提供语义引导并结合affordance-level和joint-level的层级几何引导,在两阶段框架中实现动态上下文环境下的高质量人体交互运动生成,同时输出对应文本描述。
研究背景与动机¶
动态上下文运动生成旨在生成适应真实动态环境的人类交互运动,对机器人交互、VR/AR等应用至关重要。现有方法存在两类局限:
- 文本驱动的联合生成方法 — 同时生成人和物体的运动导致搜索空间过大,生成质量次优,且缺乏细粒度控制
- 上下文运动生成方法 — 大多仅处理静态环境(固定家具),少数处理动态目标的方法(如OMOMO)缺乏文本语义引导,且未充分利用细粒度几何表示
核心挑战在于如何构建有效的语义引导(理解"应该如何交互")和几何引导(确保接触准确、避免穿透),并将二者融合。
方法详解¶
整体框架¶
两阶段条件扩散框架:(1) SemGeo层级引导生成——在文本和点云条件下,用双分支Transformer联合生成affordance-level和joint-level交互线索;(2) SemGeo引导的运动生成——利用第一阶段的几何线索和语义信息引导详细人体运动生成(基于Motion ControlNet + MDM)。
关键设计1:LLM自动交互文本标注器¶
- 功能: 从4D点云自动生成粗到细的交互文本描述,消除人工标注需求
- 核心思路: 两步流程——(a) 从点云提取包围盒和运动轨迹,结合预定义动作/类别列表,用LoRA微调的LLaMA生成粗粒度描述;(b) 结合预测的手部关节位置计算接触信息,让LLM将交互分为三个阶段生成细粒度描述(如"左手接触箱子左下方")
- 设计动机: LLM具有交互过程的常识知识,可以推理出合理的交互方式。粗到细的标注策略逐步增加描述细粒度,使语义引导在不同层级都发挥作用
关键设计2:双分支Transformer层级几何引导生成¶
- 功能: 联合生成affordance map和关节位置,捕获粗到细的交互几何线索
- 核心思路: 用条件扩散模型在CLIP文本特征\(F_{text}\)和BPS点云特征\(F_{pc}\)引导下,通过JointTransformer和AffordanceTransformer两个分支并行生成。AffordanceTransformer用cross-attention建模affordance与点云几何的紧密关系,最后通过互交叉注意力将affordance信息反馈到关节位置分支进行refinement
- 设计动机: 将接触几何生成与运动生成解耦,降低了单一模型的学习难度。affordance提供粗粒度"哪里接触"信息,关节位置提供精确空间定位,二者互补
关键设计3:SemGeo条件模块与Motion ControlNet¶
- 功能: 有效融合多层级语义和几何条件引导全身运动生成
- 核心思路: 用LongCLIP(支持长文本)提取细粒度文本特征\(F'_{text}\),将点云特征与affordance map拼接经MLP+Temporal Transformer提取时空特征\(F\),再用互交叉注意力融合关节和affordance特征。条件输入Motion ControlNet(冻结MDM权重),采样时用classifier guidance的关节损失\(L_{joint}\)和脚部稳定性损失\(L_{foot}\)进行refinement
- 设计动机: ControlNet架构允许利用预训练MDM的运动先验,而多层级条件确保语义合理性和几何准确性的dual保证
损失函数¶
- 阶段一: \(\mathcal{L} = \mathbb{E}_{x^0,t}\|\hat{x}_\theta(x^t,t,c) - x^0\|_1\)(\(L_1\)重建损失)
- 阶段二采样引导: \(L_{joint} = \frac{1}{J}\sum|J_{pred} - J'_h|_2 \cdot \text{Mask}\)(接触关节约束);\(L_{foot}\)惩罚脚部离地、滑动和加速度
实验关键数据¶
主实验:FullBodyManipulation数据集¶
| 方法 | HandJPE↓ | MPJPE↓ | \(C_{prec}\)↑ | \(C_{rec}\)↑ | FID↓ | R-score↑ |
|---|---|---|---|---|---|---|
| SceneDiff | 95.38 | 19.84 | 0.64 | 0.19 | 1.64 | 0.59 |
| OMOMO | 33.18 | 18.06 | 0.77 | 0.71 | 1.98 | 0.38 |
| CHOIS | 31.68 | 17.12 | 0.76 | 0.58 | 2.27 | 0.49 |
| SemGeoMo (GT text) | 27.84 | 16.62 | 0.84 | 0.74 | 1.17 | 0.66 |
消融实验亮点¶
- 语义引导(文本描述)对接触准确性和运动质量都有显著贡献
- 细粒度LLM标注比粗粒度标注进一步提升性能
- 双分支联合生成优于分别生成affordance和关节位置
关键发现¶
- SemGeoMo在三个人物交互数据集上均达到SOTA
- 方法展示了对未见物体、人-人交互、可变形物体的泛化能力
- 同时生成运动和文本描述增强了交互的可解释性
- LLM标注器接近甚至匹配人工标注的效果
亮点与洞察¶
- 语义+几何双引导的完整性: 文本提供"应该做什么"的常识,affordance和关节位置提供"应该在哪做"的精确约束
- LLM作为交互常识的来源: 利用LLM推理能力自动生成标注,既减轻人工成本又提供丰富语义
- 粗到细的层级设计: 从affordance到关节到全身运动的逐步细化,降低了生成难度
局限与展望¶
- 依赖多个预训练模型(LLaMA、CLIP、LongCLIP、MDM),系统复杂度高
- 当前主要在tabletop manipulation场景验证,大规模全身交互场景需更多数据
- LLM标注器的质量受限于微调数据的覆盖范围
相关工作与启发¶
- LLM作为自动标注器的思路可推广到其他缺乏文本标注的运动数据集
- 双分支Transformer联合生成多种中间表示的架构可用于其他多层级任务
评分¶
⭐⭐⭐⭐ — 框架设计清晰,多层级引导思路有条理。LLM标注器是实用创新。在三个数据集上一致SOTA证明了方法的有效性。