RAM: Recover Any 3D Human Motion in-the-Wild¶
会议: CVPR 2026
arXiv: 2603.19929
代码: 无
领域: 人体理解 / 3D 人体运动恢复
关键词: 多人3D运动恢复, 零样本跟踪, SAM2, 时序人体网格恢复, 运动预测
一句话总结¶
RAM 提出统一的多人 3D 运动恢复框架,集成运动感知语义跟踪器 SegFollow(基于 SAM2 + 自适应卡尔曼滤波)、记忆增强的时序人体网格恢复模块 T-HMR、轻量运动预测器和门控组合器,在 PoseTrack 和 3DPW 等基准上实现零样本跟踪稳定性和 3D 精度的 SOTA,且推理速度比之前方法快 2-3 倍。
研究背景与动机¶
- 领域现状:单目视频多人 3D 运动恢复是活跃的研究方向,代表方法有 4DHuman(HMR2.0 + PHALP 跟踪)和 CoMotion(端到端联合优化)。
- 现有痛点:(1) 现有跟踪方法依赖 2D 外观特征和匈牙利匹配,对快速运动、严重遮挡和视角变化敏感,频繁出现 ID 切换;(2) 一旦身份连续性断裂,3D 运动序列变得不一致;(3) 目标被遮挡或快速运动时,缺乏基于记忆的运动先验导致重建不连续。
- 核心矛盾:不稳定的跟踪触发冗余检测和重复初始化,既降低重建精度又阻碍实时性能。
- 本文目标:构建实时、鲁棒的多人 3D 运动恢复系统。
- 切入角度:将 SAM2 的强分割能力与运动先验结合,用卡尔曼滤波提供运动感知的身份关联。
- 核心 idea:SegFollow 提供稳定跟踪 → T-HMR 利用时序记忆提升重建一致性 → Predictor 预测遮挡期间的姿态 → Combiner 融合重建和预测。
方法详解¶
整体框架¶
RAM 要解决的核心痛点是:现有多人 3D 运动恢复把"谁是谁"(跟踪)和"长什么姿势"(重建)当成两件互相拖累的事——跟踪一旦丢了 ID,重建出来的 3D 序列就跟着断;而重建又反过来触发重新检测、重新初始化,拖慢速度。RAM 的思路是让四个组件接力把这条链路打通:SegFollow 先在每帧给出稳定的身份关联,T-HMR 拿着稳定的轨迹去重建带时序一致性的 3D 网格,遇到遮挡时 Predictor 用历史运动外推姿态填补空白,最后 Combiner 根据当帧观测是否可靠,在"信重建"和"信预测"之间门控融合,输出最终的 SMPL 参数。整条链路无需重训练即可零样本运行。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["单目视频"] --> B["SegFollow<br/>SAM2 掩码 + 卡尔曼运动先验门控融合"]
B --> C["稳定身份关联与轨迹"]
C --> D["T-HMR<br/>双分支评分选 top-k 历史帧 + MemFormer"]
C -->|"当帧遮挡 / 观测不可靠"| E["Predictor<br/>按历史 SMPL 运动模式外推姿态"]
D --> F["Combiner<br/>按观测可靠性门控融合"]
E --> F
F --> G["SMPL 参数序列"]
关键设计¶
1. SegFollow:把卡尔曼运动先验缝进 SAM2 的记忆里,让跟踪在遮挡和快速运动下不丢 ID
SAM2 本身分割能力很强,但它的记忆是先进先出(FIFO)的,并不对"这一帧的关联到底可不可信"建模——遮挡或快速运动一来,噪声就顺着 FIFO 不断累积,ID 切换随之发生。SegFollow 在 SAM2 上补两块东西来堵住这个漏洞。第一块是运动引导选择器:用卡尔曼滤波预测每个目标下一帧的边界框,算出 IoU 形式的运动一致性分数 \(s_{\text{kf}}\),再和 SAM2 给出的掩码亲和度 \(s_{\text{mask}}\) 做门控融合,
这样"长得像"和"动得像"两路证据一起决定关联,单靠外观容易被相似行人骗到的情况就被运动先验拉回来。第二块是时序缓冲区:把 SAM2 原本的 FIFO 记忆更新换成指数滑动平均,且衰减因子由卡尔曼一致性分数自适应调节——关联越可靠,新观测写入记忆的权重越大;关联可疑时则压低写入,避免污染。在这之上还加了置信度门控更新:只有当一个目标连续可靠关联累计到阈值 \(\tau_{kf}\),才真正去更新它的卡尔曼状态,防止一次误关联就把运动模型带偏。
2. T-HMR:用双分支评分挑出真正有用的历史帧,再把时序先验注入单帧重建
单帧重建天然缺时序一致性,遮挡时尤其需要历史帧补先验,但"历史帧"不能不加挑选地全塞进来——无关帧反而是噪声。T-HMR 因此设计了记忆缓存(Memory Cache)和 MemFormer 两段。Memory Cache 从相邻 \(L\) 帧的 ViT 特征里用双分支注意力评分选出 top-k 最相关的帧:一个分支算当前帧和每个候选记忆帧的相关性(这帧像不像现在),另一个分支评估候选记忆帧彼此之间的内部一致性(这帧靠不靠谱、是不是孤立的异常帧)。两个分支缺一不可——只看相关性会把一个本身就重建错的相似帧选进来,只看一致性又可能选到跟当前无关的稳定帧。挑出的时序先验交给 MemFormer,由它在重建过程中把这些历史信息融进当前帧的特征,输出更连贯的网格。
3. Predictor + Combiner:遮挡时用预测顶上,遮挡结束再自适应切回重建
当目标被遮挡、当帧观测不可靠时,硬靠重建只会得到抖动甚至错乱的结果。Predictor 负责在这种空窗期接管:它基于该目标历史 SMPL 参数里的运动模式做一次轻量外推,预测出当前应有的姿态,保证运动序列在视觉证据缺失时仍然连续。但预测不能一直信下去——遮挡一结束,重建重新可靠,就该切回重建。这个切换交给 Combiner:它是一个可学习的门控,根据当帧观测的可靠性自适应地决定信重建还是信预测,从而在"遮挡期靠预测续上、复现期靠重建纠偏"之间平滑过渡,而不是生硬地二选一。
一个完整示例¶
设想一段街景里 B 从 A 身后穿过、把 A 短暂挡住几帧:
- 遮挡前:SegFollow 对 A、B 都给出高 \(s_{\text{fused}}\)(外观清晰、运动连续),卡尔曼状态正常更新,T-HMR 用最近若干帧的特征重建出干净的 3D 网格。
- A 被遮挡瞬间:A 的掩码亲和度 \(s_{\text{mask}}\) 骤降,但卡尔曼预测的边界框仍在合理位置、\(s_{\text{kf}}\) 撑住融合分数,SegFollow 不把 A 误判成新目标也不丢 ID;同时因为连续可靠关联中断,置信度门控暂停更新 A 的卡尔曼状态,避免被遮挡帧的噪声带偏。
- 遮挡期间:T-HMR 对 A 拿不到可靠当帧特征,Combiner 检测到观测不可靠、把门控偏向 Predictor,由它依 A 之前的运动模式外推姿态,A 的 3D 序列保持连续不断裂。
- A 重新出现:\(s_{\text{mask}}\) 回升、关联重新可靠,置信度门控恢复更新卡尔曼状态,Combiner 把门控切回重建,T-HMR 接管输出。整段过程中 A 的 ID 没变、3D 轨迹平滑——这正是 RAM 既稳又快(省掉重复检测/初始化)的来源。
损失函数 / 训练策略¶
T-HMR 使用 SMPL 参数回归损失(关节位置 + 姿态参数 + 形状参数)。Predictor 和 Combiner 端到端训练。
⚠️ 训练目标与超参细节以原文为准。
实验关键数据¶
主实验¶
| 数据集 | 指标 | 4DHuman | CoMotion | RAM | 提升 |
|---|---|---|---|---|---|
| PoseTrack | MOTA↑ | 68.2 | 71.5 | 76.3 | +4.8 |
| PoseTrack | IDF1↑ | 72.1 | 74.8 | 80.5 | +5.7 |
| 3DPW | MPJPE↓ | 78.5 | 72.3 | 65.8 | -6.5 |
| 3DPW | PA-MPJPE↓ | 49.2 | 45.1 | 41.3 | -3.8 |
RAM 在跟踪稳定性(MOTA/IDF1)和 3D 精度(MPJPE)上均大幅领先。
消融实验¶
| 配置 | MOTA (PoseTrack) | MPJPE (3DPW) | FPS | 说明 |
|---|---|---|---|---|
| Full RAM | 76.3 | 65.8 | 25+ | 完整模型 |
| w/o SegFollow (用 PHALP) | 71.1 | 70.2 | 15 | SegFollow 是核心 |
| w/o T-HMR 记忆 | 74.8 | 69.5 | 25+ | 时序记忆提升一致性 |
| w/o Predictor | 75.0 | 67.3 | 25+ | 预测器改善遮挡处理 |
关键发现¶
- SegFollow 贡献最大(MOTA +5.2),说明稳定跟踪是多人运动恢复的瓶颈
- RAM 推理速度比 4DHuman 快 2-3 倍,因为稳定跟踪减少了冗余检测和重复初始化
- 在长视频真实场景中 ID 切换极少,首次实现稳定的零样本多人运动恢复
- T-HMR 的双分支评分比单分支更有效,相关性和一致性缺一不可
亮点与洞察¶
- SAM2 + 卡尔曼滤波的结合:将视觉基础模型的分割能力与经典运动建模结合,取长补短
- 置信度门控更新:避免不可靠检测污染运动状态,是一个实用的工程设计
- 零样本长视频能力:首个在长真实视频中无需重训练即保持稳定多人 3D 重建的方法
局限与展望¶
- 仍依赖检测器提供初始边界框
- 极端遮挡(完全不可见超过数十帧)时预测器可能漂移
- SMPL 模型限制了手部和面部细节的恢复
- 未来可扩展到手部/面部精细重建(SMPL-X)
相关工作与启发¶
- vs 4DHuman: 4DHuman 用 PHALP 跟踪,RAM 用 SegFollow 显著改善跟踪稳定性和速度
- vs CoMotion: CoMotion 端到端联合优化但速度慢,RAM 模块化设计更快更灵活
- vs SAM2: SAM2 的 FIFO 记忆在 MOT 场景下不够鲁棒,SegFollow 引入运动先验修补了此缺陷
评分¶
- 新颖性: ⭐⭐⭐⭐ 整体框架是已有组件的巧妙集成
- 实验充分度: ⭐⭐⭐⭐ 多基准评测,消融充分
- 写作质量: ⭐⭐⭐⭐ 结构清晰,方法描述详细
- 价值: ⭐⭐⭐⭐⭐ 解决了多人 3D 运动恢复的实际瓶颈问题