Coherent Human-Scene Reconstruction from Multi-Person Multi-View Video in a Single Pass¶
会议: CVPR 2026
arXiv: 2603.12789
代码: 项目页面
领域: 3D视觉 / 人体-场景联合重建
关键词: 多视图人体重建, 多人场景, SMPL-X, 3D基础模型, 尺度对齐
一句话总结¶
提出CHROMM统一框架,整合Pi3X几何先验和Multi-HMR人体先验到单一前馈网络,从多人多视图视频中一次性联合重建相机、场景点云和SMPL-X人体网格,无需外部模块、预处理或迭代优化,RICH上多视图WA-MPJPE达53.1mm且比HAMSt3R快8倍以上。
研究背景与动机¶
领域现状:3D人体-场景联合重建是计算机视觉核心问题,应用于机器人、自动驾驶和AR/VR。近年3D基础模型(DUSt3R、VGGT、Pi3X)推动了场景重建,Multi-HMR实现了多人人体网格恢复。
现有痛点:
- UniSH、Human3R等单目方法无法利用多视图信息,精度受限
- HSfM、HAMSt3R等多视图方法依赖额外模块(2D关键点检测器、跨视图ReID模块)或需迭代优化,系统复杂度高
- 基于外观的Re-ID方法在视觉相似场景(穿制服等)失败
- Pi3X输出的近度量尺度与SMPL真实度量尺度存在差异——人体穿透地面或漂浮
核心矛盾:需同时重建场景和多人人体,但两者尺度不一致、多人跨视图关联困难、且不想依赖外部预处理。
本文目标 构建不依赖外部模块和预处理数据的统一前馈框架,一次性完成多人多视图人体-场景联合重建。
切入角度:融合Pi3X(场景)和Multi-HMR(人体)两大先验,设计尺度调整模块桥接二者,用几何线索替代外观匹配做跨视图关联。
核心 idea:双编码器后期融合 + head-pelvis比率尺度调整 + 视图不变/依赖分解融合 + 几何驱动多人关联。
方法详解¶
整体框架¶
输入多视图多人视频{I_t^v} → 双编码器(Pi3X提取场景特征,Multi-HMR提取人体特征)→ Pi3X解码器重建点图和相机 → 头部检测提取人体token与场景token融合 → SMPL解码器回归姿态/体型/平移 → 测试时:per-view跟踪 → 几何驱动跨视图多人关联 → 视图不变/依赖分解融合 → 尺度调整模块对齐场景和人体。
关键设计¶
-
双编码器后期融合架构
- Pi3X编码器捕获全局3D几何,Multi-HMR编码器针对人体表示优化
- 关键决策:避免早期融合——将人体token送入Pi3X解码器会破坏输入分布,损害场景重建
- 人体token仅在解码后与场景token通过MLP融合:\(H_n = \text{MLP}_{\text{fuse}}([Z_n^{\text{scene}} | Z_n^{\text{human}}])\)
-
深度残差平移估计
- 不直接回归3D头部平移,而是利用Pi3X点图提供的深度先验
- 预测相对场景深度图的残差 \(d_n^m = d_{n,m}^{\text{coarse}} + \Delta d_n^m\),结合2D头部关键点和相机内参反投影为3D位置
- 消融:深度残差(107.5) vs 直接深度(133.8) vs 直接平移回归(196.4),差距显著
-
Head-Pelvis比率尺度调整
- 问题:Pi3X输出近度量尺度s可能偏小(人穿地)或偏大(人浮空)
- 解法:计算图像2D头-骨盆距离ℓ^img与投影SMPL头-骨盆距离ℓ^smpl的比值,跨所有帧和人平均得全局调整因子 \(r = \frac{1}{|\mathcal{S}|}\sum \frac{\ell^{\text{smpl}}}{\ell^{\text{img}}}\),s*=r·s
- 骨盆定位粗到精:头部token估粗位置 → 对应patch回归偏移 → 骨盆出界则用粗位置
- 消融:尺度调整使WA-MPJPE从169.7降至102.6(-39.5%)
-
多视图融合(测试时,无需优化)
- 视图不变量(体型β、姿态θ):直接参数平均,优于隐式token max-pooling
- 视图依赖量(旋转R、平移τ):转到世界坐标系后分别用四元数平均和多视图射线三角化
- 消融:Avg+Tri(53.1) > MaxPool+Tri(63.2) > Only Avg(69.3)
-
基于几何的多人关联
- per-view跟踪:头部token L2距离帧间匹配,Sinkhorn最优传输处理未匹配检测
- 跨视图关联代价:\(\mathcal{C}(a,b) = 0.8 \cdot \|3D位置差\| + 0.2 \cdot \|规范姿态差\|\),匈牙利算法一对一匹配
- 消融:Position alone 91.1% precision vs Pose alone 70.6%,Combined 91.3%
损失函数 / 训练策略¶
- 两阶段训练:Stage 1冻结Pi3X+Multi-HMR编码器,训练SMPL解码器等新模块(20 epoch, BEDLAM, lr=5e-5, 前10 epoch不启用尺度调整)
- Stage 2仅解冻骨盆检测MLP(10 epoch, 混合3DPW+MPII+COCO+BEDLAM, lr=1e-4)
- Stage 1损失:3D顶点/关节L1(λ=5.0) + 2D重投影L1 + SMPL参数L1 + 检测BCE + 骨盆BCE
- Stage 2新增:Chamfer距离(可见SMPL顶点 vs 预测深度图)
- 训练设备:4×A100约2天
实验关键数据¶
主实验(全局人体运动估计)¶
| 方法 | 多视图 | 无外部模块 | EMDB-2 WA-MPJPE↓mm | RICH WA-MPJPE↓mm | RICH W-MPJPE↓mm |
|---|---|---|---|---|---|
| JOSH3R | ✗ | ✗ | 220.0 | - | - |
| UniSH | ✗ | ✗ | 118.5 | 118.1 | 183.2 |
| Human3R | ✗ | ✓ | 112.2 | 110.0 | 184.9 |
| CHROMM-mono | ✗ | ✓ | 102.6 | 87.5 | 138.3 |
| CHROMM-multi | ✓ | ✓ | - | 53.1 | 79.0 |
多视图姿态估计¶
| 方法 | 无ReID | 无优化 | EgoHumans W-MPJPE↓(m) | EgoHumans GA-MPJPE↓(m) | EgoExo4D W-MPJPE↓(m) |
|---|---|---|---|---|---|
| HSfM | ✗ | ✗ | 1.04 | 0.21 | 0.56 |
| HAMSt3R | ✓ | △ | 3.80 | 0.42 | 0.51 |
| CHROMM | ✓ | ✓ | 0.51 | 0.15 | 0.26 |
运行时间¶
| 方法 | 单帧推理时间(3人4视图) |
|---|---|
| HSfM | ~118s |
| HAMSt3R | ~32s |
| CHROMM | ~4s (8×+加速) |
关键发现¶
- 多视图融合大幅提升:RICH WA-MPJPE从87.5(单目)降至53.1(多视图),提升39.3%
- 尺度调整是最关键模块:去除后WA-MPJPE从102.6升至169.7(+65.5%)
- 深度残差策略比直接平移回归好89mm(107.5 vs 196.4)
- 几何关联(91.3% accuracy)远优于仅用姿态(70.6%)
- CHROMM比HSfM快29倍、比HAMSt3R快8倍,同时无需ReID
亮点与洞察¶
- 首个端到端多人多视图人体-场景联合重建框架:不依赖任何外部模块、预处理或优化
- Head-Pelvis比率尺度调整:用人体解剖学比例桥接场景与人体的尺度差异,设计简洁有效
- 视图不变/依赖分解融合:显式参数平均+三角化优于隐式token聚合
- 几何驱动跨视图关联:避免外观匹配在制服场景的失败,3D位置+规范姿态组合设计精巧
局限与展望¶
- 严重依赖头部token进行人体检测——头部遮挡或不可见时性能下降
- 双编码器未整合为统一编码器——场景和人体的交互建模仍有提升空间
- 极端近景(头部占满图像)或近距离人际交互是典型失败案例
- 尺度调整依赖骨盆可见性——全身遮挡时退化
相关工作与启发¶
- vs Human3R:CHROMM扩展到多视图且无需外部模块,EMDB-2好9.6mm,RICH好57mm
- vs HSfM:CHROMM快29倍,EgoHumans W-MPJPE 0.51m vs 1.04m(好50%)
- vs HAMSt3R:CHROMM快8倍,支持多人关联无需外部ReID
- 启发:3D基础模型与人体先验融合是趋势,尺度对齐是核心工程问题;视图不变/依赖分解可推广到其他多视图估计任务
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个无外部依赖的多人多视图统一框架,尺度调整和几何关联有新意
- 实验充分度: ⭐⭐⭐⭐⭐ 4个数据集、单目/多视图、详尽消融、运行时分析齐全
- 写作质量: ⭐⭐⭐⭐ 贡献清晰,每个设计决策都有实验验证
- 价值: ⭐⭐⭐⭐ 快速推理+无需预处理对实际部署有意义