Coherent Human-Scene Reconstruction from Multi-Person Multi-View Video in a Single Pass¶

会议: CVPR 2026
arXiv: 2603.12789
代码: 项目页面
领域: 3D视觉 / 人体-场景联合重建
关键词: 多视图人体重建, 多人场景, SMPL-X, 3D基础模型, 尺度对齐

一句话总结¶

提出CHROMM统一框架，整合Pi3X几何先验和Multi-HMR人体先验到单一前馈网络，从多人多视图视频中一次性联合重建相机、场景点云和SMPL-X人体网格，无需外部模块、预处理或迭代优化，RICH上多视图WA-MPJPE达53.1mm且比HAMSt3R快8倍以上。

研究背景与动机¶

领域现状：3D人体-场景联合重建是计算机视觉核心问题，应用于机器人、自动驾驶和AR/VR。近年3D基础模型（DUSt3R、VGGT、Pi3X）推动了场景重建，Multi-HMR实现了多人人体网格恢复。

现有痛点：

UniSH、Human3R等单目方法无法利用多视图信息，精度受限
HSfM、HAMSt3R等多视图方法依赖额外模块（2D关键点检测器、跨视图ReID模块）或需迭代优化，系统复杂度高
基于外观的Re-ID方法在视觉相似场景（穿制服等）失败
Pi3X输出的近度量尺度与SMPL真实度量尺度存在差异——人体穿透地面或漂浮

核心矛盾：需同时重建场景和多人人体，但两者尺度不一致、多人跨视图关联困难、且不想依赖外部预处理。

本文目标 构建不依赖外部模块和预处理数据的统一前馈框架，一次性完成多人多视图人体-场景联合重建。

切入角度：融合Pi3X(场景)和Multi-HMR(人体)两大先验，设计尺度调整模块桥接二者，用几何线索替代外观匹配做跨视图关联。

核心 idea：双编码器后期融合 + head-pelvis比率尺度调整 + 视图不变/依赖分解融合 + 几何驱动多人关联。

方法详解¶

整体框架¶

输入多视图多人视频{I_t^v} → 双编码器（Pi3X提取场景特征，Multi-HMR提取人体特征）→ Pi3X解码器重建点图和相机 → 头部检测提取人体token与场景token融合 → SMPL解码器回归姿态/体型/平移 → 测试时：per-view跟踪 → 几何驱动跨视图多人关联 → 视图不变/依赖分解融合 → 尺度调整模块对齐场景和人体。

关键设计¶

双编码器后期融合架构
- Pi3X编码器捕获全局3D几何，Multi-HMR编码器针对人体表示优化
- 关键决策：避免早期融合——将人体token送入Pi3X解码器会破坏输入分布，损害场景重建
- 人体token仅在解码后与场景token通过MLP融合：\(H_n = \text{MLP}_{\text{fuse}}([Z_n^{\text{scene}} | Z_n^{\text{human}}])\)
深度残差平移估计
- 不直接回归3D头部平移，而是利用Pi3X点图提供的深度先验
- 预测相对场景深度图的残差 \(d_n^m = d_{n,m}^{\text{coarse}} + \Delta d_n^m\)，结合2D头部关键点和相机内参反投影为3D位置
- 消融：深度残差(107.5) vs 直接深度(133.8) vs 直接平移回归(196.4)，差距显著
Head-Pelvis比率尺度调整
- 问题：Pi3X输出近度量尺度s可能偏小(人穿地)或偏大(人浮空)
- 解法：计算图像2D头-骨盆距离ℓ^img与投影SMPL头-骨盆距离ℓ^smpl的比值，跨所有帧和人平均得全局调整因子 \(r = \frac{1}{|\mathcal{S}|}\sum \frac{\ell^{\text{smpl}}}{\ell^{\text{img}}}\)，s*=r·s
- 骨盆定位粗到精：头部token估粗位置 → 对应patch回归偏移 → 骨盆出界则用粗位置
- 消融：尺度调整使WA-MPJPE从169.7降至102.6（-39.5%）
多视图融合（测试时，无需优化）
- 视图不变量（体型β、姿态θ）：直接参数平均，优于隐式token max-pooling
- 视图依赖量（旋转R、平移τ）：转到世界坐标系后分别用四元数平均和多视图射线三角化
- 消融：Avg+Tri(53.1) > MaxPool+Tri(63.2) > Only Avg(69.3)
基于几何的多人关联
- per-view跟踪：头部token L2距离帧间匹配，Sinkhorn最优传输处理未匹配检测
- 跨视图关联代价：\(\mathcal{C}(a,b) = 0.8 \cdot \|3D位置差\| + 0.2 \cdot \|规范姿态差\|\)，匈牙利算法一对一匹配
- 消融：Position alone 91.1% precision vs Pose alone 70.6%，Combined 91.3%

损失函数 / 训练策略¶

两阶段训练：Stage 1冻结Pi3X+Multi-HMR编码器，训练SMPL解码器等新模块(20 epoch, BEDLAM, lr=5e-5, 前10 epoch不启用尺度调整)
Stage 2仅解冻骨盆检测MLP(10 epoch, 混合3DPW+MPII+COCO+BEDLAM, lr=1e-4)
Stage 1损失：3D顶点/关节L1(λ=5.0) + 2D重投影L1 + SMPL参数L1 + 检测BCE + 骨盆BCE
Stage 2新增：Chamfer距离（可见SMPL顶点 vs 预测深度图）
训练设备：4×A100约2天

实验关键数据¶

主实验（全局人体运动估计）¶

方法	多视图	无外部模块	EMDB-2 WA-MPJPE↓mm	RICH WA-MPJPE↓mm	RICH W-MPJPE↓mm
JOSH3R	✗	✗	220.0	-	-
UniSH	✗	✗	118.5	118.1	183.2
Human3R	✗	✓	112.2	110.0	184.9
CHROMM-mono	✗	✓	102.6	87.5	138.3
CHROMM-multi	✓	✓	-	53.1	79.0

多视图姿态估计¶

方法	无ReID	无优化	EgoHumans W-MPJPE↓(m)	EgoHumans GA-MPJPE↓(m)	EgoExo4D W-MPJPE↓(m)
HSfM	✗	✗	1.04	0.21	0.56
HAMSt3R	✓	△	3.80	0.42	0.51
CHROMM	✓	✓	0.51	0.15	0.26

运行时间¶

方法	单帧推理时间(3人4视图)
HSfM	~118s
HAMSt3R	~32s
CHROMM	~4s (8×+加速)

关键发现¶

多视图融合大幅提升：RICH WA-MPJPE从87.5(单目)降至53.1(多视图)，提升39.3%
尺度调整是最关键模块：去除后WA-MPJPE从102.6升至169.7(+65.5%)
深度残差策略比直接平移回归好89mm(107.5 vs 196.4)
几何关联(91.3% accuracy)远优于仅用姿态(70.6%)
CHROMM比HSfM快29倍、比HAMSt3R快8倍，同时无需ReID

亮点与洞察¶

首个端到端多人多视图人体-场景联合重建框架：不依赖任何外部模块、预处理或优化
Head-Pelvis比率尺度调整：用人体解剖学比例桥接场景与人体的尺度差异，设计简洁有效
视图不变/依赖分解融合：显式参数平均+三角化优于隐式token聚合
几何驱动跨视图关联：避免外观匹配在制服场景的失败，3D位置+规范姿态组合设计精巧

局限与展望¶

严重依赖头部token进行人体检测——头部遮挡或不可见时性能下降
双编码器未整合为统一编码器——场景和人体的交互建模仍有提升空间
极端近景（头部占满图像）或近距离人际交互是典型失败案例
尺度调整依赖骨盆可见性——全身遮挡时退化

评分¶

新颖性: ⭐⭐⭐⭐ 首个无外部依赖的多人多视图统一框架，尺度调整和几何关联有新意
实验充分度: ⭐⭐⭐⭐⭐ 4个数据集、单目/多视图、详尽消融、运行时分析齐全
写作质量: ⭐⭐⭐⭐ 贡献清晰，每个设计决策都有实验验证
价值: ⭐⭐⭐⭐ 快速推理+无需预处理对实际部署有意义