ICLR 2026 3D视觉 4D 重建全局人体运动估计稠密场景重建人-场景接触约束联合优化单目视频

Joint Optimization for 4D Human-Scene Reconstruction in the Wild¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=7eLE4mfEpz
代码: https://vail-ucla.github.io/JOSH/
领域: 3D 视觉 / 4D 人体-场景重建
关键词: 4D 重建, 全局人体运动估计, 稠密场景重建, 人-场景接触约束, 联合优化, 单目视频

一句话总结¶

JOSH 提出用「人-场景接触」作为桥梁，把相机位姿、全局人体运动和稠密场景点云放进单阶段联合优化，从网络上随手拍的单目视频里同时重建出物理一致的 4D 人-场景交互；并进一步用 JOSH 给 20 小时网络视频打伪标签，训练出可实时推理的端到端模型 JOSH3R。

研究背景与动机¶

领域现状：要理解人怎么和环境互动（行人怎么过马路、人怎么坐长椅爬楼梯），需要同时拿到人体运动、场景几何和相机轨迹。一类做法是在受控环境里先用多视角 RGBD/激光扫描预扫场景，再把人体运动拟合进去（PROX、RICH 那条线），数据采集成本高、覆盖的交互场景单调；另一类做法是从随手拍的网络视频里恢复全局人体运动（WHAM、TRAM 等），但它们普遍只重建人、不管场景，运动失去了环境的支撑和语义。

现有痛点：少数尝试 4D 人-场景重建的工作（SynCHMR、Luvizon 等）走的是分阶段串行路线——先估相机、再重建场景、最后单独优化人体运动。这种割裂忽略了相机、人、场景三者本可以相互refine的关系：人脚踩在哪里其实给了场景的尺度和深度线索，场景几何又反过来约束人的全局位置。串行流程下，人和场景的接触细节对不上，重建出来经常出现脚穿进地面、脚悬空的物理不合理结果。多数方法还只重建单人，多人之间在同一世界坐标下的一致性也没保证。

核心矛盾：4D 人-场景重建本质是一个三方互相耦合的问题（相机↔人↔场景），但主流方法用串行分解把耦合切断，导致尺度漂移、接触穿模、多人不一致。

本文目标：从单目野外视频里，同时恢复所有人的全局运动、稠密场景点云和相机参数，且保证人-场景接触在物理上成立、结果落在公制尺度上。

核心 idea（接触即约束 + 单阶段联合优化）：人-场景接触是最自然的交互形式，它能提供把人、场景、相机三者绑在一起的几何约束。JOSH 不再串行求解，而是把所有参数塞进一个梯度优化里，用两个接触损失（接触应贴合、接触应静止）引导整个系统收敛到一致且物理合理的重建。

方法详解¶

整体框架¶

JOSH（Joint Optimization of Scene Geometry and Human Motion）分两步：先用现成模型做初始化，再把所有参数放进单阶段联合优化。初始化阶段从视频里拿到四样东西——稠密场景点图与帧间点对应（来自 MASt3R/MonST3R/DROID-SLAM 等）、局部人体网格（来自 HMR2.0/WHAM/VIMO 等 SMPL 估计器）、逐顶点接触标签（来自接触预测模型 BSTRO）、以及单目深度先验（ZoeDepth）。关键的一步是先用视频分割模型 DEVA 把运动的人从画面里抠掉，只用背景点云做场景重建，避免动态人体污染依赖静态假设的几何匹配。优化阶段把相机内参 \(K^t\)、外参 \(P^t\)、每帧尺度 \(\sigma^t\)、深度图 \(Z^t\) 和所有人的局部 SMPL 参数 \(\Theta_c^t\) 一起当作变量，用一个总损失同时更新。

flowchart LR
    A[单目视频] --> B[初始化]
    B --> B1[点图+点对应<br/>MASt3R等]
    B --> B2[局部人体网格<br/>HMR2.0/VIMO等]
    B --> B3[接触标签<br/>BSTRO]
    B --> B4[人体分割<br/>DEVA抠人]
    B1 & B2 & B3 & B4 --> C[单阶段联合优化<br/>min L_scene+L_human+L_contact]
    C --> D[相机位姿 + 全局人体运动<br/>+ 稠密场景点云]
    D -.伪标签.-> E[端到端模型 JOSH3R<br/>可实时推理]

关键设计¶

1. 接触场景损失 \(L_{c1}\)：把人的接触点和场景接触点拉到一起，并锚定公制尺度。 这是整套方法的物理 grounding 来源。对每个预测的人体接触顶点 \(x_h^t\)（要求它可见，投影落在非人体 mask 区域 \(1-M^t\) 内以避免深度歧义），JOSH 在背景场景点云里搜投影距离最近的点作为对应场景接触点 \(x_s^t = \arg\min_{x^t\in \tilde X^t}|\pi(K^t,x^t)-\pi(K^t,x_h^t)|_2\)，再用单目深度先验过滤掉深度差太大的错误对应。得到接触对应集 \(D\) 后，损失直接约束二者在 3D 空间贴合：

\[L_{c1}=\sum_{(x_h^t,x_s^t)\in D}\rho(x_h^t-\sigma^t x_s^t)\]

由于人体先验损失里 SMPL 参数本身带公制信息，这个接触损失实际上把场景的尺度 \(\sigma^t\)、深度图、相机位姿一起拽向正确的公制刻度——消融里 \(L_{c1}\) 一旦去掉，脚悬空率从 2.9% 暴涨到 92.9%，ATE 从 3.21 飙到 22.47，说明它是把整个系统从尺度漂移里拉回来的关键锚。注意接触顶点 \(x_h^t\) 在优化中不断更新，所以对应的场景点 \(x_s^t\) 每轮迭代都要重新搜。

2. 接触静止损失 \(L_{c2}\)：维持接触的身体部位在相邻帧间不滑动。 接触不仅意味着贴合，还意味着「当某顶点在连续帧都保持接触时，它相对场景应该是静止的」（脚踩地时不该滑）。JOSH 检查相邻帧是否同一顶点持续接触，得到集合 \(E\)，约束人体接触点和对应场景接触点在两帧之间都保持静止：

\[L_{c2}=\sum_{(x_h^i,x_h^j)\in E}\big(\rho(P^i x_h^i-\sigma^j P^j x_s^j)+\rho(P^j x_h^j-\sigma^i P^i x_s^i)\big)\]

这一项专门治脚部滑动——消融显示加上它后 foot sliding 从 68.2mm 降到 28.2mm，是物理可信度的直接贡献者。

3. 单阶段总损失：场景重建 + 人体先验 + 接触约束三者同优化。 总损失是三块相加：场景重建损失 \(L_{scene}\)（背景静态点的 3D 对应损失 + 2D 重投影损失）、人体先验损失 \(L_{human}\)（时序平滑 + SMPL 参数贴近初值 + 2D 关键点重投影正则）、以及核心的接触损失 \(L_{contact}=w_{c1}L_{c1}+w_{c2}L_{c2}\)：

\[L=L_{scene}+L_{human}+L_{contact}\]

所有参数 \(\{K^t,P^t,\sigma^t,Z^t,\Theta_c^t\}\) 在一个梯度优化器里同时更新，这正是 JOSH 区别于 SynCHMR 那类串行方法的本质——三方不再有先后顺序、彼此可以持续互相修正。

4. 联合优化焦距：把焦距和人体根深度绑定更新，治野外视频无内参的硬伤。 网络视频通常没有相机内参，前人只能拿对角线像素长当固定焦距 \(f\)。但人体网格估计器输出的根深度 \(t_z\) 与焦距成正比，焦距估错就会让人体运动产生无法挽回的误差。JOSH 把 \(f\) 也加进优化变量，并在每轮迭代里令 SMPL 局部平移的深度分量 \(t_z' = \frac{f}{f_{init}}t_z\) 随焦距同步缩放，保证深度调整和焦距更新一致。消融显示在没有真值内参的野外设定下，联合优化焦距能把 W-MPJPE 从 1220.7 降到 1053.4，FFR 从 15.2% 降到 6.8%。

5. JOSH3R：把 JOSH 当标注机，蒸馏出可实时推理的端到端模型。 优化方法虽准但慢（JOSH3 仅 0.8 FPS），且野外视频缺真值标注。JOSH 强到能直接给约 20 小时网络视频打全局运动伪标签，作者据此训练端到端模型 JOSH3R——在 MASt3R 几何骨干上加一个轻量「人体轨迹头」，直接预测相邻帧间的相对人体变换 \(\Delta T_c^i\)，再通过累乘 \(T_g^t=\prod_{i=1}^{t-1}\Delta T_c^i\cdot T_c^1\) 无需优化地递推出全局运动和相机位姿，把推理拉到 15.4 FPS 的实时级别（精度换速度）。

实验关键数据¶

数据集：SLOPER4D（主，6 序列，LiDAR 标注全局运动/场景/相机）、EMDB-2（25 序列，仅人体运动+相机）、RICH（40 序列，仅人体运动+预扫场景）。指标涵盖人体运动（WA-MPJPE / W-MPJPE / RTE%）、场景（AbsRel / δ<1.25 / ATE / Chamfer Distance）、物理可信度（Jitter / Foot Sliding / Foot Floating Rate）。

主实验：4D 人-场景重建（SLOPER4D，对比串行基线 SynCHMR⋆）¶

方法	初始化(人/场景)	WA-MPJPE↓	W-MPJPE↓	ATE↓	CD↓	Jitter↓	FS↓	FFR%↓
SynCHMR⋆	HMR2.0 / DROID-SLAM	233.2	1125.4	17.47	17.76	123.9	67.4	9.0
JOSH1	HMR2.0 / DROID-SLAM	206.3	1094.2	17.18	16.84	7.6	56.9	3.3
JOSH2	WHAM / MonST3R	210.4	994.3	14.53	9.09	7.8	45.3	2.1
JOSH3	VIMO / MASt3R	120.0	438.3	3.21	5.31	7.1	28.2	2.9

同初始化下 JOSH1 全面超过 SynCHMR⋆，Jitter 从 123.9 骤降到 7.6；换更强初始化的 JOSH3 比 SynCHMR⋆的 WA-MPJPE 降 46.6%、CD 降 70.1%。在 EMDB 上 JOSH3 以 W-MPJPE 174.7 创下全局人体运动估计的新 SOTA（SLAHMR 776.1 → JOSH1 372.3；TRAM 222.4 → JOSH3 174.7）。

消融实验（SLOPER4D，基于 JOSH3 变体）¶

变体	W-MPJPE↓	RTE%↓	AbsRel↓	ATE↓	FS↓	FFR%↓
−\(L_{c1}\)（去接触场景损失）	1361.4	4.7	0.49	22.47	47.3	92.9
−opt \(\Theta_c\)（不优化人体）	486.4	1.8	0.17	3.28	35.6	3.2
−\(L_{c2}\)（去接触静止损失）	448.3	1.9	0.18	3.26	68.2	3.2
JOSH3（完整）	438.3	1.8	0.17	3.21	28.2	2.9
固定内参	1220.7	5.5	0.60	19.89	71.3	15.2
优化内参	1053.4	4.6	0.47	16.91	68.3	6.8

关键发现¶

\(L_{c1}\) 是尺度锚：去掉它 FFR 从 2.9% 崩到 92.9%、ATE 从 3.21 到 22.47，证明接触场景损失负责把整个系统拉到正确公制尺度。
联合优化人体确实有增益：相比只优化场景+相机，再优化 \(\Theta_c\) 让 W-MPJPE 从 486.4 改善到 438.3。
\(L_{c2}\) 专治脚滑：foot sliding 68.2 → 28.2。
野外要优化焦距：无真值内参时优化焦距比固定焦距全面更好。
伪标签训练反超真值训练：JOSH3R 用 JOSH 标注的网络视频训练，比用 EMDB 真值训练的 WA-MPJPE 改善 59.2%，且推理达 15.4 FPS（vs JOSH3 的 0.8 FPS），实现精度-速度权衡。

亮点与洞察¶

把「接触」从被动结果变成主动约束：以往接触是重建完之后顺便检查的物理性，JOSH 反过来用接触对应作为驱动整个优化的核心信号，思路很顺也很 elegant。
单阶段联合优化的工程价值：相比串行流程，让相机/人/场景在同一损失里持续互相修正，直接换来尺度一致和接触合理，消融把每一项的贡献量化得很干净。
框架的通用性：JOSH 不绑定特定初始化器，HMR2.0/WHAM/VIMO × DROID-SLAM/MonST3R/MASt3R 都能插，意味着它能随上游模型进步而免费变强。
优化→蒸馏的闭环：用慢而准的优化方法当大规模自动标注机，再蒸馏出快模型，是利用海量无标注网络视频的实用范式。

局限与展望¶

优化速度慢：JOSH3 仅 0.8 FPS，实时只能靠精度打折的 JOSH3R（其精度明显落后于 JOSH3，如 EMDB W-MPJPE 174.7 → 661.7）。
重度依赖初始化质量：接触标签、深度、点对应、人体网格都来自现成模型，初始化错误（尤其接触标签）会传导进优化。
接触搜索是启发式：最近邻 + 深度先验过滤对脚/手接触有效，但对复杂或遮挡接触可能找错对应。
静态背景假设：依赖 DEVA 抠人和背景静态假设，场景中其它动态物体仍是隐患。
展望：更强的初始化模型可直接提升 JOSH；接触搜索可学习化；JOSH3R 的精度-速度差距还有压缩空间。

评分¶

新颖性: ⭐⭐⭐⭐ —— 单阶段联合优化 + 接触损失作为核心驱动信号的组合很清晰，虽然各部件（SMPL、点图、接触预测）都来自现成工作，但把它们统一进一个互相 refine 的优化框架并量化每项贡献，是扎实的概念贡献。
实验充分度: ⭐⭐⭐⭐ —— 三数据集、多初始化变体、细致消融、效率分析、伪标签蒸馏闭环都覆盖了，证据链完整；略欠多人场景的定量评估。
写作质量: ⭐⭐⭐⭐ —— 动机-方法-实验逻辑顺畅，公式和损失定义清楚，图示到位。
价值: ⭐⭐⭐⭐ —— 直接刷新全局人体运动 SOTA，且打开了用海量网络视频做可扩展训练的路径，对 4D 人-场景重建和具身/自动驾驶下游有实际意义。