BEDLAM2.0: Synthetic Humans and Cameras in Motion¶

会议: NeurIPS 2025
arXiv: 2511.14394
代码/数据: bedlam2.is.tuebingen.mpg.de
领域: 人体姿态估计 / 合成数据
关键词: synthetic data, SMPL-X, camera motion, HPS estimation, world coordinates, BEDLAM

一句话总结¶

BEDLAM2.0 在 BEDLAM 基础上全面升级——引入多样化相机运动（合成平移/追踪/环绕 + 手持/头戴设备捕捉）、更广体型覆盖（BMI 18-41）、strand-based 发型、鞋子、分级服装和更多3D环境，构建 27K+ 序列 / 8M+ 帧的合成数据集，仅用合成数据训练即可在世界坐标系人体运动估计上超越 SOTA。

研究背景与动机¶

领域现状：BEDLAM 是首个可在不使用真实图像的情况下独立训练 SOTA 3D 人体姿态回归器的合成数据集，已成为 HPS（Human Pose and Shape）方法的标准训练集。但世界坐标系下的人体运动估计（考虑相机运动和变焦）是当前研究热点，而 BEDLAM 的相机运动和焦距多样性严重不足。

现有痛点：(1) BEDLAM 大部分序列使用静态相机，仅有极少量移动相机片段，相机运动多样性严重不足；(2) 焦距覆盖有限（HFOV 主要集中在 52° 或 65°），不符合真实视频的多样焦距分布；(3) 体型多样性不足——缺乏高 BMI 身体；(4) 所有人物光脚、发型不够真实、服装尺码单一不适合不同体型。

核心矛盾：世界坐标系人体运动估计需要大量带有 ground truth 相机运动和 3D 人体参数的训练数据，真实数据很难获取，合成数据成为关键路径，但 BEDLAM 的合成多样性不够。

本文目标 构建一个在相机运动、体型、服装、发型、场景等各方面都大幅超越 BEDLAM 的合成数据集，特别支持世界坐标系人体姿态估计的端到端训练。

切入角度：从数据集工程的角度，系统性地改进 BEDLAM 的每一个维度——相机（焦距 + 运动）、人体（体型 + 动作 + 手部）、外观（发型 + 鞋子 + 服装）、场景与渲染。

核心 idea：通过合成+捕捉的多样化相机运动、分级服装、strand-based 发型和 SMPL-X 鞋子等系统性改进，让合成数据独立训练即可达到甚至超越使用真实数据的 SOTA。

方法详解¶

整体框架¶

AMASS 动作库采样（4643 个动作）→ 动作重定向到多样化体型（BMI 18-41）→ 穿戴分级服装 + strand-based 发型 + 鞋子 → 放置到 15 个 3D 环境中 → 合成/捕捉相机运动 + 多样焦距 → Unreal Engine 5.3 渲染（1280×720@30fps）→ 输出图像+深度+SMPL-X GT+相机参数。

关键设计¶

多样化相机系统
- 焦距覆盖 14mm-400mm（16:9 DSLR 传感器），9% 的视频在拍摄过程中变焦
- 合成相机运动：静态、平移、追踪、推拉、环绕、变焦及组合，叠加可微分 Perlin 噪声模拟手抖
- 捕捉相机运动：使用手机/平板和 Apple Vision Pro 头戴设备在虚拟场景中捕捉真实相机运动（静态位置拍摄、环绕拍摄、接近/后退拍摄），86.4% 合成 + 13.6% 捕捉
- 设计动机：真实视频中相机运动极为多样，BEDLAM 的静态相机导致端到端训练世界坐标系方法效果不佳
体型、服装与外观多样性
- 体型：1615 个 SMPL-X 体型，BMI 18-41，对高 BMI 进行重采样以增加覆盖
- 服装：187 套 3D 服装（比 BEDLAM 多 76 套），50 套分级为 XS-6XL，按 BMI 匹配服装尺码
- 发型：40 种 strand-based 3D hair grooms（5万-10万根发丝/groom），适配个体头型，9 种发色预设
- 鞋子：182 种鞋子（Google Scanned Objects），通过 displacement map 将鞋子形状映射到 SMPL-X "袜脚"网格上，并根据鞋底厚度调整身高
- 设计动机：弥合合成数据与真实图像之间的域差距（光脚、无发型、尺码单一等问题）
场景、渲染与遮挡
- 15 个高质量 3D 环境（BEDLAM 仅 5 个），9 个室内场景（BEDLAM 仅 1 个）
- 时间-天气随机化（日光/日落/阴天/夜晚）
- 自定义 UE5 C++ 插件确保相机 Shake 在图像和深度渲染之间的确定性一致性
- 12.7% 的图像存在 >20% 遮挡，前10% 最多遮挡的身体平均遮挡率 61.1%

数据集规模¶

27480 个视频序列、8,048,411 帧 PNG、12.5M 训练 bounding boxes、862K 测试 bounding boxes、4643 个动作、1615 个体型、187 套服装、40 种发型、182 种鞋子、15 个 3D 环境。

实验关键数据¶

单帧方法（CameraHMR）¶

训练数据	3DPW PA-MPJPE↓	3DPW MPJPE↓	3DPW PVE↓	EMDB PA-MPJPE↓	EMDB MPJPE↓	RICH PA-MPJPE↓	RICH MPJPE↓
B1	43.2	68.0	80.7	50.0	88.7	42.1	75.2
B2	41.1	64.8	76.3	46.5	74.6	36.8	70.8
B1+B2	41.0	65.2	77.7	46.4	75.5	36.4	68.0

视频方法（世界坐标系评估）¶

方法	训练数据	RICH WA-MPJPE↓	RICH W-MPJPE↓	EMDB WA-MPJPE↓	EMDB W-MPJPE↓	RICH Jitter↓	RICH Foot-Sliding↓
GVHMR	B1	87.3	140.0	112.4	284.6	13.5	2.9
GVHMR	B2	75.5	120.6	113.7	284.4	12.3	2.7
GVHMR	B1+B2	75.8	121.3	109.7	273.1	11.3	2.6
PromptHMR	B1	85.7	139.4	77.6	211.1	12.7	4.0
PromptHMR	B2	75.3	122.4	71.9	197.7	11.7	2.8
PromptHMR	B1+B2	72.5	116.6	70.5	193.7	10.2	2.6

关键发现¶

单帧方法：B2 单独训练在所有数据集上都显著优于 B1，体型精度提升 20%
视频方法：B1+B2 组合最优，仅用合成数据训练超过了使用真实数据的原始 SOTA
B1 和 B2 互补：B1 包含坐/爬楼梯等 B2 移除的动作，B2 在相机运动和外观多样性上更强
PromptHMR 在 B1+B2 上训练的 RICH WA-MPJPE 从 85.7 降至 72.5（降低 15.4%）

亮点与洞察¶

合成数据"单独"即可超越使用真实数据的 SOTA——这是一个重要的里程碑信号，表明足够好的合成数据可以替代昂贵的真实数据标注
鞋子的加入看似微小但影响深远：弥合了 SMPL-X 光脚与真实穿鞋之间的域差距，影响身高估计和地面接触判断
通过 Apple Vision Pro 捕捉第一人称相机运动是创新性的数据采集方式
分级服装（XS-6XL）配合多样体型是实用但容易被忽视的工程贡献
UE5 自定义 C++ 插件修复了 Movie Render Pipeline 的相机位姿记录 bug——这种底层工程细节对数据集质量至关重要

局限与展望¶

仅支持人-地面交互，不支持人-物体交互（如坐椅子）和人-人交互（如握手）
动作在场景中不具有语义一致性（如在厨房跳舞），限制了语义任务的应用
不包含儿童、截肢者或体型显著偏离均值的人群
缺乏面部动作和音频，无法支持人际交流相关的推理
合成数据与真实视频之间仍存在视觉域差距
仅考虑平底鞋，高跟鞋需要改变脚部拓扑结构和姿势

评分¶

新颖性: ⭐⭐⭐ 在 BEDLAM 基础上的系统性工程改进，无方法创新但工程深度很好
实验充分度: ⭐⭐⭐⭐ 在多个标准基准上与多个 SOTA 方法对比，B1 vs B2 vs B1+B2 比较完整
写作质量: ⭐⭐⭐⭐ 每个改进维度都有清晰的描述和动机，数据集文档风格但高质量
价值: ⭐⭐⭐⭐ 作为社区标准训练数据集的升级版，对 HPS 领域有直接且广泛的影响