DPoser-X: Diffusion Model as Robust 3D Whole-Body Human Pose Prior¶
会议: ICCV 2025
arXiv: 2508.00599
代码: https://dposer.github.io/
领域: 图像生成
关键词: 扩散模型, 人体姿态先验, 全身建模, 逆问题, 变分扩散采样
一句话总结¶
提出 DPoser-X,基于无条件扩散模型的 3D 全身人体姿态先验,将各种姿态相关任务统一为逆问题,通过变分扩散采样的截断时间步调度进行测试时优化,并引入混合训练策略有效结合全身和部位数据集,在身体、手、脸和全身建模的 8 个基准上取得最高 61% 的提升。
研究背景与动机¶
人体姿态先验建模是 3D 人体建模的基础课题,其目标是从大规模数据中学习合理的姿态分布,作为下游任务(如人体网格恢复、运动捕捉、姿态补全)的正则化。
现有方法的不足: - GMM(如 SMPLify):无界性导致可能生成不合理姿态 - VAE(如 VPoser):高斯先验限制了潜在空间的表达力,生成多样性不足 - NDF(如 Pose-NDF、NRDF):难以泛化到高维人体姿态流形的完整空间
核心矛盾:上述方法主要关注身体姿态,忽略了包含手部和面部表情的全身建模。全身姿态数据稀缺(现有数据集主要覆盖特定动作如抓取、手语),且身体各部分之间存在复杂的相互依赖关系(如站立时双手姿态通常对称)。
切入角度:利用扩散模型在复杂分布学习上的优势,训练无条件扩散模型学习姿态分布,将下游任务统一为逆问题框架,通过变分扩散采样在测试时求解。关键创新包括:面向姿态数据的截断时间步调度和结合全身/部位数据集的混合训练策略。
方法详解¶
整体框架¶
DPoser-X 由三个层次组成:(1) 部位级 DPoser(body/hand/face 各一个无条件扩散模型);(2) 融合模块将三个部位模型的最后层特征通过全连接网络融合,捕获部位间关联;(3) 混合训练策略结合全身和部位数据集。
关键设计¶
-
DPoser 正则化:核心思想是用扩散模型的单步去噪作为姿态先验的正则化项。对当前优化变量 \(\mathbf{x}_0\)(即 SMPL 姿态参数 \(\theta\)),加噪到时间步 \(t\) 得到 \(\mathbf{x}_t\),然后用训练好的噪声预测器 \(\epsilon_\phi\) 进行单步去噪得到 \(\hat{\mathbf{x}}_0(t)\),正则化损失为:
\(L_{\text{DPoser}} = w_t \|\mathbf{x}_0 - \text{sg}[\hat{\mathbf{x}}_0(t)]\|_2^2\)
其中 \(\hat{\mathbf{x}}_0(t) = \frac{\mathbf{x}_t - \sigma_t \epsilon_\phi(\mathbf{x}_t; t)}{\alpha_t}\),\(\text{sg}\) 表示停止梯度。该损失的梯度方向与变分扩散采样(Eq. 4)中的正则化项一致(\(\propto \epsilon_\phi(\mathbf{x}_t; t) - \epsilon\)),但形式更直观且自然等价于 Score Distillation Sampling。
设计动机:停止梯度确保不需要通过训练好的扩散网络反向传播,只需一次前向传播,计算开销极小(相比无先验基线仅增加 10%)。
- 截断时间步调度:传统图像扩散优化使用均匀时间步调度 \([1.0, 0.0]\),但论文发现姿态数据与图像不同——关键姿态信息集中在小 \(t\) 阶段(\(t \leq 0.3\))。实验验证(Fig. 3):用 DDIM 采样器在有限步数下,将步数集中在后期(小 \(t\))比均匀分配产生更好的姿态。
截断调度公式:\(t = t_{\max} - \frac{(t_{\max} - t_{\min}) \times \text{iter}}{N-1}\)。典型区间:人体网格恢复 \([0.12, 0.08]\),运动去噪 \([0.2, 0.05]\),姿态补全 \([0.15, 0.05]\)。
直觉解释:小 \(t\) 时加噪和去噪路径短,\(\hat{\mathbf{x}}_0(t)\) 接近 \(\mathbf{x}_0\),DPoser 引导弱但精准;大 \(t\) 时引导强但可能导致去噪后的姿态与原始关联性降低。根据任务噪声水平选择合适范围是关键。
-
混合训练策略(DPoser-X-mixed):解决全身姿态数据稀缺问题。
- 将部位数据(body-only/hand-only/face-only)视为不完整的全身数据,仅对可用部分计算损失
- 对全身数据以 20% 概率随机遮盖某些部分,强制模型预测被遮盖部分(防止全身与部位数据分布偏差过大)
- 数据混合比例:约 65% 全身 + 14% 身体 + 12% 单手 + 4% 双手 + 5% 面部
该策略使模型既能学习部位间关联(如全身数据中的双手协调),又能通过部位数据增强泛化能力。
损失函数 / 训练策略¶
DPoser 使用 sub-VP SDE 参数化训练无条件扩散模型,噪声预测目标加权为 \(w(t) = \sigma_t^2\)。身体模型基于 AMASS 数据集(约 5500 万姿态),使用轴角表示(零均值、单位方差归一化),约 8.28M 参数的全连接网络,Adam 优化器训练 80 万轮。
实验关键数据¶
主实验¶
人体网格恢复(EHF 数据集,PA-MPJPE mm):
| 初始化 | 无先验 | GMM | VPoser | Pose-NDF | NRDF | GAN-S | DPoser |
|---|---|---|---|---|---|---|---|
| 从头 | 108.57 | 58.32 | 58.08 | 57.87 | 57.38 | 57.26 | 56.05 |
| CLIFF | 56.62 | 51.02 | 49.39 | 49.50 | 49.27 | 49.58 | 49.05 |
全身姿态补全(遮盖一只手,min/mean MPVPE mm):
| 方法 | ARCTIC | BEAT2 |
|---|---|---|
| VPoser-X | 37.34/43.24 | 27.49/35.46 |
| DPoser-X | 21.81/30.99 | 15.92/25.89 |
全身网格恢复(ARCTIC 数据集,PA-MPVPE mm):
| 方法 | All | Hands | Face | Body |
|---|---|---|---|---|
| VPoser-X | 66.74 | 17.44 | 10.99 | 79.88 |
| DPoser-X | 60.98 | 15.60 | 9.75 | 73.00 |
消融实验¶
时间步调度策略对比:
| 调度策略 | 全身网格恢复 (All/Hands) | 运动去噪 (MPVPE/MPJPE) |
|---|---|---|
| Random | 62.28 / 16.63 | 43.33 / 23.87 |
| Fixed | 61.69 / 15.71 | 45.69 / 22.54 |
| Uniform | 62.13 / 17.32 | 39.72 / 20.80 |
| Truncated | 60.98 / 15.60 | 38.21 / 19.87 |
截断调度在所有任务上均优于现有策略。Uniform 在网格恢复(低噪声)上表现差,Fixed 在运动去噪(渐变噪声)上表现差。
混合训练策略对比:
| 模型 | ARCTIC 补全 (min MPVPE) | Fit3D 恢复 (All PA-MPVPE) |
|---|---|---|
| DPoser-X-base | 25.49 | 72.79 |
| DPoser-X-fused | 21.51 | 72.06 |
| DPoser-X-mixed | 21.81 | 70.91 |
Mixed 策略在零样本泛化(Fit3D 运动场景)上显著优于 fused,补全精度与 fused 相当。
关键发现¶
- 手部逆运动学:DPoser-hand 在 ReInterHand 稀疏设置下比次优方法降低 50%+ MPJPE(3.21 vs 8.25 mm)
- 运动去噪:DPoser 超越专门的运动先验 HuMoR(19.87 vs 22.69 MPJPE),尽管 DPoser 不是为时序任务设计的
- 面部重建:在 NOW 基准上与 MICA 初始化结合时达到 8.76mm 均值误差(SOTA)
- 计算开销极低:DPoser 正则化仅增加约 10% 优化时间
亮点与洞察¶
- 统一逆问题框架:将姿态补全、逆运动学、人体网格恢复等多种任务统一为逆问题,DPoser 作为通用正则化项即插即用
- 截断时间步调度是面向姿态数据的重要发现——姿态信息集中在低噪声区间,与图像的"先生成结构后填细节"恰好相反
- 混合训练策略设计优雅——将部位数据视为缺失值问题,20% 随机遮盖全身数据作为数据增强
- 停止梯度设计确保了与任何下游优化器的兼容性,不增加记忆负担
局限与展望¶
- 基于 SMPL-X 的旋转角度表示,表达能力受限于骨骼模型的关节自由度
- 截断时间步区间 \([t_{\max}, t_{\min}]\) 需要针对每个任务手动选择
- 混合训练的各数据源权重平衡目前靠经验确定
- 未探索与条件扩散模型(如以图像为条件)的结合
- 全身生成质量(Table 6)因训练数据有限仍有提升空间
相关工作与启发¶
- VPoser(VAE 先验)是最广泛使用的基线,DPoser 在表达力上全面超越
- BUDDI(人体交互先验)使用了类似的 SDS 优化思路,但 DPoser 更通用且引入了截断调度
- Score Distillation Sampling 在 3D 生成中广泛使用,DPoser 将其推广到姿态域并给出等价的直观形式
- 混合训练策略可推广到其他数据稀缺场景(如面部 + 身体 + 手部的多源学习)
评分¶
- 新颖性:⭐⭐⭐⭐ — 扩散模型作为姿态先验 + 截断调度是新颖贡献
- 理论深度:⭐⭐⭐⭐ — 变分扩散采样的推导严谨,DPoser 损失与 SDS 的等价性证明教科书级
- 实验充分度:⭐⭐⭐⭐⭐ — 8 个基准、身体/手/脸/全身全覆盖、充分消融
- 实用性:⭐⭐⭐⭐⭐ — 即插即用正则化项,计算开销极低