跳转至

VolumetricSMPL: A Neural Volumetric Body Model for Efficient Interactions, Contacts, and Collisions

会议: ICCV 2025
arXiv: 2506.23236
代码: 项目页面
领域: 3D视觉
关键词: 人体模型, 签名距离场, 神经网络权重生成, 碰撞检测, 人体交互

一句话总结

提出 VolumetricSMPL,一种基于 Neural Blend Weights(NBW)的高效神经体积人体模型,相比前代 COAP 实现 10× 推理加速、6× 显存节省,并通过 SDF(而非占据函数)表示提供更精确的可微碰撞建模。

研究背景与动机

参数化人体模型(如SMPL)是计算机视觉和图形学的核心工具,但基于网格的表面模型在处理人体与物体/场景/其他人的交互时面临根本性挑战:高效的相交检测和可微接触建模非常困难。

现有解决方案的局限性:

应用特定策略:将3D场景预处理为体积表示(计算昂贵、易出错);约束于合成环境(降低真实感);大幅下采样网格以支持传统图形方法(如winding numbers,不可微)

体积人体模型(COAP等):COAP 是当前最成功的方案,已被广泛采用于人体-场景/物体交互建模。但存在两个关键瓶颈: - 大型 MLP 解码器(256神经元)导致计算瓶颈:5个batch + 15k查询点即可耗尽24GB GPU - 占据函数表示:梯度仅在等值面附近有效,远离表面的点梯度为零,限制了需要平滑距离近似的下游任务

imGHUM:虽然灵活但需要大规模人体扫描数据训练,且推理比VolumetricSMPL慢86%

核心问题:如何设计既紧凑高效又保持表达力的体积人体模型?

作者的关键洞察:MLP解码器的计算瓶颈不在于模型的表达能力需求,而在于权重的生成方式。通过动态预测紧凑MLP权重(而非使用固定的大型MLP),可以在64神经元的小型MLP上达到甚至超过256神经元MLP的精度。

方法详解

整体框架

给定SMPL的shape参数 \(\beta\) 和pose参数 \(\theta\): 1. 生成人体网格并转换为点云 2. 将点云按运动链分割为 \(K\) 个身体部位 3. 每个部位变换到局部标准空间,用 PointNet 编码为特征向量 \(\mathbf{z}_k\) 4. NBW Generator 为每个部位生成 SDF 解码器权重 \(\mathcal{W}_k\) 5. 对查询点 \(\mathbf{x}\),变换到各部位的标准空间后查询局部SDF,取最小值得到全局SDF 6. 远离身体的点使用解析SDF近似以加速

关键设计

  1. Neural Blend Weights (NBW) Generator:

    • 功能:动态预测紧凑MLP解码器(64神经元)的权重,使其适应特定的体型和姿态
    • 核心思路:将每层的权重矩阵 \(\mathcal{W}_k^l\) 表达为基础权重 \(\mathbf{W}^l\)\(R\) 个可学习形状权重矩阵 \(\mathbf{W}_k^l[r]\) 的加权组合: \(\mathcal{W}_k^l = \mathbf{W}^l + \sum_{r=1}^{R} \mathbf{v}_k^l[r] \mathbf{W}_k^l[r]\) 混合系数 \(\mathbf{v}_k^l\) 由局部特征 \(\mathbf{z}_k\) 通过独立线性层预测,确保权重随体型和姿态动态变化。
    • 设计动机:灵感来自 ResFields(用于时间信号拟合),但这里复用为前馈推理中体积人体建模。\(R\) 个base矩阵的混合机制类似于Mixture of Experts,每个身体部位获得专门化的解码器。增加 \(R\) 几乎不增加推理成本(不扩展MLP大小),但显著提升学习能力。
  2. 高效SDF查询与解析SDF融合:

    • 功能:对远离身体的查询点跳过神经网络,直接用包围盒几何近似
    • 核心思路:将查询点 \(\mathbf{x}\) 变换到每个部位的标准空间 \(\mathbf{x}_k = (G_k^{-1}\mathbf{x}^h)_{1:3}\),若点落在所有包围盒外,则使用解析SDF(到最近包围盒表面的欧氏距离): \(\tilde{d}(\mathbf{x}) = \begin{cases} d_{\text{analytic}}(\mathbf{x} | \mathcal{B}, \mathcal{G}) & \text{if } \mathbf{x} \notin B_k \text{ for all } k \\ d_{\text{implicit}}(\mathbf{x} | \beta, \theta) & \text{otherwise} \end{cases}\)
    • 设计动机:在碰撞检测等应用中,绝大多数查询点远离身体,解析近似大幅减少不必要的神经网络计算。
  3. SDF 而非占据函数:

    • 功能:用签名距离场(内/外+距离值)替代 COAP 的二值占据函数
    • 核心思路:损失函数同时监督符号和绝对值: \(\mathcal{L} = \sum_{\mathbf{x} \in \mathcal{D}} l_2(sgn(\tilde{d}(\mathbf{x})), sgn(d(\mathbf{x}))) + l_2(|\tilde{d}(\mathbf{x})|, |d(\mathbf{x})|)\)
    • 设计动机:占据函数在远离表面的区域梯度接近零,导致碰撞损失在物体深度穿透时无法提供有效的优化方向。SDF的连续梯度场使得即使深穿透也能产生有意义的梯度信号。

损失函数 / 训练策略

训练数据:AMASS 数据集中的 MoVi 和 DFaust 人体网格序列。每步采样 256 个均匀点和 256 个表面附近点(每个身体部位)。Ground truth SDF 通过到网格表面的距离计算。

Adam 优化器,学习率从 \(10^{-4}\) 退火到 \(10^{-5}\),15 个 epoch(450k 迭代),单张 24GB RTX 3090 训练约 20 小时。

实验关键数据

主实验

模型 推理时间↓ GPU显存↓ 均值IoU↑ 表面IoU↑ SDF MSE↓
LEAP 79ms 7.7GB 75.98% 69.98% -
COAP 140ms 18.7GB 94.31% 93.98% -
VolumetricSMPL 15ms 3.1GB 94.67% 94.25% \(3.7 \times 10^{-5}\)

下游应用汇总表

应用场景 指标 COAP/原方法 VolumetricSMPL 提升
人物-物体交互重建 优化时间 35.9min 0.57min 500×加速
自我中心人体恢复 推理时间/帧 2.08s 0.61s 3.4×加速
场景约束运动合成 每帧显存 4.44GB 0.19GB 20×节省
自交叉消除 每步时间 30ms 14ms 2×加速

消融实验

配置 推理时间 GPU显存 参数量 IoU↑ SDF MSE↓
Base MLP (无NBW) 15ms 2.9GB 0.4M 92.75% \(5.2 \times 10^{-5}\)
+ 位置编码 \(\gamma(\cdot)\) 15ms 3.1GB 0.4M 93.00% \(8.3 \times 10^{-5}\)
+ NBW (R=1) 15ms 3.1GB 0.8M 94.06% \(4.8 \times 10^{-5}\)
+ NBW (R=20) 15ms 3.1GB 1.6M 94.60% \(3.7 \times 10^{-5}\)
+ NBW (R=80) 15ms 3.1GB 4.0M 94.67% \(3.7 \times 10^{-5}\)

关键发现

  1. NBW 是精度提升的最大贡献者——从92.75%→94.67% IoU,同时不增加推理时间
  2. 增加 \(R\) 从 1 到 80,参数量从 0.8M 增到 4M,但推理时间和显存几乎不变——NBW 的扩展代价极低
  3. SDF 表示在运动合成中决定性地优于占据函数——碰撞得分从 2.78cm 降至 0.24cm(降低91%)
  4. 在 EgoHMR 中替换 COAP 后 batch size 可从 3 扩至 30(同一 24GB GPU),说明效率提升直接转化为实用收益

亮点与洞察

  1. 即插即用设计:作为 SMPL 的轻量级附加模块,可通过一行代码集成,无需修改现有管线
  2. 效率是根本性的:不是"稍快一点",而是数量级的提升——500× 加速的人物-物体交互、20× 显存节省的运动合成
  3. SDF vs 占据函数的实证比较非常有说服力——光滑梯度在碰撞优化中质的飞跃
  4. NBW 的设计简洁而有效,从 ResFields 借鉴的权重混合思路值得在其他条件生成任务中推广

局限与展望

  1. 基于 SMPL 的运动链分割,对非标准体型或极端姿态的泛化有待验证
  2. 训练仍需 20 小时,虽然推理快但训练成本不低
  3. 解析SDF近似在包围盒边界附近可能引入不连续性
  4. 未讨论对手部/面部等精细部位(如 SMPL-X 的手指关节)的支持情况
  5. 与 imGHUM 的直接对比受限于训练数据差异

相关工作与启发

  • COAP:组合式体积场建模的先驱,VolumetricSMPL 继承其设计但通过NBW解决效率瓶颈
  • ResFields:权重混合的灵感来源,证明了「小网络+动态权重」可以替代「大网络+固定权重」
  • HyperNetworks/FiLM:直接权重回归或调制方法在组合式体积体中不稳定(弱监督),NBW通过混合策略解决
  • 启发:在需要频繁查询的神经隐式表示中,权重生成效率是实用性的关键瓶颈

评分

  • 新颖性: ⭐⭐⭐⭐ NBW 设计巧妙但基于已有的 ResFields 思路,整体是工程导向的系统改进
  • 实验充分度: ⭐⭐⭐⭐⭐ 4个下游应用全面验证效率和精度提升,消融详尽
  • 写作质量: ⭐⭐⭐⭐ 动机清晰,实验组织有条理,但技术细节偏多
  • 价值: ⭐⭐⭐⭐⭐ 高度实用,即插即用的设计+MIT开源将推动社区广泛采用