跳转至

Generative Human Geometry Distribution

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=YsQM7sQl0j
代码: 待确认
领域: 3D 视觉 / 3D 人体生成
关键词: 几何分布, Flow Matching, SMPL, 3D 人体生成, 服装细节, 特征图表示

一句话总结

把"单个几何体的分布表示(Geometry Distribution)"升级成"可在数据集上扩展的生成模型",用 2D 特征图替代网络权重存几何、用 SMPL 模板替代高斯做流匹配源分布,首次让几何分布支持大规模 3D 人体生成,几何质量较 SOTA 提升 57%。

研究背景与动机

  • 领域现状:3D 人体几何生成要同时做好两件难事——保住高频的服装褶皱细节、又准确建模"衣服-身体"随姿态变化的交互。现有表示各有短板:NeRF 类只管渲染、几何粗糙且受分辨率/速度限制;隐式函数(SDF)难表达薄结构、容易过度平滑;点云和体素在内存与质量间反复妥协;三平面受分辨率限制抓不住细节。
  • 现有痛点:最近提出的 Geometry Distributions(Zhang et al. 2025)把单个 3D 形状建模成"表面点的概率分布",从高斯采样经一个 flow 扩散网络映射到目标几何,能无限采点、单形状保真度极高。但它有两个致命问题:① 几何信息被存在 flow 网络的权重里,一个形状一套网络,内存爆炸、根本没法扩展成生成模型;② 从高斯到单个形状学速度场尚可,扩展到一个数据集里成千上万个形状时计算极度低效。
  • 核心矛盾:单几何分布保真度高但不可扩展、不可生成;要做生成就得把"一堆几何分布"再建模成"分布之分布"(distribution-of-distributions),而已有这类工作只能处理粗糙形状,学高保真几何分布的分布仍是开放难题。
  • 本文目标:构造首个面向几何分布的 3D 生成方法,在数据集尺度上建模人体几何分布,支持姿态条件随机生成、给定 avatar 的新姿态合成两类任务。
  • 核心 idea用 2D 特征图替代网络权重来编码每个几何分布(让表示可压缩、可扩展),并用 SMPL 模板分布替代高斯做流匹配源分布(让源更贴近目标、缩短流路径、提效),再套一个两阶段(先压缩成 latent 特征图、再在 latent 上训生成模型)的生成框架。

方法详解

整体框架

方法分两阶段,类比当下主流图像/3D 生成的"先压缩再生成"范式。第一阶段(条件分布编码):用 auto-decoder 把每个人体几何分布压缩成一张紧凑的 2D 特征图 \(z_{T|S}\in\mathbb{R}^{C\times H\times W}\),从中经去噪过程可采样出高保真几何。第二阶段(几何生成):在这些特征图组成的 latent 空间上再训一个 flow/U-Net 模型,以 SMPL 顶点图为引导、可选叠加图像/文本条件,生成新的特征图(即新的人体几何分布)。

flowchart LR
    A[SMPL 模板分布 ΦS] --> B[构造训练对 x0'-x1 + 距离归一化]
    B --> C[Auto-Decoder 编码<br/>几何→2D 特征图 z_T|S]
    C --> D[去噪网络 uθ<br/>条件: x0', Dec(z)(x0')]
    D --> E[高保真点云几何]
    C --> F[第二阶段 U-Net<br/>在 latent 上生成特征图]
    G[SMPL 顶点图 / 图像 / 文本条件] --> F
    F --> C

关键设计

1. SMPL 作源分布 + 训练对构造:把"高斯→几何"换成"模板→几何"的短程流。 原始几何分布从高斯 \(\mathcal{N}(0,1)\) 出发学速度场,路径远、收敛慢。本文的洞察是把源分布换成 SMPL 模板形状分布 \(\Phi_S\),让源天然贴近目标人体几何 \(\Phi_T\),优化目标变为 \(\arg\min_\theta \mathbb{E}_{x_0\sim\Phi_S,x_1\sim\Phi_T}\|u_\theta(x_t,t)-(x_1-x_0)\|\),其中 \(x_t=(1-t)x_0+x_1\)。由于流匹配近似条件最优传输,作者进一步显式构造短程训练对:先在 SMPL 模板上稀疏采点 \(\{x_0\}_S\)、在目标几何上采点 \(\{x_1\}_T\),对每个 \(x_1\) 取最近的 SMPL 点 \(x_0'=\arg\min_{x_0}\|x_1-x_0\|_2\) 配成对,避免学习无关的远距离路径。但松垮/褶皱区域会出现多个 \(x_1\) 共享同一 \(x_0'\) 导致欠采样空洞,于是给 \(x_0'\) 加上 \(\mathcal{N}(0,\sigma)\) 扰动注入随机性、提升采样多样性——源分布变为 \(\mathcal{N}(x_0',\sigma)\),目标仍是人体几何。

2. 分布归一化为稠密位移场:消除空间采样不均、降低建模复杂度。 直接学 SMPL→人体的映射时,网络受到的监督在空间上极不均衡:点只落在表面、相对整个 3D 空间稀疏;姿态/体型变化又让某些区域采样更不稳定(图 3 把多轮采样聚合后能看到密度悬殊)。作者的做法是对源、目标都减去 \(x_0'\):源变成零中心高斯 \(\mathcal{N}(0,1)\)\(\sigma\) 设为 1),目标变成正则化的稠密位移场 \(\Delta x = x_1 - x_0'\)。这一减法虽然丢掉了 \(x_0'\) 的位置信息,但作者把 \(x_0'\) 重新作为条件信号注入、去缩放网络隐藏特征,间接保留位置而不再承受采样不均。最终目标为 \(\arg\min_\theta \mathbb{E}_{n,(x_0',x_1)}\|u_\theta(x_t,t\mid x_0')-(\Delta x-n)\|\),其中 \(n\sim\mathcal{N}(0,1)\)\(x_t=(1-t)n+t\Delta x\)。在"正则稠密空间之间"建流,显著提升训练效率。

3. Auto-Decoder + UV 特征图编码:用可学习 latent 表示几何、对齐人体先验。 不用 auto-encoder(要从输入提特征、算力大且受输入表示能力约束),而采用 auto-decoder:把每个样本的几何直接编码成可学习的 2D 特征图 \(z_{T|S}\in\mathbb{R}^{C\times H\times W}\),与近期 3D 物体的 UV 表示一脉相承。再用一个 UNet 风格的解码器 \(\mathrm{Dec}_\phi\) 把它解压到更高分辨率,并把 SMPL 顶点位置渲染成 UV 图、与卷积层隐藏特征拼接;通过 \(x_0'\) 的 UV 坐标在高分辨率图上双线性采样,得到每点 latent \(\mathrm{Dec}_\phi(z_{T|S})(x_0')\) 作为去噪网络的条件。去噪网络 \(u_\theta\) 沿用 Zhang et al. 2025 设计,额外把 \(x_0'\) 拼接法向与 canonical 坐标——法向给服装推断方向线索、canonical 坐标编码身体部位语义(区分四肢与躯干)。

4. 两阶段生成框架与双任务建模。 学好全部 latent \(\{z_{T|S}\}\) 后,在 latent 空间训生成模型(U-Net)。姿态条件随机生成:把 SMPL 顶点位置渲成 UV 图作为残差连接注入 U-Net,给定姿态合成多样化人体几何(THuman2 训练)。新姿态生成:额外输入一张正面法向图指示 avatar 身份,用冻结的 DINO-ViT 提图像特征经 cross-attention 融入 U-Net;每个动画序列随机取一帧给法向条件、另一帧给 SMPL 姿态条件(4DDress 训练)。由于直接在变形后人体上合成点,能生成随姿态变化的服装褶皱,而非传统"canonical 空间生成 + 蒙皮变形"那种静态细节。

实验关键数据

主实验表格(姿态条件随机生成 FID,THuman2)

方法 Raw Geometry FID ↓ Enhanced Rendering FID ↓
ENARF* 223.72 223.72
GNARF* 166.62 166.62
EVA3D* 60.37 60.37
E3Gen 65.32 28.12
GetAvatar 56.07 22.77
gDNA 42.90 17.43
Ours 16.16 16.16

原始几何上较 SOTA(gDNA)提升 57%(42.9→16.2);本文的"原始几何"甚至比别人"增强渲染后"还好 7%(17.4→16.2)。

消融实验表格

几何分布公式对比(Chamfer 距离 ↓):

设置 Single Dataset
Zhang et al. (高斯源) 0.0083 0.0101
w/o Pairs(朴素 Eq.2) 0.0040 0.0706
w/o DistNorm(\(\mathcal{N}(x_0',\sigma)\) 无归一化) 0.0020 0.0071
Ours 0.0032 0.0032

网络架构对比(表面距离 ↓):

模型 Surface Distance ↓
VecSet(auto-encoder) 0.0018
FeatureMap 0.0014
Ours(auto-decoder) 0.0012

新姿态生成用户研究(1–5 分):

指标 GetAvatar gDNA E3Gen Ours
质量 ↑ 2.16 2.54 2.12 4.04
物理合理性 ↑ 2.20 2.66 2.08 4.36

关键发现

  • w/o DistNorm 单形状最优、数据集崩盘(Single 0.0020 vs Dataset 0.0071):固定姿态时分散的高斯中心能聚焦局部细节,但扩展到多姿态数据集时收敛被严重拖累,证明分布归一化对"扩展性"才是关键。
  • 训练对的稀疏采样很重要:直接在稠密 SMPL 网格上找最近点会让法向图出现明显空洞(欠采样),松垮服装尤其严重;先稀疏采点再找最近点能把映射负载分散开。
  • auto-decoder > auto-encoder:把独立嵌入转成特征图已能提升重建精度,但仍不如可学习 latent 的 auto-decoder。
  • 姿态感知:直接在变形人体上合成点,使本文能生成随姿态变化的褶皱;即便给一张与目标姿态不匹配的特征图,仍能输出视觉合理结果,显示鲁棒性。

亮点与洞察

  • "分布之分布"落地高保真:首次把单形状的几何分布升级成可生成的"几何分布之分布",且突破了以往这类方法只能处理粗糙形状的局限。
  • 换源分布是点睛之笔:把流匹配的源从无信息的高斯换成富含人体先验的 SMPL 模板,本质上是把"长程、难学"的传输问题改造成"短程、易学"的位移场回归,训练效率与质量双赢。
  • 表示载体的迁移很优雅:把几何从"网络权重"搬到"2D 特征图",一举解决内存与可扩展性,还顺势接上了图像/3D 生成成熟的 latent 范式与条件注入机制。
  • 直接优化几何而非渲染:跳过"靠增强渲染掩盖几何粗糙"的取巧路线,原始几何质量直接碾压他人增强后的结果。

局限与展望

  • 目标表面采样不均匀:每个 SMPL 点 \(x_0'\) 关联的目标点 \(x_1\) 数量不等,虽靠充分采样和剔除过近点缓解,但仍需更先进的训练对构造策略。
  • 受训练集多样性约束:对体型泛化较好(数据集体型多样),但无法生成训练集中完全没有的服装风格
  • UV 图带来接缝伪影:不连续的 UV 分割会让随机生成结果出现接缝;理想方案是用对齐真实服装裁片的 UV 分割。
  • 这些都被作者明确留给后续工作(本文聚焦表示建模本身)。

相关工作与启发

  • 几何分布的源头:Geometry Distributions(Zhang et al. 2025)是直接前作,本文把它从"单形状、存权重"改造成"数据集、存特征图"。
  • 2D/UV 表示线:与 Yan et al. 2024 等用 UV 表示 3D 物体的工作一脉相承,相比三平面/稀疏体素更省内存、更契合人体先验。
  • 人体重建/生成线:相比 ICON/ECON(从 SMPL 法向重建)、E3Gen(高斯泼溅)、GetAvatar/gDNA(隐式函数)、EVA3D/GNARF(NeRF+三平面),本文直接从 3D 数据学、支持无限采样、不依赖增强渲染。
  • 启发:当一个"高保真但不可扩展"的表示卡在权重里时,"把内容从参数搬进可学习的 2D latent + 用领域先验替换无信息源分布"是一条值得复用的通用扩展套路;对任何有强模板先验(人脸、手、动物)的 3D 生成都有借鉴意义。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次把几何分布提升为生成框架,"分布之分布 + SMPL 源 + 特征图载体"的组合既新又自洽,解决了一个真实的开放难题。
  • 实验充分度: ⭐⭐⭐⭐ 两任务、多 baseline、公式消融、架构消融、用户研究齐全;扣分点在指标偏单一(主要靠 FID/Chamfer/用户研究),定量任务数量与数据集规模可再扩。
  • 写作质量: ⭐⭐⭐⭐ 动机层层递进、公式清晰、图示到位;个别细节(如第二阶段条件注入)需对照附录才完整。
  • 价值: ⭐⭐⭐⭐ 几何质量 57% 的提升与"直接优化几何"的路线对 3D 数字人、虚拟试衣等下游有明确价值,表示套路可迁移到其他模板化 3D 生成。