VoMP: Predicting Volumetric Mechanical Property Fields¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=aTP1IM6alo
论文: NVIDIA Project Page
代码: 暂未公开（项目页：research.nvidia.com/labs/sil/projects/vomp）
领域: 3D视觉 / 物理仿真材料预测
关键词: 体积材料预测, 杨氏模量, 前馈推理, 材料潜空间, 多视角特征聚合

一句话总结¶

VoMP 是首个前馈式预测 3D 物体体内力学材料场（杨氏模量 $E$、泊松比 $\nu$、密度 $\rho$）的方法：把任意可体素化、可渲染的 3D 表示（网格 / 高斯泼溅 / NeRF / SDF）逐体素聚合多视角 DINOv2 特征，经 Geometry Transformer 预测每体素材料隐码，再由约束在"物理可行材料流形"上的 MatVAE 解码出真实材料三元组，几秒内即可给出可直接用于精确仿真的材料，精度与速度都大幅超越此前方法。

研究背景与动机¶

领域现状：物理仿真（数字孪生、Real-2-Sim、Sim-2-Real）的前提是给被仿真物体的每一点赋予准确的力学材料参数——局部各向同性材料模型里最常用的就是杨氏模量 $E$、泊松比 $\nu$、密度 $\rho$ 这组三元组。但常见的 3D 采集方法（如高斯泼溅）和 3D 资产库几乎都不带这类标注。

现有痛点：现状是艺术家/工程师手工"猜"或套用粗糙的材料预设，主观且耗时。已有的学习类方法也各有硬伤：NeRF2Physics、PUGS 这类需要对每个物体做逐物体优化（优化语言嵌入特征场），慢，且 NeRF/泼溅内部缺乏有意义特征，预测不了物体内部的材料；另一类从视频生成模型蒸馏信号、反传穿过快速近似仿真器来优化材料，结果是仿真器专属参数，跨框架不可移植，也偏离真实物理量；还有一类只输出粗材料类别，需要人工映射到仿真参数。

核心矛盾：要么慢（逐物体优化）、要么只覆盖表面（缺内部特征）、要么输出的是仿真器专属/类别化的近似量而非真实可移植的物理材料。前馈、跨表示、体内、物理有效——这四点此前没有方法能同时做到。

本文目标：训一个前馈模型，输入任意可体素化+可渲染的 3D 几何，直接输出物体体内逐体素的、物理有效的真实材料三元组 $(E,\nu,\rho)$，且与任意精确仿真器兼容。

切入角度：作者把问题拆成两件正交的事——"学什么材料是合法的"和"学怎么给某个物体的各处分配材料"。前者用一个在真实测量材料上训练的 VAE 把合法材料压成低维潜空间来兜底，保证任何输出（甚至插值点）都落在某种真实材料的范围内；后者用一个 3D Transformer 在这个潜空间里做逐体素回归。

核心 idea：用一个材料潜空间（MatVAE）当连续 tokenizer 兜底物理有效性，再用多视角特征 + Geometry Transformer 做前馈逐体素材料隐码预测，把"材料合法性"与"材料分配"解耦。

方法详解¶

整体框架¶

VoMP 的输入是任意能被体素化并从环视视角渲染的 3D 几何（网格、SDF、3D 高斯泼溅、NeRF），输出是该几何体内部+表面每个体素上的力学材料三元组 $(E,\nu,\rho)$，可直接灌入精确仿真器（如高分辨率有限元 FEM）做可形变仿真。整条管线分三步串起来：先把几何体素化并把多视角 DINOv2 图像特征"提升"到每个体素（含内部体素）；再用 Geometry Transformer 把这些体素特征映射成每体素的材料隐码；最后用一个冻结的 MatVAE 解码器把隐码逐体素解成真实材料三元组。其中 MatVAE 是独立预训练的——它先在一个真实测量材料数据集上学好"什么材料合法"的二维潜空间，训练 Transformer 时只借用它的冻结解码器，从而把"合法性"这件事从"分配"中剥离出来。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入几何<br/>网格/SDF/3DGS/NeRF"] --> B["多视角特征聚合<br/>体素化+DINOv2逐体素平均"]
    B --> C["Geometry Transformer<br/>体素特征→每体素材料隐码"]
    C --> D["MatVAE 材料潜空间<br/>冻结解码器，保证物理有效"]
    D --> E["逐体素 (E, ν, ρ) 材料场"]
    E --> F["精确仿真<br/>FEM / Simplicits 可形变仿真"]
    G["VLM 标注管线<br/>3D分割资产+材料库+纹理→GVM"] -.训练监督.-> C

关键设计¶

1. MatVAE 材料潜空间：把"物理合法性"做成兜底的连续 tokenizer

最棘手的痛点是：直接回归 $(E,\nu,\rho)$ 没法保证结果是真实存在的材料，插值出来的值很可能物理上不成立。VoMP 的解法是先在一个真实测量材料数据集上训练 MatVAE，把三元组 $(E,\nu,\rho)\in\mathbb{R}^3$ 映射到二维潜空间 $z\in\mathbb{R}^2$ 再重建。虽然 $\mathbb{R}^3\to\mathbb{R}^2$ 压缩很小，但这个 2D 空间易于可视化、采样和插值，且让单位差异极大的三元组之间有一致的"距离"；更关键的是它像一个连续 tokenizer，保证 VoMP 的任意输出都落进某种真实材料的范围内。重建损失是归一化后的 MSE（$E$、$\rho$ 先取 $\log_{10}$ 再归一到 $[0,1]$，$\nu$ 直接归一），作者发现不做 log 变换会得到重尾分布、不利于学习。

在标准 VAE 上作者做了三处针对性修改，都对应训练中观察到的具体病：其一，编码器输出经一个径向 Normalizing Flow 变换，得到更灵活的后验 $q_\phi(z\mid m)$，应对 $E$、$\rho$ 重尾、$\nu$ 归一后挤在边界的复杂分布；其二，按总相关 $\mathrm{TC}(z)=\mathrm{KL}(\bar q_\phi(z)\,\|\,\prod_j \bar q_\phi(z_j))$ 拆解 ELBO 的 KL 项并直接惩罚它，解决"密度被同时编码进两个维度"的强耦合问题；其三，加一个基于 free-nats 的容量约束 $\delta\times z_{\dim}$，逼两个潜维都被用上，避免潜空间坍缩到只重建好某一个属性。最终目标函数为 $$\mathcal{L}_{\text{MatVAE}}=\mathcal{L}_{\text{Recon}}+\gamma\cdot \mathrm{MI}(z)+\beta\cdot \mathrm{TC}(z)+\alpha\sum_{j=1}^{d}\max\big(\delta,\,\mathrm{KL}(q_\phi(z_j)\,\|\,p(z_j))\big),$$ 其中 $(\gamma,\beta,\alpha)=(1.0,2.0,1.0)$、$\delta=0.1$。

2. 多视角特征聚合：把图像特征提升到体内体素，而非只覆盖表面

要预测物体内部的材料，就不能像以往工作那样只在表面提特征。VoMP 把输入几何体素化后，对 $N^3$ 网格中的每个活跃体素中心 $p_i$，沿相机投影 $\Pi_j$ 投到每个渲染视角，取对应的 DINOv2 patch-token 特征图 $F_j$ 上双线性采样的特征，再对所有视角取平均得到该体素的特征： $$f_i=\mathrm{Average}\Big(\big\{F_j(\Pi_j(p_i))\mid j\in J\big\}\Big)\in\mathbb{R}^{1024}.$$ 与前作（Wang、Dutt、Xiang 等）只处理表面不同，VoMP 连物体内部也体素化并处理——这样多视角信息被传播到内部体素，模型才有信号去学习物体内部的材料构成。对高斯泼溅这种难体素化的表示，作者还提出一个三阶段体素化器：先把高斯按 99 百分位等值面当实心椭球体素化，再从数十个视角渲染深度图，最后用深度图把外部空体素"雕"掉、但保留看不见的内部体素，得到物体的实心近似（测试物体 31 ms 即可体素化）。

3. Geometry Transformer：在材料潜空间里做前馈逐体素回归

核心网络 $\mathcal{F}$ 是把体素化图像特征映到 MatVAE 材料隐表示的 Transformer，骨干沿用 TRELLIS 的 encoder/decoder 并用其权重初始化。编码器处理变长的活跃体素集合 $X=\{(p_i,f_i)\}_{i=1}^L$：先把体素特征序列化，再用从 3D 坐标导出的正弦位置编码注入空间感知，并采用 3D 移位窗口注意力。为应对不同尺寸资产，作者设定最大序列长度 $L_N$（实验取 32768）：体素数 $L\le L_N$ 时用全集，$L>L_N$ 时每个 epoch 起始随机重采样 $L_N$ 个体素，让模型在不同 epoch 见到资产不同部位、等效扩大可处理体素上限。每体素隐码送入冻结的 MatVAE 解码器得到 $(E,\nu,\rho)$，训练用预测材料与真值的 MSE（在当前迭代体素集 $S$ 上平均）： $$\mathcal{L}_{\mathcal{F}}=\frac{1}{|S|}\sum_{i\in S}\big\|\mu_\theta(\mathcal{F}(X_S)_i)-((E_i,\nu_i,\rho_i)_N)^{T}\big\|_2^2,$$ 其中 $\mu_\theta$ 是冻结 MatVAE 解码器。推理时再把体素材料用最近邻插值搬回原表示（泼溅均值 / FEM 的四面体 / 仿真求积点等）。

4. VLM + 多源知识的标注管线：解决"体积材料训练数据几乎不存在"

训练 Geometry Transformer 缺的是带体内材料标注的 3D 数据集。作者构建两个数据集：MTD（Material Triplet Dataset）从多个在线材料数据库收集 100,562 条真实测量三元组（按材料有效范围大小成比例采样、去重），专供 MatVAE。GVM（Geometry with Volumetric Materials）则用一条自动管线标注 3D 资产——收集 1624 个部件级分割的高质量网格（共 8089 个部件，每个部件视为各向同性材料，带英文材料名和真实 PBR 纹理）。对每个部件，喂给 VLM（实验选 Qwen 2.5-VL-72B）的不仅是整物体渲染，还包括把该部件视觉材料映到球面的细节渲染、材料名、以及按材料名在 MTD 中检索到的三个最近真实材料的取值范围。这样 VLM 不是凭空猜，而是被真实材料数值和多源线索约束着输出三元组，再映射到部件内所有体素，最终标注出 3700 万个带 $(E,\nu,\rho)$ 的体素。这正是它相对 Phys4DGen 等"裸 VLM 聚合"基线更准、更物理可信的原因。

损失函数 / 训练策略¶

MatVAE 用式 (2) 的 $\mathcal{L}_{\text{MatVAE}}$；Geometry Transformer 用式 (4) 的逐体素材料 MSE，MatVAE 解码器全程冻结。MTD 与 GVM 都按 80-10-10 划分 train/val/test。渲染用 Omniverse + Blender，DINOv2 用优化实现。全部实验在 4×80GB A100 上完成，MatVAE 训约 12 小时、Transformer 训约 5 天。

实验关键数据¶

主实验（GVM 新基准上的材料估计精度）¶

GVM 测试集含 166 个高质量 3D 物体、约 490 万点级标注，远大于以往（如 NeRF2Physics 仅 11 物体 31 点）。指标为各属性的 ALDE / ALRE / ADE / ARE（越低越好）。

方法	$E$ ALDE↓	$E$ ALRE↓	$\nu$ ARE↓	$\rho$ ADE↓	$\rho$ ARE↓
NeRF2Physics	2.80	0.135	—	1432.0	1.037
PUGS	3.39	0.169	—	3568.2	3.243
Phys4DGen⋆	4.90	0.223	0.147	1865.6	1.439
VoMP（本文）	0.379	0.041	0.082	142.7	0.092

作者据 §D.4 的仿真探查给出可解释门槛：$E$ 的 ALRE < 0.05、其它属性 ARE < 0.15 时仿真效果相近——VoMP 的 $E$ ALRE = 0.041 已跨过该门槛，意味着在精确仿真器下能比对手产生更忠实的仿真。NeRF2Physics、PUGS 甚至不输出泊松比 $\nu$。

速度对比（单 A100 + 64 CPU，100 次平均，约 53.9K 高斯/物体）¶

方法	端到端时间 (s)
NeRF2Physics	1454.55
PUGS	1058.33
Pixie（并发工作）	201.63
Phys4DGen⋆	51.65
VoMP（本文）	3.59

VoMP 时间分解：渲染 2.11s、DINOv2 计算 0.86s、DINOv2 重建 0.58s、体素化 0.03s，而 Geometry Transformer 仅 0.008s、MatVAE 仅 0.0003s——瓶颈全在渲染/预处理，纯网络推理几乎免费。整体比对手快 5–100×，根本原因是它是唯一的纯前馈方法（无逐物体优化）。

关键发现¶

物理有效性是设计出来的：在 MTD 真实材料范围上度量"输出离最近真实材料范围的相对误差"，VoMP 平均输出远比基线更接近真实材料——因为它被显式约束在 MatVAE 材料流形上，而基线没有这种兜底。
网络几乎不是瓶颈：Transformer + MatVAE 合计 < 9ms，几秒的总耗时几乎全花在渲染和 DINOv2，说明前馈范式把"算材料"这件事变得近乎实时。
跨表示泛化：同一模型可处理网格、SDF、3DGS、NeRF，质性上能驱动多物体掉落、可形变碰撞等真实仿真且无需任何手工调参。
质量提升来源：基线掉点多因偶发误标部件（Phys4DGen）、噪声估计（NeRF2Physics/PUGS）以及对物体内部估计不准；VoMP 体内体素化 + 潜空间兜底正好补上这些短板。

亮点与洞察¶

"合法性"与"分配"解耦：用一个独立预训练、推理时冻结的 MatVAE 当连续 tokenizer，把"输出必须是真实材料"这件硬约束从主网络里剥离出来。这个思路可迁移到任何"回归值必须落在合法物理/语义流形内"的任务（如反射率、BRDF、热学参数预测）。
内部体素化是关键差异点：以往多视角特征提升只覆盖表面，VoMP 坚持把内部也体素化并用多视角平均特征"灌"进去，这是它能预测体内材料、而非只贴表面标签的根本。
VLM 不裸用而是被数值约束：把 MTD 里检索到的真实材料取值范围连同纹理球面渲染一起喂给 VLM，相当于给"幻觉重灾区"加了物理护栏——这比直接信 VLM 的部件级材料标注稳健得多。
借力 TRELLIS 骨干 + 随机体素重采样：用 TRELLIS 权重初始化省训练成本，再用 epoch 级随机重采样把大资产的有效体素上限撑大，是处理变尺寸 3D 资产的实用工程招法。

局限与展望¶

依赖渲染/体素化质量：瓶颈在渲染与 DINOv2 预处理（占总耗时绝大部分），对无法良好渲染或体素化的几何会受限；高斯泼溅还需专门的三阶段体素化器。
部件级各向同性假设：GVM 标注把每个部件当成单一各向同性材料，难以表达部件内部的连续渐变或各向异性材料。
VLM 标注上限：训练监督来自 VLM（即便有数值约束），其精度上限受 VLM 与材料库覆盖度制约，植被等子集甚至无法公开。
数据/代码可得性：训练依赖 NVIDIA 内部高质量资产，部分数据不可公开，复现门槛较高；代码尚未释出。
改进方向：把渲染/特征提取进一步优化以逼近实时；支持各向异性与部件内连续材料场；探索把仿真反馈回灌到材料预测里做闭环。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个前馈、跨表示、体内、物理有效的力学材料场预测方法，并首次提出材料潜空间。
实验充分度: ⭐⭐⭐⭐⭐ 新建 490 万点级基准 + 速度/精度/有效性/质量多维评测，全面碾压前作。
写作质量: ⭐⭐⭐⭐ 动机与设计解耦讲得清楚，但部分核心结果（部分图）在正文以图编号引用、阅读需对照。
价值: ⭐⭐⭐⭐⭐ 把"给 3D 资产配仿真材料"从手工几小时变成几秒前馈，对数字孪生/Real-2-Sim 流程实用价值大。