PhysGM: Large Physical Gaussian Model for Feed-Forward 4D Synthesis¶
会议: CVPR2026
arXiv: 2508.13911
代码: 项目主页
领域: 3D视觉
关键词: 3D高斯溅射, 物理仿真, 前馈式4D合成, MPM, DPO, 物理属性预测
一句话总结¶
PhysGM 提出首个前馈式框架,从单张图像一次推理即可同时预测 3D 高斯表示和物理属性(刚度、质量等),结合 MPM 仿真在一分钟内生成高保真的物理合理 4D 动画,无需任何逐场景优化。
研究背景与动机¶
3DGS 重建瓶颈:现有物理驱动 4D 合成依赖从稠密多视角图像重建 3DGS,需要耗时的逐场景优化,无法规模化部署。
物理参数手动指定:PhysGaussian 等方法需通过配置文件手动设定刚度、质量等物理属性,缺乏自动化和泛化能力。
SDS 优化代价高:OmniPhysGS、DreamPhysics 等用 SDS 从视频模型蒸馏物理先验,需梯度回传穿过可微物理仿真器,单场景优化耗时 0.5–12 小时。
外观与物理脱节:现有方法将预建的 3DGS 与物理模块简单拼接,忽略了外观中蕴含的物理线索(如金属光泽暗示材料刚度),导致性能次优。
缺乏训练数据:此前不存在将 3D 资产与物理属性标注和参考仿真视频配对的大规模数据集。
核心问题:能否完全绕过逐场景优化,通过单次前馈推理生成完整的物理驱动 4D 仿真?
方法详解¶
整体框架¶
PhysGM 为 Transformer 架构的物理感知重建模型,输入带位姿的 RGB 图像(1 或 4 视角),单次前馈输出:(1) 3D 高斯表示参数 \(\psi\);(2) 物理属性向量 \(\theta\)。这些参数直接初始化 MPM 仿真器生成动态序列。单视角输入时用 MVAdapter 合成后、左、右三个辅助视角。
多模态分词:
- 图像编码器采用 DINOv3 (ViT-L/16),对输入图像进行 patch 化并投影为 1024 维特征
- 相机几何用 Plücker 射线坐标表示,经密集表示编码器处理后与图像 token 拼接
- 额外引入 3 个可学习全局 token \(\mathbf{g}_1, \mathbf{g}_2, \mathbf{g}_3\) 用于聚合全局场景信息
Transformer 骨架:24 层 Transformer,收集中间层输出 token 提供多尺度表示。
关键设计一:双头预测¶
DPT 头(3DGS 参数):采用 Dense Prediction Transformer 头,从多尺度特征逐步上采样,输出逐像素 3DGS 参数图(位置 \(\mu\)、旋转 \(\mathbf{q}\)、缩放 \(\mathbf{s}\)、不透明度 \(\alpha\)、颜色 \(\mathbf{c}\)),各视角预测的高斯聚合为完整 3D 场景。
物理头:从 3 个全局 token 预测三类物理属性:
- 分类头 \(f_{\text{material}}\):预测材料类别 \(C\)(决定本构模型选择)
- 回归头 \(f_{\text{phys}}\):输出 Young 模量 \(E\) 和泊松比 \(\nu\) 的均值与对数方差,定义条件概率分布 \(P(\theta|I) = \mathcal{N}(\theta|\mu_\theta, \text{diag}(\sigma_\theta^2))\)
概率式建模允许采样多样化物理参数,为后续 DPO 偏好对的构建提供基础。
关键设计二:两阶段训练¶
Stage 1 — 监督预训练:在 PhysAssets 数据集上联合优化 3DGS 重建(MSE + Alpha + LPIPS 损失)和物理属性预测,建立强泛化先验。联合优化的关键优势是让几何与物理互相增强。
Stage 2 — DPO 微调:冻结骨架,仅微调物理预测头。
- 对每个场景采样 \(K\) 组物理参数候选 \(\phi_k \sim \pi_\omega(\cdot|\mathbf{z})\)
- 各候选运行 MPM 仿真并渲染视频 \(V_k\)
- 用 SAM-2 分割 + CoTracker-3 轨迹提取计算与 GT 视频的感知距离
- 距 GT 最近者为 "winner" \(\phi_w\),最远者为 "loser" \(\phi_l\)
- DPO 损失:\(L_{\text{DPO}} = -\mathbb{E}[\log\sigma(\beta\log\frac{\pi_\omega(\phi_w|\mathbf{z})}{\pi_{\text{ref}}(\phi_w|\mathbf{z})} - \beta\log\frac{\pi_\omega(\phi_l|\mathbf{z})}{\pi_{\text{ref}}(\phi_l|\mathbf{z})})]\)
DPO 的关键优势:完全绕过可微物理引擎和 SDS,仅需 ranking 信号即可对齐物理合理性。
关键设计三:MPM 物理仿真¶
采用 Material Point Method(MPM)驱动动态仿真,将 3D 高斯与 MPM 粒子一一对应:
- 粒子位置 \(\mathbf{x}_p\) 直接定义高斯均值 \(\mu\)
- 变形梯度 \(\mathbf{F}_p\) 经极分解得旋转 \(\mathbf{R}_p\) 和拉伸张量 \(\mathbf{S}_p\),分别更新高斯旋转和缩放
- 根据预测材料类别选择本构模型:Neo-Hookean(果冻/橡胶)、Fixed Corotational(金属)、Drucker-Prager(沙/雪/橡皮泥)
仿真参数:网格 200³,子步长 \(2\times10^{-5}\)s,帧时间 \(4\times10^{-2}\)s,每序列 50 帧。
损失函数¶
- 预训练阶段:\(L = L_{\text{MSE}} + L_{\alpha} + L_{\text{LPIPS}}\)(渲染图与 GT 对比)+ 物理属性监督损失
- 微调阶段:\(L_{\text{DPO}}\)(偏好对排序损失)
实验¶
PhysAssets 数据集¶
自建的大规模数据集,包含 50K+ 3D 资产(来源于 Objaverse、OmniObject3D、ABO、HSSD),每个资产标注材料类别、Young 模量、泊松比及参考仿真视频。材料分布涵盖塑料(27.3%)、木材(16.8%)、金属(14.6%)、织物(14.5%)等 46 类。
主实验结果¶
| 方法 | 训练方式 | 泛化性 | 推理时间 | CLIP\(_{\text{sim}}\) |
|---|---|---|---|---|
| OmniPhysGS | SDS | ✗ | >12h | 0.2091 |
| DreamPhysics | SDS | ✗ | >0.5h | 0.2291 |
| PhysGM (w/o DPO) | 监督 | ✓ | <1min | 0.2693 |
| PhysGM (w/ DPO) | DPO | ✓ | <1min | 0.2748 |
- PhysGM 在 5 种材料类别(金属/果冻/橡皮泥/雪/沙)上全面领先
- 用户偏好率 UPR:PhysGM w/ DPO 达 42.8%(4 选 1,随机 25%),远超 OmniPhysGS 10% 和 DreamPhysics 17.2%
多视角重建质量(GSO 数据集)¶
| 方法 | 分辨率 | PSNR↑ | SSIM↑ | LPIPS↓ |
|---|---|---|---|---|
| LGM | 256 | 21.44 | 0.832 | 0.122 |
| PhysGM | 256 | 25.47 | 0.916 | 0.071 |
| GS-LRM | 512 | 30.52 | 0.952 | 0.050 |
| PhysGM | 512 | 28.95 | 0.953 | 0.039 |
PhysGM 在 LPIPS 上超越 GS-LRM,仅用 10% 的训练数据。
消融实验¶
DPO 微调阶段的关键性验证:
- w/o DPO → w/ DPO:CLIP\(_{\text{sim}}\) 从 0.2693 → 0.2748,UPR 从 30% → 42.8%
- DPO 在所有 5 种材料上均带来一致提升,尤其在金属(UPR 30%→49%)和雪(26%→47%)上增益显著
- 表明 DPO 有效地将统计意义上合理的物理先验转化为感知质量更优的生成器
关键发现¶
- 前馈推理完全可行:单次前向传播 <30s + MPM 仿真即可完成端到端 4D 合成,比 SDS 方法快 720× 以上
- 联合训练优于拼接:3DGS 与物理属性的联合预测互相增强,避免了信息割裂
- DPO 替代 SDS:无需可微物理引擎,仅需 ranking 反馈即可有效对齐物理真实性
- 泛化能力强:能处理拉伸、扭转、多物体多材料交互、真实世界图像等多样场景
亮点¶
- 首个前馈式物理 4D 合成框架:从单图到完整物理仿真动画 <1 分钟,实现了从 "逐场景优化" 到 "摊销推理" 的范式转变
- 创新性 DPO 训练:将 RLHF 中的偏好对齐思想引入物理仿真领域,用 SAM-2 + CoTracker-3 自动构建偏好对,完全绕过可微仿真器的限制
- 概率式物理预测:物理头输出分布而非点估计,既能量化不确定性又为 DPO 采样提供基础
- PhysAssets 大规模数据集:50K+ 带物理标注的 3D 资产填补了领域空白
- 速度-质量双赢:不以牺牲质量换取速度,在各指标上全面超越需要数小时优化的 SDS 方法
局限性¶
- MPM 仿真计算代价高:MPM 本身仍是主要计算瓶颈,限制了大规模实时应用
- Sim-to-Real Gap:训练数据为合成数据,简化的本构模型与真实物理存在固有差距,影响真实场景泛化
- GT 视频生成依赖 FramePack:参考视频由 FramePack 生成而非真实物理录制,可能引入偏差
- 材料类别有限:当前支持 5 大类本构模型,对流体、断裂等复杂物理现象尚未覆盖
- 物理标注质量:依赖 MLLM(Qwen3VL)自动标注物理属性,存在标注噪声
相关工作¶
| 方法 | 需预建 3DGS | 自动物理参数 | 可泛化 | 推理时间 |
|---|---|---|---|---|
| PhysGaussian | ✗ | 手动指定 | ✓ | - |
| DreamPhysics | ✗ | 仅 Young 模量 | ✓ | >0.5h |
| PhysDreamer | ✗ | 仅 Young 模量 | ✓ | >1h |
| OmniPhysGS | ✗ | 仅材料类别 | ✓ | >12h |
| PhysSplat | ✗ | ✓(需 LLM) | ✗ | <2min |
| PhysGM | ✓(无需) | ✓(全自动) | ✓ | <30s |
PhysGM 是唯一同时满足"无需预建 3DGS""全自动物理参数""强泛化""快速推理"的方法。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ — 首个前馈式物理4D合成框架 + DPO用于物理仿真对齐均为全新贡献
- 实验充分度: ⭐⭐⭐⭐ — 5种材料对比、消融、用户研究、多视角重建均有覆盖,但缺少真实场景定量评估
- 写作质量: ⭐⭐⭐⭐⭐ — 动机清晰、方法描述完整、补充材料详尽
- 价值: ⭐⭐⭐⭐⭐ — 将物理4D合成从小时级优化推进到分钟级推理,附带大规模数据集,对后续工作有重大推动