MPMAvatar: Learning 3D Gaussian Avatars with Accurate and Robust Physics-Based Dynamics¶

会议: NeurIPS 2025
arXiv: 2510.01619
代码: https://KAISTChangmin.github.io/MPMAvatar/
领域: 3D视觉
关键词: 3D human avatar, physics-based simulation, MPM, 3D Gaussian Splatting, garment dynamics

一句话总结¶

MPMAvatar 将 Material Point Method (MPM) 物理仿真器与 3D 高斯溅射渲染相结合，通过各向异性本构模型和面向网格碰撞体的新碰撞处理算法，实现宽松衣物的精确鲁棒物理动画——在 ActorsHQ 和 4D-DRESS 上几何和外观全面超越 PhysAvatar，仿真成功率 100% vs 37.6%，单帧仿真仅需 1.1 秒。

研究背景与动机¶

领域现状：从多视角视频创建3D人体化身是计算机视觉和图形学的核心问题，近年来基于3D Gaussian Splatting (3DGS) 的方法在自由视角渲染上取得了显著进展。然而，对宽松衣物（如裙子、风衣）进行物理真实的动画化仍是一大挑战。

现有痛点：主流方法使用分段线性变换 (LBS) 或姿态依赖的几何校正来驱动衣物运动，但无法捕捉褶皱、飘动等复杂变形，且严重过拟合训练动作。少数尝试引入物理仿真的工作存在关键限制：Xiang等人采用X-PBD但需要耗时的人工参数搜索；PhysAvatar采用C-IPC仿真器，但当驱动身体网格存在微小自穿透时（这在实用的参数化人体估计中极常见）仿真会彻底崩溃，必须人工调整body mesh才能运行。在外观方面，PhysAvatar依赖mesh-based渲染无法捕捉细粒度纹理。

核心矛盾：真实的衣物动画需要物理仿真保证泛化性，但现有物理仿真方案在鲁棒性和精度之间难以兼顾——C-IPC精度尚可但极其脆弱，PBD速度快但物理精度不足。核心idea：采用Material Point Method作为仿真核心——MPM天然擅长处理大变形和复杂碰撞，再针对衣物的各向异性物理特性和网格碰撞体进行定制化改造，与3DGS渲染结合实现精度-鲁棒性-效率的全面优势。

方法详解¶

整体框架¶

MPMAvatar包含三个紧密耦合的模块：(1) 混合化身表示——用三角网格+物理参数建模几何和动力学，3D Gaussian Splats建模外观；(2) 基于定制MPM的物理动力学仿真——用各向异性本构模型和新碰撞算法驱动衣物运动；(3) 从多视角视频学习物理参数和外观参数。body区域用LBS驱动，衣物区域由MPM仿真驱动。

关键设计¶

各向异性本构模型（Anisotropic Constitutive Model）:
- 功能：精确建模衣物的方向依赖物理行为——沿面内方向容易拉伸，法向方向几乎不可压缩
- 核心思路：采用Jiang等人的各向异性本构模型，将应变能密度ψ按QR分解后的R矩阵重参数化为三个独立分量：ψ_normal（法向变形惩罚，由刚度κ控制）、ψ_shear（剪切惩罚，由γ控制）、ψ_in-plane（面内变形，由杨氏模量E和泊松比ν控制）。通过对每个粒子的材料方向做跟踪来区分不同方向的力学响应
- 设计动机：标准MPM使用各向同性本构（如Neo-Hookean），对衣物这种共维流形（codimensional manifold）建模不准——会出现撕裂伪影（图4b）。各向异性模型能正确产生织物特有的褶皱和垂坠
面向网格碰撞体的碰撞处理算法:
- 功能：有效解决衣物与SMPL-X体型网格之间的碰撞，防止穿透
- 核心思路：原始MPM的碰撞处理基于解析level set（如球体），无法处理网格碰撞体。本文提出两阶段方法：(a) Mesh-to-Grid Transfer——将碰撞体每个face的速度和法线通过B-Spline权重传递到附近网格节点；(b) Relative Velocity Projection——在碰撞体参考系中检测穿透方向速度并投影去除。复杂度O(N_f)远低于原始level set方法的O(N_grid³)（20K vs 8M）
- 设计动机：物理化身的碰撞体是SMPL-X body mesh而非简单几何体，必须支持任意网格碰撞体。且MPM本身的前馈速度投影方式（不同于C-IPC的迭代求解）保证了即使body mesh有轻微自穿透也不会导致仿真崩溃
准阴影渲染（Quasi-Shadowing）+ 逆物理学习:
- 功能：提升渲染真实感并从视频中自动学习物理参数
- 核心思路：准阴影通过神经网络预测每个Gaussian的着色标量w_p来模拟自遮挡阴影效果。物理参数学习方面，固定ν/γ/κ为默认值，通过有限差分法端到端优化杨氏模量E、密度ρ和休息几何参数α（补偿重力引起的初始变形）
- 设计动机：物理动画中阴影对视觉真实感至关重要；休息几何参数α解决了一个实际问题——从真实视频获得的canonical mesh已经被重力拉变形了，需要反推未受力时的形状作为仿真起点

损失函数 / 训练策略¶

物理参数学习：最小化仿真mesh与跟踪mesh之间的逐顶点L2距离，使用有限差分法优化（非可微仿真）。外观学习：在所有训练帧和视角上最小化渲染图像与GT图像的光度损失，用标准3DGS优化流程。

实验关键数据¶

主实验¶

数据集	方法	CD(×10³)↓	F-Score↑	LPIPS↓	PSNR↑	SSIM↑
ActorsHQ	ARAH	1.12	86.1	0.055	28.6	0.957
ActorsHQ	GS-Avatar	0.91	89.4	0.044	30.6	0.962
ActorsHQ	PhysAvatar	0.55	92.9	0.035	30.2	0.957
ActorsHQ	MPMAvatar	0.42	95.7	0.033	32.0	0.963
4D-DRESS	PhysAvatar	0.37	96.6	0.022	33.2	0.976
4D-DRESS	MPMAvatar	0.33	97.2	0.018	34.1	0.977

方法	仿真成功率(%)↑	单帧仿真时间(s)↓
PhysAvatar	37.6	170.0
MPMAvatar	100.0	1.1

消融实验¶

配置	CD(×10³)↓	PSNR↑	说明
Full (MPMAvatar)	0.42	32.0	完整方法
− Anisotropy	6.24	28.7	去掉各向异性→几何精度暴降15倍，出现撕裂
− Physics	0.69	31.0	默认参数不学习→次优动力学
− Shadow	-	31.8	去掉准阴影→PSNR下降0.2

关键发现¶

MPMAvatar在几何和外观上全面超越PhysAvatar，CD降低24%、PSNR提升1.8dB（ActorsHQ）
仿真鲁棒性是决定性优势：PhysAvatar 37.6%成功率（因body mesh自穿透导致C-IPC崩溃），MPMAvatar 100%
单帧仿真速度提升155倍（1.1s vs 170s）——MPM的前馈投影远快于C-IPC的迭代求解
各向异性本构是性能关键：去掉后CD从0.42暴增至6.24，甚至出现布料撕裂

亮点与洞察¶

经典物理仿真+现代神经渲染的结合是一个高价值研究方向——物理保证泛化性，神经渲染保证真实感
MPM相比C-IPC的核心优势在于"前馈速度投影"——不做迭代求解所以不会因碰撞检测失败而崩溃，这对实际应用（body mesh不完美是常态）至关重要
零样本场景交互泛化是物理仿真的独有能力——化身可以与未见过的椅子、沙子自然交互，学习型方法完全做不到
休息几何参数α的设计非常实用——解决了"从真实视频学物理但canonical pose已被重力变形"的鸡和蛋问题

局限与展望¶

不支持重光照（relighting），PhysAvatar支持
非衣物区域（如头发）仍用LBS驱动，可引入strand-based仿真进一步提升
衣物材质参数虽然通过逆物理学习，但每个化身需独立优化（非跨身份泛化）
MPM的时间步长受限影响快速运动的仿真精度

评分¶

新颖性: ⭐⭐⭐⭐⭐ MPM+3DGS的首次结合，定制化各向异性本构和碰撞处理是solid贡献
实验充分度: ⭐⭐⭐⭐ 两个数据集+全面消融+零样本交互演示，但主体对比仅vs PhysAvatar
写作质量: ⭐⭐⭐⭐ 方法描述细致，图表清晰
价值: ⭐⭐⭐⭐⭐ 物理仿真+神经渲染的典范工作，鲁棒性和效率的巨大提升有实际应用前景