MOSIV:从视频中做多物体系统辨识¶
会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=0ylAe3Orfy
代码: 待确认(论文承诺开源代码与数据集)
领域: 3D 视觉 / 4D 重建 / 可微物理仿真
关键词: 系统辨识, 可微 MPM, 4D 高斯泼溅, 连续本构参数, 多物体接触, 物理仿真
一句话总结¶
MOSIV 首次把"多物体系统辨识"形式化为一个任务——从多视角视频里同时重建每个物体的 4D 几何并逐物体优化连续的本构材料参数(刚度、塑性、摩擦),用几何对齐损失驱动可微 MPM 仿真器,从而摆脱过去"从固定材料库里选类别"的离散建模,能在接触密集的多物体场景里复现观测并预测长程未来动力学。
研究背景与动机¶
- 领域现状:从视频理解物体物理属性(system identification)是机器人操作、物理可信场景编辑的基础。主流做法(GIC、Spring-Gaus、PAC-NeRF 等)几乎都假设单物体、孤立运动的受控场景;少数处理多材料的工作如 OmniPhysGS 则走"模型选择"路线——从一个固定的专家本构模型库里给每个物体挑一个类别。
- 现有痛点:真实世界是多物体碰撞、滑动、相互遮挡、运动彼此耦合的"混沌接触"场景。单物体方法直接失效;而离散材料分类只能命中"最接近的原型",无法给出准确物理所需的连续参数(杨氏模量 \(E\)、泊松比 \(\nu\)、摩擦系数 \(\mu\)),导致仿真视觉上不可信、长程会漂移。
- 核心矛盾:物体交互是"双刃剑"——接触提供了让隐藏物理属性变得可观测的丰富信号,但同时带来遮挡和剧烈复杂运动;而且刚度和摩擦这类歧义无法靠外观区分,必须分析几何与运动随时间的演化。多物体下还多出一个"接触处身份混淆"难题:在投影里两个物体贴在一起时,损失会跨物体张冠李戴。
- 本文目标:给定多视角视频、相机标定和实例 mask,重建所有物体随时间变化的 4D 几何,并逐实例辨识其连续物理参数,得到一个能复现观测、预测未来、还能泛化到新初始条件/新材料组合的场景"数字孪生"。
- 核心 idea:用可微仿真器把"选类别"换成"优化连续参数"——以视频导出的几何目标(逐物体 Chamfer + 轮廓)作为监督,端到端反传穿过可微 MPM,逐物体直接拟合连续本构参数,而非从离散库里分类。
方法详解¶
整体框架¶
MOSIV 是一条三阶段流水线:先从多视角视频重建物体感知的动态高斯场(实例 mask + 材料 mask 把核分配给各物体/各材料),再把每个物体的高斯重建抬升为可仿真的连续介质粒子集,最后从该粒子初态出发滚动可微 MPM,用几何对齐损失把仿真出的表面/轮廓与重建几何对齐,反传联合优化各物体未知的物理参数 \(\Theta\)。
flowchart LR
A[多视角 RGB 视频<br/>+实例/材料 mask] --> B[阶段一<br/>4DGS 物体感知重建]
B --> C[阶段二<br/>高斯→连续介质抬升<br/>逐物体粒子集]
C --> D[阶段三<br/>可微 MPM 滚动]
D --> E[几何对齐损失<br/>逐物体 Chamfer + 轮廓]
E -->|反传穿过 MPM| F[逐物体连续参数 Θ]
F -.参数更新.-> D
F --> G[应用:长程预测<br/>新交互/材料置换]
关键设计¶
1. 物体感知的动态高斯重建:让每个物体的材料运动可分离。 场景用一组规范高斯核表示,通过低秩时变形变在时间上 warp:每个核中心随时间展开为 \(\boldsymbol{\mu}_t=\boldsymbol{\mu}+\sum_{b=1}^{B}\alpha_b(\boldsymbol{\mu})\,\boldsymbol{\psi}^{\mu}_b(t)\),尺度同理,由一对网络产出时变基 \(\boldsymbol{\psi}_b\) 和空间门控 \(\alpha_b\)。优化目标是多视角光度一致性 \(\mathcal{L}_1+\lambda_{\text{SSIM}}\mathcal{L}_{\text{SSIM}}+\lambda_r\|r_t\|_1\)。关键在于用实例 mask 把核按物体划分、用材料 mask 按材料类型划分,这些标签会一路传给仿真器,从而把"哪块运动属于哪个物体/哪种材料"显式解耦——这是后续逐物体辨识能站住脚的前提。
2. 多物体高斯→连续介质抬升:保证接触界面物理可用。 动态高斯是为渲染优化的、空间分布不均匀的,不能直接当仿真粒子。方法对每个物体从一个薄占据场里采样粒子:在高斯点包围盒内随机撒点,只保留与多视角渲染深度对齐的点,再用"逐步升分辨率 + 均值滤波模糊边界 + 把实际含粒子的体素重新赋高密度防止侵蚀真实形状"的迭代精化密度场,最后阈值化抽出物体表面。相比单物体抬升,多物体多了两条约束:初始化时强制物体间支撑不相交(重叠体素分配给最近物体表面、清除残余穿插),以及维持粒子上的材料标签并对齐各物体网格分辨率使接触界面吻合——否则两个物体在接触处会"粘连"或穿模,破坏后续接触力学。
3. 多材料参数化与对称摩擦耦合:逐实例而非逐类别。 每个材料 \(m\) 关联一个控制弹性/塑性/黏性响应的参数向量 \(\theta_m\)。为在捕捉跨材料行为的同时压缩自由度,把材料 \(m,m'\) 间的库仑摩擦建成对称组合 \(\mu_{m,m'}=g(\mu_m,\mu_{m'})\),其中 \(g(a,b)=\tfrac12(a+b)\)(标注充分时也支持完全成对参数化)。核心立场是逐物体分配参数:每个实例 \(k\) 带自己的 \(\theta_k\),即便两个物体现实里是同种材料也不强制参数共享——可辨识性来自交互下逐物体的几何与轮廓约束,这样物体形变或受接触响应不同也能各自拟合。
4. 逐物体几何对齐损失:破解接触处的"身份借用"。 多物体的核心陷阱是:在并集上算最近邻 Chamfer/轮廓损失时,物体 \(k\) 上的仿真点会被物体 \(k'\) 的真值点"解释"(两体接触/投影互穿时),从而掩盖参数误标(如把过软的 \(k\) 形变成 \(k'\))并产生过于乐观的 rollout。解法是把监督下放到物体级:几何损失对各物体求不相交的 Chamfer 距离之和 \(\mathcal{L}^{\text{obj}}_{\text{CD}}(t)=\sum_{k=1}^{K}\big[d(P^{\text{sim}}_k,P^{\text{gt}}_k)+d(P^{\text{gt}}_k,P^{\text{sim}}_k)\big]\),轮廓损失逐物体对齐 \(\mathcal{L}^{\text{obj}}_{\alpha}(t,j)=\sum_{k=1}^{K}\|A^{\text{sim}}_{j,k}-\tilde{A}_{j,k}\|_1\)。这阻止优化器靠"在投影里跨物体互换质量/刚度"来最小化全局损失,在碰撞和黏滑(stick-slip)切换时给出更锐利的梯度。整个辨识目标即按时间和视角对上述两项求平均(式 3)。训练分三阶段,并用逐步加长 rollout 的 horizon 课程和"参数优化与偶尔重同步粒子态交替"的更新策略来抑制漂移。
实验关键数据¶
主实验表格¶
在自建 MOSIV Synthetic 数据集(Genesis 引擎生成,45 段双物体多视角视频,10 种几何 × 5 种材料:弹性 E / 塑性 P / 流体 F / 沙 S,11 视角)上评测。
可观测态仿真(Observable state,复现观测帧)平均指标:
| 方法 | PSNR↑ | SSIM↑ | CD↓ | EMD↓ |
|---|---|---|---|---|
| OmniPhysGS-RGB (OPGS) | 25.93 | 0.945 | 11.79 | 0.095 |
| OPGS w/ Oracle(给真值材料类别) | 24.39 | 0.930 | 43.50 | 0.168 |
| MOSIV (Ours) | 30.51 | 0.977 | 1.256 | 0.049 |
未来态仿真(Future state,预测观测帧之外的长程演化)平均指标:
| 方法 | PSNR↑ | SSIM↑ | CD↓ | EMD↓ |
|---|---|---|---|---|
| OmniPhysGS-RGB (OPGS) | 19.00 | 0.888 | 51.92 | 0.199 |
| OPGS w/ Oracle | 17.97 | 0.869 | 215.83 | 0.408 |
| MOSIV (Ours) | 28.26 | 0.963 | 3.710 | 0.071 |
MOSIV 在全部指标、全部材料配对类型上都大幅领先;尤其 CD 上把基线的两位数误差压到个位数甚至小数级。
消融实验表格¶
监督粒度消融(6 个场景,inter-material 各取一个),对比"场景级 vs 物体级"损失并开关 Chamfer 项 \(\mathcal{L}_{CD}\) 与轮廓项 \(\mathcal{L}_\alpha\):
| 监督粒度 | \(\mathcal{L}_{CD}\) | \(\mathcal{L}_\alpha\) | PSNR↑ | SSIM↑ | CD↓ | EMD↓ |
|---|---|---|---|---|---|---|
| 场景级(naive) | ✗ | ✓ | 26.59 | 0.964 | 53.21 | 0.132 |
| 场景级 | ✓ | ✗ | 27.59 | 0.959 | 40.29 | 0.119 |
| 场景级 | ✓ | ✓ | 27.89 | 0.968 | 22.13 | 0.091 |
| 物体级(ours) | ✗ | ✓ | 30.18 | 0.975 | 0.985 | 0.045 |
| 物体级 | ✓ | ✗ | 29.86 | 0.975 | 1.17 | 0.043 |
| 物体级(full) | ✓ | ✓ | 30.24 | 0.977 | 0.696 | 0.041 |
关键发现¶
- 逐物体监督是稳定优化的命门:场景级损失下 CD 高达 22~53,反映接触处"跨物体借点"导致仿真训练不稳;换成物体级后 CD 骤降到 1 以下,证明它修正了接触处理与参数误标。
- 离散材料选择会随时间漂移:OPGS 系列在长程预测里流体过度铺展、沙子不真实扩散,连给真值类别的 Oracle 变体也因架构本身只做"选类别"而长程表现更差(CD 反而更大),说明问题不在"选错类别"而在"离散建模"本身。
- 单一来源监督不够:只用 Chamfer 或只用轮廓都次于两者结合,几何与轮廓互补。
- 可泛化到新交互:固定几何/位姿/速度、置换各物体已辨识的本构参数后滚动 MPM,能产出与重新指派的刚度/屈服/摩擦一致且物理可信的新结果(图 3)。
亮点与洞察¶
- 任务层面的贡献:把"多物体系统辨识"作为一个新任务形式化,并配套发布带真值物理参数的合成基准——填补了过去只盯单物体/离散分类的空白,给后续研究立了一个强 baseline。
- 范式转变:从"在固定专家库里做模型选择"转向"逐物体优化连续本构参数",这是让物理仿真真正可信、可外推的关键一步;Oracle 变体仍输给 MOSIV 的事实,有力地说明离散建模的天花板。
- 对接触歧义的精准诊断与对症下药:明确指出多物体下"投影互穿→跨物体借点→掩盖误标"的失败模式,并用逐物体不相交 Chamfer/轮廓损失直接堵住,洞察清晰、修法干净。
- 工程闭环完整:4DGS 重建 → 占据场抬升(含支撑不相交约束)→ 可微 MPM(接触+库仑摩擦)→ 几何对齐反传,整条链路可微,配 horizon 课程稳定训练。
局限与展望¶
- 依赖预定义本构模型:当前从已知材料族里优化参数,遇到未知物理的材料会受限;作者指出可转向直接用神经网络学本构律(neural constitutive)来处理未知材料。
- 优化代价高且对初始几何敏感:可微 MPM rollout 计算密集、对初始重建质量敏感,杂乱遮挡场景下尤甚,需要更高效的优化与更鲁棒的 3D 重建。
- 仅在合成数据验证,sim-to-real 未解:实验全在 Genesis 合成数据上;迁移到真实视频(复杂光照、噪声、真实遮挡)仍是公开挑战。
- 实例 mask 与材料 mask 是输入前提:依赖从视频提取的实例 mask(以及可用/合成的材料 mask),在分割困难的场景中可能成为瓶颈。
相关工作与启发¶
- 对比 OmniPhysGS:作者把它适配为 video-driven SysID 基线(OmniPhysGS-RGB,用图像光度损失替换原 SDS),并造了给真值类别的 Oracle 上界——这种"把对手升级到 Oracle 仍打不过"的对照设计很有说服力。
- 对比 CoupNeRF:同样做多物体 SysID 但用隐式 NeRF + 可微 MPM、且限于自由落体;定性上 CoupNeRF* 会把塑性和沙都变成黏性流体、丢失材料区分度,凸显显式高斯表示在接触密集形变场景的时间一致性优势。
- 技术血缘:动态高斯重建沿用 Kratimenos 等的低秩形变 4DGS;高斯→连续介质抬升借鉴 GIC(Cai et al. 2024);可微 MPM 接续 Jiang/Hu/Du 等可微物理一系。MOSIV 的新意在于把这些拼成"逐物体连续参数辨识 + 接触感知"的多物体管线。
- 启发:可微仿真 + 显式几何表示的组合,正成为"视频→物理数字孪生"的有效路径;而"把全局损失下放到实例级以消除身份歧义"的思路,对任何多目标几何监督任务(多物体跟踪、多体形变、场景级物理编辑)都有借鉴价值。
评分¶
- 新颖性: ⭐⭐⭐⭐ —— 首次形式化"多物体系统辨识"并把离散材料选择换成逐物体连续参数优化,任务定义 + 方法范式都有实质创新。
- 实验充分度: ⭐⭐⭐ —— 自建基准、双任务(可观测/未来态)、多材料配对、监督粒度消融、新交互泛化都覆盖到了,对照设计(含 Oracle 上界、CoupNeRF)扎实;扣分在于仅合成数据、无真实视频验证。
- 写作质量: ⭐⭐⭐⭐ —— 问题动机、失败模式诊断(接触处身份借用)、方法叙述都清晰,公式与图示配合到位。
- 价值: ⭐⭐⭐⭐ —— 为物理可信的多物体场景重建/预测/编辑立了新任务与强 baseline,对机器人操作、可微仿真社区有较高参考价值;落地受限于合成域与计算代价。