VisionLaw: Inferring Interpretable Intrinsic Dynamics from Visual Observations via Bilevel Optimization¶
会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=eWoUcwEtLt
代码: https://github.com/JiajingLin/VisionLaw
领域: 物理仿真 / 3D视觉 / 本构律推断
关键词: 内禀动力学, 本构律, 双层优化, LLM 进化, 可微 MPM
一句话总结¶
VisionLaw 把"从视频里看出物体物理性质"建模成一个双层优化问题——上层让 LLM 当物理专家,进化出符号形式(Python 代码)的本构律;下层用可微 MPM 仿真器在视觉监督下优化连续材料参数并回传 fitness 与反馈,最终从单视角视频里推断出既可解释又能泛化的内禀动力学,合成数据上 Chamfer 距离从 NeuMA 的 2.86 降到 1.65。
研究背景与动机¶
领域现状:要让 3D 资产做出真实的可交互仿真(VR、具身智能、动画里物体被推/被压时的反应),就得知道它的内禀动力学——材料属性(如刚度)和本构律(material 在受力下如何响应)。近年的主流路线是把物理仿真器(尤其是物质点法 MPM)嵌进 NeRF / 3DGS 这类视觉表示里,从而"看视频反推物理"。按推断对象可分两类:一类估材料参数(PAC-NeRF、GIC、PhysDreamer),一类推本构律(OmniPhysGS、NeuMA)。
现有痛点:这两条路各有硬伤。人工预定义本构律这一派(PAC-NeRF、NCLaw、OmniPhysGS)依赖手工设计的本构形式或一个专家给定的本构集合,但真实世界材料的非线性行为五花八门,预设形式经常对不上实际动力学,参数估计跟着失准。神经网络本构律这一派(NeuMA)直接用网络拟合本构律,灵活是灵活,但它是黑盒:① 学出来的律没有可解释性,人和 LLM 都看不懂;② 缺物理归纳偏置,网络倾向于机械地重建视觉观测而非建模背后的动力学,于是过拟合训练视角、换个视角/换个场景就崩。
核心矛盾:可解释性/泛化性 与 表达灵活性 之间存在 trade-off——手工本构律可解释但不够灵活,神经本构律灵活但不可解释且易过拟合。问题根子在于:本构律本质是一个离散的符号表达式(什么函数形式)外加一组连续参数(具体数值),而现有方法要么把符号部分写死、要么把它揉进神经权重里彻底丧失符号性。
本文目标:从多视角视频里同时推断出离散的本构律符号表达式,并优化其连续材料参数,且推断结果要可解释、能泛化到新场景。
切入角度:作者注意到 LLM 在科学发现里展现出强符号推理能力和丰富物理先验,可以充当"物理专家"去写本构律——把每条本构律表示成一段有明确物理含义的 Python 代码,既保留符号可解释性,又能借进化搜索不断试错改进。
核心 idea:用一个双层优化框架统一"本构律进化"和"视觉引导评估":上层 LLM 进化符号本构律(离散结构搜索),下层可微仿真在视觉监督下优化材料参数并打分反馈(连续参数优化),闭环互相驱动。
方法详解¶
整体框架¶
VisionLaw 要解决的是一个"结构 + 参数"双重未知的反问题:本构律 \(\varphi\)(由弹性律 \(\varphi_E\) 和塑性律 \(\varphi_P\) 组成)是离散的符号表达式,材料参数 \(\theta\) 是连续数值,二者都得从视频里反推出来。作者把它写成一个双层优化目标:
其中 \(\Phi\) 是可微 MPM 仿真器,\(R\) 是可微渲染器,\(V\) 是视频观测,\(h(\cdot)\le 0\) 约束本构律必须"可仿真"。直观理解:上层搜本构律的符号形式 \((\varphi,\Theta)\),下层在给定符号形式下把连续参数 \(\theta\) 优化到最优 \(\theta^*\),并把优化得到的最小 loss 当作这条律的"适应度"、把 loss 曲线和参数轨迹当作"反馈"交回上层指导下一轮进化。
整条 pipeline 这样转:从多视角视频首帧重建静态 3DGS → 初始化一个纯弹性本构个体作为种群起点 → 下层把候选本构律嵌入可微 MPM 驱动仿真、渲染出预测动态、与观测算 loss 并反传优化材料参数,产出 fitness 与反馈 → 上层选出 top-k 个体,连同反馈编码进 prompt 交给 LLM 分析、改进、生成下一代本构律(受解耦进化策略调度)→ 迭代直到收敛。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["多视角视频观测"] --> B["静态 3DGS 重建<br/>(首帧)"]
B --> C["LLM 驱动的本构进化<br/>生成/修正符号本构律"]
C --> D["解耦进化策略<br/>弹塑性交替→联合"]
D --> E["视觉引导的本构评估<br/>可微 MPM + 渲染优化参数"]
E -->|fitness + 反馈| C
E --> G["可解释本构律 + 材料参数"]
关键设计¶
1. 双层优化框架:把"符号结构搜索"与"连续参数优化"拆成两层各司其职
本构律推断的难点在于它既要定函数形式(离散)又要定数值(连续),把两者塞进同一个优化器里要么搜不动要么丢可解释性。VisionLaw 的破局点是按变量性质分层:上层只管离散符号表达式 \((\varphi,\Theta)\) 的生成与修正,交给擅长符号推理的 LLM;下层只管连续材料参数 \(\theta\) 的优化,交给可微仿真 + 梯度下降。两层通过 fitness(下层达到的最小 loss)和 feedback(loss 曲线、参数更新轨迹)耦合——下层评估结果既给上层选择父代提供依据,又以自然语言反馈形式注入 LLM 的 prompt 指导改写。这种分工让"该用符号推理的地方用 LLM、该用梯度的地方用可微优化",规避了纯神经方法把结构揉进权重导致黑盒的问题。
2. LLM 驱动的本构进化:让大模型当物理专家,把本构律写成可解释的 Python 代码
针对"神经本构律不可解释、缺物理先验"的痛点,上层把 LLM 当作进化算子,每条本构律都表示成一段有清晰物理含义的 Python 代码片段(弹性模型输出 Kirchhoff 应力 \(\tau\),塑性模型输出修正后的形变梯度 \(F_{\text{corrected}}\))。整个搜索是一个五阶段进化循环:① 初始化——以经典本构律(如线性各向同性弹性 + 恒等塑性的纯弹性模型)作物理上合理的起点;② 适应度评估——每个候选个体送下层仿真打分并收集反馈;③ 选择——先剔除适应度差小于阈值 \(\epsilon\) 的重复个体以保多样性、避免局部最优,再选 top-k 高适应度个体当父代;④ 表达式修正——提示 LLM 先依反馈分析父代表达式缺陷、再制定改进计划、最后生成一组物理上合理的新候选,形式化为 \(\{\varphi_m,\Theta_m\}_{m\in|M|}=\text{LLM}(\{\varphi_k,\Theta_k,O_k\}_{k\in|K|},P)\),其中 \(O\) 是下层反馈、\(P\) 是 prompt;⑤ 迭代重复 ②–④。这样既借 LLM 的物理先验注入了归纳偏置(抑制过拟合),又因为输出是符号代码而天然可解释,人能直接读懂公式的物理含义。
3. 解耦进化策略:先弹塑交替、再联合精修,化解搜索空间爆炸
一条完整本构律由弹性部分 \(\varphi_E\) 和塑性部分 \(\varphi_P\) 共同决定,若同时优化两者,搜索空间成倍膨胀,LLM 搜起来困难、难收敛到高质量解。解耦策略把这个耦合任务拆成两个可独立求解的子任务,分两阶段走:交替进化阶段每轮只让 LLM 优化弹性或塑性其中一个分量、另一个固定,下一轮再换,多轮交替;联合进化阶段在交替优化产出高质量表达式之后,再让 LLM 从全局视角同时微调弹塑两部分做精修。论文实现为 4 轮交替 + 3 轮联合。这样先"分而治之"缩小每一步的搜索空间、提升稳定与效率,再"全局微调"补上分量间耦合的细节,既锐化了利用(exploitation)又拓宽了探索(exploration)。
4. 视觉引导的本构评估:用可微 MPM + 渲染把视频变成可反传的监督信号
下层要回答"这条候选本构律到底符不符合视频里的动力学",并给上层提供高质量打分与反馈。做法是:先从多视角视频首帧重建静态 3DGS 表示,把带连续参数的候选本构律 \(\varphi(\theta)\) 无缝嵌入可微 MPM 仿真器,MPM 驱动 3DGS 做前向仿真、渲染出各视角预测视频 \(\hat V\),与观测 \(V\) 算监督 loss:
由于渲染器 \(R\) 和 MPM 仿真器 \(\Phi\) 都可微,这个 loss 能一路反传去优化连续材料参数 \(\theta\)(Adam,lr \(1\times10^{-3}\))。优化过程中收集 loss 曲线和参数更新轨迹当作反馈 \(O\) 喂给上层 LLM 的 prompt,并把优化达到的最小 loss 作为该本构候选的 fitness 指导上层选择。值得一提的是,作者还验证了把下层换成无梯度的差分进化搜索也能收敛到可比解,说明该评估机制不强依赖可微性,在非可微仿真环境里同样可用。
损失函数 / 训练策略¶
下层监督 loss 为 L2 与 D-SSIM 的加权(见式上),上层无显式 loss、由 fitness(下层最小 loss)驱动进化选择。上层用 GPT-4.1-mini 生成本构假设;解耦进化执行 4 轮交替 + 3 轮联合;下层 MPM 在重力 \(9.8\,\text{m/s}^2\) 下用 Adam(lr \(1\times10^{-3}\))优化材料参数;每个场景 5 个随机种子独立跑,硬件为单张 NVIDIA A40(48 GB)。所有实验仅用单视角视频作真值观测来推断内禀动力学。
实验关键数据¶
主实验¶
合成数据(NeuMA 的 6 个动态场景)上用仿真轨迹与真值粒子轨迹的 L2-Chamfer 距离衡量内禀动力学一致性(越低越好):
| 方法 | BouncyBall | ClayCat | HoneyBottle | JellyDuck | RubberPawn | SandFish | 平均 |
|---|---|---|---|---|---|---|---|
| PAC-NeRF | 516.30 | 15.38 | 2.21 | 137.73 | 15.47 | 1.71 | 114.80 |
| NCLaw | 56.69 | 2.35 | 0.92 | 11.97 | 3.91 | 1.30 | 12.86 |
| NeuMA | 1.78 | 1.24 | 1.09 | 10.96 | 1.01 | 1.07 | 2.86 |
| VisionLaw | 1.08 | 0.77 | 0.79 | 5.19 | 0.94 | 1.10 | 1.65 |
VisionLaw 平均 Chamfer 1.65,显著优于最相关的 NeuMA(2.86),在复杂场景(BouncyBall、JellyDuck)优势尤为明显;仅 SandFish 一项略逊于 NeuMA(1.10 vs 1.07)。视觉保真度上(PSNR),VisionLaw 在全部非训练视角的平均 PSNR 上超过 NeuMA,且各视角表现稳定;而 NeuMA 在训练视角及邻近视角 PSNR 高、未见视角骤降,暴露其过拟合训练视角的问题。真实数据(Spring-Gaus 的 Bun、Burger 两场景)上,VisionLaw 的 PSNR 也优于只能建线性弹性的 Spring-Gaus 和易受噪声影响的 NeuMA。
消融实验¶
| 配置 | 关键现象 | 说明 |
|---|---|---|
| 含解耦(4 交替 + 1 联合) | RGB loss 更低、阴影区更大 | 完整策略:搜索空间更小、解多样性更高 |
| 去解耦(5 轮全联合) | RGB loss 更高、收敛更早陷入差的局部最优 | 联合优化使搜索空间爆炸 |
| 下层:梯度优化(默认) | 收敛快、runtime 低 | 依赖可微仿真 |
| 下层:进化搜索(DE,pop 5/10) | 收敛到可比解,ClayCat/RubberPawn 甚至更优,但 runtime 高 | 证明可用于非可微仿真环境 |
泛化(仅用前 200 帧推断、预测后 200 帧,Chamfer):VisionLaw 在 ClayCat 0.95 / HoneyBottle 0.96 / RubberPawn 0.93 / BouncyBall 1.17,对应 NeuMA 为 7.93 / 1.24 / 1.39 / 13.6——NeuMA 因过拟合在时序外推上大幅发散,VisionLaw 凭物理归纳偏置保持稳定。
关键发现¶
- 解耦进化贡献关键:去掉解耦后 RGB loss 全面升高且更早陷入差解,说明把弹塑性搜索拆开(交替→联合)是稳定 LLM 搜索、提质量的核心;阴影区(解多样性)更大也印证它同时增强了探索。
- 物理归纳偏置带来泛化:相比黑盒神经本构律,LLM 注入的物理先验 + 符号表达的隐式正则,使 VisionLaw 在未见视角、未见时序、跨场景 4D 交互(image-to-4D / 3D-to-4D,clay 缓慢形变、rubber 弹性回弹、sand 分散)上都更稳。
- 下层优化器可换:把可微梯度优化换成无梯度差分进化仍能达到可比甚至更优结果,代价是 runtime 显著增加——这说明框架不锁死在可微仿真上,具备落地非可微环境的潜力。
亮点与洞察¶
- 把"反推物理律"重构成结构/参数双层优化:离散符号交给 LLM、连续数值交给可微梯度,各取所长,是这篇最巧的顶层设计——它直接化解了"灵活 vs 可解释"的老 trade-off。
- 本构律 = Python 代码:用可执行代码片段表示本构律,既能直接嵌进 MPM 仿真器跑,又让人/LLM 都读得懂物理含义,符号形式本身还起到隐式正则、抑制过拟合的作用,一举多得。
- 解耦进化是可迁移的 trick:当 LLM-as-optimizer 的搜索对象天然可分解(这里是弹性/塑性)时,"先分量交替、再全局联合"能显著压缩搜索空间、稳住收敛,这套思路可迁移到其他 LLM 驱动的多分量符号搜索任务。
- fitness + 自然语言反馈双通道:下层不仅回传一个标量分数,还把 loss 曲线和参数轨迹当反馈编进 prompt,让 LLM 的"修正"有据可依,而非盲改。
局限与展望¶
- 上层依赖 GPT-4.1-mini 的物理先验与符号推理,对 LLM 能力和 prompt 设计敏感,换弱模型或换领域(如非 MPM 可表达的材料)效果未知。
- 评估开销不低:每个候选都要跑一遍可微仿真 + 参数优化,进化多轮 × 多候选 × 5 种子,算力成本可观;换无梯度搜索后 runtime 进一步上升。
- 仿真器仍是 MPM,能表达的本构形式受 MPM 框架(弹性律 + 塑性回映)限制,超出该范式的复杂材料(如强各向异性、断裂、相变)能否覆盖存疑。
- 真实数据仅 2 个场景、每场景 3 视角 19 帧,规模偏小,真实世界鲁棒性的证据还较薄。
相关工作与启发¶
- vs NeuMA(最相关):NeuMA 用神经网络直接学本构律,灵活但黑盒、缺物理偏置、过拟合训练视角;VisionLaw 改用 LLM 进化符号本构律,可解释 + 物理先验加持,合成 Chamfer 从 2.86 降到 1.65,未见视角/时序泛化大幅领先。
- vs PAC-NeRF / NCLaw:它们依赖人工预定义本构律、只估参数或拟合已知动力学,对初始化敏感、对不上真实复杂动力学;VisionLaw 让本构形式本身可被搜索发现,不再受预设形式束缚。
- vs OmniPhysGS:OmniPhysGS 从专家设计的本构集合里给每个高斯核分配现成的律,受限于集合覆盖面;VisionLaw 由 LLM 现场生成全新符号律,表达多样性更高。
- vs Spring-Gaus:Spring-Gaus 用弹簧-质点系统建线性弹性、估弹簧刚度,处理不了真实可形变物体的非线性弹性;VisionLaw 借 LLM 物理先验覆盖更广的非线性行为。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 把内禀动力学推断重构成"LLM 进化符号本构律 + 可微仿真评估"的双层优化,符号化 + LLM-as-optimizer 的组合很新。
- 实验充分度: ⭐⭐⭐⭐ 合成 6 场景 + 真实 2 场景 + 泛化/消融/非可微潜力分析较全,但真实数据规模偏小。
- 写作质量: ⭐⭐⭐⭐⭐ 动机—痛点—方法—闭环讲得清晰,图 2 pipeline 和符号代码示例直观。
- 价值: ⭐⭐⭐⭐ 为可解释、可泛化的物理感知 4D 交互提供了新范式,对具身/仿真有实际意义。