跳转至

Beyond Static Vision: Scene Dynamic Field Unlocks Intuitive Physics Understanding in Multi-modal Large Language Models

会议: ICLR2026
OpenReview: Ax02eR2c3d
代码: https://github.com/andylinx/Scene-Dynamic-Field
领域: 视频理解 / 多模态VLM
关键词: 直觉物理, 多模态大模型, 物理模拟器, 视觉提示, 多任务微调

一句话总结

这篇论文先用 Next Frame Selection(下一帧选择)和 Temporal Coherence Verification(时序一致性判别)两个"低层"诊断任务,揭示当前 MLLM 连流体这类连续介质的直觉物理动态都看不懂;再提出 Scene Dynamic Field(SDF)——把物理模拟器算出的粒子速度映射成蓝色梯度图当视觉提示,配合多任务微调,让 Qwen2-VL / GLM-4.1V 在流体任务上最高涨 20.7%,并能迁移到布料、沙、烟雾等未见物理域。

研究背景与动机

领域现状:多模态大模型(MLLM)在图像/视频理解上已经很强,最近越来越多工作想测它们"懂不懂物理世界"。但现有物理基准(ContPhy、PhysBench)走的都是"高层物理推理"路线——通过问答、反事实预测、空间关系分析等复杂任务来考模型。

现有痛点:这些基准把多种能力纠缠在一起:一道题既考视觉、又考语言、又考常识、逻辑、还考物理。结果是 SOTA MLLM 在这些基准上普遍接近随机猜测,但你根本说不清它到底是"物理没学会"还是"别的认知能力拖了后腿"。同时主流训练方式(把视频当成一串帧丢给图像编码器端到端训)本身就抓不住理解物理所必需的低层动态;而视频编码器又大多在以人类动作为中心的数据集上无监督训练,缺少液体、布料这类连续介质(continuum object)的动态。

核心矛盾:物理推理的"地基"是直觉物理感知(能不能准确感知运动随时间的变化),可现有基准全在考"楼上"的高层推理,从没单独把这块地基拎出来量过。地基没探明,上层的推理缺陷就无从对症下药。

本文目标:拆成两个子问题——(1) 怎么把直觉物理感知从其它认知能力里解耦出来、单独评测?(2) 怎么进一步增强这个底层能力?

切入角度:借鉴课程学习(curriculum learning)思想,对 MLLM 也应该做"课程式评测"——先评最基础的那一步。作者选流体动力学作主战场,因为它日常无处不在、动态连续丰富,是理想的连续介质测试床。

核心 idea:用两个低层任务(NFS / TCV)把直觉物理感知单独量出来暴露缺陷;再用物理模拟器生成"速度→颜色"的中间表示 SDF 当视觉提示,通过多任务微调把模拟器里的物理知识"蒸馏"进 MLLM,绕开昂贵的架构改造。

方法详解

整体框架

整篇工作分两半:先建基准诊断、再提方法增强。诊断侧用一套统一的"区间采样 + 干扰项构造"流程,把一段视频切成若干区间,为每个区间造出真后继帧和一堆似是而非的干扰帧,组成 NFS(4 选 1 选下一帧)和 TCV(判断序列里有没有被插入不连贯帧)两个任务,零样本拷打各家 MLLM,证明它们确实不懂动态。增强侧的核心是 SDF:用 Blender + Flip Fluids 物理引擎仿真各种液体动作,把每个粒子的速度投影到相机方向、再换算成蓝色通道强度,得到一张"速度越大越深蓝"的动态场图像;这张图作为视觉提示,喂进一个多任务微调框架(动态感知任务 + SDF 引导的思维链任务 + 原始 NFS/TCV 任务),并用强模型与自蒸馏数据按 1:10 混合来训练。最终模型在流体上大涨,并能零迁移到布料、沙、烟雾。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["视频帧序列"] --> B["NFS / TCV 低层诊断基准<br/>区间采样+干扰项构造"]
    B -->|暴露 MLLM 动态感知缺陷| C["物理模拟器仿真<br/>液体动作视频"]
    C --> D["SDF 视觉提示<br/>粒子速度→蓝色梯度场"]
    D --> E["多任务微调<br/>动态感知+SDF引导CoT+原任务"]
    E -->|专家数据:自蒸馏=1:10| F["物理对齐的 MLLM"]
    F --> G["流体涨点 + 迁移至布料/沙/烟雾"]

关键设计

1. NFS + TCV:把直觉物理从"认知大杂烩"里单独拎出来考

针对"现有基准纠缠多种能力、说不清模型为什么失败"这个痛点,作者设计两个互补的低层任务,并配一套统一的干扰项构造流程保证题目质量。给定 \(T\) 帧序列 \(F=\{f_t\}_{t=1}^T\),先按时间步长 \(s\) 切成不重叠区间 \(\{I_i\}\);对每个区间,先排除时间上太近(缓冲带 \(\delta\) 之内)的帧得到候选集 \(D_i\),再用 SigLIP 嵌入算余弦相似度、过滤掉和真值帧 \(f_{gt}\) 过于相似的候选:\(D_i'=\{f_t\in D_i \mid \mathrm{sim}(f_t,f_{gt})<\tau\}\),确保留下的干扰项"语义上有区分但又似是而非"。NFS 是 4 选 1:从 \(D_i'\) 采 3 个干扰项,看模型给真后继帧的打分是否高于所有干扰项,\(\mathrm{Acc}_{NFS}=\frac1N\sum_i \mathbb{I}\big(p_{model}(f_{gt}|I_i)>\max_j p_{model}(d_j|I_i)\big)\)TCV 是是非题:往序列里随机插一帧破坏时序连贯,让模型判断"有没有不自然的帧"。这套设计的妙处在于:两个任务都只问"动态对不对",几乎不涉及语言/常识/逻辑,因此一旦模型做不好,就能确定是物理感知本身出了问题。实验也验证了缺陷之严重——最强开源模型 Qwen2.5-VL 在 NFS 上只有 32.73%(4 选 1 随机基线 25%)。

2. SDF 视觉提示:把模拟器的速度场画成一张"越快越蓝"的图

针对"纯语言推理抓不住时空物理关系"的痛点,作者不去改模型架构,而是造一个表示层的桥梁:把物理引擎里的粒子速度直接可视化成一张图当视觉提示。对相机位置 \(c\),每个粒子速度 \(v_i\) 沿视线方向的投影幅值为 \(v_{proj,i}=\|v_i\|\cos\theta_i=(v_i\cdot\hat r_i)\),其中 \(\hat r_i=\frac{c-p_i}{\|c-p_i\|}\) 是粒子指向相机的单位向量。蓝色通道密度建模为一条沿可观测域 \(\Omega\) 的线积分: $\(D_B(c)=\kappa\int_\Omega \frac{\|v_i\|}{1+\alpha\|c-p_i\|^2}\,d\Omega\)$ 其中 \(\kappa\) 把速度缩放为颜色强度、\(\alpha\) 控制空间衰减。速度越大的粒子因 \(\|v_i\|\) 项对蓝色贡献越大,于是动态被映射成"深浅不一的蓝色梯度",速度快的地方深蓝、慢的地方浅。这样做有效是因为:模拟器虽然在细粒度细节上不准,但它捕捉到的动态趋势和真实物理是一致的,而把这种趋势抽象成一张直观的颜色图,正好契合 MLLM 已有的视觉理解能力——模型不需要从头学物理方程,只要"看图识速度"。

3. 多任务微调:让模型既会"认动态场"、又会"用动态场推理"

针对"标准视频预训练补不上直觉物理这块",作者设计三类任务联合微调。Task 1 动态感知:给 RGB 视频和 \(N\) 张候选图,其中一张是真值 SDF、其余是干扰,让模型选出"最后一帧对应的 SDF 是哪张",逼它建立"RGB 动态 ↔ 速度场颜色"的对应。Task 2 SDF 引导的思维链:把 SDF 帧插到输入序列的关键位置 \(F_{CoT}=[f_1^{RGB},\dots,f_t^{RGB},f_t^{SDF}]\),再用三步 CoT——先分析帧里的流体动态、再结合给定的最后一帧 SDF、最后据此选下一帧,把"看动态场"显式编进推理链。原始 NFS/TCV 任务也一并放进训练。三类任务一起训,让模型既学会感知 SDF、又学会拿 SDF 当推理线索,而不是只把它当个无意义的彩色输入。

4. 专家数据 + 自蒸馏按 1:10 混合:稳住训练分布

CoT 的推理过程数据从哪来?一种是请更强的模型(如 Gemini-2.5-Pro)生成示范,另一种是模型自蒸馏自己的思考。作者观察到:专家模型的推理未必最优,而自蒸馏的好处是训练时分布漂移更小、更稳。于是把两者按 专家:自蒸馏 = 1:10 混合——以自蒸馏为主保证分布稳定,少量专家数据注入"如何正确利用 SDF 视觉提示"的引导。这个比例是论文消融过的选择,本质是在"借强模型的高质量示范"和"避免分布偏移损害训练"之间找平衡点。

损失函数 / 训练策略

Finetune 和 SDF-Ours 都用 SWIFT 框架做全参数监督微调,学习率 \(1\times10^{-5}\)、训练 3 个 epoch,在 4 张 A100 40G 上跑、5 次独立运行报置信区间。为公平对比,纯 Finetune 基线用和 SDF 方法相同数量的训练样本。为测 sim-to-real,最终在含真实世界视频的 NFS/TCV 数据集上评测。

实验关键数据

主实验

零样本诊断(Table 1)显示主流 MLLM 在直觉物理上普遍很差,NFS 多数低于随机基线附近:

模型 参数 NFS Acc (stride4) TCV Acc (stride4)
InternVL2.5 8B 20.19 52.31
Qwen2.5-VL 7B 30.00 56.63
GPT-4o 39.79 69.91
Gemini-2.5-Flash 31.37 70.06
随机基线 25.0 50.0

SDF 增强后(Figure 4A,流体基准 NFS Score),相对零样本大幅提升,且优于同样本量的纯 Finetune 和纯 CoT:

设置 Qwen2-VL NFS GLM-4.1V NFS
Zero-Shot 26.8 25.4
CoT(仅推理) 29.8 29.2
Finetune 30.2 32.0
SDF-Ours 41.2 (+14.4) 46.1 (+20.7)

TCV 任务上 SDF 也把分数从 70.1 提到 80.2。

消融实验

配置 关键现象 说明
模型缩放(InternVL2.5 2B→26B) NFS 25.33 → 20.60,不升反降 单纯堆参数解决不了物理动态理解
模型缩放(Qwen2-VL 3B→72B) NFS 24.40 → 28.13,仅微增 缩放收益增量、不够
+ CoT / Thinking GLM-4.1V thinking +11.77(NFS)/+25.06(TCV) 语言推理有帮助但远不够
迁移:纯 Finetune(布料, Qwen2-VL) 23.64 vs 零样本 22.42 几乎没提升,是域内记忆
迁移:SDF-Ours 在布料/沙/烟雾上仍持续涨点 学到的是真物理动态

关键发现

  • 靠堆参数没用:InternVL2.5 从 2B 到 26B,NFS 反而从 25.33% 掉到 20.60%,说明直觉物理缺陷不是规模能补的,得靠针对性训练方法。
  • 语言推理有上限:CoT/thinking 能涨(GLM-4.1V thinking 在 TCV 上 +25.06),但仍远未满意,印证"纯语言推理抓不住时空物理",这正是作者改走"视觉提示"路线的动机。
  • SDF 学的是真物理而非记忆:最有说服力的证据是迁移实验——纯 Finetune 一旦迁到布料/沙/烟雾就退回零样本水平,而 SDF 在所有迁移域都保持提升,证明它教会了模型泛化的物理动态感知。

亮点与洞察

  • "课程式评测"的诊断思路很妙:与其在纠缠多能力的难基准上得到"全军覆没说不清原因"的结论,不如先把最底层的直觉物理感知单独量出来,NFS/TCV 这种极简任务反而更能定位问题根源。
  • 把物理模拟器当"廉价老师"而非"精确真值":作者坦承模拟器细节不准,但只取它"动态趋势对"的部分,把速度抽象成颜色梯度这个表示层级,恰好是 MLLM 吃得下的——这种"在合适抽象层级蒸馏知识"的取舍很值得借鉴。
  • 速度→颜色映射是可迁移 trick:把任何带运动场的物理量编码成感知友好的可视化提示,再让 VLM 看图学习,这个思路可推广到光流、力场、温度场等其它连续物理量的注入。
  • 自蒸馏:专家 = 10:1 的反直觉配比:以自蒸馏为主、少量专家数据点睛,提示在推理数据蒸馏里"分布稳定性"可能比"示范质量"更重要。

局限与展望

  • 强依赖物理模拟器的覆盖面:SDF 数据全靠 Blender/Flip Fluids 仿真特定液体动作生成,对模拟器难仿真或参数空间未覆盖的现象(复杂多相耦合、刚柔混合)可能力不从心。
  • 只验证了连续介质/流体为主:虽展示了向布料、沙、烟雾的迁移,但都属粒子化连续介质;对刚体碰撞、铰接物体等离散状态变化的物理是否有效未充分检验。
  • SDF 是 2D 投影表示:速度沿相机方向投影成蓝色通道,丢失了深度/三维速度信息,多视角或剧烈遮挡场景下这种单通道编码可能不够。
  • 评测仍偏合成数据:基准虽补了 web 挖掘的真实视频并人工筛过,但训练侧 SDF 全来自仿真,sim-to-real 的鲁棒性还有更大验证空间。

相关工作与启发

  • vs ContPhy / PhysBench:它们做高层物理推理基准、把视觉/语言/常识/逻辑/物理纠缠在一起考;本文反其道而行,做解耦的低层 NFS/TCV 诊断任务,专门隔离物理感知,从而能把失败归因到物理本身。
  • vs V-JEPA(Garrido et al. 2025):该路线靠自监督视频预训练让直觉物理"涌现",被指出比 MLLM 更有希望;本文不重训表示,而是用模拟器生成的显式视觉提示去补 MLLM 的感知短板,成本更低、与现有 MLLM 兼容。
  • vs GNN / 符号物理引擎类方法:那些方法从状态向量预测粒子动力学、或用符号引擎做显式推理,多为多步逻辑演绎设计;本文针对的是"基础感知能力"缺失,直接给基础模型注入视觉动态线索,而非外挂计算模块。

评分

  • 新颖性: ⭐⭐⭐⭐ 用"速度→蓝色梯度"的可视化提示把模拟器物理蒸馏进 MLLM,诊断任务的解耦视角也清新
  • 实验充分度: ⭐⭐⭐⭐ 零样本诊断 + 缩放/CoT 分析 + SDF 增强 + 跨域迁移俱全,5 次运行报置信区间
  • 写作质量: ⭐⭐⭐⭐ 问题动机讲得透彻,方法与公式清晰;部分关键数字散落在图中略不便查
  • 价值: ⭐⭐⭐⭐ 指出 MLLM 直觉物理这一关键缺口,并给出可扩展、低成本的增强路径