Beyond Static Vision: Scene Dynamic Field Unlocks Intuitive Physics Understanding in Multi-modal Large Language Models¶

会议: ICLR2026
OpenReview: Ax02eR2c3d
代码: https://github.com/andylinx/Scene-Dynamic-Field
领域: 视频理解 / 多模态VLM
关键词: 直觉物理, 多模态大模型, 物理模拟器, 视觉提示, 多任务微调

一句话总结¶

这篇论文先用 Next Frame Selection（下一帧选择）和 Temporal Coherence Verification（时序一致性判别）两个"低层"诊断任务，揭示当前 MLLM 连流体这类连续介质的直觉物理动态都看不懂；再提出 Scene Dynamic Field（SDF）——把物理模拟器算出的粒子速度映射成蓝色梯度图当视觉提示，配合多任务微调，让 Qwen2-VL / GLM-4.1V 在流体任务上最高涨 20.7%，并能迁移到布料、沙、烟雾等未见物理域。

研究背景与动机¶

领域现状：多模态大模型（MLLM）在图像/视频理解上已经很强，最近越来越多工作想测它们"懂不懂物理世界"。但现有物理基准（ContPhy、PhysBench）走的都是"高层物理推理"路线——通过问答、反事实预测、空间关系分析等复杂任务来考模型。

现有痛点：这些基准把多种能力纠缠在一起：一道题既考视觉、又考语言、又考常识、逻辑、还考物理。结果是 SOTA MLLM 在这些基准上普遍接近随机猜测，但你根本说不清它到底是"物理没学会"还是"别的认知能力拖了后腿"。同时主流训练方式（把视频当成一串帧丢给图像编码器端到端训）本身就抓不住理解物理所必需的低层动态；而视频编码器又大多在以人类动作为中心的数据集上无监督训练，缺少液体、布料这类连续介质（continuum object）的动态。

核心矛盾：物理推理的"地基"是直觉物理感知（能不能准确感知运动随时间的变化），可现有基准全在考"楼上"的高层推理，从没单独把这块地基拎出来量过。地基没探明，上层的推理缺陷就无从对症下药。

本文目标：拆成两个子问题——(1) 怎么把直觉物理感知从其它认知能力里解耦出来、单独评测？(2) 怎么进一步增强这个底层能力？

切入角度：借鉴课程学习（curriculum learning）思想，对 MLLM 也应该做"课程式评测"——先评最基础的那一步。作者选流体动力学作主战场，因为它日常无处不在、动态连续丰富，是理想的连续介质测试床。

核心 idea：用两个低层任务（NFS / TCV）把直觉物理感知单独量出来暴露缺陷；再用物理模拟器生成"速度→颜色"的中间表示 SDF 当视觉提示，通过多任务微调把模拟器里的物理知识"蒸馏"进 MLLM，绕开昂贵的架构改造。

方法详解¶

整体框架¶

整篇工作分两半：先建基准诊断、再提方法增强。诊断侧用一套统一的"区间采样 + 干扰项构造"流程，把一段视频切成若干区间，为每个区间造出真后继帧和一堆似是而非的干扰帧，组成 NFS（4 选 1 选下一帧）和 TCV（判断序列里有没有被插入不连贯帧）两个任务，零样本拷打各家 MLLM，证明它们确实不懂动态。增强侧的核心是 SDF：用 Blender + Flip Fluids 物理引擎仿真各种液体动作，把每个粒子的速度投影到相机方向、再换算成蓝色通道强度，得到一张"速度越大越深蓝"的动态场图像；这张图作为视觉提示，喂进一个多任务微调框架（动态感知任务 + SDF 引导的思维链任务 + 原始 NFS/TCV 任务），并用强模型与自蒸馏数据按 1:10 混合来训练。最终模型在流体上大涨，并能零迁移到布料、沙、烟雾。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["视频帧序列"] --> B["NFS / TCV 低层诊断基准<br/>区间采样+干扰项构造"]
    B -->|暴露 MLLM 动态感知缺陷| C["物理模拟器仿真<br/>液体动作视频"]
    C --> D["SDF 视觉提示<br/>粒子速度→蓝色梯度场"]
    D --> E["多任务微调<br/>动态感知+SDF引导CoT+原任务"]
    E -->|专家数据:自蒸馏=1:10| F["物理对齐的 MLLM"]
    F --> G["流体涨点 + 迁移至布料/沙/烟雾"]

关键设计¶

1. NFS + TCV：把直觉物理从"认知大杂烩"里单独拎出来考

针对"现有基准纠缠多种能力、说不清模型为什么失败"这个痛点，作者设计两个互补的低层任务，并配一套统一的干扰项构造流程保证题目质量。给定 $T$ 帧序列 $F=\{f_t\}_{t=1}^T$，先按时间步长 $s$ 切成不重叠区间 $\{I_i\}$；对每个区间，先排除时间上太近（缓冲带 $\delta$ 之内）的帧得到候选集 $D_i$，再用 SigLIP 嵌入算余弦相似度、过滤掉和真值帧 $f_{gt}$ 过于相似的候选：$D_i'=\{f_t\in D_i \mid \mathrm{sim}(f_t,f_{gt})<\tau\}$，确保留下的干扰项"语义上有区分但又似是而非"。NFS 是 4 选 1：从 $D_i'$ 采 3 个干扰项，看模型给真后继帧的打分是否高于所有干扰项，$\mathrm{Acc}_{NFS}=\frac1N\sum_i \mathbb{I}\big(p_{model}(f_{gt}|I_i)>\max_j p_{model}(d_j|I_i)\big)$。TCV 是是非题：往序列里随机插一帧破坏时序连贯，让模型判断"有没有不自然的帧"。这套设计的妙处在于：两个任务都只问"动态对不对"，几乎不涉及语言/常识/逻辑，因此一旦模型做不好，就能确定是物理感知本身出了问题。实验也验证了缺陷之严重——最强开源模型 Qwen2.5-VL 在 NFS 上只有 32.73%（4 选 1 随机基线 25%）。

2. SDF 视觉提示：把模拟器的速度场画成一张"越快越蓝"的图

针对"纯语言推理抓不住时空物理关系"的痛点，作者不去改模型架构，而是造一个表示层的桥梁：把物理引擎里的粒子速度直接可视化成一张图当视觉提示。对相机位置 $c$，每个粒子速度 $v_i$ 沿视线方向的投影幅值为 $v_{proj,i}=\|v_i\|\cos\theta_i=(v_i\cdot\hat r_i)$，其中 $\hat r_i=\frac{c-p_i}{\|c-p_i\|}$ 是粒子指向相机的单位向量。蓝色通道密度建模为一条沿可观测域 $\Omega$ 的线积分： $$D_B(c)=\kappa\int_\Omega \frac{\|v_i\|}{1+\alpha\|c-p_i\|^2}\,d\Omega$$ 其中 $\kappa$ 把速度缩放为颜色强度、$\alpha$ 控制空间衰减。速度越大的粒子因 $\|v_i\|$ 项对蓝色贡献越大，于是动态被映射成"深浅不一的蓝色梯度"，速度快的地方深蓝、慢的地方浅。这样做有效是因为：模拟器虽然在细粒度细节上不准，但它捕捉到的动态趋势和真实物理是一致的，而把这种趋势抽象成一张直观的颜色图，正好契合 MLLM 已有的视觉理解能力——模型不需要从头学物理方程，只要"看图识速度"。

3. 多任务微调：让模型既会"认动态场"、又会"用动态场推理"

针对"标准视频预训练补不上直觉物理这块"，作者设计三类任务联合微调。Task 1 动态感知：给 RGB 视频和 $N$ 张候选图，其中一张是真值 SDF、其余是干扰，让模型选出"最后一帧对应的 SDF 是哪张"，逼它建立"RGB 动态 ↔ 速度场颜色"的对应。Task 2 SDF 引导的思维链：把 SDF 帧插到输入序列的关键位置 $F_{CoT}=[f_1^{RGB},\dots,f_t^{RGB},f_t^{SDF}]$，再用三步 CoT——先分析帧里的流体动态、再结合给定的最后一帧 SDF、最后据此选下一帧，把"看动态场"显式编进推理链。原始 NFS/TCV 任务也一并放进训练。三类任务一起训，让模型既学会感知 SDF、又学会拿 SDF 当推理线索，而不是只把它当个无意义的彩色输入。

4. 专家数据 + 自蒸馏按 1:10 混合：稳住训练分布

CoT 的推理过程数据从哪来？一种是请更强的模型（如 Gemini-2.5-Pro）生成示范，另一种是模型自蒸馏自己的思考。作者观察到：专家模型的推理未必最优，而自蒸馏的好处是训练时分布漂移更小、更稳。于是把两者按 专家:自蒸馏 = 1:10 混合——以自蒸馏为主保证分布稳定，少量专家数据注入"如何正确利用 SDF 视觉提示"的引导。这个比例是论文消融过的选择，本质是在"借强模型的高质量示范"和"避免分布偏移损害训练"之间找平衡点。

损失函数 / 训练策略¶

Finetune 和 SDF-Ours 都用 SWIFT 框架做全参数监督微调，学习率 $1\times10^{-5}$、训练 3 个 epoch，在 4 张 A100 40G 上跑、5 次独立运行报置信区间。为公平对比，纯 Finetune 基线用和 SDF 方法相同数量的训练样本。为测 sim-to-real，最终在含真实世界视频的 NFS/TCV 数据集上评测。

实验关键数据¶

主实验¶

零样本诊断（Table 1）显示主流 MLLM 在直觉物理上普遍很差，NFS 多数低于随机基线附近：

模型	参数	NFS Acc (stride4)	TCV Acc (stride4)
InternVL2.5	8B	20.19	52.31
Qwen2.5-VL	7B	30.00	56.63
GPT-4o	—	39.79	69.91
Gemini-2.5-Flash	—	31.37	70.06
随机基线	—	25.0	50.0

SDF 增强后（Figure 4A，流体基准 NFS Score），相对零样本大幅提升，且优于同样本量的纯 Finetune 和纯 CoT：

设置	Qwen2-VL NFS	GLM-4.1V NFS
Zero-Shot	26.8	25.4
CoT（仅推理）	29.8	29.2
Finetune	30.2	32.0
SDF-Ours	41.2 (+14.4)	46.1 (+20.7)

TCV 任务上 SDF 也把分数从 70.1 提到 80.2。

消融实验¶

配置	关键现象	说明
模型缩放（InternVL2.5 2B→26B）	NFS 25.33 → 20.60，不升反降	单纯堆参数解决不了物理动态理解
模型缩放（Qwen2-VL 3B→72B）	NFS 24.40 → 28.13，仅微增	缩放收益增量、不够
+ CoT / Thinking	GLM-4.1V thinking +11.77(NFS)/+25.06(TCV)	语言推理有帮助但远不够
迁移：纯 Finetune（布料, Qwen2-VL）	23.64 vs 零样本 22.42	几乎没提升，是域内记忆
迁移：SDF-Ours	在布料/沙/烟雾上仍持续涨点	学到的是真物理动态

关键发现¶

靠堆参数没用：InternVL2.5 从 2B 到 26B，NFS 反而从 25.33% 掉到 20.60%，说明直觉物理缺陷不是规模能补的，得靠针对性训练方法。
语言推理有上限：CoT/thinking 能涨（GLM-4.1V thinking 在 TCV 上 +25.06），但仍远未满意，印证"纯语言推理抓不住时空物理"，这正是作者改走"视觉提示"路线的动机。
SDF 学的是真物理而非记忆：最有说服力的证据是迁移实验——纯 Finetune 一旦迁到布料/沙/烟雾就退回零样本水平，而 SDF 在所有迁移域都保持提升，证明它教会了模型泛化的物理动态感知。

亮点与洞察¶

"课程式评测"的诊断思路很妙：与其在纠缠多能力的难基准上得到"全军覆没说不清原因"的结论，不如先把最底层的直觉物理感知单独量出来，NFS/TCV 这种极简任务反而更能定位问题根源。
把物理模拟器当"廉价老师"而非"精确真值"：作者坦承模拟器细节不准，但只取它"动态趋势对"的部分，把速度抽象成颜色梯度这个表示层级，恰好是 MLLM 吃得下的——这种"在合适抽象层级蒸馏知识"的取舍很值得借鉴。
速度→颜色映射是可迁移 trick：把任何带运动场的物理量编码成感知友好的可视化提示，再让 VLM 看图学习，这个思路可推广到光流、力场、温度场等其它连续物理量的注入。
自蒸馏:专家 = 10:1 的反直觉配比：以自蒸馏为主、少量专家数据点睛，提示在推理数据蒸馏里"分布稳定性"可能比"示范质量"更重要。

局限与展望¶

强依赖物理模拟器的覆盖面：SDF 数据全靠 Blender/Flip Fluids 仿真特定液体动作生成，对模拟器难仿真或参数空间未覆盖的现象（复杂多相耦合、刚柔混合）可能力不从心。
只验证了连续介质/流体为主：虽展示了向布料、沙、烟雾的迁移，但都属粒子化连续介质；对刚体碰撞、铰接物体等离散状态变化的物理是否有效未充分检验。
SDF 是 2D 投影表示：速度沿相机方向投影成蓝色通道，丢失了深度/三维速度信息，多视角或剧烈遮挡场景下这种单通道编码可能不够。
评测仍偏合成数据：基准虽补了 web 挖掘的真实视频并人工筛过，但训练侧 SDF 全来自仿真，sim-to-real 的鲁棒性还有更大验证空间。

评分¶

新颖性: ⭐⭐⭐⭐ 用"速度→蓝色梯度"的可视化提示把模拟器物理蒸馏进 MLLM，诊断任务的解耦视角也清新
实验充分度: ⭐⭐⭐⭐ 零样本诊断 + 缩放/CoT 分析 + SDF 增强 + 跨域迁移俱全，5 次运行报置信区间
写作质量: ⭐⭐⭐⭐ 问题动机讲得透彻，方法与公式清晰；部分关键数字散落在图中略不便查
价值: ⭐⭐⭐⭐ 指出 MLLM 直觉物理这一关键缺口，并给出可扩展、低成本的增强路径