Physical Object Understanding with a Physically Controllable World Model¶

会议: CVPR 2026
arXiv: 2606.00439
代码: https://neuroailab.github.io/psi-website/blog.html (有)
领域: 视频生成 / 世界模型 / 物理场景理解
关键词: 概率世界模型, 自回归序列建模, 光流 token, 可移动物体发现, Visual Jenga

一句话总结¶

本文把"世界模型"重新表述成一个能查询任意视觉变量条件分布的概率图模型（PGM），并用 GPT 式 next-token 预测高效训练出一个 70 亿参数、以 RGB / 光流 / 相机 token 描述场景的可物理操控世界模型 PSI；训练完成后无需任何专门头部，仅靠"虚拟戳一下看哪些像素一起动"就能零样本做出可移动物体分割（SpelkeBench SOTA）、铰接部件发现、3D 物体操控与 Visual Jenga 等一系列物理理解任务。

研究背景与动机¶

领域现状：当前主流世界模型（文本/动作条件的视频生成、JEPA 类全局嵌入预测）擅长生成长视频、做指令条件生成和多模态推理，但它们都以全局信号（文本、动作、场景嵌入）为条件。

现有痛点：这类模型没有提供一种机制去"隔离并查询"局部场景变量之间的相互影响——比如某处的运动如何影响别处的运动、对某物体施力如何沿其结构传播。而恰恰是这种局部变量间的条件关系，才是推理物体边界、铰接、支撑等物理结构的关键。专门的物体理解模型（SAM2 靠标注、CutLER/ProMerge 靠 DINO 注意力、各种 drag 编辑器）又各自只解决一个子任务，且在复杂自然场景中很脆弱。

核心矛盾：要做物理推理，需要的是"给定任意子集变量，估计任意其它变量分布"的概率图模型（PGM）；但 PGM 历史上极难训练，几乎被现代深度学习抛弃。于是"灵活的条件推理能力"与"可规模化训练"之间存在矛盾。

本文目标：构造一个统一架构，既能像 PGM 一样支持任意方向的条件查询，又能像 LLM 一样高效、可规模化地训练，并从中零样本地涌现出丰富的物体理解。

切入角度：作者的关键观察是——学习"任意变量间的条件关系"这件事，可以被改写成 GPT 式 next-token 预测。只要把场景拆成局部变量、把每个变量序列化成 token，再配一个能指定"我要预测哪个位置"的指针机制，PGM 就退化成标准自回归序列模型。

核心 idea：用"指针 token + 内容 token 的任意顺序自回归序列"来实现一个概率世界模型（称为 PSI / Probabilistic Structure Integrator），用便宜的视觉 patch（光流、相机运动）代替昂贵的真实动作数据当作"穷人版世界模型"的控制信号。

方法详解¶

整体框架¶

PSI 把世界状态切成一组局部变量，目标是学习"给定已观测变量子集 \(\mathbf{X}\) 与一个未观测查询位置 \(p\)，返回该位置内容的条件分布 \(\text{Pr}[v\mid\mathbf{X},p]\)"。形式上模型 \(\Psi:(\mathbf{X},\,p\notin\mathrm{dom}(\mathbf{X}))\mapsto\{\text{Pr}[v\mid\mathbf{X},p]:v\in\mathcal{V}\}\)，这正是一个 PGM。作者的核心转换是：把数据序列化成"指针-内容"交替的 token 流 \([p_0,v_0,\dots,p_k,v_k]\)，于是查询任意位置就等价于在序列末尾追加一个指针、读出下一个内容 token 的分布——PGM 推理被收编进标准自回归框架。

在这个通用骨架上，作者实例化出一个可物理操控的视觉世界模型：内容词表含三类 token——RGB token（编码外观）、光流 token（编码动态）、相机 token（编码两帧间的 6DOF 视角变化）；指针词表则按 RGB / 光流两种模态划分。训练序列形如 \(\mathbf{X}=\mathbf{r}^0\circ[c]\circ\mathbf{f}\circ\mathbf{r}^1\)（首帧 RGB → 相机 token → 光流 → 次帧 RGB），且三段都以任意空间顺序排列、光流按 0–1 随机比例掩码。训练完成后，通过选择"追加哪种指针、按什么顺序解码"就能走出多条推理路径：并行估计运动统计、顺序生成多个合理未来、对稀疏戳点做光流补全、由动态渲染外观等。这些推理路径再被下游算法（运动相关性分组、运动影响分数）转成具体的物体理解任务。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入：单张/两帧视频"] --> B["指针-内容序列化<br/>任意顺序 next-token PGM"]
    B --> C["多模态 token 词表<br/>RGB / 光流 / 相机"]
    C --> D["7B GPT 自回归训练<br/>X = r0∘[c]∘f∘r1"]
    D -->|并行查询| E["运动统计估计<br/>运动概率图 + 期望运动图"]
    D -->|顺序采样| F["多个合理未来<br/>光流/外观 rollout"]
    E --> G["下游物体理解<br/>运动相关性分组 + 运动影响分数"]
    F --> G
    G -->|应用| H["可移动物体/铰接分割<br/>3D 操控 · Visual Jenga"]

关键设计¶

1. PGM ≡ 自回归序列：用 next-token 预测学到全联合分布

痛点是 PGM 难训练、现代深度学习几乎不用它，但物理推理又恰恰需要"任意条件任意"的能力。作者证明这两者等价：把 datum 序列化成指针-内容交替序列后，公式 (1) 的 \(\Psi(\mathbf{X},p)\) 退化为 \(\Psi(\mathbf{X}\circ p)\equiv\text{Pr}[v\mid\mathbf{X}\circ p]\)，也就是把查询位置的指针拼到序列末尾、读 next-token 分布。训练时在各种 token 排列顺序上做交叉熵（仅监督内容 token、不监督指针 token），相当于对"给定部分状态估计某变量"这一过程做摊销，从而学到所有变量上的完整联合分布。这一步是全文的杠杆点：它让一个原本难学的概率世界模型，能直接复用 LLM 那套成熟、可规模化的训练栈。

2. 指针 token：打破光栅顺序，支持任意子集条件与多向推理

传统 GPT 式图像自回归被迫按固定光栅顺序生成，这对高维数据是有害的归纳偏置。作者引入"指针 token"这一新 token 类型——它显式指明"接下来要预测哪个时空位置"，于是序列可以按任意空间顺序构造。这带来三件关键能力：可以条件于图像的任意子集（学到真正多向的条件关系，而非单向 raster 依赖）、可以做部分 patch 条件、可以在推理时局部重生成 patch。本质上，正是指针 token 让"在高维结构上的随机访问遍历"被打包进一维 token 序列，使 PGM 既可表达又可像普通 LLM 一样优化。

3. RGB / 光流 / 相机三类 token 与交错训练序列：把物理控制塞进词表

为了让世界模型"可物理操控"，作者用浅层卷积量化器把空间 patch 编码成 RGB token 与光流 token，把 6DOF 变换分箱成相机 token。训练序列 \(\mathbf{X}=\mathbf{r}^0\circ[c]\circ\mathbf{f}\circ\mathbf{r}^1\) 把光流夹在两帧 RGB 之间，使光流既能当预测目标（生成合理场景动态），又能当条件信号（由给定动态渲染未来外观）；相机 token 则允许指定视角变化。训练中随机掩码光流（比例 0–1），让模型学会"仅凭首帧、或在任意数量光流条件下"预测次帧。光流在这里是关键的"控制面"——它是比真实动作便宜得多的代理，让用户能用一个"虚拟戳"去施加局部物理干预。

4. 运动统计与运动相关性分组：从生成分布里零样本抠出物体

有了能查询分布的世界模型，物体理解就变成对分布做统计。并行地，模型在每个位置求"会动的概率" \(\mathbb{P}_{\text{motion}}[p]=\sum_{f_j\in\mathcal{F}_{\text{motion}}}\text{Pr}(f_j\mid\mathbf{X}\circ p)\)（对幅度超阈值的光流 token 求和）得到运动概率热图，并求概率加权的期望运动 \(\mathbb{E}_{\text{motion}}[p]=\sum_{f_j\in\mathcal{V}^{(flow)}}\text{Pr}(f_j\mid\mathbf{X}\circ p)\cdot\mathbf{v}_j\)；附加零相机 token 以剔除相机运动、只保留物理交互效果。顺序地，模型对一个戳点采样 \(N\) 个虚拟戳，算"戳向量 \(\mathbf{v}_j\) 与戳出来的光流 \(\hat{\mathbf{f}}_j\) 的点积"并取均值 \(\bar{\text{dot}}=\frac{1}{N}\sum_{j=1}^N\mathbf{v}_j\cdot\hat{\mathbf{f}}_j\)，阈值化即得"一起动"的可移动物体。它和 SAM2 等基于外观/纹理的分组本质不同——这里的物体被定义为"在物理上协同运动的单元"，因此能把铰接子部件（如笔记本盖子）也正确切出来。

5. 运动影响分数：把支撑关系变成有向图，驱动 Visual Jenga

更进一步，作者用世界模型推理物体间成对物理关系。对一个堆叠结构底部施加虚拟戳，期望运动图会显示出它所支撑的所有物体都在动，从而直接读出支撑图。形式化地，对检测出的物体 \(O_1,\dots,O_N\) 构有向图，边权 \(w_{ij}=\mathbb{P}_{\text{motion}}(O_j\mid O_i\text{ moves})\) 表示"戳 \(O_i\) 时 \(O_j\) 会动的概率"，每个物体的运动影响分数 \(\mathbb{I}[O_i]=\frac{1}{N-1}\sum_{j\neq i}w_{ij}\) 由出边平均得到。Visual Jenga 就是迭代地选影响分数最小（即移走它最不扰动他物）的物体，用 4.6 节的 3D 操控流程把它从场景移除，再剪掉对应节点更新图——从而在保持结构稳定的前提下逐件拆塔。

损失函数 / 训练策略¶

\(\Psi\) 实例化为 70 亿参数 GPT transformer，用 next-token 预测交叉熵损失训练，仅监督内容 token、不监督指针 token。训练数据为 300 万条真实世界 RGB 视频片段，约 1.4 万亿 token；batch size 512，训练 150 万步，采用 Warmup-Stable-Decay 学习率调度。推理时既可顺序采样（质量最高，每步条件于此前所有已生成 patch，能捕捉复杂场景如铰接物体的因果依赖），也可并行采样（假设未解码位置条件独立，牺牲质量换效率）。

实验关键数据¶

主实验¶

PSI 在多个物体理解任务上零样本达到 SOTA。点提示可移动物体分割（SpelkeBench，N=8 戳）：

任务/数据集	指标	PSI	最强基线	说明
SpelkeBench 点提示分割	AR	0.541	FPT 0.368 / SAM2 0.482	自监督世界模型类最强
SpelkeBench 点提示分割	mIoU	0.681	FPT 0.566 / SAM2 0.623	超过有监督 SAM2
DragAMove 铰接部件	mIoU	0.410	FPT 0.287 / MotionI2V 0.073	铰接子部件发现 SOTA

无提示分割（SpelkeBench，自动采样会动的位置 + NMS 去重）：

方法	AP	AR	mIoU	F1
SAM2（有监督）	0.11	0.62	0.68	0.17
CutLER	0.41	0.32	0.42	0.34
ProMerge	0.42	0.34	0.43	0.36
PSI	0.35	0.46	0.57	0.38

SAM2 因按纹理过分割导致大量非物理 segment、精度低；PSI 的 F1（平衡 AP/AR 的调和均值）最高，segment 更符合物理物体。3D 物体操控（3DEditBench）中，无论换哪种编辑器（PasC / DiffusionHandles / Diffusion-as-Shader / PSI 自带），用 PSI segment 都比用 SAM2 segment 的 LPIPS↓、SSIM↑、Edit Adherence↑ 更好；PSI 全流程取得 LPIPS 0.161 / SSIM 0.736 / EA 0.776。

消融实验¶

全部在 SpelkeBench 点提示分割上进行：

配置	AR	mIoU	说明
#pokes 1 → 8	0.379 → 0.525	0.587 → 0.679	多戳平均显著稳住性能
#seeds 1 → 8	0.379 → 0.482	0.587 → 0.645	多 seed 也有帮助但弱于多戳
顺序步 0 → 64 → 256	0.462 → 0.525 → 0.534	0.641 → 0.672 → 0.677	64 步后收益递减
模型 100M → 1B → 7B	0.431 → 0.525 → 0.547	0.617 → 0.672 → 0.680	规模化有效，至 7B
CWM / PSI-RGB / PSI	0.158 / 0.412 / 0.541	0.334 / 0.576 / 0.681	光流 token 至关重要

关键发现¶

光流 token 是核心增益来源：去掉光流、改在 RGB 空间做 patch 运动反事实（PSI-RGB）后 mIoU 从 0.681 掉到 0.576，再退回 CWM 仅 0.334——光流提供了更直观的"虚拟物理干预"控制面。
顺序 vs 并行解码：并行（0 步）即 mIoU 0.641，顺序到 64 步升到 0.672，之后边际递减，说明大部分关键因果依赖用较少自回归步即可捕捉；只有铰接等复杂物体才真正需要顺序采样。
多戳比多 seed 更划算：把戳数从 1 加到 8（mIoU +0.092）的收益明显大于把 seed 从 1 加到 8（+0.061）。
对有监督 SAM2 的公平性校验：即便给 SAM2 在 multimask 模式下挑"最自信"掩码（0.622 mIoU，优于 random/least-confident），仍低于 PSI 的 0.681。

亮点与洞察¶

把"难训练的 PGM"翻译成"好训练的 LLM"：核心洞见是用指针 token 序列化后，任意条件推理 = next-token 预测，一举把概率世界模型接进 LLM 的成熟训练基础设施——这是一个干净且可规模化的等价转换，比硬造专门架构优雅得多。
"穷人版世界模型"的务实哲学：用便宜的光流/相机 patch 代替昂贵的真实动作数据当控制信号，既绕开数据瓶颈，又恰好让"虚拟戳一下"成为统一的物理探针。
一个模型、零样本、多任务：分割、铰接发现、3D 操控、支撑关系推理全部是同一个分布查询的不同读出方式，不需要任务专属头部或微调——"物体 = 一起动的像素"这一物理定义直接从生成分布里涌现。
可迁移的 trick："采样多个未来 → 算运动相关性 → 分组"这套把生成模型当因果探针的范式，可迁移到任何"靠扰动揭示结构"的领域（论文点名医学影像、天体物理、材料科学）。

局限与展望¶

作者承认本文聚焦"以人为中心的宏观物理场景"，对人类缺乏直觉的领域（如显微/天体尺度的 objecthood）尚未验证。
顺序采样质量最高但计算成本高，复杂铰接物体需要更多自回归步；并行模式假设条件独立、在多部件物体上会损失质量——质量与效率之间仍需手动权衡。
物体发现依赖"会不会动"作为定义，对天然不动或外观相同但物理独立的实例可能失效；下游 3D 操控仍依赖把 6DOF 变换转成稠密光流场的近似流程。
7B 模型 + 1.4T token 的训练成本高，复现门槛不低；消融显示规模化仍在带来收益，但更大规模的边际效果未知。

评分¶

新颖性: ⭐⭐⭐⭐⭐ "PGM ≡ 自回归序列 + 指针 token"是干净有力的概念性突破，把世界模型与 LLM 训练栈统一。
实验充分度: ⭐⭐⭐⭐⭐ 覆盖分割/铰接/3D 操控/Visual Jenga 四类任务，含规模化、解码模式、光流消融与对 SAM2 的公平性校验。
写作质量: ⭐⭐⭐⭐ 框架与应用层次清晰，公式完整；但部分推理路径与实现细节压在附录，主文略密。
价值: ⭐⭐⭐⭐⭐ 提供了"自监督、可物理操控、零样本多任务"世界模型的通用配方，对机器人与物理场景理解有较强基础设施意义。