IPR-1: Interactive Physical Reasoner¶

会议: CVPR 2026
arXiv: 2511.15407
代码: 项目主页 https://mybearyzhang.github.io/ipr-1 （未见公开代码库）
领域: 多模态VLM / 物理推理 / 世界模型
关键词: 交互式物理推理、世界模型、VLM agent、潜在动作空间、PhysCode

一句话总结¶

IPR 让一个 8B 的 VLM 在 1000+ 款异构游戏里通过"世界模型想象 rollout 打分 → 强化 VLM 策略"的闭环学习物理与因果，并用一套物理中心的潜在动作码 PhysCode 把"语义意图"和"视觉动力学"对齐成预测与推理共享的动作空间，整体竞争力（平均排名）超过 GPT-5。

研究背景与动机¶

领域现状：让 agent 在交互环境里学会"物理直觉 + 因果推理"目前有三条主流路线——预训练 VLM/VLA（靠大规模语义先验做开环规划）、世界模型（学潜在动力学、在想象里规划）、以及 RL（直接从像素和奖励里优化策略）。

现有痛点：三条路线各有硬伤。VLM/VLA 会推理但缺"前瞻"——它能按指令做语义规划，却预测不出动作在视觉状态空间里的后果，在交互中撞上即将到来的危险（尖刺、移动敌人）也看不见；世界模型会"想象"但常退化成模仿表面视觉相关性、短视地追逐目标，复杂环境里误差累积；RL 样本效率低、依赖稠密且与任务纠缠的奖励，容易过拟合任务捷径而非因果机制，换个游戏界面就崩。

核心矛盾：这些方法都倾向于过拟合表面视觉细节，而非捕捉底层不变的物理/因果机制。而要在差异巨大的交互环境间稳健迁移，恰恰需要把"核心机制"从"视觉外观"里解耦出来。更麻烦的是动作接口本身：同一个按键（如 UP）在不同游戏里语义完全不同（镜头上抬 vs 角色上移），造成"控制台别名"冲突；纯语言动作又表达不出精细的视觉幅度（跳多高、冲多快）。

本文目标：(1) 造一个能暴露"共享物理机制 + 巨大视觉域间隙"的测试床；(2) 设计一种学习范式，让交互经验能稳定累积成物理推理能力，并随经验增长而提升、零样本迁移到没见过的游戏。

切入角度：作者主张一种"调配比例"的混合视角——不要全押 RL（探索）、不要全押世界模型（全场景预测）、也不要只靠 VLM（静态先验），而是各取所长：VLM 提供语义因果推理，世界模型提供 rollout 预测，RL 用想象出的奖励来优化决策。关键是把预测目标从原始像素搬到抽象特征空间，过滤掉任务无关的感知噪声，逼模型抓"物理的本质"而非"世界的外观"。

核心 idea：用世界模型的想象 rollout 去给 VLM 策略打分并强化它，并用一套物理中心的潜在动作码（PhysCode）作为预测与推理共享的动作语言。

方法详解¶

整体框架¶

IPR 把"在交互环境里学物理推理"拆成三阶段串行训练 + 一个推理闭环。先在 1000+ 款游戏的人类录像上学一套离散动作词表 PhysCode（用 VQ 把"外观+光流+语义"压成能跨游戏复用的物理动作码）；再固定这套词表，训一个特征级世界模型，让它在 PhysCode 条件下预测未来特征并带一个 critic 估值；最后把 PhysCode token 接进 Qwen3-VL-8B 的词表，让 VLM 直接吐潜在动作，世界模型在想象里 rollout 给候选打分、算 advantage，用 GRPO 强化 VLM 策略。推理时形成"VLM 提候选 → 世界模型短程想象打分剪枝 → router 把选中的 PhysCode 映射回环境控制"的预测在环（prediction-in-the-loop）循环。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["1000+ 游戏人类录像<br/>外观+光流+语义"] --> B["PhysCode<br/>物理中心潜在动作码<br/>(VQ 离散词表)"]
    B --> C["潜在条件世界模型<br/>预测未来特征 + critic 估值"]
    C --> D["预测强化的交互推理<br/>VLM 提候选→想象打分→GRPO"]
    D -->|VLM 提候选 PhysCode| E["世界模型短程想象<br/>打分 + 剪枝"]
    E -->|router 映射回控制| F["执行动作 / 收集经验"]
    F -->|经验回流强化策略| D

关键设计¶

1. PhysCode：把"动作"从按键/语言改造成物理中心的潜在码

针对"同键不同义的控制台别名"和"语言说不清精细动力学"这两个痛点，作者不再用按键或自然语言当动作空间，而是学一套基于 VQ 码本 \(\mathcal{C}=\{v_k\}_{k=1}^{K}\) 的离散潜在动作。每个码同时由三路线索决定：(i) 域相关的视觉外观（DINOv3 特征 \(\phi_{\mathrm{img}}(x_t)\)）、(ii) 域无关的运动（光流 \(\phi_{\mathrm{flow}}(\mathrm{Flow}(x_t,x_{t+1}))\)）、(iii) T5 编码的轻量语义提示 \(\phi_{\mathrm{sem}}(y_t)\)。训练用标准 VQ-VAE 目标，让解码器从 \((f_t, c_{a_t})\) 重建未来特征 \(\hat f_{t+\Delta}\)：

\[\mathcal{L}_{\mathrm{LA}}=\big\|\hat f_{t+\Delta}-f_{t+\Delta}\big\|_2^2+\beta\big\|\mathrm{sg}[z_t]-c_{a_t}\big\|_2^2+\gamma\big\|z_t-\mathrm{sg}[c_{a_t}]\big\|_2^2\]

巧妙之处在于"特权信息"的用法：光流只在预训练时可得，作者用 modality dropout + 门控稀疏正则把光流塑造出的物理结构蒸馏进编码器，测试时关掉光流门、只靠外观+语义就能取到同样的离散码。这样得到的码在物理相同的环境里聚类、物理不同的环境里分开，天然成为 VLM 推理和世界模型预测共享的动作接口——这也是跨域迁移的结构基础

2. 潜在条件世界模型 + critic：在抽象特征空间里想象后果并估值

VLM 缺的是"前瞻"，于是需要一个能预测动作后果的模块。作者固定 PhysCode 词表后训一个特征级世界模型 \(P_\theta\)，输入当前特征 \(f_t\) 和动作嵌入 \(e_{a_t}\)，同时输出未来特征预测和价值估计：\((\hat f_{t+\Delta}, V_\theta(f_t,a_t))=P_\theta(f_t,e_{a_t})\)。

为什么预测特征而不是像素？因为特征已经压掉了外观方差和渲染噪声，让动力学在不同游戏间更"可共享"，避免世界模型退化成模仿像素表象。训练分两步：先用特征预测损失 \(\mathcal{L}_{\text{pred}}=\|\hat f_{t+\Delta}-f_{t+\Delta}\|_1\) 学动力学，再用 Q-learning 风格目标 \(\mathcal{L}_{\text{value}}=\ell_{\text{Q}}(V_\theta(f_t,a_t),y_t)\) 学 critic，其中 \(y_t\) 是用 rollout 回报经 TD backup 算出的目标值。这个 critic 估值正是后面给 VLM 候选动作打分的依据

3. 预测强化的交互推理：用世界模型 rollout 在同一动作空间里强化 VLM

有了共享动作空间和会估值的世界模型，最后一步把两者闭环起来。作者以 Qwen3-VL-8B 为骨干，扩展它的 tokenizer 加入 PhysCode token，让 VLM 在保留语言能力的同时直接吐离散潜在动作。先在 \((f_t, c_t)\) 对上做有监督对齐（感知↔动作）；然后给定上下文和目标 \(g\)，VLM 采样 \(B\) 条候选 PhysCode 序列 \(\{\mathbf{a}^{(b)}\}\)，世界模型对每条跑短程想象 rollout 给出预测回报，从中算出 advantage \(A^{(b)}\)，再用 GRPO 更新策略：

\[\mathcal{L}_{\text{GRPO}}=\frac{1}{B}\sum_{b=1}^{B}A^{(b)}\log\pi_\phi(\mathbf{a}^{(b)}\mid f_t,g)-\beta\,\mathrm{KL}(\pi_\phi\|\pi_0)\]

和纯 RL 的区别在于：奖励信号不来自稀疏的环境奖励，而来自世界模型想象出来的、反映物理可行性的预测回报，因此不需要稠密奖励就能给长程行为提供梯度。重复交互中，想象与真实执行的轨迹经验不断回流强化 VLM，使它的交互物理推理稳步变强——这正是"经验越多、推理越强"的来源

损失函数 / 训练策略¶

三阶段各有目标：Stage 1 用 VQ-VAE 目标 \(\mathcal{L}_{\mathrm{LA}}\)（重建 + 码本承诺项）配合光流 dropout 与门控稀疏正则；Stage 2 用 \(\mathcal{L}_{\text{pred}}\)（特征 L1）+ \(\mathcal{L}_{\text{value}}\)（Q 学习）；Stage 3 用 GRPO（带 KL 约束到参考策略 \(\pi_0\)）。骨干为 Qwen3-VL-8B，人类录像以 60 FPS 录制、每款游戏 4 分钟，并做了时间间隔归一化、剔除非交互片段、重平衡长时空闲段等预处理。

实验关键数据¶

评测床为 1000+ 异构游戏（863 款开源复古游戏 via stable-retro + 134 款 HTML/Canvas 轻量游戏 + 3 款商业游戏），按 Maslow 需求层次设计三级指标：Survival（生存时长，越长越好）、Curiosity（状态空间探索广度，用 CLIP 特征轨迹的多尺度 magnitude 曲线面积 \(E=\mathrm{AUC}(M(\tau))\)）、Utility（目标达成的人类归一化分数 \(\mathrm{HNS}=\frac{m-m_{\text{rnd}}}{m_{\text{hum}}-m_{\text{rnd}}}\)）。主对比在 200 款游戏、30 个方法上进行。

主实验¶

Table 2 各级别 Mean（随机=0、人类=1 归一化）与整体平均排名（30 方法内，越低越好）关键行：

方法	Survival Mean ↑	Curiosity Mean ↑	Utility Mean ↑	整体平均排名 ↓
Human	1.000	1.000	1.000	2.8
Random	0.000	0.000	0.000	26.9
GPT-5@survival	0.140	0.127	0.263	13.3
GPT-5@utility	0.108	0.185	0.371	16.8
Qwen3-VL-8B w/o IPR	0.105	0.325	0.176	18.2
Qwen3-VL-8B w/ IPR	0.252	1.173	0.493	4.9

IPR 整体平均排名 4.9，在 30 个方法里仅次于人类（2.8），把同骨干无 IPR（18.2）和各档位 GPT-5（最好约 13.3）都甩开一大截；Survival 上 IPR 平均排名 2.6、72.0% 的游戏进 Top-3。一句话：8B 骨干整体竞争力超过 GPT-5。

消融实验¶

Table 3 在同一 Qwen3-VL-8B 骨干上拆解世界模型预测与 GRPO 的贡献（注：此表为另一套归一化口径，数值与 Table 2 不同尺度，不可直接横比）：

配置	Survival	Curiosity	Utility	说明
VLM (pretrained)	0.62	2.14	0.89	纯预训练 VLM
VLM + BC	0.63	1.88	0.87	加行为克隆，反伤探索与效用
VLM + PPO	1.00	1.79	1.23	生存/效用最高但压制好奇心
VLM + GRPO	0.95	1.78	1.22	同样牺牲好奇心
VLM + BC + PPO	0.57	1.86	0.77	三项全降
IPR	0.76	2.77	1.34	好奇心、效用最高，生存仍强

关键发现¶

预测强化是长程物理推理的关键：IPR 在 Curiosity（2.77）和 Utility（1.34）上都最高，而纯 RL（PPO/GRPO）虽把 Survival 拉满却压制了 Curiosity，说明 RL 单独用会过拟合短期奖励；世界模型预测带来的"前瞻"才是涨长程推理的核心。
低质量 BC 会覆盖有用先验：加 BC 后 Survival 几乎不动（0.62→0.63）却拖垮好奇心与效用，模仿差演示反而擦掉了 VLM 的先验。
PhysCode 验证（Table 1）：联合训练时按键接口有跨游戏冲突，PhysCode 在物理偏移下退化最小；leave-10-out 零样本迁移上 PhysCode 的像素预测 FID（297.0）显著优于按键（315.0）与语言（320.2），证明它学的是可复用物理机制而非游戏特定绑定。
scaling 与零样本迁移：在 50 款 held-out 游戏上，零样本性能随训练游戏数 \(N\) 增加稳步上升（Survival 早期涨最快），印证"交互经验越多、越像人类地迁移物理先验"。

亮点与洞察¶

"想象奖励代替环境奖励"很巧：用世界模型 rollout 出的预测回报当 GRPO 的 advantage，绕开了 RL 对稠密外部奖励的依赖，又给 VLM 注入了它最缺的后果预测能力——这是把三条路线"按比例调配"落到实处的关键接口。
光流当特权信息蒸馏：训练有光流、测试无光流，用 dropout + 门控稀疏把物理结构蒸进编码器，是把"昂贵的物理监督"省到推理期的可复用 trick，可迁移到任何"训练有额外传感、部署无"的具身场景。
特征级而非像素级预测：在抽象表征上预测后果，过滤渲染噪声、让动力学跨域共享，避免世界模型沦为像素模仿器——这个"换预测目标"的思路对跨域世界模型普遍适用。
Maslow 三级评测把"物理直觉→目标推理"拆成可诊断的谱系，直接暴露了"世界模型强探索弱目标、VLM 强目标弱探索"两种失效模式，评测设计本身就很有启发。

局限与展望¶

作者承认目前只在游戏上验证，明确计划把该范式扩展到真实交互环境与机器人任务——sim-to-real 的物理一致性是否成立尚待检验。
物理分类法较"粗"：作者自陈 coarse physics taxonomy 与 agent 内部抽象并不完全对齐（如 inertia 可能已被 projectile/impulse 覆盖），物理条件迁移的结论有 caveat。
两套主表用了不同归一化口径（Table 2 vs Table 3 的 Utility 数值差异大），跨表不可直接比大小；Utility 上 IPR 仍明显低于人类（Table 2 中 0.493 vs 1.000），离"人类水平目标推理"还有距离。
PhysCode 依赖人类录像构建动作语义词表，纯无人类先验的环境如何冷启动值得探索。

评分¶

新颖性: ⭐⭐⭐⭐⭐ "WM rollout 强化 VLM + 物理中心潜在动作码"的混合范式与 G2U 评测都是新的切口
实验充分度: ⭐⭐⭐⭐⭐ 1000+ 游戏、30 方法、三级指标 + scaling + 零样本迁移 + 消融，覆盖很全
写作质量: ⭐⭐⭐⭐ 逻辑清晰、动机扎实，但两套表口径不同处易让读者误比
价值: ⭐⭐⭐⭐⭐ 为"交互式物理推理可随经验持续提升"提供了有说服力的范式与基准