WorldGym: World Model as an Environment for Policy Evaluation¶

会议: ICLR 2026
论文: 项目页
代码: https://world-model-eval.github.io (有)
领域: 机器人 / 世界模型 / 策略评估
关键词: 世界模型, 离线策略评估, VLA 策略, 动作条件视频生成, 蒙特卡洛 rollout

一句话总结¶

本文训练一个动作条件的自回归视频世界模型 WorldGym，把它当作"虚拟环境"让机器人策略在里面跑 rollout、用 VLM 打分，从而在真机部署前就估出策略成功率——实验证明世界模型里的成功率与真实世界成功率高度相关（Pearson r=0.78），且能保持不同版本/规模/训练步数策略之间的相对排名。

研究背景与动机¶

领域现状：机器人控制策略的评估一直是个老大难。传统做法要么是真机测试，要么是手工搭建的物理仿真器（MuJoCo、Drake 等）。

现有痛点：真机测试又慢又贵，还有损坏硬件的风险，一轮完整评测往往要好几天；手工仿真器则需要大量人力去建模复杂动力学，尤其是软体操作、高自由度交互这类很难硬编码的场景，导致顽固的 sim-to-real gap。

核心矛盾：评估需要一个"既真实又通用"的环境，但手工仿真器在真实性和通用性之间天然受限——你越想覆盖更多任务/物体，建模代价越爆炸。与此同时，基于模型的强化学习（model-based RL）虽然学过"从经验里学动力学再 rollout"，但大多局限在单任务设定，而单任务下学动力学往往比直接学策略还难，所以一直竞争不过 model-free 方法。

本文目标：用一个单一世界模型当作可交互环境，去评估任意策略在任意任务上的表现，且只需一张初始帧作为输入。

切入角度：作者抓住一个关键观察——任务和策略可以有无数个，但我们生活的物理世界只有一个、遵循同一套物理定律。所以学单个世界模型可以汇聚来自不同任务/不同环境/不同机器人形态的多样数据，反而比单任务设定更有利；而且世界模型可以直接在图像观测上训练，正好匹配真实机器人的感知模态。

核心 idea：训一个动作条件的自回归视频生成模型当"通用模拟器"，让策略在里面做蒙特卡洛 rollout、用 VLM 当奖励函数判断任务是否成功，以此估计策略价值。

方法详解¶

整体框架¶

WorldGym 把"离线策略评估（OPE）"重新框定为：在一个学到的世界模型 \(\hat{T}(\cdot\mid o,a)\) 里做蒙特卡洛 rollout。给定初始观测 \(o_0\) 和语言目标 \(g\)，策略 \(\pi\) 与世界模型构成一个闭环：策略看当前帧 → 吐出一段动作块 \(a_{\text{pred}}\) → 世界模型把每个动作渲染成新帧 → 最新帧又回灌给策略，如此往复几百步。整段生成的视频 rollout 最后交给一个 VLM（GPT-4o）判定任务是否成功，得到奖励，再对多次随机 rollout 求平均，就得到策略价值估计 \(\hat{\rho}(\pi)\)：

\[\hat{\rho}(\pi)=\mathbb{E}\big[\hat{R}([o_0,\dots,o_H],g)\,\big|\,a\sim\pi(o,g),\,o'\sim\hat{T}(o,a),\,o=o'\big]\]

因为整个环境只需要一张初始帧来初始化，作者还能直接编辑这张初始帧（用图像生成模型加物体/换颜色）或改语言指令，"凭空造出" OOD 任务和环境来压测策略的泛化能力。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["初始帧 o0 + 语言目标 g"] --> B["动作可控自回归<br/>视频世界模型"]
    B --> C["策略 π<br/>输出动作块 a_pred"]
    C -->|"扩散视野对齐动作块"| B
    B --> D["生成视频 rollout<br/>o0...oH"]
    D --> E["VLM 作为奖励<br/>判定成功/部分得分"]
    E --> F["蒙特卡洛平均<br/>→ 策略价值 ρ̂(π)"]
    A -.->|"编辑初始帧 / 改指令"| G["OOD 任务与环境构造"]
    G -.-> B

关键设计¶

1. 动作可控的自回归视频世界模型：让生成的每一帧都听机器人动作的话

世界模型必须做到两点：能根据动作精确预测下一帧，又能自回归地一直滚下去。作者在帧-动作配对序列上训练一个 latent Diffusion Transformer，并用 Diffusion Forcing 来支持自回归逐帧生成。动作如何注入是关键——每帧的机器人动作向量先线性投影到模型维度，再逐元素加到扩散时间步嵌入上，然后通过 AdaLN-Zero 调制去 condition 整个模型（类比 DiT 里的类别条件）。光这样还不够"听话"：作者发现如果不强制，模型容易忽略动作信号自顾自地按视频先验生成，于是提出整段视频随机丢弃动作（action dropout），再配合 classifier-free guidance，把"有动作条件 vs 无动作条件"的预测差放大，显著提升世界模型对动作输入的服从度。帧间的时序依赖则靠因果时序注意力块（穿插在空间注意力块之间）实现，保证生成第 \(t\) 帧时只能看过去、不能偷看未来。

2. 扩散视野长度对齐动作块大小：一个模型高效适配各种策略

不同机器人策略一次输出的动作数量不一样（有的吐 1 步，有的吐一整块 chunk）。如果世界模型固定一次只能并行去噪 \(k\) 帧，就会很别扭——动作块比 \(k\) 小时浪费算力，比 \(k\) 大时又吃不满并行度。得益于 Diffusion Forcing 训练 + 因果时序注意力掩码，WorldGym 可以在推理时灵活控制一次并行去噪多少帧，作者据此提出把扩散视野长度直接设成策略当前动作块大小 \(|a_{\text{pred}}|\)。这样同一个世界模型 checkpoint 就能高效服务动作块大小各异的策略，且并行度刚好匹配动作数、把硬件吃满。这与 Cosmos 等先前扩散世界模型形成对比——后者因双向注意力 + 固定上下文长度，必须每次并行去噪 16 个 latent 帧，块小则浪费、块大则并行度发挥不出来。

3. VLM 作为奖励函数：用 GPT-4o 读视频判成败，还能给部分得分

稀疏奖励设定下，任务成功与否本身就是个视觉-语言判断问题。作者直接用 GPT-4o 当奖励模型，把生成 rollout 的帧序列 + 语言指令一起喂进去，让它判定任务是否完成。更巧的是，当两个被比较的策略都没能端到端完成任务时，单纯的 0/1 奖励区分不出谁更好，于是作者给 VLM 指定部分得分（partial credit）准则——比如"谁离完成更近"——把这种以前需要人工启发式打分的环节自动化，从而在两个都失败的策略间也能拉开区分度。

4. 单帧初始化 → 快速构造 OOD 任务与环境：把"泛化测试"变成改图/改指令

因为整个评测环境只需一张初始帧来初始化，作者得以用极低成本创造分布外（OOD）场景，无需真机也无需重写仿真器。具体两条路：一是编辑初始图像——用 Nano Banana 等图像编辑模型往场景里加未见过的物体、加干扰物（distractor）、或改物体颜色/形状，再让世界模型从这张编辑后的图滚出去；二是改语言指令——保留初始帧但换掉目标物体或目标位置，构造 OOD 语言任务。这套设计让作者得以系统地探测现代 VLA 策略的盲点：例如发现 OpenVLA 仍难以单凭形状区分胡萝卜和橙子（只有把胡萝卜染红后才稳定抓对橙子），还会被屏幕上显示的物体图像（2D 假象）骗到、误抓笔记本电脑。

损失函数 / 训练策略¶

世界模型本质是个 latent DiT，用 Diffusion Forcing 的逐帧加噪/去噪目标训练；动作通过加到扩散时间步嵌入 + AdaLN-Zero 注入，并以一定概率整段丢弃动作以支持 classifier-free guidance。训练数据来自 Open-X Embodiment 等多任务多形态机器人数据。奖励模型不训练，直接用现成 GPT-4o。被评估的策略（RT-1-X、Octo、OpenVLA 等）以及从头训的视频策略（UniPi）和扩散策略（DexVLA）都在 Bridge V2 上训练，世界模型本身不动。

实验关键数据¶

主实验：世界模型成功率 vs 真实世界成功率¶

在 OpenVLA 的 Bridge 评测套件（17 个不在 Bridge V2 训练集中的挑战任务，每任务 10 trials）上，用真机记录的初始帧在 WorldGym 里 rollout 三个开源 VLA 策略，对比它们在世界模型里和真实世界里的成功率：

策略	真实世界成功率	世界模型成功率	差值
RT-1-X	18.5%	15.5%	~3%
Octo	20.0%	23.8%	~3.8%
OpenVLA	70.6%	67.4%	~3.2%

逐任务相关性 Pearson r = 0.78（p < 0.001）；三个策略的平均成功率与真实世界平均仅差 3.3%，落在各策略标准误范围附近。
三者相对排名（OpenVLA > Octo > RT-1-X）在世界模型与真实世界中完全一致。

排名保持 / OOD 退化分析¶

评测设定	关键结果	说明
不同版本/规模	Octo-Base 1.5 > Octo-Small 1.5；OpenVLA 7B(67.4%) ≫ OpenVLA v0.1 7B(27.6%)	更大更新的模型得分更高，与真机结论一致
不同训练步数	视频策略(UniPi)、扩散策略(DexVLA)成功率随训练步数单调上升	与验证集 MSE 下降一致，可用于 checkpoint 选择
OOD 干扰物（加 distractor）	RT-1-X 15.6%→7.6%（降 51%）；Octo 23.8%→4.1%（降 83%）；OpenVLA 67.4%→39.4%（降 41.5%）	OpenVLA 最鲁棒
OOD 语言指令	"Move the pot to the counter" 几乎全军覆没，仅 OpenVLA 成功 1 次	Bridge 数据没有把物体移出水槽的轨迹

关键发现¶

世界模型成功率与真机高度相关是核心卖点：r=0.78、平均差 3.3%，意味着可在真机评测前用不到 1 小时（单 GPU）替代原本要数天的真机测试。
相对排名比绝对数值更可靠：跨版本、跨规模、跨训练步数都保住了排名，这对超参调优和 checkpoint 选择最有用。
OOD 探测暴露 VLA 盲点：现代 VLA 仍难凭形状区分物体、会被 2D 假象干扰；OpenVLA 凭更强语言 backbone + 更丰富预训练数据，在 OOD 语言/图像上都最稳。

亮点与洞察¶

"世界只有一个"这个朴素观察是全文立论的支点——它把 model-based RL "单任务下学动力学比学策略还难"的劣势，翻转成"多任务数据共享同一物理规律"的优势，从而让单个世界模型评估任意策略变得合理。
扩散视野对齐动作块是个很实用的工程巧思：一个 checkpoint 适配所有动作块大小，避免了 Cosmos 那种固定 16 帧并行的浪费，可直接迁移到任何需要变长 rollout 的扩散世界模型。
只需一张初始帧 + 编辑图像/指令就能造 OOD 环境，把"泛化性测试"的成本从"搭真机/写仿真"降到"P 个图、改句话"，这是把生成模型当评测环境最香的红利。
VLM 部分得分把以前的人工启发式打分自动化，还能在两个都失败的策略间拉开区分度，是个可复用的评估 trick。

局限与展望¶

物体交互的真实感仍是短板：作者坦承生成高度真实的物体交互（尤其接触、形变）依然困难，世界模型更擅长还原机器人本体运动而非精细物体动力学，所以更适合做 sanity check 而非完全替代真机。
奖励依赖 GPT-4o：评测质量受 VLM 判断准确度上限制约，闭源模型也带来成本与可复现性问题（论文在附录验证 VLM 奖励准确度）。
绝对成功率仍有偏差：逐任务成功率与真机有出入（靠平均和排名才稳），对需要精确绝对值的场景要谨慎。⚠️ 具体相关系数与逐任务数值以原文表格为准。
改进方向：提升世界模型对接触/软体交互的物理保真度、引入更强或开源的奖励模型、把 OOD 构造做成系统化的对抗性评测基准。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把视频世界模型当作通用策略评测环境，并系统验证其与真机的相关性，角度新颖且实用。
实验充分度: ⭐⭐⭐⭐ 覆盖相关性、排名保持、跨版本/规模/训练步、OOD 图像与语言多维验证，但绝对数值偏差和物体交互真实感是已知短板。
写作质量: ⭐⭐⭐⭐⭐ 立论清晰（"世界只有一个"），方法与实验衔接顺畅，大量定性可视化。
价值: ⭐⭐⭐⭐⭐ 真机评测前的安全、可复现、低成本 sanity check 工具，对机器人策略迭代实用价值高。