Visual Planning: Let's Think Only with Images¶
会议: ICLR 2026 Oral
arXiv: 2505.11409
代码: GitHub
领域: 机器人
关键词: 视觉规划, 纯图像推理, 大视觉模型, GRPO, 强化学习, 导航
一句话总结¶
提出Visual Planning——首个纯视觉推理范式:规划过程完全由图像序列表达(无文本中介),用Large Vision Model自回归生成逐步状态图像;引入VPRL两阶段RL框架(随机轨迹初始化探索+GRPO进度奖励优化),在FrozenLake/Maze/MiniBehavior三个导航任务上平均EM超越文本推理方法27%,证明"vision-first"任务中图像推理远优于文本推理。
研究背景与动机¶
领域现状:LLM/MLLM在推理中取得巨大进展,但所有推理过程均在文本空间进行——即使输入包含图像,也先将视觉信息描述为文本再推理。认知科学的Dual Coding Theory指出人类认知同时拥有语言和非语言两个独立通道,空间任务中视觉想象比语言更高效。
现有痛点: - (1) 空间/几何任务中,视觉信息→文本描述→丢失关键空间特征,造成modality gap - (2) Visual Sketchpad等方法用工具生成辅助视觉,但推理决策仍在文本空间完成 - (3) MVoT生成可视化辅助文本推理,但本质仍是文本驱动的tool-use范式 - (4) 尚无真正的纯视觉推理范式——所有现有方法最终都依赖文本做决策
切入角度:彻底去除文本中介→规划=图像序列→每张图代表一个环境状态→动作隐式编码在状态转换中→用纯视觉数据训练的LVM避免语言干扰。
RL的动机:RL已在文本推理中展现出显著优于SFT的泛化能力(DeepSeek-R1),但从未被应用于图像生成式推理/规划场景。
SFT的不足:监督学习(VPFT)仅模仿训练分布中的轨迹,缺乏对多样action的探索,容易过拟合且无法从错误中学习。
评估挑战:视觉输出是高维稀疏的,不像文本token可以直接评判对错,需要设计专门的dynamics interpreter和progress estimator来评估生成图像是否代表有意义的规划进展。
方法详解¶
整体框架¶
这篇论文想回答一个问题:在空间规划任务(走迷宫、网格导航)里,把推理过程完全放在图像空间、不经任何文本中介,会不会比"先把图像描述成文字再推理"更强。它的做法是把"规划"重新定义成图像序列生成:给定初始状态图 \(v_0\),一个仅在图像/视频上预训练的大视觉模型(Large Vision Model,LVM-7B,训练时零文本数据)自回归地一步步画出后续状态图,整条轨迹 \(\hat{\mathcal{T}} = (\hat{v}_1, \ldots, \hat{v}_n)\) 就是规划方案——动作(往哪走)隐式藏在相邻两帧的变化里,全程不输出一个文字。
光让模型会"画下一帧"还不够,得让它画出通向目标的合法下一帧,这靠一套两阶段强化学习框架 VPRL(Visual Planning via RL)来训:Stage 1 先用随机轨迹把策略初始化成一个"会动、且保持充分探索"的模型,Stage 2 再用 GRPO 配合一个进度奖励,把它优化成"专挑通向目标的合法动作"的规划器。其中进度奖励负责把每一帧画得好不好翻译成可优化的标量信号,是连接"画图"和"规划"的关键一环。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
V0["初始状态图 v0<br/>(网格 / 迷宫布局)"] --> LVM["纯视觉自回归规划<br/>LVM-7B 逐帧预测下一状态<br/>动作隐式编码在状态转换里"]
LVM --> TRAJ["图像序列轨迹<br/>= 规划方案 (无文本)"]
subgraph TRAIN["两阶段 VPRL"]
direction TB
S1["Stage 1 随机轨迹初始化<br/>随机游走采监督目标<br/>→ 高熵、低无效动作率"]
S2["Stage 2 GRPO 优化<br/>每状态采 G 个候选帧<br/>组内相对优势 + KL 约束"]
S1 --> S2
end
REWARD["进度奖励<br/>dynamics interpreter 判动作类型<br/>progress estimator 量化到目标距离<br/>最优 +1 / 合法绕路 0 / 非法 -5"]
TRAIN -.训练得到.-> LVM
S2 -->|候选状态| REWARD
REWARD -->|相对优势| S2
关键设计¶
1. 纯视觉自回归规划:把动作藏进状态转换里
空间规划任务的状态本就是空间布局,用文字描述坐标既冗长又容易错——论文统计发现约 25.7% 的坐标/布局描述与真实环境对不上,这个 modality gap 正是文本推理在此类任务上吃亏的根源。Visual Planning 干脆让模型在图像空间里直接预测"下一帧",每一步条件依赖全部历史状态 \(\hat{v}_i \sim \pi_\theta(v_i \mid v_0, \hat{v}_1, \ldots, \hat{v}_{i-1})\),"往哪走"这个动作隐式编码在相邻状态图的变化里,不需要显式输出任何符号。backbone 特意选只在图像/视频上预训练、完全没碰过文字的 LVM-7B,是为了切断"语言能力"这个 confound——只有这样,"纯视觉推理是否真的更强"的结论才不会被模型自带的文本能力污染。
2. 两阶段 VPRL:先喂饱探索能力,再上 RL
一个反直觉的坑是:直接拿监督学好的模型(VPFT,用最优轨迹做 teacher-forcing)当 RL 初始策略,探索会立刻崩溃——训练后模型 entropy 迅速趋零,对同一状态采样出的候选动作几乎一模一样,于是组内候选拿到的奖励全相同、相对优势全是零,GRPO 根本没有梯度可更新。Stage 1 专门解决这点:不学最优轨迹,而是在环境里随机游走收集轨迹,每步从所有合法的下一状态里随机采样一个当监督目标,最小化
训出来的模型 entropy 接近均匀随机规划器、无效动作率又低,正好给 Stage 2 留足探索空间。Stage 2 在此基础上对每个状态采 \(G\) 个候选下一帧,按奖励算组内相对优势 \(A^{(k)}\),用带 KL 约束的 GRPO 目标更新策略:
消融证实改进几乎全部来自 Stage 2,但没有 Stage 1 撑起探索,Stage 2 就无从优化——两个阶段缺一不可。
3. 进度奖励:用环境语义给"画出来的状态"打分
视觉输出是高维稀疏的,没法像文本 token 那样逐位匹配对错,所以 Stage 2 的相对优势需要一个环境级别的语义信号来计算。论文为此引入两个组件:dynamics interpreter \(\mathcal{D}\) 解析相邻两帧对应的动作类型(论文实现为规则解析,也可换成 dynamics 模型或神经判别器),progress estimator \(P\) 用 BFS 预先算出每个格点到目标的剩余步数。两者把每个候选状态分成三档给奖励:
三档系数分别是:让到目标距离变小的最优动作 \(\alpha_{\text{opt}}=1\)、合法但没前进的绕路动作 \(\alpha_{\text{nopt}}=0\)、穿墙等非法动作 \(\alpha_{\text{inv}}=-5\)。这样既鼓励朝目标前进、又容忍合法绕路、还对非法状态重罚,把策略牢牢约束在合法动作空间里找最短路径。
实验关键数据¶
表1: 主实验——各方法在三个导航任务上的表现¶
| 方法 | 输入→输出 | FrozenLake EM | FrozenLake PR | Maze EM | Maze PR | MiniBehavior EM | MiniBehavior PR | 平均EM | 平均PR |
|---|---|---|---|---|---|---|---|---|---|
| Gemini 2.0 Flash Direct | 图+文→文 | 21.2 | 47.6 | 8.3 | 31.4 | 0.7 | 29.8 | 10.1 | 36.3 |
| Gemini 2.0 Flash CoT | 图+文→文 | 27.6 | 52.5 | 6.9 | 29.8 | 4.0 | 31.2 | 12.8 | 37.8 |
| Gemini 2.5 Pro (think) | 图+文→文 | 72.0 | 85.0 | 21.5 | 35.5 | 37.6 | 59.9 | 43.7 | 60.1 |
| Qwen2.5-VL Direct | 图+文→文 | 1.2 | 15.0 | 0.6 | 14.5 | 0.3 | 9.8 | 0.7 | 13.1 |
| Qwen2.5-VL CoT | 图+文→文 | 8.2 | 29.1 | 2.3 | 15.2 | 0.5 | 14.7 | 3.7 | 19.7 |
| Qwen2.5-VL SFT | 图+文→文 | 68.6 | 84.4 | 60.9 | 70.3 | 31.3 | 56.1 | 53.6 | 69.9 |
| LVM VPFT (ours) | 图→图 | 75.4 | 79.5 | 59.0 | 64.0 | 33.8 | 52.2 | 56.1 | 65.2 |
| LVM VPRL (ours) | 图→图 | 91.6 | 93.2 | 74.5 | 77.6 | 75.8 | 83.8 | 80.6 | 84.9 |
表2: 文本规划变体在FrozenLake上的对比¶
| 方法 | EM (%) | PR (%) |
|---|---|---|
| Qwen2.5-VL SFT Direct | 68.6 | 84.4 |
| Qwen2.5-VL SFT w/ Coordinates | 74.4 | 82.7 |
| Qwen2.5-VL SFT w/ ASCII | 73.1 | 83.4 |
| Qwen2.5-VL GRPO w/ VPRL reward | 54.4 | 69.9 |
| Qwen2.5-VL GRPO w/ PR metric reward | 60.1 | 74.3 |
发现:文本规划即使加入坐标/ASCII等增强表示,RL也无法超越SFT基线→证明瓶颈在modality gap而非训练方法。
关键发现¶
-
视觉规划全面碾压文本推理:VPRL平均EM 80.6% vs 文本SFT最佳 53.6%(+27%),在MiniBehavior上差距最大(75.8% vs 31.3%),说明任务越复杂视觉推理优势越大。
-
文本RL在多模态输入下失效:与纯文本domain不同,RL用于文本+图像输入的规划任务反而不如SFT(54.4% vs 68.6%),瓶颈在于视觉信息→文本grounding的modality gap,约25%的布局描述与真实不匹配。
-
随机初始化是RL成功的关键:VPFT的entropy训练后趋近零导致探索崩溃;Stage 1随机轨迹初始化使entropy接近均匀分布且无效动作率低,为Stage 2 RL提供充分的探索空间。
-
VPRL大幅减少无效动作:失败轨迹中包含无效动作的比例——VPFT为61%~78%,VPRL降低至少24%,说明VPRL有效约束模型在合法动作空间内规划。
-
VPRL在复杂度缩放时更鲁棒:FrozenLake从3×3到6×6,Gemini 2.5 Pro EM从98%跌至38.8%,而VPRL从97.6%仅降至82.4%,展现出更平缓的性能曲线。
亮点¶
- "首个纯视觉推理":之前所有"视觉推理"工作最终都在文本空间决策,Visual Planning真正实现了全程图像空间推理——人类画草图解空间题的AI版本。
- 首次将RL应用于图像生成式规划:将DeepSeek-R1的RL→推理成功范式从文本跨模态迁移到图像生成,开辟全新研究方向。
- Dual Coding Theory的计算验证:Paivio假设视觉和语言是独立推理通道,本文首次在计算实验层面证实这一认知科学假说。
- 两阶段设计精巧合理:Stage 1随机初始化解决RL探索问题的方案简洁有效,比直接VPFT初始化好得多。
局限性¶
- 任务范围有限:仅验证了三个grid-based导航任务(FrozenLake/Maze/MiniBehavior),尚未扩展到连续空间、3D环境、或真实机器人场景。
- 环境约束依赖规则解析:dynamics interpreter和progress estimator目前基于规则(而非学习),限制了向复杂/未知环境的推广。
- 图像分辨率和复杂度有限:当前环境图像为简单grid渲染,对于真实场景的高分辨率复杂图像的可扩展性未知。
- 训练成本未充分讨论:两阶段RL+GRPO的训练开销、采样效率等关键工程问题缺乏详细分析。
- 与语言的互补性未探索:论文将视觉规划定位为文本推理的替代而非补充,但实际中两种模态的融合可能更优。
相关工作对比¶
vs Visual Sketchpad (Hu et al., 2024)¶
Visual Sketchpad用外部工具生成草图/可视化辅助MLLM推理,但推理决策仍完全在文本空间——视觉只是辅助展示。Visual Planning则完全在图像空间推理,无文本参与,是根本性的范式转变。
vs MVoT (Li et al., 2025)¶
MVoT为每个文本推理步生成可视化,但本质上仍是"文本推理+视觉tool-use":模型先在文本中决定action,再自调用生成可视化验证。Visual Planning不需要文本决策环节,action隐式编码在图像状态转换中,从根本上消除modality gap。
vs Action-conditional Generative Models (Hafner et al., 2019; Ha & Schmidhuber, 2018)¶
世界模型(如Dreamer)学习状态转换动力学用于model-based RL,但它们不执行规划——需要耦合外部planner。VPRL则是一个自包含的holistic planner,将规划内化于视觉生成流程中,无需外部规划器。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 纯视觉推理范式+VPRL框架均属首创,GRPO首次用于图像生成式规划
- 实验充分度: ⭐⭐⭐⭐ 3个导航任务+难度缩放+消融+误差分析全面,但任务类型偏窄
- 写作质量: ⭐⭐⭐⭐⭐ 认知科学动机清晰,范式对比直观,公式和图表规范
- 价值: ⭐⭐⭐⭐⭐ 开辟纯视觉推理新方向,对多模态推理社区有重要启发意义