Sparse Imagination for Efficient Visual World Model Planning¶
会议: ICLR 2026
arXiv: 2506.01392
代码: 无(基于 DINO-WM 框架)
领域: 机器人
关键词: world model, sparse tokens, MPC, DINO, VLA, token dropout, planning efficiency
一句话总结¶
提出 Sparse Imagination,在基于 ViT patch token 的世界模型规划中通过随机丢弃 token 和随机分组注意力训练实现大幅推理加速(50% 丢弃率可减少约 50% 规划时间),同时保持甚至在某些任务上超越全量 token 的规划性能。关键发现是简单随机丢弃优于复杂的 token 选择方法,原因是静态重要性排序在动态规划场景中存在"盲点问题"。
背景与动机¶
领域现状:基于世界模型的规划通过"想象"未来轨迹来做决策,已在复杂控制任务上显著提升表现。其中 DINO-WM(Zhou et al. 2024)这类方法用 ViT patch token(DINO 特征)而非单一 CLS token 或像素来表示视觉状态,保留了精细的空间信息,在精细操作任务上优势明显。
核心痛点:模型预测控制(MPC,Model Predictive Control)每个规划步都要对大量候选轨迹反复跑世界模型——开销为 \(K \times M \times H\) 次前向传播,且随 token 数量二次增长。全量 patch token 虽然信息丰富,但这种二次开销让实时部署几乎不可能,在机器人这类计算资源严重受限的嵌入式场景尤为致命。
研究矛盾:一边是 patch token 带来的空间精度,一边是它带来的高昂算力——既想保留细粒度视觉世界模型的优势,又想把规划算力压下来。所幸 ViT 表示存在已知的冗余性(Raghu et al.、Pan et al.、Kim et al. 等多项工作证明并非所有 patch 对下游任务同等重要),这给"砍 token"留出了空间。
已有方案的不足:现有 token 缩减方法(注意力排序、学习式选择、token 合并、训练时 dropout)大多在分类等静态任务上验证有效,但在 MPC 这种迭代动态的规划场景里从未被检验——而本文恰恰发现静态场景的结论在规划里会失效。
方法(框架/设计)¶
整体框架¶
这篇论文要解决的是「ViT patch token 世界模型规划太慢」的问题。整套流程是:一个权重冻结的预训练 DINO 编码器把每帧图像编成 patch token \(z_t \in \mathbb{R}^{H_p \times W_p \times D}\)(共 \(N=H_p\times W_p\) 个 token),随后一个因果 Transformer 世界模型在 token 空间逐步预测未来状态,训练目标是逐 token 的 MSE 预测损失 \(\mathcal{L}_{wm} = \frac{1}{N}\sum_{i=1}^N \|\hat{z}_{t+1,i} - z_{t+1,i}\|^2\)。规划阶段用 MPC:每步采一批候选动作序列,让世界模型 rollout 想象未来,再按到目标状态的 MSE 打分择优。本文的核心改造有三处——世界模型训练时用随机分组注意力让它适应残缺输入;规划时用 Sparse Imagination(每步随机丢掉一部分 token)把想象算力砍半;长时程任务再用 VLA 引导规划把候选采样交给预训练策略。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}%%
flowchart TD
A["观测图像 o_t"] --> B["DINO 编码器(冻结)<br/>→ N 个 patch token"]
B --> C["因果 Transformer 世界模型<br/>(随机分组注意力训练)"]
C --> PLAN
subgraph PLAN["MPC 规划循环(每步重采样 mask)"]
direction TB
E["候选动作采样<br/>CEM 随机 / VLA 引导规划"] --> F["稀疏想象 rollout<br/>随机丢弃 p 比例 token"]
F --> G["按目标 MSE 打分<br/>更新候选分布"]
G -->|"迭代 M 步"| E
end
PLAN --> H["执行最优动作"]
关键设计¶
1. Sparse Imagination:用随机丢弃直接削掉一半想象开销
MPC 的计算瓶颈在于每个规划步都要对 \(K\) 条候选轨迹、\(M\) 轮 CEM 优化、\(H\) 步时域反复跑世界模型,而注意力开销随 token 数二次增长。本文不做任何复杂的 token 选择,只是在推理阶段以比例 \(p\) 随机生成丢弃掩码,仅保留随机采样的 \((1-p)N\) 个 token 喂进世界模型 rollout,\(p=0.5\) 时规划时间几乎对半下降。关键发现是这种朴素随机采样反而优于注意力排序、学习排序等"聪明"方法:静态重要性度量在 MPC 的迭代优化里存在"盲点"——某个 patch 在当前状态看似无关紧要,但在评估某条候选动作序列时却可能变得关键;而每步重新独立采样掩码带来的无偏覆盖,恰好避免了静态排序的系统性遗漏。即使某一步因丢掉关键特征而走偏,下一步重采样也能纠回来,所以 \(p\) 在 10–50% 区间几乎不掉点、超过 70% 才明显退化。
2. 随机分组注意力训练:让模型学会在任意 token 子集上预测
如果世界模型训练时只见过全量 token,推理时突然抽走一半会严重失配(消融显示 PushT 在 50% 丢弃下从 70% 掉到 35%)。为此训练时把每帧的 patch token 随机切成两组,在 Transformer 各层用注意力掩码限制交互只发生在同组内、同时保持时间维度上的因果对齐,等于让模型反复在残缺视野下学习预测动力学。这样推理阶段无论丢掉哪些 token、丢多少,模型都能稳定外推——分组注意力因此是 Sparse Imagination 能成立的必要前提而非可选项(消融证实「只在推理稀疏、训练不稀疏」会崩)。
3. VLA 引导规划:把长时程的候选采样交给预训练策略
对长时程任务(LIBERO、Meta-World、真实机器人),CEM 在动作空间里盲目随机采样既慢又难命中有效轨迹。这里改为从预训练的 VLA(Vision-Language-Action)策略采样 \(K\) 条候选动作序列来替代 CEM 的随机采样,再让稀疏世界模型快速评估打分、择优执行。VLA 提供的动作先验把候选集中到合理区域,与稀疏想象的廉价评估叠加后,长时程任务上既提了约 4–7% 成功率又省了约 40% 计算。
实验关键数据¶
主实验¶
| 环境 | Full (p=0) | Drop 30% | Drop 50% | CLS-token | 说明 |
|---|---|---|---|---|---|
| Pointmaze | 98.3% | 98.3% | 100% | 96.7% | 稀疏反超全量 |
| Wall | 91.7% | 93.3% | 95.0% | 85.0% | 稀疏优于全量 |
| PushT | 75.0% | 61.7% | 70.0% | 43.3% | 50% drop 接近全量 |
| Granular | 75.0% | 85.0% | 60.0% | 20.0% | 30% drop 反超 |
| Rope | 63.3% | 70.0% | 73.3% | 36.7% | 稀疏显著优于 CLS |
| Block Push | 22.0% | 18.0% | 20.0% | 16.0% | 困难任务差距较小 |
消融实验¶
| 任务 | Full | Drop 50% | VLA-only | 时间(Full→Drop) |
|---|---|---|---|---|
| PickPlace (真实) | - | 80% | 60% | 19.1s→10.4s |
| Drawer (真实) | - | 70% | 60% | 14.0s→10.6s |
| LIBERO-10 | 34% | 33% | 29% | 53.4s→29.7s |
| Meta-World | 48.8% | 47.7% | 42.7% | 3.63s→2.37s |
规划时间加速¶
| 环境 | Full 时间 | Drop 50% 时间 | 加速比 |
|---|---|---|---|
| PushT | 173s/iter | 82s/iter | 52.6% |
| Pointmaze | 184s/iter | 102s/iter | 44.6% |
| Block Push | 297s/iter | 161s/iter | 45.8% |
亮点与洞察¶
- 极其简洁优雅:仅通过随机 dropout 即实现大幅加速,无需额外模型
- "盲点问题"分析深刻——解释了为何复杂 token 选择不如随机采样
- 通用性强:从简单轨迹优化到 VLA 引导规划到真实机器人均验证有效
- 训练阶段的分组注意力策略可无缝嵌入任何 Transformer 世界模型
消融实验与深入分析¶
| 消融/分析 | 结果 |
|---|---|
| 有 vs 无分组注意力训练 | 无分组注意力在 50% drop 时严重退化(PushT 从 70→35%),分组注意力是必要条件 |
| 随机 vs 注意力排序 vs 学习排序 | 随机采样在多数任务上竞争性或更优——"盲点问题"使静态排序失效 |
| Drop ratio 甜蜜点 | 10-50% 为最佳区间,>70% 明显退化 |
| VLA 引导 vs CEM 随机采样 | 长时程任务中 VLA 引导提升 ~4-7%,计算开销降低 ~40% |
| 仅训练阶段稀疏 vs 仅推理阶段稀疏 | 两者都需要:训练稀疏确保模型适应,推理稀疏提供加速 |
"盲点问题"深入分析¶
- 静态重要性度量(如注意力权重、CLS token 相关性)在 MPC 的迭代优化过程中会产生系统性盲点
- 具体地:某些 patch 在当前状态下看似不重要,但在对候选动作序列评估时可能变得关键
- 随机采样通过无偏覆盖避免了系统性遗漏——每次迭代重新采样 mask 确保所有区域都有被覆盖的概率
- 这一发现与 token 剪枝文献中"学习选择优于随机"的常见结论相反,说明规划场景有其特殊性
局限与展望¶
- 最佳 drop ratio 需要根据任务手动选择,缺乏自适应机制——一个可能的改进是根据任务复杂度或当前状态动态调整
- 分组数固定为 2,未探索更多分组(如 3-4 组)的效果
- 依赖 DINO 特征的冗余性假设,对信息密集场景(如文本密集界面)可能不成立
- 真实世界验证仅限于两个较简单任务(PickPlace + Drawer),更复杂的操作任务未测试
- 未与 token 合并方法(如 ToMe)结合——稀疏选择+合并可能进一步提升效率
相关工作与启发¶
- vs Dreamer 系列 (Hafner et al.):Dreamer 在低维向量潜在空间想象,本文在高维 patch token 空间想象——保留了更丰富的空间信息但计算更贵,稀疏想象正好弥补这一差距
- vs DINO-WM (Zhou et al. 2024):本文直接构建在 DINO-WM 之上,用 sparse imagination 解决其计算瓶颈
- vs ToMe (Bolya et al.):ToMe 通过 token 合并减少计算,本文通过 token 丢弃——设计更简单且不需要额外的合并逻辑
- vs SmolVLA (Shukor et al.):SmolVLA 提供预训练策略用于引导规划,本文的稀疏想象加速了 VLA 引导的世界模型评估
- 启发:稀疏想象的思路可推广到其他需要大量前向传播的场景——如 MCTS 搜索中的价值网络评估、多步推理中的 world simulation
评分¶
- 新颖性: ⭐⭐⭐⭐ 简单但有效的洞察,盲点问题分析有独特价值
- 实验充分度: ⭐⭐⭐⭐⭐ 8 个仿真+2 个真实任务,多方法对比,消融充分
- 写作质量: ⭐⭐⭐⭐ 逻辑清晰,图表精美,方法图示直观
- 价值: ⭐⭐⭐⭐ 实用贡献,可直接集成到任何基于 Transformer 的世界模型流水线中