ICLR 2026 机器人 world model sparse tokens MPC DINO VLA token dropout planning efficiency

Sparse Imagination for Efficient Visual World Model Planning¶

会议: ICLR 2026
arXiv: 2506.01392
代码: 无（基于 DINO-WM 框架）
领域: 机器人
关键词: world model, sparse tokens, MPC, DINO, VLA, token dropout, planning efficiency

一句话总结¶

提出 Sparse Imagination，在基于 ViT patch token 的世界模型规划中通过随机丢弃 token 和随机分组注意力训练实现大幅推理加速（50% 丢弃率可减少约 50% 规划时间），同时保持甚至在某些任务上超越全量 token 的规划性能。关键发现是简单随机丢弃优于复杂的 token 选择方法，原因是静态重要性排序在动态规划场景中存在"盲点问题"。

背景与动机¶

核心矛盾¶

核心矛盾：领域现状：1. 基于世界模型的规划（MPC）通过想象未来轨迹实现决策，但计算代价随 token 数量二次增长——每个规划步需要 \(K \times M \times H\) 次世界模型前向传播 2. ViT patch token 作为视觉状态表示（如 DINO-WM）比单一 CLS token 保留更丰富的空间信息，在精细操作任务中优势明显 3. 但全量 patch token 在 MPC 中的计算开销使实时部署极其困难——尤其在机器人等计算受限的场景 4. ViT 表示存在已知的冗余性——Raghu et al., Pan et al., Kim et al. 等多项研究证明并非所有 patch 对下游任务同等重要 5. 机器人场景下计算资源尤其受限（嵌入式GPU），需要在保持精度的同时大幅降低推理开销 6. 现有 token 剪枝方法（注意力排序/学习选择/合并/训练时 dropout）在分类等静态任务上有效，但在规划这种迭代动态场景中未被验证

方法（框架/设计）¶

世界模型架构: 基于预训练 DINO 编码器（固定权重）提取视觉 patch token \(z_t \in \mathbb{R}^{H_p \times W_p \times D}\)，因果 Transformer 解码器预测未来 token 序列
训练损失: MSE 预测损失 \(\mathcal{L}_{wm} = \frac{1}{N}\sum_{i=1}^N \|\hat{z}_{t+1,i} - z_{t+1,i}\|^2\)，目标距离同样用 MSE
Sparse Imagination: 在世界模型推理阶段随机丢弃比例为 \(p\) 的 patch token，仅用 \((1-p)N\) 个 token 进行前向预测
随机分组注意力训练: 训练时将每帧 token 随机分为两组，注意力掩码限制组内交互，使模型学会处理任意 token 子集。组间时间维度保持一致。
MPC 集成: 每个规划步重新采样 dropout mask（独立于前一步），预测和 CEM 优化均在稀疏 token 上进行
VLA 引导规划: 对长时程任务从预训练 VLA（SmolVLA）采样 \(K\) 个候选动作序列，替代 CEM 的随机采样——大幅提升长时程规划效率
关键发现: 简单随机采样优于复杂的注意力/学习排序方法，因为静态重要性度量在动态规划中存在"盲点"——某些在当前状态看似不重要的 patch 在评估候选动作时变得关键，随机采样的无偏覆盖避免了系统性遗漏

实验关键数据¶

简单环境（MPC-CEM / CEM）¶

主实验¶

环境	Full (p=0)	Drop 30%	Drop 50%	CLS-token	说明
Pointmaze	98.3%	98.3%	100%	96.7%	稀疏反超全量
Wall	91.7%	93.3%	95.0%	85.0%	稀疏优于全量
PushT	75.0%	61.7%	70.0%	43.3%	50% drop 接近全量
Granular	75.0%	85.0%	60.0%	20.0%	30% drop 反超
Rope	63.3%	70.0%	73.3%	36.7%	稀疏显著优于 CLS
Block Push	22.0%	18.0%	20.0%	16.0%	困难任务差距较小

复杂环境 + 真实世界（VLA 引导规划）¶

消融实验¶

任务	Full	Drop 50%	VLA-only	时间(Full→Drop)
PickPlace (真实)	-	80%	60%	19.1s→10.4s
Drawer (真实)	-	70%	60%	14.0s→10.6s
LIBERO-10	34%	33%	29%	53.4s→29.7s
Meta-World	48.8%	47.7%	42.7%	3.63s→2.37s

规划时间加速¶

环境	Full 时间	Drop 50% 时间	加速比
PushT	173s/iter	82s/iter	52.6%
Pointmaze	184s/iter	102s/iter	44.6%
Block Push	297s/iter	161s/iter	45.8%

亮点与洞察¶

极其简洁优雅：仅通过随机 dropout 即实现大幅加速，无需额外模型
"盲点问题"分析深刻——解释了为何复杂 token 选择不如随机采样
通用性强：从简单轨迹优化到 VLA 引导规划到真实机器人均验证有效
训练阶段的分组注意力策略可无缝嵌入任何 Transformer 世界模型

消融实验与深入分析¶

消融/分析	结果
有 vs 无分组注意力训练	无分组注意力在 50% drop 时严重退化（PushT 从 70→35%），分组注意力是必要条件
随机 vs 注意力排序 vs 学习排序	随机采样在多数任务上竞争性或更优——"盲点问题"使静态排序失效
Drop ratio 甜蜜点	10-50% 为最佳区间，>70% 明显退化
VLA 引导 vs CEM 随机采样	长时程任务中 VLA 引导提升 ~4-7%，计算开销降低 ~40%
仅训练阶段稀疏 vs 仅推理阶段稀疏	两者都需要：训练稀疏确保模型适应，推理稀疏提供加速

"盲点问题"深入分析¶

静态重要性度量（如注意力权重、CLS token 相关性）在 MPC 的迭代优化过程中会产生系统性盲点
具体地：某些 patch 在当前状态下看似不重要，但在对候选动作序列评估时可能变得关键
随机采样通过无偏覆盖避免了系统性遗漏——每次迭代重新采样 mask 确保所有区域都有被覆盖的概率
这一发现与 token 剪枝文献中"学习选择优于随机"的常见结论相反，说明规划场景有其特殊性

局限与展望¶

最佳 drop ratio 需要根据任务手动选择，缺乏自适应机制——一个可能的改进是根据任务复杂度或当前状态动态调整
分组数固定为 2，未探索更多分组（如 3-4 组）的效果
依赖 DINO 特征的冗余性假设，对信息密集场景（如文本密集界面）可能不成立
真实世界验证仅限于两个较简单任务（PickPlace + Drawer），更复杂的操作任务未测试
未与 token 合并方法（如 ToMe）结合——稀疏选择+合并可能进一步提升效率

评分¶

新颖性: ⭐⭐⭐⭐ 简单但有效的洞察，盲点问题分析有独特价值
实验充分度: ⭐⭐⭐⭐⭐ 8 个仿真+2 个真实任务，多方法对比，消融充分
写作质量: ⭐⭐⭐⭐ 逻辑清晰，图表精美，方法图示直观
价值: ⭐⭐⭐⭐ 实用贡献，可直接集成到任何基于 Transformer 的世界模型流水线中