跳转至

Sparse Imagination for Efficient Visual World Model Planning

会议: ICLR 2026
arXiv: 2506.01392
代码: 无(基于 DINO-WM 框架)
领域: 机器人
关键词: world model, sparse tokens, MPC, DINO, VLA, token dropout, planning efficiency

一句话总结

提出 Sparse Imagination,在基于 ViT patch token 的世界模型规划中通过随机丢弃 token 和随机分组注意力训练实现大幅推理加速(50% 丢弃率可减少约 50% 规划时间),同时保持甚至在某些任务上超越全量 token 的规划性能。关键发现是简单随机丢弃优于复杂的 token 选择方法,原因是静态重要性排序在动态规划场景中存在"盲点问题"。

背景与动机

核心矛盾

核心矛盾领域现状:1. 基于世界模型的规划(MPC)通过想象未来轨迹实现决策,但计算代价随 token 数量二次增长——每个规划步需要 \(K \times M \times H\) 次世界模型前向传播 2. ViT patch token 作为视觉状态表示(如 DINO-WM)比单一 CLS token 保留更丰富的空间信息,在精细操作任务中优势明显 3. 但全量 patch token 在 MPC 中的计算开销使实时部署极其困难——尤其在机器人等计算受限的场景 4. ViT 表示存在已知的冗余性——Raghu et al., Pan et al., Kim et al. 等多项研究证明并非所有 patch 对下游任务同等重要 5. 机器人场景下计算资源尤其受限(嵌入式GPU),需要在保持精度的同时大幅降低推理开销 6. 现有 token 剪枝方法(注意力排序/学习选择/合并/训练时 dropout)在分类等静态任务上有效,但在规划这种迭代动态场景中未被验证

方法(框架/设计)

  • 世界模型架构: 基于预训练 DINO 编码器(固定权重)提取视觉 patch token \(z_t \in \mathbb{R}^{H_p \times W_p \times D}\),因果 Transformer 解码器预测未来 token 序列
  • 训练损失: MSE 预测损失 \(\mathcal{L}_{wm} = \frac{1}{N}\sum_{i=1}^N \|\hat{z}_{t+1,i} - z_{t+1,i}\|^2\),目标距离同样用 MSE
  • Sparse Imagination: 在世界模型推理阶段随机丢弃比例为 \(p\) 的 patch token,仅用 \((1-p)N\) 个 token 进行前向预测
  • 随机分组注意力训练: 训练时将每帧 token 随机分为两组,注意力掩码限制组内交互,使模型学会处理任意 token 子集。组间时间维度保持一致。
  • MPC 集成: 每个规划步重新采样 dropout mask(独立于前一步),预测和 CEM 优化均在稀疏 token 上进行
  • VLA 引导规划: 对长时程任务从预训练 VLA(SmolVLA)采样 \(K\) 个候选动作序列,替代 CEM 的随机采样——大幅提升长时程规划效率
  • 关键发现: 简单随机采样优于复杂的注意力/学习排序方法,因为静态重要性度量在动态规划中存在"盲点"——某些在当前状态看似不重要的 patch 在评估候选动作时变得关键,随机采样的无偏覆盖避免了系统性遗漏

实验关键数据

简单环境(MPC-CEM / CEM)

主实验

环境 Full (p=0) Drop 30% Drop 50% CLS-token 说明
Pointmaze 98.3% 98.3% 100% 96.7% 稀疏反超全量
Wall 91.7% 93.3% 95.0% 85.0% 稀疏优于全量
PushT 75.0% 61.7% 70.0% 43.3% 50% drop 接近全量
Granular 75.0% 85.0% 60.0% 20.0% 30% drop 反超
Rope 63.3% 70.0% 73.3% 36.7% 稀疏显著优于 CLS
Block Push 22.0% 18.0% 20.0% 16.0% 困难任务差距较小

复杂环境 + 真实世界(VLA 引导规划)

消融实验

任务 Full Drop 50% VLA-only 时间(Full→Drop)
PickPlace (真实) - 80% 60% 19.1s→10.4s
Drawer (真实) - 70% 60% 14.0s→10.6s
LIBERO-10 34% 33% 29% 53.4s→29.7s
Meta-World 48.8% 47.7% 42.7% 3.63s→2.37s

规划时间加速

环境 Full 时间 Drop 50% 时间 加速比
PushT 173s/iter 82s/iter 52.6%
Pointmaze 184s/iter 102s/iter 44.6%
Block Push 297s/iter 161s/iter 45.8%

亮点与洞察

  • 极其简洁优雅:仅通过随机 dropout 即实现大幅加速,无需额外模型
  • "盲点问题"分析深刻——解释了为何复杂 token 选择不如随机采样
  • 通用性强:从简单轨迹优化到 VLA 引导规划到真实机器人均验证有效
  • 训练阶段的分组注意力策略可无缝嵌入任何 Transformer 世界模型

消融实验与深入分析

消融/分析 结果
有 vs 无分组注意力训练 无分组注意力在 50% drop 时严重退化(PushT 从 70→35%),分组注意力是必要条件
随机 vs 注意力排序 vs 学习排序 随机采样在多数任务上竞争性或更优——"盲点问题"使静态排序失效
Drop ratio 甜蜜点 10-50% 为最佳区间,>70% 明显退化
VLA 引导 vs CEM 随机采样 长时程任务中 VLA 引导提升 ~4-7%,计算开销降低 ~40%
仅训练阶段稀疏 vs 仅推理阶段稀疏 两者都需要:训练稀疏确保模型适应,推理稀疏提供加速

"盲点问题"深入分析

  • 静态重要性度量(如注意力权重、CLS token 相关性)在 MPC 的迭代优化过程中会产生系统性盲点
  • 具体地:某些 patch 在当前状态下看似不重要,但在对候选动作序列评估时可能变得关键
  • 随机采样通过无偏覆盖避免了系统性遗漏——每次迭代重新采样 mask 确保所有区域都有被覆盖的概率
  • 这一发现与 token 剪枝文献中"学习选择优于随机"的常见结论相反,说明规划场景有其特殊性

局限与展望

  • 最佳 drop ratio 需要根据任务手动选择,缺乏自适应机制——一个可能的改进是根据任务复杂度或当前状态动态调整
  • 分组数固定为 2,未探索更多分组(如 3-4 组)的效果
  • 依赖 DINO 特征的冗余性假设,对信息密集场景(如文本密集界面)可能不成立
  • 真实世界验证仅限于两个较简单任务(PickPlace + Drawer),更复杂的操作任务未测试
  • 未与 token 合并方法(如 ToMe)结合——稀疏选择+合并可能进一步提升效率

相关工作与启发

  • vs Dreamer 系列 (Hafner et al.):Dreamer 在低维向量潜在空间想象,本文在高维 patch token 空间想象——保留了更丰富的空间信息但计算更贵,稀疏想象正好弥补这一差距
  • vs DINO-WM (Zhou et al. 2024):本文直接构建在 DINO-WM 之上,用 sparse imagination 解决其计算瓶颈
  • vs ToMe (Bolya et al.):ToMe 通过 token 合并减少计算,本文通过 token 丢弃——设计更简单且不需要额外的合并逻辑
  • vs SmolVLA (Shukor et al.):SmolVLA 提供预训练策略用于引导规划,本文的稀疏想象加速了 VLA 引导的世界模型评估
  • 启发:稀疏想象的思路可推广到其他需要大量前向传播的场景——如 MCTS 搜索中的价值网络评估、多步推理中的 world simulation

评分

  • 新颖性: ⭐⭐⭐⭐ 简单但有效的洞察,盲点问题分析有独特价值
  • 实验充分度: ⭐⭐⭐⭐⭐ 8 个仿真+2 个真实任务,多方法对比,消融充分
  • 写作质量: ⭐⭐⭐⭐ 逻辑清晰,图表精美,方法图示直观
  • 价值: ⭐⭐⭐⭐ 实用贡献,可直接集成到任何基于 Transformer 的世界模型流水线中