SparseWorld-TC: Trajectory-Conditioned Sparse Occupancy World Model¶
会议: CVPR 2026
arXiv: 2511.22039
代码: GitHub
领域: 自动驾驶 / 世界模型
关键词: 4D占用预测, 世界模型, 稀疏表示, 轨迹条件, 纯注意力架构
一句话总结¶
提出一种基于纯注意力的稀疏占用世界模型SparseWorld-TC,绕过VAE离散化和BEV中间表示,直接从原始图像特征端到端预测轨迹条件的多帧未来占用,在nuScenes上大幅超越现有方法。
研究背景与动机¶
占用世界模型通过预测未来3D场景占用来理解环境动态,在自动驾驶中至关重要。现有方法主要存在两类局限:
- VAE离散化瓶颈:OccWorld、OccLLaMA等方法使用VQ-VAE将连续3D场景数据编码为有限词表的离散token,这种离散化限制了表征能力并丢失了细粒度信息。
- BEV中间表示限制:大多数方法依赖密集BEV特征图进行时空建模,引入了显式几何约束,限制了不同尺度特征的灵活交互。
受GPT和VGGT等纯注意力架构在语言和3D视觉领域的成功启发,作者提出:能否用完全基于注意力的前馈架构,通过稀疏占用表示直接从原始图像特征捕获时空依赖关系?
方法详解¶
整体框架¶
历史多帧图像 → 图像骨干网络提取特征 → 可变形注意力采样传感器嵌入 → 帧级注意力+时间注意力交替融合占用/传感器/轨迹嵌入 → MLP解码每个锚点的偏移和语义标签 → 输出多帧未来占用预测。
关键设计¶
-
稀疏占用表示:
- 功能:用一组锚点(anchor)表示场景占用,每个锚点包含一组随机初始化的3D点和关联特征向量
- 核心思路:每个锚点特征向量通过MLP解码每个点的3D偏移量和语义标签,将随机点"去噪"到一致的占用场
- 设计动机:避免BEV的固定分辨率限制和VAE的离散化信息损失,保持完全稀疏和灵活
-
轨迹时空嵌入:
- 功能:将轨迹航点编码为特征向量作为条件信号
- 核心思路:结合位置嵌入(MLP投影16维齐次矩阵)和时间嵌入(正弦位置编码),通过仿射变换融合时空信息
- 设计动机:受MLN启发,使模型能适应任意未来轨迹条件,支持不同时间间隔的航点
-
纯注意力融合架构:
- 功能:统一融合占用、传感器和轨迹三种嵌入
- 核心思路:堆叠帧级注意力(占用与传感器交叉注意力+轨迹自注意力)和时间注意力(跨帧自注意力)模块,多次迭代逐步精化
- 设计动机:所有模态投射到统一嵌入空间后,标准注意力机制即可有效捕获长程时空依赖
损失函数 / 训练策略¶
- Chamfer Distance损失监督预测点与GT占用体素中心点的对齐
- Focal分类损失监督语义预测
- 随机集合策略:训练时随机选择预测帧数L∈{2,...,T},使模型适应不同预测长度需求,提升泛化能力
实验关键数据¶
主实验(Occ3D-nuScenes, Camera输入)¶
| 方法 | 1s mIoU | 2s mIoU | 3s mIoU | 平均mIoU | 平均IoU |
|---|---|---|---|---|---|
| COME | 26.56 | 21.73 | 18.49 | 22.26 | 44.07 |
| Ours-Small | 27.95 | 25.51 | 23.35 | 25.60 | 49.02 |
| Ours-Large | 28.64 | 26.28 | 24.36 | 26.42 | 49.21 |
| Ours-Large* (DINOv3) | 32.76 | 29.62 | 27.28 | 29.89 | 53.52 |
长期预测(8秒)¶
| 方法 | 输入 | 平均mIoU | 平均IoU |
|---|---|---|---|
| COME | Occ GT | 19.07 | 29.96 |
| Ours-Large | Camera | 22.33 | 45.35 |
消融实验¶
| 配置 | 平均mIoU | 平均IoU | 说明 |
|---|---|---|---|
| 无轨迹 | 15.44 | 32.19 | 轨迹条件至关重要 |
| 预测轨迹 | 21.57 | 44.76 | 预测轨迹仍有效 |
| GT轨迹 | 25.60 | 49.02 | 更精确轨迹持续提升 |
| 固定帧训练 | 20.36 | 43.25 | 随机集合策略更优 |
关键发现¶
- 仅用Camera输入即超越使用GT占用输入的DOME方法(mIoU 29.89 vs 27.10)
- 长期预测性能衰减远小于现有方法,8秒预测IoU仍达39.97
- Small版本速度是Large版本的2.6倍,且性能差距不大,可实现效率-精度平衡
亮点与洞察¶
- 首个完全绕过VAE和BEV的纯注意力占用世界模型,设计理念简洁有力
- 稀疏表示的灵活性使模型可扩展至不同锚点数量和长期预测
- 长期预测优势显著:3秒后性能几乎不衰减,而现有方法急剧下降
- 可直接利用DINOv3等大规模基础模型提升性能
局限与展望¶
- 稀疏表示在极细粒度场景细节恢复方面可能不如密集方法
- 计算成本随锚点数量增加而增长,Large版本FPS仅3.58
- 长期预测的"多可能性"问题使单一GT评估存在局限
- 未探索与下游规划模块的联合训练
相关工作与启发¶
- vs OccWorld/OccLLaMA: 使用VAE离散化+自回归生成,受限于codebook容量;本方法端到端无需离散化
- vs DOME/COME: 使用扩散模型+BEV+连续VAE;本方法前馈单次推理,更高效
- vs VGGT: 借鉴其纯注意力架构理念,但专为4D占用预测设计
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首个纯注意力稀疏占用世界模型,设计范式全新
- 实验充分度: ⭐⭐⭐⭐ 短期/长期预测、消融、可视化均覆盖,对比方法充分
- 写作质量: ⭐⭐⭐⭐ 框架清晰,公式简洁,动机阐述充分
- 价值: ⭐⭐⭐⭐⭐ 为占用世界模型提供了全新的稀疏注意力范式,实际应用潜力大