SparseWorld-TC: Trajectory-Conditioned Sparse Occupancy World Model¶

会议: CVPR 2026
arXiv: 2511.22039
代码: GitHub
领域: 自动驾驶 / 世界模型
关键词: 4D占用预测, 世界模型, 稀疏表示, 轨迹条件, 纯注意力架构

一句话总结¶

提出一种基于纯注意力的稀疏占用世界模型SparseWorld-TC，绕过VAE离散化和BEV中间表示，直接从原始图像特征端到端预测轨迹条件的多帧未来占用，在nuScenes上大幅超越现有方法。

研究背景与动机¶

占用世界模型通过预测未来3D场景占用来理解环境动态，在自动驾驶中至关重要。现有方法主要存在两类局限：

VAE离散化瓶颈：OccWorld、OccLLaMA等方法使用VQ-VAE将连续3D场景数据编码为有限词表的离散token，这种离散化限制了表征能力并丢失了细粒度信息。
BEV中间表示限制：大多数方法依赖密集BEV特征图进行时空建模，引入了显式几何约束，限制了不同尺度特征的灵活交互。

受GPT和VGGT等纯注意力架构在语言和3D视觉领域的成功启发，作者提出：能否用完全基于注意力的前馈架构，通过稀疏占用表示直接从原始图像特征捕获时空依赖关系？

方法详解¶

整体框架¶

这篇论文要做的事很直接：给定历史几帧环视图像和一段未来轨迹，预测接下来多帧的 3D 占用场，而且全程不碰 VAE 离散化、也不落到密集 BEV 中间表示上。整条流水线是一次前馈：图像骨干网络先把历史多帧图像编码成特征，可变形注意力从这些特征里采样出「传感器嵌入」；与此同时模型维护一组随机初始化的「占用锚点」和把未来航点编码成的「轨迹嵌入」。三种嵌入投影到同一空间后，交替走帧级注意力（同帧内占用、传感器、轨迹互相看）和时间注意力（同一锚点跨帧互相看），迭代若干轮把它们融在一起；最后一个 MLP 头从每个锚点解码出它内部每个点的 3D 偏移和语义标签，得到多帧未来占用。整套结构没有任何卷积或体素栅格，纯靠注意力把时空依赖捞出来。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    IMG["历史环视图像<br/>图像骨干编码 → 可变形注意力采样"] --> SENS["传感器嵌入"]
    ANC["稀疏占用表示<br/>随机初始化的占用锚点（带3D点+特征）"]
    WP["未来航点"] --> TRAJ["轨迹时空嵌入<br/>位置嵌入 + 时间嵌入 仿射融合"]
    SENS --> PROJ["三种嵌入投影到统一空间"]
    ANC --> PROJ
    TRAJ --> PROJ
    PROJ --> FUSE
    subgraph FUSE["纯注意力融合架构（迭代若干轮）"]
        direction TB
        FRAME["帧级注意力<br/>同帧内 占用↔传感器交叉 + 轨迹自注意力"] --> TEMP["时间注意力<br/>同一锚点跨帧自注意力"]
        TEMP -->|迭代精化| FRAME
    end
    FUSE --> HEAD["MLP 解码头<br/>每个锚点 → 3D偏移 + 语义标签"]
    HEAD --> OUT["多帧未来 3D 占用"]

关键设计¶

1. 稀疏占用表示：用「可去噪的锚点」绕开 BEV 分辨率和 VAE 离散化

BEV 把场景拍扁成固定分辨率的特征图，分辨率一定就限制了不同尺度特征的灵活交互；VQ-VAE 则把连续 3D 场景塞进有限词表，离散化天然丢细粒度信息。本文换一种容器：场景由一组锚点（anchor）表示，每个锚点带一组随机初始化的 3D 点和一个关联特征向量。这个特征向量经 MLP 解码出该锚点内每个点的 3D 偏移量和语义标签，相当于把一团随机散点「去噪」到一致的占用场上。因为表示是一组点而非栅格，分辨率不再被网格锁死，也不需要 codebook 量化——想加密就加锚点，想长程预测就复用同一组锚点跨帧推演，整套表示保持完全稀疏和灵活。

2. 轨迹时空嵌入：让同一个模型回答「沿这条轨迹走会看到什么」

未来占用本质上是多可能的，模型必须以「打算往哪开」为条件才能给出确定的预测，所以轨迹被显式编码成条件信号注入。每个航点的编码拆成两半：位置嵌入把 16 维齐次变换矩阵经 MLP 投影成特征，刻画「车在哪、朝向如何」；时间嵌入用正弦位置编码刻画「这是未来第几个时刻」。两者通过仿射变换（受 MLN 启发）融合进时空嵌入。这样设计的好处是航点之间不必等间隔——只要把对应时刻喂进时间嵌入，模型就能适应任意未来轨迹和任意时间间隔的条件，而不是把轨迹当成固定步长的离散序列。

3. 纯注意力融合架构：把三种模态丢进同一空间，让标准注意力自己长出时空依赖

占用、传感器、轨迹三种嵌入一旦投影到统一空间，就不再需要任何显式几何先验来对齐它们——这是放弃 BEV 后能成立的关键。融合由两类注意力交替堆叠完成：帧级注意力在单帧内做占用与传感器的交叉注意力（让锚点去图像特征里找证据）外加轨迹自注意力（让条件信号参与进来）；时间注意力则在同一锚点的不同帧之间做自注意力（捕捉运动和场景演化）。两类模块多次迭代逐步精化，长程时空依赖就这么被标准注意力一层层捞出来，无需为它专门设计几何模块。

损失函数 / 训练策略¶

预测点与 GT 占用体素中心点的对齐用 Chamfer Distance 损失监督，语义标签用 Focal 分类损失监督。训练上有个关键技巧——随机集合策略：每个 step 随机选预测帧数 \(L \in \{2,\dots,T\}\) 来算损失，而不是固定预测固定长度。这样模型见过各种预测跨度，部署时能按需输出不同长度的未来，消融里它比固定帧训练的平均 mIoU 高出约 5 个点（20.36 → 25.60）。

实验关键数据¶

主实验（Occ3D-nuScenes, Camera输入）¶

方法	1s mIoU	2s mIoU	3s mIoU	平均mIoU	平均IoU
COME	26.56	21.73	18.49	22.26	44.07
Ours-Small	27.95	25.51	23.35	25.60	49.02
Ours-Large	28.64	26.28	24.36	26.42	49.21
Ours-Large* (DINOv3)	32.76	29.62	27.28	29.89	53.52

长期预测（8秒）¶

方法	输入	平均mIoU	平均IoU
COME	Occ GT	19.07	29.96
Ours-Large	Camera	22.33	45.35

消融实验¶

配置	平均mIoU	平均IoU	说明
无轨迹	15.44	32.19	轨迹条件至关重要
预测轨迹	21.57	44.76	预测轨迹仍有效
GT轨迹	25.60	49.02	更精确轨迹持续提升
固定帧训练	20.36	43.25	随机集合策略更优

关键发现¶

仅用Camera输入即超越使用GT占用输入的DOME方法（mIoU 29.89 vs 27.10）
长期预测性能衰减远小于现有方法，8秒预测IoU仍达39.97
Small版本速度是Large版本的2.6倍，且性能差距不大，可实现效率-精度平衡

亮点与洞察¶

首个完全绕过VAE和BEV的纯注意力占用世界模型，设计理念简洁有力
稀疏表示的灵活性使模型可扩展至不同锚点数量和长期预测
长期预测优势显著：3秒后性能几乎不衰减，而现有方法急剧下降
可直接利用DINOv3等大规模基础模型提升性能

局限与展望¶

稀疏表示在极细粒度场景细节恢复方面可能不如密集方法
计算成本随锚点数量增加而增长，Large版本FPS仅3.58
长期预测的"多可能性"问题使单一GT评估存在局限
未探索与下游规划模块的联合训练

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个纯注意力稀疏占用世界模型，设计范式全新
实验充分度: ⭐⭐⭐⭐ 短期/长期预测、消融、可视化均覆盖，对比方法充分
写作质量: ⭐⭐⭐⭐ 框架清晰，公式简洁，动机阐述充分
价值: ⭐⭐⭐⭐⭐ 为占用世界模型提供了全新的稀疏注意力范式，实际应用潜力大