Percept-WAM: Perception-Enhanced World-Awareness-Action Model for Robust End-to-End Autonomous Driving¶

会议: CVPR 2026
论文: CVF Open Access
代码: 无
领域: 自动驾驶 / 端到端驾驶 / 视觉-语言-动作模型
关键词: 端到端自动驾驶, VLA, BEV 感知, 置信度校准, 轨迹规划

一句话总结¶

Percept-WAM 把 2D/3D 感知任务统一编码成 World-PV、World-BEV 两类「世界令牌」塞进单个 VLM（InternVL2-8B），再接一组 World-Action 令牌直接吐轨迹，做到「感知-推理-规划」在同一个骨干里端到端跑通，COCO 2D 检测 51.7 mAP、nuScenes BEV 3D 检测 58.9 mAP，NAVSIM 闭环 PDMS 90.2 超过 DiffusionDrive 2.1 分。

研究背景与动机¶

领域现状：当前把 VLM/LLM 引入自动驾驶的 VLA（Vision-Language-Action）系统主要走两条路。一条是「QA 式监督」（如 EMMA），把空间理解包装成问答——「前方移动物体距离多少？」，靠语言回答间接定位；另一条是「编码器-扩散解码器」管线（如 Diffusion Planner、DiffusionDrive），直接从特征生成轨迹。

现有痛点：QA 式监督只提供间接的定位信号，很难产出持久、可复用、可定位的世界状态，在拥挤场景里还会产生重复检测且置信度严重失准；扩散式管线虽然生成能力强，却抛弃了 LLM 的推理能力，且因为缺失显式的空间任务学习，端到端性能反而下降。两条路都在「精确几何感知」和「高层语义推理」之间二选一。

核心矛盾：通用 VLM 在「广义视觉-语言对齐」上很强，但这不等于几何能力——评测反复显示通用 VLM 在 3D 定位漂移、时序一致性、置信度可靠性这些核心空间能力上都不行。而自动驾驶里一个小几何误差（检测偏移、yaw 漂移、BEV/occupancy 错误）会在长尾场景（夜间、雨天、小目标、罕见物体）里雪球式放大成脆弱决策。

本文目标：在单个 VLM 内嵌入显式、持久的世界状态，并联合优化感知与轨迹，让模型既能推理又能精确定位。

切入角度：作者认为问题不在于「VLM 能不能感知」，而在于「怎么把感知结果表征成 VLM 原生能读写、还能给下游复用的东西」。于是把所有 2D/3D 感知任务隐式地表征成两套带度量坐标和校准置信度的令牌，让骨干能在这些「空间锚定的证据」上做推理，再把令牌喂给规划。

核心 idea：用「World-PV + World-BEV + World-Action」三类令牌，把感知、3D 场景理解、轨迹生成统一进一个 VLM 骨干，并用 grid-conditioned 解码 + IoU 置信度校准把稠密感知做稳。

方法详解¶

整体框架¶

Percept-WAM 以预训练 VLM（InternVL2-8B）为骨干保留通用推理能力，输入多视角流视频、可选 LiDAR 点云和文本查询，依次产出三类令牌再落到感知结果和轨迹：图像经骨干编码成 World-PV 令牌（透视图/像平面），承担 2D 检测、实例/语义分割、单目 3D 检测；一组可学习的 World-BEV 令牌通过 cross-attention 把 PV 证据「抬升」到鸟瞰图空间，承担 BEV 3D 检测和地图分割；最后 World-Action 令牌用四路 point-level 查询对齐多模态信息，经轻量 MLP 解码出未来轨迹。整条链路里稠密感知靠 grid-conditioned 并行 AR 解码维持吞吐，置信度靠 IoU-aware 令牌校准，部署时再叠一套流式 KV cache。最终单骨干既能同时输出感知（2D/3D 框）+ 轨迹，也能只输出轨迹。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["多视角流视频<br/>+ LiDAR(可选) + 文本"] --> B["VLM 骨干<br/>InternVL2-8B"]
    B --> C["World-PV/World-BEV 世界令牌<br/>统一 2D/3D 感知"]
    C --> D["Grid-conditioned 稠密预测<br/>+ 并行 AR 解码"]
    D --> E["IoU-aware 置信度校准"]
    E -->|感知结果 2D/3D 框、分割| G["输出：感知 + 轨迹"]
    E --> F["World-Action 令牌<br/>四路查询解码轨迹"]
    F --> G

关键设计¶

1. World-PV / World-BEV 世界令牌：把 2D/3D 感知统一进单个 VLM

针对「QA 式监督只能间接定位、产不出持久世界状态」的痛点，作者不再让模型用自然语言回答空间问题，而是把感知结果直接表征成两套令牌。World-PV 令牌是骨干对图像编码后的特征，按 \(H\times W\) patch 化成网格，每个网格位置编码一处局部图像坐标；World-BEV 令牌是一组以自车为中心、铺成 \(H\times W\) 鸟瞰网格的可学习查询令牌，每个网格输出高维 embedding 编码该处的物体/地图元素。两套令牌的共同点是都显式编码度量坐标 + 校准置信度，因此是可定位、可复用的「世界状态」，下游推理和规划都能直接拿来用。

关键的「抬升」机制在 BEV 侧：World-BEV 令牌通过 cross-attention 去查询 World-PV 令牌的特征，纯数据驱动地把 2D 证据提升成 3D BEV 表示，不依赖显式的深度估计或几何投影。当有 LiDAR 时，先用 PointPillars 提点云特征、经 PixelUnshuffle 下采样 + MLP，再拿来初始化 World-BEV 令牌的词嵌入，把度量上锚定的 3D 先验注入 BEV 表征；纯相机时这些嵌入就随机初始化再训出来。这让同一套 BEV 令牌既支持纯相机也支持多模态融合。

2. Grid-conditioned 稠密预测 + 并行 AR 解码：把多目标稠密推理结构化

VLM 做检测最大的工程难题是「一张图几十个目标怎么稳定、高效地一次吐出来」。作者把每个网格令牌当成一个局部单目标查询：World-PV 令牌按坐标插值出 grid token，每个 grid token 只负责预测与自己坐标对齐的那一个框/掩码。检测输出被序列化成类语言 token 序列，2D 框写成 cls,<box>x,y,w,h</box>,<conf>s</conf>，3D 框的 <box> 字段扩成 \(x,y,z,w,h,\ell,\theta,v_x,v_y\)（中心、尺寸、yaw、速度）；连续值归一化后离散化进整数 bin（\([0,1024)\)），用交叉熵监督（沿用 Pix2Seq 路线）。分割则复用 UFO 思路当作特征检索——预测 \(K=16\) 个 <MASK> 令牌，靠 World-PV 令牌与掩码令牌的点积相似度一次前向取出所有类别掩码，不加新参数。

效率的关键是并行：不同 grid token 之间通过控制 attention mask 互不干扰，各自独立地以并行 AR 方式解码，而不是一个接一个串行生成，吞吐大幅提升却不掉精度。又因为类别是以文本给出的，检测器天然支持开放词表，对长尾路面物体更鲁棒。

3. IoU-aware 置信度校准：用模型自己的预测分布造数据，治住过自信

MLLM 做感知有个老毛病——训练/推理不匹配导致重复框，而像 UFO 那样直接拿类别 logits 的 softmax 当框置信度又会系统性过自信：哪怕是模糊检测，softmax 也会饱和到很高，于是拥挤场景里冒出一堆高分假阳性。作者为每个预测框额外加一个IoU 置信度令牌，让置信度对齐到框的定位质量而非类别概率。

最巧的是数据怎么造。作者不用「对 GT 框随机扰动」来生成置信度训练样本（那样得到的 IoU 分布近似均匀，不真实），而是拿训练中途的模型去推理训练图，把与 GT 匹配上的预测框配上它们真实的 IoU（离散成 20 bin）当训练样本——这个「模型预测分布」更贴近真实推理时的置信度形态，能压住假检测。训练时混用 GT 数据（IoU 固定为 1，只学类别和框、不监督 IoU 以免坍塌）和置信度数据（只在置信度 token 上算 loss），靠 loss mask 区分。推理时最终分数取类别置信度 × 预测 IoU 分数，给出更统一、可解释、对定位敏感的可靠度度量。消融显示这套「真实模型预测分布」方案带来 +1.5 AP / +2.3 AP75，而「随机扰动」和「均匀模型预测」两个变体反而低于 baseline。

4. World-Action 令牌与四路查询：感知证据对齐到轨迹

有了 World-PV（丰富语义）和 World-BEV（精确动静态上下文）之后，作者引入 World-Action 令牌走 query-based 轨迹解码（模仿学习训练）。难点是「轨迹该信哪个模态」——只信图像会丢 3D 几何，只信 BEV 会丢语义。作者用四组 point-level 查询解耦这件事：\(Q_{pv}\)、\(Q_{bev}\)、\(Q_{ego}\) 通过 attention mask 只和各自对应的模态特征（World-PV / World-BEV / 自车状态）交互，而 \(Q_{full}\) 能访问全部特征。四组查询 \(Q\in\mathbb{R}^{N\times C}\)（\(N\) 为轨迹点数）随机初始化，由 Percept-WAM 编码后各自经 MLP 解码出轨迹，训练时并行解码四组、用 Smooth-L1 监督，推理时只取 \(Q_{full}\) 解出的轨迹做最终输出。这样既保证动作充分对齐各模态、又避免过度依赖单一模态。

部署侧再叠一层流式推理：用流式 KV cache，配合「长片段训练 + 双重重算 KV cache」缓解训练/推理范式不匹配带来的分布漂移，把帧延迟压到 707 ms。

损失函数 / 训练策略¶

PV 感知：检测用离散化标签的 token 级交叉熵（Pix2Seq 式）；实例/语义分割用交叉熵 + sigmoid focal loss + Dice loss 组合。
BEV 感知：BEV 检测用交叉熵；BEV 地图分割同样 CE + focal + Dice，且因地图类别会重叠（人行横道是可行驶区域子集），把地图分割拆成每类独立二值分割。
轨迹：四组查询并行解码，Smooth-L1 监督。
优化：从 InternVL2-8B 起训，AdamW（base LR 2e-4，weight decay 0.01），cosine 衰减 + 1000 步线性 warmup，混合精度 + 梯度检查点省显存。World-PV 用 \(10\times10\) 网格；World-BEV 检测用 \(40\times40\)、分割用 \(10\times10\)。采用两阶段课程：先巩固 PV/BEV 的空间锚定，再通过端到端 VLA 微调对齐规划器。

实验关键数据¶

主实验¶

PV 感知上 Percept-WAM 匹配或超过专用检测/分割模型；BEV 与规划上也具竞争力。

任务 / 数据集	指标	本文	对比基线
2D 检测 nuImages	mAP	49.9	Mask R-CNN 47.8
2D 检测 COCO	mAP	51.7	LMM-Det 47.5
单目 3D 检测 nuScenes	mAP / NDS	33.0 / 38.6	FCOS3D 32.1 / 39.5
2D 实例分割 nuImages	mAP	41.7	Mask R-CNN 38.6
BEV 3D 检测 nuScenes	mAP / NDS	0.589 / 0.645	PointPillars 0.523 / 0.613
BEV 地图分割（行人横道 IoU）	IoU	70.9	BEVFusion 60.5

规划（nuScenes 开环 L2 + NAVSIM 闭环 PDMS）：

方法	nuScenes L2 Avg.↓	NAVSIM PDMS↑
UniAD	0.46	83.4
DiffusionDrive	0.57	88.1
Percept-WAM	0.38	88.6
Percept-WAM*（两阶段）	0.36	90.2

两阶段训练的 Percept-WAM* 在 NAVSIM 上 PDMS 90.2，超过 DiffusionDrive 2.1，印证「感知更强 → 下游端到端规划更好」。

消融实验¶

IoU 置信度数据构造方式（nuImages 2D 检测）：

配置	AP	AP50	AP75	说明
Baseline（类别分数）	48.1	70.9	51.4	仅 softmax 类别置信度
+ IoU Conf.（随机扰动）	46.9	70.0	50.7	反而掉点
+ IoU Conf.（均匀模型预测）	46.2	69.1	49.3	反而掉点
+ IoU Conf.（真实模型预测）	49.6	70.4	53.7	+1.5 AP / +2.3 AP75

BEV 3D 检测逐组件（nuScenes val）：

配置	mAP	NDS	说明
Baseline（纯相机）	25.0	25.7	—
+ LiDAR 编码器初始化	33.2	32.2	+8.2%
+ 数据增强	41.3	39.2	+8.1%
+ 增大采样网格（20→40）	50.4	46.6	+9.1%
+ MLP 并行（16× 提速）	50.4	43.7	保精度提速

解码机制与流式推理（nuScenes val 轨迹）：

解码方式	L2 Avg.↓	延迟(ms)↓
AR	0.3970	2700
Query-base	0.3822	1174
Query-base + 流式	0.3839	707

关键发现¶

置信度数据构造方式比加不加 IoU 令牌更关键：随机扰动和均匀采样两个变体反而低于 baseline，只有「用模型真实预测分布」才有效，说明校准的核心是让训练分布贴近推理分布。
2D 与 3D PV 检测有协同：统一建模后 2D 检测涨了 3.2 mAP，联合训练全部 PV 任务在各 benchmark 一致受益。
BEV 提升主要来自 LiDAR 先验 + 网格分辨率：从纯相机 25.0 mAP 一路加到 50.4 mAP，三个因素各贡献约 8-9%；MLP 并行在保精度前提下提速 16×。
Query-based 解码 + 流式推理把延迟从 2700 ms 压到 707 ms（约 3.8×），L2 几乎不变。
作者明确表示 BEV 感知不追求逐子任务 SOTA，目的是强化骨干的 3D 空间理解以服务规划。

亮点与洞察¶

「把感知表征成令牌而非问答」是范式层面的转变：World-PV/BEV/Action 三类令牌让感知结果成为骨干原生可读写、可跨任务复用的中间表征，绕开了 QA 式监督「只能间接定位」的根本缺陷。
IoU 置信度数据构造的洞察很可迁移：用「模型中途自己的预测分布」而非「GT 随机扰动」造校准数据，本质是对齐训练与推理的分布——这个思路可以搬到任何存在训练/推理 mismatch 的序列化检测/MLLM 感知任务。
四路查询解耦模态依赖：用 attention mask 让 \(Q_{pv}/Q_{bev}/Q_{ego}\) 各管一摊、\(Q_{full}\) 总成，是一种轻巧的「强制多模态对齐、防止偷懒只看单模态」的手段。
并行 AR + grid-conditioned 让 VLM 做稠密检测变得工程可行：用 attention mask 隔离 grid token、把串行生成改成并行，是 VLM 落地实时感知的关键 trick。

局限与展望¶

依赖 8B 量级 VLM 骨干，即便流式推理压到 707 ms，对真正的车载实时（多帧、多任务并发）部署仍偏重，论文也只报告了单帧级别的延迟。
BEV 子任务并未全面 SOTA（BEV 3D 检测 mAP 0.589 仍落后 BEVFusion 0.685），作者坦言 BEV 任务主要是为强化 3D 理解而非刷分，但这意味着纯感知场景下未必是最优选择。
闭环评测仅在 NAVSIM 的数据驱动伪仿真上，缺少 Bench2Drive/CARLA 这类真闭环交互的安全性验证；nuScenes 开环 L2 也已被指出与真实规划质量相关性有限。
很多关键细节（流式 KV cache 的双重重算、attention mask 具体设计）放在 Appendix，正文不足以完全复现。
改进方向：蒸馏到更小骨干以满足车规算力；把世界令牌接入真闭环规划做端到端 RL 微调；探索 World-Action 令牌对更长时域、多智能体交互轨迹的建模。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个把 2D/3D 感知隐式统一进单 VLM 并端到端接轨迹的 World-Awareness-Action 框架，令牌化感知表征是范式级创新。
实验充分度: ⭐⭐⭐⭐ 覆盖 PV/BEV 感知 + nuScenes/NAVSIM 规划 + 多组消融，但缺真闭环（CARLA/Bench2Drive）验证。
写作质量: ⭐⭐⭐⭐ 动机清晰、图示到位，关键工程细节（流式 cache、attention mask）下放 Appendix 略影响复现。
价值: ⭐⭐⭐⭐⭐ 给「VLM 做精确几何感知」提供了可落地的令牌化方案，IoU 置信度数据构造和四路查询解耦都很可迁移。