SQS: Enhancing Sparse Perception Models via Query-based Splatting in Autonomous Driving¶

会议: NeurIPS 2025
arXiv: 2509.16588
代码: 无
领域: 自动驾驶
关键词: 稀疏感知模型, 3D高斯泼溅, 预训练, 查询交互, 自动驾驶

一句话总结¶

SQS 首次提出了面向稀疏感知模型（SPM）的查询式3D高斯泼溅预训练方法，通过自监督重建RGB图像和深度图学习精细3D表征，并设计查询交互模块将预训练查询与任务特定查询融合，在占用预测和3D检测任务上显著超越现有预训练方法（+1.3 mIoU 占用预测，+1.0 NDS 检测）。

研究背景与动机¶

视觉自动驾驶感知模型分为两大范式：密集 BEV 中心方法（如 BEVFormer）和稀疏查询中心方法（如 DETR3D、SparseBEV）。稀疏方法因跳过显式密集表示构建而具有更快推理速度，在工业界部署中日益受到关注。

然而，监督方法严重依赖精确标注数据（获取成本高且费时），大量无标注数据尚未被充分利用。已有预训练方法（如 UniPAD、GaussianPretrain、VisionPAD）都依赖密集 BEV 或体素表示，无法直接适用于稀疏感知模型。核心矛盾在于：稀疏查询模型中的隐式查询缺乏明确的空间位置和语义含义，无法直接套用渲染式预训练方法。

本文切入角度：引入一组可学习的高斯查询，在预训练阶段通过3D高斯泼溅机制动态预测高斯属性并重建多视角图像和深度图，使稀疏查询学到精细化3D几何表征。预训练后，通过查询交互模块将学到的高斯查询与下游任务查询融合。

方法详解¶

整体框架¶

SQS 采用两阶段设计： - 预训练阶段：图像编码器 + 高斯Transformer解码器 → 预测3D高斯属性 → 渲染RGB和深度图进行自监督训练 - 微调阶段：加载预训练的图像骨干网络，通过查询交互模块将预训练高斯查询与任务特定查询融合

关键设计¶

高斯Transformer解码器与高斯查询：每个高斯查询初始化为可学习锚点 g_k ∈ R^{K×C}，配对零初始化的高维查询向量 q_k ∈ R^{K×D}，K 设为 25,600。查询通过自编码和可变形交叉注意力与多尺度图像特征交互，迭代精化高斯属性（位置、协方差、不透明度、颜色）。使用3D稀疏卷积处理高斯查询之间的空间关系以降低内存成本。位置 μ预测为增量形式，其余属性在每层直接替换。
查询交互模块（用于微调）：解决稀疏方法中不同任务使用不同查询和解码器的问题。冻结预训练模型参数，对每个测试样本推理获得高斯锚点和查询特征。通过不透明度阈值 α_thresh 过滤低质量锚点，然后基于 k-近邻算法找到每个任务查询最近的 k 个高斯查询，执行局部注意力融合：\(q_t = \text{LocalAttn}(q_t + \text{MLP}(\mu_t), q_k + \text{MLP}(g_k))\)。这种空间感知局部注意力机制既高效又能充分利用预训练查询。
重建损失设计：使用 L1 损失同时监督 RGB 重建和深度重建。LiDAR 点作为深度真值，深度损失仅在有效 LiDAR 像素处计算。总损失：\(\mathcal{L} = \omega_1 \mathcal{L}_{rgb} + \omega_2 \mathcal{L}_{depth}\)，其中 ω₁=1.0, ω₂=0.05。

损失函数 / 训练策略¶

预训练使用 AdamW 优化器，权重衰减 0.01，学习率热启动 500 步至 2e-4 后余弦衰减，batch size 8 训练 20 epoch。仅使用随机水平翻转作为数据增强。微调阶段直接使用下游模型的官方配置，不做修改。图像骨干采用 ResNet101-DCN（占用预测任务）或 ResNet50/101（检测任务），配合 FPN 生成 4 种尺度特征图。

实验关键数据¶

主实验 - 3D语义占用预测（SurroundOcc val）¶

方法	SC IoU	SSC mIoU	说明
MonoScene	23.96	7.31	单目基线
BEVFormer	30.50	16.75	密集BEV方法
SurroundOcc	31.49	20.30	密集方法SOTA
GaussianFormer	29.83	19.10	稀疏查询基线
GaussianFormer + SQS	31.52	20.40	+1.69 IoU, +1.30 mIoU

主实验 - 3D目标检测（nuScenes val）¶

方法	骨干	输入尺寸	NDS	mAP
SparseBEV (R50)	ResNet50	704×256	55.8	44.8
SparseBEV + SQS (R50)	ResNet50	704×256	56.6	45.2
SparseBEV (R101)	ResNet101	1408×512	59.2	50.1
SparseBEV + SQS (R101)	ResNet101	1408×512	60.2	50.9

消融实验（SurroundOcc val，1/4 训练数据）¶

配置	渲染RGB	渲染深度	加载骨干	查询交互	IoU	mIoU
Baseline	-	-	-	-	25.8	15.2
Model A	✓	-	✓	-	23.8	12.2
Model B	-	✓	✓	-	27.9	17.3
Model C	✓	✓	✓	-	28.2	17.5
Model D	✓	✓	-	✓	26.3	15.9
Model E	-	-	-	✓	25.7	15.3
SQS	✓	✓	✓	✓	28.5	18.0

关键发现¶

深度渲染贡献巨大（+2.1 IoU/mIoU），仅RGB渲染反而损害性能（-2.0 IoU, -3.0 mIoU），说明深度监督对学习几何表征至关重要
查询交互模块本身不带预训练时几乎无用（Model E vs Baseline 差异仅 0.1），验证了预训练查询质量是关键
数据效率分析显示：仅使用 10% 标注数据时，SQS 带来 +3.7 mIoU 提升，比全量数据时的 +1.3 更显著
SQS 是即插即用设计，可适配任意稀疏查询感知模型

亮点与洞察¶

首次为稀疏感知模型设计预训练方案，填补了 SPM 预训练的空白
高斯查询概念巧妙——将3DGS的几何表示能力引入稀疏查询学习，通过渲染重建任务驱动查询学到丰富的3D空间信息
查询交互模块的设计优雅——通过空间感知局部注意力桥接不同架构的任务查询，实现了真正的即插即用
在数据稀缺场景（10% 标注）下优势更明显，具有很强的实用价值
深度渲染远比RGB渲染重要的发现提供了清晰的预训练设计指导

局限与展望¶

插件式预训练模型引入额外计算和内存开销
对不同下游任务的预训练查询利用不够充分，缺乏语义级区分
未探索在端到端自动驾驶框架（如 SparseAD、GaussianAD）上的应用
预训练仅用 LiDAR 作为深度真值，依赖传感器配置
查询交互中 k-近邻的 k 值和不透明度阈值的敏感性分析不足

评分¶

新颖性: ⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐
价值: ⭐⭐⭐⭐