SQS: Enhancing Sparse Perception Models via Query-based Splatting in Autonomous Driving¶
会议: NeurIPS 2025
arXiv: 2509.16588
代码: 无
领域: 自动驾驶
关键词: 稀疏感知模型, 3D高斯泼溅, 预训练, 查询交互, 自动驾驶
一句话总结¶
SQS 首次提出了面向稀疏感知模型(SPM)的查询式3D高斯泼溅预训练方法,通过自监督重建RGB图像和深度图学习精细3D表征,并设计查询交互模块将预训练查询与任务特定查询融合,在占用预测和3D检测任务上显著超越现有预训练方法(+1.3 mIoU 占用预测,+1.0 NDS 检测)。
研究背景与动机¶
视觉自动驾驶感知模型分为两大范式:密集 BEV 中心方法(如 BEVFormer)和稀疏查询中心方法(如 DETR3D、SparseBEV)。稀疏方法因跳过显式密集表示构建而具有更快推理速度,在工业界部署中日益受到关注。
然而,监督方法严重依赖精确标注数据(获取成本高且费时),大量无标注数据尚未被充分利用。已有预训练方法(如 UniPAD、GaussianPretrain、VisionPAD)都依赖密集 BEV 或体素表示,无法直接适用于稀疏感知模型。核心矛盾在于:稀疏查询模型中的隐式查询缺乏明确的空间位置和语义含义,无法直接套用渲染式预训练方法。
本文切入角度:引入一组可学习的高斯查询,在预训练阶段通过3D高斯泼溅机制动态预测高斯属性并重建多视角图像和深度图,使稀疏查询学到精细化3D几何表征。预训练后,通过查询交互模块将学到的高斯查询与下游任务查询融合。
方法详解¶
整体框架¶
SQS 采用两阶段设计: - 预训练阶段:图像编码器 + 高斯Transformer解码器 → 预测3D高斯属性 → 渲染RGB和深度图进行自监督训练 - 微调阶段:加载预训练的图像骨干网络,通过查询交互模块将预训练高斯查询与任务特定查询融合
关键设计¶
-
高斯Transformer解码器与高斯查询:每个高斯查询初始化为可学习锚点 g_k ∈ R^{K×C},配对零初始化的高维查询向量 q_k ∈ R^{K×D},K 设为 25,600。查询通过自编码和可变形交叉注意力与多尺度图像特征交互,迭代精化高斯属性(位置、协方差、不透明度、颜色)。使用3D稀疏卷积处理高斯查询之间的空间关系以降低内存成本。位置 μ预测为增量形式,其余属性在每层直接替换。
-
查询交互模块(用于微调):解决稀疏方法中不同任务使用不同查询和解码器的问题。冻结预训练模型参数,对每个测试样本推理获得高斯锚点和查询特征。通过不透明度阈值 α_thresh 过滤低质量锚点,然后基于 k-近邻算法找到每个任务查询最近的 k 个高斯查询,执行局部注意力融合:\(q_t = \text{LocalAttn}(q_t + \text{MLP}(\mu_t), q_k + \text{MLP}(g_k))\)。这种空间感知局部注意力机制既高效又能充分利用预训练查询。
-
重建损失设计:使用 L1 损失同时监督 RGB 重建和深度重建。LiDAR 点作为深度真值,深度损失仅在有效 LiDAR 像素处计算。总损失:\(\mathcal{L} = \omega_1 \mathcal{L}_{rgb} + \omega_2 \mathcal{L}_{depth}\),其中 ω₁=1.0, ω₂=0.05。
损失函数 / 训练策略¶
预训练使用 AdamW 优化器,权重衰减 0.01,学习率热启动 500 步至 2e-4 后余弦衰减,batch size 8 训练 20 epoch。仅使用随机水平翻转作为数据增强。微调阶段直接使用下游模型的官方配置,不做修改。图像骨干采用 ResNet101-DCN(占用预测任务)或 ResNet50/101(检测任务),配合 FPN 生成 4 种尺度特征图。
实验关键数据¶
主实验 - 3D语义占用预测(SurroundOcc val)¶
| 方法 | SC IoU | SSC mIoU | 说明 |
|---|---|---|---|
| MonoScene | 23.96 | 7.31 | 单目基线 |
| BEVFormer | 30.50 | 16.75 | 密集BEV方法 |
| SurroundOcc | 31.49 | 20.30 | 密集方法SOTA |
| GaussianFormer | 29.83 | 19.10 | 稀疏查询基线 |
| GaussianFormer + SQS | 31.52 | 20.40 | +1.69 IoU, +1.30 mIoU |
主实验 - 3D目标检测(nuScenes val)¶
| 方法 | 骨干 | 输入尺寸 | NDS | mAP |
|---|---|---|---|---|
| SparseBEV (R50) | ResNet50 | 704×256 | 55.8 | 44.8 |
| SparseBEV + SQS (R50) | ResNet50 | 704×256 | 56.6 | 45.2 |
| SparseBEV (R101) | ResNet101 | 1408×512 | 59.2 | 50.1 |
| SparseBEV + SQS (R101) | ResNet101 | 1408×512 | 60.2 | 50.9 |
消融实验(SurroundOcc val,1/4 训练数据)¶
| 配置 | 渲染RGB | 渲染深度 | 加载骨干 | 查询交互 | IoU | mIoU |
|---|---|---|---|---|---|---|
| Baseline | - | - | - | - | 25.8 | 15.2 |
| Model A | ✓ | - | ✓ | - | 23.8 | 12.2 |
| Model B | - | ✓ | ✓ | - | 27.9 | 17.3 |
| Model C | ✓ | ✓ | ✓ | - | 28.2 | 17.5 |
| Model D | ✓ | ✓ | - | ✓ | 26.3 | 15.9 |
| Model E | - | - | - | ✓ | 25.7 | 15.3 |
| SQS | ✓ | ✓ | ✓ | ✓ | 28.5 | 18.0 |
关键发现¶
- 深度渲染贡献巨大(+2.1 IoU/mIoU),仅RGB渲染反而损害性能(-2.0 IoU, -3.0 mIoU),说明深度监督对学习几何表征至关重要
- 查询交互模块本身不带预训练时几乎无用(Model E vs Baseline 差异仅 0.1),验证了预训练查询质量是关键
- 数据效率分析显示:仅使用 10% 标注数据时,SQS 带来 +3.7 mIoU 提升,比全量数据时的 +1.3 更显著
- SQS 是即插即用设计,可适配任意稀疏查询感知模型
亮点与洞察¶
- 首次为稀疏感知模型设计预训练方案,填补了 SPM 预训练的空白
- 高斯查询概念巧妙——将3DGS的几何表示能力引入稀疏查询学习,通过渲染重建任务驱动查询学到丰富的3D空间信息
- 查询交互模块的设计优雅——通过空间感知局部注意力桥接不同架构的任务查询,实现了真正的即插即用
- 在数据稀缺场景(10% 标注)下优势更明显,具有很强的实用价值
- 深度渲染远比RGB渲染重要的发现提供了清晰的预训练设计指导
局限与展望¶
- 插件式预训练模型引入额外计算和内存开销
- 对不同下游任务的预训练查询利用不够充分,缺乏语义级区分
- 未探索在端到端自动驾驶框架(如 SparseAD、GaussianAD)上的应用
- 预训练仅用 LiDAR 作为深度真值,依赖传感器配置
- 查询交互中 k-近邻的 k 值和不透明度阈值的敏感性分析不足
相关工作与启发¶
- 与 GaussianPretrain、VisionPAD 等密集预训练方法对比,SQS 首次将3DGS预训练扩展到稀疏查询范式
- 查询交互思路可迁移到其他需要跨架构知识迁移的场景
- 3DGS 作为自监督预训练目标的有效性进一步得到验证
评分¶
- 新颖性: ⭐⭐⭐⭐
- 实验充分度: ⭐⭐⭐⭐⭐
- 写作质量: ⭐⭐⭐⭐
- 价值: ⭐⭐⭐⭐