跳转至

AGO: Adaptive Grounding for Open World 3D Occupancy Prediction

会议: ICCV 2025
arXiv: 2504.10117
代码: https://github.com/EdwardLeeLPZ/AGO
领域: 自动驾驶 / 3D占位预测 / 开放世界
关键词: 3D占位预测, 开放世界, VLM知识蒸馏, 自监督, 自适应对齐

一句话总结

提出AGO框架,通过噪声增强的接地训练(grounding training)处理已知类别 + 模态适配器的自适应对齐处理未知类别,并用基于信息熵的开放世界识别器在推理时动态选择最佳特征,在Occ3D-nuScenes自监督基准上超越VEON 4.09 mIoU,同时具备开放世界零样本/少样本迁移能力。

背景与动机

现有痛点

现有痛点领域现状:3D语义占位预测依赖昂贵的3D标注,自监督方法利用VLM生成伪标签,但面临两个核心问题:(1)基于伪标签的传统监督受限于固定标签空间,无法预测未知类别;(2)直接对齐VLM图像嵌入存在严重的模态差距(图像-文本相似度范围仅约0.1),导致预测不可靠。

解决思路

本文目标:如何在保持已知类别强预测能力的同时,使3D占位模型具备预测未知类别的开放世界泛化能力?

方法详解

整体框架

环视图像 → ResNet-101提取2D特征 → TPVFormer构建3D体素嵌入 → 双路径训练:(1)接地训练:3D嵌入与文本嵌入+噪声嵌入做相似度计算 (2)自适应对齐:模态适配器(MLP)映射3D嵌入到VLM图像嵌入空间 → 推理时开放世界识别器基于信息熵选择最佳预测。

关键设计

  1. 噪声增强接地训练: 不用传统分类器,而是直接计算3D体素特征与文本嵌入的点积作为logits。创新地从通用词典随机采样噪声文本作为负样本(~100个/步),增强模型对已知类的判别能力。引入可学习的"free"嵌入表示空闲体素。
  2. 模态适配器的自适应对齐: 用2层MLP(+softplus激活)将3D嵌入映射到与VLM图像嵌入对齐的新空间,避免直接在同一嵌入上施加文本+图像两种对齐损失导致的模态冲突。余弦相似度损失仅在可见非空体素上计算。
  3. 开放世界识别器: 对每个体素,比较原始3D嵌入和适配3D嵌入的预测信息熵,选择熵更低的那个。已知类别原始嵌入更可靠,未知类别适配嵌入更可靠。

损失函数 / 训练策略

  • L_total = L_Grounding + L_Occ + L_Alignment
  • 接地训练:CE + Lovász-softmax loss
  • 对齐:余弦相似度损失(仅可见非空体素)
  • 伪标签:Grounded SAM生成2D → 多帧聚合+射线投射+语义投票 → 3D伪标签
  • AdamW, lr=1e-3, 24 epochs, 8×A100

实验关键数据

Occ3D-nuScenes自监督基准

方法 参数量 mIoU↑
SelfOcc - 9.30
OccNeRF - 9.53
GaussTR VFMs 11.70
VEON ViT-L 15.14
AGO 62.5M 19.23

mIoU提升+4.09(vs VEON),且参数量仅为VEON的9.2%

开放世界评估

阶段 方法 已知mIoU 未知mIoU 总mIoU
预训练 SelfOcc 16.61 0.00 8.31
预训练 POP-3D 16.39 0.94 8.66
预训练 AGO 22.13 3.59 12.86
少样本微调 AGO 38.15 8.50 14.43

消融实验要点

  • 纯对齐(Align)仅10.28 mIoU → 接地训练(Gro.)19.08 → AGO(接地+自适应对齐)19.23
  • 在同一嵌入上同时做接地+对齐反而下降(18.89):模态冲突
  • 噪声提示: +0.26 mIoU; 占位损失L_Occ: +0.96 mIoU
  • 最小信息熵标准优于最大置信度标准(3.6 vs 3.1 未知mIoU)
  • ResNet-50也能达15.23 mIoU,仍超所有先前方法

亮点与洞察 / 我学到了什么

  • 接地训练替代传统分类器: 直接用文本嵌入做logits,标签空间可在训练和推理间无缝切换
  • 噪声文本负样本很聪明: 从词典随机采样的噪声词作为hard negative,几乎零成本地增强了判别能力
  • 模态适配器解耦文本/图像对齐: 避免了模态冲突,是处理VLM中文本-图像嵌入不一致的有效方案
  • 信息熵决策机制: 简单有效地在已知/未知类别间切换预测来源

局限与展望

  • 时序信息未利用(单帧预测)
  • 文本提示设计仍较简单(细粒度子类别分解)
  • 在某些稀有动态类别(如trailer)上改进有限
  • 未知类别的零样本能力仍然有限(预训练阶段unknown mIoU仅3.59)

相关工作与启发

  • vs VEON: VEON集成多个大型基础模型(ViT-L等, 678M参数),AGO仅62.5M参数但mIoU+4.09
  • vs POP-3D: POP-3D纯对齐方法,缺乏几何和语义线索,未知类别mIoU仅0.94
  • vs SelfOcc: 纯自监督+固定标签空间,完全无法预测未知类别(0.00 mIoU)

与我的研究方向的关联

  • 开放世界3D感知是自动驾驶的关键挑战
  • 接地训练的思路可迁移到其他需要灵活标签空间的任务
  • 模态适配器处理VLM嵌入不一致的方案有通用价值

评分

  • 新颖性: ⭐⭐⭐⭐ 接地训练+自适应对齐的组合较新,开放世界识别器简洁有效
  • 实验充分度: ⭐⭐⭐⭐⭐ 闭集+开放世界3阶段评估+多基准+充分消融+Waymo验证
  • 写作质量: ⭐⭐⭐⭐ 问题描述清晰,消融层层推进
  • 对我的价值: ⭐⭐⭐⭐ 开放世界占位预测方法论有重要参考价值