AGO: Adaptive Grounding for Open World 3D Occupancy Prediction¶

会议: ICCV 2025
arXiv: 2504.10117
代码: https://github.com/EdwardLeeLPZ/AGO
领域: 自动驾驶 / 3D占位预测 / 开放世界
关键词: 3D占位预测, 开放世界, VLM知识蒸馏, 自监督, 自适应对齐

一句话总结¶

提出AGO框架，通过噪声增强的接地训练(grounding training)处理已知类别 + 模态适配器的自适应对齐处理未知类别，并用基于信息熵的开放世界识别器在推理时动态选择最佳特征，在Occ3D-nuScenes自监督基准上超越VEON 4.09 mIoU，同时具备开放世界零样本/少样本迁移能力。

背景与动机¶

现有痛点¶

现有痛点：领域现状：3D语义占位预测依赖昂贵的3D标注，自监督方法利用VLM生成伪标签，但面临两个核心问题：(1)基于伪标签的传统监督受限于固定标签空间，无法预测未知类别；(2)直接对齐VLM图像嵌入存在严重的模态差距（图像-文本相似度范围仅约0.1），导致预测不可靠。

解决思路¶

本文目标：如何在保持已知类别强预测能力的同时，使3D占位模型具备预测未知类别的开放世界泛化能力？

方法详解¶

整体框架¶

环视图像 → ResNet-101提取2D特征 → TPVFormer构建3D体素嵌入 → 双路径训练：(1)接地训练：3D嵌入与文本嵌入+噪声嵌入做相似度计算 (2)自适应对齐：模态适配器(MLP)映射3D嵌入到VLM图像嵌入空间 → 推理时开放世界识别器基于信息熵选择最佳预测。

关键设计¶

噪声增强接地训练: 不用传统分类器，而是直接计算3D体素特征与文本嵌入的点积作为logits。创新地从通用词典随机采样噪声文本作为负样本(~100个/步)，增强模型对已知类的判别能力。引入可学习的"free"嵌入表示空闲体素。
模态适配器的自适应对齐: 用2层MLP(+softplus激活)将3D嵌入映射到与VLM图像嵌入对齐的新空间，避免直接在同一嵌入上施加文本+图像两种对齐损失导致的模态冲突。余弦相似度损失仅在可见非空体素上计算。
开放世界识别器: 对每个体素，比较原始3D嵌入和适配3D嵌入的预测信息熵，选择熵更低的那个。已知类别原始嵌入更可靠，未知类别适配嵌入更可靠。

损失函数 / 训练策略¶

L_total = L_Grounding + L_Occ + L_Alignment
接地训练：CE + Lovász-softmax loss
对齐：余弦相似度损失(仅可见非空体素)
伪标签：Grounded SAM生成2D → 多帧聚合+射线投射+语义投票 → 3D伪标签
AdamW, lr=1e-3, 24 epochs, 8×A100

实验关键数据¶

Occ3D-nuScenes自监督基准¶

方法	参数量	mIoU↑
SelfOcc	-	9.30
OccNeRF	-	9.53
GaussTR	VFMs	11.70
VEON	ViT-L	15.14
AGO	62.5M	19.23

mIoU提升+4.09（vs VEON），且参数量仅为VEON的9.2%

开放世界评估¶

阶段	方法	已知mIoU	未知mIoU	总mIoU
预训练	SelfOcc	16.61	0.00	8.31
预训练	POP-3D	16.39	0.94	8.66
预训练	AGO	22.13	3.59	12.86
少样本微调	AGO	38.15	8.50	14.43

消融实验要点¶

纯对齐(Align)仅10.28 mIoU → 接地训练(Gro.)19.08 → AGO(接地+自适应对齐)19.23
在同一嵌入上同时做接地+对齐反而下降(18.89)：模态冲突
噪声提示: +0.26 mIoU; 占位损失L_Occ: +0.96 mIoU
最小信息熵标准优于最大置信度标准(3.6 vs 3.1 未知mIoU)
ResNet-50也能达15.23 mIoU，仍超所有先前方法

亮点与洞察 / 我学到了什么¶

接地训练替代传统分类器: 直接用文本嵌入做logits，标签空间可在训练和推理间无缝切换
噪声文本负样本很聪明: 从词典随机采样的噪声词作为hard negative，几乎零成本地增强了判别能力
模态适配器解耦文本/图像对齐: 避免了模态冲突，是处理VLM中文本-图像嵌入不一致的有效方案
信息熵决策机制: 简单有效地在已知/未知类别间切换预测来源

局限与展望¶

时序信息未利用（单帧预测）
文本提示设计仍较简单（细粒度子类别分解）
在某些稀有动态类别（如trailer）上改进有限
未知类别的零样本能力仍然有限(预训练阶段unknown mIoU仅3.59)

与我的研究方向的关联¶

开放世界3D感知是自动驾驶的关键挑战
接地训练的思路可迁移到其他需要灵活标签空间的任务
模态适配器处理VLM嵌入不一致的方案有通用价值

评分¶

新颖性: ⭐⭐⭐⭐ 接地训练+自适应对齐的组合较新，开放世界识别器简洁有效
实验充分度: ⭐⭐⭐⭐⭐ 闭集+开放世界3阶段评估+多基准+充分消融+Waymo验证
写作质量: ⭐⭐⭐⭐ 问题描述清晰，消融层层推进
对我的价值: ⭐⭐⭐⭐ 开放世界占位预测方法论有重要参考价值