ICLR 2026 3D视觉开放集测试时自适应点云语义分割 OOD 检测超点几何先验 mean-teacher

GOOD: Geometry-guided Out-of-Distribution Modeling for Open-set Test-time Adaptation in Point Cloud Semantic Segmentation¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=HyNWlZd4iO
代码: 待确认
领域: 3D 视觉 / 点云语义分割 / 测试时自适应
关键词: 开放集测试时自适应, 点云语义分割, OOD 检测, 超点, 几何先验, mean-teacher

一句话总结¶

把开放集测试时自适应（OSTTA）从「逐点」搬到「几何连通的超点」粒度上做，用超点纯度+熵的置信度配 GMM 区分 ID/OOD，再加超点 ID 原型纠错，解决 3D 点云里 ID 点压倒性多、OOD 点稀疏甚至缺席导致的严重类别失衡。

研究背景与动机¶

领域现状：测试时自适应（TTA）能在部署阶段用无标注目标数据在线更新模型，缓解协变量漂移。但绝大多数 TTA 只管已知类的分布差异，忽略了语义漂移——目标域里冒出训练时没见过的新类别。在自动驾驶这类安全攸关场景里，把未知动态物体（自行车、骑车人）误判成静止植被会引发严重事故。
现有痛点：2D 图像上已有开放集测试时自适应（OSTTA）方法，但直接搬到 3D 点云语义分割效果很差。原因有二：(1) 2D 方法基于实例级处理，丢掉了 3D 关键的几何先验和空间关联；(2) 它们普遍假设有充足的 OOD 样本来辅助区分 ID/OOD。
核心矛盾：3D 点云里 ID 点（道路、植被、建筑）数量压倒性地多，OOD 点（行人、自行车）极其稀疏甚至整帧缺席。逐点的 OSTTA 方法在这种极端失衡下会把大量 ID 点误判为 OOD，反而拖垮分割性能——实验中 +WCEM 把 FPR95 直接打到 100.0。
本文目标：首次系统研究 3D 点云语义分割的开放集测试时自适应（OSTTA-3DSeg），在严重 ID-OOD 失衡下既能准确分割已知类，又能可靠拒识未知类。
核心 idea：从点级识别转向超点级识别。把空间几何上连通的点聚成超点，识别任务从「单个点」变成「超点」，天然缓解了点的数量失衡；再用几何/时序一致性产生可靠的置信度与伪标签。

方法详解¶

整体框架¶

GOOD 建立在 mean-teacher EMA 自训练框架上：教师模型生成伪标签，学生模型据此在线优化，学生再通过 EMA 反向更新教师。教师侧包含两条分支——超点表示分支（SRB）负责把点聚成超点并区分 ID/OOD，时序伪标签分支（TPB）靠跨帧一致性给 ID 类生成稳定伪标签；外加一个时序特征正则项。三者产生的 OOD 伪标签、ID 伪标签共同驱动 Dice 损失 + OOD 熵损失 + 正则损失完成测试时优化。

flowchart TD
    X[当前帧点云 Xt] --> Tea[教师 F_T,tea]
    Tea --> SRB[超点表示分支 SRB]
    Tea --> TPB[时序伪标签分支 TPB]
    SRB -->|聚类→置信度→GMM→原型| OOD[OOD 伪标签 Y_OOD]
    TPB -->|跨帧 KNN 一致性| ID[ID 伪标签 Y_ID]
    OOD --> Loss[L_dice + λL_ood + L_reg]
    ID --> Loss
    Loss --> Stu[学生 F_T,stu]
    Stu -->|EMA| Tea

关键设计¶

1. 超点聚类：把失衡从点级降到超点级。 户外 LiDAR 与室内场景不同，去掉地面后物体往往天然分离，这给「先粗分割再识别」提供了几何依据。GOOD 用三步无学习流程构造超点：先用自车位姿把当前帧和历史帧对齐叠加成更稠密的点云、改善物体结构连续性；再用 RANSAC 估计并去除地面（为应对地面坡度变化，把点云切成小区域分别拟合）；最后对剩余点跑 DBSCAN，它无需预设簇数、能识别任意形状簇且对噪声鲁棒，正好契合复杂户外 LiDAR。聚类后识别任务从 \(N\) 个点降到 \(K\) 个超点，极端的 ID-OOD 数量失衡被直接拉平。

2. 超点置信度 + GMM：区分 ID/OOD 超点。 直觉是 ID 超点内部的几何与时序一致性高于 OOD 超点。先定义超点纯度 \(C^{pur}_k = 1 - \frac{1}{\log C}\sum_{c=1}^{C} P_{k,c}\log P_{k,c}\)，其中 \(P_{k,c}=\frac{1}{N_k}\sum_{j\in N_k}\hat{y}_{j,c}\) 是超点内 one-hot 标签的归一化分布，衡量超点内类别的同质程度。但当多数点只是「微弱偏好」某类时纯度会失真，于是再引入超点熵 \(C^{ent}_k\)——把纯度里的 \(\mathbb{1}_c(\arg\max)\) 换成 softmax 的软版本，刻画分布不确定性。最终置信度 \(C^{sup}_k = C^{ent}_k \cdot C^{pur}_k\) 在开/闭集间取得平衡。观察到 \(C^{sup}_k\) 呈双峰分布，用两分量 GMM \(G(x)=\pi(x)\mathcal{N}(x|\mu_{ID},\sigma^2_{ID})+(1-\pi(x))\mathcal{N}(x|\mu_{OOD},\sigma^2_{OOD})\) 建模，大均值分量为 ID、小均值为 OOD，并丢弃中间混杂区，仅把低于 \(\mu_{OOD}\) 的判为 OOD、高于 \(\mu_{ID}\) 的判为 ID。

3. 超点 ID 原型：纠正 OOD 缺席时的过分割。 GMM 只用分类器 logit、忽略了嵌入特征，且其「软硬划分」会强迫每帧都同时含 ID 和 OOD 超点——当某帧本来没有 OOD 时这会把 ID 区域过度切成 OOD，反伤性能。关键观察是：OOD 超点识别会反复横跳，而 ID 超点更稳定可靠。于是为每个 ID 类维护原型 \(\rho^t_c = \frac{1}{N_c}\sum_k z^t_k\)（ID 超点嵌入的质心），并用 EMA 增量更新 \(\hat{\rho}^t_c = \alpha\hat{\rho}^{t-1}_c + (1-\alpha)\rho^t_c\)（\(\alpha=0.99\)）。再拿被 GMM 判为 OOD 的超点和 ID 原型算余弦相似度纠错：\(\hat{s}_k = \text{ID}\) 若 \(\text{sim}(z^t_k,\hat{\rho}^t_c)\ge\tau\)，否则 OOD。这一步把误判回 ID 的超点救回来，专治 OOD 稀疏/缺席的极端情形。

4. 时序伪标签 + 特征正则：给 ID 类生成稳定监督。 已有 TTA-3DSeg 只看单帧给 ID 伪标签，浪费了连续帧上下文。TPB 把当前帧和历史 \(w\) 帧都投影到全局坐标系，对每个点用 K-NN 找时序邻域并聚合出邻域标签 \(\hat{y}^{t,Ne}_i\)（式 4），只在当前预测与时序邻域预测一致时才赋 ID 伪标签 \(\hat{y}^t_{i,ID}=y^{t,Ne}_i\ \text{s.t.}\ \hat{y}^t_i=\hat{y}^{t,Ne}_i\)，再从中扣掉与 OOD 伪标签重叠的区域。EMA 师生结构既显式强制点云的时序一致、又隐式稳住模型本身，且不需额外阈值超参。配套的时序正则 \(L_{reg}\) 用双向负余弦距离约束相邻帧对应点特征一致。最终目标 \(L_{final}=L_{dice}+L_{reg}+\lambda L_{ood}\)，其中 OOD 熵损失 \(L_{ood}=-\frac{1}{\|S_{OOD}\|}\sum_{x\in S_{OOD}}H(F_{T,stu}(x))\) 监督 OOD 超点。

实验关键数据¶

主实验（Synth4D → SemanticKITTI，节选）¶

方法	mIoU(↑)	AUROC(↑)	FPR95(↓)
Source	40.26	65.80	78.39
GIPSO	+2.08	64.47	80.40
GIPSO+UniEnt	+1.17	64.90	82.27
GIPSO+WCEM	+2.16	53.01	100.0
GIPSO+GOOD	+4.88	74.76	73.30
HGL	+2.90	64.40	79.82
HGL+WCEM	+3.38	59.07	100.0
HGL+GOOD	+5.31	75.31	71.31

GOOD 接在 HGL 上相比 HGL 单独使用，mIoU/AUROC/FPR95 分别提升 1.93%、8.99%、7.91%。对比鲜明的是，直接套 2D 的 +UniEnt/+WCEM 普遍把 AUROC 拉低、FPR95 推到 100.0（即所有 ID 点都被误判成 OOD），印证了「逐点 OSTTA 在 3D 失衡下崩溃」的动机。

跨数据集泛化（Synth4D → nuScenes，节选）¶

方法	mIoU(↑)	AUROC(↑)	FPR95(↓)
Source	35.59	60.44	76.97
GIPSO	+0.48	58.66	78.75
GIPSO+WCEM	+1.01	57.80	83.51
GIPSO+GOOD	+1.67	62.95	73.25
HGL	+0.51	57.67	82.01
HGL+GOOD	+2.62	62.20	74.82

在 nuScenes 这种更稀疏的真实数据上，2D OSTTA 方法几乎一致让 AUROC 跌破 baseline，而 GOOD 是唯一同时把 mIoU、AUROC 抬高、FPR95 压低的方法。

关键发现¶

即插即用：GOOD 接到 GIPSO 和 HGL 两种 TTA-3DSeg 骨架上都能稳定大幅提升，说明它是与现有 TTA 正交的开放集增强模块。
超点粒度是开放集 3D OSTTA 的胜负手——逐点方法的 FPR95 频繁触顶 100.0，而超点方法把它压到 71～73。
论文在 SynLiDAR → SemanticKITTI（18 类细粒度）等共四个 benchmark 上验证，结论一致。

亮点与洞察¶

问题定义首创：首次把开放集测试时自适应引入 3D 点云语义分割（OSTTA-3DSeg），并精准点出「ID 压倒性多、OOD 稀疏甚至缺席」这一 3D 独有矛盾，是 2D OSTTA 方法集体失效的根因。
粒度迁移的巧思：把识别任务从点级抬到几何连通的超点级，用纯无学习的「叠帧→去地面→DBSCAN」就把极端类别失衡拉平，简单且不增训练成本。
对 GMM 失效模式的针对性补丁：超点 ID 原型直击「GMM 强迫每帧都有 OOD」的过分割问题，用「ID 比 OOD 稳定」这一经验观察设计纠错，专治 OOD 缺席。

局限与展望¶

强依赖可靠自车位姿：超点叠帧和时序伪标签都假设有可靠的 ego-pose 做对齐，论文也承认位姿有噪声时性能会退化（细节放在附录），这对位姿估计不准的场景是隐患。
超参与启发式较多：RANSAC 子区域划分、DBSCAN 参数、GMM 阈值 \(\mu_{ID}/\mu_{OOD}\)、原型相似度阈值 \(\tau\)、EMA 系数等都需经验设定，跨域迁移时鲁棒性待考。
仅限户外 LiDAR：方法立足于「去地面后物体天然分离」的户外假设，室内稠密场景或非 LiDAR 模态未必适用。
绝对 AUROC 仍有限：最好结果 AUROC 约 75，FPR95 约 71，离实际安全部署的开放集可靠性仍有差距。

评分¶

新颖性: ⭐⭐⭐⭐ 首次提出并系统求解 OSTTA-3DSeg，超点粒度迁移 + ID 原型纠错的组合切中 3D 开放集的真正痛点。
实验充分度: ⭐⭐⭐⭐ 四个 benchmark、两种骨架、与多种 2D/3D 方法对比，对比 baseline FPR95 触顶的现象很有说服力；但缺更大规模或真实路测数据。
写作质量: ⭐⭐⭐⭐ 动机图清晰、方法分支拆解明确、公式完整，逻辑自洽易读。
价值: ⭐⭐⭐⭐ 自动驾驶安全攸关场景的刚需问题，即插即用属性让其落地门槛低。