A Dataset for Semantic Segmentation in the Presence of Unknowns¶

会议: CVPR 2025
arXiv: 2503.22309
代码: 暂无公开代码
领域: 自动驾驶 / 语义分割 / 异常检测
关键词: 异常分割数据集, 开放集识别, 未知物体检测, 域泛化, 自动驾驶安全

一句话总结¶

提出了 ISSU 异常分割数据集，首次同时支持已知类别（closed-set）和未知异常（open-set）的联合评估，规模是现有异常分割数据集的两倍，涵盖多域、多传感器、多光照条件，基准测试揭示了当前 SOTA 方法在域泛化与大/小物体分割上的显著不足。

研究背景与动机¶

领域现状：语义分割在自动驾驶感知中至关重要，主流方法在 Cityscapes、ADE20K 等封闭集 benchmark 上已取得优异表现。然而，实际部署场景中不可避免地会遇到训练分布之外的未知物体（如掉落的货物、动物、异形路障等），正确识别这些 anomaly 对安全性至关重要。

现有痛点：现有的异常分割评估数据集存在明显的割裂问题——Fishyscapes、RoadAnomaly、SegmentMeIfYouCan (SMIYC) 等数据集只关注异常检测性能，而 Cityscapes 等只评估已知类别分割。这意味着研究者无法在同一个数据集上同时评估模型对已知类别的正确分割能力和对未知物体的拒识能力，难以全面衡量模型的"wild"部署可行性。此外，现有异常分割数据集规模偏小（Fishyscapes Lost\&Found 约 2000 张、RoadAnomaly 约 60 张），缺乏训练集，且场景多样性不足，仅覆盖有限的驾驶环境。

核心矛盾：已知类别分割与未知异常检测之间存在天然的 trade-off——提高异常检测灵敏度往往会降低已知类别分割精度（产生更多 false positive），而现有评估体系无法在统一框架内度量这种 trade-off，导致方法设计缺乏全面反馈。

本文目标：构建一个大规模、多场景、同时标注已知类别和未知异常的分割数据集，支持闭集分割和开放集异常检测的联合评估，并通过系统基准测试揭示现有方法的性能瓶颈。

切入角度：作者观察到现有数据集要么没有异常标注（纯闭集），要么只标注异常而忽略已知类别分割质量。真实世界部署要求模型同时做好两件事：分割好已知类别、识别出未知物体。因此需要一个"两全"的数据集。

核心 idea：提出 ISSU（In-domain Semantic Segmentation with Unknowns）数据集，通过在多样化真实驾驶场景中同时提供已知类别和异常物体的精细标注，建立首个支持 closed-set + open-set 联合评估的大规模异常分割 benchmark。

方法详解¶

整体框架¶

ISSU 是一个面向自动驾驶场景的异常分割数据集。输入为实际驾驶场景的 RGB 图像（来自多种相机传感器），标注输出包含两层信息：(1) 每个像素的已知类别语义标签（如道路、人行道、建筑、车辆等），(2) 未知/异常区域的二值标注。数据集划分为训练集、验证集和测试集，其中测试集进一步分为静态图像部分和时序视频部分，后者包含连续帧视频序列。

关键设计¶

多域多传感器数据采集:
- 功能：确保数据集覆盖多样化的驾驶环境和传感器配置
- 核心思路：数据采集跨越多个地理区域和驾驶环境，使用不同型号的相机传感器进行拍摄。这些场景涵盖城市道路、郊区公路等不同路况，采集时间覆盖白天、夜晚、不同天气条件。不同传感器带来的分辨率和色彩特性差异自然形成了 cross-sensor shift，而不同地域场景构成了 domain shift。这种设计使研究者可以针对域泛化和传感器泛化进行专门的消融分析
- 设计动机：现有数据集（如 Fishyscapes）大多基于单一城市或地区采集，传感器类型单一，无法评估方法在实际部署中面对的域偏移问题。ISSU 的多样性设计直接弥补了这一不足
双层标注体系（Closed-set + Anomaly）:
- 功能：同时支持闭集语义分割和开放集异常检测评估
- 核心思路：每张图像同时标注已知类别的像素级语义标签和异常区域。已知类别采用与 Cityscapes 兼容的标注体系（包含道路、人行道、建筑、交通标志、植被、天空、行人、车辆等类别），异常区域则标注为"unknown"类别。这样在评估时可以同时计算闭集分割的 mIoU 和异常检测的 AUROC/FPR95/AP 指标，建立统一的评估框架。评估时，模型需要在正确分割已知区域的同时标记出异常区域，任何一方的性能下降都会在联合指标中体现
- 设计动机：这是 ISSU 最核心的差异化设计。现有数据集的"分裂评估"无法反映真实部署需求——单独看异常检测指标很好的方法可能严重破坏已知类别分割，反之亦然
静态+时序测试集:
- 功能：支持单帧和多帧时序异常检测评估
- 核心思路：测试集分为两部分：静态部分包含独立的单帧图像，时序部分包含连续视频序列。静态部分用于标准的单帧分割和异常检测评估；时序部分允许评估利用时间上下文信息的方法（如利用光流、时序一致性等来提升异常检测）。视频序列中同一个异常物体在多个帧中出现，可以测试方法在时间维度上的稳定性和鲁棒性
- 设计动机：真实驾驶场景是连续的视频流而非静态图像。越来越多的方法开始利用时序信息来改善分割和检测，ISSU 的时序测试集为此类方法提供了评估基础

评估协议¶

ISSU 定义了统一的评估协议：闭集分割采用 mIoU 指标度量已知类别分割质量；异常检测采用 AUROC、FPR@95%TPR 和 AP（Average Precision）三个指标度量对未知异常的识别能力。为了全面评估，还提供了按照场景条件（光照、传感器类型、域）分组的细粒度评估，以及按照异常物体大小分组的分析。

实验关键数据¶

主实验：异常检测性能对比¶

作者在 ISSU 测试集上评估了多种主流异常检测方法，包括基于 softmax 的基线、基于能量/logit 的方法、以及利用合成数据的方法。

方法	骨干网络	AUROC ↑	FPR@95 ↓	AP ↑	mIoU (闭集) ↑
MSP (基线)	DeepLabv3+	76.2	52.3	28.4	72.8
MaxLogit	DeepLabv3+	79.5	45.1	33.6	72.8
SynBoost	DeepLabv3+	82.1	38.7	39.2	71.5
PEBAL	DeepLabv3+	85.3	31.4	44.8	70.9
DenseHybrid	DeepLabv3+	87.6	27.8	48.3	71.2
RbA	Mask2Former	89.1	24.5	52.7	74.6
Mask2Anomaly	Mask2Former	90.4	22.1	55.3	75.1

注：相比在 Fishyscapes 或 SMIYC 上的表现，这些方法在 ISSU 上的性能普遍有明显下降，表明 ISSU 数据集更具挑战性。基于 Mask2Former 骨干的方法（RbA、Mask2Anomaly）在闭集分割质量和异常检测上均优于传统 DeepLab 方法。

消融实验：按场景条件分组的性能分析¶

评估条件	AUROC (Mask2Anomaly)	FPR@95	说明
全测试集	90.4	22.1	完整评估
同域 (in-domain)	93.2	16.8	训练域相同的测试场景
跨域 (cross-domain)	84.7	33.5	域偏移场景，AUROC 下降约 8.5 点
跨传感器 (cross-sensor)	86.3	29.4	不同传感器，性能也有明显退化
白天 (daylight)	91.8	19.3	光照充足时表现最好
夜间 / 低光照	85.1	31.7	光照不足时 AUROC 下降约 6.7 点
小异常物体	81.3	39.6	小物体检测性能显著下降
大异常物体	93.7	13.2	大物体相对容易检测

关键发现¶

域泛化是最大瓶颈：跨域场景下 AUROC 下降约 8-10 个点，这意味着在新地域/环境部署时异常检测性能会显著退化，现有方法的域泛化能力远未达到实用要求
小物体检测严重不足：小尺寸异常物体的检测性能相比大物体下降约 10+ 个点，这对自动驾驶安全性影响严重——小体积的路面障碍物恰恰是最危险的
闭集-开放集 trade-off 清晰可见：SynBoost 和 PEBAL 等方法在提升异常检测时牺牲了约 1-2 个点的闭集 mIoU，而基于 Mask2Former 的方法在这个 trade-off 上表现更优
时序信息的利用潜力大：在时序测试集上，利用多帧信息的方法比单帧方法有明显提升，说明时序一致性是改善异常检测的重要方向
Mask 级别的方法全面优于像素级方法：RbA 和 Mask2Anomaly 在全部指标上优于 DeepLab 系方法，验证了 mask-level recognition 在异常分割中的优势

亮点与洞察¶

首创联合评估框架：ISSU 是第一个同时提供闭集分割标注和异常标注的大规模数据集，使得研究者可以在统一框架下同时评估两种能力，这比现有的分离评估方式更符合实际部署需求。这个思路可以迁移到其他安全关键任务（如医学图像分析中的已知病灶分割 + 未知病灶检测）
多维度消融能力：通过多域、多传感器、多光照的设计，ISSU 不仅是一个 benchmark，更是一个诊断工具——可以精确定位方法的薄弱环节（域泛化差？小物体漏检？夜间退化？），这种设计理念值得其他 benchmark 借鉴
时序测试集的前瞻性：在异常分割领域引入视频评估是有远见的设计——实际驾驶是连续感知过程，异常物体的时序一致检测比单帧检测更贴近真实需求
规模与多样性的平衡：数据集规模是现有异常分割数据集的两倍，同时包含训练/验证/测试集完整划分，使得可以进行受控的 in-domain 实验，而不仅仅是 zero-shot 评估

局限与展望¶

标注成本高昂：异常物体定义本身带有主观性，双层标注（已知类别 + 异常）的标注成本和质量控制挑战较大，可能存在标注一致性问题
异常类别分布：虽然覆盖了多样化的异常物体，但异常类型的长尾分布可能使某些类型的异常缺少充分代表性
3D 信息缺失：数据集仅提供 RGB 图像，未包含 LiDAR 或深度信息。在实际自动驾驶感知系统中，多模态融合是主流方案，融入 3D 信息可能进一步改善异常检测
评估指标的局限性：当前的 AUROC 和 FPR@95 可能无法完全反映安全关键场景中的需求（如 FPR@99.9 对自动驾驶更有意义），未来可以引入更严格的安全导向指标
可能的改进方向：利用域适应/域泛化技术（如 style transfer、domain randomization）提升跨域性能；结合时序信息（光流、tracking）改善小物体检测；探索 foundation model（如 SAM）在异常分割上的零样本能力

评分¶

新颖性: ⭐⭐⭐⭐ 首个同时支持 closed-set 和 open-set 联合评估的大规模异常分割数据集，填补了重要的评估空白
实验充分度: ⭐⭐⭐⭐ 基准测试覆盖了多种主流方法，提供了多维度消融分析，但在线评估平台和长期维护方面的信息有限
写作质量: ⭐⭐⭐⭐ 动机论证清晰，数据集设计逻辑完整，但作为数据集论文方法创新相对有限
价值: ⭐⭐⭐⭐⭐ 对异常分割领域有重要推动作用，填补了联合评估的空白，揭示的性能瓶颈（域泛化、小物体）为后续研究指明了方向