跳转至

URScenes: A Multi-scenario Dataset for Unstructured Road Environments

会议: CVPR 2026
论文: CVF Open Access
代码: http://www.sav-lab.com (数据与工具包,⚠️ 以原文为准)
领域: 自动驾驶 / 感知数据集
关键词: 非结构化道路, 露天矿场, 多模态感知, 3D目标检测, 占用预测

一句话总结

URScenes 是首个面向非结构化道路环境(以露天矿场为代表)的多场景开源多模态感知数据集,用矿卡和宽体车两类平台采集了覆盖晴/阴/雨/雪/雾/扬尘/强光/夜间八种天气光照条件的 472 个场景,统一支持 3D 目标检测、多目标跟踪和 3D 占用预测三大任务,并提供针对矿区物体尺寸特点重新设计的评测指标和到 nuScenes/KITTI/Waymo 的格式转换工具。

研究背景与动机

领域现状:自动驾驶感知严重依赖大规模标注数据集,但 KITTI、Cityscapes、nuScenes、Waymo 等主流数据集几乎全部聚焦于结构化的城市道路和高速公路,且大多在晴好天气下采集。

现有痛点:当自动驾驶/无人化作业向露天矿、地质勘探、大规模农业等更苛刻环境扩展时,现有数据集就不够用了。已有的非结构化数据集各有缺口——ORFD、OFFSEG、CARL-D、IDD 主要针对林区或乡村土路这类"简单"非结构化场景;R²100K、RELLIS-3D 虽然定义了多样路面特征,但几乎不考虑恶劣天气(RELLIS-3D 没有按天气划分子集,R²100K 只有晴、阴、扬尘三种,且重心在语义分割);2022 年的 AutoMine 是首个露天矿数据集,但只支持 3D 检测与定位,不覆盖矿区常见的暴雪、浓雾等极端天气。

核心矛盾:到目前为止,没有任何一个数据集能同时做到:① 全面覆盖非结构化道路环境及其恶劣天气;② 支持 3D 检测、多目标跟踪、占用预测三大关键感知任务;③ 与主流 benchmark 的数据结构和工具链对齐,让模型能低成本迁移。这三者凑不齐,就成了非结构化感知研究的瓶颈。

本文目标:构建一个多场景、多模态、多任务的非结构化道路感知数据集,并把它做成"开箱即用"——能直接转成主流格式、配套评测指标。

切入角度:作者以露天矿场作为非结构化道路环境的代表性案例(物体尺寸跨度极大、天气极端、地形复杂),用两类真实矿用车辆历时两年采集。

核心 idea:用一套统一的 360° 多模态采集 + 半自动标注 + 格式转换流水线,造出首个"八天气 × 三任务"的非结构化感知数据集,并配套为矿区物体尺寸量身定做的检测指标 UDS。

方法详解

整体框架

这篇是数据集论文,"方法"即数据集构建流水线。整体可以看成五步串行:用矿卡/宽体车两类平台搭载 360° 多模态传感器套件采集原始数据 → 对所有传感器做标定并用 PTP 时钟做时间同步 → 在 LiDAR 序列上以 2 Hz 抽关键帧、用预训练 BEVFusion 生成初始 3D 框再人工精修 → 把精修框插值传播到非关键帧、并通过动静分离与多视图重建生成占用栅格真值 → 用统一标注结构存储,提供到 nuScenes/KITTI/Waymo 的自动转换,并在转成 nuScenes 格式后用自定义指标做基准评测。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["矿卡 + 宽体车<br/>两类采集平台"] --> B["八场景非结构化覆盖<br/>晴/阴/雨/雪/雾/扬尘/强光/夜"]
    B --> C["全域360°多模态采集<br/>2相机+5LiDAR+4雷达+GNSS/IMU"]
    C --> D["标定与时间同步<br/>OpenCalib + PTP时钟"]
    D --> E["半自动标注与占用生成<br/>2Hz抽帧→BEVFusion初标→人工精修→插值+重建"]
    E --> F["统一格式与UDS评测体系<br/>转nuScenes/KITTI/Waymo + 自定义指标"]
    F --> G["三任务基准<br/>检测/跟踪/占用"]

关键设计

1. 八场景非结构化覆盖:把"恶劣天气 × 矿区地形"一次性补齐

针对"现有非结构化数据集要么缺天气、要么缺任务"这个最核心的缺口,URScenes 首次在非结构化道路环境中覆盖八种典型大气与光照条件——雨、雪、雾、扬尘、强光(glare)、夜间、阴天、晴天,其中晴/阴为正常场景,其余六类为恶劣条件。数据以露天矿为代表性场景,路面涵盖泥泞、积水、湿滑、碎石等,物体类别包括宽体车、矿卡、推土机、挖掘机、行人等共 36 个语义类别。表 1 的横向对比里,URScenes 是唯一一个在"雾/雪/雨/扬尘/强光/夜间"六个恶劣天气列以及"非结构化道路"列上全部打钩的数据集——AutoMine 虽然也是矿区但缺雪/雾,nuScenes/Waymo 等城市数据集则在"非结构化"列直接是 No。这种覆盖度直接决定了它能支撑恶劣条件下的鲁棒性研究。

2. 全域 360° 多模态采集平台:让远近、强弱光都有冗余信号

矿区物体尺寸跨度极大(行人 1.1 m 对角线 vs 挖掘机 20.1 m)、扬尘浓雾会衰减 LiDAR,单一传感器扛不住。作者用矿卡和宽体车两类平台,各配一套同步的 360° 套件:1 个 128 线长距 LiDAR(120° HFOV、200 m)+ 4 个 32 线盲区 BPearl LiDAR(360° HFOV、50 m)补近场盲区,1 个 60° 长焦相机 + 1 个 200° 鱼眼相机覆盖远近视野,4 个 76–77 GHz 毫米波雷达提供恶劣天气下的穿透信号,外加 GNSS+IMU 做定位。数据以 10 Hz 录制,两年采集累计 472 个场景(每个约 30 s)、约 294K 图像、736K LiDAR 扫描、589K 雷达帧。标定上用 OpenCalib 在平地走"8 字"轨迹求 LiDAR–车体外参,相机内参用张正友标定法,相机–LiDAR 外参用 QR 码靶标的 PnP 角点检测;时间同步靠一个部署在 Jetson 域控制器上的 PTP 主时钟,接 INS 的 PPS 与 GPRMC 信号对齐到 UTC,保证多源原始数据时间一致。

3. 半自动标注与占用栅格生成:用预训练模型 + 插值压标注成本

逐帧手标 28K+ 关键帧成本极高。作者的做法是:从 LiDAR 序列里以 2 Hz 采样关键帧,先用预训练的 BEVFusion 模型生成初始 3D 框,再人工精修;精修后的边界框通过插值传播到非关键帧,大幅降低标注量(最终 28K+ 关键帧标注 + 119K 非关键帧)。占用真值的生成同时利用关键帧和非关键帧:先做动静分离,再用多视图重建在复杂环境里做稠密建图,最后用定位数据把有效区域裁剪并体素化,得到准确的占用栅格。整套流程让"高质量标注"和"可承受成本"之间不再二选一。

4. 统一格式与 UDS 评测体系:为矿区尺寸重新定义"算对没对"

为了让模型能低成本迁移,所有数据用统一结构标注,并支持自动转成 nuScenes、KITTI、Waymo 格式(实验里就先转成 nuScenes 格式再跑)。更关键的是检测指标:nuScenes 的固定中心距阈值对尺寸差异巨大的矿区物体不公平,于是作者按类别统计 GT 框 2D 对角线均值 \(Dia_c\),据此构造类别相关的距离阈值 \(Th{d}_c=\{0.125Dia_c,\,0.25Dia_c,\,0.5Dia_c,\,Dia_c\}\)(如挖掘机 \(Dia_c=20\) m、行人 \(Dia_c=1\) m),再在各阈值与类别上累计算 AP,取均值得 mAP(积分时设 \(P_{min}=R_{min}=0.1\))。在 TP 物体上选 nuScenes 的 ATE/ASE/AOE 三项位姿误差求类均得 mTP。最后定义综合分数 URScenes Dataset Score:

\[UDS=\frac{1}{6}\Big[3\,mAP+\sum_{mTP}\big(1-\min(1,mTP)\big)\Big]\]

即把 mAP 加权 3 倍、再叠加三个被归一化为"越大越好"的位姿误差项。跟踪沿用 AMOTA/AMOTP,占用用 mIoU。这套指标让"恶劣天气下虽然 mAP 掉但近场位姿仍准"这种情况也能被合理评价。

一个完整示例

扬尘子集为例走一遍这套指标怎么解释现象:扬尘悬浮颗粒严重衰减 LiDAR 穿透,导致远距离目标检不到,于是 mAP 极低——最好的融合模型 BEVFusion 在扬尘子集只有 16.7% mAP,纯 LiDAR 的 FUTR3D 更低至 15.3%。但近处目标仍能可靠检测、位姿(ATE/ASE/AOE)较准,于是 UDS 被位姿项拉高到 44.3%/34.6%。论文用 \(UDS-mAP\) 这个差值量化"远场失效但近场尚可"的程度:扬尘 27.3%、雾 29.1%、雪 24.2% 是全部子集里差值最大的三个,正好对应 LiDAR 受悬浮颗粒影响最重的三种天气。这说明 UDS 的设计意图——不因远场掉点就把一个近场仍可用的模型一棍子打死——确实在数据上体现出来了。

实验关键数据

实验在 472 个场景(从原始 900 个场景中筛除目标过少/过密/严重遮挡的,如停车场)上做 8:2 训练/测试划分,跑了 12 个检测、6 个跟踪、7 个占用模型。

主实验:检测跨天气子集(UDS%/mAP%)

模型 阴天 Cloudy 晴天 Sunny 扬尘 Dust 雾 Fog 雪 Snow
PointPillars(L) 79.6/71.9 67.3/62.2 48.9/17.3 57.3/28.5 60.0/35.3
BEVFusion*(L+C) 78.0/70.2 61.4/61.3 44.3/16.7 59.4/27.8 60.3/34.9
CenterPoint(L) 78.7/69.6 62.0/57.9 46.5/15.6 59.2/27.8 60.7/34.4
FUTR3D(L,纯LiDAR) 62.9/66.5 56.7/52.3 34.6/15.3 52.7/33.8 52.2/34.8

正常场景(阴/晴/雨)所有模型表现都好,扬尘/雾/雪显著掉点——阴天 BEVFusion 达 78.0/70.2,扬尘子集骤降到 44.3/16.7,纯 LiDAR 的 FUTR3D 在扬尘更是全场最低 34.6/15.3,印证了恶劣天气对 LiDAR 点云质量的破坏。

模态对比(阴天子集,Table 5)

模型 模态 UDS↑% mAP↑% ATE↓m ASE↓ AOE↓rad
BEVFusion L+C 78.0 70.2 0.18 0.07 0.17
FUTR3D L+C 75.7 69.6 0.34 0.11 0.10
BEVFusion L 75.8 69.4 0.23 0.08 0.22
FUTR3D L 62.9 66.5 0.98 0.12 0.12
FUTR3D C+R 54.5 32.2 0.56 0.09 0.04
BEVDepth C 67.4 58.5 0.63 0.05 0.04

LiDAR+相机融合一致优于单模态:融合 BEVFusion(78.0)/FUTR3D(75.7) 都高于其纯 LiDAR 版本(75.8/62.9),说明在非结构化环境中传感器融合有效。

占用预测(Table 6,mIoU%)与跟踪(Table 7)

占用方法 模态 mIoU 工程车 路面 小障碍
FB-Occ C 30.94 15.14 35.28 19.74
SparseOcc C 26.83 11.83 30.69 18.36
Co-Occ C&L 25.41 24.70 23.80 7.40
SurroundOcc C 17.13 13.23 19.97 6.24

占用上多模态总体占优;纯视觉里 FB-Occ 以 30.94% mIoU 领先、在丘陵地形(Hill 43.46%)出色但在车辆类受单目深度限制;SparseOcc 用极低分辨率(704×256)却拿到有竞争力的小障碍分(18.36%),说明高效设计胜过堆分辨率。跟踪上端到端方法稳定,ADA-Track 取得最高 MOTA(35.2%)与 AMOTA(33.9%),两阶段里 MCTrack 在 MOTA(34.6%)/AMOTA(34.7%)/AMOTP(1.37m) 全面领先。

关键发现

  • UDS−mAP 差值是恶劣天气诊断器:扬尘(27.3%)、雾(29.1%)、雪(24.2%)差值最大,对应 LiDAR 远场失效但近场仍准的物理事实。
  • 类别不均衡直接影响检测难度:宽体车实例多,五模型平均 UDS 最高(60.6%);挖掘机数据少且分布不均,平均 UDS 仅 32.4%。
  • 融合>单模态在恶劣环境更明显,但相机+雷达(C+R)组合 mAP 仅 32.2%,远逊含 LiDAR 的方案。

亮点与洞察

  • 指标随数据特性重做:不照搬 nuScenes 固定阈值,而是按类别 2D 对角线 \(Dia_c\) 设自适应距离阈值并定义 UDS,是这篇最值得借鉴的工程思路——当物体尺寸跨一个数量级时,固定阈值评测会系统性偏袒小目标或大目标。
  • 半自动标注闭环可复用:用预训练检测器初标 + 人工精修 + 关键帧到非关键帧插值,是大规模 3D 数据集降本的成熟范式,占用真值用动静分离+多视图重建+定位裁剪体素化的组合也可直接迁移到其他多模态采集。
  • "八天气×三任务"一张表:把恶劣天气覆盖度做成可量化的对比维度(表 1 全打钩),让数据集的差异化贡献一目了然。

局限与展望

  • 作者承认:当前未含 4D 雷达,也缺少场景/物体的标准化文本描述;未来计划补这两块以丰富多样性。
  • 仍以露天矿为单一代表:虽称"非结构化道路",实际数据高度集中在矿区车辆与地形,林区/农田/勘探等其他非结构化类型未覆盖,泛化到这些场景的能力存疑。
  • 数据规模与类别不均衡:挖掘机等少数类样本不足导致检测难度大;不同子集天气样本量是否均衡论文未充分披露(⚠️ 以原文为准)。
  • 基准只跑现成模型:未针对非结构化/恶劣天气提出新方法,仅做 benchmark,恶劣天气下的最佳实践仍待后续工作探索。

相关工作与启发

  • vs nuScenes / Waymo / KITTI:它们是大规模结构化城市/高速数据集,天气覆盖有限且无非结构化道路;URScenes 专攻非结构化矿区 + 八天气,并提供向这些主流格式的转换工具以复用其生态。
  • vs AutoMine:同为露天矿数据集,但 AutoMine(2022)只支持 3D 检测与定位、不含暴雪浓雾;URScenes 扩展到检测+跟踪+占用三任务并补齐极端天气。
  • vs R²100K / RELLIS-3D:它们定义了丰富的非结构化路面特征但重心在语义分割、几乎不考虑恶劣天气;URScenes 以多模态 3D 感知 + 系统化天气子集为差异点。

评分

  • 新颖性: ⭐⭐⭐⭐ 首个"八天气×三任务"非结构化多模态数据集,UDS 指标设计有亮点,但单点创新是数据而非方法
  • 实验充分度: ⭐⭐⭐⭐ 12检测+6跟踪+7占用模型横扫三任务八子集,基准扎实
  • 写作质量: ⭐⭐⭐⭐ 表格清晰、对比维度明确,部分公式 OCR 略乱需对照原文
  • 价值: ⭐⭐⭐⭐ 填补非结构化恶劣天气感知数据空白,配套转换工具与指标实用性强