DSERT-RoLL: Robust Multi-Modal Perception for Diverse Driving Conditions¶
会议: CVPR 2026
arXiv: 2604.03685
代码: https://jeongyh98.github.io/dsert-roll
领域: 自动驾驶 / 多模态感知
关键词: multi-modal dataset, event camera, 4D radar, thermal camera, 3D detection
一句话总结¶
提出 DSERT-RoLL 驾驶数据集,首次集成立体事件相机、RGB、热成像、4D 雷达和双 LiDAR 六种传感器,覆盖多种天气和光照条件,并提出统一多模态 3D 检测融合框架。
研究背景与动机¶
自动驾驶感知在恶劣天气(雾、雨、雪)和极端光照条件下仍面临严峻挑战。传统 RGB+LiDAR 方案在这些场景中表现退化。新型传感器如事件相机(对高动态范围和快速运动鲁棒)、热成像(夜间有效)和 4D 雷达(恶劣天气穿透性强)各具互补优势,但现有数据集通常只包含部分传感器组合,缺乏在同一环境下对所有传感器的公平对比和系统研究。
DSERT-RoLL 的核心贡献在于:将所有这些新型传感器与传统传感器集成到同一采集平台,在相同场景下采集数据,使得跨传感器对比和融合研究首次成为可能。
方法详解¶
整体框架¶
数据集包含 22K 帧多模态传感器数据,覆盖高速公路、城市街道、郊区道路等场景。同时提出多模态 3D 检测融合框架:LiDAR 和 4D Radar 体素化特征生成初始 3D 框提议,RGB/热成像/事件相机特征通过置信度融合整合到 3D 空间。
关键设计¶
-
全面传感器套件:立体 RGB(2448×2048)、立体事件相机(1280×720)、立体热成像(640×512)、4D 雷达(100m 范围)、长距 LiDAR(150m)和短距高分辨率 LiDAR(100m, 360°),所有相机均为立体配置以覆盖前方视场。
-
3D 范围传感器融合:LiDAR 和 4D Radar 分别体素化后提取 BEV 特征,沿通道拼接后卷积融合,生成初始 3D 框提议。4D Radar 在恶劣天气中提供 Doppler 速度信息,弥补 LiDAR 在雾雪中性能退化的不足。
-
相机-3D 范围传感器融合:提出体素中心采样策略,从 LiDAR 和 Radar 的非空体素索引出发,建立统一稀疏体素特征空间。将每个非空体素投影到 RGB/热成像/事件相机的图像平面,通过可变形交叉注意力采样邻域图像特征并融合到 3D 空间,实现置信度加权的多模态融合。
损失函数 / 训练策略¶
使用标准 3D 检测损失(回归 + 分类),在多模态特征融合后的统一表示上训练检测头。训练/测试按 7:3 比例划分,确保天气、光照和类别分布在两个集合间平衡。
实验关键数据¶
主实验¶
| 模态组合 | 天气-晴 | 天气-雾 | 天气-大雪 | 光照-HDR |
|---|---|---|---|---|
| L (仅LiDAR) | 82.90 | 65.67 | 54.14 | 74.51 |
| R+L | 84.67 | 66.14 | 59.43 | 79.31 |
| 4R+L | 88.26 | 67.41 | 69.96 | 82.98 |
| R+E+T+4R+L (全模态) | 90.30 | 71.42 | 72.94 | 86.33 |
关键发现¶
- 4D Radar 在恶劣天气(大雪 +15.82 vs 仅 LiDAR)中贡献最显著
- 事件相机在 HDR 和过曝光照条件下特别有价值
- 热成像在低光照和夜间场景中补充 RGB 的不足
- 全模态融合在所有条件下均最优,证实了传感器互补性
亮点与洞察¶
- 首个同时包含六种传感器(含新型传感器)并在同一环境采集的驾驶数据集
- 系统性地揭示了不同传感器在不同环境条件下的优势和劣势
- 体素中心采样策略优雅地解决了异构传感器到统一 3D 空间的映射问题
- 数据分布在天气、光照和类别间精心平衡
局限与展望¶
- 数据集规模(22K 帧)相比 Waymo 等大型数据集偏小
- 仅三个目标类别(车辆、行人、自行车),覆盖范围有限
- 传感器标定和时间同步在极端条件下可能存在偏差
相关工作与启发¶
- 与 K-Radar(4D 雷达)、DSEC(事件相机)、KAIST(热成像)等单传感器数据集互补
- 融合框架的模块化设计便于未来探索更多传感器组合
评分¶
- 新颖性:⭐⭐⭐⭐⭐ — 首个全面的多新型传感器驾驶数据集
- 技术深度:⭐⭐⭐⭐ — 融合框架设计合理
- 实验充分度:⭐⭐⭐⭐⭐ — 系统性消融各传感器组合
- 实用价值:⭐⭐⭐⭐⭐ — 填补了多传感器研究的数据空白