TaCarla: A comprehensive benchmarking dataset for end-to-end autonomous driving¶
会议: CVPR 2026
arXiv: 2602.23499
代码: https://github.com/atg93/TaCarla-Visualization (可视化代码) / 数据集托管于 HuggingFace
领域: 自动驾驶 / 数据集与基准
关键词: 端到端自动驾驶, CARLA Leaderboard 2.0, 闭环评测, 多任务标注, 稀有度评分
一句话总结¶
TaCarla 用 CARLA 0.9.15 + Leaderboard 2.0 的 36 类场景,以 PDM-Lite 规则专家 + NuScenes 360° 传感器配置采集了 285 万帧(文献中最大),同时支持 3D 检测 / 车道线 / 中心线 / 红绿灯 / 规划 / VLA 等多任务标注与开闭环评测,并提出一个基于 IDF 的"稀有度评分"来量化长尾场景,最后用一组 SOTA baseline 把这套基准跑通。
研究背景与动机¶
领域现状:端到端自动驾驶研究高度依赖数据质量,但真实数据集采集昂贵、闭环评测困难。CARLA Leaderboard 2.0 提供了一套覆盖长尾的多样化场景,成为开环+闭环联合评测的重要替代平台——即便最强方法在该挑战上的成功率也只有约 6%,说明这是一个远未饱和、且能暴露真实弱点的基准。
现有痛点:现有数据集"各缺一块"。带感知标注的数据集往往缺规划数据;规划数据集(如 NuPlan,1200 小时)则绝大多数是 ego 车一路直行,行为多样性极低、缺少闭环评测。在 Leaderboard 2.0 平台上的两个先驱数据集也各有硬伤:Bench2Drive 用 RL 专家采集,存在 ego 车振荡(oscillation)问题,且虽采了多任务数据却只报告规划结果;PDM-Lite 则是为 Transfuser 单一规划模型量身定制——只用 3 个前向相机 + 1 个 LiDAR,导致像"礼让后方应急车辆(YieldToEmergencyVehicle)"这类场景根本没有传感器输入能看到从后方驶来的车辆。
核心矛盾:专家策略的质量(决定行为多样性与是否有振荡)与传感器配置的通用性(决定能覆盖哪些任务/场景),在已有数据集里是"二选一"——Bench2Drive 行为多样但专家有振荡,PDM-Lite 专家稳健但传感器太窄。没有一个数据集能同时给到稳健专家 + 全向感知 + 多任务标注 + 闭环评测。
本文目标:构建一个同时服务模块化范式与端到端范式的"全栈"数据集,要求 (1) 用稳健专家消除振荡、保留行为多样性;(2) 用通用传感器配置覆盖全部场景与感知任务;(3) 为每个任务给出 SOTA baseline 形成可对比基准;(4) 量化长尾、支持 LLM/VLA 研究。
切入角度:把 Bench2Drive 与 PDM-Lite 的优点"缝"起来——用 PDM-Lite 的规则专家保证驾驶稳健、用 NuScenes 的 6 相机/5 雷达/1 LiDAR 配置保证 360° 覆盖与对常用感知模型的兼容。
核心 idea:以"稳健专家 + NuScenes 全向传感器 + 多任务标注 + 开闭环基准 + 稀有度评分"五件套,造出文献中最大(285 万帧)、最全的 CARLA 端到端自动驾驶数据集。
方法详解¶
整体框架¶
TaCarla 本质是一条"数据采集—多任务标注—长尾量化—基准跑通"的数据集构建流水线。输入是 Leaderboard 2.0 提供的训练/验证路线 XML(含 36 类场景);采集端用 PDM-Lite 规则专家在 CARLA 0.9.15 中驾驶,挂载 NuScenes 传感器套件(6 RGB 相机 + 5 雷达 + 1 LiDAR,外加 BEV RGB、深度、实例/语义分割相机),以 10 Hz 录制 285 万帧、覆盖多种天气。原始 XML 里多个场景串在一条长路线上,作者按场景触发点把它们切分成独立短路线,以保证每类场景的样本可控、可统计。采集后对每帧生成多任务 ground truth(3D 框、车道分隔线、中心线、红绿灯、轨迹、分割/深度)以及规则化文本标注(供 VLA/LLM 用)。为应对"沿路直行被严重过采样"的类别失衡,作者用一个基于 IDF 的稀有度评分给每条文本标注的场景打分,识别长尾。最后在每个任务上挑选 SOTA 模型给出 baseline,并提供 NuPlan 风格的开环指标 + Leaderboard 2.0 原生的闭环指标。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["Leaderboard 2.0 路线 XML<br/>(36 类场景)"] --> B["按场景触发点切分<br/>独立短路线"]
B --> C["数据采集<br/>PDM-Lite 专家 + NuScenes 传感器<br/>10Hz · 285 万帧 · 多天气"]
C --> D["多任务标注<br/>3D 框/中心线/车道线/红绿灯<br/>分割·深度·规则化文本"]
D --> E["稀有度评分<br/>IDF 量化长尾场景"]
D --> F["基准套件<br/>各任务 SOTA baseline<br/>开环 + 闭环评测"]
E --> F
关键设计¶
1. 缝合式数据采集:稳健专家 + 全向传感器
这一设计直击"专家质量 vs 传感器通用性二选一"的核心矛盾。专家侧选用 PDM-Lite 规则专家而非 Bench2Drive 的 RL 专家——规则专家驾驶确定、避免了 RL 智能体常见的轨迹振荡,从源头保证了标注轨迹的可学习性。传感器侧采用 NuScenes 配置(6 RGB 相机 + 5 雷达 + 1 LiDAR,安装位姿与 NuScenes 完全一致),提供 360° 覆盖,从而解决 PDM-Lite 因只有前向相机而在"后方应急车辆""相邻车道障碍变道"等场景里无输入可看的死角;位姿对齐 NuScenes 还让现有感知模型可以无缝迁移、两套数据可互相切换。在此之上额外采集 BEV RGB(类卫星图)、深度、实例/语义分割,覆盖端到端预训练所需的全部模态。采集规模达 285 万帧、10 Hz、多天气(表 1 给出云量/雾/降水/积水/湿度五个 0–100 参数的分布,按 very_low/low/medium/heavy 分桶),是文献中已知最大的同类数据集。
2. 场景切分 + 多任务标注:让长尾、复杂机动可被采到也可被统计
Leaderboard 2.0 的 XML 把多个场景串在一条长路线上,直接采集会让"直行跟车"淹没掉"变道避障"这类硬场景。作者按相邻两个场景之间的触发点把长路线切成独立短路线,使每类场景成为可计数、可平衡的单元。效果体现在表 2:在 Accident、ConstructionObstacle、HazardAtSideLane(TwoWays)、ParkedObstacle、ParkingCrossingPedestrian、YieldToEmergencyVehicle 等需要变道(因此要同时观察前车与相邻车道)的复杂场景上,TaCarla 的样本数显著多于 Bench2Drive 与 PDM-Lite(如 ParkedObstacleTwoWays:TaCarla 416 vs Bench2Drive 23 vs PDM-Lite 90)。标注侧覆盖 7 类目标(walker / car / police / ambulance / firetruck / crossbike / construction,其中 car 多达 793 万、应急车辆等稀有类只有数千),并给出中心线、车道分隔线、红绿灯(Town12/Town13 各约 23.9 万 / 18.8 万样本)等模块化范式所需的全套 GT,使同一份数据能同时训练检测、车道、规划等任务。
3. 规则化文本标注 + IDF 稀有度评分:把"罕见"变成一个可计算的数
为支持 LLM/VLA 研究并量化长尾,作者用一套规则方法从 3D 车道/物体/引导标注里抽取描述当前场景的文本(如"ego 正在跟随路线""ego 因前车减速""ego 正在超越自行车")。在此之上提出一个把 Inverse Document Frequency(IDF) 改造来的稀有度评分:把每条文本标注 \(W_t\) 看作一个文档、整个语料 \(N\) 看作文档集,词越罕见、得分越高。未归一化稀有度为
其中 \(l_N\) 是语料总句数,\(\mathbf{1}_{\{w\in n\}}\) 是"词 \(w\) 是否出现在句子 \(n\)"的指示函数;再做 min-max 归一化映射到 \([0,1]\):
经验上它能有效区分常见与罕见事件:普通"沿路直行"场景得分约 0.0,越复杂/越异常的情形得分越高。这个分数不止是分析工具——表 8 里 PlanT* 正是只用稀有度 > 0 的样本训练,闭环驾驶分从 52.95 提到 59.25,证明它能反过来指导采样、改善长尾学习。
损失函数 / 训练策略¶
本文是数据集/基准论文,不引入新损失。各任务沿用所选 SOTA 模型的原始训练配方:3D 检测用 RQR3D(非 Transformer、anchor-free 单阶段 + objectness 头,RegNetY-800MF + BiFPN 编码、Lift-Splat 投影到 BEV、参考 BevDet4D 做时序 warp);车道/中心线用 TopoBDA(Bezier 可变形注意力)训 6 epoch;红绿灯用 FCOS+ResNet-50 训 12 epoch(lr 1e-3,第 8/11 epoch 衰减 0.1);规划用 Transfuser(3 epoch)/ DiffusionDrive(6 epoch,20 anchors,2 步去噪)/ PlanT(50 epoch),lr 7.5e-5,8×A100、batch 64,训练时按驾驶分 >70 过滤、2 Hz 采样得到 4s/8 路点。
实验关键数据¶
主实验¶
3D 目标检测(nuScenes 风格指标,mAP↑ / ATE·ASE·AOE·AVE↓):
| 配置 | mAP | mATE | mASE | mAOE | mAVE |
|---|---|---|---|---|---|
| Camera-only | 0.32 | 0.43 | 0.33 | 0.37 | 0.32 |
| Camera-LiDAR | 0.55 | 0.19 | 0.31 | 0.37 | 0.22 |
加入 LiDAR 后 mAP 从 0.32 提到 0.55、平移误差 mATE 从 0.43 降到 0.19,符合"LiDAR 改善深度→定位/朝向更准"的预期;camera-only 因深度估计困难误差更大。稀有类(ambulance/firetruck)即便加 LiDAR 也只有 0.43/0.45 AP,暴露长尾难点。
车道检测(TopoBDA,AP_f 基于 Fréchet 距离 / AP_c 基于 Chamfer 距离 / [email protected]):
| 任务 | AP_f | AP_c | F1 |
|---|---|---|---|
| 中心线检测 | 39.6 | 41.7 | 67.3 |
| 车道分隔线检测 | N/A | 32.1 | 64.3 |
车道分隔线的 AP_f 标为 N/A,因 Fréchet 距离强调方向性、对无方向的分隔线不适用。
红绿灯检测(FCOS+ResNet-50,COCO 风格 AP):AP 59.5 / AP₅₀ 88.2。
规划——开环(未见过的 Town13,1s/2s/4s 视界,ADE/FDE/AHE/FHE↓):
| 模型 | 4s ADE | 4s FDE | 2s ADE | 1s ADE |
|---|---|---|---|---|
| Transfuser | 2.29 | 4.97 | 0.91 | 0.40 |
| DiffusionDrive | 2.69 | 5.58 | 1.14 | 0.51 |
| PlanT | - | - | 1.03 | - |
规划——闭环(Town13,Leaderboard 2.0 原生指标,驾驶分/路线分/惩罚↑):
| 模型 | Driving | Route | Penalty |
|---|---|---|---|
| Transfuser | 17.18 | 65.67 | 0.283 |
| DiffusionDrive | 22.35 | 62.06 | 0.339 |
| PlanT | 52.95 | 81.67 | 0.658 |
| PlanT*(稀有度>0 训练) | 59.25 | 81.59 | 0.705 |
消融实验¶
| 配置 | 关键指标 | 说明 |
|---|---|---|
| 检测 camera-only | mAP 0.32 / mATE 0.43 | 仅相机,深度估计差→误差大 |
| 检测 camera-LiDAR | mAP 0.55 / mATE 0.19 | 加 LiDAR,定位/朝向显著改善 |
| PlanT(全量训练) | 闭环驾驶分 52.95 | 不做稀有度筛选 |
| PlanT*(稀有度>0) | 闭环驾驶分 59.25 | 只用稀有场景训练,+6.3 分 |
关键发现¶
- 开环好 ≠ 闭环好:DiffusionDrive 开环 ADE/FDE 比 Transfuser 略差,闭环驾驶分却更高(22.35 vs 17.18);而 PlanT 开环数据残缺,闭环却最强(52.95)。说明该数据集提供闭环评测的价值——单看开环位移误差会误判模型优劣。
- 稀有度评分能直接提升闭环驾驶:仅用稀有度 > 0 的样本训练 PlanT,闭环驾驶分 52.95→59.25、惩罚分 0.658→0.705,证明该评分不仅能分析长尾,还能当采样策略用。
- LiDAR 对感知是刚需:3D 检测 mAP 几乎翻倍(0.32→0.55),印证 360° + 多模态传感器配置相比 PDM-Lite 单前向相机的优势。
- 长尾类别仍是硬骨头:ambulance/firetruck 样本仅数千,AP 远低于 car,说明即便是最大数据集,应急车辆等关键稀有类仍需专门处理。
亮点与洞察¶
- "缝合优点"是务实且有效的数据集设计哲学:不发明新专家、不设计新传感器,而是把 PDM-Lite 的稳健专家与 NuScenes 的全向配置组合,一举消除振荡 + 补齐死角,工程上低风险、研究上高价值。
- 把"罕见"做成一个可计算、可反哺训练的标量:用 IDF 改造出稀有度评分,从文本标注侧量化长尾,并直接证明"按稀有度筛样本"能提升闭环驾驶分——这个 trick 可迁移到任何带文本/标签描述的失衡数据集做长尾重采样。
- 同源数据 + 开闭环双评测,揭示开环指标的误导性:因为数据和评测同源,作者能并排展示"开环排名与闭环排名不一致",这对端到端自动驾驶社区"只看 ADE/FDE"的惯例是一个有力提醒。
- 一份数据喂多任务:同一采集同时支撑检测/车道/红绿灯/规划/分割/深度/VLA,降低了模块化与端到端范式之间的数据壁垒。
局限与展望¶
- 专家自身的分布偏置:作者诚实承认 PDM 规则专家把速度限制在中等区间,导致速度分布出现"密度带"而非平滑连续;且 Leaderboard 2.0 XML 的路线结构让右转远多于左转,数据本身带有机动偏置。
- 仿真到现实的差距:全部数据来自 CARLA 仿真,传感器噪声、外观真实性与真实路况存在 sim-to-real gap,迁移到真实车端仍需验证。
- baseline 训练预算偏小:多数模型只训了 3–12 epoch(如 Transfuser 3 epoch、检测/车道 6 epoch),报告的 baseline 未必反映模型在该数据集上的上限,横向比较需谨慎。
- 稀有度评分依赖规则化文本:分数质量取决于规则抽取文本的覆盖度,规则没覆盖到的语义维度无法被稀有度感知。
- 展望:作者提议把 Bench2Drive 与 TaCarla 合并训练——二者传感器配置相近但专家不同,混合或可互补各自专家的弱点、提升鲁棒性。
相关工作与启发¶
- vs Bench2Drive:同为 Leaderboard 2.0 数据集且传感器相近,但 Bench2Drive 用 RL 专家、存在轨迹振荡且只报告规划结果;TaCarla 改用 PDM-Lite 规则专家消除振荡,并把全部多任务都建成可对比基准,规模也更大(285 万 vs 200 万帧)。
- vs PDM-Lite:同用 PDM-Lite 专家,但 PDM-Lite 为 Transfuser 定制、只有 3 前向相机 + 1 LiDAR,在需要后向/侧向感知的场景里有死角;TaCarla 换成 NuScenes 360° 配置补齐覆盖,并扩展到多任务通用数据集(581,662 样本 → 285 万帧)。
- vs NuPlan:NuPlan 有 1200 小时真实规划数据但行为单一(大量直行)、缺闭环评测;TaCarla 借 Leaderboard 2.0 的 36 类场景显著提升行为多样性,并提供开环+闭环双评测。
- 启发:把"专家选择"与"传感器配置"解耦、各取最优再缝合,是构建仿真数据集的可复用范式;IDF 式稀有度评分则给"如何量化并对抗数据集长尾"提供了一个轻量、通用的工具。
评分¶
- 新颖性: ⭐⭐⭐⭐ 不发明新模型,但"缝合稳健专家+全向传感器"+IDF 稀有度评分的组合,在数据集层面解决了真问题。
- 实验充分度: ⭐⭐⭐⭐ 覆盖检测/车道/红绿灯/规划多任务、开闭环双评测,并证明稀有度评分能反哺训练;但 baseline 训练预算偏小。
- 写作质量: ⭐⭐⭐⭐ 动机清晰、对比表(表 2/7/8)有说服力,对自身专家偏置坦诚交代。
- 价值: ⭐⭐⭐⭐⭐ 文献中最大的 CARLA 端到端数据集 + 完整基准 + 长尾量化工具,对自动驾驶社区是高复用资产。