DriveCombo: Benchmarking Compositional Traffic Rule Reasoning in Autonomous Driving¶

会议: CVPR 2026
论文: CVF Open Access
代码: 无
领域: 自动驾驶 / 多模态VLM Benchmark
关键词: 交通规则推理, 自动驾驶基准, 多模态大模型, 规则组合, CARLA仿真

一句话总结¶

DriveCombo 是首个面向"组合式交通规则推理"的多模态基准：用一个从单规则理解到规则冲突仲裁的五级认知阶梯组织 7 万道选择题，并用 Rule2Scene Agent 把文本法规自动转成 CARLA 中可执行的 3D 驾驶场景；评测 14 个主流 MLLM 发现它们在最高级冲突仲裁任务上准确率骤降到 41%–44%，远低于人类的 >98%。

研究背景与动机¶

领域现状：多模态大模型（MLLM）正在成为端到端自动驾驶系统的"大脑"，把视觉感知、语言推理和世界知识融合到一起，显著提升了场景理解与轨迹规划能力。

现有痛点：但安全驾驶不只看轨迹安全，更要看是否合规——能不能在复杂情境下做出合法、契合上下文的决策。传统端到端基准只测轨迹偏移、碰撞率这类物理指标，完全忽略模型对交通规则的理解；而少数关注规则的基准（DriveQA、IDKB）又只覆盖"单条原子规则"，且依赖 2D 静态图像（如识别交通标志），无法刻画真实道路上多规则并存、相互冲突的复杂性。

核心矛盾：现实驾驶里多条法规经常同时生效甚至彼此冲突（如"前方事故要减速"和"实线不可越"同时出现），而现有基准的简化设定制造了"性能幻觉"——模型在单规则上得分很高，一遇到多规则组合就失效，评测范式和真实安全合规驾驶的认知需求之间存在巨大鸿沟。

本文目标：构建一个能系统评测 MLLM 在复杂场景下"组合式交通规则推理"能力的基准，需要解决两个子问题：(1) 如何把推理复杂度按认知层级清晰拆解、量化；(2) 如何把抽象的文本法规批量转成带视觉的可评测场景。

切入角度：作者借鉴人类驾驶员的认知发展规律——从理解单条规则，到协调多条约束，最终学会处理规则冲突——把这个发展过程映射成可量化的评测阶梯。

核心 idea：用一个"五级认知阶梯"组织从单规则到冲突仲裁的题目，再用一个"Rule2Scene Agent"在语言侧生成结构化规则、在仿真侧重建其物理语义，形成"规则推理↔场景执行"的闭环，从而把法规文本自动变成 scene-level 的视觉推理题。

方法详解¶

DriveCombo 本质是一条"法规文本 → 分级规则集 → 3D 场景 → 多级选择题"的数据生产流水线。输入是 5 个国家的官方驾驶手册与交通法规，输出是约 70K 道选择题（MCQ）+ 280K 张图像，按五个认知层级组织。整条流水线由两部分支撑：一个定义评测难度的五级认知阶梯，和一个把规则落地成场景的Rule2Scene Agent（含 Rule Crafter 与 Scene Weaver 两个模块）。

整体框架¶

流程分三步走：先从法规手册解析出原子规则（一条规则 = 一个"情境→动作"映射）；然后 Rule Crafter 给每条原子规则做语义结构化、两两配对、校验时空共存性，并依据配对的感知/规范属性自动给每对规则赋一个认知层级 \(l_i\)，构成覆盖 L1–L5 的分级规则集 \(M\)；最后 Scene Weaver 把分级规则翻译成文本场景描述、转成结构化 DSL、映射进 CARLA 仿真器渲染出 RGB 图像序列，配上题干和四个选项组装成 MCQ。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["5国官方手册 / 交通法规"] --> B["原子规则抽取<br/>情境→动作映射"]
    B --> C["Rule Crafter：规则分级<br/>语义结构化+配对+共存校验"]
    C --> D["分级规则集 M<br/>五级认知阶梯 L1-L5"]
    D --> E["Scene Weaver：场景织造<br/>文本→DSL→CARLA渲染"]
    E --> F["70K 多级选择题<br/>+ 280K RGB 图像"]

关键设计¶

1. 五级认知阶梯：把"规则推理复杂度"显式拆成可量化的难度梯度

针对"现有基准难度扁平、只测单规则"的痛点，作者把评测难度对齐到人类驾驶员的认知发展轨迹，设计了一个递进的五级阶梯：L1 理解单条原子规则；L2 整合多条不冲突的静态规则（如限速 + 路牌）；L3 在动态交通参与者交互下推理（如路口让行）；L4 协调静态与动态混合的规则；L5 在规则冲突时判断优先级、做出合法决策。这五级并非主观分档，而是由规则配对的属性自动决定（见设计 2），从而把"模型从基础识别到冲突仲裁"的能力演化拆解开来，做到逐级精确分析。它的价值在实验里被验证：所有模型 L1 都很高，但 L2→L5 单调下滑，L5 骤降到 41%–44%，恰好暴露了"看似会、实则不会组合"的认知瓶颈，证明这把阶梯确实区分出了推理深度。

2. Rule Crafter：用规范属性自动给规则对定级，把人工设难度变成可批量生成

L1–L5 的难度若靠人工标注会既慢又不一致。Rule Crafter 的做法是先把每条原子规则语义结构化为四元组 \(r_i = (c_i, b_i, a_i, n_i)\)——内容 \(c_i\)、感知类型 \(b_i \in \{\text{static}, \text{dynamic}\}\)、动作类型 \(a_i\)、规范类型 \(n_i \in \{\text{permissive}, \text{obligatory}, \text{forbidden}\}\)。然后把动作类型一致的规则两两配对 \(p_i = \{r_j, r_k\}\)，并据此派生出组合的感知类型 \(b_i'\)（Double Static / Double Dynamic / Hybrid）和规范关系 \(n_i'\)（当 \(\{n_j, n_k\} = \{\text{obligatory}, \text{forbidden}\}\) 时为 Norm Conflict，否则 Norm Harmony）。最关键的是层级由这两个属性确定性地给出：

\[l_i = \begin{cases} 2, & b_i'=\text{Double Static},\ n_i'=\text{Norm Harmony}\\ 3, & b_i'=\text{Double Dynamic},\ n_i'=\text{Norm Harmony}\\ 4, & b_i'=\text{Hybrid},\ n_i'=\text{Norm Harmony}\\ 5, & n_i'=\text{Norm Conflict} \end{cases}\]

所有原子规则 \(r_i\) 标为 \(l_i=1\)。这样一来"难度"就从主观判断变成了由规则属性推出的标签——只要 LLM 把规则结构化对了，层级自然落定。配对完还要过一道时空共存校验 \(v_i = f_{\text{LLM}}(r_j, r_k) \in \{0,1\}\)：LLM 抽取两条规则的道路类型、agent 状态、环境属性，判断它们能否在同一物理与时间上下文里共存，过滤掉语义或物理上不兼容的组合。只保留 \(v_i=1\) 的有效对 \(\hat{P}\)，最终规则集 \(M = R \cup \hat{P}\) 覆盖 L1–L5。这一步保证了生成的多规则场景是物理上真实可能发生的，而不是硬凑两条无关规则。

3. Scene Weaver：把抽象规则逐级落地成 CARLA 可执行的高保真 3D 场景

光有分级规则还不是视觉题，得有图。Scene Weaver 走一条 "Generate → SelfCheck → Align" 的多阶段管线：先用 LLM 把每个规则 \(m_i \in M\) 转写成自然语言文本场景描述 \(s_i\)（按规则数量和语义关系生成同时体现单/多规则约束的整合场景）；再翻译成结构化语义表示 \(d_i = \{E_i, L_i, W_i\}\)——实体（车辆、行人、信号灯）、空间/交互关系（"前方"、"左侧")、环境条件（天气、时间、道路类型），这套表示遵循基于交通仿真 schema 的领域专用语言（DSL）；然后把结构化语义 \(d_i^*\) 映射进 CARLA 的 3D 坐标系，生成包含实体位置、交通结构、天气和轨迹的 OpenSCENARIO 文件 \(\omega_i\)；最后导入 CARLA 渲染成 3D 场景，在 ego 车前方架相机捕获 \(K\) 帧 RGB 图像序列（实现里 \(K=4\)）。每一阶段都有另一个 LLM 做质量打分，低于阈值则交人类专家修正，确保画面真实且严格符合规则语义。正是这条"语言侧生成结构化规则、仿真侧重建物理语义"的路径，保证了规则与生成场景之间的语义一致性，形成从规则到场景的闭环。

一个完整示例¶

以一道 L5 冲突题为例走一遍：三车道高速、浓雾、能见度约 50 m。两条规则相遇——"能见度低于 50 m 时限速 30 km/h"（obligatory/减速）与"三车道高速最左道最低限速 110 km/h"（与减速冲突）。Rule Crafter 把二者配对，因规范关系为 Norm Conflict，直接定级 \(l_i=5\)，并通过共存校验确认这种雾天+三车道场景物理可发生。Scene Weaver 把它转写成文本场景、结构化为"三车道公路 + 浓雾 + ego 车"的 DSL，映射进 CARLA 渲染出雾天驾驶视角的 4 帧图像。最终组装成题干"正确限速是多少？"、选项 A.110 B.70 C.50 D.30，正确答案由优先级原则（安全义务高于通行效率）裁定为减速。模型若只识别到"最低限速 110"就会答错——这正是 L5 想考的冲突仲裁能力。

实验关键数据¶

主实验¶

评测 14 个主流 MLLM（GPT-5 nano/mini/pro、Gemini-2.5-Flash/Pro、Claude-Sonnet-4.5 等闭源，Gemma-3、Llama-3.2、Qwen3-VL、GLM-4.5V 等开源），全部 zero-shot、每模型独立跑 3 次取稳。下表为视觉版（DriveCombo）准确率（%），可见所有模型随认知层级单调下滑，L5 集体崩到 41%–44%：

模型	规模	L1	L2	L3	L4	L5
Gemma 3	27B	73.94	67.39	65.55	63.10	37.42
Qwen3-VL	32B	78.54	76.09	68.84	65.42	39.86
GLM-4.5V	106B	80.44	78.49	69.54	68.22	41.86
Gemini 2.5 Pro	-	85.71	77.19	70.32	68.03	43.06
Claude Sonnet 4.5	-	83.80	82.16	70.96	69.62	43.99
GPT-5 pro	-	86.91	83.66	72.06	69.82	44.19

最强的 GPT-5 pro 在 L5 也仅 44.19%，而 30 位人类驾驶员在各级随机抽取的 100 题上准确率 >98%，凸显模型与人类在冲突仲裁上的巨大差距。纯文本变体 DriveCombo-Text 上所有模型小幅提升（GPT-5 pro L5 升至 47.42%），说明视觉理解阶段仍有语义损失与错位，但即便去掉视觉压力，L5 仍卡在 47% 出头。

消融与增强实验¶

作者把 DriveCombo 当作"知识注入器"，对比训练无关方法（CoT、RAG）与训练相关方法（SFT）。SFT 全面碾压前两者，把多规则组合推理拉升明显（平均增益 %）：

模型	基线 Avg	+CoT	+CoT+RAG	+CoT+RAG+SFT	L5(SFT后)
Gemma 3 (4B)	44.8	+2.70	+7.31	+29.37	51.3
Qwen3-VL (8B)	58.7	+1.52	+4.13	+21.89	60.2
Llama 3.2 (11B)	43.0	+2.62	+5.42	+29.70	50.1

下游端到端规划（nuScenes 验证集，L2 轨迹误差 ↓）也证明数据有效迁移到真实任务：

模型	SFT 数据	1s	2s	3s	Avg
LLaVA-1.6-Mistral-7B	-	1.66	3.54	4.54	3.24
LLaVA-1.6-Mistral-7B	DriveQA	1.30	3.46	3.98	2.91
LLaVA-1.6-Mistral-7B	DriveCombo	1.27	3.29	3.92	2.68
InternVL-2.5-8B	DriveCombo	1.26	3.03	3.58	2.53

关键发现¶

认知阶梯确实区分推理深度：L1 普遍高分但 L2→L5 单调下滑，L5 冲突仲裁是公认瓶颈——基准成功暴露了"会识别单规则、不会组合"的真实缺陷。
规则数越多崩得越狠：复杂度分析显示，即便 GPT-5 pro、Qwen3-VL 32B 在两规则下表现强，规则增到 4–5 条时准确率掉超过 20 个百分点，说明高维交通语义下模型难以维持一致推理。
SFT 远胜免训练增强但仍不够：Llama-3.2 经 SFT 在 DriveCombo 上准确率提升 29.7%，但最好的微调模型 Qwen3-VL-8B 在 L5 也只有 60.2%，常规优化无法根治复杂规则推理。
DriveCombo 比 DriveQA 更能迁移：DriveCombo 微调的端到端规划 L2 误差全面低于 DriveQA，论文称下游 L2 损失降低 17.3%。

亮点与洞察¶

把"难度"从人工标注变成属性推导：层级 \(l_i\) 完全由规则对的感知类型和规范关系（是否 Norm Conflict）确定性地给出，使五级题目可大规模自动生成且标准一致，这套"用规范属性定难度"的思路可迁移到任何需要分级评测的合规/推理任务。
语言侧↔仿真侧闭环造数据：先在语言侧结构化规则、再在 CARLA 侧重建物理语义，并用 LLM 打分 + 人工兜底保证一致性——这种"文本规则 → 可执行 3D 场景"的合成范式让稀缺的合规驾驶视觉数据可批量产出。
冲突仲裁是真盲点：所有模型 L5 集体跌到 40% 出头、规则增到 4–5 条再掉 20 个点，清晰证明当前 MLLM 缺的不是单规则知识，而是多规则优先级推理能力，给后续工作指明方向。

局限与展望¶

作者承认的局限：场景生成依赖 CARLA 仿真器，受其 3D 资产库限制，场景多样性有上限；计划接入生成式模型扩充资产类别。
仿真到真实的差距：虽然下游 nuScenes 规划有提升，但训练数据全部来自 CARLA 渲染，仿真图像与真实路况的域差可能让 L5 等高阶能力的迁移打折扣。⚠️ 论文未给仿真-真实域差的定量分析。
优先级判定的可靠性：L5 正确答案由"优先级原则"裁定，但不同国家/情境下的优先级本身可能存在歧义，标注一致性与争议样本比例值得进一步公开。
改进思路：可引入真实路测视频补充 CARLA 资产、扩展超过 5 国的规则覆盖、并把评测从单选 MCQ 扩展到开放式合规决策生成，以更贴近真实驾驶的连续决策。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个组合式交通规则推理基准，五级认知阶梯 + 规则属性自动定级的设计新颖且抓住了真实痛点。
实验充分度: ⭐⭐⭐⭐⭐ 14 个 MLLM、文本/视觉双变体、CoT/RAG/SFT 增强、下游 E2E 规划迁移、人类对照与多规则复杂度分析齐全。
写作质量: ⭐⭐⭐⭐ 动机清晰、流水线与公式表述完整，但个别公式排版混乱、部分细节推到附录。
价值: ⭐⭐⭐⭐⭐ 暴露 MLLM 在规则冲突仲裁上的真实瓶颈，且数据可直接提升下游规划，对合规自动驾驶有实用推动力。