CVPR 2026 自动驾驶 end-to-end driving knowledge graph value model world model open-world perception VLM retrieval-augmented planning

KnowVal: A Knowledge-Augmented and Value-Guided Autonomous Driving System¶

会议: CVPR 2026
arXiv: 2512.20299
代码: 待确认
领域: 自动驾驶 / 知识增强规划
关键词: end-to-end driving, knowledge graph, value model, world model, open-world perception, VLM, retrieval-augmented planning

一句话总结¶

提出KnowVal端到端自驾系统，通过三大核心解决知识推理和价值对齐缺失：(1)Retrieval-guided Open-world Perception融合标准3D检测+VL-SAMv2长尾物体+VLM场景理解；(2)Perception-guided Knowledge Retrieval从驾驶知识图谱（交通法/防御驾驶/道德规范）检索相关知识；(3)World Model预测未来状态+Value Model（human-preference训练）评估轨迹价值，实现可解释决策。nuScenes最低碰撞率，Bench2Drive/NVISIM SOTA。

研究背景与动机¶

端到端自动驾驶近年发展迅速，从感知到规划用单一模型完成，避免了模块间的误差累积。但现有端到端方法存在两个根本性缺陷：

缺乏知识推理能力：当前模型以数据驱动为主，学到的是统计模式而非驾驶知识。面对训练数据未覆盖的长尾场景（如施工区域特殊标志、不常见的交通手势、道德困境），模型无法像人类驾驶员那样调用交通法规、防御驾驶常识来做出合理决策

缺乏价值对齐：模型的优化目标（如模仿学习的轨迹L2距离）与人类对"好驾驶"的价值判断之间存在gap。人类认为好的驾驶不仅是到达目的地，还包括乘客舒适性、对弱势道路使用者的礼让、遵守社会规范等——这些无法通过简单的轨迹匹配来学习

具体场景举例： - 一个施工区域放置了临时限速标志和锥桶→标准3D检测器不认识这些物体→需要开放世界感知+知识检索来理解"这是施工区，应减速" - 一辆救护车在后方鸣笛→模型需要知道"应靠边让行"这一交通法规→需要知识图谱支持 - 前方行人犹豫是否过马路→需要"防御驾驶"知识指导减速观察→需要知识推理

现有方法如DriveVLM/LMDrive引入了VLM，但主要用于场景描述而非知识推理；UniAD等统一框架虽然端到端，但规划仍缺乏价值引导。

方法详解¶

整体框架¶

KnowVal 想补上端到端自驾的两块短板：缺知识推理（只学了统计模式，碰到长尾场景不会调用交规/防御驾驶常识）和缺价值对齐（优化目标是轨迹 L2 距离，而非人类心中"好驾驶"的多维标准）。它用三个模块串成一个感知 → 知识检索 → 规划的闭环：开放世界感知先把场景看全（含长尾物体和抽象语义），知识检索据此从驾驶知识图谱里调出相关知识，World Model + Value Model 再据知识预测未来并按人类偏好给候选轨迹打分。一个关键之处是感知与检索相互引导——检索还会把"需进一步确认的元素"回传给下一帧的感知。三个模块都不绑定具体的底层感知/规划架构，可以即插即用地接到任意端到端框架上，且每个决策都能回溯到"检索了哪些知识、Value 在哪些维度给了高分"，因而可解释。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    IN["多视角图像 / 传感器输入"]
    subgraph PER["Retrieval-guided 开放世界感知"]
        direction TB
        P1["专用感知<br/>常见类别 3D bbox/速度/朝向"]
        P2["开放式 3D 感知<br/>VL-SAMv2/OpenAD 检测长尾物体"]
        P3["抽象概念理解<br/>VLM 提取场景级语义"]
    end
    subgraph RET["Perception-guided 知识检索"]
        direction TB
        V["Perception Verbalizer<br/>结构化感知 → 自然语言 query"]
        R["LLM 检索器<br/>从驾驶知识图谱取 top-k 知识"]
        V --> R
    end
    subgraph PLAN["World Model + Value Model 规划"]
        direction TB
        W["World Model<br/>按知识预测未来 H 步状态"]
        VAL["Value Model<br/>人类偏好多维打分"]
        W --> VAL
    end
    OUT["输出最优轨迹 a*=argmax V"]

    IN --> PER
    PER --> RET
    RET -->|"知识约束 K"| PLAN
    PLAN --> OUT
    RET -.->|"回传待确认元素（下一帧精化感知）"| PER

关键设计¶

1. Retrieval-guided 开放世界感知：让感知跳出封闭类别集

标准 3D 检测器只认训练过的固定类别，碰到施工锥桶、临时标志这类长尾物体就"看不见"。KnowVal 用三种互补的感知能力覆盖全谱段：专用感知（Specialized Perception） 用成熟的 3D 检测器（如 BEVFormer / StreamPETR）检测车辆、行人、可行驶区域等常见类别，给出精确的 3D bbox、速度、朝向，作为感知基座；开放式 3D 感知（Open-ended 3D Perception） 用开放词汇检测器（VL-SAMv2 / OpenAD）补上专用感知的盲区——消防车、积水、施工锥桶、遗落物体等长尾目标，靠视觉-语言对齐无需为每个新类别重新标注；抽象概念理解（Abstract Concept Understanding） 用 VLM（VL-SAMv2 内置）做高层语义理解，提取无法用 bbox 表示的场景级属性，如桥梁/隧道、白天/夜晚、天气与交通密度。三者叠起来，结构化检测、长尾覆盖、场景级语义一次到位。

2. Perception-guided 知识检索：把感知结果接进驾驶知识图谱

感知看清了场景，但模型并不"知道"该怎么应对——这需要外部知识。系统预构建三类驾驶知识库：交通法规（限速、路权、特殊区域等硬约束）、防御驾驶（跟车距离、盲区风险、恶劣天气应对等经验软约束）、道德规范（弱势道路使用者保护、紧急让行、道德困境等伦理约束），每条知识以 (触发条件, 知识内容, 建议动作) 三元组存储并带向量索引。检索时先用 Perception Verbalizer 把三种感知能力的结构化输出转成自然语言 query，\(q = \text{Verbalizer}(\text{专用感知}, \text{开放式 3D 感知}, \text{抽象概念理解})\)，例如"前方 10m 有施工锥桶、道路变窄、左侧有临时标志"会被转写成"施工区域道路变窄处的驾驶规则和安全注意事项"；再用 LLM 当检索器从图谱中取最相关的 \(k\) 条，\(\mathcal{K}_{\text{relevant}} = \text{LLM-Retrieve}(q, \mathcal{G}_{\text{knowledge}})\)。一个关键设计是双向反馈：检索不仅向规划端输出知识，还会回传"需要进一步确认的元素"给感知模块（如检索到"施工区应注意临时信号灯"就提示感知额外关注信号灯检测），形成"先看到 → 联想知识 → 再仔细确认"的认知闭环。

3. World Model + Value Model 规划：先预测未来，再按人类价值打分

有了知识还要把它落到轨迹选择上。World Model 在给定当前状态 \(s_t\) 和候选动作 \(a_t\) 时预测未来 \(H\) 步状态序列 \(\hat{s}_{t+1:t+H} = f_{\text{world}}(s_t, a_t, \mathcal{K}_{\text{relevant}})\)，并把检索到的知识作为额外条件，使预测不只服从物理动力学、还遵守知识约束（如"施工区限速 30"会影响对他车行为的预测）。Value Model 则在 human-preference 数据集上训练——让人对成对轨迹按安全性、舒适性、效率、合规性等维度排序（类似 RLHF），学出标量价值 \(V(\tau) = f_{\text{value}}(\hat{s}_{t+1:t+H}, \mathcal{K}_{\text{relevant}})\)。最终决策在候选动作空间里挑 Value 最高的那条：\(a^* = \arg\max_{a \in \mathcal{A}} V(f_{\text{world}}(s_t, a, \mathcal{K}_{\text{relevant}}))\)。这把"好驾驶"从单一的轨迹 L2 距离推广成多维度的人类偏好，碰撞率的下降主要就来自检索提供的安全规则加上 Value 的安全偏好。

实验关键数据¶

评估基准¶

nuScenes：标准自驾感知+规划基准
Bench2Drive：综合闭环驾驶评估基准
NVISIM：NVIDIA仿真环境

nuScenes 规划实验¶

方法	碰撞率↓	L2 (1s)	L2 (3s)
UniAD	—	—	—
VAD	—	—	—
KnowVal	最低	SOTA	SOTA

KnowVal在nuScenes上实现最低碰撞率，显著优于现有端到端方法。碰撞率的大幅降低主要归功于知识检索提供的安全驾驶规则和Value Model的安全偏好。

Bench2Drive 闭环评估¶

在Bench2Drive的多种驾驶场景（城市、高速、交叉口、恶劣天气）中均达到SOTA水平。尤其在需要复杂推理的场景（如无保护左转、施工区域通行）中，KnowVal的优势更为明显——这正是知识检索发挥作用的典型场景。

NVISIM 仿真测试¶

在NVIDIA仿真环境中验证了KnowVal的实时性和鲁棒性，取得SOTA结果。

消融实验¶

配置	碰撞率	说明
仅Specialized Perception	baseline	标准端到端基线
+Open-world Perception	下降	长尾物体感知减少意外碰撞
+Knowledge Retrieval	显著下降	知识指导带来安全性提升
+Value Model	最低	价值对齐进一步优化轨迹选择

每个模块均带来独立正向贡献，Value Model的增益在安全性维度最为突出。

知识检索效果分析¶

在长尾场景中，Knowledge Retrieval的作用尤为显著——在包含非常规交通元素的场景中，碰撞率降低超过30%。这验证了"数据驱动+知识驱动"融合的必要性。

亮点与洞察¶

三层感知体系设计完善：从精确的结构化检测→开放词汇长尾检测→抽象概念理解，覆盖了自动驾驶感知的全谱段需求。这是当前最完整的感知能力定义
感知↔知识检索的双向闭环：不是单向的"感知→检索"，而是知识检索可以反向指导感知关注点。这种双向反馈机制模拟了人类驾驶中"先看到→联想知识→再仔细确认"的认知过程
Value Model引入human-preference：类似LLM领域的RLHF思路迁移到自动驾驶，将"好驾驶"从轨迹L2距离泛化为多维度的人类偏好评估。这是自驾领域价值对齐的开创性尝试
知识图谱的三类知识划分清晰：交通法规（硬约束）、防御驾驶（软约束）、道德规范（伦理约束）覆盖了从法律到伦理的完整驾驶知识体系
兼容性强：不绑定特定的感知/规划架构，各模块可独立插拔，降低了集成门槛

局限与展望¶

知识图谱的维护和更新：交通法规随地区和时间变化，知识图谱需要持续更新。如何实现知识图谱的自动化更新和版本管理是实际部署的关键挑战
VLM推理延迟：Layer 3的VLM场景理解和知识检索中的LLM推理都有较高延迟。在要求实时响应（<100ms）的自动驾驶场景中，如何在保证推理质量的同时满足时延要求需要进一步优化
Value Model的偏好泛化：human-preference dataset的标注规模和多样性直接影响Value Model的泛化能力。不同文化背景下的驾驶偏好可能差异很大，单一数据集难以覆盖
开放世界感知的误报问题：VL-SAMv2等开放词汇检测器在开放场景中可能产生大量误报，如何有效过滤误报而不丢失真正的长尾物体是一个trade-off
仿真到真实的迁移：主要实验在nuScenes和仿真环境中完成，真实道路部署中的知识检索准确性和Value Model的鲁棒性需要进一步验证

评分¶

维度	分数 (1-5)	说明
创新性	4.5	知识图谱+RAG+Value Model的组合在自驾领域是开创性的，系统设计完整而有远见
实用性	3.5	概念先进但VLM/LLM推理延迟和知识图谱维护增加了实际部署复杂度
实验充分度	4.0	三个基准SOTA，消融完整，缺少实时性能分析和真实道路测试
写作质量	4.0	系统架构描述清晰，模块间关系明确，动机论述有力，部分实验细节可更充分