OD-RASE: Ontology-Driven Risk Assessment and Safety Enhancement for Autonomous Driving¶

会议: ICCV 2025
arXiv: 2603.05936
代码: https://kotashimomura.github.io/odrase/
领域: 自动驾驶安全
关键词: 本体驱动, 风险评估, 基础设施改善, 大规模视觉语言模型, 扩散模型

一句话总结¶

提出 OD-RASE 框架，通过构建道路交通专家知识本体(ontology)来过滤 LVLM 生成的道路基础设施改善方案，实现对事故风险道路结构的前瞻性识别与改善建议生成。

研究背景与动机¶

当前自动驾驶系统虽有高感知性能，但在罕见场景或复杂路况下仍有局限
传统道路基础设施改善是被动的：通常在交通事故发生后，专家才分析原因并提出改善方案
对于自动驾驶系统而言，需要主动识别潜在风险道路结构，在事故发生前进行改善
现有数据集主要关注事故预测和高风险物体描述，忽略了导致事故的底层道路结构
利用 LVLM 自动生成的标注数据质量难以保证，且验证成本高

方法详解¶

整体框架¶

OD-RASE 框架分为两个核心部分：(1) 基于专家知识的本体驱动数据集构建；(2) 多模态 OD-RASE 模型（图像+文本→基础设施改善方案预测+扩散模型生成改善后道路图像）。

关键设计¶

本体构建（Ontology Construction）: 基于道路交通系统专家知识，将390+案例中的事故道路结构归纳为11种事故诱因道路结构和10种改善方案。专家先将原始30种道路结构和26种改善方案去除时间依赖因素后精简合并。本体表示为这些结构与改善方案之间的映射关系。
基于图的思维链提示（G2CoT Prompt）: 利用 GPT-4o 模拟专家推理过程，通过多阶段链式推理（CoT）为道路图像生成基础设施改善方案。每个阶段的文本输出被转化为图结构提示传递给下一阶段。生成结果对应本体中定义的10种改善方案和11种道路结构类型。
本体驱动数据过滤（Ontology-Driven Data Filtering）: 将专家知识本体作为有向参考图 \(G_A=(V_A, E_A)\)，将 GPT-4o 生成的改善方案作为生成图 \(G_B=(V_B, E_B)\)。通过图匹配进行过滤：
- 计算节点和边的交集：\(V'_B = V_B \cap V_A\)，\(E'_B = E_B \cap E_A\)
- 移除孤立节点：\(V''_B = V'_B \setminus \text{Iso}(G'_B)\)
- 保留端点均在 \(V''_B\) 中的边，得到最终过滤图 \(G''_B\)
- 若任意两个模块间的所有边被移除，则该数据视为不可信并排除
OD-RASE 多模态模型: 由视觉编码器（ResNet-50/ViT-B/CLIP/Long-CLIP）、文本编码器（RoBERTa-Base/Flan-T5-xl/Long-CLIP）和 Grounding Block 组成。Grounding Block 用图像嵌入作为 query、文本嵌入作为 key/value 做交叉注意力，输出经全连接层预测10类改善方案。
扩散模型布局控制: 采用 Instruct Pix2Pix，根据 OD-RASE 输出的改善方案生成文本提示，对原始道路图像进行编辑，生成改善后的道路环境可视化图像，作为决策支持工具。

损失函数 / 训练策略¶

任务建模为多标签分类（一张道路图像可能对应多个改善方案）
损失函数为二元交叉熵：\(\mathcal{L} = -\sum_{c=1}^{C}[y_c \log p_c + (1-y_c)\log(1-p_c)]\)
视觉和文本编码器参数在训练时冻结
batch size 16，训练 25 epochs
使用 Mapillary Vistas 和 BDD100K 数据集

实验关键数据¶

主实验 (表格)¶

不同视觉-文本编码器组合在基础设施改善方案预测上的表现：

视觉编码器	文本编码器	Mapillary F1	Mapillary Acc	BDD100K F1	BDD100K Acc
ResNet-50	RoBERTa-Base	64.98	37.12	77.18	45.94
ViT-B	RoBERTa-Base	67.79	40.71	78.14	47.98
CLIP	RoBERTa-Base	69.76	40.71	78.30	48.69
Long-CLIP	RoBERTa-Base	70.26	42.14	78.79	49.48
Long-CLIP	Flan-T5-xl	24.39	0.00	28.22	0.00

消融实验 (表格)¶

模态消融（Long-CLIP + RoBERTa-Base，Mapillary）：

输入模态	Precision	Recall	F1	Accuracy
仅图像	57.42	72.37	64.03	34.50
仅文本	60.02	79.76	68.50	40.63
图像+文本	64.54	77.09	70.26	42.14

本体过滤消融：

数据过滤	Precision	Recall	F1	Accuracy
无过滤	33.59	64.85	44.26	0.00
有过滤	64.54	77.09	70.26	42.14

关键发现¶

本体过滤效果显著：无过滤时 Accuracy 为 0%，启用后提升至 42.14%，F1 从 44.26 提升至 70.26
Flan-T5-xl 作为文本编码器表现极差：recall 高但 precision 极低，可能因 8-bit 量化导致过多误报
零样本泛化：模型在 BDD100K 上训练、Mapillary 上评估时仍表现稳健（F1=68.32），但通用 LVLM（如 GPT-4o/LLaVA）在此任务上远逊于专用模型
扩散模型可视化：Instruct Pix2Pix 生成的改善后道路图像 FID=8.5，专家评估 54.23% 为完全符合

亮点与洞察¶

开创性地将道路基础设施改善与自动驾驶安全相结合，提出前瞻性风险识别框架
利用本体作为知识过滤器，有效提升 LVLM 生成数据的可靠性，这种"专家知识+AI生成+图匹配验证"的模式具有通用性
扩散模型生成改善后可视化图像的思路增强了可解释性和实用价值

局限与展望¶

仅使用前视图像，未考虑视频时序信息或多视角输入
排除了交通量等时间依赖因素
无法量化评估改善方案实际的事故减少率（需要交通仿真器）
改善方案的优先级和紧迫性缺乏量化指标
类别粒度较粗（11种道路结构+10种改善方案），实际应用可能需要更细分类

评分¶

新颖性: ⭐⭐⭐⭐ 首次将道路基础设施改善与自动驾驶安全相结合，本体驱动数据过滤的思路新颖
实验充分度: ⭐⭐⭐⭐ 在两个数据集上进行了详尽实验，包括零样本、模态消融、过滤消融以及与通用 LVLM 对比
写作质量: ⭐⭐⭐⭐ 问题动机清晰，框架完整，图例说服力强
价值: ⭐⭐⭐⭐ 实际应用价值高，为自动驾驶安全提供了新视角