跳转至

iFinder: Structured Zero-Shot VLM Grounding for Dash-Cam Video Reasoning

会议: NeurIPS 2025
arXiv: 2509.19552
代码: 无
领域: 多模态VLM
关键词: 行车记录仪视频分析, LLM接地, 结构化推理, 零样本, 视觉语言模型

一句话总结

提出 iFinder,一个模块化免训练框架,将行车记录仪视频解耦为感知(结构化场景表示)与推理(LLM),通过层级数据结构和三块式提示策略使 LLM 获得可解释的时空推理能力,在四个驾驶视频基准上零样本超越端到端 V-VLM,事故推理准确率提升高达 39%。

研究背景与动机

将通用 LLM 应用于驾驶视频事后分析面临三大挑战:

空间推理能力弱:端到端V-VLM缺乏结构化归纳偏置,导致对关键视觉线索(如物体朝向、距离变化)的误读

因果推断困难:V-VLM依赖隐式视觉特征,缺乏可验证的推理链路

单一模态限制:行车记录仪视频通常仅有前视摄像头,无 LiDAR/GPS 等辅助传感器

现有驾驶专用 V-VLM(DriveMM、WiseAD)针对实时驾驶决策设计,而非事后视频分析。通用 V-VLM(VideoLLaMA2、VideoLLaVA)虽生成看似合理的回答,但在细粒度场景理解上频繁出错。

核心论点:感知应与推理解耦——用专业视觉模型提取结构化场景信息,用 LLM 进行符号推理,而非让 V-VLM 同时承担两个任务。

方法详解

整体框架

iFinder 是一个8步流水线,将原始视频转换为层级结构化数据 \(\mathcal{D}\),再通过三块式提示送入 LLM 生成最终推理结果:

\[\mathcal{F}: \mathbb{R}^{T \times H \times W \times 3} \to \mathcal{D}\]

每一步使用独立的预训练视觉模型,全流程无需训练或微调。

关键设计

步骤1:帧畸变校正

使用 GeoCalib 估计相机内参和畸变系数,通过 OpenCV 的 undistort 校正前视摄像头的镜头畸变,确保后续感知模型的最优输入。

步骤2:全局场景理解

使用图像 VLM (InternVL) 提取环境信息(天气、道路结构、昼夜),使用视频 VLM (VideoLLaMA2) 生成事件描述,分别获得 \(D_{scene}\)\(D_{video}\)

步骤3:自车状态估计

使用 DROID-SLAM 进行相机位姿估计,从平移向量序列计算: - 转向估计:通过帧间航向角变化 \(\Delta\theta_t\) 分类为直行/左转/右转 - 运动估计:通过时间窗口内的位移速度 \(s_t = \|T_{t+g} - T_t\| / g\) 判断停车/行驶

步骤4:2D目标检测与跟踪

OWL-V2 检测 18 类驾驶相关物体(车辆、行人、交通标志等),ByteTracker 分配唯一 ID 实现逐帧跟踪。

步骤5:物体车道定位

使用 OMR 车道检测模型获取车道线,将道路划分为车道区段,通过目标包围框底边中点匹配到对应车道 \(\lambda_{t,i}\)

步骤6:物体距离估计

Metric3D 预测度量深度图 \(D_t\),SAM 生成物体分割掩码 \(M_{t,i}\),物体距离 \(d_{t,i} = \text{mean}(D_{t,i} \odot M_{t,i})\)

步骤7:物体属性提取

InternVL 对目标裁剪区域进行属性提取(颜色、类型等),增强 LLM 的可解释推理。

步骤8:3D检测获取物体朝向

CenterTrack 进行3D检测,提取 yaw 角 \(\theta_{t,i} \in [-\pi, \pi]\),通过匈牙利算法将3D框与2D检测关联。

层级数据结构设计

所有信息组织为 JSON 格式的层级结构: - 视频级:环境信息、自车状态、事件描述、对等 VLM 响应 - 帧级:逐帧目标列表(ID、框、类别、距离、属性、朝向、车道)

三块式提示策略

  1. Key Explanation:精确解释结构化数据含义,消除歧义
  2. Step Instructions:将推理任务分解为明确子目标(chain-of-thought 式)
  3. Peer Instruction:告知 LLM 对等 VLM 的回答可能不可靠,鼓励独立推理

损失函数 / 训练策略

完全免训练——所有模块使用预训练权重,无需微调。推理可跨模块并行化。最终推理使用 GPT-4o-mini 作为 \(\mathcal{F}_{LLM}\)

实验关键数据

主实验

在四个驾驶视频基准上的零样本评估:

方法 MM-AU (%) SUTD (%) LingoQA (Lingo-J) Nexar (Acc%)
VideoLLaMA2 52.89 47.51 36.00 50.0
VideoChat2 49.56 42.17 41.20 58.0
DriveMM 24.22 43.90 49.0
iFinder 63.39 50.93 44.20 62.0

在 MM-AU 上碾压驾驶专用模型 DriveMM 39个百分点

SUTD 细分 U F R C I A
VideoLLaMA2 49.2 39.0 48.5 53.5 35.8 45.2
iFinder 52.2 43.5 50.2 56.8 39.2 49.6

在 SUTD 全部6个认知能力维度上均取得最佳。

消融实验

各视觉模块对 MM-AU 准确率的贡献(移除后的降幅):

移除组件 准确率 (%) 降幅
完整 iFinder 63.39
去掉场景理解 57.81 -5.58
去掉朝向估计 58.83 -4.56
去掉物体属性 59.04 -4.35
去掉帧畸变校正 60.47 -2.92
去掉距离估计 60.62 -2.77
去掉车道检测 61.80 -1.59

关键发现

  1. 物体朝向和全局环境上下文是最关键的——出乎意料地,它们比距离和车道信息更重要
  2. 在极端天气(雾/雨/雪)和夜间条件下,iFinder 仍保持最高准确率(Foggy: 75%, Rainy: 65.52%)
  3. 即使仅保留 <1% 的检测物体(高置信度阈值),准确率仍维持 58.27%,说明系统对错误传播具有鲁棒性
  4. 提示策略中 Key Explanation 块最为关键,缺失会导致 LLM 生成无效格式输出

亮点与洞察

  1. 感知-推理解耦是核心创新点:将黑盒 V-VLM 拆解为"专家感知模块 + 符号推理 LLM",每个环节可独立升级
  2. 结构化表示 + 提示工程的组合,使通用 LLM 在领域任务上超越专用模型
  3. 惊人发现:物体朝向(rot_y)和全局上下文比距离/车道更重要,为驾驶场景理解的信息优先级提供新认知
  4. 完全零样本:无需任何领域微调,模块化设计使得升级任意组件即可提升整体性能

局限与展望

  1. 推理效率受限于多模块串行执行(场景理解 ~67s、属性估计 ~67s),难以实时部署
  2. 缺乏对模糊/社会性驾驶行为(如让路意图、礼让行为)的推理能力
  3. 依赖 GPT-4o-mini 作为推理核心,受闭源模型限制
  4. CenterTrack 的 3D 检测仅适配 NuScenes 类别,对新类物体的朝向估计有限

相关工作与启发

  • V-VLM 驾驶分析:DriveMM、WiseAD 针对实时驾驶,iFinder 定位于事后分析,两者互补
  • 模块化 vs 端到端:iFinder 证明模块化方案在可解释性和准确率上可超越端到端
  • 启发:该框架的"结构化接地"思想可推广到医疗影像分析、工业视频监控等其他领域

评分

  • 新颖性: ⭐⭐⭐⭐ — 感知-推理解耦 + 结构化接地是驾驶视频分析的新范式
  • 实验充分度: ⭐⭐⭐⭐ — 4个基准 + 多维消融 + 极端条件分析 + 错误传播分析
  • 写作质量: ⭐⭐⭐⭐ — 流水线描述清晰,图示丰富
  • 价值: ⭐⭐⭐⭐ — 模块化免训练设计具有很强的实用性和可扩展性
  • 价值: 待评