iFinder: Structured Zero-Shot VLM Grounding for Dash-Cam Video Reasoning¶

会议: NeurIPS 2025
arXiv: 2509.19552
代码: 无
领域: 多模态VLM
关键词: 行车记录仪视频分析, LLM接地, 结构化推理, 零样本, 视觉语言模型

一句话总结¶

提出 iFinder，一个模块化免训练框架，将行车记录仪视频解耦为感知（结构化场景表示）与推理（LLM），通过层级数据结构和三块式提示策略使 LLM 获得可解释的时空推理能力，在四个驾驶视频基准上零样本超越端到端 V-VLM，事故推理准确率提升高达 39%。

研究背景与动机¶

将通用 LLM 应用于驾驶视频事后分析面临三大挑战：

空间推理能力弱：端到端V-VLM缺乏结构化归纳偏置，导致对关键视觉线索（如物体朝向、距离变化）的误读

因果推断困难：V-VLM依赖隐式视觉特征，缺乏可验证的推理链路

单一模态限制：行车记录仪视频通常仅有前视摄像头，无 LiDAR/GPS 等辅助传感器

现有驾驶专用 V-VLM（DriveMM、WiseAD）针对实时驾驶决策设计，而非事后视频分析。通用 V-VLM（VideoLLaMA2、VideoLLaVA）虽生成看似合理的回答，但在细粒度场景理解上频繁出错。

核心论点：感知应与推理解耦——用专业视觉模型提取结构化场景信息，用 LLM 进行符号推理，而非让 V-VLM 同时承担两个任务。

方法详解¶

整体框架¶

iFinder 是一个8步流水线，将原始视频转换为层级结构化数据 \(\mathcal{D}\)，再通过三块式提示送入 LLM 生成最终推理结果：

\[\mathcal{F}: \mathbb{R}^{T \times H \times W \times 3} \to \mathcal{D}\]

每一步使用独立的预训练视觉模型，全流程无需训练或微调。

关键设计¶

步骤1：帧畸变校正¶

使用 GeoCalib 估计相机内参和畸变系数，通过 OpenCV 的 undistort 校正前视摄像头的镜头畸变，确保后续感知模型的最优输入。

步骤2：全局场景理解¶

使用图像 VLM (InternVL) 提取环境信息（天气、道路结构、昼夜），使用视频 VLM (VideoLLaMA2) 生成事件描述，分别获得 \(D_{scene}\) 和 \(D_{video}\)。

步骤3：自车状态估计¶

使用 DROID-SLAM 进行相机位姿估计，从平移向量序列计算： - 转向估计：通过帧间航向角变化 \(\Delta\theta_t\) 分类为直行/左转/右转 - 运动估计：通过时间窗口内的位移速度 \(s_t = \|T_{t+g} - T_t\| / g\) 判断停车/行驶

步骤4：2D目标检测与跟踪¶

OWL-V2 检测 18 类驾驶相关物体（车辆、行人、交通标志等），ByteTracker 分配唯一 ID 实现逐帧跟踪。

步骤5：物体车道定位¶

使用 OMR 车道检测模型获取车道线，将道路划分为车道区段，通过目标包围框底边中点匹配到对应车道 \(\lambda_{t,i}\)。

步骤6：物体距离估计¶

Metric3D 预测度量深度图 \(D_t\)，SAM 生成物体分割掩码 \(M_{t,i}\)，物体距离 \(d_{t,i} = \text{mean}(D_{t,i} \odot M_{t,i})\)。

步骤7：物体属性提取¶

InternVL 对目标裁剪区域进行属性提取（颜色、类型等），增强 LLM 的可解释推理。

步骤8：3D检测获取物体朝向¶

CenterTrack 进行3D检测，提取 yaw 角 \(\theta_{t,i} \in [-\pi, \pi]\)，通过匈牙利算法将3D框与2D检测关联。

层级数据结构设计¶

所有信息组织为 JSON 格式的层级结构： - 视频级：环境信息、自车状态、事件描述、对等 VLM 响应 - 帧级：逐帧目标列表（ID、框、类别、距离、属性、朝向、车道）

三块式提示策略¶

Key Explanation：精确解释结构化数据含义，消除歧义
Step Instructions：将推理任务分解为明确子目标（chain-of-thought 式）
Peer Instruction：告知 LLM 对等 VLM 的回答可能不可靠，鼓励独立推理

损失函数 / 训练策略¶

完全免训练——所有模块使用预训练权重，无需微调。推理可跨模块并行化。最终推理使用 GPT-4o-mini 作为 \(\mathcal{F}_{LLM}\)。

实验关键数据¶

主实验¶

在四个驾驶视频基准上的零样本评估：

方法	MM-AU (%)	SUTD (%)	LingoQA (Lingo-J)	Nexar (Acc%)
VideoLLaMA2	52.89	47.51	36.00	50.0
VideoChat2	49.56	42.17	41.20	58.0
DriveMM	24.22	43.90	—	49.0
iFinder	63.39	50.93	44.20	62.0

在 MM-AU 上碾压驾驶专用模型 DriveMM 39个百分点。

SUTD 细分	U	F	R	C	I	A
VideoLLaMA2	49.2	39.0	48.5	53.5	35.8	45.2
iFinder	52.2	43.5	50.2	56.8	39.2	49.6

在 SUTD 全部6个认知能力维度上均取得最佳。

消融实验¶

各视觉模块对 MM-AU 准确率的贡献（移除后的降幅）：

移除组件	准确率 (%)	降幅
完整 iFinder	63.39	—
去掉场景理解	57.81	-5.58
去掉朝向估计	58.83	-4.56
去掉物体属性	59.04	-4.35
去掉帧畸变校正	60.47	-2.92
去掉距离估计	60.62	-2.77
去掉车道检测	61.80	-1.59

关键发现¶

物体朝向和全局环境上下文是最关键的——出乎意料地，它们比距离和车道信息更重要
在极端天气（雾/雨/雪）和夜间条件下，iFinder 仍保持最高准确率（Foggy: 75%, Rainy: 65.52%）
即使仅保留 <1% 的检测物体（高置信度阈值），准确率仍维持 58.27%，说明系统对错误传播具有鲁棒性
提示策略中 Key Explanation 块最为关键，缺失会导致 LLM 生成无效格式输出

亮点与洞察¶

感知-推理解耦是核心创新点：将黑盒 V-VLM 拆解为"专家感知模块 + 符号推理 LLM"，每个环节可独立升级
结构化表示 + 提示工程的组合，使通用 LLM 在领域任务上超越专用模型
惊人发现：物体朝向（rot_y）和全局上下文比距离/车道更重要，为驾驶场景理解的信息优先级提供新认知
完全零样本：无需任何领域微调，模块化设计使得升级任意组件即可提升整体性能

局限与展望¶

推理效率受限于多模块串行执行（场景理解 ~67s、属性估计 ~67s），难以实时部署
缺乏对模糊/社会性驾驶行为（如让路意图、礼让行为）的推理能力
依赖 GPT-4o-mini 作为推理核心，受闭源模型限制
CenterTrack 的 3D 检测仅适配 NuScenes 类别，对新类物体的朝向估计有限

评分¶

新颖性: ⭐⭐⭐⭐ — 感知-推理解耦 + 结构化接地是驾驶视频分析的新范式
实验充分度: ⭐⭐⭐⭐ — 4个基准 + 多维消融 + 极端条件分析 + 错误传播分析
写作质量: ⭐⭐⭐⭐ — 流水线描述清晰，图示丰富
价值: ⭐⭐⭐⭐ — 模块化免训练设计具有很强的实用性和可扩展性
价值: 待评