FutureSightDrive: Thinking Visually with Spatio-Temporal CoT for Autonomous Driving¶

会议: NeurIPS 2025
arXiv: 2505.17685
代码: GitHub
领域: 自动驾驶 / VLA
关键词: 视觉CoT, 轨迹规划, 世界模型, VLA, 未来帧预测

一句话总结¶

FSDrive让VLA"用视觉思考"——先作为世界模型生成融合了未来车道线、3D检测框和场景预测的统一视觉CoT帧，再作为逆动力学模型基于当前观测和视觉CoT进行轨迹规划，用极少数据(约0.3%)即可激活MLLM的视觉生成能力。

核心矛盾：领域现状：现有VLA自动驾驶模型大多使用文本CoT（如场景描述、坐标文字）作为推理中间步骤，但存在关键问题：

人类驾驶员的思维更接近"在脑中模拟未来场景"而非"用语言描述",因此应让模型也用视觉方式"思考"。

两阶段训练： - 预训练阶段：统一视觉理解(VQA) + 视觉生成(未来帧预测)，渐进式从结构先验到完整场景 - 微调阶段：场景理解 + 基于视觉CoT的轨迹规划

视觉时空CoT:
- 功能：生成一张融合了多种未来信息的统一图像帧作为推理中间步骤
- 核心思路：将未来车道线(红色标注)、3D检测框、和预测场景整合到一张图中；车道线表示空间可行驶区域，检测框表示关键物体运动，场景图表示时间演变
- 设计动机：统一为图像格式避免跨模态转换的语义损失，同时编码空间(车道线+检测框)和时间(场景演变)两个维度的未来信息
统一预训练范式:
- 功能：在现有MLLM基础上同时激活视觉理解和视觉生成能力
- 核心思路：将VQ-VAE的图像码本扩展到MLLM的文本词表中，使模型可以自回归预测视觉token
- 设计动机：仅需约0.3%的数据量（相比从头训练的方法），不修改MLLM架构，直接激活潜在的视觉生成能力
- 渐进式生成：先生成车道线token \(Q_l\)（静态物理约束）→ 3D检测框token \(Q_d\)（动态物理约束）→ 完整未来帧token \(Q_f\)

nuScenes轨迹规划（ST-P3 metrics）:

方法	LLM	L2 (1s) ↓	L2 (2s) ↓	L2 (3s) ↓	Col. (1s) ↓	Col. (2s) ↓	Col. (3s) ↓
VAD	-	0.54	1.15	1.98	0.04	0.39	1.17
OmniDrive	✓	0.51	1.04	1.70	-	-	-
FSDrive	✓	较优	较优	较优	更低	更低	更低

FSDrive在L2位移误差和碰撞率上均优于基线，同时在DriveLM场景理解和未来帧FID上达到竞争性能。

⭐⭐⭐⭐ — 视觉CoT理念新颖且合理，渐进式物理先验设计巧妙，低成本激活视觉生成的方案实用