跳转至

EventDrive: Event Cameras for Vision-Language Driving Intelligence

会议: CVPR 2026
论文: CVF Open Access
代码: 待确认
领域: 自动驾驶
关键词: 事件相机、视觉-语言驾驶、多模态benchmark、多尺度时域编码、Q-Former对齐

一句话总结

EventDrive 构建了第一个把事件流 + RGB 帧 + 语言监督打通整条驾驶链(感知→理解→预测→规划,4 级 17 子任务,47 万样本)的 benchmark,并配套提出 EventDrive-VLM——用「多尺度体素化 + MoE 门控的动态时域编码器」和「Event Q-Former」把异步事件对齐进 LLM 语义空间,事件-帧融合后在所有任务族上全面超过纯帧 / 纯事件模型,规划 L2 误差从 4.54m 降到 3.66m。

研究背景与动机

领域现状:事件相机以微秒级延迟、高动态范围、对运动模糊天然鲁棒的特性记录像素级亮度变化,在快速自车运动、强弱光突变、运动模糊这些「帧相机翻车」的安全攸关驾驶场景里特别有价值。但目前事件相机在驾驶里的研究大多停在上游有监督任务——检测、分割、光流估计;而 RGB 社区已经走到了把感知、推理、控制塞进一个网络的统一视觉-语言-动作框架。

现有痛点:少数把事件接入视觉-语言系统的尝试(grounding、caption-based event LM 如 EventGPT / EventVL / LLaFEA)只能做通用场景的描述或短 QA,没有揭示事件感知到底如何贡献于贯穿整条驾驶环路的推理与决策。换句话说,事件被当成一个孤立的时间线索,而不是端到端驾驶智能的一部分。

核心矛盾:缺一个能在「整条 autonomy stack」上系统评测事件价值的统一接口——既要覆盖从环境感知到自车规划的全链路,又要把异步事件嵌进语言推理空间。现有事件-语言数据集要么是仿真数据,要么真实世界覆盖不足 10 万样本,任务也零散。

本文目标:(1) 造一个把事件、帧、语言在「感知-理解-预测-规划」四个维度上统一起来的大规模 benchmark;(2) 造一个能解释、对齐、推理异步事件表征的通用 VLM 训练框架。

核心 idea:把驾驶环路拆成 4 个顺序推理阶段,每个阶段都表达成「语言 grounded」的任务,从而用统一协议量化事件的时序线索如何增强各级推理;模型侧用「多时域尺度自适应编码 + 跨注意力 query 对齐」把异步稀疏事件干净地接进 LLM。

方法详解

本文是一个 benchmark + 配套模型 的工作,方法部分分两块:先讲 EventDrive 数据集怎么构造、任务怎么定义、怎么评测,再讲 EventDrive-VLM 模型怎么把事件接进 LLM。

整体框架

EventDrive 把整条驾驶环路组织成 4 个顺序阶段:Perception(环境感知)→ Understanding(物体级理解)→ Prediction(短时预测)→ Planning(自车规划),共 17 个子任务,每个任务都写成语言 grounded 的结构化 query(caption / QA / grounding / 轨迹预测等),让事件-帧模型可以在统一协议下被评测。数据用半自动流水线在 DSEC、M3ED、PKU-DAVIS-SOD 三个真实事件数据集上构造,靠 Qwen3-VL 生成语言监督,最终 471,543 个「事件-帧-语言」样本,并额外切出一个只含低光 + 运动模糊序列的 hard split 专门考事件的优势。

模型侧 EventDrive-VLM 是一条清晰的串行 pipeline:异步事件先被转成多尺度体素张量捕捉不同时间尺度的运动;动态时域编码器用 MoE 门控自适应聚合这些多尺度特征;Event Q-Former 做跨注意力,从事件特征里抽出语言对齐、运动相关的 token;这些事件 token 与冻结的帧 token、文本 embedding 拼接后送进 LLM 做统一驾驶推理;最后用两阶段课程训练把三条通路(事件 / 视觉 / 语言)逐步对齐。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["异步事件流<br/>(x,y,t,p)"] --> B["多尺度体素化<br/>B={20,50,100}三种时域分辨率"]
    B --> C["动态时域编码器<br/>MoE门控选top-k时域专家"]
    C --> D["Event Q-Former对齐<br/>可学习query跨注意力抽运动token"]
    F["RGB帧token(冻结)"] --> E
    T["文本指令"] --> E
    D --> E["LLM统一解码<br/>事件+帧+文本拼接"]
    E --> G["感知/理解/预测/规划<br/>语言grounded输出"]

关键设计

1. 分层语言 grounded 任务体系:把整条驾驶环路拆成可量化的事件推理阶梯

这是 benchmark 的骨架,针对的痛点是「事件研究停在孤立感知、没法系统评测它对全链路推理的贡献」。作者把驾驶拆成 4 级、17 子任务:Perception(6 子任务:场景类型、能见度、车流、天气、信号灯、路况)考全局场景理解,事件在恶劣光照/模糊下提供稳定边缘和时域梯度;Understanding(6 子任务:物体存在、外观、运动状态、自车关系、环境关系、grounding)考物体语义和空间关系,异步事件帮助消解交互歧义;Prediction(2 子任务:速度变化、方向变化)考短时行为预测,事件的高时间密度直接暴露速度和加速度;Planning(3 子任务:速度意图、方向意图、未来 waypoint)考自车决策,事件的连续时域结构让动态/低能见度下的决策更稳。每个子任务都被写成统一的语言 query,使得经典视觉模型和现代 VLM 都能在同一套协议下被评。

2. 半自动语言监督流水线 + hard split:用 VLM 把多源标注转成可扩展的语言监督

针对「真实事件-语言数据稀缺、且要覆盖 4 类异质任务」,作者用 Qwen3-VL 在同步的 RGB 帧、事件流、bbox、LiDAR、ego-pose 上生成结构化语言监督:场景级感知由全局 caption 拆成均衡的 QA 对;物体级理解基于 DSEC 的 GT bbox 生成五种属性描述再转 VQA 和 grounding;预测用 ego-pose 把 3D box 投到自车坐标系、抽轨迹、转成速度/方向意图的自然语言;规划用 M3ED 轨迹监督导出速度意图、路径意图和未来 waypoint。最终 47 万样本,远超现有 <10 万的事件-语言数据集。关键的评测设计是额外切一个只含低光 + 运动模糊序列的 hard split,专门隔离出「帧相机退化、事件该发力」的场景,让事件优势可被定向度量,而不是被正常光照下的高分稀释。

3. 动态时域事件编码器:用多尺度体素 + MoE 门控自适应挑选时间分辨率

针对的痛点很具体——事件流的时间密度跨数据集和任务差异巨大(不同采样率、感知需要长时域上下文而预测/规划需要细粒度运动),而传统体素化用固定 bin 数 \(B\),长曝光窗会被压缩、快速运动会被模糊,丢掉运动推理最需要的高频细节。给定事件流 \(E=\{e_k\}_{k=1}^K\)\(e_k=(x_k,y_k,t_k,p_k)\),标准体素化把事件映射成 4D 张量:

\[E(p,\tau,x,y)=\sum_{e_k\in E}\delta(p-p_k)\,\delta(x-x_k,y-y_k)\,\delta(\tau-\tau_k),\quad \tau_k=\left\lfloor\frac{t_k-t_a}{t_b-t_a}B\right\rfloor.\]

本文不用单一 \(B\),而是用一组时域分辨率 \(\mathcal{B}=\{b_n\}_{n=1}^N\) 构造多个体素张量 \(E_n\),分别捕捉短/中/长时域运动;每个专家网络 \(\sigma(\cdot)\) 处理对应 bin 的张量得 \(F_n=\sigma(E_n)\)。再用一个 MoE 门控自适应加权:把各专家特征 concat 后全局平均池化得描述子 \(f_c\),门控 logits 为

\[z=W_g f_c+\text{Softplus}\big(\epsilon\odot(W_{noise}f_c)\big),\quad \epsilon\sim\mathcal{N}(0,1),\]

其中加噪项鼓励专家多样性;只保留 top-\(k\) logits、softmax 归一化得权重 \(\alpha_n\),聚合表征 \(F_e=\sum_{n=1}^N\alpha_n F_n\)。这样运动快时强调高分辨率时域特征、运动缓时用粗但稳的聚合——比固定 bin 在全速度谱上都保住时序保真度。消融里 top-k 单专家选择反而比加权求和更好,说明「抑制无关分辨率」比「混合所有分辨率」更有效。

4. Event Q-Former 对齐:用可学习 query 跨注意力把事件压成语言对齐的运动 token

针对「事件特征必须对齐进 LLM 语义空间」,最朴素的做法是把事件 token 和帧 token 直接 concat,但这忽略了模态不对称、还带来很高的序列长度和计算开销。作者改用 Q-Former 式跨注意力:引入一组可学习事件 query \(q_e\in\mathbb{R}^{N_q\times d}\),去 attend 展平后的事件特征图 \(f_e\in\mathbb{R}^{(HW)\times d}\)

\[z_e=\text{softmax}\!\left(\frac{(q_e W_Q)(f_e W_K)^\top}{\sqrt{d}}\right)(f_e W_V).\]

每个 query 选择性地关注事件流里时域信息量大的区域,产出紧凑的运动感知 embedding;再经一个轻量投影层映到 LLM embedding 空间得事件 token \(h_e\),与帧 token \(h_f\)、文本 embedding \(h_t\) 拼接送进 LLM 解码。相比 concat,query-centric 对齐既只抽最显著的运动模式(更便宜),又保住事件的时序独特性(更强的运动抽象)——消融显示它在 grounding 和 planning 上都优于纯 concat 和纯 cross-attention。

损失函数 / 训练策略

两阶段课程训练,从「事件-语言 grounding」过渡到「多模态指令跟随」:

  • 阶段一·事件-语言预适配:冻结 LLM 和帧视觉编码器,只训事件编码器、Q-Former、投影层,用 caption 数据的语言建模目标。梯度只流过事件通路,在不动预训练帧语义的前提下,让事件编码器把时序/运动结构组织成与 LLM 兼容的 embedding,提供稳定的跨模态对齐。
  • 阶段二·指令微调:解冻 LLM 的 transformer 块,连同整条事件通路一起在全部 caption + QA 数据上微调,帧视觉编码器仍冻结。这一步把时域与语义信号更紧地绑在一起,形成统一的「感知到动作」事件驱动模型。

实现上微调 Qwen2.5-VL-7B-Instruct,事件编码器用预训练 RVT backbone,动态时域 bin \(B=20,50,100\)(即 \(N=3\)),16 张 H20、AdamW + cosine、bf16、序列长 4096、FlashAttention 2,两阶段各 2 epoch、batch 128。

实验关键数据

主实验

EventDrive benchmark 上跨四任务族对比(百分比 %,L2 越低越好;加粗为最佳)。事件+帧融合的 EventDrive-VLM 在几乎所有指标上领先:

模型 感知 Acc@P 理解 Acc 理解 Acc@60 预测 Speed 规划 Path 规划 L2↓
EventGPT-7B(纯事件) 52.25 38.78 5.49 27.84 76.08 11.42
Qwen2.5-VL-7B(纯帧·微调*) 75.88 58.44 69.94 36.84 89.44 4.54
InternVL3-8B(纯帧) 74.37 60.60 0.24 4.41 84.34 9.84
EventDrive-VLM(事件+帧) 78.89 65.46 72.86 42.44 92.35 3.66

跨数据集泛化:在 Event-Chat benchmark(Tab. 3)上 EventDrive-VLM 零样本迁移,Complex Reasoning 4.15 超过纯事件 EventGPT-7B(4.09),说明 EventDrive 学到的是可泛化的事件-语言对齐而非过拟合某种标注风格。

消融实验

拆解三个核心模块(数值为各任务平均,L2 单位 m):

配置 感知 Acc 理解 mIoU 规划 L2↓ 说明
体素化 \(N=1\) 82.40 69.52 4.11 单一时域分辨率
体素化 \(N=5\) 83.95 72.25 3.88 增到 5 个 horizon,收益饱和
聚合 Add(朴素求和) 76.76 67.64 4.57 抹平时域差异,最弱
聚合 Wt.sum(加权和) 83.84 70.56 3.75 优于求和但不如选单专家
对齐 Concat 79.35 71.93 4.01 模态失衡 + 序列变长
对齐 Attention 81.25 70.23 3.69 token 级交互改善 grounding/planning
Ours(\(N=3\) + MoE top-k + Q-Former) 83.66 72.56 3.66 全模块

关键发现

  • 预测任务模态差距最大:从静态帧推速度/方向是病态的(纯帧 InternVL3 Speed 仅 4.41),事件直接编码运动,事件增强模型在 Speed/Path 上稳定领先——这是事件价值最直观的证据。
  • 多尺度 horizon 在 3 个时饱和\(N=1→5\) 各任务都涨,但超过 3 个收益饱和而计算量线性增长,故选 \(N=3\) 取精度-效率平衡。
  • 「选 top-k 单专家」优于「混合所有分辨率」:MoE 门控比加权求和好,说明抑制无关时域分辨率比无差别融合更有效。
  • 纯帧模型在 hard split / Acc@60 上崩:多个纯帧 VLM 在低光、运动模糊下 grounding(Acc@60)几乎归零(InternVL3 仅 0.24),印证「运动线索无法从 RGB 推断、必须靠事件」。

亮点与洞察

  • 把事件价值「拆到任务粒度」量化:不是笼统说事件好,而是用 4 级 17 子任务 + hard split 精确指出事件在哪类任务(预测/运动 grounding)、哪类条件(低光/模糊)下不可替代——这种「分维度归因」的评测设计值得迁移到任何「新模态 vs 旧模态」的对照研究。
  • MoE 门控做时域分辨率选择,而非容量扩展:MoE 在这里不是用来扩参数,而是当作「自适应挑时间尺度」的开关,且 top-k 单专家最优——这是把 MoE 用于「表征选择」而非「容量堆叠」的一个干净例子。
  • Q-Former 在事件模态上同样吃香:异步稀疏事件直接 concat 进 LLM 既贵又乱,用可学习 query 抽运动 token 既降算力又保时序独特性,这套「稀疏高时序信号 → 少量语义 token」的压缩思路可迁到雷达、音频等其他异步模态。

局限与展望

  • 依赖 Qwen3-VL 生成监督:47 万样本的语言标注由 VLM 半自动生成,可能继承生成器的偏置或在细粒度属性上出错;论文未report人工校验比例。⚠️ 标注质量的可靠性需结合 supplementary 判断。
  • 三个源数据集的覆盖边界:DSEC/M3ED/PKU 主要是特定地区/传感器配置,跨地域、跨事件相机型号的泛化未充分验证。
  • 纯事件 baseline 偏弱:EventGPT 以零样本评测(训练码不可得),与本文充分微调的模型对比不完全公平;事件-only 的上限可能被低估。
  • 改进方向:可探索把规划阶段接成真正的闭环控制(而非 waypoint 回归),以及在线异步推理下事件的延迟优势能否端到端体现。

相关工作与启发

  • vs EventGPT / EventVL / LLaFEA:它们把事件编码器 + 时域聚合器接 LLM,但停在 captioning / 短 QA 的通用场景;本文把事件-VLM 推向覆盖整条驾驶链的综合推理,并显式量化事件在感知-理解-预测-规划各级的贡献。
  • vs 固定窗口的事件-帧融合:早期 late fusion、后来的共享 backbone + 注意力门控大多用固定时域窗,抓不住跨尺度展开的运动;本文用多 horizon 体素 + MoE 门控做频率自适应融合,兼顾时域精度与语义连贯。
  • vs 纯帧驾驶 VLM:纯帧模型正常光照下感知很强,但在 Acc@P、Acc@60、速度类预测上因无法编码运动而急剧退化;本文证明事件的时域梯度是 RGB 推不出来的互补信息。

评分

  • 新颖性: ⭐⭐⭐⭐ 第一个打通事件全驾驶链的语言 benchmark,模型侧组件(多 horizon + MoE + Q-Former)多为成熟模块的巧妙组合。
  • 实验充分度: ⭐⭐⭐⭐ 跨四任务族 + 跨数据集泛化 + 三模块消融,纯事件 baseline 略弱是小遗憾。
  • 写作质量: ⭐⭐⭐⭐ 任务层级和动机讲得清晰,公式完整,图文对照好。
  • 价值: ⭐⭐⭐⭐⭐ 提供大规模真实事件-语言驾驶 benchmark + 训练框架,对事件驱动驾驶智能是可复用的基础设施。