Maximizing Asynchronicity in Event-based Neural Networks¶
会议: ICLR 2026
arXiv: 2505.11165
代码: github.com/haohq19/eva
领域: 事件相机/高效推理
关键词: 事件相机, 异步处理, 线性注意力, 自监督学习, RWKV-6, A2S
一句话总结¶
提出EVA框架,将事件类比为语言token,用基于RWKV-6的线性注意力异步编码器实现逐事件特征更新,结合多表示预测(MRP)+下一表示预测(NRP)的自监督学习获得可泛化特征,首次在异步-同步(A2S)范式中成功完成高难度目标检测任务(Gen1数据集0.477 mAP)。
研究背景与动机¶
事件相机的特性与挑战:事件相机以高时间分辨率(最高1μs)、低延迟、低空间冗余输出异步稀疏事件流,但标准ML算法需要tensor-like输入,事件数据的异步稀疏特性与现有方法存在根本矛盾。
A2S范式的出现:异步到同步(Asynchronous-to-Synchronous, A2S)框架通过设计高效异步编码器逐事件更新tensor-like特征,再按需采样给下游同步ML算法,成功桥接了异步数据和同步算法的鸿沟。
现有A2S方法的局限:(1) 编码器表达力不足——ALERT-Transformer使用EventNet(基于点云),没有层次学习,仅能处理简单识别任务;(2) 端到端有监督学习导致特征任务特异,缺乏跨任务泛化能力;(3) 在复杂检测任务上,A2S方法远不如密集同步方法。
事件与语言的类比洞察:两者共有两个关键相似性——(i) 都以序列形式组织,(ii) 都以增量方式贡献信息(事件记录增量亮度变化,词汇增量构建语义)。这启发了将NLP中的线性注意力和自监督学习技术迁移到事件处理。
事件与语言的关键差异:(i) 信息密度不同——单个语言token有丰富语义,单个事件仅记录像素级亮度变化,需要聚合才有意义;(ii) 空间局部性——事件具有空间属性(像素坐标),语言没有。这两个差异指导了架构设计的调整方向。
研究目标:设计更有表达力的异步编码器 + 自监督学习方法,使A2S框架不仅超越先前A2S方法,还能首次成功应对高难度检测任务。
方法详解¶
整体框架¶
EVA(Event-as-lAnguage)把事件流当成语言序列来处理:原始事件先被token化并嵌入为向量,再按空间patch切成多条短序列(PWE),每条序列送入基于RWKV-6的异步线性注意力编码器,逐事件更新一份二维矩阵隐藏状态(MVHS)作为特征输出;各patch特征拼接后交给下游识别或检测算法。整个编码器不依赖下游标签,而由多表示预测(MRP)+下一表示预测(NRP)两个自监督任务驱动训练。推理时编码器随每个事件到来增量更新内部状态,下游算法在任意时刻按需采样当前特征即可——这正是异步到同步(A2S)范式"异步编码、同步下游"的实现。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["异步事件流<br/>每个事件 (t,x,y,p)"] --> B["事件token化<br/>+时间差嵌入"]
B --> C["Patch-wise编码(PWE)<br/>按坐标切成多条短序列"]
C --> D["RWKV-6异步编码器<br/>逐事件更新MVHS二维状态"]
D --> E["拼接各patch特征"]
E --> F["下游识别/检测算法<br/>按需采样当前特征"]
D -->|预训练监督| G["多任务自监督<br/>MRP + NRP"]
G -->|回传梯度| D
关键设计¶
1. 事件token化与时间差嵌入:把异步事件翻译成可学习的向量
事件流要进编码器,首先得把每个事件 \(e_i = (t_i, x_i, y_i, p_i)\) 变成向量 \(\bm{x}_i \in \mathbb{R}^D\)。空间上用双射映射 \(\text{Tok}(x, y, p) = p \times H \times W + y \times W + x\) 把"坐标+极性"压成一个唯一token,词汇表大小为 \(2 \times H \times W\),保证每个空间位置与极性的组合都对应一个独立可学习的embedding。时间维度则刻意不用绝对时间戳,而用相邻事件的时间差 \(\Delta t_i = t_i - t_{i-1}\) 做正弦编码,最终嵌入取空间嵌入与时间嵌入之和。之所以用时间差,是因为事件相机长期运行时绝对时间戳会无界增长,直接编码会重蹈语言模型长度外推失败的覆辙;而时间差始终落在有限分布内,模型才能稳定泛化到任意时长的事件流。
2. Patch-wise编码(PWE):用事件的空间局部性换计算效率与分辨率无关性
事件相比语言多了空间属性,EVA把这一点利用起来:对分辨率 \((H_{\text{sensor}}, W_{\text{sensor}})\) 的相机,按patch大小 \(P\) 将事件按坐标切成 \(H_{\text{sensor}} \times W_{\text{sensor}} / P^2\) 条独立序列,每个patch各跑一份编码器,特征拼接后再交给下游。这样单条序列变短、计算开销下降,模型规模随patch数进一步缩小,且各patch可并行。更关键的副产品是分辨率无关性——编码器只在固定大小的patch上训练,换一台不同分辨率的事件相机时无需重训即可直接用。
3. 矩阵值隐藏状态(MVHS)作输出:用二维状态弥补单事件的低信息量
单个事件只记录一个像素的亮度变化,信息密度远低于一个语言token,因此不能像传统编码器那样直接吐一维向量 \(\bm{y} \in \mathbb{R}^{D}\)。EVA改用RWKV-6线性注意力的二维矩阵隐藏状态 \(\bm{S} \in \mathbb{R}^{N \times D_{\text{head}} \times D_{\text{head}}}\) 作为输出特征。RWKV-6的循环更新式 \(\bm{S}_i = \text{diag}(\bm{w}_i) \bm{S}_{i-1} + \bm{k}_i \bm{v}_i^T\) 让隐藏状态天然累积了到当前为止的全局信息,正好补上单事件信息不足的短板。配合多头机制(每头维度 \(D_{\text{head}} = D/N\)),隐藏状态规模做到 \(N \times D_{\text{head}} \times D_{\text{head}}\),在不加大模型宽度 \(D\) 的前提下把特征容量扩展开来——相比用一维输出,模型规模可缩小约 \(D_{\text{model}}/N\) 倍,既轻量适合实时推理,二维结构又方便学习细粒度空间特征。
4. 多任务自监督学习(MRP+NRP):不靠下游标签也能学到可迁移特征
为摆脱端到端有监督导致的特征任务特异问题,EVA用两个自监督目标训练编码器。多表示预测(MRP)强制编码特征 \(\mathcal{F}_i = \mathcal{M}_\theta(\{e_j\}_{j \leq i})\) 同时预测事件计数EC、时间面TS等多种手工表示,目标为 \(\arg\max_{\theta, \Theta} \mathbb{E}_i \prod_{k=1}^{K} \textbf{Pr}(\mathcal{R}_i^k | \mathcal{F}_i; \theta_k)\);不同表示捕获事件信息的不同侧面,逼模型学出更全面、可泛化的特征。下一表示预测(NRP)则借鉴NLP的下一token预测,要求模型从当前特征预测未来时间窗 \(\Delta T\) 内的表示,目标为 \(\arg\max_{\theta, \Theta'} \mathbb{E}_i \prod_{k=1}^{K'} \textbf{Pr}(\mathcal{R}^k(\{e | t_i < t(e) \leq t_i + \Delta T\}) | \mathcal{F}_i; \theta_k')\);这迫使模型理解运动规律而非死记历史。两个任务都以聚合表示而非单个事件作为预测目标,因为单事件信息不足、噪声不可预测,用聚合量做监督信号更可靠。
实验关键数据¶
DVS128-Gesture动作识别¶
| 模型 | 编码器参数量 | 分类器参数量 | MAC/事件 | 延迟 | SA | FVA |
|---|---|---|---|---|---|---|
| ALERT-Tr. (+RM) | 1.41M | 13.96M | 1.22M | 5.8ms | 84.6% | 94.1% |
| ALERT-Tr. (+LMM) | 0.04M | 0.57M | 0.004M | 3.9ms | 72.6% | 89.2% |
| EVA (+ResNet-14) | 0.62M | 2.83M | 0.60M | 14.7ms | 92.9% | 96.9% |
Gen1目标检测¶
| 模型 | 类型 | mAP (%) |
|---|---|---|
| NVS-S | 端到端异步(A) | 8.6 |
| AEGNN | 端到端异步(A) | 14.5 |
| DAGr-L | 端到端异步(A) | 32.1 |
| FARSE-CNN | 端到端异步(A) | 30.0 |
| ASTMNet | 同步密集(S) | 46.7 |
| RVT-B | 同步密集(S) | 47.2 |
| GET | 同步密集(S) | 47.9 |
| EVA (+RVT-B, D=128) | A2S | 47.5 |
| EVA-L (+RVT-B, D=192) | A2S | 47.7 |
关键消融实验¶
| MVHS | 时间嵌入 | FVA | SA |
|---|---|---|---|
| ✓ | ✓ | 98.1% | 94.7% |
| ✓ | ✗ | 87.8% | 81.1% |
| ✗ | ✓ | 97.4% | 94.1% |
关键发现¶
- A2S范式首次攻克检测任务:EVA在Gen1上达到47.7 mAP,超越同步SOTA方法RVT-B(47.2),这是A2S方法首次在检测任务上取得竞争力结果。此前A2S方法仅能处理简单识别任务
- MVHS显著提升特征表达力:移除MVHS后SA从94.7%下降到94.1%(0.6%),而移除时间嵌入的负面影响更大(SA从94.7%下降到81.1%),表明时间建模对事件处理至关重要
- MRP多表示互相促进学习:仅学习EC一种表示时EC损失反而更大(0.701 vs 0.366),说明学习多种表示之间存在正向迁移效应
- NRP贡献独立于MRP:移除NRP后FVA从98.1%降到96.8%,SA从94.7%降到94.4%,表明预测未来表示确实帮助模型学到超越简单记忆的知识
- 小patch带来更好效果:patch大小从16增加到128时,FVA从98.1%降到97.4%,SA从94.7%降到89.3%,尽管大patch有更小的预训练损失(因为稀疏区域多)
亮点与洞察¶
- 事件-语言类比的系统化分析:不是简单类比,而是系统分析了相似性(序列结构、增量信息)和差异性(信息密度、空间局部性),并据此做出针对性的架构调整——MVHS应对低信息密度,PWE应对空间局部性
- RWKV-6在事件域的首次成功应用:线性注意力的并行训练+循环推理天然匹配A2S范式的训练+推理需求,且RWKV-6的数据依赖衰减和门控机制适合连续动态数据
- 从1-D到2-D特征的范式转变:用矩阵隐藏状态代替向量输出的思路新颖,在不增加模型宽度的前提下扩展表达力,且2-D结构与图像任务天然匹配
- 自监督特征的跨任务迁移:在Gen1上预训练的编码器特征可直接用于N-Cars分类任务(96.3%准确率),验证了特征的泛化能力
局限性¶
- 实时性在高分辨率场景受限:Gen1的事件率(0.618M/s)已超过EVA-L的吞吐量(0.541M/s),虽然PWE策略可缓解,但对更高分辨率的Gen3(1280×720)相机仍然存在挑战
- 自监督目标依赖手工表示:MRP和NRP的监督信号来自EC、TS等手工设计的表示,这些表示本身可能丢失某些事件信息,限制了学习上限
- 仅在事件域验证:尽管框架理论上通用,但实验仅在事件相机数据上验证,未探索其他异步序列数据(如神经尖峰)的适用性
- 编码器延迟较大:由于层次学习架构,EVA的单事件推理延迟(14.7ms处理8192事件)高于ALERT-Tr.,虽然总处理时间更短
相关工作与启发¶
vs ALERT-Transformer (Martin-Turrero et al., 2024)¶
先前最强的A2S方法,使用EventNet做异步编码。EVA在DVS128-Gesture上FVA提升2.8%(96.9% vs 94.1%)、SA提升8.3%(92.9% vs 84.6%)。更重要的是ALERT-Tr.从未在检测任务上取得结果,而EVA达到47.7 mAP。关键差异在于EVA用RWKV-6替代EventNet实现层次学习,MVHS扩展特征表达力。
vs RVT-B (Gehrig & Scaramuzza, 2023)¶
同步密集方法的SOTA,在Gen1上达到47.2 mAP。EVA-L以47.7 mAP超越之,且EVA的输入特征通道数仅为6(vs RVT-B的20)。这表明A2S范式通过更好的异步编码器可以匹配甚至超越同步方法,同时保留了异步处理的低延迟优势。
vs DAGr (Gehrig & Scaramuzza, 2024)¶
端到端异步图神经网络方法,Gen1上32.1 mAP。EVA的47.7 mAP大幅超越(+15.6),说明A2S的"编码+密集下游"范式比纯异步方法更有效,因为后者受限于图方法在时间积累上的局限。
评分¶
| 维度 | 评分 | 理由 |
|---|---|---|
| 新颖性 | ⭐⭐⭐⭐ | 事件-语言类比的系统化分析及MVHS输出的设计思路新颖,但核心组件(RWKV-6、SSL)本身非新 |
| 技术深度 | ⭐⭐⭐⭐ | 架构设计有理有据,消融实验充分,从类比到架构调整的逻辑链条完整 |
| 实验充分度 | ⭐⭐⭐⭐ | 覆盖识别+检测+消融+timing分析,但缺乏更多数据集和更多下游任务的验证 |
| 工程价值 | ⭐⭐⭐⭐⭐ | A2S范式首次攻克检测任务,PWE支持任意分辨率,代码已开源,对事件相机实时应用有直接价值 |