Maximizing Asynchronicity in Event-based Neural Networks¶

会议: ICLR 2026
arXiv: 2505.11165
代码: github.com/haohq19/eva
领域: 事件相机/高效推理
关键词: 事件相机, 异步处理, 线性注意力, 自监督学习, RWKV-6, A2S

一句话总结¶

提出EVA框架，将事件类比为语言token，用基于RWKV-6的线性注意力异步编码器实现逐事件特征更新，结合多表示预测(MRP)+下一表示预测(NRP)的自监督学习获得可泛化特征，首次在异步-同步(A2S)范式中成功完成高难度目标检测任务(Gen1数据集0.477 mAP)。

研究背景与动机¶

事件相机的特性与挑战：事件相机以高时间分辨率（最高1μs）、低延迟、低空间冗余输出异步稀疏事件流，但标准ML算法需要tensor-like输入，事件数据的异步稀疏特性与现有方法存在根本矛盾。

A2S范式的出现：异步到同步(Asynchronous-to-Synchronous, A2S)框架通过设计高效异步编码器逐事件更新tensor-like特征，再按需采样给下游同步ML算法，成功桥接了异步数据和同步算法的鸿沟。

现有A2S方法的局限：(1) 编码器表达力不足——ALERT-Transformer使用EventNet（基于点云），没有层次学习，仅能处理简单识别任务；(2) 端到端有监督学习导致特征任务特异，缺乏跨任务泛化能力；(3) 在复杂检测任务上，A2S方法远不如密集同步方法。

事件与语言的类比洞察：两者共有两个关键相似性——(i) 都以序列形式组织，(ii) 都以增量方式贡献信息（事件记录增量亮度变化，词汇增量构建语义）。这启发了将NLP中的线性注意力和自监督学习技术迁移到事件处理。

事件与语言的关键差异：(i) 信息密度不同——单个语言token有丰富语义，单个事件仅记录像素级亮度变化，需要聚合才有意义；(ii) 空间局部性——事件具有空间属性（像素坐标），语言没有。这两个差异指导了架构设计的调整方向。

研究目标：设计更有表达力的异步编码器 + 自监督学习方法，使A2S框架不仅超越先前A2S方法，还能首次成功应对高难度检测任务。

方法详解¶

整体框架¶

EVA（Event-as-lAnguage）把事件流当成语言序列来处理：原始事件先被token化并嵌入为向量，再按空间patch切成多条短序列（PWE），每条序列送入基于RWKV-6的异步线性注意力编码器，逐事件更新一份二维矩阵隐藏状态（MVHS）作为特征输出；各patch特征拼接后交给下游识别或检测算法。整个编码器不依赖下游标签，而由多表示预测（MRP）+下一表示预测（NRP）两个自监督任务驱动训练。推理时编码器随每个事件到来增量更新内部状态，下游算法在任意时刻按需采样当前特征即可——这正是异步到同步（A2S）范式"异步编码、同步下游"的实现。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["异步事件流<br/>每个事件 (t,x,y,p)"] --> B["事件token化<br/>+时间差嵌入"]
    B --> C["Patch-wise编码(PWE)<br/>按坐标切成多条短序列"]
    C --> D["RWKV-6异步编码器<br/>逐事件更新MVHS二维状态"]
    D --> E["拼接各patch特征"]
    E --> F["下游识别/检测算法<br/>按需采样当前特征"]
    D -->|预训练监督| G["多任务自监督<br/>MRP + NRP"]
    G -->|回传梯度| D

关键设计¶

1. 事件token化与时间差嵌入：把异步事件翻译成可学习的向量

事件流要进编码器，首先得把每个事件 \(e_i = (t_i, x_i, y_i, p_i)\) 变成向量 \(\bm{x}_i \in \mathbb{R}^D\)。空间上用双射映射 \(\text{Tok}(x, y, p) = p \times H \times W + y \times W + x\) 把"坐标+极性"压成一个唯一token，词汇表大小为 \(2 \times H \times W\)，保证每个空间位置与极性的组合都对应一个独立可学习的embedding。时间维度则刻意不用绝对时间戳，而用相邻事件的时间差 \(\Delta t_i = t_i - t_{i-1}\) 做正弦编码，最终嵌入取空间嵌入与时间嵌入之和。之所以用时间差，是因为事件相机长期运行时绝对时间戳会无界增长，直接编码会重蹈语言模型长度外推失败的覆辙；而时间差始终落在有限分布内，模型才能稳定泛化到任意时长的事件流。

2. Patch-wise编码（PWE）：用事件的空间局部性换计算效率与分辨率无关性

事件相比语言多了空间属性，EVA把这一点利用起来：对分辨率 \((H_{\text{sensor}}, W_{\text{sensor}})\) 的相机，按patch大小 \(P\) 将事件按坐标切成 \(H_{\text{sensor}} \times W_{\text{sensor}} / P^2\) 条独立序列，每个patch各跑一份编码器，特征拼接后再交给下游。这样单条序列变短、计算开销下降，模型规模随patch数进一步缩小，且各patch可并行。更关键的副产品是分辨率无关性——编码器只在固定大小的patch上训练，换一台不同分辨率的事件相机时无需重训即可直接用。

3. 矩阵值隐藏状态（MVHS）作输出：用二维状态弥补单事件的低信息量

单个事件只记录一个像素的亮度变化，信息密度远低于一个语言token，因此不能像传统编码器那样直接吐一维向量 \(\bm{y} \in \mathbb{R}^{D}\)。EVA改用RWKV-6线性注意力的二维矩阵隐藏状态 \(\bm{S} \in \mathbb{R}^{N \times D_{\text{head}} \times D_{\text{head}}}\) 作为输出特征。RWKV-6的循环更新式 \(\bm{S}_i = \text{diag}(\bm{w}_i) \bm{S}_{i-1} + \bm{k}_i \bm{v}_i^T\) 让隐藏状态天然累积了到当前为止的全局信息，正好补上单事件信息不足的短板。配合多头机制（每头维度 \(D_{\text{head}} = D/N\)），隐藏状态规模做到 \(N \times D_{\text{head}} \times D_{\text{head}}\)，在不加大模型宽度 \(D\) 的前提下把特征容量扩展开来——相比用一维输出，模型规模可缩小约 \(D_{\text{model}}/N\) 倍，既轻量适合实时推理，二维结构又方便学习细粒度空间特征。

4. 多任务自监督学习（MRP+NRP）：不靠下游标签也能学到可迁移特征

为摆脱端到端有监督导致的特征任务特异问题，EVA用两个自监督目标训练编码器。多表示预测（MRP）强制编码特征 \(\mathcal{F}_i = \mathcal{M}_\theta(\{e_j\}_{j \leq i})\) 同时预测事件计数EC、时间面TS等多种手工表示，目标为 \(\arg\max_{\theta, \Theta} \mathbb{E}_i \prod_{k=1}^{K} \textbf{Pr}(\mathcal{R}_i^k | \mathcal{F}_i; \theta_k)\)；不同表示捕获事件信息的不同侧面，逼模型学出更全面、可泛化的特征。下一表示预测（NRP）则借鉴NLP的下一token预测，要求模型从当前特征预测未来时间窗 \(\Delta T\) 内的表示，目标为 \(\arg\max_{\theta, \Theta'} \mathbb{E}_i \prod_{k=1}^{K'} \textbf{Pr}(\mathcal{R}^k(\{e | t_i < t(e) \leq t_i + \Delta T\}) | \mathcal{F}_i; \theta_k')\)；这迫使模型理解运动规律而非死记历史。两个任务都以聚合表示而非单个事件作为预测目标，因为单事件信息不足、噪声不可预测，用聚合量做监督信号更可靠。

实验关键数据¶

DVS128-Gesture动作识别¶

模型	编码器参数量	分类器参数量	MAC/事件	延迟	SA	FVA
ALERT-Tr. (+RM)	1.41M	13.96M	1.22M	5.8ms	84.6%	94.1%
ALERT-Tr. (+LMM)	0.04M	0.57M	0.004M	3.9ms	72.6%	89.2%
EVA (+ResNet-14)	0.62M	2.83M	0.60M	14.7ms	92.9%	96.9%

Gen1目标检测¶

模型	类型	mAP (%)
NVS-S	端到端异步(A)	8.6
AEGNN	端到端异步(A)	14.5
DAGr-L	端到端异步(A)	32.1
FARSE-CNN	端到端异步(A)	30.0
ASTMNet	同步密集(S)	46.7
RVT-B	同步密集(S)	47.2
GET	同步密集(S)	47.9
EVA (+RVT-B, D=128)	A2S	47.5
EVA-L (+RVT-B, D=192)	A2S	47.7

关键消融实验¶

MVHS	时间嵌入	FVA	SA
✓	✓	98.1%	94.7%
✓	✗	87.8%	81.1%
✗	✓	97.4%	94.1%

关键发现¶

A2S范式首次攻克检测任务：EVA在Gen1上达到47.7 mAP，超越同步SOTA方法RVT-B(47.2)，这是A2S方法首次在检测任务上取得竞争力结果。此前A2S方法仅能处理简单识别任务
MVHS显著提升特征表达力：移除MVHS后SA从94.7%下降到94.1%（0.6%），而移除时间嵌入的负面影响更大（SA从94.7%下降到81.1%），表明时间建模对事件处理至关重要
MRP多表示互相促进学习：仅学习EC一种表示时EC损失反而更大(0.701 vs 0.366)，说明学习多种表示之间存在正向迁移效应
NRP贡献独立于MRP：移除NRP后FVA从98.1%降到96.8%，SA从94.7%降到94.4%，表明预测未来表示确实帮助模型学到超越简单记忆的知识
小patch带来更好效果：patch大小从16增加到128时，FVA从98.1%降到97.4%，SA从94.7%降到89.3%，尽管大patch有更小的预训练损失（因为稀疏区域多）

亮点与洞察¶

事件-语言类比的系统化分析：不是简单类比，而是系统分析了相似性（序列结构、增量信息）和差异性（信息密度、空间局部性），并据此做出针对性的架构调整——MVHS应对低信息密度，PWE应对空间局部性
RWKV-6在事件域的首次成功应用：线性注意力的并行训练+循环推理天然匹配A2S范式的训练+推理需求，且RWKV-6的数据依赖衰减和门控机制适合连续动态数据
从1-D到2-D特征的范式转变：用矩阵隐藏状态代替向量输出的思路新颖，在不增加模型宽度的前提下扩展表达力，且2-D结构与图像任务天然匹配
自监督特征的跨任务迁移：在Gen1上预训练的编码器特征可直接用于N-Cars分类任务(96.3%准确率)，验证了特征的泛化能力

局限性¶

实时性在高分辨率场景受限：Gen1的事件率(0.618M/s)已超过EVA-L的吞吐量(0.541M/s)，虽然PWE策略可缓解，但对更高分辨率的Gen3(1280×720)相机仍然存在挑战
自监督目标依赖手工表示：MRP和NRP的监督信号来自EC、TS等手工设计的表示，这些表示本身可能丢失某些事件信息，限制了学习上限
仅在事件域验证：尽管框架理论上通用，但实验仅在事件相机数据上验证，未探索其他异步序列数据（如神经尖峰）的适用性
编码器延迟较大：由于层次学习架构，EVA的单事件推理延迟(14.7ms处理8192事件)高于ALERT-Tr.，虽然总处理时间更短

评分¶

维度	评分	理由
新颖性	⭐⭐⭐⭐	事件-语言类比的系统化分析及MVHS输出的设计思路新颖，但核心组件(RWKV-6、SSL)本身非新
技术深度	⭐⭐⭐⭐	架构设计有理有据，消融实验充分，从类比到架构调整的逻辑链条完整
实验充分度	⭐⭐⭐⭐	覆盖识别+检测+消融+timing分析，但缺乏更多数据集和更多下游任务的验证
工程价值	⭐⭐⭐⭐⭐	A2S范式首次攻克检测任务，PWE支持任意分辨率，代码已开源，对事件相机实时应用有直接价值

Maximizing Asynchronicity in Event-based Neural Networks¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

实验关键数据¶

DVS128-Gesture动作识别¶

Gen1目标检测¶

关键消融实验¶

关键发现¶

亮点与洞察¶

局限性¶

相关工作与启发¶

vs ALERT-Transformer (Martin-Turrero et al., 2024)¶

vs RVT-B (Gehrig & Scaramuzza, 2023)¶

vs DAGr (Gehrig & Scaramuzza, 2024)¶

评分¶

Maximizing Asynchronicity in Event-based Neural Networks¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

实验关键数据¶

DVS128-Gesture动作识别¶

Gen1目标检测¶

关键消融实验¶

关键发现¶

亮点与洞察¶

局限性¶

相关工作与启发¶

vs ALERT-Transformer (Martin-Turrero et al., 2024)¶

vs RVT-B (Gehrig & Scaramuzza, 2023)¶

vs DAGr (Gehrig & Scaramuzza, 2024)¶

评分¶

相关论文¶