EDformer: Transformer-Based Event Denoising Across Varied Noise Levels¶

会议: ECCV 2024
arXiv: 无
代码: 无
领域: 图像复原
关键词: 事件相机、事件去噪、Transformer、背景活动噪声、真实世界数据集

一句话总结¶

EDformer 提出了一种基于 Transformer 的逐事件去噪模型，通过学习事件之间的时空相关性来处理不同噪声水平下的事件相机噪声，并首次构建了包含 21 个噪声等级的真实世界事件去噪数据集 ED24。

研究背景与动机¶

领域现状：事件相机（如 DAVIS346）是一种新型生物启发视觉传感器，以异步方式记录像素亮度变化事件，具有高时间分辨率、高动态范围和低功耗等优势。然而事件相机在实际工作中会产生大量的背景活动噪声（Background Activity Noise, BA noise），这些噪声严重影响了下游任务（如光流估计、深度估计、目标识别）的性能。

现有痛点：目前事件去噪研究面临两大难题。首先，现有方法对不同亮度条件下的噪声鲁棒性不足——BA 噪声的特性会随环境光照条件显著变化，低光条件下噪声更为严重，但现有算法通常在固定噪声条件下训练和测试。其次，真实世界的事件去噪数据集极其匮乏，大多数方法依赖合成噪声数据，导致在实际部署时性能大幅下降。

核心矛盾：事件相机的 BA 噪声具有强烈的时空相关性和光照依赖性，但现有去噪方法要么只考虑单一噪声水平，要么采用简单的时空滤波策略，无法捕捉不同噪声等级下事件之间的复杂时空关系。同时，缺少覆盖多种噪声条件的真实标注数据，使得算法难以学习到鲁棒的噪声特征。

本文目标 (1) 构建一个涵盖多种噪声等级的真实世界事件去噪数据集；(2) 设计一个能够在不同噪声水平下都有效工作的事件去噪模型；(3) 验证方法在实际应用场景（如低光微观成像）中的有效性。

切入角度：作者首先系统地采集和分析了 DAVIS346 在不同光照条件下的 BA 噪声特性，发现噪声率与光照强度呈正相关，且不同噪声水平的事件在时空分布上有不同的统计特征。基于此，作者认为需要一个能够建模长程时空依赖的模型来区分信号事件和噪声事件，Transformer 的全局注意力机制天然适合这个任务。

核心 idea：构建真实多噪声等级数据集 ED24，并设计 Transformer 架构 EDformer 来学习事件流中的时空相关性，实现对不同噪声水平的统一去噪。

方法详解¶

整体框架¶

EDformer 采用逐事件（event-by-event）的处理方式，对输入的事件流中每个事件进行信号/噪声二分类。输入是原始事件序列 \(\{(x_i, y_i, t_i, p_i)\}\)，其中 \((x, y)\) 为像素坐标，\(t\) 为时间戳，\(p\) 为极性。模型通过 Transformer 编码器学习事件之间的时空关系，最终为每个事件输出一个置信度分数，表示其为真实信号事件的概率。pipeline 包含事件表示构建、Transformer 时空编码、以及事件分类三个阶段。

关键设计¶

真实世界数据集 ED24:
- 功能：为事件去噪研究提供首个涵盖多噪声等级的真实世界标注数据集
- 核心思路：使用 DAVIS346 事件相机在 21 种不同光照强度条件下采集事件流数据。通过精心设计的实验协议，在静态场景和已知运动模式下分离信号事件和噪声事件，生成像素级噪声标注。数据集覆盖了从极低光照到强光照的完整噪声谱，包含不同场景类型
- 设计动机：现有数据集要么是合成的（噪声模型不够真实），要么只有单一噪声条件，无法评估算法在真实多变环境下的鲁棒性。ED24 填补了这一空白
Transformer 时空编码器:
- 功能：捕捉事件流中的长程时空依赖关系，区分信号事件与噪声事件
- 核心思路：将事件的时空信息（坐标、时间戳、极性）编码为高维特征向量，然后通过多层 Transformer 编码器学习事件间的全局注意力关系。真实信号事件通常在时空上呈现相关性模式（如在运动边缘上连续触发），而噪声事件则呈现更随机的分布。Transformer 的自注意力机制可以有效捕捉这种时空相关性差异。为了适应事件流的特殊数据格式，作者设计了专门的位置编码方案，将事件的 \((x, y, t)\) 位置信息融入注意力计算中
- 设计动机：传统的事件去噪方法（如基于近邻的滤波器或 CNN）只能捕捉局部时空关系，对于稀疏分布的事件流来说感受野受限。Transformer 的全局注意力能够在更大的时空范围内建模事件间的关联，特别适合处理事件的异步稀疏特性
噪声等级自适应机制:
- 功能：使模型能够在不同噪声水平下自适应调整去噪策略
- 核心思路：在模型中引入噪声等级感知的特征调制，使得同一模型能够处理从轻微噪声到严重噪声的多种场景。模型可以在推理时接受噪声等级估计作为条件输入，也可以自动从输入事件流中推断当前噪声水平。这种设计避免了为每个噪声等级训练单独模型的开销
- 设计动机：实际应用中环境光照条件不断变化，相机的噪声水平也随之变化。一个实用的去噪模型必须能够应对这种动态变化，而非只在单一噪声条件下工作

损失函数 / 训练策略¶

采用二分类交叉熵损失，对每个事件的信号/噪声标签进行监督学习。由于不同噪声等级下信号和噪声事件的比例差异很大（高噪声条件下噪声事件远多于信号事件），采用了类别平衡策略来处理标签不平衡问题。训练时从不同噪声等级的数据中均匀采样，确保模型学习到各个噪声水平的去噪能力。

实验关键数据¶

主实验¶

数据集	指标	EDformer	之前SOTA	提升
ED24 (低噪声)	AUC / F1	最优	次优方法	显著
ED24 (高噪声)	AUC / F1	最优	次优方法	大幅提升
开源数据集	去噪精度	SOTA	基线方法	一致提升
斑马鱼血管成像	成像质量	最优	传统方法	明显改善

在 ED24 数据集和已有开源数据集上的全面对比表明，EDformer 在多种噪声水平下均达到了最优去噪性能，尤其在高噪声和低光条件下优势更为明显。

消融实验¶

配置	关键指标变化	说明
CNN 替代 Transformer	性能下降	Transformer 的全局注意力优于局部卷积
无噪声等级条件	高噪声时性能下降	噪声自适应机制在极端噪声下尤为重要
仅用合成噪声训练	真实场景性能差	验证了真实数据集 ED24 的必要性
固定单一噪声等级训练	跨等级泛化差	多等级联合训练对鲁棒性至关重要

关键发现¶

事件相机的 BA 噪声在不同光照条件下呈现出截然不同的时空统计特性，现有单噪声水平的去噪方法无法有效泛化
Transformer 的全局注意力在事件去噪中相比 CNN 和传统滤波方法具有明显优势，特别是在高噪声率场景下
ED24 数据集的 21 个噪声等级覆盖了实际应用的绝大部分场景，为后续研究提供了标准化的评测基准
在低光场景（如斑马鱼血管成像）中，EDformer 的去噪显著提升了后续成像质量

亮点与洞察¶

ED24 数据集的贡献可能比模型本身更有价值——这是首个覆盖多噪声等级的真实世界事件去噪数据集，将推动整个事件视觉社区的去噪研究
逐事件处理的设计保持了事件相机的异步特性，不需要将事件聚合为帧，更符合事件驱动处理的理念
在斑马鱼血管成像这样的实际应用场景中验证方法，增强了工作的实用价值

局限与展望¶

逐事件的 Transformer 处理计算开销较大，高事件率场景下可能面临实时性挑战
ED24 数据集目前仅用一款相机（DAVIS346）采集，不同型号事件相机的噪声特性可能不同
可以考虑引入无监督/自监督方法来减少对大量噪声标注的依赖
与下游任务（如光流估计、SLAM）的联合优化可能带来进一步的性能提升
Transformer 的计算复杂度为 \(O(n^2)\)，对于高数据率的事件流可能需要引入线性注意力等高效变体

评分¶

新颖性: ⭐⭐⭐⭐ 首个真实多噪声等级数据集 + Transformer 事件去噪的结合
实验充分度: ⭐⭐⭐⭐ 多数据集对比、消融实验、实际应用验证
写作质量: ⭐⭐⭐ 问题动机阐述清晰，数据集构建有体系性
价值: ⭐⭐⭐⭐ ED24 数据集对社区的长期价值高，方法在实际场景中有用