AE2VID: Event-based Video Reconstruction via Aperture Modulation¶
会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/a1henu/AE2VID/ (有,待开源)
领域: 图像/视频恢复 · 事件相机
关键词: 事件相机, 视频重建, 光圈调制, 双向循环网络, 高动态范围
一句话总结¶
针对事件相机视频重建只靠稀疏运动事件、静态区域和误差累积难以恢复的痛点,本文主动周期性开合光圈,让事件相机在静态区域也"被动触发"出密集事件,由此解析出密集强度参考图,再用双子网络(AENet 处理光圈事件、MENet 双向融合运动事件)重建出高速高动态范围视频,在 EvAid 上 MSE 较 SOTA 降低 27.4%。
研究背景与动机¶
领域现状:事件相机以微秒级延迟、超高动态范围记录像素的对数光强变化(event-to-video,简称 E2VID)。主流做法是把事件流喂给循环网络(E2VID、FireNet、V2V-E2VID、BDE2VID),从运动事件里逐帧滚动重建视频。
现有痛点:运动事件只在物体边缘/有运动的地方被触发,空间上极其稀疏,对静态背景几乎没有任何信号。这带来两个老大难:一是静态区域(背景墙面、铁丝网)无事件可依、重建糊成一团;二是循环网络从某个参考时刻一路滚动预测,误差会随时间累积,离参考帧越远越离谱。
核心矛盾:从纯运动事件重建视频本质是病态问题——事件只能告诉你光强的相对变化 \(\mathbf{S}(t_0,t)\),却给不出任何绝对参考亮度 \(\mathbb{I}(\mathbf{r},t_0)\);没有参考,静态像素的真实亮度就是个谜。
本文目标:在不增加额外相机、不依赖室内主动打光的前提下,给系统注入"密集的绝对强度参考",同时定期重置参考以遏制误差累积。
切入角度:作者注意到光圈是几乎所有成像系统都自带、又最容易控制的部件。主动调制光圈口径就能改变每个像素接收到的辐照度,从而在静态区域也"逼出"事件——而且开光圈那一刻,第一个正事件(FPE)的触发时刻与像素本征亮度成反比,可以直接解算出密集强度图。
核心 idea:把"光圈调制触发的密集事件"作为运动事件的互补信号源,用专门的子网络解算密集强度参考,再融合进运动事件的循环重建里。
方法详解¶
整体框架¶
AE2VID 的核心是两类事件、两个子网络、周期性复位。系统周期性地把光圈从全闭打开再关上,间隔为 \(\tau\)。在每个观测窗口 \([t_i, t_{i+1}]\) 内,事件按时段被切成三段:开光圈阶段 \([t_i, t_i+\delta t]\) 产生光圈调制事件 \(\mathbb{E}^A_i\),中间稳定段 \([t_i+\delta t, t_{i+1}-\delta t]\) 产生运动事件 \(\mathbb{E}^M_i\),关光圈阶段产生 \(\mathbb{E}^C_i\)。作者实测关光圈事件又脏又没信息(初始电压未知、推导失效),直接丢弃,只用前两类。
光圈事件喂给 AENet,解算出密集强度参考 \(\hat{\mathbb{I}}^A_i\) 和隐状态 \(\mathrm{s}^A_i\);运动事件连同相邻两个窗口的参考 \(\hat{\mathbb{I}}^A_i, \hat{\mathbb{I}}^A_{i+1}\) 和隐状态一起喂给 MENet,双向重建出该窗口内 \(K\) 帧序列 \(\{\hat{\mathbb{I}}^M_{i,k}\}\)。每隔 \(\tau\) 重新开一次光圈,相当于定期给循环网络"重置观测窗口、塞一张可靠参考帧",从根上压住误差累积。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["事件流<br/>一个观测窗口 [ti,ti+1]"] -->|"开光圈段 E^A"| B["周期光圈调制<br/>触发密集事件"]
A -->|"运动段 E^M"| D["MENet<br/>双向时序融合重建"]
A -->|"关光圈段 E^C 丢弃"| X["(噪声,舍去)"]
B --> C["AENet<br/>孔径事件密集强度重建"]
C -->|"密集参考 Î^A + 隐状态 s^A"| D
D --> E["高速 HDR 视频帧序列"]
关键设计¶
1. 周期光圈调制:用主动开合光圈"种"出密集强度参考
这一设计直接打中"运动事件稀疏、静态区域无信号"的痛点。事件触发条件是对数辐照度变化超过阈值 \(C\):\(\left|\log\frac{\mathbb{I}(\mathbf{r},t)+I_{\mathrm{dark}}}{\mathbb{I}(\mathbf{r},t-\Delta t)+I_{\mathrm{dark}}}\right|\ge C\)。当光圈从全闭(透过率 \(\mathrm{TR}(0)=0\))开始打开,像素辐照度 \(\mathbb{I}(\mathbf{r},t)=\mathbb{I}_{\max}(\mathbf{r})\cdot\mathrm{TR}(t)\) 从暗电流附近一路抬升,于是几乎每个像素都会被触发一次正事件——哪怕它在静态背景里。关键在于第一个正事件(FPE)的触发时刻 \(t^\star(\mathbf{r})\) 携带了像素本征亮度信息:
也就是说,FPE 触发得越早(透过率越低就被触发)的像素越亮。由此可从一次开光圈过程解算出整幅密集强度图,正好充当式 \(\mathbb{I}(\mathbf{r},t)=\mathbb{I}(\mathbf{r},t_0)\cdot\exp(\mathbf{S}(t_0,t))\) 里缺失的绝对参考 \(\mathbb{I}(\mathbf{r},t_0)\)。相比额外加一台帧相机(会有时空对齐误差、成本高)或室内主动打光(户外不可用),调光圈是"自带硬件、户外可用、成本极低"的密集观测手段。而周期性(每隔 \(\tau\) 开一次)则是为了对抗误差累积:单次开光圈只能给一个参考点,时间跨度越大预测越飘,定期重开等于反复"刷新"可靠锚点。⚠️ 关光圈触发的事件因初始电压未知、推导不成立,被明确排除在"光圈调制事件"之外。
2. AENet:把含噪的 FPE 时序图净化成密集强度参考与隐状态
光圈事件虽密集,但 FPE 时序矩阵噪声很大,直接当参考帧会污染下游。AENet 用三个模块依次处理:FIR(FPE-based Intensity Reconstruction) 先按上式从每个像素的 FPE 时刻搭出时序矩阵、解算初始强度图 \(\hat{\mathbb{I}}^{FIR}_i\);IDN(Image Denoising) 用 SwinIR(载入文献[1]的预训练权重)把含噪初始图去噪成干净的 \(\hat{\mathbb{I}}^A_i\)(该权重自带超分效果,作者再下采样回原分辨率);HSG(Hidden State Generation) 则为 MENet 提供可靠初始化——它把去噪帧 \(\hat{\mathbb{I}}^A_i\in\mathbb{R}^{H\times W}\) 沿通道复制 \(b\) 次拼成与事件 voxel 同形的帧体 \(V^A_i\in\mathbb{R}^{b\times H\times W}\),再产出隐状态 \(\mathrm{s}^A_i\)。为了让 HSG 输出的隐状态和 MENet 的特征空间对齐,HSG 刻意复用 MENet 循环块前向 LSTM 的结构,并额外预测一张伪帧 \(\hat{\mathbb{I}}^{A'}_i\) 用 \(\ell_1\) 损失约束:\(\{\hat{\mathbb{I}}^{A'}_i\},\mathrm{s}^A_i=\mathrm{HSG}(V^A_i)\)。这样 MENet 一开始就拿到的是"对齐过的密集背景先验",而非从零滚动。
3. MENet:双向循环 + 逐像素 mixer,把稀疏运动事件和密集参考融成一致视频
MENet 解决的是"如何把稀疏运动事件与 AENet 给的密集参考真正融起来、并保持长程时序一致"。骨干基于 E2VID 的卷积 LSTM,但作者发现单向循环在长程依赖下静态背景保真度明显下降,于是改成双向:在窗口内同时跑前向(从初始隐状态 \(\mathrm{s}^A_i\) 出发)和反向(从末端隐状态 \(\mathrm{s}^A_{i+1}\) 出发,事件 voxel 用 \(\mathrm{rev}(\cdot)\) 翻转)两条循环,得到前向候选 \(\hat{\mathbb{I}}^{M,\mathrm{fwd}}_{i,k}\) 和反向候选 \(\hat{\mathbb{I}}^{M,\mathrm{bwd}}_{i,k}\)。最后用一个轻量逐像素 mixer \(\mathcal{M}\) 把"前向候选、反向候选、左参考 \(\hat{\mathbb{I}}^A_i\)、右参考 \(\hat{\mathbb{I}}^A_{i+1}\)"四路融合——它对每像素预测一组 softmax 权重 \(\alpha_{i,k}\in[0,1]^{4\times H\times W}\):
逐像素加权的好处是自适应:运动剧烈、事件丰富的前景像素更信运动事件分支,静态背景像素更信密集参考分支,前后向也按各自可靠度分配。这正好把第 1、2 个设计的产物(密集参考)和运动事件的优势在像素粒度上各取所长。
损失函数 / 训练策略¶
总损失对单个窗口写(各窗口共享同一流程):\(\mathcal{L}=\lVert\hat{\mathbb{I}}^{A'}-\hat{\mathbb{I}}^A\rVert_1+\sum_{k}\mathcal{L}^k_{\mathrm{rec}}+\lambda_{\mathrm{TC}}\sum_{k=L_0}^{K}\mathcal{L}^k_{\mathrm{TC}}\)。其中重建项 \(\mathcal{L}^k_{\mathrm{rec}}=\lVert\hat{\mathbb{I}}^M_k-\mathbb{I}^M_k\rVert_1+\mathrm{LPIPS}(\hat{\mathbb{I}}^M_k,\mathbb{I}^M_k)\) 兼顾保真与感知;时序一致项 \(\mathcal{L}_{\mathrm{TC}}\) 为避免"脏窗口"伪影只施加在后半段帧(\(L_0=10\) 起)。设 \(K=20\)、\(\lambda_{\mathrm{TC}}=1\)。训练分两阶段:先冻结 MENet 单独微调 HSG 10 epoch(让隐状态对齐),再整体微调 10 epoch,均用余弦退火(\(10^{-5}\to10^{-7}\))。HSG 与 MENet 循环块都用 V2V-E2VID 预训练权重初始化。数据用 ESIM 仿真的 1000 条 + 自建 Blender(前景物体随机运动、表面贴 MS-COCO 纹理)500 条,共 40 多分钟。
实验关键数据¶
主实验¶
在半真实数据 EvAid 与 HQF 上与 7 个 SOTA 对比(所有对比方法用官方代码与权重,仅吃运动事件)。AE2VID 在绝大多数指标领先,EvAid 上 MSE 较 SOTA 降低 27.4%:
| 数据集 | 指标 | 本文 | 之前最好 | 提升 |
|---|---|---|---|---|
| EvAid | MSE↓ | 0.037 | 0.051 (ETNet) | −27.4% |
| EvAid | SSIM↑ | 0.707 | 0.642 (V2V-E2VID) | +0.065 |
| EvAid | MS-SSIM↑ | 0.544 | 0.524 (V2V-E2VID) | +0.020 |
| EvAid | LPIPS↓ | 0.411 | 0.409 (V2V-E2VID) | 持平(次优) |
| HQF | MSE↓ | 0.039 | 0.041 (BDE2VID) | 小幅领先 |
| HQF | SSIM↑ | 0.585 | 0.523 (BDE2VID) | +0.062 |
| HQF | MS-SSIM↑ | 0.503 | 0.477 (BDE2VID) | +0.026 |
| HQF | LPIPS↓ | 0.352 | 0.272 (BDE2VID) | 次于 BDE2VID |
HQF 提升较小,因为它主要是全局运动场景、密集参考增益有限;EvAid 含大量局部运动,正是密集参考大显身手之处。
消融实验¶
(论文正文将完整消融放在补充材料,此处按正文与方法描述列出关键消融维度)
| 配置 | 关注点 | 说明 |
|---|---|---|
| Full model | — | AENet + MENet + 双向 + 两阶段训练 |
| 单向 vs 双向 pipeline | 长程时序一致性 | 去掉反向循环,静态背景在长程依赖下保真度明显下降 |
| 两阶段 vs 单阶段训练 | 隐状态对齐 | 不先单独对齐 HSG,密集参考与 MENet 特征空间不匹配 |
| AENet 结构(FIR/IDN/HSG) | 密集参考质量 | 去 IDN 去噪则 FPE 噪声直接污染参考帧 |
关键发现¶
- 光圈控制参数有明显甜区:最终口径 \(A_E\) 太大或开光圈速度 \(v_A\) 太慢会拉长开光圈过程、损伤运动线索;\(A_E\) 太小则部分像素触发不了 FPE,\(v_A\) 太快又会超出传感器事件率上限。作者实测取 \(A_E=\) 最大口径的 1/4、\(\delta t\approx0.13\) s、\(\tau-2\delta t=5\) s。
- 增益高度依赖场景运动类型:局部运动主导的场景(EvAid)密集参考价值最大;全局运动场景(HQF)增益相对小。
- 关光圈事件确实无用:实测 \(\mathbb{E}^C\) 既无密集强度也无运动线索,丢弃后用插值补帧反而更干净。
亮点与洞察¶
- 把"硬件被动器件"变成"主动信息编码器":光圈本是用来控曝光的,作者反手用它周期性开合,在静态区域"种"出密集事件——这是用最廉价的现成部件解决了"额外密集观测"这一硬约束,比加帧相机/主动打光都更实用。
- FPE 时刻 ↔ 像素亮度的反比关系很巧:开光圈这一物理过程天然把"亮度"编码进"第一个事件的时间戳",等于免费拿到一张绝对强度图,正好补上 E2VID 缺失的参考锚点。
- 逐像素四路 softmax mixer 是个可迁移的融合 trick:当你有多个互补来源(前向/反向/多个参考)且各自在不同区域可靠时,让网络逐像素学权重,比固定加权或单分支稳健得多。
- 周期性复位对抗误差累积的思路,可推广到任何长程循环重建任务——定期注入一个可靠锚点比一味增大模型容量更治本。
局限与展望¶
- 硬件参数只能整段固定:当前原型每次采集只能设一组固定 \(A_E, v_A, \tau\),无法随光照/运动速度动态调整,限制了灵活性;作者认为动态调参有望进一步提升。
- 极端场景仍会退化:高速运动、极低照度下重建质量会下降。
- ⚠️ 半真实评测有仿真成分:EvAid/HQF 只有运动事件,光圈开光圈帧 \(\hat{\mathbb{I}}^{FIR}\) 是按文献[1]的退化模型合成的(只替换 FIR 模块),真实采集的 AMED 又没有 GT、只能做定性对比——定量提升的可信度需结合这一点看待。
- 依赖外部预训练件:IDN 用 SwinIR 文献[1] 权重、HSG/MENet 用 V2V-E2VID 权重初始化,独立从零训练的效果未充分展示。
相关工作与启发¶
- vs 纯运动事件方法(E2VID/FireNet/BDE2VID/V2V-E2VID):它们只吃稀疏运动事件,静态区域无信号、误差随时间累积;本文额外引入光圈调制的密集事件作绝对参考,专治静态背景和误差累积,代价是需要可调光圈硬件与专门采集。
- vs 加额外帧相机的方案:帧相机能给密集强度但有时空对齐误差且成本高;光圈调制在同一传感器上拿密集观测,无对齐问题。
- vs 主动打光调制(Chen/Han 等):主动打光只在室内可控环境可行;调光圈在户外同样适用。
- vs 光圈/透过率静态成像(Bao 等 temporal mapping):他们也用 FPE 时间戳重建密集强度,但只针对静态场景、不融合运动事件;本文把这套密集强度解算嵌入视频重建管线,与运动事件双向融合,扩展到动态视频。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首个把主动光圈调制引入事件视频重建,用现成器件解决"密集观测"硬约束,角度新颖。
- 实验充分度: ⭐⭐⭐⭐ 半真实双数据集定量 + 真实 AMED 定性 + 参数甜区分析较完整,但核心消融在补充材料、真实数据缺 GT。
- 写作质量: ⭐⭐⭐⭐⭐ 物理推导(FPE↔亮度)到网络设计逻辑清晰,两子网络分工讲得明白。
- 价值: ⭐⭐⭐⭐ 提供新的传感范式 + 真实 AMED 数据集,对事件相机低层视觉社区有实用价值,受限于硬件灵活性。