Learning to Robustly Reconstruct Dynamic Scenes from Low-Light Spike Streams¶
会议: ECCV 2024
arXiv: 2401.10461
代码: GitHub
领域: 图像重建 / 神经形态视觉
关键词: 脉冲相机, 低光重建, 双向循环网络, 光鲁棒表示, 高速场景
一句话总结¶
本文针对脉冲相机在低光环境下信息稀疏导致重建困难的问题,提出了一种双向循环重建框架,其核心是光鲁棒表示(LR-Rep)通过全局脉冲间隔(GISI)聚合时域信息,配合特征融合模块提取时序特征,并构建了专门的低光高速数据集,在合成和真实数据上均大幅超越现有方法。
研究背景与动机¶
领域现状:脉冲相机(Spike Camera)是一种具有超高时间分辨率(40,000 Hz)的神经形态传感器,通过累积光子并发射连续二进制脉冲流来记录逐像素光强。相比传统相机和事件相机,脉冲相机可以直接记录光强信息,在高速场景重建、光流估计和深度估计等任务上展现了巨大潜力。近年来,深度学习方法(如 S2I、WGSE)极大地提升了脉冲相机的重建质量。
现有痛点:现有方法在正常光照下表现良好,但在低光环境中性能急剧下降。根本原因是脉冲相机的工作原理——低光下像素积累光子到达发射阈值的时间更长,导致脉冲流极度稀疏,有效信息量大幅减少。现有方法依赖的表示(如 TFI、LISI)在稀疏脉冲流下无法提取足够的时域信息。此外,缺乏专门的低光高速场景数据集来评估不同方法。
核心矛盾:低光环境下脉冲稀疏导致信息不足,但脉冲相机的核心价值恰恰在于高速场景的时域信息。如何在信息不足的条件下仍然充分挖掘时域信息成为关键矛盾。
本文目标 (1) 如何设计对低光鲁棒的脉冲流表示方法,从稀疏脉冲中提取更多信息?(2) 如何构建可靠的低光高速场景数据集?
切入角度:作者观察到,虽然单个时间窗口内的脉冲很稀疏,但前后相邻时间窗口的脉冲可以提供补充信息。关键是利用跨时间窗口的脉冲发射时间来构建全局间隔信息(而不是仅用局部间隔),并通过双向循环结构累积时序特征。
核心 idea:用正反向脉冲发射时间构建全局脉冲间隔(GISI)替代局部间隔(LISI),通过双向循环框架充分挖掘低光稀疏脉冲流的时域信息。
方法详解¶
整体框架¶
输入为连续 \(K\) 段脉冲流 \(\{S_{t_i}\}\),每段大小为 \(H \times W \times (2\Delta t + 1)\)(时间窗口 41 帧)。对于每个 \(t_i\) 时刻,先通过 LR-Rep 计算光鲁棒表示 \(\text{Rep}_{t_i}\),再用 ResNet 提取深层特征 \(F_{t_i}\)。然后,前向和反向融合模块分别将相邻时序特征与当前特征融合,产生前向时序特征 \(F_{t_i}^f\) 和反向时序特征 \(F_{t_i}^b\)。最后,将双向特征拼接后通过卷积层重建当前时刻的图像 \(\hat{Y}_{t_i}\)。
关键设计¶
-
全局脉冲间隔变换(GISI Transform):
- 功能:从稀疏脉冲流中提取比局部间隔更丰富的时域信息
- 核心思路:传统的局部脉冲间隔(LISI)只计算当前时间窗口内相邻脉冲之间的时间间隔。GISI 则利用前向/反向脉冲的"释放时间"传递机制,将信息范围扩展到整个时序。具体地,以反向为例分三步:(a) 计算当前窗口的 LISI;(b) 利用下一时间窗口传回的反向脉冲释放时间 \(Spike_{t_{i+1}}^b\) 更新 GISI——如果当前窗口某像素没有脉冲,则使用传回的释放时间来填充间隔信息;(c) 维护并传递当前窗口的反向释放时间 \(Spike_{t_i}^b\) 给前一窗口。GISI 的关键是在低光下多数像素没有脉冲的情况下,通过跨窗口传递释放时间来"借用"其他时间窗口的信息。
- 设计动机:低光下 LISI 大量像素的间隔值为零或饱和(因为窗口内没有脉冲)。GISI 通过全局传递机制,使得即使当前窗口无脉冲的像素也能获得有效的间隔估计。实验可视化表明 GISI 比 LISI 的信息分布更均匀。额外开销仅为两个 \(400 \times 250\) 的矩阵存储释放时间,不影响网络参数和效率。
-
光鲁棒表示(Light-Robust Representation, LR-Rep):
- 功能:将 GISI 和原始脉冲流融合为对光照变化鲁棒的特征表示
- 核心思路:分别用卷积块从 GISI 和输入脉冲流提取浅层特征 \(F_G\) 和 \(F_S\),然后通过注意力模块自适应融合。注意力模块(3层卷积+激活函数)预测两个通道权重 \(\beta\) 和 \(\alpha\),最终表示为 \(\text{Rep}_{t_i} = \beta_{t_i} F_G + \alpha_{t_i} F_S\)。注意力机制让网络根据当前光照条件自动决定更依赖 GISI 特征还是原始脉冲特征。
- 设计动机:GISI 捕捉全局时序信息但可能丢失瞬时细节,原始脉冲流保留瞬时信息但在低光下太稀疏。自适应融合让模型在不同光照下动态调整信息来源:低光下更依赖 GISI 提供的全局信息,正常光下更利用原始脉冲的瞬时细节。
-
带对齐的双向融合模块(Bidirectional Fusion with Alignment):
- 功能:在循环结构中融合相邻时序特征,同时处理运动对齐
- 核心思路:前向融合将 \(F_{t_{i-1}}^f\) 和 \(F_{t_i}\) 融合为 \(F_{t_i}^f\),反向融合将 \(F_{t_{i+1}}^b\) 和 \(F_{t_i}\) 融合为 \(F_{t_i}^b\)。融合前使用金字塔级联可变形卷积(PCD)模块对齐不同时间戳特征,避免运动导致的错位。对齐后的特征和原始特征拼接后通过特征提取模块。最终重建使用 3 层卷积:\(\hat{Y}_{t_i} = c([F_{t_i}^b, F_{t_i}^f])\)。
- 设计动机:双向循环允许每个时刻同时利用过去和未来的信息,在低光信息不足时极为关键。PCD 对齐模块解决了高速运动场景中不同时间特征的空间错位问题,直接拼接不对齐特征会产生运动模糊。
损失函数 / 训练策略¶
使用 L1 损失:\(\mathcal{L} = \sum_{i=1}^{K} \|\hat{Y}_{t_i} - Y_{t_i}\|_1\)。训练集为自建的 RLLR(100 个随机低光高速场景),空间裁剪为 \(64 \times 64\),时间窗口 41,维护 21 个连续脉冲流。Adam 优化器 (\(\beta_1=0.9, \beta_2=0.99\)),初始学习率 1e-4,70 epoch 后衰减 10 倍,共训练 100 epoch,单张 A100 GPU。
实验关键数据¶
主实验¶
| 方法 | 来源 | PSNR(↑) | SSIM(↑) | 提升(PSNR) |
|---|---|---|---|---|
| TFI | ICME'19 | 31.41 | 0.723 | baseline |
| STP | CVPR'21 | 24.88 | 0.555 | -6.53 |
| S2I | CVPR'21 | 40.88 | 0.959 | +9.47 |
| SSML | IJCAI'22 | 38.43 | 0.899 | +7.02 |
| RSIR | MM'23 | 34.12 | 0.883 | +2.71 |
| WGSE | AAAI'23 | 42.96 | 0.971 | +11.55 |
| Ours | 本文 | 45.08 | 0.987 | +13.67 |
消融实验¶
| 配置 | PSNR | SSIM | 说明 |
|---|---|---|---|
| (A) Basic baseline | 42.74 | 0.974 | 无LR-Rep、无时序融合 |
| (B) + ADF (时序融合) | 44.15 | 0.985 | 双向时序特征 +1.41 |
| (C) + LR-Rep | 44.74 | 0.986 | 光鲁棒表示 +2.00 |
| (D) + ADF + LR-Rep | 44.96 | 0.987 | 组合 +2.22 |
| (E) + ADF + LR-Rep + AIF | 45.08 | 0.987 | 加对齐 +2.34 |
| (F) LISI 替代 GISI | 45.00 | 0.987 | GISI 略优于 LISI |
关键发现¶
- LR-Rep 贡献最大(+2.00 PSNR),证明光鲁棒表示对低光重建至关重要
- 双向时序融合次之(+1.41 PSNR),验证了跨时间窗口信息累积的必要性
- GISI 相比 LISI 有稳定的小幅提升,且额外计算开销几乎为零
- 在真实低光脉冲数据上也表现优异——其他方法引入大量运动模糊或暗背景伪影,而本文方法能恢复清晰纹理
- 当使用的表示替换为其他方法的表示(TFI、AST、AMIM 等)时,性能均低于 LR-Rep,说明 LR-Rep 对本框架最适配
- 用户主观评分(User Study)在两个数据集上均排名第一
亮点与洞察¶
- GISI 的设计精巧 ——通过跨窗口传递脉冲释放时间来计算全局间隔,本质上是一种信息借用机制。在低光下当前窗口没有脉冲时,利用其他窗口的脉冲来补充信息。这种"跨时间借信息"的思路可以推广到任何处理稀疏时序信号的场景。
- 数据集设计的严谨性 值得学习——LLR 数据集的光源类型和功率与真实世界一致,运动来自真实场景。这种"逼真合成"确保了合成数据上的性能可以迁移到真实数据。
- LR-Rep 的自适应注意力融合让网络在不同光照下自动调整策略,无需手动切换模式。
局限与展望¶
- 数据集规模较小(RLLR 仅 100 个场景),可能限制了网络的泛化能力
- 仅使用 L1 损失,未探索感知损失或 GAN 损失来提升视觉质量
- 双向循环结构需要等待全部输入才能开始处理,不适合严格的实时应用
- 未与最新的基于 Transformer 的视频恢复方法对比
- GISI 对 LISI 的提升幅度不大(仅 0.08 PSNR),可能存在更好的全局信息提取方式
相关工作与启发¶
- vs WGSE (AAAI'23): WGSE 通过小波变换抑制噪声但低光下仍受限于稀疏输入,本文通过 GISI 从全局获取更多信息,PSNR 高出 2.12 dB
- vs RSIR (MM'23): RSIR 的 AST 表示将脉冲流压缩为脉冲计数图,丢失了动态信息导致高速场景运动模糊严重。LR-Rep 保留了时序动态信息
- vs EDVR (视频恢复): 本文借鉴了 EDVR 的 PCD 对齐模块,证明视频恢复的技术可以迁移到脉冲相机重建
评分¶
- 新颖性: ⭐⭐⭐⭐ GISI 全局间隔概念和 LR-Rep 自适应融合设计新颖,但整体流程较为直接
- 实验充分度: ⭐⭐⭐⭐⭐ 合成数据+真实数据+用户研究,消融实验非常详细,包括表示对比和数据量影响
- 写作质量: ⭐⭐⭐⭐ 方法阐述清晰,图示丰富且有解释力
- 价值: ⭐⭐⭐⭐ 为脉冲相机在低光场景的实用化提供了重要技术支撑