Learning to Robustly Reconstruct Dynamic Scenes from Low-Light Spike Streams¶

会议: ECCV 2024
arXiv: 2401.10461
代码: GitHub
领域: 图像重建 / 神经形态视觉
关键词: 脉冲相机, 低光重建, 双向循环网络, 光鲁棒表示, 高速场景

一句话总结¶

本文针对脉冲相机在低光环境下信息稀疏导致重建困难的问题，提出了一种双向循环重建框架，其核心是光鲁棒表示（LR-Rep）通过全局脉冲间隔（GISI）聚合时域信息，配合特征融合模块提取时序特征，并构建了专门的低光高速数据集，在合成和真实数据上均大幅超越现有方法。

研究背景与动机¶

领域现状：脉冲相机（Spike Camera）是一种具有超高时间分辨率（40,000 Hz）的神经形态传感器，通过累积光子并发射连续二进制脉冲流来记录逐像素光强。相比传统相机和事件相机，脉冲相机可以直接记录光强信息，在高速场景重建、光流估计和深度估计等任务上展现了巨大潜力。近年来，深度学习方法（如 S2I、WGSE）极大地提升了脉冲相机的重建质量。

现有痛点：现有方法在正常光照下表现良好，但在低光环境中性能急剧下降。根本原因是脉冲相机的工作原理——低光下像素积累光子到达发射阈值的时间更长，导致脉冲流极度稀疏，有效信息量大幅减少。现有方法依赖的表示（如 TFI、LISI）在稀疏脉冲流下无法提取足够的时域信息。此外，缺乏专门的低光高速场景数据集来评估不同方法。

核心矛盾：低光环境下脉冲稀疏导致信息不足，但脉冲相机的核心价值恰恰在于高速场景的时域信息。如何在信息不足的条件下仍然充分挖掘时域信息成为关键矛盾。

本文目标 (1) 如何设计对低光鲁棒的脉冲流表示方法，从稀疏脉冲中提取更多信息？(2) 如何构建可靠的低光高速场景数据集？

切入角度：作者观察到，虽然单个时间窗口内的脉冲很稀疏，但前后相邻时间窗口的脉冲可以提供补充信息。关键是利用跨时间窗口的脉冲发射时间来构建全局间隔信息（而不是仅用局部间隔），并通过双向循环结构累积时序特征。

核心 idea：用正反向脉冲发射时间构建全局脉冲间隔（GISI）替代局部间隔（LISI），通过双向循环框架充分挖掘低光稀疏脉冲流的时域信息。

方法详解¶

整体框架¶

输入为连续 \(K\) 段脉冲流 \(\{S_{t_i}\}\)，每段大小为 \(H \times W \times (2\Delta t + 1)\)（时间窗口 41 帧）。对于每个 \(t_i\) 时刻，先通过 LR-Rep 计算光鲁棒表示 \(\text{Rep}_{t_i}\)，再用 ResNet 提取深层特征 \(F_{t_i}\)。然后，前向和反向融合模块分别将相邻时序特征与当前特征融合，产生前向时序特征 \(F_{t_i}^f\) 和反向时序特征 \(F_{t_i}^b\)。最后，将双向特征拼接后通过卷积层重建当前时刻的图像 \(\hat{Y}_{t_i}\)。

关键设计¶

全局脉冲间隔变换（GISI Transform）:
- 功能：从稀疏脉冲流中提取比局部间隔更丰富的时域信息
- 核心思路：传统的局部脉冲间隔（LISI）只计算当前时间窗口内相邻脉冲之间的时间间隔。GISI 则利用前向/反向脉冲的"释放时间"传递机制，将信息范围扩展到整个时序。具体地，以反向为例分三步：(a) 计算当前窗口的 LISI；(b) 利用下一时间窗口传回的反向脉冲释放时间 \(Spike_{t_{i+1}}^b\) 更新 GISI——如果当前窗口某像素没有脉冲，则使用传回的释放时间来填充间隔信息；(c) 维护并传递当前窗口的反向释放时间 \(Spike_{t_i}^b\) 给前一窗口。GISI 的关键是在低光下多数像素没有脉冲的情况下，通过跨窗口传递释放时间来"借用"其他时间窗口的信息。
- 设计动机：低光下 LISI 大量像素的间隔值为零或饱和（因为窗口内没有脉冲）。GISI 通过全局传递机制，使得即使当前窗口无脉冲的像素也能获得有效的间隔估计。实验可视化表明 GISI 比 LISI 的信息分布更均匀。额外开销仅为两个 \(400 \times 250\) 的矩阵存储释放时间，不影响网络参数和效率。
光鲁棒表示（Light-Robust Representation, LR-Rep）:
- 功能：将 GISI 和原始脉冲流融合为对光照变化鲁棒的特征表示
- 核心思路：分别用卷积块从 GISI 和输入脉冲流提取浅层特征 \(F_G\) 和 \(F_S\)，然后通过注意力模块自适应融合。注意力模块（3层卷积+激活函数）预测两个通道权重 \(\beta\) 和 \(\alpha\)，最终表示为 \(\text{Rep}_{t_i} = \beta_{t_i} F_G + \alpha_{t_i} F_S\)。注意力机制让网络根据当前光照条件自动决定更依赖 GISI 特征还是原始脉冲特征。
- 设计动机：GISI 捕捉全局时序信息但可能丢失瞬时细节，原始脉冲流保留瞬时信息但在低光下太稀疏。自适应融合让模型在不同光照下动态调整信息来源：低光下更依赖 GISI 提供的全局信息，正常光下更利用原始脉冲的瞬时细节。
带对齐的双向融合模块（Bidirectional Fusion with Alignment）:
- 功能：在循环结构中融合相邻时序特征，同时处理运动对齐
- 核心思路：前向融合将 \(F_{t_{i-1}}^f\) 和 \(F_{t_i}\) 融合为 \(F_{t_i}^f\)，反向融合将 \(F_{t_{i+1}}^b\) 和 \(F_{t_i}\) 融合为 \(F_{t_i}^b\)。融合前使用金字塔级联可变形卷积（PCD）模块对齐不同时间戳特征，避免运动导致的错位。对齐后的特征和原始特征拼接后通过特征提取模块。最终重建使用 3 层卷积：\(\hat{Y}_{t_i} = c([F_{t_i}^b, F_{t_i}^f])\)。
- 设计动机：双向循环允许每个时刻同时利用过去和未来的信息，在低光信息不足时极为关键。PCD 对齐模块解决了高速运动场景中不同时间特征的空间错位问题，直接拼接不对齐特征会产生运动模糊。

损失函数 / 训练策略¶

使用 L1 损失：\(\mathcal{L} = \sum_{i=1}^{K} \|\hat{Y}_{t_i} - Y_{t_i}\|_1\)。训练集为自建的 RLLR（100 个随机低光高速场景），空间裁剪为 \(64 \times 64\)，时间窗口 41，维护 21 个连续脉冲流。Adam 优化器 (\(\beta_1=0.9, \beta_2=0.99\))，初始学习率 1e-4，70 epoch 后衰减 10 倍，共训练 100 epoch，单张 A100 GPU。

实验关键数据¶

主实验¶

方法	来源	PSNR(↑)	SSIM(↑)	提升(PSNR)
TFI	ICME'19	31.41	0.723	baseline
STP	CVPR'21	24.88	0.555	-6.53
S2I	CVPR'21	40.88	0.959	+9.47
SSML	IJCAI'22	38.43	0.899	+7.02
RSIR	MM'23	34.12	0.883	+2.71
WGSE	AAAI'23	42.96	0.971	+11.55
Ours	本文	45.08	0.987	+13.67

消融实验¶

配置	PSNR	SSIM	说明
(A) Basic baseline	42.74	0.974	无LR-Rep、无时序融合
(B) + ADF (时序融合)	44.15	0.985	双向时序特征 +1.41
(C) + LR-Rep	44.74	0.986	光鲁棒表示 +2.00
(D) + ADF + LR-Rep	44.96	0.987	组合 +2.22
(E) + ADF + LR-Rep + AIF	45.08	0.987	加对齐 +2.34
(F) LISI 替代 GISI	45.00	0.987	GISI 略优于 LISI

关键发现¶

LR-Rep 贡献最大（+2.00 PSNR），证明光鲁棒表示对低光重建至关重要
双向时序融合次之（+1.41 PSNR），验证了跨时间窗口信息累积的必要性
GISI 相比 LISI 有稳定的小幅提升，且额外计算开销几乎为零
在真实低光脉冲数据上也表现优异——其他方法引入大量运动模糊或暗背景伪影，而本文方法能恢复清晰纹理
当使用的表示替换为其他方法的表示（TFI、AST、AMIM 等）时，性能均低于 LR-Rep，说明 LR-Rep 对本框架最适配
用户主观评分（User Study）在两个数据集上均排名第一

亮点与洞察¶

GISI 的设计精巧 ——通过跨窗口传递脉冲释放时间来计算全局间隔，本质上是一种信息借用机制。在低光下当前窗口没有脉冲时，利用其他窗口的脉冲来补充信息。这种"跨时间借信息"的思路可以推广到任何处理稀疏时序信号的场景。
数据集设计的严谨性 值得学习——LLR 数据集的光源类型和功率与真实世界一致，运动来自真实场景。这种"逼真合成"确保了合成数据上的性能可以迁移到真实数据。
LR-Rep 的自适应注意力融合让网络在不同光照下自动调整策略，无需手动切换模式。

局限与展望¶

数据集规模较小（RLLR 仅 100 个场景），可能限制了网络的泛化能力
仅使用 L1 损失，未探索感知损失或 GAN 损失来提升视觉质量
双向循环结构需要等待全部输入才能开始处理，不适合严格的实时应用
未与最新的基于 Transformer 的视频恢复方法对比
GISI 对 LISI 的提升幅度不大（仅 0.08 PSNR），可能存在更好的全局信息提取方式

评分¶

新颖性: ⭐⭐⭐⭐ GISI 全局间隔概念和 LR-Rep 自适应融合设计新颖，但整体流程较为直接
实验充分度: ⭐⭐⭐⭐⭐ 合成数据+真实数据+用户研究，消融实验非常详细，包括表示对比和数据量影响
写作质量: ⭐⭐⭐⭐ 方法阐述清晰，图示丰富且有解释力
价值: ⭐⭐⭐⭐ 为脉冲相机在低光场景的实用化提供了重要技术支撑