Spiking Meets Attention: Efficient Remote Sensing Image Super-Resolution with Attention Spiking Neural Networks¶
会议: NEURIPS2025
arXiv: 2503.04223
代码: https://github.com/XY-boy/SpikeSR
领域: 图像复原
关键词: 脉冲神经网络, 遥感超分辨率, 注意力机制, 可变形相似度注意力, 能效AI
一句话总结¶
提出 SpikeSR,首个基于注意力脉冲神经网络(SNN)的遥感图像超分辨率框架,通过脉冲注意力块(SAB)结合混合维度注意力(HDA)和可变形相似度注意力(DSA),在 AID/DOTA/DIOR 上达到 SOTA 性能同时保持高计算效率。
研究背景与动机¶
领域现状:高分辨率遥感图像(RSI)对下游任务至关重要,但传感器固有分辨率有限。深度学习 SR 方法(CNN/Transformer)取得显著进展但计算开销大,在大规模遥感场景中部署困难。
现有痛点: - CNN-based SR(EDSR、RCAN 等)关注网络设计但计算复杂度高,尤其是非局部建模的 exhaustive 操作; - Transformer-based SR(SwinIR、HiT-SR 等)具备全局建模能力但参数量和 FLOPs 仍然很大; - SNN 作为第三代神经网络具有天然能效优势,但在像素级回归任务(如 SR)上几乎未被探索。
核心矛盾:SNN 的二值脉冲信号不可避免地造成逐像素信息损失(spiking degradation),且膜电位动态学不够优化,限制了 SNN 在 SR 中的表征能力。
本文目标 - 将 SNN 引入遥感 SR 任务,利用其能效优势 - 通过注意力机制优化膜电位,提升 SNN 的表征能力 - 在保持低 FLOPs 的同时达到/超越 ANN 方法的性能
切入角度:一个关键观察——即使在严重退化的遥感图像中,LIF 神经元仍保持剧烈的膜电位波动(active learning state),暗示 SNN 对高频信息有天然的敏感性(Figure 1a)。
核心 idea:用注意力机制调节 SNN 的膜电位(temporal-channel + deformable spatial),使脉冲神经网络首次在遥感 SR 中达到 SOTA 且更高效。
方法详解¶
整体框架¶
- 输入:LR 遥感图像沿时间维复制 T 步(默认 T=4)
- 浅层特征提取:3×3 卷积
- 深层特征提取:\(m\) 个 Spiking Attention Groups (SAGs),每个含 \(n\) 个 SABs + 残差连接
- 融合:Fusion Block (FB) 将离散脉冲序列转为连续值
- 重建:PixelShuffle + 3×3 卷积生成 SR 输出
关键设计¶
-
脉冲注意力块 (SAB):
- 功能:在 SNN 框架内优化特征表征
- 核心思路:双分支并行结构——分支 1 用两层 SCB(SNN 卷积块,LIF 神经元→脉冲卷积→tdBN),分支 2 用标准 CNN 卷积。两分支相加后经 HDA 和 DSA 处理,加残差连接:\(\mathbf{X}^{t,n} = \mathbf{X}^{t,n-1} + \text{DSA}(\text{HDA}(\bar{\mathbf{X}}_1^{t,n} + \bar{\mathbf{X}}_2^{t,n}))\)
- 设计动机:CNN 分支缓解 SNN 二值信号的信息损失(这是 SNN 做 SR 的核心难题);注意力模块优化膜电位使脉冲活动更有效
-
混合维度注意力 (HDA):
- 功能:联合调节时间和通道维度的脉冲响应
- 核心思路:采用 temporal-channel joint attention (TJCA),不同于以往将时间和通道注意力独立处理的方式,HDA 桥接两个维度的依赖关系,实现联合特征相关性学习
- 设计动机:SNN 的脉冲信号天然有时间维度(T 个时间步),需要同时在时间和通道维度上选择性增强有用信号
-
可变形相似度注意力 (DSA):
- 功能:利用遥感图像的全局自相似性作为 SR 先验
- 核心思路:(1) 多尺度特征金字塔(双线性插值下采样);(2) patch 级自相似度计算:每个 patch 平均池化→reshape→点积相似矩阵→级联多尺度相似分数;(3) 对最相似 patch 用可变形卷积校正几何失配:\(\mathbf{F}^D(p_0) = \sum_{p_m \in \mathcal{R}} \omega(p_m) \cdot \mathbf{F}(p_0 + p_m + \Delta p_m)\);(4) cross-attention 融合:\(Q\) 来自变形特征,\(K,V\) 来自原始特征
- 设计动机:遥感图像中同一场景类型(如建筑群、农田)在不同位置重复出现,自相似性是强有力的先验。但直接的非局部注意力计算量太大,patch 级操作高效且有效。可变形卷积处理匹配 patch 间的几何变换
-
融合块 (FB):
- 功能:将离散脉冲序列自适应聚合为连续像素值
- 核心思路:先时间注意力加权聚合 \(\mathbf{Y}_1 = \sigma(\text{TA}(\mathbf{Y})) \otimes \mathbf{Y}\),再空间注意力处理残余信息 \(\mathbf{Y}_2 = \sigma(\text{SA}(\mathbf{Y})) \otimes (1 - \mathbf{Y}_1)\),最终 \(\mathbf{Y}_1 + \mathbf{Y}_2\)
- 设计动机:朴素的时间维均值只保留了信号的一阶统计量,自适应注意力加权能保留更多空间-时间细节
损失函数 / 训练策略¶
- L1 损失(像素级重建)
- Gumbel-Softmax 实现不可微的 argmax(DSA 中的 patch 匹配)
- T=4 时间步训练/推断(T=1 用于公平的 FLOPs 对比)
实验关键数据¶
主实验——遥感超分性能 (×4)¶
| 方法 | 参数量 | FLOPs | AID PSNR | DOTA PSNR | DIOR PSNR | 均值 PSNR |
|---|---|---|---|---|---|---|
| EDSR | 1518K | 50.77G | 30.65 | 33.64 | 30.63 | 31.64 |
| SwinIR-light | 897K | 23.56G | 30.83 | 33.94 | 30.85 | 31.87 |
| HiT-SR | 792K | 21.04G | 30.87 | 33.93 | 30.89 | 31.90 |
| Omni-SR | 2803K | 70.98G | 30.89 | 33.94 | 30.89 | 31.91 |
| SpikeSR | 1042K | 33.05G | 30.91 | 33.98 | 30.95 | 31.95 |
| SpikeSR-S | 472K | 15.21G | 30.86 | 33.89 | 30.89 | 31.88 |
消融实验¶
| 配置 | PSNR↑ | 说明 |
|---|---|---|
| Full SpikeSR | 31.95 | 完整模型 |
| w/o CNN 分支 | 下降明显 | 纯 SNN 信息损失严重 |
| w/o HDA | 下降 | 时间-通道联合注意力重要 |
| w/o DSA | 下降 | 全局自相似性先验关键 |
| w/o 可变形卷积 | 下降 | 几何校正对 patch 匹配必要 |
关键发现¶
- SpikeSR 全面超越 ANN 方法:在 AID/DOTA/DIOR 三个数据集上均 SOTA,均值 PSNR 31.95 超过 Omni-SR(31.91)且 FLOPs 仅为其 47%。
- SpikeSR-S 以极低成本接近 SOTA:仅 472K 参数/15.21G FLOPs 即可达到 31.88 PSNR,接近 SwinIR-light(31.87/23.56G)但 FLOPs 少 35%。
- CNN 分支不可或缺:去掉 CNN 分支(纯 SNN)性能大幅下降,证实 SNN 的信息损失问题需要 CNN 补偿。
- DSA 中可变形卷积的价值:不做几何校正的 patch 匹配会引入伪纹理(hallucinated textures)。
亮点与洞察¶
- SNN 做像素级回归的首次成功:之前 SNN 主要用于分类/检测,本文证明通过注意力优化膜电位,SNN 可在像素级回归(SR)中达到甚至超越 ANN。这对 SNN 在更多低级视觉任务中的应用有开拓意义。
- "脉冲信号保持高频敏感性"的观察:Figure 1a 展示降质图像的像素强度平滑但 LIF 神经元仍有剧烈波动,为 SNN 做 SR 提供了直觉上的合理性。
- patch 级非局部注意力:将 exhaustive 的逐像素非局部注意力简化为 patch 级相似度计算 + 可变形卷积校正,大幅降低计算量同时保持自相似性建模能力。可推广到其他需要非局部先验的任务。
- CNN-SNN 混合架构:不是纯 SNN,而是用 CNN 分支补偿 SNN 的信息损失,设计务实有效。
局限与展望¶
- 时间步设置:T=1 时 FLOPs 最低但性能非最优;T=4 时性能 SOTA 但 FLOPs 按时间步线性增长,论文对不同 T 的权衡分析不足。
- 仅遥感数据集:未在自然图像 SR 基准(如 DIV2K、Urban100)上验证,泛化性未知。
- 能效量化缺失:声称 SNN 能效但未报告实际功耗或在神经形态硬件上的部署结果。
- 仅 ×4 超分:未验证 ×2、×8 等不同放大倍率。
- 改进方向:
- 在神经形态芯片上部署验证能效
- 扩展到自然图像 SR 数据集
- 探索更大的 SNN backbone(当前最大 1042K 参数仍较小)
相关工作与启发¶
- vs SwinIR/HiT-SR:Transformer-based SR 方法全局建模能力强但 FLOPs 高。SpikeSR 用 SNN + DSA 以更低 FLOPs 达到更好效果。
- vs 高效 SR (IMDN/RFDN/FMEN):这些方法通过剪枝/蒸馏降低 CNN 开销,但性能一般低于 SpikeSR。
- vs 直接 ANN→SNN 转换:转换方法有精度差距和高延迟,SpikeSR 采用直接训练(surrogate gradient + BPTT),效果更好。
评分¶
- 新颖性: ⭐⭐⭐⭐ SNN 首次成功应用于遥感 SR,SAB/DSA 设计有创新
- 实验充分度: ⭐⭐⭐⭐ 3 个遥感数据集全面对比+详细消融,30 个场景类型分解分析
- 写作质量: ⭐⭐⭐⭐ 动机清晰,方法图详细,但部分公式可更简洁
- 价值: ⭐⭐⭐⭐ 为 SNN 在低级视觉任务的应用开辟新方向,对遥感社区有实际部署价值