Spiking Meets Attention: Efficient Remote Sensing Image Super-Resolution with Attention Spiking Neural Networks¶

会议: NEURIPS2025
arXiv: 2503.04223
代码: https://github.com/XY-boy/SpikeSR
领域: 图像复原
关键词: 脉冲神经网络, 遥感超分辨率, 注意力机制, 可变形相似度注意力, 能效AI

一句话总结¶

提出 SpikeSR，首个基于注意力脉冲神经网络(SNN)的遥感图像超分辨率框架，通过脉冲注意力块(SAB)结合混合维度注意力(HDA)和可变形相似度注意力(DSA)，在 AID/DOTA/DIOR 上达到 SOTA 性能同时保持高计算效率。

研究背景与动机¶

领域现状：高分辨率遥感图像(RSI)对下游任务至关重要，但传感器固有分辨率有限。深度学习 SR 方法（CNN/Transformer）取得显著进展但计算开销大，在大规模遥感场景中部署困难。

现有痛点： - CNN-based SR（EDSR、RCAN 等）关注网络设计但计算复杂度高，尤其是非局部建模的 exhaustive 操作； - Transformer-based SR（SwinIR、HiT-SR 等）具备全局建模能力但参数量和 FLOPs 仍然很大； - SNN 作为第三代神经网络具有天然能效优势，但在像素级回归任务（如 SR）上几乎未被探索。

核心矛盾：SNN 的二值脉冲信号不可避免地造成逐像素信息损失（spiking degradation），且膜电位动态学不够优化，限制了 SNN 在 SR 中的表征能力。

本文目标 - 将 SNN 引入遥感 SR 任务，利用其能效优势 - 通过注意力机制优化膜电位，提升 SNN 的表征能力 - 在保持低 FLOPs 的同时达到/超越 ANN 方法的性能

切入角度：一个关键观察——即使在严重退化的遥感图像中，LIF 神经元仍保持剧烈的膜电位波动（active learning state），暗示 SNN 对高频信息有天然的敏感性（Figure 1a）。

核心 idea：用注意力机制调节 SNN 的膜电位（temporal-channel + deformable spatial），使脉冲神经网络首次在遥感 SR 中达到 SOTA 且更高效。

方法详解¶

整体框架¶

输入：LR 遥感图像沿时间维复制 T 步（默认 T=4）
浅层特征提取：3×3 卷积
深层特征提取：\(m\) 个 Spiking Attention Groups (SAGs)，每个含 \(n\) 个 SABs + 残差连接
融合：Fusion Block (FB) 将离散脉冲序列转为连续值
重建：PixelShuffle + 3×3 卷积生成 SR 输出

关键设计¶

脉冲注意力块 (SAB)：
- 功能：在 SNN 框架内优化特征表征
- 核心思路：双分支并行结构——分支 1 用两层 SCB（SNN 卷积块，LIF 神经元→脉冲卷积→tdBN），分支 2 用标准 CNN 卷积。两分支相加后经 HDA 和 DSA 处理，加残差连接：\(\mathbf{X}^{t,n} = \mathbf{X}^{t,n-1} + \text{DSA}(\text{HDA}(\bar{\mathbf{X}}_1^{t,n} + \bar{\mathbf{X}}_2^{t,n}))\)
- 设计动机：CNN 分支缓解 SNN 二值信号的信息损失（这是 SNN 做 SR 的核心难题）；注意力模块优化膜电位使脉冲活动更有效
混合维度注意力 (HDA)：
- 功能：联合调节时间和通道维度的脉冲响应
- 核心思路：采用 temporal-channel joint attention (TJCA)，不同于以往将时间和通道注意力独立处理的方式，HDA 桥接两个维度的依赖关系，实现联合特征相关性学习
- 设计动机：SNN 的脉冲信号天然有时间维度（T 个时间步），需要同时在时间和通道维度上选择性增强有用信号
可变形相似度注意力 (DSA)：
- 功能：利用遥感图像的全局自相似性作为 SR 先验
- 核心思路：(1) 多尺度特征金字塔（双线性插值下采样）；(2) patch 级自相似度计算：每个 patch 平均池化→reshape→点积相似矩阵→级联多尺度相似分数；(3) 对最相似 patch 用可变形卷积校正几何失配：\(\mathbf{F}^D(p_0) = \sum_{p_m \in \mathcal{R}} \omega(p_m) \cdot \mathbf{F}(p_0 + p_m + \Delta p_m)\)；(4) cross-attention 融合：\(Q\) 来自变形特征，\(K,V\) 来自原始特征
- 设计动机：遥感图像中同一场景类型（如建筑群、农田）在不同位置重复出现，自相似性是强有力的先验。但直接的非局部注意力计算量太大，patch 级操作高效且有效。可变形卷积处理匹配 patch 间的几何变换
融合块 (FB)：
- 功能：将离散脉冲序列自适应聚合为连续像素值
- 核心思路：先时间注意力加权聚合 \(\mathbf{Y}_1 = \sigma(\text{TA}(\mathbf{Y})) \otimes \mathbf{Y}\)，再空间注意力处理残余信息 \(\mathbf{Y}_2 = \sigma(\text{SA}(\mathbf{Y})) \otimes (1 - \mathbf{Y}_1)\)，最终 \(\mathbf{Y}_1 + \mathbf{Y}_2\)
- 设计动机：朴素的时间维均值只保留了信号的一阶统计量，自适应注意力加权能保留更多空间-时间细节

损失函数 / 训练策略¶

L1 损失（像素级重建）
Gumbel-Softmax 实现不可微的 argmax（DSA 中的 patch 匹配）
T=4 时间步训练/推断（T=1 用于公平的 FLOPs 对比）

实验关键数据¶

主实验——遥感超分性能 (×4)¶

方法	参数量	FLOPs	AID PSNR	DOTA PSNR	DIOR PSNR	均值 PSNR
EDSR	1518K	50.77G	30.65	33.64	30.63	31.64
SwinIR-light	897K	23.56G	30.83	33.94	30.85	31.87
HiT-SR	792K	21.04G	30.87	33.93	30.89	31.90
Omni-SR	2803K	70.98G	30.89	33.94	30.89	31.91
SpikeSR	1042K	33.05G	30.91	33.98	30.95	31.95
SpikeSR-S	472K	15.21G	30.86	33.89	30.89	31.88

消融实验¶

配置	PSNR↑	说明
Full SpikeSR	31.95	完整模型
w/o CNN 分支	下降明显	纯 SNN 信息损失严重
w/o HDA	下降	时间-通道联合注意力重要
w/o DSA	下降	全局自相似性先验关键
w/o 可变形卷积	下降	几何校正对 patch 匹配必要

关键发现¶

SpikeSR 全面超越 ANN 方法：在 AID/DOTA/DIOR 三个数据集上均 SOTA，均值 PSNR 31.95 超过 Omni-SR（31.91）且 FLOPs 仅为其 47%。
SpikeSR-S 以极低成本接近 SOTA：仅 472K 参数/15.21G FLOPs 即可达到 31.88 PSNR，接近 SwinIR-light（31.87/23.56G）但 FLOPs 少 35%。
CNN 分支不可或缺：去掉 CNN 分支（纯 SNN）性能大幅下降，证实 SNN 的信息损失问题需要 CNN 补偿。
DSA 中可变形卷积的价值：不做几何校正的 patch 匹配会引入伪纹理(hallucinated textures)。

亮点与洞察¶

SNN 做像素级回归的首次成功：之前 SNN 主要用于分类/检测，本文证明通过注意力优化膜电位，SNN 可在像素级回归(SR)中达到甚至超越 ANN。这对 SNN 在更多低级视觉任务中的应用有开拓意义。
"脉冲信号保持高频敏感性"的观察：Figure 1a 展示降质图像的像素强度平滑但 LIF 神经元仍有剧烈波动，为 SNN 做 SR 提供了直觉上的合理性。
patch 级非局部注意力：将 exhaustive 的逐像素非局部注意力简化为 patch 级相似度计算 + 可变形卷积校正，大幅降低计算量同时保持自相似性建模能力。可推广到其他需要非局部先验的任务。
CNN-SNN 混合架构：不是纯 SNN，而是用 CNN 分支补偿 SNN 的信息损失，设计务实有效。

局限与展望¶

时间步设置：T=1 时 FLOPs 最低但性能非最优；T=4 时性能 SOTA 但 FLOPs 按时间步线性增长，论文对不同 T 的权衡分析不足。
仅遥感数据集：未在自然图像 SR 基准（如 DIV2K、Urban100）上验证，泛化性未知。
能效量化缺失：声称 SNN 能效但未报告实际功耗或在神经形态硬件上的部署结果。
仅 ×4 超分：未验证 ×2、×8 等不同放大倍率。
改进方向：
- 在神经形态芯片上部署验证能效
- 扩展到自然图像 SR 数据集
- 探索更大的 SNN backbone（当前最大 1042K 参数仍较小）

评分¶

新颖性: ⭐⭐⭐⭐ SNN 首次成功应用于遥感 SR，SAB/DSA 设计有创新
实验充分度: ⭐⭐⭐⭐ 3 个遥感数据集全面对比+详细消融，30 个场景类型分解分析
写作质量: ⭐⭐⭐⭐ 动机清晰，方法图详细，但部分公式可更简洁
价值: ⭐⭐⭐⭐ 为 SNN 在低级视觉任务的应用开辟新方向，对遥感社区有实际部署价值