跳转至

Spiking Meets Attention: Efficient Remote Sensing Image Super-Resolution with Attention Spiking Neural Networks

会议: NEURIPS2025
arXiv: 2503.04223
代码: https://github.com/XY-boy/SpikeSR
领域: 图像复原
关键词: 脉冲神经网络, 遥感超分辨率, 注意力机制, 可变形相似度注意力, 能效AI

一句话总结

提出 SpikeSR,首个基于注意力脉冲神经网络(SNN)的遥感图像超分辨率框架,通过脉冲注意力块(SAB)结合混合维度注意力(HDA)和可变形相似度注意力(DSA),在 AID/DOTA/DIOR 上达到 SOTA 性能同时保持高计算效率。

研究背景与动机

领域现状:高分辨率遥感图像(RSI)对下游任务至关重要,但传感器固有分辨率有限。深度学习 SR 方法(CNN/Transformer)取得显著进展但计算开销大,在大规模遥感场景中部署困难。

现有痛点: - CNN-based SR(EDSR、RCAN 等)关注网络设计但计算复杂度高,尤其是非局部建模的 exhaustive 操作; - Transformer-based SR(SwinIR、HiT-SR 等)具备全局建模能力但参数量和 FLOPs 仍然很大; - SNN 作为第三代神经网络具有天然能效优势,但在像素级回归任务(如 SR)上几乎未被探索。

核心矛盾:SNN 的二值脉冲信号不可避免地造成逐像素信息损失(spiking degradation),且膜电位动态学不够优化,限制了 SNN 在 SR 中的表征能力。

本文目标 - 将 SNN 引入遥感 SR 任务,利用其能效优势 - 通过注意力机制优化膜电位,提升 SNN 的表征能力 - 在保持低 FLOPs 的同时达到/超越 ANN 方法的性能

切入角度:一个关键观察——即使在严重退化的遥感图像中,LIF 神经元仍保持剧烈的膜电位波动(active learning state),暗示 SNN 对高频信息有天然的敏感性(Figure 1a)。

核心 idea:用注意力机制调节 SNN 的膜电位(temporal-channel + deformable spatial),使脉冲神经网络首次在遥感 SR 中达到 SOTA 且更高效。

方法详解

整体框架

  • 输入:LR 遥感图像沿时间维复制 T 步(默认 T=4)
  • 浅层特征提取:3×3 卷积
  • 深层特征提取\(m\) 个 Spiking Attention Groups (SAGs),每个含 \(n\) 个 SABs + 残差连接
  • 融合:Fusion Block (FB) 将离散脉冲序列转为连续值
  • 重建:PixelShuffle + 3×3 卷积生成 SR 输出

关键设计

  1. 脉冲注意力块 (SAB)

    • 功能:在 SNN 框架内优化特征表征
    • 核心思路:双分支并行结构——分支 1 用两层 SCB(SNN 卷积块,LIF 神经元→脉冲卷积→tdBN),分支 2 用标准 CNN 卷积。两分支相加后经 HDA 和 DSA 处理,加残差连接:\(\mathbf{X}^{t,n} = \mathbf{X}^{t,n-1} + \text{DSA}(\text{HDA}(\bar{\mathbf{X}}_1^{t,n} + \bar{\mathbf{X}}_2^{t,n}))\)
    • 设计动机:CNN 分支缓解 SNN 二值信号的信息损失(这是 SNN 做 SR 的核心难题);注意力模块优化膜电位使脉冲活动更有效
  2. 混合维度注意力 (HDA)

    • 功能:联合调节时间和通道维度的脉冲响应
    • 核心思路:采用 temporal-channel joint attention (TJCA),不同于以往将时间和通道注意力独立处理的方式,HDA 桥接两个维度的依赖关系,实现联合特征相关性学习
    • 设计动机:SNN 的脉冲信号天然有时间维度(T 个时间步),需要同时在时间和通道维度上选择性增强有用信号
  3. 可变形相似度注意力 (DSA)

    • 功能:利用遥感图像的全局自相似性作为 SR 先验
    • 核心思路:(1) 多尺度特征金字塔(双线性插值下采样);(2) patch 级自相似度计算:每个 patch 平均池化→reshape→点积相似矩阵→级联多尺度相似分数;(3) 对最相似 patch 用可变形卷积校正几何失配:\(\mathbf{F}^D(p_0) = \sum_{p_m \in \mathcal{R}} \omega(p_m) \cdot \mathbf{F}(p_0 + p_m + \Delta p_m)\);(4) cross-attention 融合:\(Q\) 来自变形特征,\(K,V\) 来自原始特征
    • 设计动机:遥感图像中同一场景类型(如建筑群、农田)在不同位置重复出现,自相似性是强有力的先验。但直接的非局部注意力计算量太大,patch 级操作高效且有效。可变形卷积处理匹配 patch 间的几何变换
  4. 融合块 (FB)

    • 功能:将离散脉冲序列自适应聚合为连续像素值
    • 核心思路:先时间注意力加权聚合 \(\mathbf{Y}_1 = \sigma(\text{TA}(\mathbf{Y})) \otimes \mathbf{Y}\),再空间注意力处理残余信息 \(\mathbf{Y}_2 = \sigma(\text{SA}(\mathbf{Y})) \otimes (1 - \mathbf{Y}_1)\),最终 \(\mathbf{Y}_1 + \mathbf{Y}_2\)
    • 设计动机:朴素的时间维均值只保留了信号的一阶统计量,自适应注意力加权能保留更多空间-时间细节

损失函数 / 训练策略

  • L1 损失(像素级重建)
  • Gumbel-Softmax 实现不可微的 argmax(DSA 中的 patch 匹配)
  • T=4 时间步训练/推断(T=1 用于公平的 FLOPs 对比)

实验关键数据

主实验——遥感超分性能 (×4)

方法 参数量 FLOPs AID PSNR DOTA PSNR DIOR PSNR 均值 PSNR
EDSR 1518K 50.77G 30.65 33.64 30.63 31.64
SwinIR-light 897K 23.56G 30.83 33.94 30.85 31.87
HiT-SR 792K 21.04G 30.87 33.93 30.89 31.90
Omni-SR 2803K 70.98G 30.89 33.94 30.89 31.91
SpikeSR 1042K 33.05G 30.91 33.98 30.95 31.95
SpikeSR-S 472K 15.21G 30.86 33.89 30.89 31.88

消融实验

配置 PSNR↑ 说明
Full SpikeSR 31.95 完整模型
w/o CNN 分支 下降明显 纯 SNN 信息损失严重
w/o HDA 下降 时间-通道联合注意力重要
w/o DSA 下降 全局自相似性先验关键
w/o 可变形卷积 下降 几何校正对 patch 匹配必要

关键发现

  • SpikeSR 全面超越 ANN 方法:在 AID/DOTA/DIOR 三个数据集上均 SOTA,均值 PSNR 31.95 超过 Omni-SR(31.91)且 FLOPs 仅为其 47%。
  • SpikeSR-S 以极低成本接近 SOTA:仅 472K 参数/15.21G FLOPs 即可达到 31.88 PSNR,接近 SwinIR-light(31.87/23.56G)但 FLOPs 少 35%。
  • CNN 分支不可或缺:去掉 CNN 分支(纯 SNN)性能大幅下降,证实 SNN 的信息损失问题需要 CNN 补偿。
  • DSA 中可变形卷积的价值:不做几何校正的 patch 匹配会引入伪纹理(hallucinated textures)。

亮点与洞察

  • SNN 做像素级回归的首次成功:之前 SNN 主要用于分类/检测,本文证明通过注意力优化膜电位,SNN 可在像素级回归(SR)中达到甚至超越 ANN。这对 SNN 在更多低级视觉任务中的应用有开拓意义。
  • "脉冲信号保持高频敏感性"的观察:Figure 1a 展示降质图像的像素强度平滑但 LIF 神经元仍有剧烈波动,为 SNN 做 SR 提供了直觉上的合理性。
  • patch 级非局部注意力:将 exhaustive 的逐像素非局部注意力简化为 patch 级相似度计算 + 可变形卷积校正,大幅降低计算量同时保持自相似性建模能力。可推广到其他需要非局部先验的任务。
  • CNN-SNN 混合架构:不是纯 SNN,而是用 CNN 分支补偿 SNN 的信息损失,设计务实有效。

局限与展望

  • 时间步设置:T=1 时 FLOPs 最低但性能非最优;T=4 时性能 SOTA 但 FLOPs 按时间步线性增长,论文对不同 T 的权衡分析不足。
  • 仅遥感数据集:未在自然图像 SR 基准(如 DIV2K、Urban100)上验证,泛化性未知。
  • 能效量化缺失:声称 SNN 能效但未报告实际功耗或在神经形态硬件上的部署结果。
  • 仅 ×4 超分:未验证 ×2、×8 等不同放大倍率。
  • 改进方向
    • 在神经形态芯片上部署验证能效
    • 扩展到自然图像 SR 数据集
    • 探索更大的 SNN backbone(当前最大 1042K 参数仍较小)

相关工作与启发

  • vs SwinIR/HiT-SR:Transformer-based SR 方法全局建模能力强但 FLOPs 高。SpikeSR 用 SNN + DSA 以更低 FLOPs 达到更好效果。
  • vs 高效 SR (IMDN/RFDN/FMEN):这些方法通过剪枝/蒸馏降低 CNN 开销,但性能一般低于 SpikeSR。
  • vs 直接 ANN→SNN 转换:转换方法有精度差距和高延迟,SpikeSR 采用直接训练(surrogate gradient + BPTT),效果更好。

评分

  • 新颖性: ⭐⭐⭐⭐ SNN 首次成功应用于遥感 SR,SAB/DSA 设计有创新
  • 实验充分度: ⭐⭐⭐⭐ 3 个遥感数据集全面对比+详细消融,30 个场景类型分解分析
  • 写作质量: ⭐⭐⭐⭐ 动机清晰,方法图详细,但部分公式可更简洁
  • 价值: ⭐⭐⭐⭐ 为 SNN 在低级视觉任务的应用开辟新方向,对遥感社区有实际部署价值