Neural Dynamics Self-Attention for Spiking Transformers¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=jJedqisfOt
代码: 待确认
领域: 脉冲神经网络 / 高能效视觉 Transformer
关键词: Spiking Neural Network, Spiking Transformer, Self-Attention, Local Receptive Field, Neuronal Dynamics, Energy-Efficient Vision

一句话总结¶

本文从「局部建模能力缺失」和「注意力矩阵存储开销大」两个角度剖析了脉冲自注意力（SSA）的瓶颈，提出 LRF-Dyn：先用局部感受野把局部偏置塞回 SSA 拉高精度，再借「充电-发放-复位」神经元动力学把注意力计算重写成只需存膜电位的递推形式，从而在显著降低推理显存的同时把脉冲 Transformer 的精度逼近 ANN。

研究背景与动机¶

领域现状：把脉冲神经网络（SNN）和 Transformer 结合是兼顾能效与性能的有前景路径，尤其适合边缘视觉。Spikformer、QKFormer、Spike-Driven-V3 等一系列脉冲 Transformer 用「脉冲自注意力」（SSA）替代了标准 softmax 注意力，靠事件驱动的稀疏脉冲避免冗余乘加，能耗很低。

现有痛点：相比同规模 ANN，脉冲 Transformer 一直有两个老毛病——(i) 精度仍有可观差距；(ii) 推理时显存开销反而很高。本文通过理论与可视化把两者都归因到 SSA 本身：

缺乏局部偏置：SSA 为了保持脉冲友好删掉了 softmax，导致注意力分数近乎均匀分布。可视化显示 ViT 的 VSA 有 76.8% 的注意力集中在短曼哈顿距离的邻域（低熵、聚焦），而 SSA 的注意力分布几乎均匀（高熵），无法强调关键区域，这正是精度差距的根源。
存储大注意力矩阵：SSA 虽借矩阵结合律把计算复杂度压到 \(O(Nd^2)\)，但推理时既要存 Q/K/V，还要存 KV 中间结果，额外吃掉 \(O(d^2)\) 显存（\(d=512\) 时尤其严重），严重妨碍在神经形态芯片等资源受限设备上部署。

核心矛盾：低能耗（SNN）、低显存、高精度三者难以同时满足——删 softmax 换来了能效却丢了局部建模，矩阵结合律省了算力却堆高了显存。

本文目标：在保住 SNN 事件驱动低能耗的前提下，同时补回局部建模能力并压低推理显存。

核心 idea：生物视觉启发——借鉴生物视觉神经元的局部感受野（LRF）与膜电位时序动力学，先给 SSA 加局部感受野把局部偏置「装回去」，再把注意力聚合近似成脉冲神经元的充电-发放-复位过程，用递推的膜电位替代显式注意力矩阵存储。

方法详解¶

整体框架¶

方法分两步递进：先得到精度更高的 LRF-SSA（在 SSA 上注入局部感受野），再把它重写为显存更省的 LRF-Dyn（用神经元动力学递推替代矩阵存储）。两者都能作为即插即用单元嵌入现有脉冲 Transformer，无需改动框架其余部分。

flowchart LR
    X[输入脉冲序列 X] --> QKV[Conv+BN+SN<br/>得到 Q/K/V]
    QKV --> SSA[全局感受野<br/>Q·Kᵀ·V]
    QKV --> LRF[局部感受野<br/>多尺度空洞卷积 rij]
    SSA --> ADD[加权融合]
    LRF --> ADD
    ADD --> LRFSSA[LRF-SSA<br/>精度↑ 但仍存注意力矩阵]
    LRFSSA -.充电-发放-复位<br/>递推重写.-> DYN[LRF-Dyn<br/>只存膜电位 O kd 显存↓]

关键设计¶

1. 局部感受野注入 SSA（LRF-SSA）：把丢掉的局部偏置补回来。 SSA 删掉 softmax 后，对第 \(n\) 个 token 的输出只剩全局感受野项 \(q_n[t]\times\sum_{j} k_j[t]^\top v_j[t]\)，邻域信息被均摊掉。作者在其上并联一个局部感受野项 \(\sum_d\sum_{i,j\in\Omega_d} r_{ij}^d V_{\rho k}\)，用两个 \(3\times3\) 深度可分离卷积（空洞因子 \(d=3,5\)）以极少参数（每个架构 <0.2M）对邻域重新加权。理论上把融合权重写成 \(\alpha_{ij}^{\text{lrf-ssa}}=(1-\lambda)\alpha_{ij}^{\text{ssa}}+\lambda r_{ij}\)：Theorem 1 证明其期望感受野 \(E[\Delta]=(1-\lambda)\mu_{\text{ssa}}+\lambda\mu_r\) 因 \(\mu_r\le\mu_{\text{ssa}}\) 而收缩，恢复了类 VSA 的局部聚焦；Theorem 2 进一步证明其信息熵 \(H(p^{\text{lrf-ssa}})\le H(p^{\text{ssa}})\)，即把 SSA 的高熵均匀分布拉回 VSA 那种低熵聚焦分布——这正是精度提升的理论依据。

2. 用神经元动力学重写注意力（LRF-Dyn）：把矩阵存储换成膜电位递推。 LRF-SSA 仍需逐时间步存 Q/K/V 和注意力矩阵（额外 \(O(d^2)\)）。作者把式 (8) 按因果方式重写为 \(\text{sattn}_n[t]'=q_n[t]\times\underbrace{\sum_{j=1}^{n-1}k_j[t]^\top v_j[t]}_{\text{膜电位}}+\underbrace{k_n[t]^\top v_n[t]+\sum_d\sum_{i,j\in\Omega_d}r_{ij}^d v_{\rho k}[t]}_{\text{突触前输入}}\)，于是只需累积存一个 \(\sum_{j=1}^{n-1}k_j^\top v_j\)，把 \(O(Nd^2)\) 降到 \(O(d^2)\)。这个结构恰好对应脉冲神经元的充电-发放-复位：第一项是膜电位记忆、第二项是当前突触前输入。

3. 树突形式的动力学参数化：让递推可高效训练。 LRF-Dyn 的核心递推写作 \(X_n[t]=A\odot X_{n-1}[t]+\Gamma\,\text{Token}_n[t]\)，输出 \(\text{sattn}_n'[t]=X_n[t]+\sum_d\sum_{i,j\in\Omega_d}r_{ij}^d\cdot X_{\rho k}[t]\)。其中衰减因子 \(A\) 与膜电容常数 \(\Gamma\) 受光感受神经元多时间尺度行为启发，被参数化为带局部感受野的「树突」形式（一个三对角的 \(A\) 矩阵刻画相邻 token 间的耦合 \(\beta\) 与各自衰减 \(1/\tau\)）。不同树突分支对同一 token 产生不同响应，再由胞体整合成脉冲序列。由于 \(A\) 具时不变性，整体可写成卷积 \(K(t)=\Gamma C\sum_{m=1}^{n-m}A\) 并用傅里叶变换 \(H=\mathcal{F}^{-1}\{\mathcal{F}(K)*\mathcal{F}(X)\}\) 高效并行训练（论文中树突数 \(n=8\)）。最终推理时只需存每个位置的膜电位，把存储复杂度降到 \(O(kd)\)（\(k\) 为树突数）。

实验关键数据¶

主实验：ImageNet-1K 图像分类¶

把 SSA 替换为 LRF-SSA / LRF-Dyn，嵌入 Spikformer / QKFormer / SDT-V3 三种主干。SR 为推理存储复杂度。

方法	架构	存储复杂度 SR	参数(M)	Acc.(%)
Spikformer	Spikformer-8-512	\(O(d^2)\)	29.68	73.38
Spikformer + LRF-SSA	Spikformer-8-512	\(O(d^2)\)	29.71	74.62 (↑1.24)
Spikformer + LRF-Dyn	Spikformer-8-512	\(O(kd)\)	29.71	74.51 (↑1.13)
QKFormer	HST-10-512	\(O(d^2)\)	29.08	82.04
QKFormer + LRF-SSA	HST-10-512	\(O(d^2)\)	29.18	82.52 (↑0.48)
QKFormer + LRF-Dyn	HST-10-512	\(O(kd)\)	29.18	82.48 (↑0.44)
SDT-V3	Eff-Transformer-S	\(O(d^2)\)	5.11	75.30
SDT-V3 + LRF-SSA	Eff-Transformer-S	\(O(d^2)\)	5.24	76.22 (↑0.92)
SDT-V3 + LRF-Dyn	Eff-Transformer-S	\(O(kd)\)	5.24	76.12 (↑0.82)

LRF-SSA 主打精度，跨三种主干均稳定提升且几乎不加参数；LRF-Dyn 在保精度的同时把存储复杂度从 \(O(d^2)\) 降到 \(O(kd)\)。

语义分割（ADE20K）¶

模型	参数(M)	T	MIoU(%)
SDT-V3	5.1+1.4	4	33.6
SDT-V3 + LRF-SSA	5.1+1.4	4	36.2 (↑2.6)
SDT-V3 + LRF-Dyn	5.24+1.4	4	36.3 (↑2.7)
SDT-V3 (19M) + LRF-SSA	10.0+1.4	4	43.5 (↑2.2)
SDT-V3 (19M) + LRF-Dyn	19.25+1.4	4	43.1 (↑1.8)

分割任务上增益更明显（2~2.7%），且 LRF-Dyn 在无注意力存储下仍优于无注意力的 ResNet 基线。

消融实验（CIFAR-100，Spikformer 主干）¶

方法	w/o LRF	\(\Omega\le1\)	\(\Omega\le3\)	\(\Omega\le5\)
LRF-SSA	77.86	78.26	78.52	78.64
LRF-Dyn	77.78	78.16	78.50	78.57
Caused SSA†	74.30	75.30	76.20	76.50

去掉 LRF 模块时 LRF-SSA 退化为原始 SSA；增大局部卷积核覆盖（\(\Omega\)）能持续涨点，证明局部感受野的贡献。

关键发现¶

在 Spikformer-8-512 上，相比 SSA，方法在涨 1.13% 精度的同时降 49.4% 推理显存。
有效感受野（ERF）可视化显示 LRF-SSA / LRF-Dyn 都恢复了类 ViT 的局部聚焦，注意力分布更稀疏、更聚焦于显著区域。

亮点与洞察¶

问题诊断有理论支撑：把脉冲 Transformer 的两大顽疾干净地归到「删 softmax → 高熵均匀注意力 → 缺局部偏置」和「KV 结合律 → 需存中间矩阵」，并用两条定理（感受野收缩 + 熵序）量化论证，不是拍脑袋。
生物启发落到可计算的结构上：局部感受野和膜电位动力学并非口号，而是分别对应到空洞深度卷积和三对角树突动力学，且时不变 \(A\) 让递推能用傅里叶卷积并行训练。
一套设计两种取向：LRF-SSA 偏精度、LRF-Dyn 偏显存，二者即插即用、可任选嵌入主流脉冲 Transformer，工程友好。

局限与展望¶

写作与公式呈现较粗糙：缓存全文中多处公式排版与符号混乱（如 \(A\)、\(\Gamma\) 的定义、傅里叶卷积式 (15)），树突动力学的部分定义需读附录才能补全，复现门槛偏高。
实验局限于视觉分类/分割：未涉及检测、视频或非视觉模态，能效优势主要靠复杂度论证与显存对比间接体现，缺真实神经形态芯片上的能耗实测。
超参依赖：树突数 \(n=8\)、空洞因子、融合系数 \(\lambda\) 等对结果的稳健性讨论有限。
展望：在 Loihi/天机类神经形态硬件上落地实测能耗、扩展到时序与多模态任务，是把「低显存 + 低能耗」优势真正兑现的下一步。

评分¶

新颖性: ⭐⭐⭐⭐ 把「局部感受野 + 膜电位动力学」双重生物启发统一进脉冲注意力，并用两条定理把直觉量化，视角新颖。
实验充分度: ⭐⭐⭐⭐ 跨三种主干、分类+分割+消融+感受野/显存可视化较完整，但缺真实神经形态硬件能耗实测与更广任务。
写作质量: ⭐⭐⭐ 思路清晰、动机扎实，但公式排版与树突动力学表述偏乱，复现门槛较高。
价值: ⭐⭐⭐⭐ 同时缩小精度差距并降近半推理显存，对边缘/神经形态部署的高能效视觉 Transformer 有实际意义。