Neural Dynamics Self-Attention for Spiking Transformers¶
会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=jJedqisfOt
代码: 待确认
领域: 脉冲神经网络 / 高能效视觉 Transformer
关键词: Spiking Neural Network, Spiking Transformer, Self-Attention, Local Receptive Field, Neuronal Dynamics, Energy-Efficient Vision
一句话总结¶
本文从「局部建模能力缺失」和「注意力矩阵存储开销大」两个角度剖析了脉冲自注意力(SSA)的瓶颈,提出 LRF-Dyn:先用局部感受野把局部偏置塞回 SSA 拉高精度,再借「充电-发放-复位」神经元动力学把注意力计算重写成只需存膜电位的递推形式,从而在显著降低推理显存的同时把脉冲 Transformer 的精度逼近 ANN。
研究背景与动机¶
领域现状:把脉冲神经网络(SNN)和 Transformer 结合是兼顾能效与性能的有前景路径,尤其适合边缘视觉。Spikformer、QKFormer、Spike-Driven-V3 等一系列脉冲 Transformer 用「脉冲自注意力」(SSA)替代了标准 softmax 注意力,靠事件驱动的稀疏脉冲避免冗余乘加,能耗很低。
现有痛点:相比同规模 ANN,脉冲 Transformer 一直有两个老毛病——(i) 精度仍有可观差距;(ii) 推理时显存开销反而很高。本文通过理论与可视化把两者都归因到 SSA 本身:
- 缺乏局部偏置:SSA 为了保持脉冲友好删掉了 softmax,导致注意力分数近乎均匀分布。可视化显示 ViT 的 VSA 有 76.8% 的注意力集中在短曼哈顿距离的邻域(低熵、聚焦),而 SSA 的注意力分布几乎均匀(高熵),无法强调关键区域,这正是精度差距的根源。
- 存储大注意力矩阵:SSA 虽借矩阵结合律把计算复杂度压到 \(O(Nd^2)\),但推理时既要存 Q/K/V,还要存 KV 中间结果,额外吃掉 \(O(d^2)\) 显存(\(d=512\) 时尤其严重),严重妨碍在神经形态芯片等资源受限设备上部署。
核心矛盾:低能耗(SNN)、低显存、高精度三者难以同时满足——删 softmax 换来了能效却丢了局部建模,矩阵结合律省了算力却堆高了显存。
本文目标:在保住 SNN 事件驱动低能耗的前提下,同时补回局部建模能力并压低推理显存。
核心 idea:生物视觉启发——借鉴生物视觉神经元的局部感受野(LRF)与膜电位时序动力学,先给 SSA 加局部感受野把局部偏置「装回去」,再把注意力聚合近似成脉冲神经元的充电-发放-复位过程,用递推的膜电位替代显式注意力矩阵存储。
方法详解¶
整体框架¶
方法分两步递进:先得到精度更高的 LRF-SSA(在 SSA 上注入局部感受野),再把它重写为显存更省的 LRF-Dyn(用神经元动力学递推替代矩阵存储)。两者都能作为即插即用单元嵌入现有脉冲 Transformer,无需改动框架其余部分。
flowchart LR
X[输入脉冲序列 X] --> QKV[Conv+BN+SN<br/>得到 Q/K/V]
QKV --> SSA[全局感受野<br/>Q·Kᵀ·V]
QKV --> LRF[局部感受野<br/>多尺度空洞卷积 rij]
SSA --> ADD[加权融合]
LRF --> ADD
ADD --> LRFSSA[LRF-SSA<br/>精度↑ 但仍存注意力矩阵]
LRFSSA -.充电-发放-复位<br/>递推重写.-> DYN[LRF-Dyn<br/>只存膜电位 O kd 显存↓]
关键设计¶
1. 局部感受野注入 SSA(LRF-SSA):把丢掉的局部偏置补回来。 SSA 删掉 softmax 后,对第 \(n\) 个 token 的输出只剩全局感受野项 \(q_n[t]\times\sum_{j} k_j[t]^\top v_j[t]\),邻域信息被均摊掉。作者在其上并联一个局部感受野项 \(\sum_d\sum_{i,j\in\Omega_d} r_{ij}^d V_{\rho k}\),用两个 \(3\times3\) 深度可分离卷积(空洞因子 \(d=3,5\))以极少参数(每个架构 <0.2M)对邻域重新加权。理论上把融合权重写成 \(\alpha_{ij}^{\text{lrf-ssa}}=(1-\lambda)\alpha_{ij}^{\text{ssa}}+\lambda r_{ij}\):Theorem 1 证明其期望感受野 \(E[\Delta]=(1-\lambda)\mu_{\text{ssa}}+\lambda\mu_r\) 因 \(\mu_r\le\mu_{\text{ssa}}\) 而收缩,恢复了类 VSA 的局部聚焦;Theorem 2 进一步证明其信息熵 \(H(p^{\text{lrf-ssa}})\le H(p^{\text{ssa}})\),即把 SSA 的高熵均匀分布拉回 VSA 那种低熵聚焦分布——这正是精度提升的理论依据。
2. 用神经元动力学重写注意力(LRF-Dyn):把矩阵存储换成膜电位递推。 LRF-SSA 仍需逐时间步存 Q/K/V 和注意力矩阵(额外 \(O(d^2)\))。作者把式 (8) 按因果方式重写为 \(\text{sattn}_n[t]'=q_n[t]\times\underbrace{\sum_{j=1}^{n-1}k_j[t]^\top v_j[t]}_{\text{膜电位}}+\underbrace{k_n[t]^\top v_n[t]+\sum_d\sum_{i,j\in\Omega_d}r_{ij}^d v_{\rho k}[t]}_{\text{突触前输入}}\),于是只需累积存一个 \(\sum_{j=1}^{n-1}k_j^\top v_j\),把 \(O(Nd^2)\) 降到 \(O(d^2)\)。这个结构恰好对应脉冲神经元的充电-发放-复位:第一项是膜电位记忆、第二项是当前突触前输入。
3. 树突形式的动力学参数化:让递推可高效训练。 LRF-Dyn 的核心递推写作 \(X_n[t]=A\odot X_{n-1}[t]+\Gamma\,\text{Token}_n[t]\),输出 \(\text{sattn}_n'[t]=X_n[t]+\sum_d\sum_{i,j\in\Omega_d}r_{ij}^d\cdot X_{\rho k}[t]\)。其中衰减因子 \(A\) 与膜电容常数 \(\Gamma\) 受光感受神经元多时间尺度行为启发,被参数化为带局部感受野的「树突」形式(一个三对角的 \(A\) 矩阵刻画相邻 token 间的耦合 \(\beta\) 与各自衰减 \(1/\tau\))。不同树突分支对同一 token 产生不同响应,再由胞体整合成脉冲序列。由于 \(A\) 具时不变性,整体可写成卷积 \(K(t)=\Gamma C\sum_{m=1}^{n-m}A\) 并用傅里叶变换 \(H=\mathcal{F}^{-1}\{\mathcal{F}(K)*\mathcal{F}(X)\}\) 高效并行训练(论文中树突数 \(n=8\))。最终推理时只需存每个位置的膜电位,把存储复杂度降到 \(O(kd)\)(\(k\) 为树突数)。
实验关键数据¶
主实验:ImageNet-1K 图像分类¶
把 SSA 替换为 LRF-SSA / LRF-Dyn,嵌入 Spikformer / QKFormer / SDT-V3 三种主干。SR 为推理存储复杂度。
| 方法 | 架构 | 存储复杂度 SR | 参数(M) | Acc.(%) |
|---|---|---|---|---|
| Spikformer | Spikformer-8-512 | \(O(d^2)\) | 29.68 | 73.38 |
| Spikformer + LRF-SSA | Spikformer-8-512 | \(O(d^2)\) | 29.71 | 74.62 (↑1.24) |
| Spikformer + LRF-Dyn | Spikformer-8-512 | \(O(kd)\) | 29.71 | 74.51 (↑1.13) |
| QKFormer | HST-10-512 | \(O(d^2)\) | 29.08 | 82.04 |
| QKFormer + LRF-SSA | HST-10-512 | \(O(d^2)\) | 29.18 | 82.52 (↑0.48) |
| QKFormer + LRF-Dyn | HST-10-512 | \(O(kd)\) | 29.18 | 82.48 (↑0.44) |
| SDT-V3 | Eff-Transformer-S | \(O(d^2)\) | 5.11 | 75.30 |
| SDT-V3 + LRF-SSA | Eff-Transformer-S | \(O(d^2)\) | 5.24 | 76.22 (↑0.92) |
| SDT-V3 + LRF-Dyn | Eff-Transformer-S | \(O(kd)\) | 5.24 | 76.12 (↑0.82) |
LRF-SSA 主打精度,跨三种主干均稳定提升且几乎不加参数;LRF-Dyn 在保精度的同时把存储复杂度从 \(O(d^2)\) 降到 \(O(kd)\)。
语义分割(ADE20K)¶
| 模型 | 参数(M) | T | MIoU(%) |
|---|---|---|---|
| SDT-V3 | 5.1+1.4 | 4 | 33.6 |
| SDT-V3 + LRF-SSA | 5.1+1.4 | 4 | 36.2 (↑2.6) |
| SDT-V3 + LRF-Dyn | 5.24+1.4 | 4 | 36.3 (↑2.7) |
| SDT-V3 (19M) + LRF-SSA | 10.0+1.4 | 4 | 43.5 (↑2.2) |
| SDT-V3 (19M) + LRF-Dyn | 19.25+1.4 | 4 | 43.1 (↑1.8) |
分割任务上增益更明显(2~2.7%),且 LRF-Dyn 在无注意力存储下仍优于无注意力的 ResNet 基线。
消融实验(CIFAR-100,Spikformer 主干)¶
| 方法 | w/o LRF | \(\Omega\le1\) | \(\Omega\le3\) | \(\Omega\le5\) |
|---|---|---|---|---|
| LRF-SSA | 77.86 | 78.26 | 78.52 | 78.64 |
| LRF-Dyn | 77.78 | 78.16 | 78.50 | 78.57 |
| Caused SSA† | 74.30 | 75.30 | 76.20 | 76.50 |
去掉 LRF 模块时 LRF-SSA 退化为原始 SSA;增大局部卷积核覆盖(\(\Omega\))能持续涨点,证明局部感受野的贡献。
关键发现¶
- 在 Spikformer-8-512 上,相比 SSA,方法在涨 1.13% 精度的同时降 49.4% 推理显存。
- 有效感受野(ERF)可视化显示 LRF-SSA / LRF-Dyn 都恢复了类 ViT 的局部聚焦,注意力分布更稀疏、更聚焦于显著区域。
亮点与洞察¶
- 问题诊断有理论支撑:把脉冲 Transformer 的两大顽疾干净地归到「删 softmax → 高熵均匀注意力 → 缺局部偏置」和「KV 结合律 → 需存中间矩阵」,并用两条定理(感受野收缩 + 熵序)量化论证,不是拍脑袋。
- 生物启发落到可计算的结构上:局部感受野和膜电位动力学并非口号,而是分别对应到空洞深度卷积和三对角树突动力学,且时不变 \(A\) 让递推能用傅里叶卷积并行训练。
- 一套设计两种取向:LRF-SSA 偏精度、LRF-Dyn 偏显存,二者即插即用、可任选嵌入主流脉冲 Transformer,工程友好。
局限与展望¶
- 写作与公式呈现较粗糙:缓存全文中多处公式排版与符号混乱(如 \(A\)、\(\Gamma\) 的定义、傅里叶卷积式 (15)),树突动力学的部分定义需读附录才能补全,复现门槛偏高。
- 实验局限于视觉分类/分割:未涉及检测、视频或非视觉模态,能效优势主要靠复杂度论证与显存对比间接体现,缺真实神经形态芯片上的能耗实测。
- 超参依赖:树突数 \(n=8\)、空洞因子、融合系数 \(\lambda\) 等对结果的稳健性讨论有限。
- 展望:在 Loihi/天机类神经形态硬件上落地实测能耗、扩展到时序与多模态任务,是把「低显存 + 低能耗」优势真正兑现的下一步。
相关工作与启发¶
- 脉冲 Transformer 谱系:Spikformer 首提 SSA、SpikingResformer 引入 ResNet 降参、Spike-Driven-V3 加入脉冲频率近似(SFA)——本文是在这条线上对「注意力分布质量 + 推理显存」做的针对性手术。
- softmax-free / 线性注意力:Linear/Performer 等用核近似把 \(O(N^2)\) 降到 \(O(N)\),本文借用其矩阵结合律思想,但更进一步把它重写成神经元动力学以彻底免去矩阵存储。
- 启发:对任何「为效率删 softmax」的注意力变体,本文提示了一个通用视角——删 softmax 往往同时删掉了局部偏置与低熵聚焦,需要显式补回;而把线性注意力的累加重写成 RNN/神经元递推,是换取推理显存的有效手段。
评分¶
- 新颖性: ⭐⭐⭐⭐ 把「局部感受野 + 膜电位动力学」双重生物启发统一进脉冲注意力,并用两条定理把直觉量化,视角新颖。
- 实验充分度: ⭐⭐⭐⭐ 跨三种主干、分类+分割+消融+感受野/显存可视化较完整,但缺真实神经形态硬件能耗实测与更广任务。
- 写作质量: ⭐⭐⭐ 思路清晰、动机扎实,但公式排版与树突动力学表述偏乱,复现门槛较高。
- 价值: ⭐⭐⭐⭐ 同时缩小精度差距并降近半推理显存,对边缘/神经形态部署的高能效视觉 Transformer 有实际意义。