Training Deep Normalization-Free Spiking Neural Networks with Lateral Inhibition¶
论文信息¶
- 会议: ICLR 2026
- arXiv: 2509.23253
- 代码: https://github.com/vwOvOwv/DeepEISNN
- 领域: 脉冲神经网络 / 神经形态计算 / 生物启发计算
- 关键词: SNN, 侧向抑制, 兴奋-抑制回路, 无归一化训练, 生物合理性
一句话总结¶
提出基于皮层兴奋-抑制(E-I)回路的无归一化学习框架 DeepEISNN,通过 E-I Init 和 E-I Prop 两项技术实现深度 SNN 的稳定端到端训练,兼顾性能与生物合理性。
研究背景与动机¶
核心矛盾¶
SNN 训练面临性能与生物合理性的权衡: - 高性能方法(反向传播 + 批归一化):将 SNN 当作普通深度学习构件,牺牲基本生物属性 - 高生物合理性方法(STDP 等):训练不稳定,仅适用于浅层网络
为什么需要去归一化?¶
BatchNorm 等归一化方案从整批输入收集统计量,在生物系统中没有已知类比。这使得使用归一化的 SNN 作为大规模皮层计算的计算平台变得不合理。
E-I 回路的重要性¶
皮层中约 80% 为兴奋性神经元,20% 为抑制性神经元。E-I 交互在增益控制、神经振荡、选择性注意等方面起关键作用,但现有深度 SNN 通常忽略这一基本原理。
方法详解¶
整体框架¶
DeepEISNN 把每层网络重组成一个皮层式的兴奋-抑制(excitatory-inhibitory, E-I)回路:兴奋性神经元用标准 LIF 动力学传递信息,抑制性神经元则提供侧向抑制,用「减法」与「除法」两种方式去抵消和缩放兴奋电流,从而在不依赖任何批统计的情况下把激活幅度自动稳定下来。围绕这个回路再补两块工程:E-I Init 给出符合 E-I 约束的初始化、让初始激活落在合理范围,E-I Prop 处理除法抑制带来的数值与梯度问题、使深层网络能端到端训练。整体可看作「初始化 → 前向 E-I 回路稳幅 → 稳定反传」三件事环绕同一条主干。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
X["前层兴奋脉冲"] --> IEE
INIT["E-I Init:同号权重初始化<br/>指数分布权重 + 增益设定"] -.初始化权重.-> IEE
subgraph CIRCUIT["E-I 回路:兴奋-抑制平衡替代归一化"]
direction TB
IEE["兴奋电流"] --> SI["抑制神经元输出<br/>(快速近似为 ReLU)"]
SI --> SUB["减法抑制:压均值回零"]
SI --> DIV["除法抑制:增益控制(作分母)"]
SUB --> INT["整合电流<br/>减均值后再除标度"]
DIV --> INT
INT --> LIF["LIF 膜电位更新<br/>发放兴奋脉冲"]
end
PROP["E-I Prop:让除法抑制稳定反传<br/>自适应稳定化 + STE + 梯度缩放"] -.稳定梯度.-> DIV
LIF --> OUT["下一层 / 分类输出"]
关键设计¶
1. E-I 回路:用兴奋-抑制平衡替代归一化
归一化之所以在生物上不合理,是因为它要从整批输入收集统计量;本设计的思路是让稳幅这件事完全发生在单层内部、只用当前层自己的脉冲。每层包含 \(n_E^{[l]}\) 个兴奋性与 \(n_I^{[l]}\) 个抑制性神经元,比例固定为 4:1,呼应皮层中约 80% 兴奋、20% 抑制的统计。兴奋性神经元遵循 LIF 膜电位更新 \(\mathbf{u}_E^{[l]}[t+1] = (1-\tfrac{1}{\tau_E})(\mathbf{u}_E^{[l]}[t] - \theta_E \mathbf{s}_E^{[l]}[t]) + \mathbf{I}_E^{[l]}[t]\);抑制性神经元由于时间常数 \(\tau_I \ll \tau_E\) 近似瞬态稳态,其输出退化为 \(\mathbf{s}_I^{[l]}[t] \approx \max(0, \mathbf{I}_I^{[l]}[t])\),相当于一个 ReLU。关键在于侧向抑制被拆成两条通路:减法抑制 \(\mathbf{I}_{EI,\text{sub}}^{[l]}[t] = \boldsymbol{W}_{EI}^{[l]} \mathbf{s}_I^{[l]}[t]\) 负责把兴奋电流的均值压回零(E-I 平衡),除法抑制 \(\mathbf{I}_{EI,\text{div}}^{[l]}[t] = \boldsymbol{W}_{EI}^{[l]}(\mathbf{g}_I^{[l]} \odot \mathbf{s}_I^{[l]}[t])\) 则作为分母实现增益控制。两者最终整合成输入电流:
这个「减均值、除标度」的结构在功能上正对应 BatchNorm 的中心化与缩放,但所有量都来自当前层自身的脉冲、不需要跨批统计,因而保留了生物可实现性。
2. E-I Init:给同号权重约束量身定制的初始化
E-I 约束要求兴奋权重恒正、抑制权重恒负,而标准 Xavier/Kaiming 假设权重零均值对称分布,在这里直接失效——若沿用,初始激活会立刻偏离合理范围、深层训练发散。论文按上面回路的两个功能分别设定初始化目标。一是让减法抑制在期望上抵消兴奋电流均值,即 \(\mathbb{E}[\mathbf{I}_{EE,i}^{[l]}] \approx \mathbb{E}[\mathbf{I}_{EI,\text{sub},i}^{[l]}]\),做法是用指数分布初始化兴奋权重、把抑制权重设为 \(1/n_I^{[l]}\)。二是让除法抑制在期望上等于兴奋电流的标准差,即 \(\mathbb{E}[\mathbf{I}_{EI,\text{div},i}^{[l]}] = \text{std}(\mathbf{I}_{EE,i}^{[l]})\),对应把增益 \(\mathbf{g}_I^{[l]}\) 的每个元素设为 \(\sqrt{\tfrac{2-p}{dp}}\),从而在初始时就复现归一化的标准化效果。式中平均发放概率 \(p\) 不是写死的常数,而是用训练集第一批数据动态估计出来,让初始化贴合实际数据分布。
3. E-I Prop:让除法抑制能稳定地反传梯度
除法抑制把分母引入前向计算,分母接近零时会数值爆炸、梯度也会失真,是阻碍这套回路端到端训练的拦路虎。E-I Prop 用三招化解。其一是自适应稳定化:不再加一个固定的小常数 \(\epsilon\),而是用同一样本内的最小正值动态替换为零的除数,避免常数 \(\epsilon\) 在不同尺度下要么不够、要么过大。其二是直通估计器(straight-through estimator, STE):前向照常执行这个替换操作,反向却把替换视为恒等映射,使梯度能绕过这个不可导的操作正常流回。其三是梯度缩放:把侧向权重 \(\boldsymbol{W}_{EI}^{[l]}\) 的梯度乘以 \(1/d\),平衡前向路径与侧向抑制路径的更新幅度,防止抑制路径梯度过大而压垮主干。消融显示这三招缺一不可——去掉自适应稳定化会数值爆炸,去掉 STE 会让梯度方向出错,去掉缩放则抑制路径梯度过大。
实验¶
分类任务性能¶
| 数据集 | 方法 | 架构 | E-I | BN-free | 准确率(%) |
|---|---|---|---|---|---|
| CIFAR-10 | Vanilla BN | ResNet-18 | ✗ | ✗ | 95.37 |
| CIFAR-10 | TEBN | ResNet-19 | ✗ | ✗ | 94.70 |
| CIFAR-10 | DeepEISNN | ResNet-18 | ✓ | ✓ | 92.05 |
| CIFAR-10 | DANN (ANN) | VGG-16 | ✓ | ✓ | 88.54 |
| CIFAR-10 | BackEISNN | 5-layer CNN | ✓ | ✓ | 90.93 |
| DVS-Gesture | DeepEISNN | VGG-8 | ✓ | ✓ | 94.86 |
| CIFAR10-DVS | DeepEISNN | VGG-8 | ✓ | ✓ | 77.66 |
关键发现¶
- DeepEISNN (ResNet-18) 在 CIFAR-10 上达 92.05%,超越所有无归一化基线
- 在神经形态数据集上(DVS-Gesture, CIFAR10-DVS)超越多个使用 BN 的方法
- 在 TinyImageNet 上达 50.29%,证明可扩展到更大数据集
- E-I Init 和 E-I Prop 的每个组件都是必需的——缺少任何一个都导致训练崩溃
消融实验¶
- 无 E-I Init → 训练失败(发放率崩溃)
- 无自适应稳定化 → 数值爆炸
- 无 STE → 梯度方向错误
- 无梯度缩放 → 抑制路径梯度过大
亮点¶
- 首次在深度 SNN 中实现无归一化训练的同时保持竞争力性能
- 生物合理性与工程性能的平衡:E-I 回路不仅是正则化技巧,也是生物建模
- 理论分析完善:从指数分布推导到增益控制条件
- 为大规模皮层计算模拟提供平台
局限性¶
- 与使用 BN 的 SNN 仍有 ~3% 精度差距
- 固定 4:1 的 E-I 比例是否最优未探索
- 快速脉冲近似将抑制性神经元简化为 ReLU,可能过度简化
- 仅在分类任务上验证,未测试生成或序列建模任务
相关工作¶
- SNN 归一化: BNTT, tdBN, TEBN, TAB — BN 的 SNN 变体
- E-I 网络: Cornford et al. (2021) — ANN 中的 E-I 网络
- SNN 训练: STBP, TEBN — 代理梯度和归一化技术
评分¶
- 创新性: ⭐⭐⭐⭐ — E-I 回路替代归一化的思路新颖且有生物依据
- 实验充分性: ⭐⭐⭐⭐ — 多数据集多架构验证
- 写作质量: ⭐⭐⭐⭐ — 从生物原理到工程实现的推导清晰
- 实用性: ⭐⭐⭐ — 性能差距仍存在,但为 NeuroAI 提供重要基础