Training Deep Normalization-Free Spiking Neural Networks with Lateral Inhibition¶

论文信息¶

会议: ICLR 2026
arXiv: 2509.23253
代码: https://github.com/vwOvOwv/DeepEISNN
领域: 脉冲神经网络 / 神经形态计算 / 生物启发计算
关键词: SNN, 侧向抑制, 兴奋-抑制回路, 无归一化训练, 生物合理性

一句话总结¶

提出基于皮层兴奋-抑制（E-I）回路的无归一化学习框架 DeepEISNN，通过 E-I Init 和 E-I Prop 两项技术实现深度 SNN 的稳定端到端训练，兼顾性能与生物合理性。

研究背景与动机¶

核心矛盾¶

SNN 训练面临性能与生物合理性的权衡： - 高性能方法（反向传播 + 批归一化）：将 SNN 当作普通深度学习构件，牺牲基本生物属性 - 高生物合理性方法（STDP 等）：训练不稳定，仅适用于浅层网络

为什么需要去归一化？¶

BatchNorm 等归一化方案从整批输入收集统计量，在生物系统中没有已知类比。这使得使用归一化的 SNN 作为大规模皮层计算的计算平台变得不合理。

E-I 回路的重要性¶

皮层中约 80% 为兴奋性神经元，20% 为抑制性神经元。E-I 交互在增益控制、神经振荡、选择性注意等方面起关键作用，但现有深度 SNN 通常忽略这一基本原理。

方法详解¶

整体框架¶

DeepEISNN 把每层网络重组成一个皮层式的兴奋-抑制（excitatory-inhibitory, E-I）回路：兴奋性神经元用标准 LIF 动力学传递信息，抑制性神经元则提供侧向抑制，用「减法」与「除法」两种方式去抵消和缩放兴奋电流，从而在不依赖任何批统计的情况下把激活幅度自动稳定下来。围绕这个回路再补两块工程：E-I Init 给出符合 E-I 约束的初始化、让初始激活落在合理范围，E-I Prop 处理除法抑制带来的数值与梯度问题、使深层网络能端到端训练。整体可看作「初始化 → 前向 E-I 回路稳幅 → 稳定反传」三件事环绕同一条主干。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    X["前层兴奋脉冲"] --> IEE
    INIT["E-I Init：同号权重初始化<br/>指数分布权重 + 增益设定"] -.初始化权重.-> IEE
    subgraph CIRCUIT["E-I 回路：兴奋-抑制平衡替代归一化"]
        direction TB
        IEE["兴奋电流"] --> SI["抑制神经元输出<br/>（快速近似为 ReLU）"]
        SI --> SUB["减法抑制：压均值回零"]
        SI --> DIV["除法抑制：增益控制（作分母）"]
        SUB --> INT["整合电流<br/>减均值后再除标度"]
        DIV --> INT
        INT --> LIF["LIF 膜电位更新<br/>发放兴奋脉冲"]
    end
    PROP["E-I Prop：让除法抑制稳定反传<br/>自适应稳定化 + STE + 梯度缩放"] -.稳定梯度.-> DIV
    LIF --> OUT["下一层 / 分类输出"]

关键设计¶

1. E-I 回路：用兴奋-抑制平衡替代归一化

归一化之所以在生物上不合理，是因为它要从整批输入收集统计量；本设计的思路是让稳幅这件事完全发生在单层内部、只用当前层自己的脉冲。每层包含 \(n_E^{[l]}\) 个兴奋性与 \(n_I^{[l]}\) 个抑制性神经元，比例固定为 4:1，呼应皮层中约 80% 兴奋、20% 抑制的统计。兴奋性神经元遵循 LIF 膜电位更新 \(\mathbf{u}_E^{[l]}[t+1] = (1-\tfrac{1}{\tau_E})(\mathbf{u}_E^{[l]}[t] - \theta_E \mathbf{s}_E^{[l]}[t]) + \mathbf{I}_E^{[l]}[t]\)；抑制性神经元由于时间常数 \(\tau_I \ll \tau_E\) 近似瞬态稳态，其输出退化为 \(\mathbf{s}_I^{[l]}[t] \approx \max(0, \mathbf{I}_I^{[l]}[t])\)，相当于一个 ReLU。关键在于侧向抑制被拆成两条通路：减法抑制 \(\mathbf{I}_{EI,\text{sub}}^{[l]}[t] = \boldsymbol{W}_{EI}^{[l]} \mathbf{s}_I^{[l]}[t]\) 负责把兴奋电流的均值压回零（E-I 平衡），除法抑制 \(\mathbf{I}_{EI,\text{div}}^{[l]}[t] = \boldsymbol{W}_{EI}^{[l]}(\mathbf{g}_I^{[l]} \odot \mathbf{s}_I^{[l]}[t])\) 则作为分母实现增益控制。两者最终整合成输入电流：

\[\mathbf{I}_{\text{int}}^{[l]}[t] = \mathbf{g}_E^{[l]} \odot \frac{\mathbf{I}_{EE}^{[l]}[t] - \mathbf{I}_{EI,\text{sub}}^{[l]}[t]}{\mathbf{I}_{EI,\text{div}}^{[l]}[t]} + \mathbf{b}_E^{[l]}\]

这个「减均值、除标度」的结构在功能上正对应 BatchNorm 的中心化与缩放，但所有量都来自当前层自身的脉冲、不需要跨批统计，因而保留了生物可实现性。

2. E-I Init：给同号权重约束量身定制的初始化

E-I 约束要求兴奋权重恒正、抑制权重恒负，而标准 Xavier/Kaiming 假设权重零均值对称分布，在这里直接失效——若沿用，初始激活会立刻偏离合理范围、深层训练发散。论文按上面回路的两个功能分别设定初始化目标。一是让减法抑制在期望上抵消兴奋电流均值，即 \(\mathbb{E}[\mathbf{I}_{EE,i}^{[l]}] \approx \mathbb{E}[\mathbf{I}_{EI,\text{sub},i}^{[l]}]\)，做法是用指数分布初始化兴奋权重、把抑制权重设为 \(1/n_I^{[l]}\)。二是让除法抑制在期望上等于兴奋电流的标准差，即 \(\mathbb{E}[\mathbf{I}_{EI,\text{div},i}^{[l]}] = \text{std}(\mathbf{I}_{EE,i}^{[l]})\)，对应把增益 \(\mathbf{g}_I^{[l]}\) 的每个元素设为 \(\sqrt{\tfrac{2-p}{dp}}\)，从而在初始时就复现归一化的标准化效果。式中平均发放概率 \(p\) 不是写死的常数，而是用训练集第一批数据动态估计出来，让初始化贴合实际数据分布。

3. E-I Prop：让除法抑制能稳定地反传梯度

除法抑制把分母引入前向计算，分母接近零时会数值爆炸、梯度也会失真，是阻碍这套回路端到端训练的拦路虎。E-I Prop 用三招化解。其一是自适应稳定化：不再加一个固定的小常数 \(\epsilon\)，而是用同一样本内的最小正值动态替换为零的除数，避免常数 \(\epsilon\) 在不同尺度下要么不够、要么过大。其二是直通估计器（straight-through estimator, STE）：前向照常执行这个替换操作，反向却把替换视为恒等映射，使梯度能绕过这个不可导的操作正常流回。其三是梯度缩放：把侧向权重 \(\boldsymbol{W}_{EI}^{[l]}\) 的梯度乘以 \(1/d\)，平衡前向路径与侧向抑制路径的更新幅度，防止抑制路径梯度过大而压垮主干。消融显示这三招缺一不可——去掉自适应稳定化会数值爆炸，去掉 STE 会让梯度方向出错，去掉缩放则抑制路径梯度过大。

实验¶

分类任务性能¶

数据集	方法	架构	E-I	BN-free	准确率(%)
CIFAR-10	Vanilla BN	ResNet-18	✗	✗	95.37
CIFAR-10	TEBN	ResNet-19	✗	✗	94.70
CIFAR-10	DeepEISNN	ResNet-18	✓	✓	92.05
CIFAR-10	DANN (ANN)	VGG-16	✓	✓	88.54
CIFAR-10	BackEISNN	5-layer CNN	✓	✓	90.93
DVS-Gesture	DeepEISNN	VGG-8	✓	✓	94.86
CIFAR10-DVS	DeepEISNN	VGG-8	✓	✓	77.66

关键发现¶

DeepEISNN (ResNet-18) 在 CIFAR-10 上达 92.05%，超越所有无归一化基线
在神经形态数据集上（DVS-Gesture, CIFAR10-DVS）超越多个使用 BN 的方法
在 TinyImageNet 上达 50.29%，证明可扩展到更大数据集
E-I Init 和 E-I Prop 的每个组件都是必需的——缺少任何一个都导致训练崩溃

消融实验¶

无 E-I Init → 训练失败（发放率崩溃）
无自适应稳定化 → 数值爆炸
无 STE → 梯度方向错误
无梯度缩放 → 抑制路径梯度过大

亮点¶

首次在深度 SNN 中实现无归一化训练的同时保持竞争力性能
生物合理性与工程性能的平衡：E-I 回路不仅是正则化技巧，也是生物建模
理论分析完善：从指数分布推导到增益控制条件
为大规模皮层计算模拟提供平台

局限性¶

与使用 BN 的 SNN 仍有 ~3% 精度差距
固定 4:1 的 E-I 比例是否最优未探索
快速脉冲近似将抑制性神经元简化为 ReLU，可能过度简化
仅在分类任务上验证，未测试生成或序列建模任务

评分¶

创新性: ⭐⭐⭐⭐ — E-I 回路替代归一化的思路新颖且有生物依据
实验充分性: ⭐⭐⭐⭐ — 多数据集多架构验证
写作质量: ⭐⭐⭐⭐ — 从生物原理到工程实现的推导清晰
实用性: ⭐⭐⭐ — 性能差距仍存在，但为 NeuroAI 提供重要基础