ICLR 2026 可解释性符号权重 Dale 定律特征可视化消融分析腹侧视觉通路对抗鲁棒性

Feature Segregation by Signed Weights in Artificial Vision Systems and Biological Models¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=lnTX3GoeTY
代码: 待确认
领域: 机制可解释性 / 计算神经科学
关键词: 符号权重, Dale 定律, 特征可视化, 消融分析, 腹侧视觉通路, 对抗鲁棒性

一句话总结¶

本文发现 ImageNet 训练的 CNN 即使不强加生物学的 Dale 定律，也会自发地把"物体/前景"特征分配给正权重、把"背景/上下文纹理"分配给负权重，并在猕猴腹侧视觉皮层（V1/V4/IT）的神经模型中验证了这一同源的"按符号分离特征"策略。

研究背景与动机¶

领域现状：大脑和人工神经网络都依赖带符号的连接——生物上是兴奋/抑制（Dale 定律：一个神经元的输出要么全兴奋要么全抑制），人工网络上是正/负权重。CNN 的逐层表示从 V1 到 IT 越来越复杂，被广泛当作灵长类腹侧视觉通路最好的计算模型。

现有痛点：人工网络从不强制 Dale 定律，正负权重可以任意混在一个神经元的输入里，因此一直不清楚深度网络究竟"如何沿符号划分视觉信息"。先前工作（Li et al., 2023）只研究了按权重绝对强度的分离，但"前景物体 vs 背景上下文"这类语义特征是否被符号系统性地分开，仍是空白。

核心矛盾：生物视觉里抑制性神经元负责锐化选择性、调节上下文（中心-周边感受野），而人工网络里负权重的功能角色完全没有对应的解释——两套系统是否收敛到同一种"按符号分离"的表征策略？

本文目标：在多样的 ImageNet CNN 上系统检验"CNN 把视觉信息分离进正/负输入"这一假设，并把发现迁移到猕猴皮层的神经编码模型，生成可被神经科学实验检验的预测。

核心 idea（符号即功能）：用一个量化"符号一致性"的 Dale 指数刻画网络的"类 Dale"程度，再通过分别消融正/负权重 + 闭环特征可视化，揭示正权重承载物体/形状/低频信息、负权重承载背景/上下文/纹理信息，并把这套消融协议搬到生物神经元模型上做活体验证。

方法详解¶

整体框架¶

方法由三条互相支撑的分析链组成：先用 Dale 指数度量各层输出通道的符号一致性并关联到分类精度；再对输出层（及中间层）的正/负权重做按累积幅度的分级消融，用 GAN 隐码 + 无梯度 CMA-ES 优化做特征可视化，量化消融前后表征/物体性的变化；最后把同一套"拟合编码模型→消融→可视化"协议套到猕猴 V1/V4/IT 的多电极记录上，在体（in vivo）验证模型预测。

flowchart LR
    A[ImageNet CNN<br/>AlexNet/VGG/ResNet/鲁棒模型] --> B[Dale 指数<br/>量化符号一致性]
    A --> C[按幅度分级消融<br/>正权重 P / 负权重 N]
    C --> D[GAN+CMA-ES<br/>特征可视化]
    D --> E[量化: 余弦相似度<br/>YOLO 物体性 / LPIPS]
    F[猕猴 V1/V4/IT 记录] --> G[PLS 拟合<br/>AlexNet 特征→放电率]
    G --> C
    E --> H[结论: 正权重=物体/前景<br/>负权重=背景/上下文]
    G --> H

关键设计¶

1. Dale 指数：把"符号一致性"变成一个可关联精度的标量。 为衡量人工网络有多接近 Dale 定律，作者对每层的每个输出通道定义 Dale 指数 \(D = \max(p_+, p_-)\)，其中 \(p_+, p_-\) 分别是该通道输出权重中正、负的比例，取值范围 \([0.5, 1]\)——0.5 表示正负各半（最不"Dale"），1 表示全同号（完美兴奋或抑制）。关键发现是：随机初始化时 \(D\) 接近 0.5，训练会把它推高；而且网络在 ImageNet 上的 top-1 精度与输出层平均 Dale 指数正相关，深度越深 \(D\) 越高，带 BatchNorm 的 VGG 输出层 \(D\) 也更高。这说明即使没有任何显式约束，高性能网络也会自发长出符号一致的输出通道，从而把"Dale 定律是否有功能价值"这个生物学问题转译成一个可在人工网络里测量的现象。

2. 按累积幅度的分级消融：用一个连续旋钮分别"关掉"正/负权重。 要判断正负权重各自承载什么，需要能干净地把一类符号的权重单独去掉。给定层的权重矩阵 \(W\)，作者把正权重集 \(P=\{w>0\}\) 和负权重集 \(N=\{w<0\}\) 分开，对每个集合按绝对值降序排列，再定义消融强度 \(\alpha\in[0,1]\) 为"按幅度移除的占比"：找到最小的 \(k\) 使得 \(\sum_{i=1}^{k}|w_i| / \sum_{w\in S}|w| \ge \alpha\)，把这 \(k\) 个最大的权重置零。因为 \(\alpha\) 是归一化的累积幅度，从 0 扫到 1 就等于从"不动"平滑过渡到"全部移除"该符号的权重。这一设计让"正权重消融"和"负权重消融"成为两条可对比的实验曲线，是后续所有结论的操作基础，并且天然可推广到任意层（用梯度定义对任意单元的正负贡献）。

3. GAN + 无梯度 CMA-ES 的闭环特征可视化：让人工与生物实验用同一套协议。 由于活体记录神经元时无法做梯度上升，作者刻意放弃像素梯度可视化，改用优化 GAN 隐码来生成"最大激活图像"：用 AlexNet-fc6 DeePSiM（擅长纹理与物体）和 BigGAN（擅长照片级物体）两个生成器扩大刺激空间，用 CMA-ES 这一零阶进化策略搜索隐码，每单元每消融条件下生成 20 张可视化图。这套零阶闭环协议的核心价值在于：它在人工网络和生物神经元上完全可复用——同一段消融+可视化流程既能跑 CNN 输出单元，也能跑由 PLS 回归拟合的猕猴神经元模型，从而让"模型预测"和"在体验证"在方法层面严格对齐。

4. 多维度量化消融效应：余弦相似度 + 物体性 + 频谱。 仅靠肉眼看可视化不足以下结论，作者用一组互补指标量化消融造成的表征改变：用一组读出 CNN 的集成，计算消融前后图像的平均成对余弦相似度（越低=表征改变越大）；用目标检测网络 YOLOv7 给可视化打物体性分数，衡量"物体是否消失"；再用 LPIPS 和空间频谱分析交叉验证。结论一致且稳健（在 100 个 ImageNet 类上复现）：消融正权重会大幅降低表征相似度、降低物体性、主要破坏低频结构；消融负权重只带来轻微改变、主要改背景与颜色上下文。这套量化把"正=物体、负=上下文"从定性观察坐实为统计结论。

实验关键数据¶

主实验：正/负权重消融的功能差异¶

消融对象	可视化变化	表征余弦相似度	YOLO 物体性	主要受影响频段
正权重 (P)	物体结构被破坏、无法识别	大幅下降	显著降低	低频
负权重 (N)	物体身份保留、背景/颜色改变	仅小幅变化	几乎不变	高频/纹理

每单元正负输入权重比接近 1:1（Table 2），说明两种极性都编码了相关信息，差异在"编码什么"而非"编码多少"。
消融正权重会大幅压低特征可视化能达到的最大激活；消融负权重反而略微提高激活。
结论在 100 类 + LPIPS 等替代指标上复现，具普遍性。

消融实验：机制依赖于 ReLU、增强于鲁棒训练¶

设置	是否出现符号分离	说明
监督 ReLU 网络	强	标准情形，正权重消融破坏最大
无监督预训练 (SimSiam 冻结骨干+线性头)	是（略弱）	物体特征在更低消融强度就消失
Tanh 非整流激活	消失	正负消融造成相近的表征改变
对抗鲁棒 ResNet50 (\(L_\infty\in\{0.5,1,2,4,8\}\))	增强	负权重消融常把背景渲染成白色

鲁棒性越高，对消融越敏感：\(\Delta\)(余弦相似度) 与鲁棒半径的 Spearman 相关在多数消融强度下显著（如 \(\alpha=0.7\) 时正权重 \(\rho=-0.51, p=9\times10^{-6}\)；负权重 \(\rho=-0.52, p=6\times10^{-6}\)）。
符号分离不限于输出层：从 AlexNet 第一层（正通道=高频消色边缘，负通道=低频彩色斑块）到末层卷积（正=动物口鼻/眼睛等局部碎片，负=天空/草地等背景），分离沿网络深度逐渐发育。

关键发现（生物验证）¶

用 PLS 回归把 AlexNet 倒数第二层（4096 单元）特征映射到 V1/V4/IT 神经元放电率，对神经元模型做同样的消融：消融正权重显著降低预测放电率与实测放电率，消融负权重影响小；该模式在单神经元与群体水平都成立（59 个模型）。
仅用正权重预测会同时降低训练/测试精度，说明神经元模型需要正负输入共同参与。
在体背景操纵实验：把神经元偏好特征周围的背景清空（减少推测的抑制性驱动），神经元响应增强——为"负/抑制性输入负责上下文调节"提供了功能证据。

亮点与洞察¶

把一个生物学原理（Dale 定律）转译成可测量的人工网络现象，并反向用人工网络生成可在猕猴皮层检验的神经科学预测，形成"模型↔大脑"的双向闭环，方法学上很优雅。
正=物体/低频/形状、负=背景/纹理/上下文这一干净的功能二分，给出了 Xiao et al. (2020) 观察到的"背景也参与分类"现象一个机制解释：背景主要由负输入编码。
揭示了 ReLU 整流是符号分离的必要条件（Tanh 下消失），把表征几何与激活函数非线性联系起来，呼应了 Alleman et al. (2023) 的玩具网络理论并推广到实用规模。
提出"按符号消融"可作为控制大脑群体活动的潜在手段——正权重消融生成的图像确实压低了皮层群体响应。

局限与展望¶

主要结论基于输出层单元，受算力限制最多只测了 100 类/网络，尚未穷举 1000 类；作者认为大规模仿真会进一步坐实但不会推翻主张。
神经记录仅用 160 张图回归神经元响应，更大规模 diverseSet 可能提升模型拟合。
神经科学结论要一一映射到兴奋/抑制神经元仍需网络严格服从 Dale 定律，本文不主张完美映射。
"形状 vs 纹理、前景 vs 背景"的根本划分仍未彻底解决，符号分离的完整边界有待更多工作。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次把"按权重符号分离前景/背景特征"系统化，并打通人工网络与活体猕猴皮层的双向验证，视角新颖。
实验充分度: ⭐⭐⭐⭐ 覆盖多架构、监督/无监督、鲁棒/普通、ReLU/Tanh，并有在体神经验证；唯算力所限未穷举全部类别。
写作质量: ⭐⭐⭐⭐ 假设—测试—验证逻辑清晰，图表与量化指标互相印证。
价值: ⭐⭐⭐⭐⭐ 既为可解释性提供生物学原语，又为视觉神经科学生成可检验预测，跨学科价值高。