Select, Hypothesize and Verify: Towards Verified Neuron Concept Interpretation¶
会议: CVPR 2026
arXiv: 2603.24953
代码: 无
领域: LLM安全
关键词: 神经元解释, 概念验证, 可解释AI, 神经元功能分析, 闭环验证
一句话总结¶
提出 SIEVE(Select–Hypothesize–Verify)框架,通过筛选高激活样本、生成概念假设、再用文生图验证的闭环流程来解释神经元功能,生成的概念激活对应神经元的概率约为现有 SOTA 的 1.5 倍。
研究背景与动机¶
-
领域现状:神经网络可解释性研究中,理解单个神经元的功能(即它编码什么概念)是一个核心问题。现有方法如 Network Dissection、CLIP-Dissect、FALCON、DnD 等通过自然语言描述神经元概念,取得了一定进展。
-
现有痛点:这些方法都基于一个共同假设——每个神经元都有明确定义的功能并为决策提供区分性特征。但研究表明,网络中存在冗余神经元,它们并不贡献于决策。为这些神经元生成描述会导致误解,让人错误理解网络的决策机制。
-
核心矛盾:现有方法本质上是"观察→假设"的过程,从探测数据集上的激活分布推断神经元功能,但由于数据覆盖有限,这些假设可能存在数据集偏差,无法准确反映神经元的真实功能。缺少验证环节。
-
本文目标:(1) 如何过滤掉不提供区分性特征的神经元;(2) 如何验证生成的概念是否真正匹配神经元功能。
-
切入角度:借鉴神经科学的"观察→假设→验证"科学方法论,认为深度网络的可解释性研究也应遵循同样的闭环逻辑。
-
核心 idea:通过激活分布筛选有效神经元、聚类生成概念假设、再用文生图生成验证图像来闭环验证概念-神经元匹配度。
方法详解¶
整体框架¶
SIEVE 框架包含三个阶段:输入一个预训练分类网络和探测数据集,(1) Select:根据激活分布筛选出激活模式一致的高质量样本;(2) Hypothesize:对筛选后的样本聚类,利用视觉语言模型为每个聚类生成概念假设;(3) Verify:基于假设概念用 Stable Diffusion 生成图像,测量生成图像是否能高激活对应神经元,以此验证概念的准确性。
关键设计¶
-
高激活样本筛选(Select):
- 功能:筛选出激活模式一致、反映神经元明确功能的样本
- 核心思路:计算每个神经元在探测数据集上的激活分布,用第99百分位数与中位数的比值来量化神经元的响应区分度。如果比值超过阈值 \(\beta\)(默认为10),则认为该神经元编码了明确的功能特征。对于通过筛选的神经元,取 top-20 高激活样本。高区分度神经元(如 Neuron 507)在特定刺激上有一致的高响应,而低区分度神经元(如 Neuron 144)响应分散。
- 设计动机:过滤掉冗余/无区分性神经元,避免为它们生成误导性概念描述
-
概念假设生成(Hypothesize):
- 功能:为每个神经元的高激活样本生成自然语言概念描述
- 核心思路:先根据神经元激活图裁剪出高激活区域的 patch,提取特征后用凝聚聚类分组(聚类数由 Silhouette 分数自动确定),捕获单个神经元可能对应的多种功能模式。对每个聚类,用 CLIP 在预定义概念集中匹配 top-K(K=2)概念作为该聚类的功能假设:\(h_{i,j} = \arg\text{top-}K(\{g(t_q, C_{i,j}) \mid t_q \in \mathcal{T}\}, K)\)
- 设计动机:通过聚类发现单个神经元的多种功能模式,比单一描述更准确
-
概念验证(Verify):
- 功能:通过构造性干预验证假设概念与神经元功能的一致性
- 核心思路:用假设概念作为文本 prompt,通过 Stable Diffusion 生成独立于探测数据集的验证图像集。将这些图像输入目标网络,计算激活率(Activation Rate):\(AR_i = \frac{1}{|\mathcal{D}_{gen}^{(i,j)}|} \sum_{x_{gen}} \mathbb{1}\{a_i^l(x_{gen}) > T_i\}\),其中 \(T_i\) 为 Top 1% 激活阈值。AR 低的假设被丢弃,保留高 AR 的概念作为最终解释。
- 设计动机:区别于传统的破坏性干预(如神经元消融),采用构造性方法——主动生成与假设概念一致的刺激来观察神经元反应,类似科学实验中的对照验证
损失函数 / 训练策略¶
本方法不涉及训练,是一个后分析框架。关键超参:激活阈值 \(\beta=10\),聚类数自动确定,每个聚类取 top-2 概念,验证时使用 mean AR 作为过滤阈值。
实验关键数据¶
主实验¶
在 ImageNet 预训练的 ResNet-50 上,使用 Common Words (3k) 概念集:
| 方法 | CLIP cos | mpnet cos | mean AR (%) |
|---|---|---|---|
| Network Dissect | 0.7073 | 0.3256 | 45.01 |
| CLIP-Dissect | 0.7868 | 0.4462 | 57.91 |
| WWW | 0.7713 | 0.4463 | 50.23 |
| DnD | 0.7595 | 0.4371 | 51.46 |
| SIEVE (本文) | 0.7914 | 0.4547 | 86.29 |
ViT-B/16 上类似趋势:SIEVE 的 mean AR 达 85.24%,远超 CLIP-Dissect 的 57.70%。
消融实验¶
| 配置 | CLIP cos | mpnet cos | mean AR (%) |
|---|---|---|---|
| Baseline (无任何模块) | 0.6738 | 0.2306 | 45.57 |
| + Select + Cluster | 0.7624 | 0.4301 | 77.90 |
| + Select + Verify | 0.7821 | 0.4423 | 81.52 |
| + Select + Cluster (无Verify) | 0.7656 | 0.4189 | 72.87 |
| Full model | 0.7914 | 0.4547 | 86.29 |
关键发现¶
- Verify 模块贡献最大:去掉 Verify 后 mean AR 从 86.29% 降至 72.87%,证明验证环节对确保概念-神经元匹配的关键性
- 阈值 β 鲁棒:β 在 4-12 范围内变化对最终指标影响极小(mean AR 波动 <1%)
- 域迁移场景下验证仍有效:在遥感数据(EuroSAT)上存在域偏移时,SIEVE 仍达 75.45% mean AR,而 CLIP-Dissect 仅 43.16%
- SIEVE 能提供更细粒度的描述:如 ViT-B/16 的 Neuron 37 被描述为"Short Dense Coat",而 baseline 只给出粗略的"Dog"
亮点与洞察¶
- 科学方法论的引入:将神经科学的"观察→假设→验证"范式引入 DNN 可解释性,是一个非常优雅的跨领域类比。验证这一步补齐了现有方法的关键短板。
- 构造性验证:不同于传统的消融实验(破坏性),通过文生图主动构造符合假设的刺激,这种正向验证更直接、更有说服力。
- 冗余神经元过滤:第一个显式处理"不是所有神经元都有意义"这个问题的工作,避免了对冗余神经元的误解释。
局限与展望¶
- 文生图模型的域偏移:验证阶段依赖 Stable Diffusion 生成图像,当目标网络训练在特殊领域(如遥感)时,生成图像与真实数据差异大,可能影响验证准确度
- 概念集的限制:仍依赖预定义概念集(如 Broden、Common Words),无法发现概念集之外的新概念
- 计算开销:需要为每个神经元的每个概念生成多张验证图像,规模化到整个网络时计算量显著
- 仅关注倒数第二层:未扩展到浅层神经元的解释
相关工作与启发¶
- vs CLIP-Dissect: CLIP-Dissect 直接用 CLIP 匹配概念与激活样本,缺少验证环节;SIEVE 在匹配之后增加闭环验证,mean AR 提升约 30%
- vs FALCON/WWW: 这些方法改进了概念描述质量但仍假设所有神经元都有意义,SIEVE 通过 Select 阶段过滤冗余神经元
- vs DnD: DnD 用 LLM 生成更高质量的自然语言描述,但同样缺少验证,mean AR 仅 51.46%
评分¶
- 新颖性: ⭐⭐⭐⭐ 将科学方法论的闭环验证引入神经元解释领域,思路清晰且有说服力
- 实验充分度: ⭐⭐⭐⭐ 覆盖了 ResNet-18/50、ViT-B/16 多个模型和多个数据集,消融全面
- 写作质量: ⭐⭐⭐⭐ 逻辑清晰,科学方法论的类比引入自然
- 价值: ⭐⭐⭐⭐ 提出的 mean AR 指标可作为通用评估标准,验证范式对后续可解释性工作有参考意义