Select, Hypothesize and Verify: Towards Verified Neuron Concept Interpretation¶

会议: CVPR 2026
arXiv: 2603.24953
代码: 无
领域: LLM安全
关键词: 神经元解释, 概念验证, 可解释AI, 神经元功能分析, 闭环验证

一句话总结¶

提出 SIEVE（Select–Hypothesize–Verify）框架，通过筛选高激活样本、生成概念假设、再用文生图验证的闭环流程来解释神经元功能，生成的概念激活对应神经元的概率约为现有 SOTA 的 1.5 倍。

研究背景与动机¶

领域现状：神经网络可解释性研究中，理解单个神经元的功能（即它编码什么概念）是一个核心问题。现有方法如 Network Dissection、CLIP-Dissect、FALCON、DnD 等通过自然语言描述神经元概念，取得了一定进展。
现有痛点：这些方法都基于一个共同假设——每个神经元都有明确定义的功能并为决策提供区分性特征。但研究表明，网络中存在冗余神经元，它们并不贡献于决策。为这些神经元生成描述会导致误解，让人错误理解网络的决策机制。
核心矛盾：现有方法本质上是"观察→假设"的过程，从探测数据集上的激活分布推断神经元功能，但由于数据覆盖有限，这些假设可能存在数据集偏差，无法准确反映神经元的真实功能。缺少验证环节。
本文目标：(1) 如何过滤掉不提供区分性特征的神经元；(2) 如何验证生成的概念是否真正匹配神经元功能。
切入角度：借鉴神经科学的"观察→假设→验证"科学方法论，认为深度网络的可解释性研究也应遵循同样的闭环逻辑。
核心 idea：通过激活分布筛选有效神经元、聚类生成概念假设、再用文生图生成验证图像来闭环验证概念-神经元匹配度。

方法详解¶

整体框架¶

SIEVE 框架包含三个阶段：输入一个预训练分类网络和探测数据集，(1) Select：根据激活分布筛选出激活模式一致的高质量样本；(2) Hypothesize：对筛选后的样本聚类，利用视觉语言模型为每个聚类生成概念假设；(3) Verify：基于假设概念用 Stable Diffusion 生成图像，测量生成图像是否能高激活对应神经元，以此验证概念的准确性。

关键设计¶

高激活样本筛选（Select）:
- 功能：筛选出激活模式一致、反映神经元明确功能的样本
- 核心思路：计算每个神经元在探测数据集上的激活分布，用第99百分位数与中位数的比值来量化神经元的响应区分度。如果比值超过阈值 \(\beta\)（默认为10），则认为该神经元编码了明确的功能特征。对于通过筛选的神经元，取 top-20 高激活样本。高区分度神经元（如 Neuron 507）在特定刺激上有一致的高响应，而低区分度神经元（如 Neuron 144）响应分散。
- 设计动机：过滤掉冗余/无区分性神经元，避免为它们生成误导性概念描述
概念假设生成（Hypothesize）:
- 功能：为每个神经元的高激活样本生成自然语言概念描述
- 核心思路：先根据神经元激活图裁剪出高激活区域的 patch，提取特征后用凝聚聚类分组（聚类数由 Silhouette 分数自动确定），捕获单个神经元可能对应的多种功能模式。对每个聚类，用 CLIP 在预定义概念集中匹配 top-K（K=2）概念作为该聚类的功能假设：\(h_{i,j} = \arg\text{top-}K(\{g(t_q, C_{i,j}) \mid t_q \in \mathcal{T}\}, K)\)
- 设计动机：通过聚类发现单个神经元的多种功能模式，比单一描述更准确
概念验证（Verify）:
- 功能：通过构造性干预验证假设概念与神经元功能的一致性
- 核心思路：用假设概念作为文本 prompt，通过 Stable Diffusion 生成独立于探测数据集的验证图像集。将这些图像输入目标网络，计算激活率（Activation Rate）：\(AR_i = \frac{1}{|\mathcal{D}_{gen}^{(i,j)}|} \sum_{x_{gen}} \mathbb{1}\{a_i^l(x_{gen}) > T_i\}\)，其中 \(T_i\) 为 Top 1% 激活阈值。AR 低的假设被丢弃，保留高 AR 的概念作为最终解释。
- 设计动机：区别于传统的破坏性干预（如神经元消融），采用构造性方法——主动生成与假设概念一致的刺激来观察神经元反应，类似科学实验中的对照验证

损失函数 / 训练策略¶

本方法不涉及训练，是一个后分析框架。关键超参：激活阈值 \(\beta=10\)，聚类数自动确定，每个聚类取 top-2 概念，验证时使用 mean AR 作为过滤阈值。

实验关键数据¶

主实验¶

在 ImageNet 预训练的 ResNet-50 上，使用 Common Words (3k) 概念集：

方法	CLIP cos	mpnet cos	mean AR (%)
Network Dissect	0.7073	0.3256	45.01
CLIP-Dissect	0.7868	0.4462	57.91
WWW	0.7713	0.4463	50.23
DnD	0.7595	0.4371	51.46
SIEVE (本文)	0.7914	0.4547	86.29

ViT-B/16 上类似趋势：SIEVE 的 mean AR 达 85.24%，远超 CLIP-Dissect 的 57.70%。

消融实验¶

配置	CLIP cos	mpnet cos	mean AR (%)
Baseline (无任何模块)	0.6738	0.2306	45.57
+ Select + Cluster	0.7624	0.4301	77.90
+ Select + Verify	0.7821	0.4423	81.52
+ Select + Cluster (无Verify)	0.7656	0.4189	72.87
Full model	0.7914	0.4547	86.29

关键发现¶

Verify 模块贡献最大：去掉 Verify 后 mean AR 从 86.29% 降至 72.87%，证明验证环节对确保概念-神经元匹配的关键性
阈值 β 鲁棒：β 在 4-12 范围内变化对最终指标影响极小（mean AR 波动 <1%）
域迁移场景下验证仍有效：在遥感数据（EuroSAT）上存在域偏移时，SIEVE 仍达 75.45% mean AR，而 CLIP-Dissect 仅 43.16%
SIEVE 能提供更细粒度的描述：如 ViT-B/16 的 Neuron 37 被描述为"Short Dense Coat"，而 baseline 只给出粗略的"Dog"

亮点与洞察¶

科学方法论的引入：将神经科学的"观察→假设→验证"范式引入 DNN 可解释性，是一个非常优雅的跨领域类比。验证这一步补齐了现有方法的关键短板。
构造性验证：不同于传统的消融实验（破坏性），通过文生图主动构造符合假设的刺激，这种正向验证更直接、更有说服力。
冗余神经元过滤：第一个显式处理"不是所有神经元都有意义"这个问题的工作，避免了对冗余神经元的误解释。

局限与展望¶

文生图模型的域偏移：验证阶段依赖 Stable Diffusion 生成图像，当目标网络训练在特殊领域（如遥感）时，生成图像与真实数据差异大，可能影响验证准确度
概念集的限制：仍依赖预定义概念集（如 Broden、Common Words），无法发现概念集之外的新概念
计算开销：需要为每个神经元的每个概念生成多张验证图像，规模化到整个网络时计算量显著
仅关注倒数第二层：未扩展到浅层神经元的解释

评分¶

新颖性: ⭐⭐⭐⭐ 将科学方法论的闭环验证引入神经元解释领域，思路清晰且有说服力
实验充分度: ⭐⭐⭐⭐ 覆盖了 ResNet-18/50、ViT-B/16 多个模型和多个数据集，消融全面
写作质量: ⭐⭐⭐⭐ 逻辑清晰，科学方法论的类比引入自然
价值: ⭐⭐⭐⭐ 提出的 mean AR 指标可作为通用评估标准，验证范式对后续可解释性工作有参考意义