跳转至

Granular Concept Circuits: Toward a Fine-Grained Circuit Discovery for Concept Representations

会议: ICCV 2025
arXiv: 2508.01728
代码: https://github.com/daheekwon/GCC
领域: 可解释性
关键词: 可解释性, 视觉电路发现, 概念表征, 神经元连接性, 机械可解释性

一句话总结

提出 Granular Concept Circuit (GCC) 方法,通过迭代评估神经元间的功能依赖性(Neuron Sensitivity Score)和语义一致性(Semantic Flow Score),自动发现深度视觉模型中编码特定概念的细粒度视觉电路——这是首个能在单个query中发现多个概念级电路的方法。

研究背景与动机

深度视觉模型通过层次化架构形成概念表征——从低层的边缘、纹理到高层的物体、场景。理解这些概念在模型中如何被编码是可解释AI的核心问题。

现有方法的不足:

单神经元分析(NetDissect、CLIP-Dissect等):将概念关联到单个神经元,忽视了表征的分布式本质——概念通过多个神经元跨层协作编码

VCC(Visual Concept Connectome):用概念激活向量(CAV)分析层间连接,但与网络结构不对齐,无法精确定位概念在哪里出现

ADVC(Rajaram等人的方法):使用梯度×激活值的跨层归因迭代发现电路,但仅构建一个与类别标签相关的统一电路,缺乏概念级细粒度分析 4. 所有现有方法都不支持将模型响应分解为多个概念级电路——不同概念(如天空、旗帜、时钟)被混在一个电路中

方法详解

整体框架

GCC 的目标是为给定query发现多个细粒度概念电路,每个电路对应一个与query相关的特定概念。流程:(1) 提取根节点 → (2) 评估跨层连接 → (3) 迭代追踪直到无进一步连接 → (4) 对所有根节点重复,得到完整电路集合。

关键设计

  1. Neuron Sensitivity Score (\(S_{NS}\)):基于干预的功能依赖性度量。

通过将源神经元置零(mute),观察目标神经元激活的变化来量化连接强度:

$\tilde{S}_{NS,c} = \max(0, f^{l+1}(a_c^l) - f^{l+1}(\hat{a}_c^l))$
$S_{NS} = \frac{\tilde{S}_{NS}}{\sum \tilde{S}_{NS}}$

其中 \(\hat{a}_c^l\) 是将第c个神经元置零后的层l激活。高 \(S_{NS}\) 表示目标神经元强烈依赖源神经元。进行正值裁剪以仅关注正相关关系。

- 设计动机:因果干预比梯度更准确地捕获真实依赖关系
- 使用一阶近似(逐个神经元干预)避免 $O(2^{|N|})$ 的全组合搜索
  1. Semantic Flow Score (\(S_{SF}\)):语义一致性约束。

    \(S_{SF} = \frac{|\mathcal{S}_{src} \cap \mathcal{S}_{tgt}|}{|\mathcal{S}_{src}|}\)

其中 \(\mathcal{S}_{src}\)\(\mathcal{S}_{tgt}\) 分别是源和目标神经元的 top-k 高激活样本集合。高重叠表示两个神经元编码了类似的语义信息。

- 设计动机:仅有高 $S_{NS}$ 不够——非线性可能产生伪连接(功能依赖但语义不相关),$S_{SF}$ 过滤掉这些虚假连接
  1. 电路构建算法

    • 根节点提取:选择在所有样本中激活排名前1%的神经元
    • 连接判定:同时满足 \(S_{NS} > \tau_{NS}\)\(S_{SF} > \tau_{SF}\)\(\tau_{NS}\) 通过极值理论中的 Peak-over-Threshold (POT) 方法自动确定;\(\tau_{SF}\) 使用所有节点的平均分数
    • 迭代扩展:新加入的节点成为新的起点,向下一层继续搜索,直到无满足条件的连接
    • 高效计算:复用已计算的源节点连接,递归技术避免重复计算

损失函数 / 训练策略

GCC 是一种后训练分析方法,不涉及训练过程。它直接在预训练模型(VGG19、ResNet50/101、MobileNetV3、ViT等)上运行,使用 ImageNet1K 验证集作为参考样本集。

实验关键数据

主实验

忠实性与完备性评估(在100个随机ImageNet1K query上测试,消融电路内/外神经元后观察logit变化):

消融条件 ResNet50 ResNet101 VGG19 MobileNetV3 平均下降
原始(无消融) 17.17 17.46 20.94 17.34
随机消融神经元 15.66 13.80 19.03 15.01 ▼2.35
消融GCC内神经元 6.41 6.18 12.93 12.95 ▼8.60
消融GCC外神经元 16.12 14.58 19.93 15.88 ▼1.74

消融GCC内神经元导致logit大幅下降(8.60),远超随机消融(2.35);消融GCC外神经元影响极小(1.74),说明电路既忠实又完备。

消融实验(用户研究)

33名参与者对GCC五个方面打分(5分制):

评估维度 平均分
Query相关性:GCC是否与query相关 3.65/5
多样性:GCC是否捕获多种概念 4.00/5
原型性:GCC是否代表给定多query的共性 4.45/5
连接合理性:节点间和query-节点连接是否合理 >90%认为合理
与VCC对比:GCC vs VCC谁捕获更有意义的概念 70%选择GCC

边消融/插入实验:按 \(S_{NS}\) 排序移除/添加边,移除高排名边导致性能快速下降,添加高排名边带来显著增益。

关键发现

  • 首次实现概念级视觉电路分解:一个"scoreboard"图像可以被分解为17个GCC——分别对应天空背景、旗帜、时钟等不同概念
  • 跨模型/数据集通用:在CNN(VGG19、ResNet50/101、MobileNetV3)和Transformer(ViT)上均有效
  • 概念层次化演进:孔雀图像的"蓝色纹理"概念从第一层的"广泛蓝色调"逐步细化为"蓝色鳞片"→"结构化蓝色图案"→"装饰性蓝色图案"
  • 跨类别共享概念发现:能在不同类别(雏菊和孔雀)中发现共享的"辐射状"概念,在坦克/小巴/货车中发现"轮子"概念
  • 错误分类审计:可定位导致误分类的具体概念电路并通过刺激/抑制验证

亮点与洞察

  • 双分数设计互补\(S_{NS}\) 捕获功能依赖、\(S_{SF}\) 确保语义一致,缺一不可——单靠 \(S_{NS}\) 会产生伪连接
  • POT自动阈值:避免手动调参,使方法更具实用性
  • 从"一个电路"到"多个电路"的范式转变:之前的方法(VCC、ADVC)为每个query只构建一个统一电路,GCC首次拆分为多个概念特定电路
  • 可解释性与实用性并重:错误分类审计、跨类别概念发现等应用场景有实际价值
  • Sankey图可视化:用连接粗细表示连接强度、用高激活样本裁剪展示神经元语义,可视化方案直观清晰

局限与展望

  • 连接评估采用逐神经元干预的一阶近似,可能遗漏高阶交互
  • 在严格阈值下,单个概念可能分布在多条电路路径中
  • 部分高 \(S_{NS}\) 连接仍难以用人类语言解释
  • 仅在分类模型上验证,生成模型(GAN/Diffusion)的电路发现值得探索
  • 语义覆盖的参考数据集(ImageNet1K验证集)可能引入偏见——某些概念的激活样本不够丰富
  • 可扩展到视频模型和更大规模Transformer(如ViT-L/H)

相关工作与启发

  • 与机械可解释性(NLP领域的Conmy等人)对应,GCC首次在视觉领域实现细粒度电路发现
  • CRP求解条件相关性但限于两两层间、CRAFT从分类器层反推但只能提取分类相关概念——GCC正向传播,发现更广泛的概念
  • 神经科学中Hebb学习规则和突触可塑性的启发:功能连接+信息流保持
  • GCC的正向电路发现能找到跨类别的抽象特征,这是基于类别logit反推的方法(ADVC)做不到的

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次实现视觉模型中概念级细粒度电路发现,双分数设计原创且有理论支撑
  • 实验充分度: ⭐⭐⭐⭐ 忠实性/完备性定量验证+用户研究+边消融+多模型多数据集,较全面
  • 写作质量: ⭐⭐⭐⭐ 概念阐述清晰,可视化丰富;算法伪代码规范
  • 价值: ⭐⭐⭐⭐ 为视觉模型的可解释性提供了新工具,错误审计等应用场景有实际意义