CVPR 2026 可解释性文本解释决策关键特征集成梯度概念图稀疏自编码器 CLIP 对齐

Zero-Shot Textual Explanations via Translating Decision-Critical Features¶

会议: CVPR 2026
arXiv: 2512.07245
代码: https://github.com/tttt-0814/TEXTER (有)
领域: 可解释性 / 视觉分类器解释 / 概念可视化
关键词: 文本解释, 决策关键特征, 集成梯度, 概念图, 稀疏自编码器, CLIP 对齐

一句话总结¶

提出 TEXTER：先用集成梯度找出对某类预测贡献最大的神经元、用特征可视化把这些神经元编码的"决策关键特征"渲染成一张概念图，再把概念图对齐到 CLIP 空间从概念库里检索文本，从而零样本地给图像分类器生成"真正驱动预测的理由"而非"图里最显眼的东西"。

研究背景与动机¶

领域现状：要让图像分类器变透明，常见三条路。一是概念瓶颈模型（CBM）和自然语言解释（NLE）模型，先预测人定义的概念或直接生成文字理由，但都需要概念/解释标注、且会复刻标注偏置；二是大型视觉-语言模型（BLIP、LLaVA、GPT-4V）能写描述，但它们面向通用视觉理解，不是为某个具体分类器的推理服务；三是零样本对齐方法（Text-To-Concept、ZSNLE），用一个线性层把分类器特征空间对齐到 CLIP，无需任何概念标注就能用文字描述图像。

现有痛点：第三条路最轻量也最实用，但它对齐的是整张图的全局特征 \(f(x)\)。全局特征描述的是"画面里有什么、什么最显眼"，而不是"什么驱动了这次预测"。论文的招牌例子：一张猫的图，Text-To-Concept 把预测解释成 "cushions"（坐垫）——坐垫占画面大、但和"判成猫"毫无关系。

核心矛盾：忠实的解释应该对齐到决策关键特征（如猫的胡须斑点），而全局特征里这些关键信号被显眼的背景淹没了。把整图喂进对齐器，等于一开始就丢掉了"哪部分让模型做出这个判断"的信息。

本文目标：在不重训原分类器、不要任何概念/解释标注的前提下，(1) 把分类器隐空间和语言空间对齐；(2) 从全局特征 \(f(x)\) 里隔离出预测类 \(c\) 的决策关键特征 \(z^{(c)}\)，再翻译成文字。

切入角度：神经科学式的假设——贡献最大的神经元编码了支撑预测的特征。那么只要找到这些神经元、把它们激活到底所对应的图像长什么样，就得到了一张"只强调决策证据"的图（概念图），对它做对齐就绕开了背景干扰。

核心 idea：用"贡献神经元 → 概念图 → CLIP 检索"这条链，把对齐目标从"整张图"换成"决策关键特征的可视化"，从而生成忠实于推理过程的文本解释。

方法详解¶

整体框架¶

TEXTER 解决的是：给定一个只在图像上训练、没有任何语言能力的分类器 \(\mathcal{F}=g\circ f\)，零样本地用自然语言说清"它为什么把 \(x\) 判成类 \(c\)"。整条流水线分三段：概念图生成（把决策关键特征渲染成一张图）→ 视觉-语言空间对齐（把分类器特征映进 CLIP）→ 文本解释生成（拿概念图特征去概念库里检索最相似的描述）。其中概念图生成又含三小步：用集成梯度定位贡献神经元、用特征可视化把这些神经元渲染成概念图、对 Transformer 额外套一层稀疏自编码器（SAE）解耦特征。整个过程只训练 SAE 和仿射对齐器 \(h\)，且它们不参与分类器推理、不需任何标注，因此完全不动原模型精度。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入图像 x<br/>分类器预测类 c"] --> B["集成梯度定位<br/>决策关键神经元 U(c)"]
    B --> C["特征可视化<br/>生成概念图 x_con(c)"]
    C -->|Transformer| D["稀疏自编码器 SAE<br/>解耦特征"]
    C -->|CNN 可跳过| E["视觉-语言对齐<br/>仿射器 h → CLIP 空间"]
    D --> E
    E --> F["概念库检索<br/>余弦相似度取 top-k"]
    F --> G["文本解释 T"]

关键设计¶

1. 集成梯度定位决策关键神经元：把"谁该负责这次预测"量化出来

直接对全局特征做对齐之所以失败，是因为没人告诉对齐器"哪些维度才是决策证据"。TEXTER 先在某层特征 \(z=f^{(\ell)}(x)\) 上给每个神经元算一个贡献分。对第 \(j\) 个神经元、预测类 \(c\)，用集成梯度沿从基线 \(z'\)（默认零向量）到 \(z\) 的直线路径累加梯度：

\[s_j^{(c)} = (z_j - z'_j)\sum_{m=1}^{M}\frac{\partial F_c\big(z' + \tfrac{m}{M}(z-z')\big)}{\partial z_j}\cdot\frac{1}{M}\]

其中 \(F_c\) 是把特征向量映到类 \(c\) logit 的函数，\(M{=}100\) 是积分步数。分数越高代表该神经元对"判成 \(c\)"贡献越大。按 \(s_j^{(c)}\) 降序取 top-\(k_\text{neu}\)（默认 \(k_\text{neu}{=}6\)）得到神经元集合 \(U^{(c)}\)。这一步把"决策证据"从弥散的全局特征里压成了一小撮可定位的神经元，是后面隔离 \(z^{(c)}\) 的前提。

2. 特征可视化生成概念图：把抽象神经元渲染成一张"只含证据"的图

光知道哪些神经元重要还不能对齐——CLIP 吃的是图像不是神经元下标。TEXTER 用特征可视化反向优化出一张图 \(x_\text{con}^{(c)}\)，使 \(U^{(c)}\) 里这些神经元的激活之和最大：

\[x_\text{con}^{(c)} = \underset{x'\in\mathcal{X}}{\arg\max}\;\mathcal{L}(x') - \lambda\mathcal{R}(x'),\qquad \mathcal{L}(x') = \sum_{j\in U^{(c)}}[f^{(\ell)}(x')]_j\]

为了让生成图留在自然图像分布里、不退化成对抗噪声，采用 MACO（magnitude-constrained optimization）：在傅里叶空间只优化相位谱、保持幅度谱不变。这样得到的概念图就是"决策关键特征的可视化体现"——猫的例子里它会高亮胡须斑点而非坐垫。关键的形式化在于：把 \(f(x)\mapsto x_\text{con}^{(c)}\mapsto f(x_\text{con}^{(c)})\) 整条链当作论文要找的投影 \(\varphi\)，于是 \(z^{(c)}:=f(x_\text{con}^{(c)})\) 就是隔离出来的决策关键特征。

3. 稀疏自编码器解耦 Transformer 纠缠特征：让概念图在 Transformer 上也成立

作者实测：上面两步在 CNN 上效果好，但在 ViT/DINO 上几乎失效——概念图回分类器后 top-1 准确率只有 0.08~0.11。原因是 Transformer 以更"组合化"的方式表示物体，特征空间高度纠缠，单个神经元不再对应单一概念，没法干净地隔离决策因子。TEXTER 对此套一层 TopK 稀疏自编码器，把 \(f(x)\) 编码成稀疏表示：

\[\Psi(f(x)) = \operatorname{TopK}\big(W_\text{enc}(f(x)-b_\text{pre})\big),\qquad L_\text{SAE} = \|f(x)-W_\text{dec}\Psi(f(x))\|_2^2\]

\(\operatorname{TopK}\) 只保留最大的 \(K\) 个分量、其余置零，把纠缠特征拆成稀疏、轴对齐的单元。随后把 SAE 当成分类器的附加模块——在贡献分公式里令 \(z=\Psi(f(x))\)、\(y_c=[g(W_\text{dec}\hat z)]_c\)，在特征可视化里把 \(f^{(\ell)}(x')\) 换成 \(\Psi(f(x'))\)。加了 SAE 后 ViT 的概念图 top-1 准确率从 0.11 飙到 0.99。这是 TEXTER 能跨 CNN/Transformer 通用的关键。

4. 视觉-语言对齐 + 概念库检索：把概念图翻译成可读的类相关文字

最后要把概念图变成文字。先训练一个仿射对齐器 \(h(f(x))=Wf(x)+b\)，最小化它和 CLIP 图像编码器输出之间的距离（沿用 Text-To-Concept 的做法）：

\[\min_{W,b}\frac{1}{|\mathcal{D}_\text{train}|}\sum_{x\in\mathcal{D}_\text{train}}\|Wf(x)+b-E_\text{img}(x)\|_2^2\]

对齐后分类器特征就落进了 CLIP 联合空间。生成解释时，把概念图特征 \(h(f(x_\text{con}^{(c)}))\) 和候选描述的文本嵌入 \(E_\text{text}(t_i)\) 算余弦相似度，取 top-\(k_\text{con}\)（默认 3）作为解释。候选不是无穷文本而来自一个概念库 \(\mathcal{B}(x,c)\)：给定图 \(x\) 和预测类 \(c\)，用 LLM（GPT-3.5-turbo）生成 100 条该类的通用描述、用 VLM（Qwen2.5-VL-7B）对该图生成 30 条视觉 grounded 的描述，合成 130 条候选。与 Text-To-Concept 的本质区别在于：后者拿全局特征 \(f(x)\) 检索，TEXTER 拿决策关键特征 \(f(x_\text{con}^{(c)})\) 检索，所以输出的是驱动预测的理由。这条检索还天然支持类条件解释——对同一张图指定不同目标类，能分别给出"为什么像 A / 为什么像 B"的解释。

损失函数 / 训练策略¶

只有两个可训练组件：(1) SAE 用重构损失 \(L_\text{SAE}\) 训练；(2) 仿射对齐器 \(h\) 用 L2 对齐损失训练。训练数据沿用 Text-To-Concept 的协议，取 ImageNet-1K 训练集的 20%；对齐器走 ViT-B/16 视觉编码器、有官方权重的直接用 checkpoint。两个模块都不需额外标注、不介入分类器推理，因此对原始精度零影响。

实验关键数据¶

概念图有效性（是否保留了原始预测所用的特征）¶

在 ImageNet-1K 上随机取 1000 张图（200 类 × 5 张），把概念图回喂分类器，看预测是否还成立。指标：Acc（概念图对原预测标签 \(c\) 的 top-1/top-5 准确率）、\(R_\text{conf}\)（概念图上类 \(c\) 的 softmax 置信度 ÷ 原图上的置信度）、Cos（原图与概念图 logit 向量的余弦相似度）。越高越说明决策信息被保留。

模型	SAE	Acc1	Acc5	\(R_\text{conf}\)	Cos
ResNet-18	–	0.92	1.00	1.38	0.72
ResNet-50	–	0.92	1.00	1.19	0.74
ViT	–	0.11	0.17	0.06	0.11
ViT	✓	0.99	1.00	1.04	0.44
DINO ViT-S/8	–	0.08	0.15	0.06	0.34
DINO ViT-S/8	✓	0.89	0.96	0.91	0.61

CNN 不加 SAE 就很好；Transformer 不加 SAE 几乎全崩（top-1 ≈ 0.1），加上 SAE 后 ViT top-1 从 0.11 → 0.99，直接救活。

文本解释质量（多标签 PASCAL VOC，100 张测试图，取 top 类）¶

所有方法都用 TEXTER 生成的概念图作为比较目标。指标：CLIP-Score（概念图与解释文本在 CLIP 空间的相似度，↑）、LPIPS(A)/(S)（用 Stable Diffusion 把解释文本生成图、再与概念图算 AlexNet/SqueezeNet 感知距离，↓）、FS（概念图与生成图的分类器特征余弦相似度，↑）。

模型	方法	CLIP-Score ↑	LPIPS(A) ↓	LPIPS(S) ↓	FS ↑
ResNet-50	Random	0.2050	0.7775	0.7041	0.5874
ResNet-50	Text-To-Concept	0.2073	0.7698	0.7017	0.6032
ResNet-50	TEXTER	0.2271	0.7609	0.6972	0.6378
DINO ViT-S/8	Random	0.2182	0.7648	0.6943	0.3686
DINO ViT-S/8	Text-To-Concept	0.2224	0.7592	0.6946	0.3933
DINO ViT-S/8	TEXTER	0.2334	0.7539	0.6937	0.4082

TEXTER 在全部 5 个模型、全部 4 个指标上都优于 Random 和 Text-To-Concept，说明它的解释和决策关键特征语义对齐更好。

消融实验要点¶

配置	关键现象	说明
Full（含 SAE）	ViT Acc1 0.99	完整方法
w/o SAE（CNN）	ResNet Acc1 0.92	CNN 上 SAE 非必需，去掉几乎不掉，DINO-R50 反而略好
w/o SAE（Transformer）	ViT Acc1 0.11、\(R_\text{conf}\) 0.06	Transformer 上去掉 SAE 直接崩，证明 SAE 是跨架构通用的关键
w/o 概念图（=Text-To-Concept）	CLIP-Score / FS 全面更低	用全局特征代替概念图，解释退化为"显眼但无关"的描述

关键发现： - 贡献最大的是 SAE——但只对 Transformer 起决定性作用，CNN 本身特征够解耦、不依赖它。这印证了"Transformer 特征更组合化、更纠缠"的判断。 - 概念图 vs 全局特征是方法成败的分水岭：Text-To-Concept 对一张"人"的图给出背景（轿车轮廓）、对"电视"给出家具特征，而 TEXTER 给出发型/面部表情、高清屏/平板屏，明显贴近类相关证据。 - 跨架构能揭示模型依据的差异：同样判 Bedlington 㹴，ResNet/ViT 看银灰毛色纹理，DINO ViT 看"羊脸/窄口鼻"等结构脸部特征——说明自监督 Transformer 更依赖关系与上下文信息。 - 类条件解释能诊断误分类：一张实为 water snake 却被判成 stick insect 的图，把目标类设成 stick insect 时解释成"细长触角/细长身体节段"（背景树枝碎片被误读成虫肢），设成 water snake 时又能给出"在植被中滑行/毒性外观"，定位了出错原因。

亮点与洞察¶

把"对齐目标"从整图换成概念图是最巧的一招：不改对齐器结构、不加标注，只是把喂进去的东西从 \(f(x)\) 换成 \(f(x_\text{con}^{(c)})\)，就让零样本解释从"描述画面"升级到"解释推理"。这个替换思路可迁移到任何基于特征对齐的解释方法。
SAE 作为 Transformer 的"解耦适配器"：作者发现概念图生成在 ViT 上失效，并精准归因到特征纠缠，再用 TopK SAE 把特征拆成稀疏轴对齐单元救活——这是把"机制可解释性 SAE"和"事后解释"缝在一起的实用范例。
类条件解释天然支持误分类诊断：同一张图按不同目标类检索，能分别说出"为什么像 A / 像 B"，这是依赖全局图-文相似度的方法做不到的，对调试模型很有价值。
评估指标的换靶：作者指出"拿解释和原图比"只衡量解释是否描述了图、而非是否反映推理，于是改成"拿解释和概念图比"，这个评估视角的修正本身也值得借鉴。

局限性¶

依赖特征可视化与 SAE 的质量：概念图由 MACO 反向优化得到，本身就有不确定性；SAE 需要额外训练、其稀疏度 \(K\)、\(k_\text{neu}\) 等超参对结果有影响（CNN 上 SAE 甚至会小幅掉点），论文未系统扫这些超参。
解释受限于概念库：最终文字来自 LLM/VLM 生成的 130 条候选，库里没有的概念永远检索不到，解释的"上限"被概念库框住，且 LLM/VLM 自身偏置会渗入。
评估靠代理指标：CLIP-Score / LPIPS / FS 都是和概念图的语义一致性，而概念图又是本方法自己产的——评估存在一定自洽循环，缺少独立的人类忠实度大规模验证（仅 appendix 提到 insertion/deletion 测试）。
规模有限：定量实验只在 100~1000 张图上做，多标签仅 PASCAL VOC，更复杂场景的稳定性待验证。

评分¶

新颖性: ⭐⭐⭐⭐ 把"贡献神经元→概念图→CLIP 检索"串成零样本解释链，并用 SAE 打通 Transformer，组合新颖且切中真问题。
实验充分度: ⭐⭐⭐ 跨 CNN/Transformer 共 5 个模型、定性+定量+消融齐全，但样本规模偏小、缺独立人类忠实度评测。
写作质量: ⭐⭐⭐⭐ 问题设定（两大挑战）清晰，方法三段式叙述顺，图例（cushions vs whisker spots）直观。
价值: ⭐⭐⭐⭐ 零标注、不动模型、可做类条件误分类诊断，对模型调试与可信视觉系统有实用价值。