Language Models Can Explain Visual Features via Steering¶
会议: CVPR 2026
arXiv: 2603.22593
代码: GitHub
领域: 可解释性
关键词: 稀疏自编码器, 视觉特征解释, 因果干预, VLM, 自动可解释性
一句话总结¶
提出通过对VLM视觉编码器进行SAE特征因果干预(steering),在输入空白图像后让语言模型描述其"看到"的视觉概念,从而实现无需评估图像集的可扩展视觉特征自动解释,并提出混合方法Steering-informed Top-k达到SOTA。
研究背景与动机¶
领域现状:稀疏自编码器(SAE)已成为发现视觉模型中可解释特征的有力工具,但当SAE扩展到发现数千个特征时,自动解释这些特征仍是开放问题。
现有方法(Top-k方法)的局限: 1. 基于相关性而非因果性:选择最高激活图像让解释器找共同模式,本质是相关性分析 2. 依赖评估图像集:需要大规模图像集来找到top激活图像,引入数据集偏差 3. 计算成本高:需要对整个评估集前向传播来排序激活值
本文核心insight:VLM将视觉编码器与预训练语言模型连接,如果我们对视觉编码器进行因果干预——在空白图像上注入特定SAE特征向量——语言模型应该能够表达它"看到"了什么视觉概念。
方法详解¶
整体框架¶
论文要解决的问题是:当SAE在视觉编码器上发现成千上万个特征后,怎么给每个特征自动写一句人能看懂的解释。已有的Top-k方法是把激活该特征最高的若干张图像喂给解释器、让它找共同模式,本质是相关性分析、还得遍历整个评估集。本文换了个思路——既然VLM把视觉编码器接到了语言模型上,那就直接对视觉编码器做因果干预,看语言模型会"说"出什么。
整条流程是:先在ImageNet上训练一个TopK SAE(\(d_{SAE}=8192\))来分解视觉编码器的特征;解释某个特征 \(i\) 时,向VLM输入一张全白的空白图像,在视觉编码器某一层的残差流里把该特征的SAE解码器向量注入进去,再提示语言模型描述它"看到"的内容;这句描述就是对特征 \(i\) 的解释。在此之上还可以叠加Top-k图像,得到混合版本。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["训练 TopK SAE(ImageNet,d_SAE=8192)<br/>分解视觉编码器特征"] --> B["取待解释特征 i 的 SAE 解码器向量"]
B -->|纯因果| C["Steering 解释<br/>空白图像第 l 层残差流注入 α·解码器向量"]
B -->|因果 + 相关| D["Steering-informed Top-k<br/>Top-k 激活图像 + 同样注入"]
C --> E["语言模型描述 → 特征解释"]
D --> E
E --> F["四指标评估<br/>激活IoU / Detection / CLIP / 单义性"]
关键设计¶
1. Steering 解释:把特征向量注进空白图像,让语言模型替它说话
Top-k方法之所以受限于评估集、又只能给出相关性证据,根源在于它从来没真正"驱动"过模型,只是事后观察哪些图像激活得高。本文的做法是直接做因果干预:输入空白(全白)图像 \(\tilde{I}\),在视觉编码器第 \(l\) 层的残差流上、对所有位置加上SAE解码器权重向量乘以强度系数,即 \(m_{sub}^l(\tilde{I}) \leftarrow m_{sub}^l(\tilde{I}) + \alpha W_{dec}[i,:]\),再让解释器在这个被改写过的视觉表示上生成文本,形式化为
关键在于输入是空白图像、本身不携带任何有意义的视觉信号,所以语言模型说出的每一个词都只能来自注入的那个特征——这是纯粹的因果解释,而不是从一堆图像里猜共性。比如注入某个低级纹理特征,语言模型就会直接描述出"条纹"或某种颜色。它还顺带解决了Top-k的成本问题:解释一个特征只需对空白图像跑一次前向传播,不必遍历评估集。
2. Steering-informed Top-k:把因果证据和相关性证据拼起来用
纯Steering虽然干净,但空白图像缺乏上下文,在对象类别这类高级语义特征上反而不如有真实图像作参考的Top-k。于是混合版本不二选一:在照常条件化Top-k激活图像的同时,对视觉编码器做同样的SAE特征注入,让解释器既看到"哪些真实图像激活了它"(相关性证据),又感受到"把它强行打开会变成什么"(因果证据)。两路证据互补——纯Steering擅长低级特征、Top-k擅长高级语义——拼起来后在四个评估指标上全部取得最优,而且因为注入操作几乎零开销,相比原Top-k没有额外计算成本。
3. 四个互补的解释质量指标
解释好不好不能只凭眼看,论文用四个角度量化:激活IoU 衡量"由解释文本检索出的高激活图像"与"该SAE特征本身的高激活图像"两个集合的重叠度,越高说明解释抓对了特征触发的视觉内容;Detection Score 检验解释里描述的概念能否被VLM真的在图像中检测出来;CLIP相似度 计算解释文本与top激活图像在CLIP嵌入空间的距离;单义性(Monosemanticity) 判断该特征是否只对应单一概念。四个指标分别从检索重叠、可检测性、跨模态语义、概念纯度切入,避免单一指标的偏置。
损失函数 / 训练策略¶
SAE在ImageNet上用标准TopK目标训练(\(d_{SAE}=8192\))。干预强度 \(\alpha\) 在一个500个特征的验证集上挑选。解释生成本身不涉及任何训练,是纯推理时的因果干预。
实验关键数据¶
主实验 — 解释质量对比(Gemma 3视觉编码器)¶
| 方法 | 激活IoU↑ | Detection↑ | CLIP↑ | 单义性↑ |
|---|---|---|---|---|
| Top-k (原始图像) | 基线 | 基线 | 基线 | 基线 |
| Top-k (Mask) | 略好 | 略好 | 微降 | 相当 |
| Top-k (Heatmap) | 相当 | 相当 | 相当 | 相当 |
| Steering (纯干预) | 低于Top-k | 低于Top-k | 低于Top-k | 相当 |
| Steering-informed Top-k | 最优 | 最优 | 最优 | 最优 |
消融实验 — 语言模型规模效应¶
| LM规模 | 解释质量趋势 |
|---|---|
| 小模型 | 基准水平 |
| 中等模型 | 显著提升 |
| 大模型 | 持续提升 |
解释质量随语言模型规模持续改善,无饱和迹象
关键发现¶
- 纯Steering方法在低级特征(纹理、颜色、边缘)上优于Top-k,因果干预更能捕获这些原始视觉概念
- Top-k方法在高级语义特征(对象类别)上更强,因为有具体图像作为参考
- 混合方法(Steering-informed Top-k)在所有指标上达到SOTA,无额外计算开销
- 语言模型规模是解释质量的关键因素——更大的LM能更好地"表达"视觉概念
- 在Gemma 3和Intern VL3两个不同VLM上结论一致
亮点与洞察¶
- 从"相关性"到"因果性"的范式转变:Steering直接干预模型内部表示,比Top-k的相关性分析更有因果基础
- 极其高效:仅需单次前向传播即可解释一个特征,不需要遍历整个评估集
- 语言模型规模效应暗示未来更强的LM将进一步提升自动可解释性
- 混合方法的设计思路优雅:在Top-k的图像上下文中同时注入因果信号,两种信息互补
局限与展望¶
- 纯Steering在高级语义特征上弱于Top-k,因为空白图像缺乏上下文
- 干预强度α对结果敏感,需要在验证集上调优
- 仅在VLM架构上验证,纯视觉模型(无语言模型组件)无法直接应用
- SAE维度固定为8192,更大字典的扩展效果未知
- 评估指标主要是自动化指标,缺少人工评估
相关工作与启发¶
- vs 标准Top-k方法: Top-k基于相关性、需要评估集、计算密集;Steering基于因果性、无需图像集、单次前向传播
- vs PatchScopes/SELFIE: 这些方法在语言模型中做自解释,本文首次将范式扩展到视觉编码器
- vs CB-SAE (同会议): CB-SAE关注SAE的可控性和可解释性度量,本文关注SAE特征的自然语言解释生成
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 因果干预解释视觉特征是全新范式,方法简洁优雅
- 实验充分度: ⭐⭐⭐⭐ 多指标、多VLM、规模效应分析,但缺少人工评估
- 写作质量: ⭐⭐⭐⭐ 动机清晰,方法直观,但LaTeX公式渲染有问题
- 价值: ⭐⭐⭐⭐ 对视觉模型自动可解释性研究有重要推动,方法可扩展性强