Circuit Tracing in Vision-Language Models: Understanding the Internal Mechanisms of Multimodal Thinking¶
会议: CVPR 2026
arXiv: 2602.20330
代码: github.com/UIUC-MONET/vlm-circuit-tracing
领域: 多模态VLM
关键词: 可解释性, 电路追踪, transcoder, 归因图, feature steering
一句话总结¶
提出首个面向 VLM 的电路追踪框架,在 Gemma-3-4B 中训练 per-layer transcoder 并构建归因图,揭示了多模态推理的层次化整合机制、视觉数学电路和六指幻觉的内部成因,并通过 steering 和 circuit patching 验证电路的因果可控性。
研究背景与动机¶
领域现状:VLM(如 CLIP、LLaVA、GPT-4o)在视觉问答、图像描述、复杂视觉推理等任务上取得显著成功,但其内部工作机制仍然是不透明的黑箱。这一问题在医学影像、自动驾驶、内容审核等高风险应用场景尤为关键。
现有痛点:近年来,LLM 的机械可解释性研究(如电路发现、induction heads 分析、activation patching)已取得长足进展,但这些方法几乎完全局限于纯文本模型。VLM 面临独特的挑战——需要整合具有不同统计特性和语义的两种模态,还要发现有意义的视觉-语言对应关系。现有的 VLM 可解释性工作主要停留在高层分析(attention visualization、probing),本质上是相关性而非因果性的。
核心矛盾:我们对 VLM 如何将视觉特征绑定到 token、如何实现跨模态推理、以及视觉和语言注意力如何协调,几乎一无所知。Sparse autoencoders 和 transcoders 已在 LLM 中成功分解多义表示,但从未应用于多模态场景。
本文目标 建立首个完整的 VLM 电路追踪框架,系统分析多模态推理的内部计算机制。
切入角度:将 LLM 中已验证的 transcoder + attribution graph 范式扩展到多模态设定,针对 VLM 特有的图像 token 处理、双向注意力、跨模态信息流等问题开发新方法。
核心 idea:通过在 VLM 每层 MLP 中插入 transcoder 将多义表示分解为可解释的单义特征,结合归因图追踪特征间因果关系,发现并验证驱动多模态推理的稀疏计算电路。
方法详解¶
整体框架¶
框架包含三个核心组件:(1) 为 VLM 每层 MLP 训练 transcoder,将多模态多义表示分解为稀疏、单义的可解释特征;(2) 构建归因图(attribution graph),追踪特征间的因果关系;(3) 结合注意力分析和人类专家标注,发现驱动特定行为的最小计算电路。目标模型为 Gemma-3-4B-it,使用 SigLIP 视觉编码器(patch size 14,输入 896×896,产生 4096 个 patch token,池化为 256 个 soft image token),解码器为 34 层 transformer(\(d_{model}=2560\),\(d_{ff}=10240\))。
关键设计¶
-
Per-Layer Transcoder:
- 功能:替换 VLM 每层 MLP,将多义的内部表示分解为稀疏的单义特征,使模型在保持计算等价性的同时暴露特征级结构
- 核心思路:编码器将 MLP 输入 \(x \in \mathbb{R}^{d_{model}}\) 映射到远高维的特征空间 \(z(x) = \text{ReLU}(W_{enc}x + b_{enc})\),使用 TopK 稀疏化(仅保留 \(k=48\) 个最大激活),解码器重建 MLP 输出 \(\text{TC}(x) = W_{dec}z(x) + b_{dec}\)。每个 transcoder 特征由配对的编码器列和解码器行定义,对输出做加性贡献
- 设计动机:相比原始 transcoder 使用 \(\ell_1\) 惩罚,TopK 稀疏化无需调节稀疏系数,训练更稳定且特征一致性更好。相比 SAE 直接重建激活,transcoder 替换 MLP 的 input-output 行为,可清晰暴露特征间因果关系,便于电路发现
- 重建残差:\(e(x) = \text{MLP}(x) - \text{TC}(x)\) 被显式追踪,作为独立的 error node 加入电路图,防止近似误差干扰分析
-
归因图(Attribution Graph):
- 功能:追踪模型内部特征之间的因果贡献关系,构建从输入 token embedding 到输出 logit 的完整计算图
- 核心思路:利用模型在给定输入上的局部线性性(所有非线性——ReLU、attention softmax、LayerNorm——冻结在当前值),每对源-目标特征之间的归因为 \(A_{s \to t} = a_s \cdot w_{s \to t}\),其中虚拟权重 \(w_{s \to t} = f_{dec}^{(s)\top} J^\blacktriangledown_{(s) \to (t)} f_{enc}^{(t)}\) 包含源特征的解码器向量、冻结的残差流 Jacobian、和目标特征的编码器向量
- 设计动机:因为每个节点的 pre-activation 恰好等于所有入边归因之和(\(h_t = \sum_{s} A_{s \to t}\)),归因图提供完整的加性解释。通过剪枝小归因边(\(|A_{s \to t}| < \epsilon\)),得到稀疏可解释的图。图的累积影响阈值设为 0.80 和 0.98,最多 \(m=7500\) 个特征节点,至少覆盖 0.95 的 logit 概率质量
-
多模态特征解释与电路发现:
- 功能:为归因图中的无名特征赋予可解释语义,并从完整计算图中提取驱动特定行为的最小电路
- 核心思路:对文本 token 特征,分析 top-k 激活样本的共性;对图像 token 特征,使用 SigLIP 编码器的 attention rollout(在最后 \(K\) 层中选最低熵的 \(q\) 比例 attention head,逐层相乘得到滚动注意力图)可视化关注的图像区域。人类专家将功能相似的特征聚合为节点,节点间归因为特征归因之和
- 设计动机:采用 ad hoc 特征分析策略——仅计算当前归因图中的约 1000 个特征(而非预计算所有特征),大幅降低计算和存储成本。对特定任务(如海獭识别),额外在 30 张相关图片上计算激活,显著提升特征可解释性
干预与验证策略¶
Feature Steering:在前向传播中修改特定特征的激活值 \(v_{\ell,t,i}\),计算偏移 \(\Delta z = v - z(x)\),更新残差流 \(h_{\ell,t} \leftarrow h_{\ell,t} + \Delta z \cdot d_{\ell,i}\),观察输出变化。
Circuit Patching:将电路 A 中的特征补丁(特定层和位置的激活值)移植到结构相似的电路 B 中。例如,在"火星"电路中抑制火星视觉特征并激活"地球"电路中发现的地球视觉特征,验证后续所有特征激活和最终输出是否转变为地球相关概念。
实验关键数据¶
Transcoder 训练配置¶
| 组件 | 配置 |
|---|---|
| 训练数据 | SmoLIM2 文本 144K + ImageNet 图像 144K + Cauldron QA 72K |
| 优化器 | AdamW, lr = \(2 \times 10^{-4} \times \sqrt{2^{14} / (N_{latents} \times d_{model})}\) |
| 训练规模 | batch size 12, 30K 步, 8×H100, ~60 小时 |
| 稀疏化 | TopK, \(k=48\) |
| 特征维度 | \(d_{feat} = N_{latents} \times d_{model} \times 34\) |
扩展因子对比¶
| 扩展因子 \(N_{latents}\) | 死特征比例趋势 | 层间差异 |
|---|---|---|
| 32 | 最高,大量特征未被利用 | 早期层(Layer 3)死特征比例尤其高 |
| 64(采用) | 适中,利用率与质量平衡最优 | 中间层(Layer 15)激活模式最密集 |
| 128 | 最低,但 FVU 略有回升 | 高层特征冗余增加 |
多模态 vs 纯文本训练的 FVU 对比¶
| 训练数据 | 中间层 FVU(~Layer 15) | 高层 FVU(~Layer 30) | 差异分析 |
|---|---|---|---|
| 纯文本(SmoLIM2) | 较高 | 与多模态接近 | 缺乏视觉约束,中间层解释不充分 |
| 文本+图像(本文) | 显著更低 | 略低 | 视觉特征提供额外约束,尤其在视觉信息整合的中间层 |
计算成本¶
| 操作 | 计算资源 |
|---|---|
| 单个 QA 任务归因图 | H100 单卡 ~20 分钟 |
| 单个归因图(~1000 特征)的特征激活分析 | ~20 H100 GPU-hours |
| 28K 图像的 attention map 预计算 | H100 单卡 ~2 小时, ~2TB 存储 |
| Transcoder 完整训练 | 8×H100, ~60 小时 |
关键发现¶
- 层次化整合:视觉和语义概念的联合编码特征仅在约 Layer 20 以上出现,早期层保持模态独立,支持"渐进绑定假说"——跨模态关联在网络深度方向上逐步建立
- 视觉数学电路:对图像化算术(如渲染的 \(1+2\)),模型部分在视觉空间内计算——中间层出现对应结果数字 "3" 的视觉特征,跨上下文一致激活。还发现了数字范围编码和模算术模式的视觉表示,呼应了 LLM 文本电路中的类似发现
- 六指幻觉机制:并非单一故障模式,而是感知偏差与内部电路动态的交互结果——(1) SigLIP 编码器产生过度强调通用"手"语义的 embedding;(2) 模型内部电路进一步放大手相关特征;(3) 数字 "6" 的视觉特征被压制到与无关数字相当的水平,而手相关特征强烈激活"五"电路。模型确实拥有可视化计数电路,但被更强的语义和感知信号淹没
- 平行视觉-语义通路与晚期收敛:Gemma-3 在网络深层仍维持独立的视觉和语义表征流——如火星图像触发的"航天飞机"关联特征反映了独立于语义的视觉联想;高层中视觉相似物种(海獭、海豹、河狸)一致激活,即使语义类别不同。两条通路在最终层合并为统一的多模态表征
消融实验¶
| 干预方式 | 实验设置 | 结果 |
|---|---|---|
| Circuit Patching(火星→地球) | 抑制中间层火星视觉特征,激活地球视觉特征 | 后续所有特征和输出转变为地球相关概念 |
| Feature Steering | 修改特定特征激活值 | 输出可预测性地改变,验证电路因果性 |
| 特征消融(置零) | 将目标特征设为零 | 相关行为被精确抑制 |
| 特征放大 | 将目标特征设为正常数 | 相关行为被增强 |
亮点与洞察¶
- 首次在 VLM 中实现完整的电路追踪,将 Anthropic 在 LLM 上的方法论成功扩展到多模态场景
- 六指幻觉的机制分析特别有洞察力:不是简单的"编码器出错",而是编码器偏差 + 内部电路竞争 + 计数电路被淹没三个因素的交互结果
- 发现 VLM 语言模型部分保持了独立的视觉表征空间,视觉相似性驱动的特征聚类和共激活独立于语义组织
- Ad hoc 特征分析策略实用且高效:仅分析当前归因图中的特征,配合小规模任务相关图像集,大幅降低成本同时提升可解释性
局限与展望¶
- 仅分析 Gemma-3-4B 一个模型,且该模型使用 SigLIP + 双向注意力机制可能引入特有复杂性,结论的普适性未经验证
- Per-layer transcoder 无法捕获跨层超位(cross-layer superposition),而 VLM 中图像 embedding 的高特征密度使得归因图中频繁出现近似重复的视觉特征
- 视觉编码器 attention map 有时难以定位相关区域,限制了图像特征的标注质量
- 电路发现依赖人类专家手动标注,难以引入定量评估或直接应用于模型微调
- 计算成本高(单个归因图的完整分析需 ~20 GPU-hours),自动化特征解释方法仍计算上过于昂贵
- 未深入研究不同 transcoder 配置(如 JumpReLU、BatchTopK)对 VLM 的最优训练策略
相关工作与启发¶
- LLM 电路追踪的直系扩展:基于 Anthropic 的 circuit tracing 框架(Lindsey et al., Ameisen et al.)和 Hanna et al. 的 per-layer transcoder 适配方案,本文首次处理图像 token 和跨模态信息流
- 与 attention visualization / probing 的本质区别:传统 VLM 可解释方法是相关性分析,本文的电路追踪是因果性的——通过干预实验验证电路确实驱动行为
- Sparse autoencoders vs Transcoders:SAE 重建激活本身,transcoder 模仿 MLP 的 input-output 行为,后者更适合电路发现因为保持了计算等价性
- 启发:VLM 内部独立的视觉表征空间的存在提示视觉和语言可能在"最后一刻"才真正融合;六指幻觉的多因素成因为幻觉缓解提供了多个切入点(编码器去偏、电路竞争调节、计数电路增强)
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首个完整的 VLM 电路追踪框架,填补了多模态机械可解释性的空白
- 实验充分度: ⭐⭐⭐⭐ 多维度分析+因果干预验证,但仅覆盖单个模型,缺少定量基准对比
- 写作质量: ⭐⭐⭐⭐⭐ 案例分析深刻且引人入胜,方法论阐述清晰,图示丰富
- 价值: ⭐⭐⭐⭐⭐ 为 VLM 可解释性奠定了标准化分析框架,六指幻觉等洞察具有直接的实际应用价值