Circuit Tracing in Vision-Language Models: Understanding the Internal Mechanisms of Multimodal Thinking¶

会议: CVPR 2026
arXiv: 2602.20330
代码: github.com/UIUC-MONET/vlm-circuit-tracing
领域: 多模态VLM
关键词: 可解释性, 电路追踪, transcoder, 归因图, feature steering

一句话总结¶

提出首个面向 VLM 的电路追踪框架，在 Gemma-3-4B 中训练 per-layer transcoder 并构建归因图，揭示了多模态推理的层次化整合机制、视觉数学电路和六指幻觉的内部成因，并通过 steering 和 circuit patching 验证电路的因果可控性。

研究背景与动机¶

领域现状：VLM（如 CLIP、LLaVA、GPT-4o）在视觉问答、图像描述、复杂视觉推理等任务上取得显著成功，但其内部工作机制仍然是不透明的黑箱。这一问题在医学影像、自动驾驶、内容审核等高风险应用场景尤为关键。

现有痛点：近年来，LLM 的机械可解释性研究（如电路发现、induction heads 分析、activation patching）已取得长足进展，但这些方法几乎完全局限于纯文本模型。VLM 面临独特的挑战——需要整合具有不同统计特性和语义的两种模态，还要发现有意义的视觉-语言对应关系。现有的 VLM 可解释性工作主要停留在高层分析（attention visualization、probing），本质上是相关性而非因果性的。

核心矛盾：我们对 VLM 如何将视觉特征绑定到 token、如何实现跨模态推理、以及视觉和语言注意力如何协调，几乎一无所知。Sparse autoencoders 和 transcoders 已在 LLM 中成功分解多义表示，但从未应用于多模态场景。

本文目标 建立首个完整的 VLM 电路追踪框架，系统分析多模态推理的内部计算机制。

切入角度：将 LLM 中已验证的 transcoder + attribution graph 范式扩展到多模态设定，针对 VLM 特有的图像 token 处理、双向注意力、跨模态信息流等问题开发新方法。

核心 idea：通过在 VLM 每层 MLP 中插入 transcoder 将多义表示分解为可解释的单义特征，结合归因图追踪特征间因果关系，发现并验证驱动多模态推理的稀疏计算电路。

方法详解¶

整体框架¶

框架包含三个核心组件：(1) 为 VLM 每层 MLP 训练 transcoder，将多模态多义表示分解为稀疏、单义的可解释特征；(2) 构建归因图（attribution graph），追踪特征间的因果关系；(3) 结合注意力分析和人类专家标注，发现驱动特定行为的最小计算电路。目标模型为 Gemma-3-4B-it，使用 SigLIP 视觉编码器（patch size 14，输入 896×896，产生 4096 个 patch token，池化为 256 个 soft image token），解码器为 34 层 transformer（\(d_{model}=2560\)，\(d_{ff}=10240\)）。

关键设计¶

Per-Layer Transcoder：
- 功能：替换 VLM 每层 MLP，将多义的内部表示分解为稀疏的单义特征，使模型在保持计算等价性的同时暴露特征级结构
- 核心思路：编码器将 MLP 输入 \(x \in \mathbb{R}^{d_{model}}\) 映射到远高维的特征空间 \(z(x) = \text{ReLU}(W_{enc}x + b_{enc})\)，使用 TopK 稀疏化（仅保留 \(k=48\) 个最大激活），解码器重建 MLP 输出 \(\text{TC}(x) = W_{dec}z(x) + b_{dec}\)。每个 transcoder 特征由配对的编码器列和解码器行定义，对输出做加性贡献
- 设计动机：相比原始 transcoder 使用 \(\ell_1\) 惩罚，TopK 稀疏化无需调节稀疏系数，训练更稳定且特征一致性更好。相比 SAE 直接重建激活，transcoder 替换 MLP 的 input-output 行为，可清晰暴露特征间因果关系，便于电路发现
- 重建残差：\(e(x) = \text{MLP}(x) - \text{TC}(x)\) 被显式追踪，作为独立的 error node 加入电路图，防止近似误差干扰分析
归因图（Attribution Graph）：
- 功能：追踪模型内部特征之间的因果贡献关系，构建从输入 token embedding 到输出 logit 的完整计算图
- 核心思路：利用模型在给定输入上的局部线性性（所有非线性——ReLU、attention softmax、LayerNorm——冻结在当前值），每对源-目标特征之间的归因为 \(A_{s \to t} = a_s \cdot w_{s \to t}\)，其中虚拟权重 \(w_{s \to t} = f_{dec}^{(s)\top} J^\blacktriangledown_{(s) \to (t)} f_{enc}^{(t)}\) 包含源特征的解码器向量、冻结的残差流 Jacobian、和目标特征的编码器向量
- 设计动机：因为每个节点的 pre-activation 恰好等于所有入边归因之和（\(h_t = \sum_{s} A_{s \to t}\)），归因图提供完整的加性解释。通过剪枝小归因边（\(|A_{s \to t}| < \epsilon\)），得到稀疏可解释的图。图的累积影响阈值设为 0.80 和 0.98，最多 \(m=7500\) 个特征节点，至少覆盖 0.95 的 logit 概率质量
多模态特征解释与电路发现：
- 功能：为归因图中的无名特征赋予可解释语义，并从完整计算图中提取驱动特定行为的最小电路
- 核心思路：对文本 token 特征，分析 top-k 激活样本的共性；对图像 token 特征，使用 SigLIP 编码器的 attention rollout（在最后 \(K\) 层中选最低熵的 \(q\) 比例 attention head，逐层相乘得到滚动注意力图）可视化关注的图像区域。人类专家将功能相似的特征聚合为节点，节点间归因为特征归因之和
- 设计动机：采用 ad hoc 特征分析策略——仅计算当前归因图中的约 1000 个特征（而非预计算所有特征），大幅降低计算和存储成本。对特定任务（如海獭识别），额外在 30 张相关图片上计算激活，显著提升特征可解释性

干预与验证策略¶

Feature Steering：在前向传播中修改特定特征的激活值 \(v_{\ell,t,i}\)，计算偏移 \(\Delta z = v - z(x)\)，更新残差流 \(h_{\ell,t} \leftarrow h_{\ell,t} + \Delta z \cdot d_{\ell,i}\)，观察输出变化。

Circuit Patching：将电路 A 中的特征补丁（特定层和位置的激活值）移植到结构相似的电路 B 中。例如，在"火星"电路中抑制火星视觉特征并激活"地球"电路中发现的地球视觉特征，验证后续所有特征激活和最终输出是否转变为地球相关概念。

实验关键数据¶

Transcoder 训练配置¶

组件	配置
训练数据	SmoLIM2 文本 144K + ImageNet 图像 144K + Cauldron QA 72K
优化器	AdamW, lr = \(2 \times 10^{-4} \times \sqrt{2^{14} / (N_{latents} \times d_{model})}\)
训练规模	batch size 12, 30K 步, 8×H100, ~60 小时
稀疏化	TopK, \(k=48\)
特征维度	\(d_{feat} = N_{latents} \times d_{model} \times 34\)

扩展因子对比¶

扩展因子 \(N_{latents}\)	死特征比例趋势	层间差异
32	最高，大量特征未被利用	早期层（Layer 3）死特征比例尤其高
64（采用）	适中，利用率与质量平衡最优	中间层（Layer 15）激活模式最密集
128	最低，但 FVU 略有回升	高层特征冗余增加

多模态 vs 纯文本训练的 FVU 对比¶

训练数据	中间层 FVU（~Layer 15）	高层 FVU（~Layer 30）	差异分析
纯文本（SmoLIM2）	较高	与多模态接近	缺乏视觉约束，中间层解释不充分
文本+图像（本文）	显著更低	略低	视觉特征提供额外约束，尤其在视觉信息整合的中间层

计算成本¶

操作	计算资源
单个 QA 任务归因图	H100 单卡 ~20 分钟
单个归因图（~1000 特征）的特征激活分析	~20 H100 GPU-hours
28K 图像的 attention map 预计算	H100 单卡 ~2 小时, ~2TB 存储
Transcoder 完整训练	8×H100, ~60 小时

关键发现¶

层次化整合：视觉和语义概念的联合编码特征仅在约 Layer 20 以上出现，早期层保持模态独立，支持"渐进绑定假说"——跨模态关联在网络深度方向上逐步建立
视觉数学电路：对图像化算术（如渲染的 \(1+2\)），模型部分在视觉空间内计算——中间层出现对应结果数字 "3" 的视觉特征，跨上下文一致激活。还发现了数字范围编码和模算术模式的视觉表示，呼应了 LLM 文本电路中的类似发现
六指幻觉机制：并非单一故障模式，而是感知偏差与内部电路动态的交互结果——(1) SigLIP 编码器产生过度强调通用"手"语义的 embedding；(2) 模型内部电路进一步放大手相关特征；(3) 数字 "6" 的视觉特征被压制到与无关数字相当的水平，而手相关特征强烈激活"五"电路。模型确实拥有可视化计数电路，但被更强的语义和感知信号淹没
平行视觉-语义通路与晚期收敛：Gemma-3 在网络深层仍维持独立的视觉和语义表征流——如火星图像触发的"航天飞机"关联特征反映了独立于语义的视觉联想；高层中视觉相似物种（海獭、海豹、河狸）一致激活，即使语义类别不同。两条通路在最终层合并为统一的多模态表征

消融实验¶

干预方式	实验设置	结果
Circuit Patching（火星→地球）	抑制中间层火星视觉特征，激活地球视觉特征	后续所有特征和输出转变为地球相关概念
Feature Steering	修改特定特征激活值	输出可预测性地改变，验证电路因果性
特征消融（置零）	将目标特征设为零	相关行为被精确抑制
特征放大	将目标特征设为正常数	相关行为被增强

亮点与洞察¶

首次在 VLM 中实现完整的电路追踪，将 Anthropic 在 LLM 上的方法论成功扩展到多模态场景
六指幻觉的机制分析特别有洞察力：不是简单的"编码器出错"，而是编码器偏差 + 内部电路竞争 + 计数电路被淹没三个因素的交互结果
发现 VLM 语言模型部分保持了独立的视觉表征空间，视觉相似性驱动的特征聚类和共激活独立于语义组织
Ad hoc 特征分析策略实用且高效：仅分析当前归因图中的特征，配合小规模任务相关图像集，大幅降低成本同时提升可解释性

局限与展望¶

仅分析 Gemma-3-4B 一个模型，且该模型使用 SigLIP + 双向注意力机制可能引入特有复杂性，结论的普适性未经验证
Per-layer transcoder 无法捕获跨层超位（cross-layer superposition），而 VLM 中图像 embedding 的高特征密度使得归因图中频繁出现近似重复的视觉特征
视觉编码器 attention map 有时难以定位相关区域，限制了图像特征的标注质量
电路发现依赖人类专家手动标注，难以引入定量评估或直接应用于模型微调
计算成本高（单个归因图的完整分析需 ~20 GPU-hours），自动化特征解释方法仍计算上过于昂贵
未深入研究不同 transcoder 配置（如 JumpReLU、BatchTopK）对 VLM 的最优训练策略

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个完整的 VLM 电路追踪框架，填补了多模态机械可解释性的空白
实验充分度: ⭐⭐⭐⭐ 多维度分析+因果干预验证，但仅覆盖单个模型，缺少定量基准对比
写作质量: ⭐⭐⭐⭐⭐ 案例分析深刻且引人入胜，方法论阐述清晰，图示丰富
价值: ⭐⭐⭐⭐⭐ 为 VLM 可解释性奠定了标准化分析框架，六指幻觉等洞察具有直接的实际应用价值