Attention Gathers, MLPs Compose: A Causal Analysis of an Action-Outcome Circuit in VideoViT¶

会议: AAAI2026
arXiv: 2603.11142
代码: 待确认
领域: 可解释性
关键词: mechanistic interpretability, Video Vision Transformer, Activation Patching, Circuit Analysis, Trustworthy AI

一句话总结¶

通过机械可解释性方法逆向工程 Video Vision Transformer（ViViT）的内部电路，揭示注意力头负责"收集证据"、MLP 模块负责"组合概念"的分工机制，证明模型在简单分类任务中隐藏了超越训练目标的语义知识。

背景与动机¶

视频视觉 Transformer（ViViT）在视频分类任务上取得了优异表现，但和其他深度模型一样面临"黑箱"问题。对于需要部署在高风险场景（自动驾驶、医疗等）的视频 AI 系统，理解其内部推理过程是建立信任的关键前提。

现有的可解释性工作大多集中在语言模型和图像模型，视频领域由于时空维度更高而研究较少。机械可解释性（Mechanistic Interpretability）旨在通过逆向工程将模型内部计算还原为人类可理解的算法，但在视频 Transformer 上的应用几乎是空白。

本文的核心动机是：一个仅训练用于分类人类动作（如"保龄球"）的 ViViT 模型，是否在内部隐藏了更细粒度的语义理解（如动作的成功/失败）？这种"隐藏认知"对 AI 安全和可信部署有何启示？

核心问题¶

预训练的 ViViT 在完成相同分类任务（输出均为"bowling"）时，是否对"全中"（strike）和"洗沟"（gutter）两种不同结果产生了不同的内部表征？
如果存在这种内部信号，模型架构中的哪些组件（Attention vs. MLP）分别承担了什么角色？
这种内部表征电路的鲁棒性如何，是否能被简单的消融实验破坏？

方法详解¶

实验设置¶

模型：google/vivit-b-16x2-kinetics400，12 层 ViViT-B，使用 16×16 空间 + 2 帧时间的 tubelet embedding
数据：从 Kinetics-400 "bowling" 类别中构造的最小对比对（contrastive pair）——一个"全中"视频和一个"洗沟"视频，模型对两者均正确分类为 bowling（Label 31）
固定随机种子：42，确保实验可复现

观察性分析¶

Direct Logit Attribution（DLA）：分析 [CLS] token 在各层对最终分类 logit 的贡献，发现从 Layer 9 开始模型置信度显著增加
Token-wise Heatmap：可视化时空 token 对输出类别的贡献，发现主要集中在球和球瓶交互区域
CLS Token Attention 可视化：Layer 10 Head 8 作为语义"结果检测器"，在 strike 视频中追踪球的轨迹和撞击瞬间，在 gutter 视频中关注球沟和未被击倒的球瓶
线性探针（Linear Probe）：在所有 12 层上训练逻辑回归分类器区分 strike 和 gutter 的 [CLS] token 激活——结果从 Layer 0 就达到 100% 准确率，说明探针仅捕获了表面差异（"指纹扫描"），而非语义概念

信号定位：Delta Analysis¶

利用两段视频的激活差值定位内部信号：

\[\Delta = act_{strike} - act_{gutter}\]

计算每层 delta 的 L2 范数作为"信号强度"。结果显示从 Layer 5 到 Layer 11，L2 范数增长超过 300%（约 75 → 250+），呈现清晰的"信号放大级联"（amplification cascade）。与线性探针从 Layer 0 就检测到差异不同，delta analysis 显示语义信号在中深层才逐渐形成，表明模型计算的是高层语义抽象而非低层特征差异。

因果分析¶

成分消融（Component Ablation）：使用 DLA 识别贡献最大的前 10% token（313 个 patch），将其置零。结果：strike 视频的 bowling logit 仅下降 0.34（16.99→16.66），gutter 视频仅下降 0.02（16.52→16.50），分类几乎不受影响。这说明分类电路是高度分布式的，且"结果信号"电路独立于分类电路运作。
Activation Patching：将 strike 运行中的单个组件（Attention 或 MLP）激活替换到 gutter 运行中，测量在 Layer 11 恢复了多少"成功 vs. 失败"信号。信号恢复率计算如下：

\[\text{Recovery}(\%) = \frac{\|\Delta_{patch}\|}{\|\Delta_{strike}\|} \cdot \text{sign}(\Delta_{patch} \cdot \Delta_{strike}) \times 100\]

实验关键数据¶

Activation Patching 结果（Layer 4-10）¶

层	组件	信号恢复率
Layer 4	Attention	54.41%
Layer 4	MLP	60.17%
Layer 5	Attention	50.22%
Layer 5	MLP	57.49%
Layer 6	Attention	43.62%
Layer 6	MLP	49.11%
Layer 7	Attention	40.38%
Layer 7	MLP	42.55%
Layer 8	Attention	37.72%
Layer 8	MLP	42.10%
Layer 9	Attention	44.43%
Layer 9	MLP	58.66%
Layer 10	Attention	47.61%
Layer 10	MLP	43.39%

关键发现¶

注意力头恢复 37-54% 的信号，角色为"证据收集者"（Evidence Gatherers）
MLP 模块恢复 42-60% 的信号，角色为"概念组合者"（Concept Composers），是生成"成功"信号的主要驱动力
没有单一组件能恢复 100% 信号，证明电路是分布式和冗余的
消融实验中分类几乎不受影响（logit 变化 < 0.34），验证了电路的鲁棒性

亮点¶

首次在视频 Transformer 上进行系统性的机械可解释性分析，将 MechInterp 从语言/图像模型拓展到视频领域
揭示了清晰的分工模式："Attention Gathers, MLPs Compose"——注意力负责聚合时空证据，MLP 负责组合语义概念，支持了 Transformer 内部功能分化的假说
发现了"隐藏认知"现象：模型仅训练用于分类"bowling"，却自发发展出区分动作结果的内部表征，这对 AI 安全具有重要警示意义
方法论贡献：展示了 delta analysis + activation patching 的组合方法，从信号定位到因果归因的完整分析流程
线性探针的失败案例分析很有教育意义——100% 准确率反而说明探针在捕获表面特征，强调了因果干预方法的必要性

局限与展望¶

样本规模极小：仅使用一对对比视频（strike vs. gutter），无法确认发现的电路是否推广到更多样本或更多动作类别
单一架构：仅在 ViViT-B 上验证，未测试 TimeSformer 等其他视频 Transformer
无法排除特征特异性：发现的电路可能部分依赖于特定视频对的背景纹理等低层特征，而非纯粹的语义概念
缺乏与标准可解释性方法的定量对比：未与 Integrated Gradients、CAV 等基线进行系统性比较
未来方向包括使用 Automated Circuit Discovery（ACDC）在大规模数据上验证，以及跨架构泛化实验

与相关工作的对比¶

方面	本文	传统可解释性方法
分析粒度	组件级因果分析（Attention vs. MLP）	输入特征归因（梯度热力图）
方法类型	因果干预（activation patching）	观察性（saliency maps, IG）
适用域	视频 Transformer	主要在语言/图像模型
发现能力	能区分功能角色（gather vs. compose）	只能指出"哪些输入重要"

与 Eliciting Latent Knowledge（ELK）方向的工作（Burns et al. 2022, Mallen et al. 2023）相呼应：本文在视频域提供了模型隐藏知识的实证，而 ELK 主要在语言模型中探索。线性探针在 Layer 0 即达 100% 的失败案例也与 Mallen et al. 的发现一致——简单探针可能捕获的是浅层特征而非真正的隐藏知识。

启发与关联¶

对 AI 安全的启示：即使是简单任务训练的模型也可能发展出超越训练目标的内部表征，标准的输出监控无法发现这些"隐藏认知"，需要机械可解释性工具进行深层审查
MLP 的冗余级联机制使得简单的安全干预（如移除单个"有害"组件）可能无效，需要更精细的干预策略
分析框架可迁移：delta analysis + activation patching 的方法论可以应用于其他视频理解任务和架构
与 Transformer 可解释性文献的衔接：在语言模型中已有类似发现（attention 做信息路由，MLP 做知识存储/组合），本文在视频域提供了进一步的支持证据

评分¶

新颖性: ⭐⭐⭐⭐ （首次将完整的 MechInterp 流程应用于视频 Transformer，研究问题新颖）
实验充分度: ⭐⭐⭐ （方法论完整但样本量过小，仅一对对比视频，泛化性不足）
写作质量: ⭐⭐⭐⭐ （逻辑清晰，从观察到因果的叙述连贯，图表设计合理）
价值: ⭐⭐⭐⭐ （对 AI 安全和可信部署有重要启示，方法论有迁移价值，但需要大规模验证）