Map the Flow: Revealing Hidden Pathways of Information in VideoLLMs¶

会议: ICLR 2026
arXiv: 2510.13251
代码: 项目页面
领域: 视频理解 / 可解释AI
关键词: VideoLLM, 信息流分析, 机制可解释性, 注意力剪枝, 时序推理

一句话总结¶

首次用机制可解释性工具（Attention Knockout + Logit Lens）系统逆向工程VideoLLM的时序推理过程，揭示出"早中层跨帧交互→中层视频-语言整合→中后层答案生成"的三阶段信息流蓝图，并证明仅保留42%注意力边即可几乎无损保持VideoQA性能。

研究背景与动机¶

领域现状：VideoLLM的标准范式是将视频帧通过视觉编码器patch化为token序列，与文本token拼接后送入因果注意力的LLM进行自回归生成。研究社区的工作主要集中在模型的"外部设计"上——包括扩大视频指令微调数据集、关键帧选择策略、以及视频token压缩方法。但对于模型内部"如何"从扁平化的帧token序列中提取时序信息、"在哪里"完成视频和语言的语义整合，几乎没有系统研究。

现有痛点：图像MLLM的可解释性研究（如Neo 2025）已发现了一些结构化行为模式，但这些发现能否推广到视频场景完全未知。视频与图像有根本区别——VideoQA需要从多帧中聚合时间维度的信息。具体而言有三个核心问题：(1) VideoLLM如何从扁平化的帧token序列中编码时间顺序？(2) 时间概念（如"先""后"）怎样从视频token传播到文本token？(3) 模型在哪一层"准备好"生成正确答案？

核心矛盾：视频帧经过patchify后变成一维token序列，时间结构被隐式编码在位置中。模型必须通过某种内部机制重新发现和利用这些时序关系，而现有研究只关注提升性能，对这个"黑箱内部发生了什么"一无所知。这阻碍了有针对性的架构改进和推理加速。

本文目标 提供一张VideoLLM时序推理的完整蓝图：信息从哪里提取、在哪些层整合、在哪个阶段准备好答案。进而验证这些关键路径是否sufficiently代表了模型的推理过程。

切入角度：作者从机制可解释性（mechanistic interpretability）出发，使用因果干预工具（Attention Knockout断开特定注意力边测影响）和探针工具（Logit Lens投影中间层到词汇空间读语义），将VideoLLM的推理过程分解为可检验的阶段。

核心 idea：用Attention Knockout和Logit Lens逆向工程VideoLLM的注意力路径，发现时序推理遵循"跨帧交互→时间关键词对齐→答案生成"三阶段pattern，且大部分注意力边是冗余的。

方法详解¶

整体框架¶

本文不是提出新模型，而是一项分析研究。整体pipeline是：(1) 在VideoQA任务上运行VideoLLM → (2) 用Attention Knockout系统性断开不同类型的注意力边（跨帧、视频→问题、问题→最后token等），观测预测概率变化 → (3) 用Logit Lens探针视频token中间层的语义内容 → (4) 综合发现概括出三阶段信息流蓝图 → (5) 验证：仅保留关键路径，剪枝其余注意力边，在benchmark上测性能。

实验基座主要是LLaVA-NeXT-7B经过VideoChat2-IT数据集微调3个epoch得到的LLaVA-NeXT-7B-Video-FT，8帧采样，每帧144个token。分析同时覆盖5种时序推理任务（动作反义、动作顺序、场景转换、运动方向、物体计数），均来自TVBench基准。

关键设计¶

Attention Knockout——因果追踪注意力贡献:
- 功能：选择性断开特定token对之间的注意力连接（将注意力mask对应位置设为\(-\infty\)），然后测量对模型预测的概率影响
- 核心思路：对每层\(l\)，以窗口\(k=9\)为中心断开目标注意力边（如跨帧的video-to-video attention），计算相对概率变化\(((p_{\text{knockout}} - p_{\text{base}})/p_{\text{base}}) \times 100\)。窗口设为9是因为太窄时信息可通过残差连接绕过干预
- 设计动机：相比观察性分析（如直接看attention weight），因果干预能准确量化"如果没有这条信息路径，模型行为会怎么变"。这是机制可解释性领域的标准方法，源自Geva et al. 2023
Logit Lens——探针中间层语义内容:
- 功能：将中间层hidden state投影到语言模型head上得到logits，读出视频token在每层"看起来像什么词"
- 核心思路：对视频token在每层的表示过LM head，统计空间关键词（物体、颜色）和时间关键词（before/after/first等）出现的频率和位置分布。用LLaVA-NeXT-13B-Video-FT在Action Sequence任务上进行
- 设计动机：Attention Knockout告诉我们"哪些路径重要"，但不告诉我们"路径上流动的是什么信息"。Logit Lens填补这个gap，揭示视频token中时间概念何时涌现
信息流阶段分解与验证:
- 功能：将注意力路径分为6类（跨帧video-video、video→question、video→last、question→last、last→last、question→video），分析各类路径在不同层的贡献
- 核心思路：分别knockout每类路径在每层的注意力边，绘制层-概率变化曲线。路径角色清晰后，只保留关键层范围内的关键路径类型（如L6-15保留跨帧交互，L6-20保留video→question，L16-25保留question→last），禁用所有其余路径
- 设计动机：从发现到验证的闭环——先分析出哪些路径关键，再用"只保留关键路径"的端到端实验证明分析的正确性

四大核心发现¶

发现1：VideoQA微调诱导早中层跨帧交互。 对比LLaVA-NeXT-7B（仅图像训练）和LLaVA-NeXT-7B-Video-FT（视频微调后），在早中层knockout跨帧注意力时，视频微调模型性能大幅下降，而图像模型几乎无反应。这说明视频微调特异性地在早中层建立了跨帧交互能力，且这是图像预训练中不存在的新能力。在前半层（L1-16）完全禁用跨帧注意力导致准确率下降18%-60.8%，且模型会生成语义相反的答案。

发现2：视频token中时间概念的涌现与选择性传播。 Logit Lens显示空间概念（物体、颜色）在非常早的层就出现在前景token上，而时间概念（before/after等）在中层才涌现，且占据的是前景token之外的位置——模型先在前景token上稳定空间表示，再在剩余token位置编码时间动态。当保持正常跨帧注意力时，问题中的时间关键词（如"begins""ends"）会精确attend到视频中语义对应的时间段；禁用跨帧注意力后退化为基于位置proximity的注意力。

发现3：答案生成在中后层启动。 追踪最后token位置每层的正确答案概率，约第20层（中层）后概率急剧上升，正好与video→question信息流完成的时间一致。且正确选项快速压倒其他选项，不存在长时间的选项竞争。

发现4：关键信息路径只占总注意力边的42%。 保留关键路径、禁用其余58%注意力边后，在TVBench和TOMATO两个benchmark上性能几乎无损。随机剪枝同比例则性能崩溃。

实验关键数据¶

有效信息路径剪枝——多模型验证¶

模型	视频Token数	注意力边保留比例	TVBench	TOMATO	vs Full Causal
LLaVA-NeXT-7B-Video-FT	8×12×12	42% (10.8M/25.7M)	51.2	29.2	-0.3 / -1.0
LLaVA-NeXT-7B-Video-FT (随机剪枝)	同上	42%	40.1	23.1	-11.4 / -7.1
LLaVA-NeXT-13B-Video-FT	8×12×12	37% (14.3M/32.2M)	54.6	27.4	-0.5 / +0.2
Mini-InternVL-4B-Video-FT	8×16×16	40% (29.6M/74.6M)	56.0	31.2	0.0 / -1.0
VideoLLaMA3-7B	8×12×12	58% (11.4M/19.9M)	57.2	28.7	+2.0 / +0.7

保留有效路径的剪枝在4个不同架构/规模的模型上一致生效。VideoLLaMA3甚至剪枝后反超baseline，说明部分注意力边是干扰性噪声。

跨帧注意力禁用消融——按任务¶

任务	禁用前半层跨帧注意力后准确率下降	典型错误
Action Antonym	-24.1%	"stand up" → "sit on chair"（语义相反）
Action Sequence	-20.2%	"open bag" → "put bag in microwave"（顺序完全错误）
Scene Transition	-18.0%	"bedroom→street" → "street→different location"（方向颠倒）
Moving Direction	-44.8%	"move right" → "move left"（方向相反）
Object Count	-60.8%	"zero moving objects" → "three"（数量完全错误）

此表清晰展示跨帧注意力的不可或缺——禁用后模型不是"不确定"而是给出语义相反的答案，说明没有跨帧交互时模型回退到了静态偏置。

关键发现¶

VideoQA微调的独特贡献：通过对比同架构的ImageLLM和VideoLLM，证实跨帧注意力交互是视频微调独有的习得能力，早中层的跨帧交互模式仅在视频微调后出现。这回答了"视频微调到底教了什么"这个基本问题
时间概念的"涌现"特性：视频token中的时间概念不是视觉编码器直接产出的，而是在LLM的中间层自发涌现。空间概念先稳定（前景token），时间概念后涌现（剩余token），两类概念在token空间上互不覆盖
时间关键词的"信息检查站"角色：问题中的时间关键词（选项中的动作词、时间副词）充当信息整合检查站。在不同任务中，视频信息到达这些检查站的路径不同：简单任务走直接路径(video→option)，需要目标识别的任务走间接路径(video→non-option question→option)
失败案例的机制诊断：分析错误预测样本发现，跨模态整合路径（中层→后层）的模式与正确样本一致，说明失败源头在更早的视频表示阶段——要么是虚假的跨帧注意力带偏了表示(Case 1)，要么是模型回退到了静态场景偏置(Case 2)

亮点与洞察¶

完整的三阶段推理蓝图：将VideoLLM的黑箱推理过程分解为可检验、可操作的三个阶段。这不只是描述性分析——通过"只保留关键路径"的端到端验证形成了分析→假设→验证的闭环，增强了发现的可信度
58%注意力边可安全剪枝：这一发现直接指向实际应用——可以构建更高效的VideoLLM推理pipeline。不同于启发式的token压缩方法，本文从机制层面解释了为什么这些token交互是冗余的，为注意力稀疏化提供了理论依据
"时间概念涌现"的发现特别精彩：视频经过空间编码器处理后，token本身不直接包含时间语义。但在LLM处理过程中，时间概念在中间层自发涌现在非前景token位置上。这暗示LLM的自注意力机制具有从位置编码序列中"发明"时间语义的能力
失败模式的两种机制：Case 1（虚假跨帧注意力）和Case 2（静态偏置回退）的区分，为针对性改进提供了方向——前者需要改进跨帧交互质量，后者需要减少训练数据的静态场景偏置

局限与展望¶

任务覆盖有限：主要分析在TVBench（多选QA）上进行，虽Appendix补充了开放式QA和长视频，但信息流模式在视频描述、视频摘要等生成任务中可能有本质不同
模型规模局限：最大分析模型是13B参数。70B+级别模型是否也遵循同样的三阶段模式？更深的网络可能有更复杂的信息路由
Attention Knockout的窗口粒度：使用\(k=9\)的层窗口是为了防止残差绕过，但这使得分析的层精度较粗。更细粒度的因果干预（如单层+MLP分析）可能揭示更精细的机制
剪枝层范围是人工经验设定的：有效路径的层范围（如L6-15用于跨帧交互）基于分析观察人工确定。自适应地学习每个样本的最优路径范围可能进一步提升剪枝效率
静态分析缺乏动态自适应：当前分析是数据集级别的统计模式，但每个视频样本的最优路径可能不同。开发sample-adaptive的路径选择可能是有价值的研究方向

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个VideoLLM时序推理的完整机制分析，填补了视频领域可解释性的空白
实验充分度: ⭐⭐⭐⭐ 5种任务、4个模型验证、分析→假设→验证闭环完整，但任务类型主要限于多选QA
写作质量: ⭐⭐⭐⭐⭐ 研究问题分解清晰，图示直观（尤其Fig.1的流程蓝图），发现递进式展现有很强的叙事逻辑
价值: ⭐⭐⭐⭐ 对VideoLLM架构设计、注意力稀疏化、推理加速有直接指导意义，失败模式分析指出了改进方向