ICLR 2026 可解释性机制可解释性空间推理线性表示假设因果干预激活操控视频时序推理

Linear Mechanisms for Spatiotemporal Reasoning in Vision Language Models¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=2zXRGiorSu
代码: https://github.com/Raphoo/linear-mech-vlms
领域: 机制可解释性 / VLM 空间推理
关键词: 机制可解释性, 空间推理, 线性表示假设, 因果干预, 激活操控, 视频时序推理

一句话总结¶

本文发现 VLM 做空间推理时，会把视觉里物体的位置信息以线性的"空间 ID"向量绑定到对应物体词的文本激活上，再在语言空间里完成推理；通过因果干预证明只改这个空间 ID 就能系统性翻转模型对"左/右、远/近"的判断，并把同一机制扩展到视频模型的"时序 ID"。

研究背景与动机¶

领域现状：SoTA VLM（LLaVA、Qwen、InternVL、Gemma 等）在"狗在猫的左边还是右边"这类空间 VQA 上已有稳定表现，但它们到底怎么做到的几乎是黑箱。与此同时，LLM 的机制可解释性已经积累了大量"线性"证据——线性表示假设、激活补丁（activation patching）、以及专门负责关系推理的线性 binding ID 电路。

现有痛点：VLM 的典型架构是"视觉编码器把图像投影成 token → 拼到文本 token 前 → 喂给对齐过的 LLM"。视觉/几何信息（图像 patch）和文本表示（语言查询）必须在某一层"汇合"，但没人说清这个汇合点在哪、汇合后的信息以什么形式存在、它是不是因果地决定了输出。

核心矛盾：一边是 LLM 里被反复验证的"线性推理电路"，一边是 VLM 里仍然不透明的跨模态空间推理。把图像里的二维位置塞进语言推理流，这个跨模态信息搬运到底是复杂的非线性分布式过程，还是可以用一个简单的线性结构近似捕获？

本文目标：作者抛出三个递进问题——Q1 能否用线性模型刻画 VLM 内部驱动空间推理的结构？Q2 有了这个线性模型，怎么用它去诊断和改进 SoTA VLM？Q3 视频模型在时间轴上是否也用类似的线性机制？

核心 idea（文本锚定的线性空间 ID）：作者假设 VLM 在早期层把物体的空间定位线性地绑定到该物体单词的激活上，形成一个叫 spatial ID 的潜在结构；后续的"左/右/远/近"推理本质上是在文本空间里对这个 ID 做线性读出。只要能把空间 ID 抽出来、再加减它去操控模型信念，就能证明这个线性机制是因果的而非相关的。

方法详解¶

整体框架¶

方法围绕"假设 → 定位 → 提取 → 因果验证 → 应用 → 扩展"展开：先用镜像交换实验定位空间信息在哪些层、哪些 token 上汇合（发现集中在中间层的物体词 token）；再用对象网格平均从激活里把线性空间 ID 提取出来，并给出它为什么会涌现的解析推导；接着用任意 ID 操控/对抗操控做因果干预，证明只动空间 ID 就能翻转模型信念；最后把空间 ID 当成诊断工具（定位 VLM 失败发生在视觉编码器还是跨模态整合阶段）和训练信号（加空间 ID loss 微调），并把整套流程平移到视频模型得到时序 ID。

flowchart LR
    A[图像 patch + 文本查询] --> B[视觉编码器投影成视觉 token]
    B --> C{中间"模态对齐层"}
    C -->|注意力把位置写入物体词| D["物体词激活<br/>= 语义 + 空间 ID Δ_L(i,j)"]
    D --> E[语言空间线性读出<br/>ℓ(LEFT)-ℓ(RIGHT) ≈ w·Δ_L]
    E --> F[最终空间判断]
    G[镜像交换<br/>定位汇合层] -.诊断.-> C
    H[加减 Δ_L 因果干预] -.操控信念.-> D

关键设计¶

1. 镜像交换实验：用激活交换定位空间信息的"汇合点"。 要判断 VLM 是否真的在内部"隔离并传递"空间信息，作者对同一文本查询喂入原图和水平镜像图两个版本，在某中间层 \(L\) 把原图激活 \(x_L\) 的一个子集 \(Q\) 替换成镜像版 \(y_L\) 的对应位置，再让后续层正常算完。\(Q\) 取三种：全部文本 token、全部图像 patch、只取物体词 token。若空间推理的关键信息集中在某个区域，覆盖它就会让模型的最终信念翻转。信念翻转用归一化指标度量：\(\text{belief shift}_L = \frac{P_{x_{out}}(\text{GT}) - P_{\tilde{x}_{out,L}}(\text{GT})}{P_{x_{out}}(\text{GT}) - P_{y_{out}}(\text{GT})}\)，0 表示干预后还像原图、1 表示已变成镜像图的信念。作为对照，"属性交换"（只改颜色而非镜像）跑同样流程。结果很干净：图像 patch 的影响在浅层强、随深度衰减；文本 token 在深层越来越重要；而物体词 token 只在中间一个窄带的层里影响空间信念——这正是跨模态把空间信息写进文本的"汇合层"。属性交换对照组则是一片噪声，说明镜像交换确实隔离出了纯空间因素。

2. 空间 ID 的提取与解析涌现：从激活里平均掉语义，剩下的就是线性位置向量。 既然空间 ID 是线性绑定在物体词激活上的，就能通过"在同一物体的所有位置上平均、消掉语义"把它分离出来。对物体 \(o\) 在 \(m\times m\) 网格各位置 \((i,j)\) 的物体词激活 \(\phi_L\)，先求位置无关的均值 \(\bar\phi_L^{(o)}\)，则该位置的空间 ID 为 \(\Delta_L^{(o)}(i,j)=\phi_L(o;I_{(i,j)}^{(o)},T^{(o)})-\bar\phi_L^{(o)}\)，再对 \(N\) 个物体平均得到通用空间 ID \(\Delta_L(i,j)\)，并由网格上的差分提炼出水平/垂直方向向量 \(h_L,v_L\)。更重要的是作者给了为什么会涌现的解析草图：把图像 patch 分解为 \(x_p=s_p+P\psi(p)+\varepsilon_p\)（内容 + 共享位置基 + 噪声），当跨模态注意力峰值落在真正的物体 patch \(p^\star\) 上时，残差更新近似 \(\Delta_L(i,j)\approx \underbrace{W_{out}W_V P}_{M}\big(\psi(i,j)-\frac{1}{m^2}\sum_p\psi(p)\big)\)——即空间 ID 是位置编码基 \(\psi\)（RoPE 或学习到的 2D 嵌入）经一个模型固定的线性变换 \(M\) 写进物体 token 的结果，于是空间 logit 也成了线性读出 \(\ell(\text{LEFT})-\ell(\text{RIGHT})\approx(w_{\text{LEFT}}-w_{\text{RIGHT}})^\top \Delta_L(i,j)\)。实验上从位置编码到空间 ID 的低秩线性拟合（rank-3）就能解释大部分方差（\(R^2\gtrsim0.85\)）。

3. 任意 ID 操控与对抗操控：只改空间 ID 就翻转模型信念，证明因果性。 相关不等于因果，所以作者直接做"加减 ID"的干预：在层 \(L\) 把某物体 token 的激活 \(x_L[q]\) 替换成 \(x_L[q]+\Delta_L(i,j)-\tilde\Delta_L(i,j)\)（\(\tilde\Delta\) 为镜像位置 ID，近似保模长，缩放系数 \(\alpha=5\) 由网格搜索得到），再看输出里"left/right"的对数概率怎么变。在 100 张 COCO-SPATIAL 真实图上，用最右侧 ID 干预会显著抬高模型"在右边"的信念、最左侧 ID 反之；同样的操控还能控制"远/近"以及"被夹在两个物体中间与否"的三元关系。对抗操控版本在 11 个 SoTA 模型上系统验证：用最可能反转原信念的空间 ID 干预，中位 64.6% 的样本信念被翻转，而同模长的随机噪声只翻转 29.5%，净高出随机约 43.6%——证明空间 ID 机制在众多模型里都因果地中介着空间信念。

4. 把空间 ID 当诊断器与训练信号：定位失败阶段并反哺微调。 因为空间 ID 是逐样本可算的，作者用它把 VLM 的失败拆解到具体架构阶段。真值偏离实验：把物体词激活投影到空间轴 \(V=[v_L,h_L]\) 得到模型"自认为"的 ID，与真值 ID 比较，发现答错样本（红）的 ID 偏离明显偏负、与答对样本（蓝）分布显著不同（Mann-Whitney U 检验），说明这些错误源于错误的空间 ID 而非语言推理。图像遮挡实验：分别遮挡物体 bbox 与随机区域，比较信念敏感度——LLaVA 在答错时对遮挡真物体更敏感，暴露其视觉编码器物体检测差；LLaMA 则对遮挡无所谓，说明瓶颈在跨模态信息整合阶段。最后作者把这套机制变成监督信号：在 Qwen2-2B 第 11 层加一个空间 ID loss（预测 ID 与真值 ID 的余弦相似度），叠加在语言建模目标上微调，使其在 COCO-Spatial 上更快泛化（3.2k 步达 91%，比无此 loss 的对照高约 6%）。同样的提取-操控流程平移到视频模型，得到"早帧/晚帧"线性可分的时序 ID，并能用它操控"before/after"判断，证明该机制可跨空间与时间。

实验关键数据¶

主实验：对抗操控的信念翻转率（11 个 SoTA VLM，COCO-SPATIAL）¶

干预方式	信念翻转率（中位）
空间 ID 操控	64.6%
同模长随机噪声	29.5%
空间 ID 超出随机的净影响	+43.6%（平均）

消融/分析：空间 ID 微调（Qwen2-2B，COCO-Val Accuracy）¶

训练步数	0	800	1600	2400	3200
对照（仅 LM loss）	0.77	0.83	0.84	0.85	0.85
加空间 ID loss	0.77	0.83	0.84	0.88	0.91
空间 ID loss 值（↓）	0.75	0.58	0.41	0.36	0.33

位置编码 \(\psi\) → 空间 ID \(\Delta_L\) 的低秩线性拟合：rank-3 即给出 \(R^2\gtrsim0.85\)，支撑"空间 ID 是位置基的线性变换"。

关键发现¶

汇合层定位：物体词 token 只在中间一窄带层影响空间信念，图像 patch 影响随深度衰减、文本 token 影响随深度上升，三者刻画出"视觉→文本"的跨模态切换。
深度被错当成高度：用变高度的空间 ID 操控 LLaVA1.5-7B 时，"above/below"的信念变化与"front/behind"高度相关，"above/behind"和"below/front"的词嵌入几乎重合——揭示 VLM 缺乏独立的深度表示。
可操控性与准确率正相关：零样本准确率越高的模型越容易被空间 ID 操控，说明空间 ID 强度是衡量模型空间能力的有效信号。
失败归因：LLaVA 的瓶颈在视觉编码器（现成 ViT 检测粒度差），LLaMA 的瓶颈在跨模态信息整合，二者的语言推理阶段都忠实于收到的空间 ID。
时序 ID：视频模型（LLaVA-Video、VideoLLaMA3、Qwen2.5）即便用不同的时间标注方式（文本描述帧数 vs MRoPE 时间 ID），都涌现出线性可操控的时序 ID。

亮点与洞察¶

把"跨模态空间推理"压成一个线性向量：spatial ID 的优雅在于它用奥卡姆剃刀级别的简单结构（一个线性方向）捕获了 VLM 内部最难解释的"图像位置如何进入语言推理"，并且这个结构在 11 个模型里都成立。
相关→因果的闭环很扎实：不止做了探针式的"能抽出来"，更做了"只改它就能系统翻转信念"的因果干预，还配了同模长噪声对照，避免把激活扰动的普遍效应误当成空间 ID 的功劳。
解析涌现推导接住了经验现象：从注意力残差更新一路推到"空间 ID = 位置编码基的固定线性变换"，再用 rank-3 拟合的高 \(R^2\) 佐证，让"为什么所有模型都有"这件事有了第一性原理的解释。
可解释性直接落到工程：把机制变成诊断工具（定位失败在哪个阶段）和训练信号（空间 ID loss 提分 6%），是少见的"解释→改进"闭环，而不是停留在画图说明。
空间与时间统一：同一套提取-操控范式平移到视频得到时序 ID，暗示 VLM 处理"哪里"和"何时"用的是同构的线性绑定机制。

局限与展望¶

只覆盖简单查询：分析局限在"左/右、远/近"这类基础空间查询和外观式时序查询，开放式、多跳的复杂空间推理是否还靠空间 ID 主导尚未知。
模型规模上限 14B：只在 ≤14B 的模型上提取与操控，更大模型里空间 ID 电路是否仍占主导、还是会被更分布式的机制取代，需要进一步验证。
线性只是近似：作者自己强调真实电路充满噪声与非线性，空间 ID 可能只捕获了更复杂系统的一个分量；错误也可能来自 LM 读出阶段的先验偏差而非空间 ID。
诊断结论偏初步：把失败归到"视觉编码器/跨模态整合/语言推理"某一阶段是统计性的倾向，不代表一个模型的所有失败都源于单一组件。
改进侧仍是小规模验证：空间 ID loss 只在合成数据上微调 2B 模型，且很快过拟合饱和；大规模、显式时序引导的训练是明确的后续方向。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次把 VLM 跨模态空间推理压成可提取、可因果操控的线性"空间 ID"，并给出涌现的解析推导，再统一到视频时序 ID，机制层面的洞察很原创。
实验充分度: ⭐⭐⭐⭐ 11 个 SoTA 模型 + 因果干预 + 噪声对照 + 诊断与微调下游验证 + 视频扩展，证据链完整；扣分在复杂查询与大模型规模未覆盖、微调验证偏小。
写作质量: ⭐⭐⭐⭐ Q1/Q2/Q3 递进清晰，图文与公式呼应到位，机制论证有"现象→提取→因果→解析"的闭环；部分公式与附录依赖较重。
价值: ⭐⭐⭐⭐⭐ 既给 VLM 空间推理提供了第一性原理级解释，又把解释直接变成诊断工具和训练信号，对可解释性与模型设计两边都有可落地的价值。