跳转至

Linear Mechanisms for Spatiotemporal Reasoning in Vision Language Models

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=2zXRGiorSu
代码: https://github.com/Raphoo/linear-mech-vlms
领域: 机制可解释性 / VLM 空间推理
关键词: 机制可解释性, 空间推理, 线性表示假设, 因果干预, 激活操控, 视频时序推理

一句话总结

本文发现 VLM 做空间推理时,会把视觉里物体的位置信息以线性的"空间 ID"向量绑定到对应物体词的文本激活上,再在语言空间里完成推理;通过因果干预证明只改这个空间 ID 就能系统性翻转模型对"左/右、远/近"的判断,并把同一机制扩展到视频模型的"时序 ID"。

研究背景与动机

领域现状:SoTA VLM(LLaVA、Qwen、InternVL、Gemma 等)在"狗在猫的左边还是右边"这类空间 VQA 上已有稳定表现,但它们到底怎么做到的几乎是黑箱。与此同时,LLM 的机制可解释性已经积累了大量"线性"证据——线性表示假设、激活补丁(activation patching)、以及专门负责关系推理的线性 binding ID 电路。

现有痛点:VLM 的典型架构是"视觉编码器把图像投影成 token → 拼到文本 token 前 → 喂给对齐过的 LLM"。视觉/几何信息(图像 patch)和文本表示(语言查询)必须在某一层"汇合",但没人说清这个汇合点在哪、汇合后的信息以什么形式存在、它是不是因果地决定了输出。

核心矛盾:一边是 LLM 里被反复验证的"线性推理电路",一边是 VLM 里仍然不透明的跨模态空间推理。把图像里的二维位置塞进语言推理流,这个跨模态信息搬运到底是复杂的非线性分布式过程,还是可以用一个简单的线性结构近似捕获?

本文目标:作者抛出三个递进问题——Q1 能否用线性模型刻画 VLM 内部驱动空间推理的结构?Q2 有了这个线性模型,怎么用它去诊断和改进 SoTA VLM?Q3 视频模型在时间轴上是否也用类似的线性机制?

核心 idea文本锚定的线性空间 ID):作者假设 VLM 在早期层把物体的空间定位线性地绑定到该物体单词的激活上,形成一个叫 spatial ID 的潜在结构;后续的"左/右/远/近"推理本质上是在文本空间里对这个 ID 做线性读出。只要能把空间 ID 抽出来、再加减它去操控模型信念,就能证明这个线性机制是因果的而非相关的。

方法详解

整体框架

方法围绕"假设 → 定位 → 提取 → 因果验证 → 应用 → 扩展"展开:先用镜像交换实验定位空间信息在哪些层、哪些 token 上汇合(发现集中在中间层的物体词 token);再用对象网格平均从激活里把线性空间 ID 提取出来,并给出它为什么会涌现的解析推导;接着用任意 ID 操控/对抗操控做因果干预,证明只动空间 ID 就能翻转模型信念;最后把空间 ID 当成诊断工具(定位 VLM 失败发生在视觉编码器还是跨模态整合阶段)和训练信号(加空间 ID loss 微调),并把整套流程平移到视频模型得到时序 ID

flowchart LR
    A[图像 patch + 文本查询] --> B[视觉编码器投影成视觉 token]
    B --> C{中间"模态对齐层"}
    C -->|注意力把位置写入物体词| D["物体词激活<br/>= 语义 + 空间 ID Δ_L(i,j)"]
    D --> E[语言空间线性读出<br/>ℓ(LEFT)-ℓ(RIGHT) ≈ w·Δ_L]
    E --> F[最终空间判断]
    G[镜像交换<br/>定位汇合层] -.诊断.-> C
    H[加减 Δ_L 因果干预] -.操控信念.-> D

关键设计

1. 镜像交换实验:用激活交换定位空间信息的"汇合点"。 要判断 VLM 是否真的在内部"隔离并传递"空间信息,作者对同一文本查询喂入原图和水平镜像图两个版本,在某中间层 \(L\) 把原图激活 \(x_L\) 的一个子集 \(Q\) 替换成镜像版 \(y_L\) 的对应位置,再让后续层正常算完。\(Q\) 取三种:全部文本 token、全部图像 patch、只取物体词 token。若空间推理的关键信息集中在某个区域,覆盖它就会让模型的最终信念翻转。信念翻转用归一化指标度量:\(\text{belief shift}_L = \frac{P_{x_{out}}(\text{GT}) - P_{\tilde{x}_{out,L}}(\text{GT})}{P_{x_{out}}(\text{GT}) - P_{y_{out}}(\text{GT})}\),0 表示干预后还像原图、1 表示已变成镜像图的信念。作为对照,"属性交换"(只改颜色而非镜像)跑同样流程。结果很干净:图像 patch 的影响在浅层强、随深度衰减;文本 token 在深层越来越重要;而物体词 token 只在中间一个窄带的层里影响空间信念——这正是跨模态把空间信息写进文本的"汇合层"。属性交换对照组则是一片噪声,说明镜像交换确实隔离出了纯空间因素。

2. 空间 ID 的提取与解析涌现:从激活里平均掉语义,剩下的就是线性位置向量。 既然空间 ID 是线性绑定在物体词激活上的,就能通过"在同一物体的所有位置上平均、消掉语义"把它分离出来。对物体 \(o\)\(m\times m\) 网格各位置 \((i,j)\) 的物体词激活 \(\phi_L\),先求位置无关的均值 \(\bar\phi_L^{(o)}\),则该位置的空间 ID 为 \(\Delta_L^{(o)}(i,j)=\phi_L(o;I_{(i,j)}^{(o)},T^{(o)})-\bar\phi_L^{(o)}\),再对 \(N\) 个物体平均得到通用空间 ID \(\Delta_L(i,j)\),并由网格上的差分提炼出水平/垂直方向向量 \(h_L,v_L\)。更重要的是作者给了为什么会涌现的解析草图:把图像 patch 分解为 \(x_p=s_p+P\psi(p)+\varepsilon_p\)(内容 + 共享位置基 + 噪声),当跨模态注意力峰值落在真正的物体 patch \(p^\star\) 上时,残差更新近似 \(\Delta_L(i,j)\approx \underbrace{W_{out}W_V P}_{M}\big(\psi(i,j)-\frac{1}{m^2}\sum_p\psi(p)\big)\)——即空间 ID 是位置编码基 \(\psi\)(RoPE 或学习到的 2D 嵌入)经一个模型固定的线性变换 \(M\) 写进物体 token 的结果,于是空间 logit 也成了线性读出 \(\ell(\text{LEFT})-\ell(\text{RIGHT})\approx(w_{\text{LEFT}}-w_{\text{RIGHT}})^\top \Delta_L(i,j)\)。实验上从位置编码到空间 ID 的低秩线性拟合(rank-3)就能解释大部分方差(\(R^2\gtrsim0.85\))。

3. 任意 ID 操控与对抗操控:只改空间 ID 就翻转模型信念,证明因果性。 相关不等于因果,所以作者直接做"加减 ID"的干预:在层 \(L\) 把某物体 token 的激活 \(x_L[q]\) 替换成 \(x_L[q]+\Delta_L(i,j)-\tilde\Delta_L(i,j)\)\(\tilde\Delta\) 为镜像位置 ID,近似保模长,缩放系数 \(\alpha=5\) 由网格搜索得到),再看输出里"left/right"的对数概率怎么变。在 100 张 COCO-SPATIAL 真实图上,用最右侧 ID 干预会显著抬高模型"在右边"的信念、最左侧 ID 反之;同样的操控还能控制"远/近"以及"被夹在两个物体中间与否"的三元关系。对抗操控版本在 11 个 SoTA 模型上系统验证:用最可能反转原信念的空间 ID 干预,中位 64.6% 的样本信念被翻转,而同模长的随机噪声只翻转 29.5%,净高出随机约 43.6%——证明空间 ID 机制在众多模型里都因果地中介着空间信念。

4. 把空间 ID 当诊断器与训练信号:定位失败阶段并反哺微调。 因为空间 ID 是逐样本可算的,作者用它把 VLM 的失败拆解到具体架构阶段。真值偏离实验:把物体词激活投影到空间轴 \(V=[v_L,h_L]\) 得到模型"自认为"的 ID,与真值 ID 比较,发现答错样本(红)的 ID 偏离明显偏负、与答对样本(蓝)分布显著不同(Mann-Whitney U 检验),说明这些错误源于错误的空间 ID 而非语言推理。图像遮挡实验:分别遮挡物体 bbox 与随机区域,比较信念敏感度——LLaVA 在答错时对遮挡真物体更敏感,暴露其视觉编码器物体检测差;LLaMA 则对遮挡无所谓,说明瓶颈在跨模态信息整合阶段。最后作者把这套机制变成监督信号:在 Qwen2-2B 第 11 层加一个空间 ID loss(预测 ID 与真值 ID 的余弦相似度),叠加在语言建模目标上微调,使其在 COCO-Spatial 上更快泛化(3.2k 步达 91%,比无此 loss 的对照高约 6%)。同样的提取-操控流程平移到视频模型,得到"早帧/晚帧"线性可分的时序 ID,并能用它操控"before/after"判断,证明该机制可跨空间与时间。

实验关键数据

主实验:对抗操控的信念翻转率(11 个 SoTA VLM,COCO-SPATIAL)

干预方式 信念翻转率(中位)
空间 ID 操控 64.6%
同模长随机噪声 29.5%
空间 ID 超出随机的净影响 +43.6%(平均)

消融/分析:空间 ID 微调(Qwen2-2B,COCO-Val Accuracy)

训练步数 0 800 1600 2400 3200
对照(仅 LM loss) 0.77 0.83 0.84 0.85 0.85
加空间 ID loss 0.77 0.83 0.84 0.88 0.91
空间 ID loss 值(↓) 0.75 0.58 0.41 0.36 0.33

位置编码 \(\psi\) → 空间 ID \(\Delta_L\) 的低秩线性拟合:rank-3 即给出 \(R^2\gtrsim0.85\),支撑"空间 ID 是位置基的线性变换"。

关键发现

  • 汇合层定位:物体词 token 只在中间一窄带层影响空间信念,图像 patch 影响随深度衰减、文本 token 影响随深度上升,三者刻画出"视觉→文本"的跨模态切换。
  • 深度被错当成高度:用变高度的空间 ID 操控 LLaVA1.5-7B 时,"above/below"的信念变化与"front/behind"高度相关,"above/behind"和"below/front"的词嵌入几乎重合——揭示 VLM 缺乏独立的深度表示。
  • 可操控性与准确率正相关:零样本准确率越高的模型越容易被空间 ID 操控,说明空间 ID 强度是衡量模型空间能力的有效信号。
  • 失败归因:LLaVA 的瓶颈在视觉编码器(现成 ViT 检测粒度差),LLaMA 的瓶颈在跨模态信息整合,二者的语言推理阶段都忠实于收到的空间 ID。
  • 时序 ID:视频模型(LLaVA-Video、VideoLLaMA3、Qwen2.5)即便用不同的时间标注方式(文本描述帧数 vs MRoPE 时间 ID),都涌现出线性可操控的时序 ID。

亮点与洞察

  • 把"跨模态空间推理"压成一个线性向量:spatial ID 的优雅在于它用奥卡姆剃刀级别的简单结构(一个线性方向)捕获了 VLM 内部最难解释的"图像位置如何进入语言推理",并且这个结构在 11 个模型里都成立。
  • 相关→因果的闭环很扎实:不止做了探针式的"能抽出来",更做了"只改它就能系统翻转信念"的因果干预,还配了同模长噪声对照,避免把激活扰动的普遍效应误当成空间 ID 的功劳。
  • 解析涌现推导接住了经验现象:从注意力残差更新一路推到"空间 ID = 位置编码基的固定线性变换",再用 rank-3 拟合的高 \(R^2\) 佐证,让"为什么所有模型都有"这件事有了第一性原理的解释。
  • 可解释性直接落到工程:把机制变成诊断工具(定位失败在哪个阶段)和训练信号(空间 ID loss 提分 6%),是少见的"解释→改进"闭环,而不是停留在画图说明。
  • 空间与时间统一:同一套提取-操控范式平移到视频得到时序 ID,暗示 VLM 处理"哪里"和"何时"用的是同构的线性绑定机制。

局限与展望

  • 只覆盖简单查询:分析局限在"左/右、远/近"这类基础空间查询和外观式时序查询,开放式、多跳的复杂空间推理是否还靠空间 ID 主导尚未知。
  • 模型规模上限 14B:只在 ≤14B 的模型上提取与操控,更大模型里空间 ID 电路是否仍占主导、还是会被更分布式的机制取代,需要进一步验证。
  • 线性只是近似:作者自己强调真实电路充满噪声与非线性,空间 ID 可能只捕获了更复杂系统的一个分量;错误也可能来自 LM 读出阶段的先验偏差而非空间 ID。
  • 诊断结论偏初步:把失败归到"视觉编码器/跨模态整合/语言推理"某一阶段是统计性的倾向,不代表一个模型的所有失败都源于单一组件。
  • 改进侧仍是小规模验证:空间 ID loss 只在合成数据上微调 2B 模型,且很快过拟合饱和;大规模、显式时序引导的训练是明确的后续方向。

相关工作与启发

本文坐落在机制可解释性线性表示假设的交叉点:它把 LLM 里已被验证的线性 binding ID、激活补丁、线性关系嵌入等思想搬到 VLM,回答了"跨模态空间信息以什么形式存在"。相比此前只发现"VLM 把 VQA 分成图像阶段再文本阶段"(Jiang et al. 2025b)或把 logit lens / 注意力追踪移植到 VLM 的工作,本文的增量是显式刻画了从图像 patch 到文本 token 的空间信息搬运载体(spatial ID)并证明其因果性。对后续研究的启发有三点:其一,机制可解释性可以是"可执行的"——抽出的线性结构能直接当训练监督;其二,模型的能力短板(如深度/高度混淆)可以从内部表示几何里读出来,为架构改进指方向;其三,把可解释性范式从空间平移到时间、从图像平移到视频,提示"线性绑定 + 语言读出"可能是多模态模型处理结构化信息的一种通用骨架。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次把 VLM 跨模态空间推理压成可提取、可因果操控的线性"空间 ID",并给出涌现的解析推导,再统一到视频时序 ID,机制层面的洞察很原创。
  • 实验充分度: ⭐⭐⭐⭐ 11 个 SoTA 模型 + 因果干预 + 噪声对照 + 诊断与微调下游验证 + 视频扩展,证据链完整;扣分在复杂查询与大模型规模未覆盖、微调验证偏小。
  • 写作质量: ⭐⭐⭐⭐ Q1/Q2/Q3 递进清晰,图文与公式呼应到位,机制论证有"现象→提取→因果→解析"的闭环;部分公式与附录依赖较重。
  • 价值: ⭐⭐⭐⭐⭐ 既给 VLM 空间推理提供了第一性原理级解释,又把解释直接变成诊断工具和训练信号,对可解释性与模型设计两边都有可落地的价值。