跳转至

LatentLens: Revealing Highly Interpretable Visual Tokens in LLMs

会议: ICML 2026
arXiv: 2602.00462
代码: 有(论文提供 Demo 与 pip 包)
领域: 可解释性 / 多模态VLM
关键词: 视觉 token, 可解释性, VLM, 上下文化表示, 最近邻检索

一句话总结

本文提出 LatentLens——一种无需训练的可解释性方法,用大语料库的上下文化文本 token 表示作为参照、对 VLM 中每层视觉 token 做最近邻检索并返回句子级描述,证明此前常用的 LogitLens/EmbeddingLens 严重低估了视觉 token 的可解释性(平均 68% vs 24%/32% 可解释),并揭示出"中层跃迁"现象。

研究背景与动机

领域现状:把 LLM 改造成 VLM 可以非常简单——只需训练一个浅层 MLP(甚至线性层),把视觉编码器输出的图像表示投影到冻结 LLM 的嵌入空间,拼接进文本 token 序列即可。这种"冻结 LLM 也能处理非语言输入"的成功引出一个根本问题:为什么 LLM 这么容易适配其他模态?

现有痛点:一种流行假说是 LLM 是"通用计算引擎"、视觉与语言表示会收敛到共享结构。但这些假说无法解释视觉表示在 LLM 内部如何被整合——视觉 token 在 LLM 处理时,其表示到底对不对应语义上有意义的语言?现有无需训练的探查方法给出了矛盾甚至否定的答案:EmbeddingLens(比对输入嵌入矩阵)和 LogitLens(投影到输出反嵌入矩阵得词表分布)都暗示视觉 token 很少可解释,训练类方法(SAE、监督探针)则各执一词,整体上"视觉 token 是否可解释"悬而未决。

核心矛盾:作者把前人方法统一到同一框架后发现两个共同缺陷——(1) 描述集被限死在模型词表 \(V\) 内,只能返回(子词)token;(2) 不同层的潜表示 \(h^{(\ell)}_i\) 总是被拿去和同一组参照向量(输入或输出嵌入)比较,但输入/输出嵌入空间未必是最自然的比较空间。LogitLens 在靠近输出的后层才好用、且跨模型可靠性差,正是这个问题的体现。

切入角度:作者的关键洞察是——视觉 token 表示最自然的比较对象,不是 LLM 的输入/输出嵌入矩阵,而是其他上下文化的 LLM 表示,即"某个句子语境中的某个 token"。而且把描述限制在单个子词上没必要,用句子语料能提供语义更丰富的描述。

核心 idea:用"句子语境中 token 的中间层表示"构成参照池,对视觉 token 做跨层最近邻检索——用对的"镜头"去看,视觉 token 其实高度可解释。

方法详解

LatentLens 是一个无需训练、可作用于 LLM 任意层、返回句子级描述的可解释性方法。核心是把"潜表示 → 自然语言描述"这件事,从"比对静态嵌入矩阵"换成"在海量上下文化表示里做最近邻检索"。

整体框架

方法分三步:先用一个大语料库把每个句子喂进 LLM、预存所有 token 在多层的上下文化表示作为参照库(一次性成本);再从 VLM 各层抽取视觉 token 的潜表示;最后用余弦相似度在参照库里检索 top-k 最近邻,把它们对应的句子作为该视觉 token 的描述。可解释性由一个 VLM-judge(GPT-5)自动判定。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入:图像 + 大文本语料"] --> B["统一框架视角<br/>打分→top-k→返回描述"]
    B --> C["预存上下文化参照库<br/>句子各层 token 表示"]
    C --> D["跨层最近邻检索<br/>视觉 token ↔ 上下文表示"]
    D --> E["VLM-judge 自动判定<br/>是否可解释"]
    E --> F["输出:句子级描述 +<br/>可解释性比例"]

关键设计

1. 统一视角:把现有 lens 都化归为"打分→选 top-k→返回描述"

针对"前人方法各说各话、缺陷不明"的问题,作者先建一个统一框架:给定候选描述集 \(C\),每个描述 \(d_j\) 关联一个向量 \(r_j\),把潜表示 \(h^{(\ell)}_i\) 映射到描述只需三步——对每个 \(r_j\) 算相似度 \(s_j = f(h^{(\ell)}_i, r_j)\)、取 \(\arg\text{top-}k\)、返回对应描述。EmbeddingLens 和 LogitLens 都是这个框架的特例:二者的 \(C=V\)(词表),相似函数分别是与嵌入矩阵 \(W_{emb}\) 的余弦相似、与反嵌入矩阵 \(W_{unemb}\) 的内积。这个统一视角的价值在于它让两个共同缺陷一目了然——描述集困在词表内、且所有层共用同一组参照向量——从而精确定位了改进方向,也为 LatentLens 的设计提供了对照系。

2. 上下文化参照库:用"句子语境中的 token 表示"取代静态嵌入矩阵

针对"输入/输出嵌入未必是最自然比较空间"这一痛点,LatentLens 把参照集换成上下文化表示。给定句子语料 \(C\) 和有 \(L\) 层的 LLM \(M\),对每个句子 \(d_j\)\(M\) 编码、存下每个 token 在位置 \(t\)、每层 \(\ell\) 的上下文化表示 \(r^{(\ell)}_{j,t}\),构成参照库 \(R\)。要分析层 \(\ell'\) 的视觉 token \(h^{(\ell')}_i\),就计算它与 \(R\) 中所有 \(r^{(\ell)}_{j,t}\) 的余弦相似、取 top-k、返回对应句子作描述。与前人的本质区别有二:描述不再是孤立子词而是整句(如视觉 token"建筑"命中的是"stone tower with gold clocks"里的 clocks),且 \(\ell\)\(\ell'\) 可不相等——某层视觉 token 的最近邻可来自另一层的文本表示,这正是后面"中层跃迁"得以被观测的前提。实现上语料用 299 万条 Visual Genome 标注,存 \(\ell\in\{1,2,4,8,16,24,L\text{-}2,L\text{-}1\}\) 八层表示,单 backbone 编码约 2h GPU、约 26GB 存储(float8),加载后单图检索约 29ms。

3. VLM-judge 自动评判:把"语义匹配"这件主观事交给可验证的裁判

针对"视觉 token 的描述是否真的语义匹配图像 patch"难以人工大规模判定的问题,作者用 GPT-5 当裁判:给它一张带红框标出目标视觉 token 区域(外加周围 8 个视觉 token)的图,以及某 lens 返回的 top-5 描述,让它判定描述是否可解释,并归类为 concrete(直接可见)、abstract(概念相关)、global(出现在图中别处)。一个视觉 token 只要 top-5 描述里至少一条被判可解释,就算可解释。为公平起见,即便 LatentLens 能给整句,喂给裁判时也只给 top-5 对应的词(与另两个 lens 一致),这反而可能低估 LatentLens。作者用 1020 个实例做人工校验,裁判与人类一致性达 Cohen's \(\kappa=0.68\)(实质性一致)。这一设计让"可解释性"从模糊概念变成可复现、可比较的量化指标。

损失函数 / 训练策略

LatentLens 本身无需训练。被解释的 VLM 在受控实验里按 Molmo 配方训练:投影器 proj 是 3 层 MLP,视觉编码器与 LLM 冻结,仅训 proj,用 PixMo-Cap 数据集(平均每条 167 词、9 句)跨熵损失训练 12K 步、有效 batch size 8。

实验关键数据

主实验

受控实验跨 3 个 LLM(OLMo-7B、Qwen2-7B、LLaMA3-8B)× 3 个视觉编码器(CLIP-ViT-L/14、DINOv2-L、SigLIP)共 9 种组合,随机采 100 图各 100 patch,用 VLM-judge 评判逐层可解释性。

方法 平均可解释 token 比例 特点
LogitLens 24% 早层极低,仅靠近输出层才升高(OLMo 后层 60–80%)
EmbeddingLens 32% 强烈依赖模型:OLMo 系 34–62%,Qwen2 系 <20%
LatentLens(本文) 68% 跨所有模型、所有层稳定在 60–85%

在 6 个现成 VLM(Molmo-7B-D、Molmo-72B、LLaVA-1.5-7B、LLaVA-NeXT-34B、Qwen2-VL-7B、Qwen2.5-VL-32B)上结论同样成立——LatentLens 在全部 6 个模型上可解释性最高,且越接近受控设置(OLMo backbone)越好。

现成 VLM LatentLens 平均可解释比例
Molmo-7B-D 86%
Molmo-72B 78%
Qwen2-VL-7B / LLaVA-1.5-7B 55–62%
Qwen2.5-VL-32B / LLaVA-NeXT-34B 33–35%(仍显著高于基线)

消融实验

配置 关键结果 说明
完整 LatentLens 68% 平均可解释 句子语料 + 上下文化参照 + 跨层检索
投影器降为线性 无明显变化 可解释性不依赖映射的表达力
用更短标注训练 无明显变化 结论不绑定特定训练设置
语料仅用 1% 可解释性相当 存储从约 26GB 降到约 250MB
DINOv2(无语言监督) 三种 lens 下均高可解释 视觉表示无需语言预训练也可解释

关键发现

  • 用对镜头是关键:LogitLens/EmbeddingLens 的低可解释性是方法假象而非事实——换成上下文化参照后,绝大多数视觉 token 在所有层都可解释,前人系统性低估了视觉 token 的可解释性。
  • 中层跃迁(Mid-Layer Leap):早层(甚至输入层)的视觉 token 表示,其最近邻不是同层文本表示,而是更后/更中间层(如第 8、16 层)的上下文化文本表示。这说明学到的投影瞄准的是语义而非词汇级表示。作者进一步分析发现视觉 token 表示在各层间变化很小,且无证据表明"流氓维度"主导了余弦相似。
  • DINOv2 的反直觉表现:完全没有语言监督预训练的 DINOv2,其视觉 token 在三种 lens 下都高度可解释,进一步支持视觉与语言表示存在深层对齐。
  • 句子级描述更丰富:定性看 LatentLens 给出"stone tower with gold clocks"这类完整句子描述,而 LogitLens 常返回子词或下一 token 预测。

亮点与洞察

  • 统一框架先行:先把 EmbeddingLens/LogitLens 化归为"打分→top-k→返回描述"的三步范式,再精准点出两个共同缺陷,这种"先统一再突破"的写法让 LatentLens 的动机无可辩驳,是非常值得借鉴的方法论叙事。
  • "参照空间选错了"是核心洞察:把比较对象从静态嵌入矩阵换成上下文化表示,是一个简单却根本的视角转换——它直接把可解释率从 24% 拉到 68%,提示我们解释潜表示时"拿什么当参照"比"用什么相似度"更要紧。
  • 跨层检索揭示中层跃迁:允许 \(\ell\neq\ell'\) 的设计意外解锁了一个新现象(早层视觉 token 对齐到中层文本表示),说明好的探查工具不仅能测量、还能发现机制,这个跨层比较思路可迁移到任何想分析"表示在哪一层成熟"的场景。

局限与展望

  • 依赖 VLM-judge:可解释性判定建立在 GPT-5 裁判上,\(\kappa=0.68\) 虽属实质性一致但非完美,裁判的偏好可能系统性影响绝对数值;且作者发现裁判会被句子级上下文干扰,被迫只喂词级描述,未能充分利用 LatentLens 句子级描述的全部信息。
  • 大模型趋势不一致:Qwen2.5-VL-32B、LLaVA-NeXT-34B 等更大模型的逐层可解释性明显更低(33–35%)且跨层趋势不稳定,作者自己也将其列为未来工作,方法在大模型上的解释力存疑。
  • 一次性成本与存储:虽证明 1% 语料即可,但每个 backbone 仍需约 2h GPU 编码、建索引约 13h 墙钟时间,换 LLM 就要重建参照库。
  • 改进方向:可探索更鲁棒的裁判(多裁判投票/人类对齐微调)、把句子级描述真正用起来(而非退化为词级比较),以及解释大模型可解释性下降的机制。

相关工作与启发

  • vs LogitLens(nostalgebraist 2020):它把潜表示乘反嵌入矩阵得词表分布、取 top-k 词,只在靠近输出的后层好用且跨模型可靠性差;LatentLens 用上下文化表示作参照,可作用于任意层并给整句描述。
  • vs EmbeddingLens(Mokady 2021 等):它比对输入嵌入矩阵,描述困在词表内、且强烈依赖模型(Qwen2 系 <20%);LatentLens 描述集是句子语料、跨模型稳定在 60–85%。
  • vs Tuned Lens(Belrose 2023):在 LogitLens 解码步上学每层仿射探针,本文实验证明它并不改善视觉 token 的可解释性,说明问题不在解码变换而在"参照空间"本身。
  • vs SAE / 监督探针(Cunningham 2023 / Fu 2025):这些是训练类方法,结论各执一词;LatentLens 走无需训练、直接利用 LLM 表示空间的路线,部署更轻、结论更一致。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ "用上下文化表示作参照 + 跨层检索"是简单而根本的视角转换,还顺带发现中层跃迁新现象
  • 实验充分度: ⭐⭐⭐⭐⭐ 9 种受控组合 + 6 个现成 VLM + 多项消融(线性投影/短标注/1% 语料)+ 人类校验,覆盖全面
  • 写作质量: ⭐⭐⭐⭐⭐ 先统一框架再突破、动机环环相扣,叙事干净有说服力
  • 价值: ⭐⭐⭐⭐⭐ 纠正了"视觉 token 不可解释"的领域误判,提供可复用工具与 pip 包,对 VLM 可解释性研究影响直接