跳转至

Do Activation Verbalization Methods Convey Privileged Information?

会议: ICML 2026
arXiv: 2509.13316
代码: https://github.com/millicentli/verb_faithfulness
领域: 可解释性 / LLM 探针 / 评测基准批判
关键词: 激活语言化, Patchscopes, LIT, 忠实性, 特权知识

一句话总结

本文系统证明:当前流行的激活语言化方法(Patchscopes / LIT / SelfIE)在被用作 LLM 可解释性工具时,其性能完全可以由 "verbalizer 模型自己的知识" 解释,不需要任何 target 模型的内部激活——意味着这些工具在现有 benchmark 上看起来 work 是因为基准本身设计有缺陷,且当 verbalizer 知识超过 target 时会编造出 target 根本不具备的 "解释"。

研究背景与动机

领域现状:理解 LLM 内部表征是可解释性领域的核心难题。近年涌现一类 "verbalization" 方法——用第二个 LLM(verbalizer \(\mathcal{M}_2\))把目标模型(target \(\mathcal{M}_1\))的隐状态翻译成自然语言描述,代表工作包括 Patchscopes(将 token 激活 patch 到 prompt 中相应位置)、SelfIE(同源思路)、LIT(fine-tune verbalizer 学习一层全部 token 的激活矩阵)。这些方法被宣称为 "理解 LLM 的计算" 的工具。

现有痛点:"verbalizer 的输出反映了 target 的内部表征" 这一关键假设从未被严格检验。verbalizer 本身就是 LLM,自带世界知识,回答时到底是用 target 给的激活、还是用自己脑子里的常识,无法区分。如果它纯靠常识也能答对,那这种 "解释" 对可解释性没任何价值——你解释的不是模型而是世界。

核心矛盾:可解释性要求 verbalizer 传达 "privileged information"(必须通过内部激活才能获得的信息);但 LLM 强大的参数知识使它在多数任务上仅凭输入文本就能答对,那 "借激活回答" 和 "不借激活回答" 不可区分。

本文目标:(1) 检验现有 benchmark 是否要求 verbalizer 真正使用 target 的激活;(2) 如果不要求,构造能区分 "知识来自 target 还是 verbalizer" 的对照实验;(3) 看 verbalizer 在知识冲突时优先信谁。

切入角度:把 verbalization 当成一个 NLP "shortcut learning" 问题来批判——如果模型能在不看真正应该看的输入下答对,就说明评测本身有 shortcut;类比 VQA 里的 prior bias。

核心 idea:设计三组对照——(a) zero-shot baseline 直接给 \(\mathcal{M}_2\) 看输入不喂激活,看它能答多少;(b) activation inversion 把激活反转回输入文本,看其信息量;(c) 知识错配实验故意让 \(\mathcal{M}_2\) 知道而 \(\mathcal{M}_1\) 不知道某事实,看 verbalizer 报告谁的答案。

方法详解

整体框架

本文是评测批判性研究,无新模型。围绕两个验证范式展开:

  1. Zero-shot 对照:拿和 \(\mathcal{M}_2\) 同款的预训练模型,把 \(x_{\text{input}} + x_{\text{prompt}}\) 拼起来直接问,无任何激活 patch。如果它在 verbalization benchmark 上能与 Patchscopes / LIT 持平,说明这些 benchmark 不需要内部激活。
  2. 激活反演 + 解释:先用 T5-Base 或 Llama3 当 inversion model,把 \(\mathcal{M}_1\) 的激活反演回近似的输入文本 \(\hat{x}\),再把 \(\hat{x}\) 喂给 \(\mathcal{M}_2\) 让它回答 \(x_{\text{prompt}}\)。如果这种 "反演 → 回答" pipeline 达到与 Patchscopes 相当的性能,说明 verbalization "成功" 完全可被 "激活 = 输入文本的有损副本 + verbalizer 知识" 解释。
  3. 知识错配实验:构造 target 模型有知识但 verbalizer 没有 vs verbalizer 有但 target 没有的对比,看哪种情况 verbalizer 答得更准。

关键设计

  1. Zero-shot 基线作为反事实:

    • 功能:测量 "不借激活、只看原始输入" 的天花板,确认现有评测的 shortcut 程度。
    • 核心思路:对 Patchscopes / LIT 沿用的 6 类 feature extraction 数据集(country_curr / food_country / ath_pos / ath_sport / prod_comp / star_const),$\mathcal{M}_1 = \mathcal{M}_2 = $ Llama3.1-8B-Instruct 或 Ministral-8B-Instruct,把 \(x_{\text{input}}\) + question 直接拼起来问 \(\mathcal{M}_2\) 看准确率。再与 LIT 和 Patchscopes(layer 1-15 平均)对比。判断标准:output 中包含 ground-truth substring(忽略大小写)即算对,与 prior verbalization 工作一致。
    • 设计动机:这是最严苛的 "必要性测试"——如果 verbalization 不带激活就能赢,那激活的边际贡献就是负的;现有方法被推荐用作 interpretability 工具的合法性就崩了。
  2. 激活反演 + 替代解释:

    • 功能:揭示 verbalizer 即使没拿到激活,也能从 "反演近似输入" 这条捷径达到接近的性能。
    • 核心思路:训一个 T5-Base 或 Llama3 反演器,把 \(\mathcal{M}_1\) 的 layer-\(\ell\) 激活映射回近似的 \(\hat{x}\);然后把 \(\hat{x}\) 当作输入交给 \(\mathcal{M}_2\) 做正常 prompt + answer。如果这条 pipeline 达到 Patchscopes / LIT 的可比性能,就说明真正起作用的是 "激活里残留的输入信息",而不是 "target 模型对输入做的特殊处理"。论文还做了单层(\(\ell=15\))与多层平均的细分对比,验证不同 patch 强度下结论一致。
    • 设计动机:是 Section 3 "zero-shot 已经能赢" 的进一步加强——即便有人争辩 "Patchscopes 的成功来自激活带来的额外信息",本节证明那点额外信息也只是输入的复述,不是 "特权处理过的知识"。
  3. 知识错配对照实验:

    • 功能:区分 verbalizer 报告的是 target 模型的知识还是它自己的。
    • 核心思路:构造 (subject, relation, object) 三元组,分两类——(a) \(\mathcal{M}_1\) 知道但 \(\mathcal{M}_2\) 不知道(如 fine-tune \(\mathcal{M}_1\) 学个新事实);(b) \(\mathcal{M}_2\) 知道但 \(\mathcal{M}_1\) 不知道。然后让 verbalization 输出与各模型的独立 zero-shot 输出比较:如果 verbalization 倾向 (a) → 说明它确实在描述 target 的知识;如果倾向 (b) → 说明它在编造。论文发现答案接近 (b)——verbalizer 经常 fabricate 它自己的知识充当 "target 的解释"。
    • 设计动机:这是核心 "忠实性" 测试。前两个实验只能证明 benchmark 有 shortcut,这一实验能直接证明 verbalizer 在知识冲突下不忠实——这是最具杀伤力的发现。

损失函数 / 训练策略

本文不训练新模型,主要使用:(1) Llama3.1-8B-Instruct 和 Ministral-8B-Instruct 作为 \(\mathcal{M}_1\) / \(\mathcal{M}_2\);(2) LIT 沿用 LatentQA 数据集 fine-tune verbalizer;(3) 跨家族 verbalization 时学一个 affine map 把激活从 Llama3 空间映到 Ministral 空间。所有显著性检验用 McNemar test + Bonferroni 校正。

实验关键数据

主实验

Llama3 / Ministral 上 6 类 feature extraction,\(\mathcal{M}_1 = \mathcal{M}_2\),layer 1-15 平均(Table 1):

方法 country_curr food_country ath_pos ath_sport prod_comp star_const 平均
Llama3 LIT 0.79 0.45 0.66 0.84 0.67 0.41 0.64
Llama3 Patchscopes 0.31 0.21 0.41 0.73 0.32 0.28 0.38
Llama3 zero-shot 0.82 0.58 0.59 0.76 0.67 0.43 0.64
Ministral LIT 0.77 0.48 0.59 0.78 0.67 0.39 0.61
Ministral Patchscopes 0.14 0.01 0.22 0.61 0.47 0.15 0.27
Ministral zero-shot 0.85 0.45 0.57 0.83 0.68 0.67 0.68

zero-shot 与 LIT 平均分相同(0.64 vs 0.64),Ministral 上 zero-shot 反而更高(0.68 vs 0.61)——意味着 verbalization 没带来任何 "特权" 信息。

消融实验

跨模型 verbalization($\mathcal{M}_1 = $ Llama3, $\mathcal{M}_2 = $ Ministral,Table 2):

方法 \(\mathcal{M}_2\) 平均准确率 说明
Patchscopes Llama3(同源) ~0.12 单层 \(\ell=15\)
Patchscopes Ministral(跨) ~0.08 跨家族崩塌
LIT Llama3 ~0.64 同源工作
LIT Ministral ~0.08 跨家族 fine-tune 也救不了

激活反演(Table 3-4):用 T5-Base 反演激活回近似输入再让 Llama3 回答,平均 0.27(country_curr 0.42),与 Patchscopes 单层 (\(\ell=15\)) 0.10 相比反而更高——说明反演 + zero-shot 的组合就足以解释 Patchscopes 的全部 "性能"。LIT 的高分(0.79)大部分也来自反演 + verbalizer 自身知识。

关键发现

  • zero-shot 持平 LIT:彻底打脸 "LIT 揭示 target 内部状态" 的宣传——同样模型同样输入,问还是不问激活结果一样。
  • Patchscopes 不及 zero-shot:在多数任务上 Patchscopes 性能反而低于直接问 verbalizer,说明 patch 激活把信息搞乱了,添了噪声而不是揭示了什么。
  • 跨家族 verbalization 几乎失效:affine map 之后 Patchscopes 平均 ~0.08,LIT 即使重新 fine-tune 也只有 ~0.08,说明这些方法严重依赖 "\(\mathcal{M}_1 = \mathcal{M}_2\)" 这种作弊条件。
  • 知识错配下 fabricate:当 \(\mathcal{M}_2\) 知道某事实而 \(\mathcal{M}_1\) 不知道时,verbalization 输出 \(\mathcal{M}_2\) 的答案——意味着它编造了 target 根本不具备的知识,这是最直接的 unfaithfulness 证据。
  • 反演几乎解释了一切:把激活反演回近似输入再问 zero-shot 模型,能复现 Patchscopes 的多数性能,意味着这些方法的 "成功" 是激活泄漏输入 + verbalizer 自身常识的组合,没有任何 "特权" 成分。

亮点与洞察

  • 极简却致命的对照设计:zero-shot 基线这种朴素到不像研究的操作,却直接戳破了整个子领域的方法论假设。验证了 "做基线" 在 AI 研究里的不可替代价值。
  • "特权信息" 的概念框架:从知识论(Alston 1971)借来 "privileged knowledge" 概念,给可解释性研究提供了清晰的 evaluation criterion——这是 verbalization 是否成立的判定标准。
  • 激活反演作为 null hypothesis:用 inversion 模型构造 "激活含有的输入信息" 这一替代解释,是个非常聪明的反事实——一旦反演能达到与 verbalization 相同的性能,verbalization 就再难自圆其说。
  • 批判性 ICML 论文:不是发明新方法而是证伪老方法,对学界的方法论健康度有重要意义;这种工作在大模型时代尤其稀缺也尤其必要。
  • 同时质疑 benchmark 和方法:作者点明很多 verbalization benchmark 本身设计有缺陷(不要求特权信息),未来研究应先修评测。

局限与展望

  • 只测了 feature extraction 和 factual recall:未覆盖更复杂的 verbalization 用例如行为解释、reasoning trace、危险知识检测,结论可能不完全推广。
  • 未提出修复方案:批判清楚了,但 "该如何设计真正测试 privileged information 的 benchmark" 没给完整方案,只在结尾呼吁需要 controlled tasks。
  • 跨家族 affine mapping 可能没充分调优:跨家族失败也可能是映射没学好,而非根本不可行;需要更彻底的对照实验。
  • 依赖 "知道与否" 的二元标签:知识错配实验里 "\(\mathcal{M}_1\) 知道但 \(\mathcal{M}_2\) 不知道" 的判定本身就模糊,模型对事实的掌握有概率分布。
  • 激活反演用 T5-Base / Llama3 训了多大算力:成本未充分披露,可能影响该 "替代解释" 的强度。
  • 未来方向:作者建议设计 "target 模型才有的知识" 的合成任务做 ground-truth 测试;这是非常合理的下一步研究方向。

相关工作与启发

  • vs Ghandeharioun 2024 (Patchscopes): Patchscopes 原文宣称揭示 LLM 计算;本文用 zero-shot 反例打掉这种宣称。是直接证伪关系。
  • vs Pan 2026 (LIT): LIT 通过 fine-tune verbalizer 学习激活,本文证明 LIT 的高分也可被 "反演 + verbalizer 知识" 解释,且跨家族失效。
  • vs Belrose 2023 (TunedLens) / nostalgebraist 2020 (logitlens): 这些 lens 方法都是 Patchscopes 的特例,同样面临本文的批判——产生的描述是否真在传递 target 特有信息。
  • vs VQA prior bias 工作 (Goyal 2017): 同样是 "不看应该看的输入也能答对" 的 shortcut 问题,本文把这种批判范式移植到 LLM 可解释性。
  • 启发:这种 "反事实评测" 思路应该推广到几乎所有 LLM evaluation 上——任何宣称需要某种特殊能力 / 输入的 benchmark 都该测一遍 zero-shot 替代基线。

评分

  • 新颖性: ⭐⭐⭐⭐ 不是发明新方法,但 "用 zero-shot + 反演 + 知识错配" 三件套系统证伪整个 verbalization 子领域的方法论假设,框架级新颖。
  • 实验充分度: ⭐⭐⭐⭐ 双模型家族 × 6 类 feature extraction × Patchscopes/LIT × 反演两种 inverter × 单层/多层平均,覆盖度足;只是任务限于 QA-style 抽取,复杂行为解释未涉及。
  • 写作质量: ⭐⭐⭐⭐⭐ 论点清晰、对照实验层层递进(先 zero-shot → 再反演 → 再知识错配),statistical significance 标注规范,每张表都直接服务论点。
  • 价值: ⭐⭐⭐⭐⭐ 对可解释性社区有 "刹车" 价值,迫使后续 verbalization 工作必须先证明 benchmark 不能被 shortcut,是真正改变研究范式的批判性论文。