Where's the Plan? Locating Latent Planning in Language Models with Lightweight Mechanistic Interventions¶

会议: ICML 2026
arXiv: 2605.07984
代码: 待确认
领域: 机制可解释性 / 大语言模型 / 潜在规划
关键词: 潜在规划, 激活补丁, 线性探针, 路径补丁, 注意力头定位

一句话总结¶

本文用"押韵对联补全"作为前瞻性约束的干净测试，只靠线性探针和激活补丁这两个轻量工具，在 Qwen3 / Gemma-3 / Llama-3 三大模型族十余个尺度上研究"规划点形成"：探针发现关于未来韵脚的信息在换行符处线性可解码且随规模增强，但激活补丁显示只有 Gemma-3-27B 才真正因果依赖这个编码——它在约第 30 层出现因果驱动从韵词向换行符迁移的"交接"，其余模型全程只依赖韵词；最终把这个交接定位到 5 个注意力头，恢复了换行符处约 90% 的韵脚路由能力。

研究背景与动机¶

领域现状：自回归语言模型逐 token 生成，却能产出需要长程结构一致性的文本（如押韵对联：第二行末词要和第一行末词押韵）。一个自然的问题是——模型是否在内部形成了关于未来输出的表示，并因果地驱动了生成，而这一切对行为评测完全不可见？作者把它叫做潜在规划（latent planning）。

现有痛点：与思维链不同（中间步骤可观察），潜在规划完全藏在隐藏激活里。已有工作证明"规划兼容的信息"存在于某些模型中，但都没回答更具体的问题——规划信息在前向过程中究竟住在哪个位置，它会不会迁移？作者称之为规划点形成（planning site formation）。

核心矛盾：要严格研究规划点，必须同时给出编码证据（什么信息在场）和因果证据（什么信息被用上）。探针能测"编码了什么"，但足够灵活的探针会靠记标签作弊，达到高准确率却不反映真实表示；而真正能确立因果的工具——训练 transcoder 建特征电路——计算昂贵（等于第二次训练），且只在 Claude 这类闭源模型上做过，难以扩到新的开源架构。

本文目标：定义两个层次的证据——较弱的规划兼容表示（探针可测）和较严的因果活跃规划点（激活补丁确立），用最轻量的工具在多个开源模型族、多个尺度（最大 70B）上系统刻画规划点形成。

切入角度：押韵对联是前瞻性约束的"干净测试"——第二行的韵脚 \(r_2\) 必须和第一行末词 \(r_1\) 押韵，这个约束在生成 \(r_2\) 之前很久就已确定，是观察"未来 token 表示何时何地形成"的理想探针。

核心 idea：用"线性探针 + 激活补丁"替代昂贵的 transcoder，把"信息被编码"和"信息被使用"严格拆开，揭示二者可解离——探针有信号 ≠ 存在真正的规划点。

方法详解¶

整体框架¶

作者把换行符 token（第一行结尾的 \n）设为相对位置 0，位置 \(i\) 表示换行符前（负）或后（正）第 \(i\) 个 token。\(r_1\) 是第一行末词，\(r_2\) 是待生成的第二行韵脚。整套方法是一条"从弱到强"的证据链：先用线性探针测某位置 \((i,\ell)\) 能否解码出未来韵脚 \(r_2\)（规划兼容表示），再用激活补丁测该位置的隐藏态是否因果驱动生成（因果活跃规划点），一旦发现 Gemma-3-27B 存在换行符规划点，就用两级路径补丁把它定位到稀疏的几个注意力头。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["押韵对联补全任务<br/>r1 / 换行符 / r2"] --> B["1. 线性探针<br/>测可编码"]
    B -->|Pile 负对照排除通用编码| C["2. 激活补丁<br/>测被使用"]
    C -->|仅 Gemma-3-27B<br/>换行符出现交接| D["3. 两级路径补丁<br/>定位注意力头"]
    D --> E["5 个头恢复<br/>~90% 路由能力"]

关键设计¶

1. 押韵对联：把"前瞻性约束"做成可测的潜在规划探针

潜在规划最难的是没有干净的观测信号，作者用押韵对联巧妙解决：给定含 \(r_1\) 的上文，模型要生成一个 \(r_2\) 与 \(r_1\) 押韵的第二行。\(r_2\) 平均在换行符后 8 个 token 才出现，这个"先确定约束、很久后才落地"的结构正好暴露"未来表示何时形成"。作者据此给出两个层次的定义：若 \(r_2\) 能从 \(\mathbf{h}_{\ell,i}\) 通过探针在位置 \(i\) 比别处显著更好地解码，则 \((i,\ell)\) 含规划兼容表示；若在生成时把 \(\mathbf{h}_{\ell,i}\) 替换成针对另一韵族的运行结果，能显著把输出重定向到那个韵族，则 \((i,\ell)\) 是因果活跃规划点。两个定义一弱一强，是全文的判据基石。

2. 线性探针测"可编码"：带负对照，区分主动规划与被动累积

探针是参数化函数 \(f_{(W,b)}(\mathbf{h})=\text{softmax}(W\mathbf{h}+\mathbf{b})\)，交叉熵训练（AdamW，lr \(10^{-4}\)，weight decay \(10^{-3}\)，batch 32，10 epoch），并报告 Wilson 95% 置信区间防止过解读。关键是负对照：先在 The Pile 通用文本上训探针预测 \(k\) 步后的 token，发现准确率随 \(k\) 单调下降、\(k=8\) 时与 unigram 基线重合——证明规划兼容表示不是残差流的通用特征。再在对联上训探针预测 \(r_2\)，发现换行符（\(i=0\)）和末词（\(i\le -1\)）处的探针远超 \(i>0\) 处，且与 \(k=8\) 的 Pile 探针拉开巨大差距。这个对照排除了"探针只是记 token 频率"的平凡解释，把信号坐实为任务特异的。

3. 激活补丁测"被使用"：发现 Gemma-3-27B 的"表示交接"

探针的根本局限是"线性可解码 ≠ 因果驱动生成"。激活补丁直接解决：给一个自然导向干净韵族 \(\mathcal{R}^{(c)}\) 的提示，把某位置激活替换成针对污染韵族 \(\mathcal{R}^{(r)}\) 的运行值，看生成是否被推向 \(\mathcal{R}^{(r)}\)。作者在末词位（Qwen/Llama 的 \(i=-1\)、Gemma 因逗号分词在 \(i=-2\)）和换行符位（\(i=0\)）逐层扫描。结果出人意料地分裂：只有 Gemma-3-27B 在约第 30 层出现表示交接（representational handoff）——末词补丁在早层极有效但 L30 附近骤降，换行符补丁同时升起，在 L33 达到污染韵脚率峰值 0.63；而 Qwen3-32B 和 Llama-3.1-70B 全程只在末词有效、换行符近乎为零，尽管它们在换行符也有强探针信号。换转向向量干预也得同样三模型画面。这就是全文最重要的结论：编码与使用可解离，探针有信号不等于存在规划点。

4. 两级路径补丁：把交接定位到 5 个稀疏注意力头

确认 Gemma-3-27B 在换行符成点后，作者追问能否归到少数头。单头补丁对任何单个头都无可测信号，说明表示不在单一电路元件。于是用注意力权重当代理：抽取换行符（\(i=0\)）到末词（\(i=-2\)）的注意力权重，在 L27–45 排序，发现极度集中在三个头——L30H4（权重≈0.99）、L28H14（≈0.97）、L28H15（≈0.95）。简单 top-\(k\) 补丁：\(k=5\) 时污染韵脚率跳到 46%（满残差参考 63% 的 73%）。但简单补丁会注入冲突上下文，于是用更严的两级路径补丁只孤立 \(i{=}-2\to\text{头}\to i{=}0\to\text{输出}\) 这条路径：第一阶段只替换 \(i=-2\) 残差并缓存候选头在 \(i=0\) 的输出，第二阶段把这些缓存输出替进未修改的干净前向。这样 5 个头在 \(k=5\) 恢复 57%，达满残差参考的 90%——几乎全部韵脚路由能力集中在这 5 个头；而对应的 MLP 补丁在每个 \(k\) 都是零，证明交接由注意力而非前馈中介。

损失函数 / 训练策略¶

不训练模型本体，只训轻量线性探针（见设计 2 超参）。数据：Pile 负对照 1200 条序列（1000 训 / 200 验）；押韵对联用 Claude Sonnet 4.6 合成 1200 条（1000 训 / 200 验），策略性提示多样化主题与韵式。补丁每层每提示对取 \(N=20\) 随机样本，主图按 5 个提示对平均（\(N=100\)），以提示对为独立单元报告 95% cluster bootstrap 区间（10000 次对级重采样）。

实验关键数据¶

主实验¶

换行符 vs 首生成位探针的最大准确率差（随规模增长）：

模型族	小尺度 gap	大尺度 gap	趋势
Gemma-3	0.11 (1B)	0.38 (27B)	每个尺度都 >0，最干净的单调上升
Qwen3	0.6B–8B 的 CI 含 0	最大尺度明显非零	随规模涌现
Llama-3	1B–8B 的 CI 含 0	70B 明显非零	随规模涌现

激活补丁——三模型的因果画面：

模型	末词补丁	换行符补丁	结论
Gemma-3-27B	早层高，L30 骤降	L30 升起，L33 峰值 0.63 [0.48, 0.78]	出现 L30 表示交接
Qwen3-32B	全层高	近零	全程依赖末词
Llama-3.1-70B	全层高	近零	全程依赖末词

消融实验¶

Gemma-3-27B 注意力头定位（满残差参考 = 63%）：

干预	\(k=5\) 污染韵脚率	占满残差参考	说明
简单 top-\(k\) 补丁	46%	73%	\(k=1,2,3\) 近零，\(k=5\) 起跳
两级路径补丁	57%	90%	孤立 \(i{=}-2\to\)头\(\to i{=}0\) 路径
随机 / 逗号对照头	0%	0	所有 \(k\) 均为零
MLP top-\(k\) 补丁	0%	0	上界 ≤0.04，交接由注意力中介

关键发现¶

5 个头是：(L30,H4)、(L28,H14)、(L28,H15)、(L30,H5)、(L28,H29)；路径补丁在 \(k=5\) 取峰值，\(k=10/15\) 反降到 47%/32%，说明能力精确集中在这 5 个，多加反而稀释。
负号补丁的物理意义：把干净激活替进去反而打乱了被污染前向（参看姊妹工作的发散），但熵/补丁仍能标出活跃层。
架构之谜：所有 Qwen3 和 Llama-3 即便有强探针信号也不出现交接——是什么让 Gemma-3-27B 在架构或训练上与众不同，是开放问题。

亮点与洞察¶

"编码 ≠ 使用"的干净拆解：探针有信号但补丁零因果，是对"用探针准确率当解释"这一普遍做法的有力警告——可直接迁移到任何探针式可解释性研究。
轻量工具撬动大模型：只用线性探针 + 激活补丁，不训 transcoder、比转向向量省得多的数据，就在 70B 级模型上做出电路级定位，方法可扩展性强。
"表示交接"是个新原语：因果驱动从韵词向换行符迁移，且只在特定规模/架构涌现，把"规划点形成"刻画成一个结构化、可定位的涌现现象，而非弥散属性。
押韵对联当探针很巧：用一个语言学上干净、约束明确的任务，把抽象的"潜在规划"变成可补丁、可定位的可测对象。

局限与展望¶

作者承认的局限：只在三个模型族、单一结构化生成任务上做；推广到散文、代码补全、多步推理才能判断"表示交接"是通用规划原语还是窄的语音学现象。
统计区间偏宽：路径补丁定位的 5 头恢复比例上界越过 1.0，反映提示对太少；更大更多样的对联集才能收紧并看头集是否随韵族变化。
架构差异未解释：为何只有 Gemma-3-27B 成点，缺乏机制性回答。
自己的观察：换行符依赖逗号分词放在 \(i=-2\)，这种对分词的敏感性提示结论可能部分依赖具体 tokenizer；另外"因果活跃"是通过补丁注入测的，自然生成时这 5 个头是否真被读取（vs 仅人为注入才显效），作者也列为待解。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次系统刻画"规划点形成"并发现"表示交接"涌现现象。
实验充分度: ⭐⭐⭐⭐ 三族十余尺度 + 负对照 + 路径补丁，扎实；但提示对少、CI 偏宽，任务单一。
写作质量: ⭐⭐⭐⭐⭐ "编码 vs 使用""弱/强定义"区分清晰，负结果诚实有洞察。
价值: ⭐⭐⭐⭐⭐ 方法轻量可扩展，"探针有信号≠有规划点"对可解释性与 AI 安全都有传播价值。