跳转至

Latent Planning Emerges with Scale

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=H0B7pDTT0M
代码: https://github.com/hannamw/model-planning-public
领域: 可解释性 / 机制可解释性(Mechanistic Interpretability)
关键词: 隐式规划、特征电路、Transcoder、Qwen-3、规模效应、AI 安全

一句话总结

作者给"LLM 隐式规划"下了一个可因果验证的定义(前向规划 + 后向规划),用 transcoder 特征电路在 Qwen-3(0.6B–14B)家族上做实验,发现规划能力随模型规模涌现:简单语法一致任务(a/an)在 14B 才稳定成功,押韵对句任务里模型只会前向规划而几乎不会后向规划。

研究背景与动机

领域现状:LLM 能写连贯故事、生成正确代码,这些任务看上去需要"规划"——即推理为达成目标该走哪些步骤——但模型并没有把计划显式说出来。这种"隐式规划"如果存在,会带来 AI 安全隐患:模型可能在不惊动外部监控的情况下"暗中盘算"。

现有痛点:以往关于隐式规划的证据基本都是观测性的。研究者用探针(probe)或 Patchscopes 从模型激活里解码出"未来 token / 文本属性",就把"能解码"当作"在规划"。但探针众所周知会解码出模型并未真正使用的信息——一个总是输出固定 token、或输出 0,2,4,6… 的模型,其未来 token 也能被探针预测,可这显然不需要规划。

核心矛盾可解码性 ≠ 因果使用。要证明规划,必须给出因果证据,而非相关性证据。此前只有 Lindsey 等人(2025)在闭源模型上提供了因果证据,开源模型上的机制证据极其有限。

本文目标:(1)给隐式规划一个能被因果检验的严格定义;(2)在一个可控的开源模型家族上,量化规划能力如何随规模变化,并找出底层机制。

核心 idea【定义即贡献】 把规划拆成两个必须同时成立的因果条件——前向规划(某内部表征因果导致模型在未来位置输出目标 token t)和 后向规划(该表征还因果导致模型生成一个能"承接"t 的上下文)。【机制证据】 用 transcoder 特征电路把这两条件落到可干预、可观测的具体特征上,再在 Qwen-3 五个尺寸上扫描,得到"规划随规模涌现"的机制画像。

方法详解

整体框架

方法分三步:先用 transcoder 把每层 MLP 的稠密多义激活分解成稀疏单义特征;再对单条输入构造 特征电路(feature circuit)——一张刻画输入、特征、logit 之间因果直接效应的加权有向无环图;最后在三类任务(简单语法一致、押韵对句、散文中受控引导)上,用电路定位"规划特征"并做消融/放大干预,验证它们是否满足前向/后向规划两条件。

flowchart LR
    A[输入文本] --> B[Transcoder<br/>稀疏单义特征]
    B --> C[特征电路<br/>因果有向图]
    C --> D{定位规划特征}
    D --> E[前向规划检验<br/>零消融/放大干预]
    D --> F[后向规划检验<br/>上下文是否承接目标]
    E --> G[规划随规模涌现的画像]
    F --> G

关键设计

1. 把"规划"重定义为两条因果条件:从可解码升级到可干预。 作者反对把"未来 token 能被探针解码"等同于规划,转而要求一个针对目标 token 或概念的内部表征同时满足:条件一(前向规划)——它因果导致模型在位置 \(n+k,\ k>1\) 输出特定 token \(t\),比仅"可预测"更强;条件二(后向规划)——它因果导致模型产出一个能承接 \(t\) 的上下文。一个关键判别例子是 "The capital of Texas is Austin":模型在 Texas 处可能已有 Austin 表征,消融它会让模型不再输出 Austin(满足前向),但这只有在 Austin 表征还导致模型先输出 "is" 时才算后向规划——而不知道 Austin 也能预测出 "is",所以这里并非真正的后向规划。这个定义把"规划"从松散的相关性标签收紧成必须靠干预才能坐实的机制主张。

2. 用 transcoder 特征电路把抽象条件落到可干预节点上。 Transcoder 是替代 MLP 的辅助模型:输入一层 MLP 的激活 \(h\in\mathbb{R}^d\),算出稀疏表征 \(z=f(W_{\text{enc}}h+b_{\text{enc}})\),再重建该 MLP 输出 \(\tilde{h}'=W_{\text{dec}}z+b_{\text{dec}}\)。它训练成稀疏且单义,便于把"模型在想 accountant"这种概念对应到具体特征。在此之上构造的特征电路是一张加权有向无环图,边权是源节点对目标节点的精确直接效应(在给定注意力模式和 LayerNorm 分母条件下可被精确计算),于是"哪个特征因果地推高了正确 token"变成可读、可干预的子图——图 1 中 Qwen-3 14B 的 accounting 特征推高 accountant 特征、后者再推高冠词 an,整条链条一目了然。这一步是把前一节的因果定义变成可执行实验的桥梁。

3. 设计简单语法一致任务作为规划的最小可控测试床。 作者构造三类任务(a/an、is/are、el/la),每条输入逼模型输出一个特定内容词,而它前面有一个必须与之"一致"的功能词,功能词的形式由后面的内容词决定——例如 "Someone who handles financial records is __ accountant" 必须填 an,因为 accountant 以元音开头。这些任务被刻意选成预训练中常见的形态,且把"是否规划"压缩成一个二选一的功能词预测,让因果干预的效果(消融让 p(正确) 下降、放大让其上升)能干净地读出来。它是验证两条件的最小载体,也是观察规模涌现的起点。

4. 双向干预 + 直接效应隔离,分离"真规划"与"捷径"。 为坐实规划特征确实驱动预测,作者做两类干预:对成功样本把规划特征零消融(应使表现变差),对失败样本把规划特征放大到 5 倍(应使表现变好)。结果两种干预主要影响少数类 an(模型要逆着先验工作的情形),符合预期。但这还不够——accountant 特征可能只是碰巧与 an 的 unembedding 余弦相似度高,靠直接效应推高 logit,无需真正规划。为此作者做直接效应干预:放大规划特征但冻结其它特征,阻断二阶效应;此时效果显著减弱(放大干预帮倒忙的次数和帮忙差不多),说明规划特征的作用无法用直接效应解释,必须经由 "say a/an" 这类中介特征——也即真的存在前向+后向的规划链路,而非词表捷径。

实验关键数据

主实验:规划能力随规模涌现

任务 现象 涌现规模
a/an(语法一致) 全部模型对多数类 a 召回 >0.8;少数类 an 召回 >0.8 仅 Qwen-3 14B 达到,中等模型平滑上升,0.6–1.7B 总是预测多数类 ~4B–8B 出现雏形,14B 稳定成功
押韵对句(rhyme) 大模型完美押韵准确率 50%+,14B 约 60%;放宽到协音(仅元音)押韵 8B 已 >70%,14B 达 0.8 押韵能力随规模上升
散文受控引导(say X) 引导 say X 特征常能让模型输出 X;其中连贯且含 X 的输出里,大模型更会把上下文改写成 "in the night" 等完整短语 后向规划仅在 8B–14B 微弱显现

消融 / 干预实验

干预 对 a/an 任务的效果 结论
规划特征零消融 损害表现,但几乎只作用于少数类 an 规划特征对"逆先验"的样本才关键
规划特征 ×5 放大 大幅提升 an 准确率,大模型提升略多;对 a 几乎无效 因果相关,且 4B/8B 与 14B 用相似机制
仅直接效应干预 效果明显减弱,放大有时反而帮倒忙 规划不能由直接效应解释,需经 "say a/an" 中介特征
押韵特征引导(首行 ×-3,新韵 ×7) 8B–14B 模型会改输出成新韵(前向规划成立,准确率约 40%,与基线 60% 同量级) 前向规划随规模成立
押韵后向规划检验 给"引导生成的上下文"与"原上下文",模型预测新韵的准确率几乎相同 引导后的上下文并未更好地"承接"新韵 → 后向规划基本缺失

关键发现

  • 前向规划比后向规划发展得更快:简单任务上 4B–8B 已有规划相关特征(即便整体表现差),押韵任务上大模型能前向规划改韵脚,但几乎不会反过来改写上下文去承接韵脚。
  • 规划是"分块涌现"而非统一机制:是否在某任务上规划,取决于模型容量 × 任务复杂度 × 任务在训练中的频率/重要性,导致能力零散,而非一套统一规划机制。
  • 中等模型失败的根因:4B/8B 在 an 失败时激活的规划特征远少于成功时;小模型几乎从不激活规划特征;14B 则在成功与失败两种情形都激活大量规划特征。

亮点与洞察

  • 方法论纠偏:旗帜鲜明地指出"探针可解码 ≠ 模型在规划",把规划重新锚定到必须靠因果干预才能验证的两条件上,给后续隐式规划研究立了更严的证据门槛。
  • 迄今最大规模的开源模型特征电路研究:在 Qwen-3 五个尺寸上系统跑特征电路,把"机制如何随规模生长"这件事第一次在开源家族上量化出来。
  • 细粒度的"涌现"画像:不是笼统说"大模型会规划",而是分出前向/后向、简单/长程,指出二者发展速度不同、且规划是分块拼起来的。

局限与展望

  • 后向规划证据偏负:押韵任务上后向规划基本没观测到,长程规划机制是否真的存在、还是只是更强的前向规划,仍未定论。
  • 任务偏简单且常见:刻意选了预训练中高频的语法一致任务,能否推广到真正复杂、低频的规划任务(多步代码、长篇叙事谋篇)尚不清楚。
  • 局部规划特征罕见且对引导强度敏感:say X 类局部规划特征只出现在少数对句里,且效果对引导超参敏感,作者也承认"还需更多研究确认这些特征的作用"。
  • 依赖 transcoder 质量与电路假设:结论建立在 transcoder 单义性、特征电路精确直接效应等假设之上,机制解释的可靠性受这些工具上界约束。

相关工作与启发

  • 承接 Lindsey et al. (2025) 在 Claude Haiku 押韵对句上的因果规划证据,把方法迁移并放大到开源 Qwen-3 家族;与 Pal et al. (2023)、Pochinkov (2025)、Dong et al. (2025) 等观测性工作划清界限。
  • 方法栈建立在 transcoder(Dunefsky et al., 2024)与特征电路(Marks et al., 2025;Ameisen et al., 2025)之上,使用 circuit-tracer 库做电路发现与干预。
  • 与同期工作呼应:Nainani et al. (2025) 在 Gemma-2 上找代码规划电路、Maar et al. (2025) 用探针研究跨模型诗歌能力,本文在"因果证据 + 规模扫描"上更进一步。
  • 启发:对 AI 安全监控而言,"模型会前向规划但弱于后向规划"意味着当前模型尚难做复杂的、需改写上下文掩盖意图的"暗中盘算",但随规模这种能力可能逐步涌现,值得提前布局机制级监测。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ — 把隐式规划从"可解码"重定义为"可因果干预的前向+后向条件",并首次在开源模型家族上做规模扫描,定义层面的贡献含金量高。
  • 实验充分度: ⭐⭐⭐⭐ — 三类任务 + 双向干预 + 直接效应隔离 + 五个尺寸,证据链扎实;后向规划偏负但作者诚实呈现,长程规划仍留白。
  • 写作质量: ⭐⭐⭐⭐⭐ — 定义清晰、反例(Austin/Texas)有力、图示直观、附录详尽,论证逻辑环环相扣。
  • 价值: ⭐⭐⭐⭐ — 为隐式规划研究立了更严的证据标准,并给 AI 安全提供了机制级的规模趋势参考,对可解释性与安全社区都有实用价值。