Latent Planning Emerges with Scale¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=H0B7pDTT0M
代码: https://github.com/hannamw/model-planning-public
领域: 可解释性 / 机制可解释性（Mechanistic Interpretability）
关键词: 隐式规划、特征电路、Transcoder、Qwen-3、规模效应、AI 安全

一句话总结¶

作者给"LLM 隐式规划"下了一个可因果验证的定义（前向规划 + 后向规划），用 transcoder 特征电路在 Qwen-3（0.6B–14B）家族上做实验，发现规划能力随模型规模涌现：简单语法一致任务（a/an）在 14B 才稳定成功，押韵对句任务里模型只会前向规划而几乎不会后向规划。

研究背景与动机¶

领域现状：LLM 能写连贯故事、生成正确代码，这些任务看上去需要"规划"——即推理为达成目标该走哪些步骤——但模型并没有把计划显式说出来。这种"隐式规划"如果存在，会带来 AI 安全隐患：模型可能在不惊动外部监控的情况下"暗中盘算"。

现有痛点：以往关于隐式规划的证据基本都是观测性的。研究者用探针（probe）或 Patchscopes 从模型激活里解码出"未来 token / 文本属性"，就把"能解码"当作"在规划"。但探针众所周知会解码出模型并未真正使用的信息——一个总是输出固定 token、或输出 0,2,4,6… 的模型，其未来 token 也能被探针预测，可这显然不需要规划。

核心矛盾：可解码性 ≠ 因果使用。要证明规划，必须给出因果证据，而非相关性证据。此前只有 Lindsey 等人（2025）在闭源模型上提供了因果证据，开源模型上的机制证据极其有限。

本文目标：（1）给隐式规划一个能被因果检验的严格定义；（2）在一个可控的开源模型家族上，量化规划能力如何随规模变化，并找出底层机制。

核心 idea：【定义即贡献】 把规划拆成两个必须同时成立的因果条件——前向规划（某内部表征因果导致模型在未来位置输出目标 token t）和 后向规划（该表征还因果导致模型生成一个能"承接"t 的上下文）。【机制证据】 用 transcoder 特征电路把这两条件落到可干预、可观测的具体特征上，再在 Qwen-3 五个尺寸上扫描，得到"规划随规模涌现"的机制画像。

方法详解¶

整体框架¶

方法分三步：先用 transcoder 把每层 MLP 的稠密多义激活分解成稀疏单义特征；再对单条输入构造 特征电路（feature circuit）——一张刻画输入、特征、logit 之间因果直接效应的加权有向无环图；最后在三类任务（简单语法一致、押韵对句、散文中受控引导）上，用电路定位"规划特征"并做消融/放大干预，验证它们是否满足前向/后向规划两条件。

flowchart LR
    A[输入文本] --> B[Transcoder<br/>稀疏单义特征]
    B --> C[特征电路<br/>因果有向图]
    C --> D{定位规划特征}
    D --> E[前向规划检验<br/>零消融/放大干预]
    D --> F[后向规划检验<br/>上下文是否承接目标]
    E --> G[规划随规模涌现的画像]
    F --> G

关键设计¶

1. 把"规划"重定义为两条因果条件：从可解码升级到可干预。 作者反对把"未来 token 能被探针解码"等同于规划，转而要求一个针对目标 token 或概念的内部表征同时满足：条件一（前向规划）——它因果导致模型在位置 \(n+k,\ k>1\) 输出特定 token \(t\)，比仅"可预测"更强；条件二（后向规划）——它因果导致模型产出一个能承接 \(t\) 的上下文。一个关键判别例子是 "The capital of Texas is Austin"：模型在 Texas 处可能已有 Austin 表征，消融它会让模型不再输出 Austin（满足前向），但这只有在 Austin 表征还导致模型先输出 "is" 时才算后向规划——而不知道 Austin 也能预测出 "is"，所以这里并非真正的后向规划。这个定义把"规划"从松散的相关性标签收紧成必须靠干预才能坐实的机制主张。

2. 用 transcoder 特征电路把抽象条件落到可干预节点上。 Transcoder 是替代 MLP 的辅助模型：输入一层 MLP 的激活 \(h\in\mathbb{R}^d\)，算出稀疏表征 \(z=f(W_{\text{enc}}h+b_{\text{enc}})\)，再重建该 MLP 输出 \(\tilde{h}'=W_{\text{dec}}z+b_{\text{dec}}\)。它训练成稀疏且单义，便于把"模型在想 accountant"这种概念对应到具体特征。在此之上构造的特征电路是一张加权有向无环图，边权是源节点对目标节点的精确直接效应（在给定注意力模式和 LayerNorm 分母条件下可被精确计算），于是"哪个特征因果地推高了正确 token"变成可读、可干预的子图——图 1 中 Qwen-3 14B 的 accounting 特征推高 accountant 特征、后者再推高冠词 an，整条链条一目了然。这一步是把前一节的因果定义变成可执行实验的桥梁。

3. 设计简单语法一致任务作为规划的最小可控测试床。 作者构造三类任务（a/an、is/are、el/la），每条输入逼模型输出一个特定内容词，而它前面有一个必须与之"一致"的功能词，功能词的形式由后面的内容词决定——例如 "Someone who handles financial records is __ accountant" 必须填 an，因为 accountant 以元音开头。这些任务被刻意选成预训练中常见的形态，且把"是否规划"压缩成一个二选一的功能词预测，让因果干预的效果（消融让 p(正确) 下降、放大让其上升）能干净地读出来。它是验证两条件的最小载体，也是观察规模涌现的起点。

4. 双向干预 + 直接效应隔离，分离"真规划"与"捷径"。 为坐实规划特征确实驱动预测，作者做两类干预：对成功样本把规划特征零消融（应使表现变差），对失败样本把规划特征放大到 5 倍（应使表现变好）。结果两种干预主要影响少数类 an（模型要逆着先验工作的情形），符合预期。但这还不够——accountant 特征可能只是碰巧与 an 的 unembedding 余弦相似度高，靠直接效应推高 logit，无需真正规划。为此作者做直接效应干预：放大规划特征但冻结其它特征，阻断二阶效应；此时效果显著减弱（放大干预帮倒忙的次数和帮忙差不多），说明规划特征的作用无法用直接效应解释，必须经由 "say a/an" 这类中介特征——也即真的存在前向+后向的规划链路，而非词表捷径。

实验关键数据¶

主实验：规划能力随规模涌现¶

任务	现象	涌现规模
a/an（语法一致）	全部模型对多数类 a 召回 >0.8；少数类 an 召回 >0.8 仅 Qwen-3 14B 达到，中等模型平滑上升，0.6–1.7B 总是预测多数类	~4B–8B 出现雏形，14B 稳定成功
押韵对句（rhyme）	大模型完美押韵准确率 50%+，14B 约 60%；放宽到协音（仅元音）押韵 8B 已 >70%，14B 达 0.8	押韵能力随规模上升
散文受控引导（say X）	引导 say X 特征常能让模型输出 X；其中连贯且含 X 的输出里，大模型更会把上下文改写成 "in the night" 等完整短语	后向规划仅在 8B–14B 微弱显现

消融 / 干预实验¶

干预	对 a/an 任务的效果	结论
规划特征零消融	损害表现，但几乎只作用于少数类 an	规划特征对"逆先验"的样本才关键
规划特征 ×5 放大	大幅提升 an 准确率，大模型提升略多；对 a 几乎无效	因果相关，且 4B/8B 与 14B 用相似机制
仅直接效应干预	效果明显减弱，放大有时反而帮倒忙	规划不能由直接效应解释，需经 "say a/an" 中介特征
押韵特征引导（首行 ×-3，新韵 ×7）	8B–14B 模型会改输出成新韵（前向规划成立，准确率约 40%，与基线 60% 同量级）	前向规划随规模成立
押韵后向规划检验	给"引导生成的上下文"与"原上下文"，模型预测新韵的准确率几乎相同	引导后的上下文并未更好地"承接"新韵 → 后向规划基本缺失

关键发现¶

前向规划比后向规划发展得更快：简单任务上 4B–8B 已有规划相关特征（即便整体表现差），押韵任务上大模型能前向规划改韵脚，但几乎不会反过来改写上下文去承接韵脚。
规划是"分块涌现"而非统一机制：是否在某任务上规划，取决于模型容量 × 任务复杂度 × 任务在训练中的频率/重要性，导致能力零散，而非一套统一规划机制。
中等模型失败的根因：4B/8B 在 an 失败时激活的规划特征远少于成功时；小模型几乎从不激活规划特征；14B 则在成功与失败两种情形都激活大量规划特征。

亮点与洞察¶

方法论纠偏：旗帜鲜明地指出"探针可解码 ≠ 模型在规划"，把规划重新锚定到必须靠因果干预才能验证的两条件上，给后续隐式规划研究立了更严的证据门槛。
迄今最大规模的开源模型特征电路研究：在 Qwen-3 五个尺寸上系统跑特征电路，把"机制如何随规模生长"这件事第一次在开源家族上量化出来。
细粒度的"涌现"画像：不是笼统说"大模型会规划"，而是分出前向/后向、简单/长程，指出二者发展速度不同、且规划是分块拼起来的。

局限与展望¶

后向规划证据偏负：押韵任务上后向规划基本没观测到，长程规划机制是否真的存在、还是只是更强的前向规划，仍未定论。
任务偏简单且常见：刻意选了预训练中高频的语法一致任务，能否推广到真正复杂、低频的规划任务（多步代码、长篇叙事谋篇）尚不清楚。
局部规划特征罕见且对引导强度敏感：say X 类局部规划特征只出现在少数对句里，且效果对引导超参敏感，作者也承认"还需更多研究确认这些特征的作用"。
依赖 transcoder 质量与电路假设：结论建立在 transcoder 单义性、特征电路精确直接效应等假设之上，机制解释的可靠性受这些工具上界约束。

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 把隐式规划从"可解码"重定义为"可因果干预的前向+后向条件"，并首次在开源模型家族上做规模扫描，定义层面的贡献含金量高。
实验充分度: ⭐⭐⭐⭐ — 三类任务 + 双向干预 + 直接效应隔离 + 五个尺寸，证据链扎实；后向规划偏负但作者诚实呈现，长程规划仍留白。
写作质量: ⭐⭐⭐⭐⭐ — 定义清晰、反例（Austin/Texas）有力、图示直观、附录详尽，论证逻辑环环相扣。
价值: ⭐⭐⭐⭐ — 为隐式规划研究立了更严的证据标准，并给 AI 安全提供了机制级的规模趋势参考，对可解释性与安全社区都有实用价值。