Path Channels and Plan Extension Kernels: A Mechanistic Description of Planning in a Sokoban RNN¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=aAshH4kQ1v
代码: 待确认
领域: 机制可解释性
关键词: 机制可解释性, 规划, Sokoban, ConvLSTM, 双向搜索

一句话总结¶

本文逆向工程了一个用无模型强化学习训练来玩推箱子（Sokoban）的卷积循环网络（DRC），发现它把「未来要往哪走」的规划直接存在隐藏状态的特定通道（path channels，路径通道）里，并通过卷积核（plan extension kernels，计划延伸核）从箱子向前、从目标向后延伸路径段，用负激活实现剪枝与回溯、用胜者通吃机制选出唯一路径，从而把一个看似黑箱的「规划行为」翻译成了一套可读懂的双向搜索算法。

研究背景与动机¶

领域现状：人们普遍相信深度网络能学会复杂的「类规划」行为，Sokoban 是验证这一点的经典基准——它是 PSPACE-complete 的、要长程规划、且箱子只能推不能拉，一步走错就可能死局。Guez et al. (2019) 提出的 DRC 架构（深度循环卷积 ConvLSTM 堆叠）在无模型 RL 里达到了 SOTA，甚至能和 MuZero 这类有模型方法掰手腕，被认为「会规划」：数据高效、能泛化到更多箱子、给更多算力（多喂几次初始观测）就解得更好。

现有痛点：但「它会规划」这个判断主要靠行为证据和线性探针（linear probe）间接得到。前人（Bush et al. 2025、Taufeeque et al. 2024）用逻辑回归探针从隐藏状态里聚合出一个「计划表示」，定性地说它像在做双向搜索，却说不清这个计划到底存在哪、怎么被构造出来。探针是外挂的读出器，它告诉你「信息在那儿」，但没告诉你网络内部用什么机制把计划一步步搭起来。

核心矛盾：要真正理解一个网络「怎么规划」，光知道计划可以被探针解码出来还不够——必须能直接读权重、看清楚激活是怎么沿着棋盘传播、剪枝、收敛的。探针的聚合恰恰抹掉了这种逐步传播的结构。

本文目标：(1) 找到计划的原生表示（不靠探针，直接读通道激活）；(2) 解释计划被构造的算法（初始化 → 延伸 → 剪枝/回溯 → 选择）。

切入角度：作者手工检查了 DRC(3,3) 每一层每一个通道，发现大量通道本身就对应「某方向的移动倾向」，于是不需要探针的线性组合，直接读单个通道就能看出计划。

核心 idea：把计划表示简化为路径通道——每个通道对应一个移动方向，某格子上激活高就代表「箱子/智能体走到这格时会朝这个方向走」；再去读路径通道之间的卷积核，发现它们编码了「这一步动作导致位置如何变化」，即一个学出来的转移模型，规划就是这些核在棋盘上反复卷积传播激活的过程。

方法详解¶

整体框架¶

本文不是提出新模型，而是对一个已训练好的 DRC(3,3) 网络做机制级逆向工程。这个网络结构是：卷积编码器 E → 3 层 ConvLSTM 堆叠（每个 in-game timestep 内每层 tick 3 次，共 9 层串行计算）→ MLP 头输出动作和价值。作者要回答两件事——计划存在哪、计划怎么被造出来。

第一步先定位计划表示：通过逐通道人工标注 + 单步缓存消融 + 因果干预，证明计划就存在「路径通道」里。第二步拆解规划算法：路径通道直接代表棋盘上的路径，于是可以直接读权重矩阵（编码器核 + 循环核）看清四个环节——编码器核在箱子/智能体/目标周围初始化路径段；计划延伸核沿方向延伸路径，并在障碍处放负值以停止；同样的延伸核把负激活反向传播实现回溯剪枝；胜者通吃机制在多条候选路径间选出一条。整条流水线合起来就是一个双向搜索：从箱子和智能体向前推，从目标向后拉，两头在中间会合。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["DRC(3,3) 隐藏状态<br/>(已训练，玩 Sokoban)"] --> B["路径通道<br/>每通道=一个移动方向"]
    B --> C["编码器核初始化<br/>箱子/智能体向前·目标向后种下路径段"]
    C --> D["计划延伸核<br/>沿方向逐格延伸·障碍处置负值停止"]
    D -->|负激活沿路反传| E["回溯剪枝<br/>砍掉走不通的路径尾段"]
    E --> F["胜者通吃机制<br/>多条候选互相抑制·留最强一条"]
    F --> G["GNA/PNA 通道读出下一步动作"]

关键设计¶

1. 路径通道：把计划从「探针聚合」降维成「直接读通道」

针对前人只能靠线性探针间接读计划的痛点，作者发现 DRC 的隐藏状态里有一大批通道本身就语义明确：每个通道绑定一个基本方向（上/下/左/右），在某格子上激活高就意味着「箱子（或智能体）位于该格时会朝这个方向移动」。因为隐藏状态是卷积的，同一套计算在 \(H\times W\) 每个格子上复用，所以一个「向下」通道会在箱子要向下走的所有格子上点亮。作者把通道分成 7 组（箱子移动 20 个、智能体移动 10 个、组合路径 29 个、GNA 4 个、PNA 4 个、实体 8 个、无标签 21 个），其中箱子移动 + 智能体移动 + 组合路径合称路径通道（共 59 个），它们共同维护完整的行动计划；其余称非路径通道，主要存短期信息。这一步的价值在于：不再需要探针的线性组合，「读计划」退化成「读单个通道」，为后面直接读权重、解释算法铺平了路。

2. 计划延伸核：编码一个学出来的转移模型，双向延伸路径段

光有通道激活还不是计划，得有机制把「初始的一步」连成「一整条路径」。作者发现循环权重矩阵里藏着专门的计划延伸核。它分两类：线性延伸核沿通道自身方向把路径每次延伸一格；转向延伸核把激活从一个方向通道传到另一个方向通道（实现拐弯）。线性核的权重幅度明显大于转向核，这恰好编码了「能直走就别拐弯」的偏好。更关键的是这些核成对存在——有从箱子/智能体向前链接的核，也有从目标向后链接的核，于是计划被同时从两头延伸，正是 Bush et al. 定性观察到的双向搜索的机制基础。作者还把编码器的多层线性卷积用结合律合并成单个 \(9\times9\) 核 \(A^d_{oe}=W^d_{oe}W_{E2}W_{E1}\) 来可视化，看清编码器核如何在箱子/智能体周围（顺方向）和目标周围（逆方向）种下初始路径段。这些核合在一起就相当于网络学到的转移模型：每个核描述「做这个动作位置怎么变」。

3. 负激活停止与回溯：用同一套核反向传播实现剪枝

延伸不能无限进行，否则路径会穿墙穿过目标。作者观察到停止机制靠负贡献实现：在目标、箱子相邻格、墙等边界处，编码器或实体通道会给路径通道注入负激活，抵消延伸核的「溢出」，把路径在该处截断（图 8 直观展示了 box-right 通道在箱子和目标处被负贡献顶住）。妙处在于延伸核是双重用途的：因为存在前向和后向两套核，路径末端的负激活会被后向核传到起点，起点的负激活会被前向核传到末端——于是负值能沿整条路径双向扩散，把走不通的路径尾段「剪掉」，让另一条路径浮现，这就是一种回溯（backtracking）。这正是无模型训练学出来的、却长得很像经典搜索剪枝的机制。

4. 胜者通吃：在多条可行路径间收敛到唯一计划

当一个箱子有多条可行路径时，网络要选一条来执行。作者发现短期路径通道之间存在抑制性权重：同一格上不同方向的路径通道互相压制，激活最强的方向把其他方向的激活抑制下去，配合 sigmoid 非线性，最终只剩一个方向的路径通道为即将执行而保持激活。之所以只在短期通道做胜者通吃、而放过长期通道，是为了让网络能同时保留未来才执行的其他计划而不被误杀。作者构造了两条势均力敌的路径做因果验证（图 9）：初始两条激活相近，稍强的一条在第 1、2 步迅速主导并关掉另一条；而零消融两个方向通道之间的核后，胜者通吃失效，两条路径同时保持激活——证明正是这些跨方向核实现了选择机制。

一个例子：箱子下两格再右两格到目标¶

以图 3 的理想化情形为例：箱子要先向下走两格、再向右走两格才到目标。编码器核先在箱子周围沿「向下」初始化激活、在目标周围沿「向右」逆向初始化激活。线性延伸核把「向下」激活从箱子向下逐格延伸，把「向右」激活从目标向左逆向延伸，转向核在拐角处把「向下」接到「向右」。当延伸触到目标或相邻箱子时，负激活注入将其停住。若某条尝试路径撞墙，负激活沿前/后向核反传剪掉该尾段。最后在每格上胜者通吃留下唯一方向，GNA/PNA 通道把当前智能体格上的方向读成下一步动作。读者顺着「蓝色向下通道在两个下移格点亮、紫色向右通道在两个右移格点亮」就能在脑子里复现整条计划。

实验关键数据¶

主实验¶

作者用消融和因果干预量化验证「计划就在路径通道里」。单步缓存消融（把通道上一时刻值清零、只用当前观测重算）结果：

干预对象	通道数	解题率下降
全部路径通道	59	57.6% ± 2.8%
全部非路径通道	37	10.5% ± 1.9%
随机路径通道子集（控通道数）	37	41.3% ± 2.4%

即便控制通道数量，干预路径通道造成的损失也远大于非路径通道，说明长程规划的核心计算就发生在路径通道里。

因果干预实验¶

按通道标签修改激活，测量能否成功让智能体改走另一个目标动作（10,000 个转移上统计成功率）：

通道组	因果干预得分
Pooled Next Action (PNA)	99.7% ± 0.2%
Grid Next Action (GNA)	98.9% ± 0.4%
箱子+智能体移动	88.1% ± 1.9%
箱子移动	86.3% ± 2.1%
智能体移动	53.2% ± 2.1%
探针：箱子移动（前人）	82.5% ± 2.5%
探针：智能体移动（前人）	20.7% ± 0.7%

PNA 干预拿到了 SOTA 级的因果分数（99.7%），明显高于前人基于探针的方法。智能体移动通道分数偏低（53.2%），作者解释是这些通道只在智能体不推箱子时才有因果作用，而实验没做这个过滤。

关键发现¶

路径通道是规划的物理载体：干预它们解题率掉一半以上，且因果干预分数全面超过探针，说明计划是「原生地」存在通道里，而非探针外推出来的。
长短期通道分工：路径通道进一步分长期/短期——短期通道对未来 10 步内动作 AUC 很高，长期通道对 10 步以后直到回合末的动作 AUC 高；当两个箱子先后穿过同一格但方向不同，长期通道会提前（\(t\ll 0\)）激活，等第一步走完后激活才转移到短期通道（主要由 j-gate 中介）。
权重操控（weight steering）泛化：网络只在 \(10\times10\) 棋盘训练，但把计划延伸核整体放大 1.4 倍，就能稳定更长的路径、解出 \(40\times40\) 的关卡——直接验证了「延伸核负责构造路径」这一机制理解。
可复现性：路径通道、延伸核、胜者通吃机制在另外 4 个独立训练的种子上都重现，并用 AUC 做了自动标注法佐证（Section N）。

亮点与洞察¶

从「探针能解码」到「权重能解释」的范式升级：本文最「啊哈」的地方是把计划的表示简化到可以直接读单个通道，从而能直接打开权重矩阵看延伸核长什么样。相比 LLM 可解释性工作多停留在「局部、对特定 prompt 有效的经验因果」，这里是权重级、对所有输入都成立的解释，作者称其推进了「网络复杂度 vs 解释细致度」的帕累托前沿。
同一套核身兼三职：计划延伸核既负责正向延伸、又负责反向回溯剪枝，加上负激活停止，把「转移模型 + 搜索剪枝」用一组卷积核统一实现，这种参数复用是无模型 RL 自发学出来的，相当优雅。
权重操控当作机制理解的「证伪实验」：用「放大延伸核 → 能解更大棋盘」来验证机制，比单纯看激活相关性更有说服力，是一个可迁移到其他可解释性研究的验证范式。
可迁移思路：「先找原生语义单元（这里是方向通道）→ 再读单元之间的权重核」这套流程，对其他卷积式智能体（导航、网格世界规划）的逆向工程同样适用。

局限与展望¶

单一任务、单一架构：只分析了 Sokoban 上的 DRC(3,3)，结论能否推广到其他游戏 / 连续控制 / 非卷积架构未知；卷积的「位置复用」是路径通道能成立的关键前提，换架构可能就不成立。
解释仍是「部分」逆向工程：还有 21 个无标签通道未能解释，GNA→PNA→动作的读出链、长短期转移的 j-gate 机制等只在附录定性给出，算法并非完全闭环。
智能体移动通道的因果证据偏弱：53.2% 的分数受「未过滤推箱子情形」干扰，说明对智能体（相对箱子）的路径表示理解还不够干净。
改进方向：把自动标注法做得更鲁棒以摆脱人工逐通道检查；在更大或非网格任务上检验「路径通道 + 延伸核」框架是否依然存在；把停止/回溯机制的负激活来源（编码器 vs 实体通道）拆得更清楚。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次把无模型 RL 学到的「规划」拆成路径通道 + 延伸核 + 回溯 + 胜者通吃的权重级算法。
实验充分度: ⭐⭐⭐⭐ 消融、因果干预、AUC、权重操控、5 个种子复现都有，但仍有无标签通道和智能体通道证据未闭环。
写作质量: ⭐⭐⭐⭐ 机制叙述清晰、图证充分，附录较重、主文部分机制略简。
价值: ⭐⭐⭐⭐⭐ 为「神经网络是否真的会规划」提供了迄今最细致的正面证据，对 agent 可解释性意义大。