Selection, Reflection and Self-Refinement: Revisit Reasoning Tasks via a Causal Lens¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=0X5moS8KSm
代码: https://github.com/dengyl20/SR2
领域: LLM推理 / 因果分析
关键词: 因果选择机制、潜变量推理、递归 Transformer、自我精炼、约束满足

一句话总结¶

这篇论文把 Sudoku、Maze、ARC 这类推理任务解释为因果选择机制下的潜变量约束满足问题，并提出 SR2 用反思式表示学习、依赖自我精炼和周期性中间对齐来迭代修正潜表示，在更少参数下显著提升结构化推理准确率。

研究背景与动机¶

领域现状：推理任务一直是检验机器学习模型，尤其是大语言模型是否真正具备抽象能力的重要基准。近年的路线大致有两类：一类继续扩大预训练、后训练和推理时计算；另一类给模型加入 chain-of-thought、奖励模型或自我反馈，让模型产出更像人类解题步骤的中间轨迹。

现有痛点：这些做法能提高分数，却没有真正解释推理为什么难。规模化模型可能学到输入到答案的相关性，CoT 监督也可能只是模仿自然语言解释的表面形式；一旦任务需要在隐含规则之间保持全局一致，模型仍然容易出现局部正确、整体矛盾的结果。对 Sudoku 来说，填一个格子不是只看附近数字，而是要同时满足行、列和宫的约束；对 Maze 来说，下一步路径也要和整条最短路径的可达性一致。

核心矛盾：作者认为难点不在于观察空间本身有多大，而在于观察背后的潜变量空间更复杂，而且潜变量之间高度耦合。一个题面 \(x\) 和答案 \(y\) 可能是唯一确定的，但通向答案的规则组合、候选中间状态和可行推理轨迹非常多；同时，潜变量中的一个局部修改会牵动大量其它变量。只学 \(x \rightarrow y\) 的直接映射，就容易绕开这种结构。

本文目标：论文要做两件事。第一，用因果里的 selection mechanism 给推理任务一个统一解释：高层逻辑概念像选择算子一样筛掉不满足规则的观察-答案组合。第二，把这个解释落到模型设计上，让模型不是一次性吐出答案，而是在潜空间中反复反思、清理依赖关系，并在长递归训练中保持可优化。

切入角度：作者从 Sudoku 的约束满足例子出发，把推理写成由潜规则 \(z\) 选择观察对 \((x,y)\) 的过程。这个角度有意思的地方在于，它把“会推理”从“输出正确答案”转成“找到满足选择约束的潜状态”。于是模型设计自然指向 fixed-point / recurrent refinement，而不是单纯堆深层 Transformer。

核心 idea：用一个共享的递归 Transformer block 在潜空间中先带输入做反思式初始化，再去掉输入只靠潜状态自我精炼，最后用周期性中间监督稳定长递归训练，从而显式学习推理任务中的密集潜变量依赖。

方法详解¶

整体框架¶

SR2 的整体逻辑可以分成“因果建模”和“神经实现”两层。因果层把推理任务写成选择机制：潜规则 \(z\) 决定哪些 \((x,y)\) 组合满足约束；神经层则用一个权重共享的 Transformer block 反复更新潜状态 \(z\)，先从输入中抽取可用信息，再让潜状态在没有输入注入的情况下继续自我协调，最后通过预测头 \(g\) 输出答案。

训练时，SR2 设定两个迭代尺度：每个对齐块内部运行 \(M\) 次更新，一共运行 \(N\) 个对齐块。第一个块执行 reflective representation learning，每一步都把观察 \(x\) 注入更新 \(z^{(t+1)}=f(z^{(t)},x)\)；后续块执行 dependency self-refinement，不再注入 \(x\)，而是更新 \(z^{(t+1)}=f(z^{(t)},0)\)。每隔一个块用 \(g(z)\) 产生中间预测并计算损失，随后 detach 状态，避免远距离梯度把训练拖垮。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["观察输入 x<br/>题面或网格"] --> B["选择机制建模<br/>潜规则筛选可行解"]
    B --> C["反思式表示学习<br/>带输入迭代修正 z"]
    C --> D["依赖自我精炼<br/>去掉输入协调潜变量"]
    D --> E["周期性中间对齐<br/>分段监督并 detach"]
    E --> F["预测头 g<br/>输出答案 y"]

这个流程里，选择机制更多是理论解释和设计动机；真正的可训练模块是后面三块。反思式表示学习负责把题面信息压进潜状态，依赖自我精炼负责解决潜变量之间的全局一致性，周期性中间对齐负责让长递归模型能稳定训练。三者合起来，构成了“Selection, Reflection and Self-Refinement”的 SR2。

关键设计¶

1. 选择机制建模：把推理难点从答案空间转到潜规则空间

论文首先把推理任务写成一个因果选择过程。令 \(x\) 表示观察输入，\(y\) 表示答案，\(z\) 表示潜在规则或逻辑概念，只有当选择条件 \(S(z)=1\) 时，对应的 \((x,y)\) 才是有效样本。形式上，作者写出联合分布 \(p(x,y)=\int p(z)p_g(x,y|z)I(S(z)=1)dz\)。这个式子不是为了直接估计联合分布，而是为了强调：训练数据中出现的答案，是被隐藏规则筛选后的结果。

这个视角解释了为什么直接拟合 \(p(y|x)\) 不够。以 Sudoku 为例，题面给出的数字是观察空间，答案也是确定的，但潜在规则包括行、列、宫、候选排除和填数顺序等大量可行轨迹。即使唯一解存在，潜变量集合仍然可能远大于观察本身。作者在附录里用填空顺序说明：若有 \(n\) 个空格，固定一个完整解也有 \(n!\) 种有效填充轨迹；这让“唯一答案”背后仍然有巨大的潜空间。

2. 反思式表示学习：用输入反馈压缩过大的潜空间

SR2 的第一阶段解决的是“从题面进入潜空间”的问题。模型从零初始化潜状态 \(z^{(0)}\)，然后反复应用共享更新函数 \(z^{(n+1)}=f(z^{(n)},x)\)。这里的关键不是把 Transformer 加深，而是把同一个 atomic block 当成一个 fixed-point operator：每次更新都看到上一步潜状态和观察输入，让表示逐步靠近一个同时解释输入、又更接近约束满足的潜状态。

这和普通多层 Transformer 的区别在于参数共享和状态反馈。标准 Transformer 可以写成不同层 \(h^{(l+1)}=T_l(h^{(l)},x)\)，SR2 则把它压平为同一个 block 的递归调用 \(h^{(m+1)}=T(h^{(m)},x)\)。参数少了，但有效深度来自迭代次数。作者借鉴了 deep equilibrium model 的直觉，却没有用隐式函数定理求无限深平衡，而是显式展开固定步数，使训练目标可以直接作用在中间轨迹上。

3. 依赖自我精炼：去掉输入后强迫潜变量自己达成一致

如果一直把 \(x\) 注入每个递归步骤，模型可能会继续依赖观察中的浅层模式，而不是学习潜规则之间的约束传播。因此 SR2 在得到初始潜状态后进入第二阶段：把输入置零，仅用 \(z^{(t+1)}=f_s(z^{(t)},0)\) 继续更新。由于后续更新不能再从题面拿信息，模型必须在潜状态内部消解冲突，让行、列、路径、抽象转换等隐含变量彼此协调。

这个设计正好对应作者的第二个假设：可行潜变量是密集依赖的。Sudoku 中一个格子变化会影响同一行、列、宫；Maze 中某个路径选择会影响后续可达性；ARC 中局部图案变换也会改变全局一致性。自我精炼让这些依赖通过同一个共享 block 反复传播。实验里去掉这一步后 Sudoku-Extreme 从 \(66.63\%\) 掉到 \(53.11\%\)，说明“有输入反馈”还不够，长程潜变量协调本身是核心贡献。

4. 周期性中间对齐：把长递归训练拆成可优化的短段

SR2 的总更新步数是 \(T=M\times N\)，如果只在最后一步加监督，梯度需要穿过很长的递归链，很容易消失或变得不稳定。作者因此在若干对齐点 \(A\) 上加入中间监督，目标写成 \(L=\sum_{t\in A}\ell(g(z^{(t)}),y)\)。每个对齐块结束后，模型用当前 \(z\) 预测答案并计算损失，再将状态 detach，让后一个块不能把梯度反传回很远的过去。

这不是简单的 deep supervision。它和前两阶段配合后，形成一种“分段逼近固定点”的训练方式：每个块都要让潜状态更接近可读出的答案，但块与块之间又保留状态传递。消融显示，频繁重新注入输入反而会变差：Mixture 2 Reflections 为 \(63.32\%\)，Mixture 4 Reflections 降到 \(55.25\%\)。这说明 SR2 不是靠多次看输入取胜，而是靠一次输入建模之后的长时间潜空间自我协调。

一个完整示例¶

以 Sudoku 中某个待填格 \(Y_{ij}\) 为例，观察输入 \(x\) 是一个部分填好的 \(9\times9\) 网格，目标 \(y\) 是所有空格的补全结果。传统直接预测会把每个空格当成分类问题，最多通过 attention 看见同一行、列、宫的信息；但它不一定保证整张盘面一致。

在 SR2 中，第一个 \(M\) 步把题面数字反复注入潜状态。模型会逐渐形成对候选数字、行约束、列约束和宫约束的内部编码，例如某个格子暂时倾向于候选 \(\{2,5,8\}\)，相邻格子也有各自的候选集。进入自我精炼后，模型不再读题面，而是在这些候选状态之间传播约束：如果同一宫里另一个格子被更新为 \(5\)，这个格子的候选就应当同步排除 \(5\)；如果某一行只剩一个位置可放 \(8\)，其它相关潜状态也要跟着收缩。

每运行完一个对齐块，预测头都把当前潜状态解码成完整盘面并接受监督。早期输出可能只有局部合法，后期输出逐渐满足行、列和宫的联合约束。这个例子能看出 SR2 和 verbal self-refinement 的区别：它不是让模型写一句“我再检查一下”，而是在隐藏状态中持续更新候选结构。

损失函数 / 训练策略¶

SR2 的训练目标是任务特定损失的周期性求和，核心形式为 \(L=\sum_{t\in A}\ell(g(z^{(t)}),y)\)。其中 \(g\) 是把潜状态映射到答案空间的预测头，\(\ell\) 在 Sudoku、Maze 这类离散输出任务上可理解为与目标答案对齐的分类损失；论文实现中所有 baseline 使用相同 backbone、优化器、学习率、batch size 和损失函数，以保证比较公平。

默认超参数采用 \(M=N=16\)。作者在固定 \(M\times N=256\) 的预算下扫过不同配比，发现 \(M\approx N\) 时效果最好；若二者不平衡，\(M>N\) 的退化比 \(N>M\) 更轻。训练使用 AdamAtan2，学习率 \(1\times10^{-4}\)，batch size 为 768；Sudoku-Extreme 和 Maze-Hard 都训练 60,000 epochs。硬件为 8 张 AMD MI210 64GB GPU，Sudoku 训练约 1 小时，Maze 约 15 小时。

实验关键数据¶

主实验¶

作者在 Sudoku-Extreme、Maze-Hard 和 ARC-AGI 上评估 SR2。Sudoku-Extreme 只有 1,000 个训练题、422,786 个测试题，平均需要 22 个 backtracking steps；Maze-Hard 是 \(30\times30\) 迷宫，训练和测试各 1,000 个实例；ARC-1 / ARC-2 用官方任务划分，并报告 pass@2。

方法	参数量	Sudoku-Extreme	Maze-Hard	ARC-1	ARC-2
Transformer	27.3M	1.17	0	21.0	0
Block Universal Transformer	3.4M	0	30.4	-	-
Recurrent Depth	3.4M	42.52	48.4	-	-
HRM	27.3M	55.0	74.5	40.3	5.0
Reflective Model	27.3M	53.12	70.8	-	-
SR2	3.4M	66.63	93.7	44.3	6.7

这张表最重要的信息不是 SR2 只比某个 baseline 高一点，而是参数效率非常突出。SR2 只有 3.4M 参数，却在 Sudoku-Extreme 上比 27.3M 的 HRM 高 \(11.63\) 个点，在 Maze-Hard 上高 \(19.2\) 个点；相比 Recurrent Depth，Sudoku 提升约 \(24.11\) 个点，Maze 几乎翻倍。

方法	训练速度 Batch/s	训练显存 GB	推理速度 Sample/s
Direct Pred	21.39	3.024	7489.6
HRM	10.57	3.231	1487.7
SR2	14.73	3.950	2073.6

效率上，SR2 比直接预测慢，因为它有周期性对齐和更多迭代；但它仍然比 HRM 快，推理速度约为 2073.6 samples/s，高于 HRM 的 1487.7 samples/s。代价是训练显存略高，达到 3.950GB。

消融实验¶

配置	Sudoku-Extreme 准确率	说明
No Self-Refinement	53.11	不做后续潜空间自我精炼，主要剩下输入反馈
No Reflection	0	不重复注入输入，模型无法保留题面特征
Mixture (2 Reflections)	63.32	在多个块中重新注入输入，略低于默认 SR2
Mixture (4 Reflections)	55.25	过多输入注入明显干扰潜依赖学习
Separate Function	59.76	反思与精炼使用两个不同函数，反而变差
Reflective Model	53.12	8 层非共享反思模型
Flattened Reflective Model	53.75	单层共享递归可替代深堆叠
SR2	66.63	默认完整模型

关键发现¶

反思和自我精炼都是必要的。去掉 Reflection 后准确率直接归零，说明模型首先必须反复吸收观察输入；去掉 Self-Refinement 后仍有 \(53.11\%\)，但明显低于完整模型，说明潜变量之间的长程协调贡献很大。
更多输入反馈不一定更好。2 次 reflection 已经低于默认，4 次 reflection 退化更明显，作者据此认为频繁注入 \(x\) 会诱导模型拟合浅层输入模式，而不是学习潜空间依赖。
一个共享函数足够。Separate Function 用两个 Transformer layer 分别处理 reflection 和 self-refinement，准确率低于共享版本，说明两阶段不必由两个完全不同的动力系统承担。
SR2 对任务类型有边界。附录在 CUB-200-2011 细粒度分类上测试，ViT 约 \(75\%\) top-1，而 SR2 低于 \(45\%\)；这支持作者的判断：迭代潜空间精炼适合约束满足和复杂推理，不适合输入到标签关系比较直接的分类任务。

亮点与洞察¶

因果选择机制给“推理为什么难”提供了比经验叙述更清楚的语言。它把问题从“模型不会输出答案”改写成“模型没有学到筛选可行潜状态的约束结构”，这对分析 Sudoku、Maze、ARC 这类任务很自然。
SR2 的漂亮之处在于把理论假设直接转成架构分工。潜空间大，所以先用 reflection 缩小搜索；潜变量耦合强，所以再用 self-refinement 做无输入协调；递归链太长，所以用 periodic alignment 分段训练。
论文把 recurrent Transformer、DEQ、latent reasoning 和 self-refinement 几条线索放在同一框架里。它不追求语言形式的“自我反省”，而是把反省落实为隐藏状态的固定点迭代，这一点对 LLM 推理架构很有启发。
参数效率是一个很有价值的信号。SR2 用单层共享 Transformer 反复迭代，胜过更大的 HRM，说明在某些结构化推理任务上，“正确的计算过程”比“更多独立层参数”更关键。
对 test-time compute 的分析也比较实际。论文指出减少测试对齐步数会形成准确率-吞吐的 Pareto frontier，而把测试步数推到训练 horizon 之外收益有限，这提醒后续方法不能只靠无限加推理步数。

局限与展望¶

选择机制视角可能过于理想化。Sudoku 和 Maze 有明确、封闭、可验证的约束，但自然语言推理、开放域数学证明或多跳知识推理中的规则往往模糊且可争议，未必能被简单写成 \(S(z)=1\)。
实验主要集中在小规模结构化 benchmark。虽然 ARC-1 / ARC-2 给了一点抽象推理证据，但 SR2 是否能扩展到真正的大语言模型、长文本推理或工具使用任务，还没有被验证。
当前方法依赖大量递归步骤，推理速度仍然慢于直接预测。对需要低延迟部署的任务，需要进一步研究动态停止、难例自适应步数或只对部分 token / 状态做精炼。
周期性对齐的目标仍然依赖标准监督标签。对于没有中间标签、答案稀疏或目标不可微的复杂任务，如何设计可靠的 self-supervision 或 consistency signal 是后续关键。
方法对简单分类任务表现很差，说明 SR2 不是通用替代 Transformer 的架构。更合理的未来方向可能是任务自适应地判断是否启用 latent refinement，而不是在所有任务上固定套用。

评分¶

新颖性: ⭐⭐⭐⭐ 因果选择机制解释推理任务很有辨识度，SR2 的三阶段设计也和现有 recurrent reasoning 方法拉开了差异。
实验充分度: ⭐⭐⭐⭐ Sudoku 和 Maze 的结果很强，消融扎实，但开放域 LLM 推理和更大规模任务仍缺验证。
写作质量: ⭐⭐⭐⭐ 论文主线清楚，理论假设、架构和消融能对应起来；部分公式更像解释性建模而非可直接估计模型，需要读者区分理论层和实现层。
价值: ⭐⭐⭐⭐⭐ 对“推理不是答案拟合，而是潜约束协调”这个观点表达得很清楚，对后续 latent reasoning、test-time compute 和小参数推理模型都有参考价值。