C-Voting: Confidence-Based Test-Time Voting without Explicit Energy Functions¶

会议: ICLR2026
OpenReview: kYQFfEKtx5
代码: 待确认
领域: LLM推理 / 测试时扩展
关键词: 测试时扩展, 循环模型, 投票策略, 置信度校准, 数独求解

一句话总结¶

针对"反复套用同一层"的循环推理模型，本文提出一种不需要显式能量函数的测试时投票策略 C-voting——从多个随机初始隐状态出发跑出多条轨迹，挑出"平均 top-1 概率最高（即模型最自信）"的那条作为答案；它在 AKOrN 上比能量投票 E-voting 在 Sudoku-hard 高 4.9%，配合一个仅 300 万参数的轻量模型 ItrSA++ 还能在 Sudoku-extreme 上把 HRM 从 55.0% 抬到 95.2%。

研究背景与动机¶

领域现状：近年来一类"循环模型"（recurrent model）被视为通往推理能力的有希望路径——它把同一个网络层 \(f\) 反复作用在隐状态上 \(z_{t+1}=f(z_t, x;\theta)\)，等价于一个时不变的非线性动力系统。这类模型（如 HRM、AKOrN）能在数独、迷宫这类需要在复杂约束下做一致逻辑推理的任务上做得很好，而这些任务连主流 LLM 都很吃力。它们最大的卖点是测试时扩展（test-time scaling）：不再训练，只在推理阶段就能涨点。

现有痛点：测试时扩展有两条路。第一条是"加深递归步数"——多迭代几步，但它有两个硬伤：性能会饱和（步数加到一定程度就不再涨），而且迭代是串行的、无法并行，推理越久越慢。第二条是"采样多条轨迹再挑一条"，也就是投票。AKOrN 给出的投票方案叫 E-voting（能量投票）：从不同随机初值跑出多条轨迹，选最终能量最低的那条，靠 4096 个候选能让数独棋盘准确率涨约 40%。

核心矛盾：E-voting 效果很好，但它有个致命的适用性限制——必须有显式定义的能量函数 \(E\)，使得动力学能写成 \(z_{t+1}=z_t-\alpha\nabla_z E(z_t;\theta)\) 的梯度下降形式。可现实中最有希望的推理模型（HRM、递归 Transformer 等）压根没有显式能量函数；尤其带残差连接的 \(z_{t+1}=z_t+g(z_t;\theta)\)，一般情况下 \(g\) 根本写不成某个标量函数的梯度。于是 E-voting 在这些模型上用不了。

本文目标：拆成两个研究问题——(RQ1) 能否设计一个模型无关、不需要能量函数的测试时投票策略？(RQ2) 是否存在一个简单轻量的循环架构，配上这个投票就能追平甚至超过 SOTA？

切入角度：作者注意到，能量低之所以能当"好答案"的代理，本质是想找"模型最有把握"的那条轨迹。那为什么不直接量化模型的"把握"呢？分类任务里 readout 出来的 softmax 概率天然就是置信度信号——只要模型校准得还行，预测概率越高就越可能对。这个信号任何分类型循环模型都有，不依赖能量函数。

核心 idea：用"置信度"代替"能量"做投票判据——把每条候选轨迹终态的"平均 top-1 概率"当作置信度，选最自信的那条。一句话就是：sample & choose，take the most confident one。

方法详解¶

整体框架¶

C-voting 是一个纯推理阶段、即插即用的投票策略：拿一个已经训练好的循环模型，从一个概率分布（如标准高斯）里采 \(K\) 个不同的初始隐状态 \(\{z^{(k)}_{i,0}\}_{k\in[1,K]}\)，每个初值独立地跑完 \(T\) 步递归得到终态 \(z^{(k)}_{i,T}\)；对每条轨迹的终态做 readout + softmax 算出每个位置的预测概率，再算出整条轨迹的"置信度"分数；最后选置信度最高的那条轨迹作为最终预测。整个过程不改动模型权重、不需要能量函数、\(K\) 条轨迹彼此独立可完全并行。

为了验证"为 C-voting 量身定制的简化模型能否更强"，作者还顺手搭了一个极简循环模型 ItrSA++（约 300 万参数），把它和 C-voting 配在一起当作端到端的演示。所以整篇方法其实是两块：投票判据（C-voting 本身）+ 配套的轻量主干（ItrSA++）。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入 x<br/>(数独/迷宫棋盘)"] --> B["随机初始化采样<br/>K 个初值 z⁰"]
    B --> C["ItrSA++ 轻量循环主干<br/>跨注意力混合 + 自注意力×S + SwiGLU，重复 T 步"]
    C --> D["置信度打分<br/>每条轨迹平均 top-1 概率 C⁽ᵏ⁾"]
    D -->|选最自信 argmax_k| E["输出最终棋盘 ŷ*"]

关键设计¶

1. 置信度投票判据：用平均 top-1 概率代替能量

这是全文的核心。痛点很直接——E-voting 要能量函数，绝大多数循环模型没有。C-voting 改用一个任何分类型模型都现成的信号：模型自己的预测把握。对第 \(k\) 条候选轨迹，先从终态 readout 出 logits 并在类别维做 softmax，得到位置 \(l\) 上类别 \(j\) 的概率 \(P_{j,l}(z^{(k)}_{i,T})=\mathrm{Softmax}(\mathrm{Readout}(z^{(k)}_{i,T}))_{j,l}\)；取每个位置的 top-1 概率 \(\hat{P}_l(z^{(k)}_{i,T})=\max_j P_{j,l}(z^{(k)}_{i,T})\)；再对所有待预测位置（如数独里所有空格）求平均，定义这条轨迹的置信度

\[C^{(k)}_i=\frac{1}{|L|}\sum_{l\in L}\hat{P}_l(z^{(k)}_{i,T}).\]

最后选 \(k^*_i=\arg\max_k C^{(k)}_i\) 这条最自信的轨迹，它在各位置的 argmax 类别就是最终答案。

为什么这样有效？作者给了一个校准视角的论证：如果模型校准良好，那么 \(\Pr[y_{i,l}=\hat{y}^{(k)}_{i,l}\mid \hat{P}_l]\simeq \hat{P}_l\)——即 top-1 概率近似等于该位置预测正确的概率。于是"挑平均置信度最高的候选"近似等价于"挑各位置平均准确率最高的候选"：

\[\arg\max_k \frac{1}{|L|}\sum_{l\in L}\Pr[y_{i,l}=\hat{y}^{(k)}_{i,l}\mid \hat{P}_l]\simeq\arg\max_k \frac{1}{|L|}\sum_{l\in L}\hat{P}_l=k^*_i.\]

相比能量这个间接代理，作者认为至少在数独任务上，置信度是比能量更直接的棋盘准确率代理——这也解释了为什么 C-voting 反而能赢过专门为 AKOrN 设计的 E-voting。值得强调的是：C-voting 实际依赖的是候选之间置信度的相对排序，而非绝对校准值（这一点在可视化里被验证）。

2. 随机初始化驱动的轨迹多样性：让投票有得可选

投票要有意义，前提是 \(K\) 条轨迹得真的不一样。C-voting 要求模型从随机采样的初值出发：把 \(z_{i,0}\) 从标准高斯里采，不同候选用不同初值。这一步看似平凡，却是整个策略的命门。作者引用了"路径无关性（path independence）"的发现——用随机初始化训练的循环模型会学到"不同初值最终收敛到同一稳态"，这既帮助泛化，又让同一输入下采样出的多条轨迹能演化成有意义的不同预测，从而给投票提供真正有区分度的候选池。反过来，如果模型训练时用的是固定初值（如 HRM 全程共享同一个初始状态），强行在推理时注入随机性会破坏它的假设、导致候选轨迹要么雷同要么不稳定——这正是 C-voting 在 HRM 上收益受限的根因。

3. ItrSA++ 轻量循环主干：为 C-voting 量身定制的极简架构

AKOrN、HRM 里塞了 Kuramoto 振子、双层时序结构、一步梯度近似、ACT 等一堆技巧，其中不少和 C-voting 是冗余的。作者想验证"去掉这些花活、专为 C-voting 优化的简单模型能不能更强"，于是设计了 ItrSA++。它的核心是反复套用一个由三部分组成的块、循环 \(T\) 次：(i) 跨注意力混合输入与随机初值——把随机采样的隐状态当 query、嵌入后的输入当 key/value 做 cross-attention（类似 Perceiver），\(\tilde{z}_{i,t}=\mathrm{Norm}(z_{i,t})+\mathrm{CrossAttn}(q=\mathrm{Norm}(z_{i,t}),k=v=x^{emb}_i)\)；(ii) 重复 \(S\) 次自注意力层做 token 间推理 \(\bar{z}_{i,t,s+1}=\mathrm{Norm}(\bar{z}_{i,t,s})+\mathrm{SelfAttn}(\mathrm{Norm}(\bar{z}_{i,t,s}))\)；(iii) 周期性插入 SwiGLU 做非线性变换。归一化统一用 RMSNorm，位置编码用 Geometry-Aware Attention。这些设计选择（cross-attention 优于线性层、周期性 SwiGLU、归一化位置）都是实验消融定下来的。整个模型只有约 300 万参数，约为 HRM 的九分之一，却因为"天生用随机初值训练"而和 C-voting 完美契合。

损失函数 / 训练策略¶

ItrSA++ 按标准分类（棋盘逐格预测）训练，初值从标准正态采样，循环步数 \(T\) 在数独上取 32、迷宫上取 64。C-voting 本身不引入任何训练改动——它纯粹是推理阶段的候选选择规则，可以套在任意"用随机初值训练"的已有模型上（实验中直接套到了 AKOrN 上，零修改）。

实验关键数据¶

主实验¶

任务为数独（Sudoku / Sudoku-hard / Sudoku-extreme）与迷宫（Maze-hard），指标是 board accuracy（整张棋盘所有格全对才算对的比例）。

任务	对比对象	之前 SOTA	本文 (ItrSA++ + C-voting)	提升
Sudoku-hard	AKOrN	89.5%	94.4%	+4.9%
Sudoku-extreme	HRM	55.0%	95.2%	+40.2%
Maze-hard	HRM	74.5%	78.6%	+4.1%

另一组关键对照是同一个 AKOrN 模型上换投票策略：在 Sudoku-hard、4096 个候选下，C-voting 得 \(94.4\pm0.1\%\)，比 E-voting 报告的 \(89.5\pm2.5\%\) 高 4.9%——说明即便模型有能量函数，置信度也是比能量更好的判据。

消融实验¶

配置	关键现象	说明
C-voting vs E-voting (AKOrN)	C-voting 全程领先且随候选数增加差距稳定	置信度是比能量更直接的准确率代理
ItrSA++ 无投票	仍在三个任务全面超 AKOrN/HRM	轻量主干本身已经够强
C-voting 套到 HRM	仅有 non-trivial 但有限的增益	HRM 固定初值的设计与随机初始化假设冲突
温度缩放（ECE 分析）	ECE 在 T=2 最低，但平均准确率几乎不变	C-voting 靠相对排序而非绝对校准

关键发现¶

置信度 > 能量：在有能量函数的 AKOrN 上，C-voting 仍稳赢 E-voting，说明"模型把握"比"能量"更贴近真实正确率。
随机初值是前提：C-voting 对 AKOrN、ItrSA++（都用随机初值训练）效果显著，对 HRM（固定初值训练）效果有限——投票策略的成败取决于候选轨迹是否真有意义地分化。
迷宫为何不如数独：通过置信度可视化发现，数独里错误预测的置信度分布更宽、且置信度随迭代步数上升时错样本明显偏低；而迷宫里即便预测错了置信度分布也很"紧"——模型对错误答案抱有"错误的自信"，这让靠置信度排序的投票在迷宫上吃力。
校准不是关键：温度缩放能改变 ECE，但因为不改变每格 top-1 的相对顺序，平均准确率几乎不动——印证 C-voting 依赖的是候选间相对置信度排序。

亮点与洞察¶

把"能量低"换成"模型自信"，一招解开了 E-voting 对显式能量函数的依赖——这个判据任何分类型循环模型现成就有，是真正的模型无关、即插即用。最"啊哈"的是它不仅更通用，还在 AKOrN 上把更专用的 E-voting 给打赢了。
校准视角的等价性论证很漂亮：在模型校准良好的假设下，"选最自信候选"约等于"选平均准确率最高候选"，给了启发式判据一个理论支点；而后续可视化又诚实地指出实际靠的是相对排序、不是绝对校准。
可迁移性强：只要一个推理模型是"用随机初值训练 + 分类型 readout"，就能零成本套上 C-voting 拿并行化的测试时扩展——比串行加深递归步数既快又能突破饱和点。
置信度可视化当诊断工具：用"错误样本的置信度分布是宽是紧"来解释投票在不同任务上的成败，这套分析方法本身可以复用到其他测试时投票场景。

局限与展望¶

依赖良好校准与随机初值训练：C-voting 的有效性建立在模型校准还行、且候选轨迹能有意义分化之上。对固定初值训练的模型（如原版 HRM），强行注入随机性会破坏其更新稳定性，收益十分有限——这是作者明确承认的边界。
"错误的自信"会失灵：在迷宫任务上模型对错误预测也很自信，导致置信度排序失去区分力、扩展曲线疲软。说明 C-voting 在"模型系统性高估错误答案"的任务上会退化，何时会发生缺乏先验判断。
机理尚不清晰：作者坦言"为何置信度比能量更好"目前没有理论解释，只是经验观察。
仅验证于逻辑谜题分类任务：实验集中在数独/迷宫这类逐格分类、可定义"平均 top-1 概率"的任务，对生成式、序列决策或没有清晰位置集合 \(L\) 的推理任务能否迁移仍是开放问题。
计算开销线性增长：C-voting 的代价随候选数 \(K\) 线性上升，虽然可并行，但相比 ACT 这类次线性的递归扩展，在算力受限时的性价比需要权衡。

评分¶

新颖性: ⭐⭐⭐⭐ 用置信度替能量、解开 E-voting 的适用性枷锁，简单但切中要害且反超原方法。
实验充分度: ⭐⭐⭐⭐ 三任务 + 跨模型（AKOrN/HRM/ItrSA++）+ 校准可视化诊断，覆盖较全；但任务局限于逻辑谜题。
写作质量: ⭐⭐⭐⭐ RQ 驱动、方法推导清晰，对 HRM 收益受限和机理不明都很诚实。
价值: ⭐⭐⭐⭐ 即插即用、模型无关、可并行，对循环推理模型的测试时扩展有实用迁移价值。