C-Voting: Confidence-Based Test-Time Voting without Explicit Energy Functions¶
会议: ICLR2026
OpenReview: kYQFfEKtx5
代码: 待确认
领域: LLM推理 / 测试时扩展
关键词: 测试时扩展, 循环模型, 投票策略, 置信度校准, 数独求解
一句话总结¶
针对"反复套用同一层"的循环推理模型,本文提出一种不需要显式能量函数的测试时投票策略 C-voting——从多个随机初始隐状态出发跑出多条轨迹,挑出"平均 top-1 概率最高(即模型最自信)"的那条作为答案;它在 AKOrN 上比能量投票 E-voting 在 Sudoku-hard 高 4.9%,配合一个仅 300 万参数的轻量模型 ItrSA++ 还能在 Sudoku-extreme 上把 HRM 从 55.0% 抬到 95.2%。
研究背景与动机¶
领域现状:近年来一类"循环模型"(recurrent model)被视为通往推理能力的有希望路径——它把同一个网络层 \(f\) 反复作用在隐状态上 \(z_{t+1}=f(z_t, x;\theta)\),等价于一个时不变的非线性动力系统。这类模型(如 HRM、AKOrN)能在数独、迷宫这类需要在复杂约束下做一致逻辑推理的任务上做得很好,而这些任务连主流 LLM 都很吃力。它们最大的卖点是测试时扩展(test-time scaling):不再训练,只在推理阶段就能涨点。
现有痛点:测试时扩展有两条路。第一条是"加深递归步数"——多迭代几步,但它有两个硬伤:性能会饱和(步数加到一定程度就不再涨),而且迭代是串行的、无法并行,推理越久越慢。第二条是"采样多条轨迹再挑一条",也就是投票。AKOrN 给出的投票方案叫 E-voting(能量投票):从不同随机初值跑出多条轨迹,选最终能量最低的那条,靠 4096 个候选能让数独棋盘准确率涨约 40%。
核心矛盾:E-voting 效果很好,但它有个致命的适用性限制——必须有显式定义的能量函数 \(E\),使得动力学能写成 \(z_{t+1}=z_t-\alpha\nabla_z E(z_t;\theta)\) 的梯度下降形式。可现实中最有希望的推理模型(HRM、递归 Transformer 等)压根没有显式能量函数;尤其带残差连接的 \(z_{t+1}=z_t+g(z_t;\theta)\),一般情况下 \(g\) 根本写不成某个标量函数的梯度。于是 E-voting 在这些模型上用不了。
本文目标:拆成两个研究问题——(RQ1) 能否设计一个模型无关、不需要能量函数的测试时投票策略?(RQ2) 是否存在一个简单轻量的循环架构,配上这个投票就能追平甚至超过 SOTA?
切入角度:作者注意到,能量低之所以能当"好答案"的代理,本质是想找"模型最有把握"的那条轨迹。那为什么不直接量化模型的"把握"呢?分类任务里 readout 出来的 softmax 概率天然就是置信度信号——只要模型校准得还行,预测概率越高就越可能对。这个信号任何分类型循环模型都有,不依赖能量函数。
核心 idea:用"置信度"代替"能量"做投票判据——把每条候选轨迹终态的"平均 top-1 概率"当作置信度,选最自信的那条。一句话就是:sample & choose,take the most confident one。
方法详解¶
整体框架¶
C-voting 是一个纯推理阶段、即插即用的投票策略:拿一个已经训练好的循环模型,从一个概率分布(如标准高斯)里采 \(K\) 个不同的初始隐状态 \(\{z^{(k)}_{i,0}\}_{k\in[1,K]}\),每个初值独立地跑完 \(T\) 步递归得到终态 \(z^{(k)}_{i,T}\);对每条轨迹的终态做 readout + softmax 算出每个位置的预测概率,再算出整条轨迹的"置信度"分数;最后选置信度最高的那条轨迹作为最终预测。整个过程不改动模型权重、不需要能量函数、\(K\) 条轨迹彼此独立可完全并行。
为了验证"为 C-voting 量身定制的简化模型能否更强",作者还顺手搭了一个极简循环模型 ItrSA++(约 300 万参数),把它和 C-voting 配在一起当作端到端的演示。所以整篇方法其实是两块:投票判据(C-voting 本身)+ 配套的轻量主干(ItrSA++)。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["输入 x<br/>(数独/迷宫棋盘)"] --> B["随机初始化采样<br/>K 个初值 z⁰"]
B --> C["ItrSA++ 轻量循环主干<br/>跨注意力混合 + 自注意力×S + SwiGLU,重复 T 步"]
C --> D["置信度打分<br/>每条轨迹平均 top-1 概率 C⁽ᵏ⁾"]
D -->|选最自信 argmax_k| E["输出最终棋盘 ŷ*"]
关键设计¶
1. 置信度投票判据:用平均 top-1 概率代替能量
这是全文的核心。痛点很直接——E-voting 要能量函数,绝大多数循环模型没有。C-voting 改用一个任何分类型模型都现成的信号:模型自己的预测把握。对第 \(k\) 条候选轨迹,先从终态 readout 出 logits 并在类别维做 softmax,得到位置 \(l\) 上类别 \(j\) 的概率 \(P_{j,l}(z^{(k)}_{i,T})=\mathrm{Softmax}(\mathrm{Readout}(z^{(k)}_{i,T}))_{j,l}\);取每个位置的 top-1 概率 \(\hat{P}_l(z^{(k)}_{i,T})=\max_j P_{j,l}(z^{(k)}_{i,T})\);再对所有待预测位置(如数独里所有空格)求平均,定义这条轨迹的置信度
最后选 \(k^*_i=\arg\max_k C^{(k)}_i\) 这条最自信的轨迹,它在各位置的 argmax 类别就是最终答案。
为什么这样有效?作者给了一个校准视角的论证:如果模型校准良好,那么 \(\Pr[y_{i,l}=\hat{y}^{(k)}_{i,l}\mid \hat{P}_l]\simeq \hat{P}_l\)——即 top-1 概率近似等于该位置预测正确的概率。于是"挑平均置信度最高的候选"近似等价于"挑各位置平均准确率最高的候选":
相比能量这个间接代理,作者认为至少在数独任务上,置信度是比能量更直接的棋盘准确率代理——这也解释了为什么 C-voting 反而能赢过专门为 AKOrN 设计的 E-voting。值得强调的是:C-voting 实际依赖的是候选之间置信度的相对排序,而非绝对校准值(这一点在可视化里被验证)。
2. 随机初始化驱动的轨迹多样性:让投票有得可选
投票要有意义,前提是 \(K\) 条轨迹得真的不一样。C-voting 要求模型从随机采样的初值出发:把 \(z_{i,0}\) 从标准高斯里采,不同候选用不同初值。这一步看似平凡,却是整个策略的命门。作者引用了"路径无关性(path independence)"的发现——用随机初始化训练的循环模型会学到"不同初值最终收敛到同一稳态",这既帮助泛化,又让同一输入下采样出的多条轨迹能演化成有意义的不同预测,从而给投票提供真正有区分度的候选池。反过来,如果模型训练时用的是固定初值(如 HRM 全程共享同一个初始状态),强行在推理时注入随机性会破坏它的假设、导致候选轨迹要么雷同要么不稳定——这正是 C-voting 在 HRM 上收益受限的根因。
3. ItrSA++ 轻量循环主干:为 C-voting 量身定制的极简架构
AKOrN、HRM 里塞了 Kuramoto 振子、双层时序结构、一步梯度近似、ACT 等一堆技巧,其中不少和 C-voting 是冗余的。作者想验证"去掉这些花活、专为 C-voting 优化的简单模型能不能更强",于是设计了 ItrSA++。它的核心是反复套用一个由三部分组成的块、循环 \(T\) 次:(i) 跨注意力混合输入与随机初值——把随机采样的隐状态当 query、嵌入后的输入当 key/value 做 cross-attention(类似 Perceiver),\(\tilde{z}_{i,t}=\mathrm{Norm}(z_{i,t})+\mathrm{CrossAttn}(q=\mathrm{Norm}(z_{i,t}),k=v=x^{emb}_i)\);(ii) 重复 \(S\) 次自注意力层做 token 间推理 \(\bar{z}_{i,t,s+1}=\mathrm{Norm}(\bar{z}_{i,t,s})+\mathrm{SelfAttn}(\mathrm{Norm}(\bar{z}_{i,t,s}))\);(iii) 周期性插入 SwiGLU 做非线性变换。归一化统一用 RMSNorm,位置编码用 Geometry-Aware Attention。这些设计选择(cross-attention 优于线性层、周期性 SwiGLU、归一化位置)都是实验消融定下来的。整个模型只有约 300 万参数,约为 HRM 的九分之一,却因为"天生用随机初值训练"而和 C-voting 完美契合。
损失函数 / 训练策略¶
ItrSA++ 按标准分类(棋盘逐格预测)训练,初值从标准正态采样,循环步数 \(T\) 在数独上取 32、迷宫上取 64。C-voting 本身不引入任何训练改动——它纯粹是推理阶段的候选选择规则,可以套在任意"用随机初值训练"的已有模型上(实验中直接套到了 AKOrN 上,零修改)。
实验关键数据¶
主实验¶
任务为数独(Sudoku / Sudoku-hard / Sudoku-extreme)与迷宫(Maze-hard),指标是 board accuracy(整张棋盘所有格全对才算对的比例)。
| 任务 | 对比对象 | 之前 SOTA | 本文 (ItrSA++ + C-voting) | 提升 |
|---|---|---|---|---|
| Sudoku-hard | AKOrN | 89.5% | 94.4% | +4.9% |
| Sudoku-extreme | HRM | 55.0% | 95.2% | +40.2% |
| Maze-hard | HRM | 74.5% | 78.6% | +4.1% |
另一组关键对照是同一个 AKOrN 模型上换投票策略:在 Sudoku-hard、4096 个候选下,C-voting 得 \(94.4\pm0.1\%\),比 E-voting 报告的 \(89.5\pm2.5\%\) 高 4.9%——说明即便模型有能量函数,置信度也是比能量更好的判据。
消融实验¶
| 配置 | 关键现象 | 说明 |
|---|---|---|
| C-voting vs E-voting (AKOrN) | C-voting 全程领先且随候选数增加差距稳定 | 置信度是比能量更直接的准确率代理 |
| ItrSA++ 无投票 | 仍在三个任务全面超 AKOrN/HRM | 轻量主干本身已经够强 |
| C-voting 套到 HRM | 仅有 non-trivial 但有限的增益 | HRM 固定初值的设计与随机初始化假设冲突 |
| 温度缩放(ECE 分析) | ECE 在 T=2 最低,但平均准确率几乎不变 | C-voting 靠相对排序而非绝对校准 |
关键发现¶
- 置信度 > 能量:在有能量函数的 AKOrN 上,C-voting 仍稳赢 E-voting,说明"模型把握"比"能量"更贴近真实正确率。
- 随机初值是前提:C-voting 对 AKOrN、ItrSA++(都用随机初值训练)效果显著,对 HRM(固定初值训练)效果有限——投票策略的成败取决于候选轨迹是否真有意义地分化。
- 迷宫为何不如数独:通过置信度可视化发现,数独里错误预测的置信度分布更宽、且置信度随迭代步数上升时错样本明显偏低;而迷宫里即便预测错了置信度分布也很"紧"——模型对错误答案抱有"错误的自信",这让靠置信度排序的投票在迷宫上吃力。
- 校准不是关键:温度缩放能改变 ECE,但因为不改变每格 top-1 的相对顺序,平均准确率几乎不动——印证 C-voting 依赖的是候选间相对置信度排序。
亮点与洞察¶
- 把"能量低"换成"模型自信",一招解开了 E-voting 对显式能量函数的依赖——这个判据任何分类型循环模型现成就有,是真正的模型无关、即插即用。最"啊哈"的是它不仅更通用,还在 AKOrN 上把更专用的 E-voting 给打赢了。
- 校准视角的等价性论证很漂亮:在模型校准良好的假设下,"选最自信候选"约等于"选平均准确率最高候选",给了启发式判据一个理论支点;而后续可视化又诚实地指出实际靠的是相对排序、不是绝对校准。
- 可迁移性强:只要一个推理模型是"用随机初值训练 + 分类型 readout",就能零成本套上 C-voting 拿并行化的测试时扩展——比串行加深递归步数既快又能突破饱和点。
- 置信度可视化当诊断工具:用"错误样本的置信度分布是宽是紧"来解释投票在不同任务上的成败,这套分析方法本身可以复用到其他测试时投票场景。
局限与展望¶
- 依赖良好校准与随机初值训练:C-voting 的有效性建立在模型校准还行、且候选轨迹能有意义分化之上。对固定初值训练的模型(如原版 HRM),强行注入随机性会破坏其更新稳定性,收益十分有限——这是作者明确承认的边界。
- "错误的自信"会失灵:在迷宫任务上模型对错误预测也很自信,导致置信度排序失去区分力、扩展曲线疲软。说明 C-voting 在"模型系统性高估错误答案"的任务上会退化,何时会发生缺乏先验判断。
- 机理尚不清晰:作者坦言"为何置信度比能量更好"目前没有理论解释,只是经验观察。
- 仅验证于逻辑谜题分类任务:实验集中在数独/迷宫这类逐格分类、可定义"平均 top-1 概率"的任务,对生成式、序列决策或没有清晰位置集合 \(L\) 的推理任务能否迁移仍是开放问题。
- 计算开销线性增长:C-voting 的代价随候选数 \(K\) 线性上升,虽然可并行,但相比 ACT 这类次线性的递归扩展,在算力受限时的性价比需要权衡。
相关工作与启发¶
- vs E-voting (AKOrN):E-voting 选能量最低的轨迹,必须有显式能量函数;C-voting 选置信度最高的轨迹,只要分类型 readout 即可。两者都靠随机初值采多条轨迹,区别在判据——C-voting 更通用,且实测在 Sudoku-hard 上反超 E-voting 4.9%。
- vs HRM:HRM 靠加深递归(双层时序 + ACT)做测试时扩展,固定初值;本文指出"加深步数"会饱和且串行慢,改用并行的投票扩展,并用仅 1/9 参数的 ItrSA++ 在 Sudoku-extreme 上把 HRM 从 55.0% 抬到 95.2%。
- vs LLM 的 self-consistency:思想同源——都是"采样多条 + 选一条"。但 self-consistency 靠多数表决答案文本,C-voting 靠单条轨迹的内部置信度,且作用在循环模型的隐状态轨迹层面,而非离散采样序列上。
评分¶
- 新颖性: ⭐⭐⭐⭐ 用置信度替能量、解开 E-voting 的适用性枷锁,简单但切中要害且反超原方法。
- 实验充分度: ⭐⭐⭐⭐ 三任务 + 跨模型(AKOrN/HRM/ItrSA++)+ 校准可视化诊断,覆盖较全;但任务局限于逻辑谜题。
- 写作质量: ⭐⭐⭐⭐ RQ 驱动、方法推导清晰,对 HRM 收益受限和机理不明都很诚实。
- 价值: ⭐⭐⭐⭐ 即插即用、模型无关、可并行,对循环推理模型的测试时扩展有实用迁移价值。