Parallel Test-Time Scaling for Latent Reasoning Models¶

会议: ACL 2026 Main Conference
arXiv: 2510.07745
代码: 无
领域: LLM推理
关键词: 测试时缩放, 潜在推理, 随机采样, 奖励模型, 并行推理

一句话总结¶

本文首次将并行测试时缩放（parallel TTS）引入潜在推理模型，提出两种基于不确定性理论的随机采样策略（MC-Dropout 和加性高斯噪声）以及一个步级对比训练的潜在奖励模型（LatentRM），使得在连续向量空间中进行推理的模型也能通过并行采样+聚合获得稳定的性能提升。

研究背景与动机¶

领域现状：测试时缩放（TTS）是提升 LLM 推理能力的关键方法。并行 TTS 通过生成多条推理路径并聚合结果（如多数投票、best-of-N、beam search），将额外推理计算直接转化为更强能力。目前这些方法全都依赖于 token 级别的采样机制（如 top-k、nucleus sampling）。

现有痛点：最近兴起的潜在推理范式（如 COCONUT、CODI、CoLaR）将推理过程从 token 空间转移到连续向量空间，更紧凑高效，但它们无法直接使用并行 TTS。原因有二：(1) 连续向量空间没有显式的概率分布，缺乏采样机制；(2) 没有 token 级别的概率信号用于评估和聚合推理轨迹。

核心矛盾：潜在推理在推理效率上有天然优势，但缺少并行缩放能力使其在推理质量上受限。如何在连续空间中引入可控的随机性，并设计有效的轨迹评估机制，是解锁潜在推理模型并行 TTS 的两大障碍。

本文目标：为潜在推理模型设计采样和聚合两个核心组件，使其能够像 token-based 模型一样通过并行 TTS 获益。

切入角度：作者从不确定性估计理论出发，将采样问题分解为两种不确定性来源——认知不确定性（epistemic）和随机不确定性（aleatoric），分别设计对应的采样策略。对于聚合问题，训练一个专门的评分模型来替代 token 概率信号。

核心 idea：用 MC-Dropout（认知不确定性）和加性高斯噪声（随机不确定性）在潜在空间中生成多样化推理轨迹，用步级对比训练的 LatentRM 评估和引导轨迹聚合，实现潜在推理的并行测试时缩放。

方法详解¶

整体框架¶

潜在推理模型拿到问题 \(\bm{x}\) 后，在连续向量空间里自回归地生成 \(T\) 步潜在向量 \(\bm{h}_{1:T}\)，最后经一个 end-of-thinking token 切回显式 token 生成、吐出答案。并行 TTS 想做的，是生成很多条不同的推理轨迹再聚合——但潜在空间既没有显式概率分布可采样，也没有 token 概率信号可评分，两件事都卡住了。本文于是补两个组件：用「在潜在空间注入随机性」解决采样，用「专门训练的潜在奖励模型」解决评分与聚合。具体就是先采出 \(N\) 条轨迹 \(\{\bm{h}^{(n)}\}_{n=1}^N\)，再用 LatentRM 打分或多数投票合成最终答案。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["问题 x"] --> B["潜在推理骨干<br/>自回归生成 T 步潜在向量"]
    B --> C["Monte Carlo Dropout 采样<br/>推理时保留 dropout，权重后验扰动（认知不确定性）"]
    B --> D["加性高斯噪声 AGN 采样<br/>潜在向量加各向同性噪声 σ（随机不确定性）"]
    C --> E["N 条潜在轨迹"]
    D --> E
    E --> F["潜在奖励模型 LatentRM<br/>逐步打分并累加 Σ r_t"]
    F -->|best-of-N / beam search| G["按分数聚合"]
    E -->|多数投票| G
    G --> H["解码输出答案"]

关键设计¶

1. Monte Carlo Dropout 采样：用权重后验的随机性产生认知不确定性

连续空间没有 top-k / nucleus 那样现成的采样口子，第一种补法是把 dropout 在推理时也保持打开。每次前向都用一套不同的 dropout 掩码 \(m^{(n)} \sim \text{Bernoulli}(p)\)（加在每个 Transformer block 的前馈层之后），等价于从模型权重后验的变分近似里采出一组不同权重 \(\bm{\theta}^{(n)}\)，于是每次跑出来的轨迹都不一样。它捕捉的是认知不确定性——模型因训练数据有限而「拿不准」的那部分；好处是噪声强度会自适应，在模型本就不确定的区域探索得更开。

2. 加性高斯噪声（AGN）采样：在潜在向量上直接加可控扰动产生随机不确定性

第二种补法更直接：在每个推理步 \(t\) 采一份各向同性高斯噪声 \(\bm{\epsilon}_t^{(n)} \sim \mathcal{N}(0, \sigma^2 \mathbf{I})\) 加到潜在向量上，\(\bm{h}_t^{(n)*} = \bm{h}_t^{(n)} + \bm{\epsilon}_t^{(n)}\)，模型再基于扰动后的轨迹继续往下推。噪声强度只由 \(\sigma\) 一个量控制，和模型参数无关。它对应的是随机不确定性——输入本身固有的噪声和歧义；几何上它产生各向同性的「烟花」式径向散布，在需要高多样性的设置下比 MC-Dropout 更鲁棒、coverage 衰减更慢。

3. 潜在奖励模型（LatentRM）：给连续轨迹打分，替掉缺失的 token 概率信号

有了多条轨迹还得能比较好坏，但传统 PRM 依赖 token 形式的推理步骤，对连续向量无能为力。LatentRM 在潜在推理骨干上加一个评分头，把隐藏状态映射成标量 \(r_t = g_{\bm{\phi}}(\bm{x}, \bm{h}_{1:t})\)，推理时用累积和 \(\sum_t r_t\) 作为整条轨迹的质量代理。它的训练标签靠随机 rollout 拿到：对每个中间 thought 做 \(M\) 次随机补全，把答对率当作该 thought 的质量。关键在训练目标——不是对每个候选独立做二分类，而是在每一步 \(t\) 对所有 \(N\) 个候选的分数做 softmax 比较的步级对比损失，这种「相对排序」信号比 BCE 强得多，消融里换回 BCE 就明显掉点。

一个完整示例：一道 GSM 题怎么走完并行 TTS¶

以 COCONUT 在 GSM-Test 上设 \(N=32\) 为例。模型先对同一道题用 MC-Dropout（或 AGN）跑 32 次，每次因掩码 / 噪声不同而走出一条不一样的潜在轨迹；接着 LatentRM 沿每条轨迹逐步打分、累加成 \(\sum_t r_t\)；best-of-N 直接挑累积分最高的那条解码出答案，beam search 则在中途按分数保留 top-beam、剪掉差的轨迹，多数投票则是对 32 条解码出的答案投票。在这道题的设置下，best-of-N + LatentRM 把准确率从多数投票的 33.6% 抬到 35.4%，更难的 GSM-Hard 上从 6.1% 抬到 7.8%，说明「会打分」确实比「只数票」聚合得更准。

损失函数 / 训练策略¶

LatentRM 的训练用步级对比损失 \(\mathcal{L} = -\sum_t \sum_{n=1}^N y_t^{(n)} \log p_t^{(n)}\)，其中 \(p_t^{(n)} = \frac{\exp(r_t^{(n)})}{\sum_{n'} \exp(r_t^{(n')})}\)。监督标签来自随机 rollout 估计的经验正确率 \(\tilde{y} = \frac{1}{M} \sum_m \mathbb{I}\{a_m = a^*\}\)。

实验关键数据¶

主实验¶

模型	数据集	确定性基线	Coverage@8	Coverage@16
Latent-SFT (1B)	GSM8K	44.5%	58.5%	64.9%
Latent-SFT (1B)	MultiArith	93.4%	96.2%	96.7%
RoT-4B	GSM8K	37.5%	39.4%	39.7%
RoT-4B	MATH500	20.3%	21.8%	22.0%

聚合方法对比（COCONUT, GSM-Test, N=32）：

聚合策略	GSM-Test	GSM-Hard
Majority Voting	33.6%	6.1%
Best-of-N + LatentRM	35.4%	7.8%
Beam Search + LatentRM	~35%	~7%

消融实验¶

配置	GSM-Test	GSM-Hard	说明
Full LatentRM (Best-of-8)	35.4%	7.8%	完整模型
w/o contrastive (用BCE)	33.5%	7.4%	对比损失去掉后明显下降
w/o stochastic rollouts	30.7%	6.0%	随机 rollout 标注很关键
Random scalar head	28.9%	5.8%	低于多数投票

关键发现¶

MC-Dropout 在大多数设置下 coverage 更高，尤其擅长困难问题（其方向性漂移更容易到达远离确定性解的正确区域）
AGN 在高多样性设置下更鲁棒，coverage 衰减更缓慢，适合需要高探索性的场景
通过 t-SNE 可视化发现：MC-Dropout 产生方向性密集扩展（"定向漂移"），AGN 产生各向同性径向散布（"烟花"模式）
LatentRM 的步级对比损失贡献最大，去掉后性能显著下降
随着采样数量增加，不同模型之间的性能差距缩小

亮点与洞察¶

不确定性理论驱动的采样设计非常优雅：将采样问题分解为认知不确定性和随机不确定性两类，分别用 MC-Dropout 和 AGN 解决，且两者展现出互补的几何探索模式。这种分析框架可迁移到其他连续空间的搜索问题
LatentRM 的设计思路：用随机 rollout 获得 thought 级标签 + 步级对比训练，解决了"连续向量无法评分"的核心难题，可推广到其他非 token 形式的中间表示评估
覆盖率 vs 多样性的"甜蜜点"分析很有启发：过高或过低的多样性都不好，存在最优点

局限与展望¶

实验主要在小模型（GPT-2 124M、Llama-3.2-1B）上进行，潜在推理本身在困难数学题（AIME）和博士级别基准（GPQA）上绝对性能仍然有限
MC-Dropout 和 AGN 都需要超参数调优（dropout rate 和噪声标准差），虽然文中提供了启发式范围
LatentRM 需要额外训练，增加了部署复杂度
未探索将采样和聚合整合到强化学习框架中，通过迭代反馈优化潜在轨迹
潜在推理范式本身仍在发展中，与 token-based CoT 相比在复杂任务上还有差距

评分¶

新颖性: ⭐⭐⭐⭐ 首次将并行 TTS 引入潜在推理是清晰且有价值的贡献，但采样方法本身（dropout/noise）并不新颖
实验充分度: ⭐⭐⭐⭐ 覆盖多个模型/基准/采样策略，有丰富的可视化分析和消融
写作质量: ⭐⭐⭐⭐⭐ 动机清晰，结构合理，理论推导和实验分析都很到位
价值: ⭐⭐⭐⭐ 为潜在推理范式补上了重要的缩放能力，有实际指导意义