跳转至

The Limits of Inference Scaling Through Resampling

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=j8H84v6AZ1
代码: https://github.com/benediktstroebl/inference-scaling-limits
领域: LLM推理
关键词: 推理扩展, 重采样, 不完美验证器, 假阳性, 测试时计算

一句话总结

这篇论文从理论和实证两方面论证:当验证器不完美(单元测试覆盖不全、有非零假阳性率)时,靠"反复采样直到通过验证器"来扩展推理计算存在一个无法逾越的准确率上限——无论给弱模型多少计算预算,它都追不上一个足够强的模型的单次准确率,而且最优采样次数往往低到个位数。

研究背景与动机

领域现状:测试时扩展(inference scaling)被寄予厚望,被认为能让弱模型通过"砸计算"追上强模型。其中基于验证器的重采样(resampling)尤其受关注:不断生成候选解,直到某个解通过验证器(如单元测试)为止。它的吸引力来自一条经验性的"推理扩展律"——至少找到一个正确解的任务比例,会随采样数在多个数量级上可预测地上升(Brown et al. 2024 的 "Large Language Monkeys")。同样的机制也被用在训练侧:用拒绝采样(rejection sampling)对着验证器筛数据,来蒸馏/训练推理模型。

现有痛点:上面这套乐观叙事默认验证器是可靠的。但在代码、推理这类真实场景里,我们手上只有不完美验证器——单元测试覆盖不全,LM-as-judge 会判错。它们有一个致命属性:假阳性(false positive),即错误的解照样通过了验证器。一旦解被验证器接受,我们在推理时无法再靠"多采几次"把假阳性和真阳性区分开。

核心矛盾:重采样能修复的只有假阴性(正确解被验证器误拒)——多采几次总能再撞到一个真阳性。但它对假阳性束手无策:假阳性一旦被接受就是终点,重采样无法降低"返回一个假阳性"的概率。于是验证器的假阳性率,就成了重采样准确率的硬天花板,和计算预算无关。更糟的是,作者观察到弱模型的假阳性率系统性地更高——它们更擅长写出"恰好钻了测试空子"的脆弱解。

本文目标:把这个直觉量化成两个可检验的命题——(1) 弱模型即便在无限预算下,能达到的准确率上限是多少?能否追上强模型?(2) 当假阳性会带来真实代价(部署了带 bug 的代码)时,最优采样次数是多少?

核心 idea:把"重采样扩展推理"重新建模成一个带假阳性代价的决策问题——每多采一次,可能撞到真阳性(收益),也可能撞到假阳性(代价);当后者的期望代价压过前者的期望收益时,继续采样就是负效用。由此推出:上限存在、最优采样数有限且很低。

方法详解

整体框架

这是一篇机理分析 + 理论建模的论文,没有提出新模型,而是拆解"重采样扩展推理"在不完美验证器下到底会撞上什么墙。整体研究设计是一个清晰的对照实验:

把系统看成 生成器 + 验证器 两部分。生成器是各种强弱不一的语言模型(Cohere Command 系列、GPT-4o、Llama-3.1 系列、Code Llama 系列);验证器是编程基准里原始的单元测试(覆盖有限,会放过假阳性)。关键的实验巧思在于用两套测试:拿原始 HumanEval / MBPP 的有限单元测试当验证器(决定一个解是否被接受),再拿 HumanEval+ / MBPP+ 里更全面的隐藏测试当真值(判断被接受的解到底对不对)。两套测试之间的落差,就直接暴露了"通过验证器但其实错了"的假阳性。

在这个框架上,论文沿三条线推进:① 无限预算极限下,量化每个模型的"条件准确率上限",看弱模型能否追上强模型(第 3 节);② 引入假阳性的代价,画出带成本的推理扩展曲线,找最优采样数 \(K\)(第 4 节);③ 用一个易/难双任务的贝叶斯模型,把上述实证现象推广成 domain-agnostic 的理论结论(附录 C)。下面三个关键设计就对应这三条线。

关键设计

1. 条件准确率上限:弱模型采样到天荒地老也追不上强模型

针对"砸计算就能让弱模型追上强模型"这一核心信仰,论文给出一个干净的反例条件。设 \(P_{\text{strong}}(\text{Correct})\) 是强模型的单次准确率,\(P_{\text{weak}}(\text{Correct} \mid \text{Pass Verifier})\) 是弱模型在其解通过了验证器的前提下仍然真正正确的概率。只要

\[P_{\text{strong}}(\text{Correct}) > P_{\text{weak}}(\text{Correct} \mid \text{Pass Verifier})\]

那么无论弱模型的计算预算多大,它都无法匹配强模型一次调用的准确率。原因很直白:重采样能做的,最多是让弱模型"找到一个通过验证器的解"这件事几乎必然发生(无限预算下采样命中率趋近 1),但它返回的解里混着假阳性的比例(即 \(1 - P_{\text{weak}}(\text{Correct}\mid\text{Pass})\))是采样数无法改变的常数——重采样不会降低假阳性的条件概率。于是弱模型的"无限预算准确率"就被钉死在 \(P_{\text{weak}}(\text{Correct}\mid\text{Pass})\) 这个值上。在论文的图里,这表现为一条水平截止线:所有落在线下方的模型,靠重采样都越不过 GPT-4o 的单次准确率。实证上,这个"假阳性率随真实能力线性下降"的关系,在 Command、GPT-4o、Llama-3.1 三个差异极大的模型家族里都高度一致地成立。

2. 给假阳性定价:最优采样数有限且极低,甚至为零

前一个设计说的是"无限预算下的天花板",但实际部署里更现实的问题是:每多采一次都有风险。代码通过了单元测试却藏着 subtle bug,一旦部署可能造成损失,这个代价和"省下人力"的收益不在一个量纲上,而且因场景而异(安全敏感场景里 bug 可能等于可利用漏洞)。论文因此引入一个成本-收益比(cost-benefit ratio, C/B-Ratio)来给假阳性定价:真阳性收益记为 \(V_{TP}=+1\),假阳性代价记为 \(V_{FP}\)(取 \(0, 1, 2, 4, 8\) 等多档),在 \(K\) 次采样内若找到通过验证器的解就按其真伪结算奖励,否则奖励为 0。

对每个模型在 HumanEval 上生成 200 个样本,把采样顺序随机打乱重复 1000 次,求每个 \(K\) 的平均奖励,画出带成本的推理扩展曲线。结论很反直觉:即便计算成本为零,最优采样数 \(K_{\text{opt}}\) 也是有限且很低的——在 C/B-Ratio = 4 时,四个模型的最优 \(K \le 5\)。当比值高到一定程度,最优 \(K\) 直接变成 0:假阳性的期望代价压过正确解的期望收益,奖励恒为负,最理性的选择是干脆别尝试。这把"扩展推理"从一条无限上升的曲线,掰成了一条很快见顶、随后向下弯折的曲线,根本撑不到弥合弱模型与强模型的差距。

3. 双峰难度 + 贝叶斯信念更新:解释假阳性率为何随 K 攀升

设计 2 留了一个待解释的反常现象:采样是无记忆过程,为什么假阳性率还会\(K\) 上升(图 5)?论文用一个易/难双任务的理论模型给出机理,并把结论推广到编程之外的任意领域。模型设两类任务——易任务 \(T_1\)(先验 \(p_1\),正确率 \(r_1\))和难任务 \(T_2\)(先验 \(p_2\),正确率 \(r_2\)\(r_1 > r_2\));验证器有完备性 \(c\)(接受正确解的概率)和可靠性 \(s\)(拒绝错误解的概率)。一个样本被拒绝的概率为

\[\beta_i = (1-c)\,r_i + s\,(1-r_i), \quad i \in \{1, 2\}\]

关键在于贝叶斯信念更新:每被拒绝一次,"这题其实是难题 \(T_2\)"的后验信念就上升一截。经过 \(k-1\) 次拒绝后,任务属于类型 \(T_i\) 的后验为

\[p^{(k)}_{T_i} = \frac{\beta_i^{\,k-1}\, p_i}{\beta_1^{\,k-1} p_1 + \beta_2^{\,k-1} p_2}\]

直觉上,易任务往往前几次就被解掉、退出了采样池,剩下没解出来的越来越是难任务——而难任务恰恰更容易产出假阳性。把后验信念加权进真阳性/假阳性概率(\(P^{(k)}_{TP}, P^{(k)}_{FP}\)),就能算出第 \(k\) 次采样的期望价值

\[EV_k = \left[V_{TP}\, P^{(k)}_{TP} + V_{FP}\, P^{(k)}_{FP}\right] \cdot \left[\beta_1^{\,k-1} p^{(k)}_{T_1} + \beta_2^{\,k-1} p^{(k)}_{T_2}\right]\]

总奖励为 \(\text{Reward} = \sum_{k=1}^{K} EV_k\),最优采样数 \(K_{\text{opt}}\) 即令其最大的 \(K\)。这个模型用 Llama-3.1-8B 在 HumanEval+ 上的实测参数(\(r_1=0.87, r_2=0.13, c=1, s=0.75, p_1=0.58\))复现了实证曲线,并因为不依赖"代码"这个具体载体,把"假阳性率随 \(K\) 上升 → 最优 \(K\) 有限"的结论推广成了domain-agnostic 的定律:任何带非零假阳性率的重采样都会撞上同一个天花板。

实验关键数据

主实验:无限预算下的泛化落差(第 3 节)

在 HumanEval+ / MBPP+ 上,每个模型每题至少采 200 个样本(Command Light 采 1000 个以减少零通过的题),用原始单元测试当验证器、扩展隐藏测试当真值。

观察维度 弱模型 强模型(如 GPT-4o) 结论
单次准确率(x 轴)
无限预算可达准确率(y 轴,受限单元测试当验证器) 上限明显更低 上限更高 弱模型假阳性率更高
假阳性率 vs 真实能力 近似线性反相关,跨 Command/GPT-4o/Llama-3.1 三家族一致
能否靠重采样追上 GPT-4o 截止线下方的模型都不能 上限与计算预算无关

这个落差主要由一小撮单元测试很差的题驱动:只在这些题上分析时,能力与假阳性率的反相关关系更陡峭。

分析实验:带成本的最优采样数(第 4 节)

成本-收益比 (C/B) 最优采样数 \(K_{\text{opt}}\) 说明
0(前人默认设定) 有限且低 即便零成本,曲线也很快见顶
4 \(K \le 5\)(四个模型全部) 假阳性负效用压过收益
足够高(如 FP 代价 ≈ TP 收益的 10 倍) \(K = 0\)(几乎所有模型) 最优策略是不采样,模型实际上"无用"

关键发现

  • 假阳性率随 \(K\) 上升虽看似违反无记忆性,但根因是任务难度强双峰分布:易题早早解完退出,剩下的难题更易产假阳性;这与 Chen et al. (2024a) 观察到的"任务异质性导致倒 U 形准确率曲线"一致。
  • 模型间差异未解释:Llama-3.1-70B 的假阳性率随 \(K\) 急剧上升,而 Code Llama / Command 家族上升缓慢得多,导致后者的最优 \(K\) 高不少(尤其在低 C/B 比下)——作者坦承找不到直观原因。
  • 假阳性的代码质量也更差(第 5 节):在命名规范(snake_case / camelCase)、行长、逐行注释四项可读性指标上,"只过原始测试、不过扩展测试"的假阳性解全面劣于真正正确的解,且跨模型一致。说明不完美验证器的危害不止于功能正确性,还波及可维护性等软件工程属性,而弱模型受害更深。

亮点与洞察

  • "双测试"实验设计是全文的支点:用同一批解、原始测试当验证器、扩展测试当真值,一刀切开了"通过验证器"和"真正正确"两件事——这个落差正是假阳性,可直接测量、无需人工标注,非常可复用。
  • 把扩展推理重述为带代价的决策问题:前人画推理扩展曲线时默认假阳性零成本(C/B=0),本文只是把这个被忽略的代价加回来,结论就从"无限上升"反转成"很快向下弯折"——一个被遗漏的建模假设,颠覆了整套乐观叙事。
  • 贝叶斯信念更新解释了一个反直觉现象:采样无记忆,但"剩下的题越来越难"这件事是有记忆的——每次拒绝都在更新"这是难题"的后验。这个视角可迁移到任何"边采样边筛选"的场景(agent 规划、数学证明搜索)。
  • 对训练侧的警示:很多 SOTA 推理模型(DeepSeek-R1、Bespoke-Stratos 等)靠拒绝采样对着验证器筛数据。验证器不完美 → 数据集混入误标样本 → 隐含假阳性代价;没有更强的基座或更准的验证器,靠重采样筛数据训推理模型的收益也会触顶。

局限与展望

  • 只测了编程任务:代码是不完美验证器问题的清晰样本,但推理、web agent、agent-用户交互等领域行为可能不同,理论虽 domain-agnostic 但缺其他域的实证。
  • 验证器是人写的单元测试:实际部署更可能用 LM 生成的单元测试,会引入验证器之间的不一致和假阴性风险,可能进一步放大泛化落差——作者把这留作下一步。
  • C/B 比无法实测:最优 \(K\) 依赖成本-收益比,论文证明了"在一系列比值下 \(K\) 都有限且低",但没给出任何真实部署场景具体对应哪个比值。
  • 未探索缓解策略:如对通过验证器后的解再做 refine、用增加采样多样性的策略、在代码质量指标上微调来同时提升鲁棒性——这些都被列为开放问题。
  • 未考察基准污染 / prompt 敏感性:模型可能被过度优化以通过标准测试,prompt 工程也会影响假阳性的生成。

相关工作与启发

  • vs Brown et al. 2024(Large Language Monkeys): 他们展示重采样下"至少一个正确解"的比例随样本数可预测扩展,催生了乐观叙事;本文指出那条曲线默认Oracle 验证器,一旦换成不完美验证器,"找到一个通过验证器的解"≠"找到正确解",扩展律失效。
  • vs Chen et al. 2024a(Compound Inference Systems 的扩展律): 他们观察到任务异质性导致倒 U 形准确率;本文借用并把它接到"假阳性率随 \(K\) 上升"的机理上,进一步削弱了"重采样是有效扩展策略"的论断。
  • vs Gao et al. 2022(reward model over-optimization): 同样研究"对着不完美奖励过度优化"的风险,但他们关注训练时的 reward 错配;本文聚焦推理时重采样,天花板直接来自假阳性而非奖励错配。
  • 对验证器研究的呼吁: 论文主张把"验证技术"当成有独立指标和基准的子领域来做——尤其在训练侧,对着弱验证器学习的模型可能学会钻验证器空子而非真正解题,带来安全隐患。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 把"假阳性代价"加回扩展推理建模,得出与主流乐观叙事相反、且有理论支撑的天花板结论
  • 实验充分度: ⭐⭐⭐⭐ 跨四大模型家族、两个基准、多档成本比,但局限于编程任务、验证器为人写测试
  • 写作质量: ⭐⭐⭐⭐⭐ 论证链条干净,实证与理论互相印证,核心命题用一行不等式就讲清
  • 价值: ⭐⭐⭐⭐⭐ 同时警示推理扩展与拒绝采样训练两条主流路线的隐藏上限,呼吁重视验证器质量