The Limits of Inference Scaling Through Resampling¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=j8H84v6AZ1
代码: https://github.com/benediktstroebl/inference-scaling-limits
领域: LLM推理
关键词: 推理扩展, 重采样, 不完美验证器, 假阳性, 测试时计算

一句话总结¶

这篇论文从理论和实证两方面论证：当验证器不完美（单元测试覆盖不全、有非零假阳性率）时，靠"反复采样直到通过验证器"来扩展推理计算存在一个无法逾越的准确率上限——无论给弱模型多少计算预算，它都追不上一个足够强的模型的单次准确率，而且最优采样次数往往低到个位数。

研究背景与动机¶

领域现状：测试时扩展（inference scaling）被寄予厚望，被认为能让弱模型通过"砸计算"追上强模型。其中基于验证器的重采样（resampling）尤其受关注：不断生成候选解，直到某个解通过验证器（如单元测试）为止。它的吸引力来自一条经验性的"推理扩展律"——至少找到一个正确解的任务比例，会随采样数在多个数量级上可预测地上升（Brown et al. 2024 的 "Large Language Monkeys"）。同样的机制也被用在训练侧：用拒绝采样（rejection sampling）对着验证器筛数据，来蒸馏/训练推理模型。

现有痛点：上面这套乐观叙事默认验证器是可靠的。但在代码、推理这类真实场景里，我们手上只有不完美验证器——单元测试覆盖不全，LM-as-judge 会判错。它们有一个致命属性：假阳性（false positive），即错误的解照样通过了验证器。一旦解被验证器接受，我们在推理时无法再靠"多采几次"把假阳性和真阳性区分开。

核心矛盾：重采样能修复的只有假阴性（正确解被验证器误拒）——多采几次总能再撞到一个真阳性。但它对假阳性束手无策：假阳性一旦被接受就是终点，重采样无法降低"返回一个假阳性"的概率。于是验证器的假阳性率，就成了重采样准确率的硬天花板，和计算预算无关。更糟的是，作者观察到弱模型的假阳性率系统性地更高——它们更擅长写出"恰好钻了测试空子"的脆弱解。

本文目标：把这个直觉量化成两个可检验的命题——(1) 弱模型即便在无限预算下，能达到的准确率上限是多少？能否追上强模型？(2) 当假阳性会带来真实代价（部署了带 bug 的代码）时，最优采样次数是多少？

核心 idea：把"重采样扩展推理"重新建模成一个带假阳性代价的决策问题——每多采一次，可能撞到真阳性（收益），也可能撞到假阳性（代价）；当后者的期望代价压过前者的期望收益时，继续采样就是负效用。由此推出：上限存在、最优采样数有限且很低。

方法详解¶

整体框架¶

这是一篇机理分析 + 理论建模的论文，没有提出新模型，而是拆解"重采样扩展推理"在不完美验证器下到底会撞上什么墙。整体研究设计是一个清晰的对照实验：

把系统看成 生成器 + 验证器 两部分。生成器是各种强弱不一的语言模型（Cohere Command 系列、GPT-4o、Llama-3.1 系列、Code Llama 系列）；验证器是编程基准里原始的单元测试（覆盖有限，会放过假阳性）。关键的实验巧思在于用两套测试：拿原始 HumanEval / MBPP 的有限单元测试当验证器（决定一个解是否被接受），再拿 HumanEval+ / MBPP+ 里更全面的隐藏测试当真值（判断被接受的解到底对不对）。两套测试之间的落差，就直接暴露了"通过验证器但其实错了"的假阳性。

在这个框架上，论文沿三条线推进：① 无限预算极限下，量化每个模型的"条件准确率上限"，看弱模型能否追上强模型（第 3 节）；② 引入假阳性的代价，画出带成本的推理扩展曲线，找最优采样数 \(K\)（第 4 节）；③ 用一个易/难双任务的贝叶斯模型，把上述实证现象推广成 domain-agnostic 的理论结论（附录 C）。下面三个关键设计就对应这三条线。

关键设计¶

1. 条件准确率上限：弱模型采样到天荒地老也追不上强模型

针对"砸计算就能让弱模型追上强模型"这一核心信仰，论文给出一个干净的反例条件。设 \(P_{\text{strong}}(\text{Correct})\) 是强模型的单次准确率，\(P_{\text{weak}}(\text{Correct} \mid \text{Pass Verifier})\) 是弱模型在其解通过了验证器的前提下仍然真正正确的概率。只要

\[P_{\text{strong}}(\text{Correct}) > P_{\text{weak}}(\text{Correct} \mid \text{Pass Verifier})\]

那么无论弱模型的计算预算多大，它都无法匹配强模型一次调用的准确率。原因很直白：重采样能做的，最多是让弱模型"找到一个通过验证器的解"这件事几乎必然发生（无限预算下采样命中率趋近 1），但它返回的解里混着假阳性的比例（即 \(1 - P_{\text{weak}}(\text{Correct}\mid\text{Pass})\)）是采样数无法改变的常数——重采样不会降低假阳性的条件概率。于是弱模型的"无限预算准确率"就被钉死在 \(P_{\text{weak}}(\text{Correct}\mid\text{Pass})\) 这个值上。在论文的图里，这表现为一条水平截止线：所有落在线下方的模型，靠重采样都越不过 GPT-4o 的单次准确率。实证上，这个"假阳性率随真实能力线性下降"的关系，在 Command、GPT-4o、Llama-3.1 三个差异极大的模型家族里都高度一致地成立。

2. 给假阳性定价：最优采样数有限且极低，甚至为零

前一个设计说的是"无限预算下的天花板"，但实际部署里更现实的问题是：每多采一次都有风险。代码通过了单元测试却藏着 subtle bug，一旦部署可能造成损失，这个代价和"省下人力"的收益不在一个量纲上，而且因场景而异（安全敏感场景里 bug 可能等于可利用漏洞）。论文因此引入一个成本-收益比（cost-benefit ratio, C/B-Ratio）来给假阳性定价：真阳性收益记为 \(V_{TP}=+1\)，假阳性代价记为 \(V_{FP}\)（取 \(0, 1, 2, 4, 8\) 等多档），在 \(K\) 次采样内若找到通过验证器的解就按其真伪结算奖励，否则奖励为 0。

对每个模型在 HumanEval 上生成 200 个样本，把采样顺序随机打乱重复 1000 次，求每个 \(K\) 的平均奖励，画出带成本的推理扩展曲线。结论很反直觉：即便计算成本为零，最优采样数 \(K_{\text{opt}}\) 也是有限且很低的——在 C/B-Ratio = 4 时，四个模型的最优 \(K \le 5\)。当比值高到一定程度，最优 \(K\) 直接变成 0：假阳性的期望代价压过正确解的期望收益，奖励恒为负，最理性的选择是干脆别尝试。这把"扩展推理"从一条无限上升的曲线，掰成了一条很快见顶、随后向下弯折的曲线，根本撑不到弥合弱模型与强模型的差距。

3. 双峰难度 + 贝叶斯信念更新：解释假阳性率为何随 K 攀升

设计 2 留了一个待解释的反常现象：采样是无记忆过程，为什么假阳性率还会随 \(K\) 上升（图 5）？论文用一个易/难双任务的理论模型给出机理，并把结论推广到编程之外的任意领域。模型设两类任务——易任务 \(T_1\)（先验 \(p_1\)，正确率 \(r_1\)）和难任务 \(T_2\)（先验 \(p_2\)，正确率 \(r_2\)，\(r_1 > r_2\)）；验证器有完备性 \(c\)（接受正确解的概率）和可靠性 \(s\)（拒绝错误解的概率）。一个样本被拒绝的概率为

\[\beta_i = (1-c)\,r_i + s\,(1-r_i), \quad i \in \{1, 2\}\]

关键在于贝叶斯信念更新：每被拒绝一次，"这题其实是难题 \(T_2\)"的后验信念就上升一截。经过 \(k-1\) 次拒绝后，任务属于类型 \(T_i\) 的后验为

\[p^{(k)}_{T_i} = \frac{\beta_i^{\,k-1}\, p_i}{\beta_1^{\,k-1} p_1 + \beta_2^{\,k-1} p_2}\]

直觉上，易任务往往前几次就被解掉、退出了采样池，剩下没解出来的越来越是难任务——而难任务恰恰更容易产出假阳性。把后验信念加权进真阳性/假阳性概率（\(P^{(k)}_{TP}, P^{(k)}_{FP}\)），就能算出第 \(k\) 次采样的期望价值

\[EV_k = \left[V_{TP}\, P^{(k)}_{TP} + V_{FP}\, P^{(k)}_{FP}\right] \cdot \left[\beta_1^{\,k-1} p^{(k)}_{T_1} + \beta_2^{\,k-1} p^{(k)}_{T_2}\right]\]

总奖励为 \(\text{Reward} = \sum_{k=1}^{K} EV_k\)，最优采样数 \(K_{\text{opt}}\) 即令其最大的 \(K\)。这个模型用 Llama-3.1-8B 在 HumanEval+ 上的实测参数（\(r_1=0.87, r_2=0.13, c=1, s=0.75, p_1=0.58\)）复现了实证曲线，并因为不依赖"代码"这个具体载体，把"假阳性率随 \(K\) 上升 → 最优 \(K\) 有限"的结论推广成了domain-agnostic 的定律：任何带非零假阳性率的重采样都会撞上同一个天花板。

实验关键数据¶

主实验：无限预算下的泛化落差（第 3 节）¶

在 HumanEval+ / MBPP+ 上，每个模型每题至少采 200 个样本（Command Light 采 1000 个以减少零通过的题），用原始单元测试当验证器、扩展隐藏测试当真值。

观察维度	弱模型	强模型（如 GPT-4o）	结论
单次准确率（x 轴）	低	高	—
无限预算可达准确率（y 轴，受限单元测试当验证器）	上限明显更低	上限更高	弱模型假阳性率更高
假阳性率 vs 真实能力	高	低	近似线性反相关，跨 Command/GPT-4o/Llama-3.1 三家族一致
能否靠重采样追上 GPT-4o	截止线下方的模型都不能	—	上限与计算预算无关

这个落差主要由一小撮单元测试很差的题驱动：只在这些题上分析时，能力与假阳性率的反相关关系更陡峭。

分析实验：带成本的最优采样数（第 4 节）¶

成本-收益比 (C/B)	最优采样数 \(K_{\text{opt}}\)	说明
0（前人默认设定）	有限且低	即便零成本，曲线也很快见顶
4	\(K \le 5\)（四个模型全部）	假阳性负效用压过收益
足够高（如 FP 代价 ≈ TP 收益的 10 倍）	\(K = 0\)（几乎所有模型）	最优策略是不采样，模型实际上"无用"

关键发现¶

假阳性率随 \(K\) 上升虽看似违反无记忆性，但根因是任务难度强双峰分布：易题早早解完退出，剩下的难题更易产假阳性；这与 Chen et al. (2024a) 观察到的"任务异质性导致倒 U 形准确率曲线"一致。
模型间差异未解释：Llama-3.1-70B 的假阳性率随 \(K\) 急剧上升，而 Code Llama / Command 家族上升缓慢得多，导致后者的最优 \(K\) 高不少（尤其在低 C/B 比下）——作者坦承找不到直观原因。
假阳性的代码质量也更差（第 5 节）：在命名规范（snake_case / camelCase）、行长、逐行注释四项可读性指标上，"只过原始测试、不过扩展测试"的假阳性解全面劣于真正正确的解，且跨模型一致。说明不完美验证器的危害不止于功能正确性，还波及可维护性等软件工程属性，而弱模型受害更深。

亮点与洞察¶

"双测试"实验设计是全文的支点：用同一批解、原始测试当验证器、扩展测试当真值，一刀切开了"通过验证器"和"真正正确"两件事——这个落差正是假阳性，可直接测量、无需人工标注，非常可复用。
把扩展推理重述为带代价的决策问题：前人画推理扩展曲线时默认假阳性零成本（C/B=0），本文只是把这个被忽略的代价加回来，结论就从"无限上升"反转成"很快向下弯折"——一个被遗漏的建模假设，颠覆了整套乐观叙事。
贝叶斯信念更新解释了一个反直觉现象：采样无记忆，但"剩下的题越来越难"这件事是有记忆的——每次拒绝都在更新"这是难题"的后验。这个视角可迁移到任何"边采样边筛选"的场景（agent 规划、数学证明搜索）。
对训练侧的警示：很多 SOTA 推理模型（DeepSeek-R1、Bespoke-Stratos 等）靠拒绝采样对着验证器筛数据。验证器不完美 → 数据集混入误标样本 → 隐含假阳性代价；没有更强的基座或更准的验证器，靠重采样筛数据训推理模型的收益也会触顶。

局限与展望¶

只测了编程任务：代码是不完美验证器问题的清晰样本，但推理、web agent、agent-用户交互等领域行为可能不同，理论虽 domain-agnostic 但缺其他域的实证。
验证器是人写的单元测试：实际部署更可能用 LM 生成的单元测试，会引入验证器之间的不一致和假阴性风险，可能进一步放大泛化落差——作者把这留作下一步。
C/B 比无法实测：最优 \(K\) 依赖成本-收益比，论文证明了"在一系列比值下 \(K\) 都有限且低"，但没给出任何真实部署场景具体对应哪个比值。
未探索缓解策略：如对通过验证器后的解再做 refine、用增加采样多样性的策略、在代码质量指标上微调来同时提升鲁棒性——这些都被列为开放问题。
未考察基准污染 / prompt 敏感性：模型可能被过度优化以通过标准测试，prompt 工程也会影响假阳性的生成。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把"假阳性代价"加回扩展推理建模，得出与主流乐观叙事相反、且有理论支撑的天花板结论
实验充分度: ⭐⭐⭐⭐ 跨四大模型家族、两个基准、多档成本比，但局限于编程任务、验证器为人写测试
写作质量: ⭐⭐⭐⭐⭐ 论证链条干净，实证与理论互相印证，核心命题用一行不等式就讲清
价值: ⭐⭐⭐⭐⭐ 同时警示推理扩展与拒绝采样训练两条主流路线的隐藏上限，呼吁重视验证器质量