GuidedSampling: Steering LLMs Towards Diverse Candidate Solutions at Inference-Time¶

会议: ICLR 2026
arXiv: 2510.03777
代码: GitHub
领域: LLM评测
关键词: inference-time scaling, repeated sampling, diversity, concept exploration, pass@k

一句话总结¶

提出 GuidedSampling 推理算法，将重复采样（RS）的隐式探索和生成过程显式解耦为两阶段：先迭代生成多样化的解题概念/定理，再基于各概念分别生成候选解。在 pass@50 上平均提升约 21.6%，微调后 pass@5 提升约 9.7%。

研究背景与动机¶

领域现状：推理时计算扩展（inference-time scaling）是提升 LLM 性能的重要方向——在推理阶段多花算力，往往比把同样算力拿去训更大的模型更划算。其中最简单的算法就是重复采样（RS）：对同一输入反复采样多个候选解，再用 majority voting / pass@k 挑答案。

现有痛点：RS 存在严重的多样性不足——LLM 被训练为对同一输入生成单一正确响应，导致采再多次也只在少数几个概念上打转。定量分析印证了这点：Llama-3.2-3B 在 HumanEval 上生成 100 个候选解平均仅用 2.75 个不同概念，37% 的问题只尝试了一个概念；MATH 最大值题里 RS 的 892/1000 个解都用了 "AM-GM 不等式"，且大多算错。

核心矛盾：Tree-of-Thought（ToT）能靠树搜索提升多样性，但要在树的每一步显式评估每个中间候选思路，计算开销极高。于是问题变成：能不能既拿到 ToT 那样的多样性、又只付 RS 量级的成本？

核心思路：把 RS 中隐式耦合的"探索"（用哪个概念解）和"生成"（按概念写出解）两个阶段显式分离——先低成本地一次性探索出多个概念，再用它们各自引导生成，以接近 RS 的预算换来高多样性。

方法详解¶

整体框架¶

重复采样（RS）之所以多样性差，是因为它把"探索"（用哪个概念/定理来解）和"生成"（按这个概念写出完整解）这两件事隐式揉在一次采样里——模型每抽一个解都各自悄悄选一个概念，结果绝大多数撞在同一个上（MATH 最大值题里 892/1000 个解都用 AM-GM 不等式，且全错）。GuidedSampling 的核心动作就是把这两件事显式拆成前后两个阶段：先在探索阶段迭代采样 \(K\) 个互不重复的概念，再在生成阶段对每个概念各生成 \(M\) 个以它为条件的候选解，凑成候选池后照常用 majority voting / pass@k 选答案。总推理预算保持 \(IC = K \times M\) 不变，所以花费几乎不增加，却把原本被隐式概念锁死的解空间在"概念"这一高层维度上显式撑开。更进一步，这套流程跑出来的正确轨迹本身是高质量合成数据，可以反过来蒸馏回模型做后训练，让模型把"先铺概念再解题"的习惯内化进权重。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    X["问题 x"] --> EXP["迭代概念探索<br/>逐个采样 K 个互不重复概念"]
    EXP -->|"新概念以已生成概念为条件"| EXP
    EXP --> GEN["概念引导的生成<br/>每个概念各采样 M 个候选解"]
    GEN --> POOL["候选解池 S（IC=K×M）<br/>天然覆盖多条求解路径"]
    POOL --> SEL["majority voting 选最终答案"]
    POOL --> PT["GuidedSampling 后训练<br/>正确轨迹蒸馏回模型（FA / CAA）"]
    PT -.->|"微调后更会先铺概念再解题"| X

关键设计¶

1. 迭代概念探索：先把"用什么方法"想全，再去解题

针对的就是 RS"所有解共享同一个隐式概念"的瓶颈。GuidedSampling 改成先专门生成一串概念：给定问题 \(x\)，第 \(k\) 个概念以前面所有概念为条件采样

\[c_k \sim p_\theta(\cdot \mid x, c_{1:(k-1)})\]

把已生成概念喂回上下文，等于每一步都明确告诉模型"这些路子已经有了，换个新的"，从而逼出 RS 难以触及的方向；过程一直迭代到攒满 \(K\) 个概念、或模型自己判断再没有有用概念可产出（支持提前停止）。这里"概念"被定义成解题用的定理/思路名（如"AM-GM 不等式""Cauchy-Schwarz 不等式"），是问题层面的高层指导，探索一次即可复用，不像 ToT 要在树的每一步显式评估每个中间 thought，开销低得多。

2. 概念引导的生成：让每个候选解锁定一条不同的求解路径

拿到概念集合 \(\mathcal{C}=\{c_1,\dots,c_K\}\) 后，对每个 \(c_k\) 单独采样 \(M\) 个候选解 \(s_k^{(m)} \sim p_\theta(s \mid x, c_k)\)，全部候选并起来构成解池 \(\mathcal{S}=\bigcup_{k=1}^{K}\mathcal{S}_k\)。概念和解法被显式绑定，保证候选池天然覆盖多种不同路径，而不是像 RS 那样挤在一个隐式概念上。实测下来，GuidedSampling 产出的候选解平均比 RS 多 17.63% 的独特概念（如 MATH 最大值题里用 AM-GM 的从 892/1000 降到 77/1000，剩余预算去探索 Cauchy-Schwarz、Chebyshev 等），这正是 pass@k 提升的直接来源。这里有个关键的探索-生成权衡：\(K\) 和 \(M\) 在固定预算 \(IC\) 下此消彼长，\(K\) 太小退化成 RS、\(K\) 太大则每个概念的生成预算 \(M\) 不够把任何一条路走透，存在一个甜点（\(K=0\) 时 GuidedSampling 恰好就是传统 RS）。

3. GuidedSampling 后训练：把多样化轨迹蒸馏回模型

推理阶段产出的（已验证正确的）轨迹本身就是高质量合成数据，可以反过来微调模型。论文给了两种数据格式：FA（Final-Answer Only）丢掉概念、只用最终答案 \((x, s)\) 做监督；CAA（Concept-Augmented Answer）则把概念集和答案拼成一条目标序列 \((x, \text{concat}(\mathcal{C}, s))\)。CAA 让模型完整学习"先铺开多个概念、再落到一个具体解"的过程，把多种推理策略内化进权重，因此显著优于 FA——微调后 pass@5 相对最强基线平均提升约 9.7%，并能泛化到 GPQA、HumanEval、OlympiadBench 等域外基准。

损失函数 / 训练策略¶

两种格式都用标准的最大似然微调。FA 模式直接对答案做监督 \(\mathcal{L}_{FA} = -\mathbb{E}_{(x,s) \sim \mathcal{D}_{FA}} [\log P_\theta(s \mid x)]\)；CAA 模式则把目标换成概念与答案的拼接 \(y = \text{concat}(\mathcal{C}, s)\)，损失为 \(\mathcal{L}_{CAA} = -\mathbb{E}_{(x,\mathcal{C},s) \sim \mathcal{D}_{CAA}} [\log P_\theta(y \mid x)]\)，等价于让模型学会先输出概念再输出解。论文还给了理论保证（Theorem 1）：当 \(k_{min} \cdot P(\mathcal{C}_r \mid x) > 1\)，即模型有足够概率生成相关概念、且概念能带来显著放大因子时，GuidedSampling 在 pass@k 上严格优于 RS——这也解释了为何概念能力弱的模型（如 Qwen2.5-3B 在代码域）享受不到收益。

实验关键数据¶

主实验¶

pass@50 改进（平均跨 Llama-3.2-3B, Qwen2.5-3B, Gemma-3-27B）：

基准	RS 基线	GuidedSampling	提升
MATH	—	—	+21.8%
GPQA-Diamond	—	—	+11.87%
HumanEval	—	—	+11.28%
OlympiadBench	—	—	+3.08%
平均	—	—	+16.01%

消融实验¶

微调后 pass@5 对比（Llama-3.2-3B-Instruct）：

训练策略	MATH	GPQA	HumanEval	Olympiad	平均
RS	44.78	40.08	55.78	10.83	37.87
STaR	46.23	38.41	57.35	10.62	38.15
ToT	56.63	44.44	49.51	18.36	42.24
FA (Ours)	47.98	50.61	55.95	20.21	43.69
CAA (Ours)	60.06	40.23	59.03	21.66	45.25

多样性分析：RS 平均产生 4.04 个独特概念 vs GuidedSampling 4.75 个独特概念（+17.63%）

关键发现¶

GuidedSampling 在几乎所有模型-基准组合上优于 RS。唯一例外：Qwen2.5-3B 在 HumanEval 上退化，因其代码领域概念生成能力弱（平均仅 1.13 个概念）
探索-生成的最佳分配存在甜点：增大 \(K\) 先提升再下降（概念多但每个概念的生成预算 \(M\) 不足）
早期概念（\(k=1\)-\(5\)）平均质量更高（19.8%→16.2%），但后期概念（\(k \geq 6\)）对少数需要深度探索的难题贡献关键
领域限制：在常识推理（CommonSenseQA）上 GuidedSampling 反而比 RS 差 3.28%——概念难以良定义的领域不适用
CAA 训练模式显著优于 FA，说明让模型学习"先探索概念再解题"的完整轨迹更有效
计算开销方面，概念生成是一次性的序列调用，远小于 RS 的 100 次采样总量

亮点与洞察¶

简洁的设计哲学：仅通过将"隐式探索+生成"解耦为"显式探索→引导生成"就获得巨大收益
理论分析得当：Theorem 1 精确描述了 GuidedSampling 优于 RS 的充要条件，两个路径（概念覆盖 + 不相关概念恢复）提供了清晰的分析框架
后训练的双重价值：GuidedSampling 不仅是推理策略，还是高质量合成数据生成器——CAA 微调显著提升 pass@k
AM-GM 不等式的例子极具说服力：892/1000 的 RS 解使用同一定理导致错误
方法的可组合性强：可与 RL（如 pass@k 优化）、majority voting 等技术叠加使用

局限与展望¶

领域限制明显：对概念难以良定义的任务（常识推理）效果差，适用范围受限于有明确概念/定理的领域
模型依赖性强：Qwen2.5-3B 在 HumanEval 上只能生成 1.13 个概念——概念生成能力弱的模型无法受益
概念生成阶段为序列迭代，无法并行化，在极大 \(K\) 时成为瓶颈
仅在 3B 级小模型上做了主要实验，7B+ 大模型的表现需要验证
概念质量评估完全依赖 Qwen2.5-32B 提取——如果提取器本身不准确，多样性数据可能有偏差

评分¶

新颖性: ⭐⭐⭐⭐ 探索-生成解耦的思路简洁有效，但核心 idea 相对直觉（"先想方法再做题"）
实验充分度: ⭐⭐⭐⭐ 多基准多模型、理论分析、后训练实验丰富，但主要集中在 3B 模型
写作质量: ⭐⭐⭐⭐ 结构清晰，AM-GM 的 motivating example 极好，但部分细节（如概念定义的精确性）可以更明确
价值: ⭐⭐⭐⭐ 在推理时计算扩展领域有实际价值，但领域限制（需要良定义的概念）降低了通用性