p-less Sampling: A Robust Hyperparameter-Free Approach for LLM Decoding¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=ItFuNJQGH4
代码: 已开源（论文中以脚注给出，未在缓存正文中给出具体地址）
领域: 文本生成 / LLM 解码 / 采样策略
关键词: 截断采样, 无超参数解码, 信息论, 碰撞熵, 温度稳健性

一句话总结¶

本文提出 p-less 采样：一种完全没有超参数的截断式解码方法，每一步用整个 token 分布的"碰撞概率" \(\sum_v P_\theta(v)^2\) 当作动态截断阈值，在数学、逻辑推理和创意写作上都优于 top-p / min-p 等方法，并且在高温下几乎不退化、推理还更快。

研究背景与动机¶

领域现状：LLM 的概率式解码大量依赖截断采样——先把 next-token 分布砍成一个"高概率子集"，再从中按概率采样。主流做法包括 top-k（取概率最高的 k 个）、top-p（取累积概率超过 p 的最小集合）、\(\epsilon\)-sampling（砍掉概率低于 \(\epsilon\) 的 token）、mirostat（假设分布服从 Zipf 律、动态维持目标 surprisal）、min-p（用"众数概率 × 分数 \(p\)"当阈值）等。

现有痛点：这些方法都带超参数（\(k\)、\(p\)、\(\epsilon\)、目标 surprisal、学习率……），而且最优值会随生成任务和采样温度漂移。一个在 GSM8K 上调好的 top-p 值，换到创意写作或者把温度从 0.7 调到 2.0 就可能崩。更糟的是，当温度升高、分布被"压平"时，固定阈值的方法会把大量长尾低概率 token 也放进候选集，导致文本退化（degeneration）——读起来语无伦次。

核心矛盾：阈值要不要随当前分布和温度自适应？现有方法要么用固定阈值、完全无视当前分布（top-p / top-k / \(\epsilon\)），要么只看分布的单个统计量（min-p 只用众数概率），要么只在满足条件时才考虑分布（\(\eta\)-sampling）。没有一个方法是"看着整张分布、又不需要调参"的。

切入角度：作者从一个信息论问题出发——"给定一张 token 分布，哪些 token 才值得留下来采样？"答案应该由分布本身的全部信息决定，而不是外部塞进来的超参数。

核心 idea：把截断阈值定义为"随机采一个 token、恰好采中 ground-truth 的概率"，也就是分布的碰撞概率 \(L[P]=\sum_v P_\theta(v)^2\)。一个 token 只有当它的概率"至少不低于这个随机命中概率"时，才有资格进候选集——既无超参数，又天然随分布和温度变化。

方法详解¶

整体框架¶

p-less 不改训练、不改模型，只替换解码时每一步的截断规则。在第 \(t\) 步，自回归模型给出（施加温度后的）词表分布 \(P_\theta(v\mid x_{1:t-1})\)，p-less 做三件事：① 用整张分布算出一个标量阈值 \(L[P]\)；② 把概率不低于该阈值的 token 收进候选集 \(V_{\text{p-less}}\)；③ 在候选集内重新归一化后采样下一个 token。整个过程不引入任何需要调的参数，阈值完全由当前分布决定。

在此基础上作者给出一个偏多样性的变体 p-lessnorm（松弛阈值），并从二阶 Rényi 熵的角度解释了为什么这个阈值会随温度自适应、从而在高温下稳健。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入：温度 τ 后的<br/>token 分布 Pθ"] --> B["1. p-less 阈值<br/>L[P]=Σ Pθ(v)²（碰撞概率）"]
    B --> C["2. p-lessnorm 变体<br/>松弛阈值 L̄[P]，偏多样性"]
    C --> D["构建候选集<br/>V = {v : Pθ(v) ≥ 阈值}"]
    D --> E["候选集内归一化后采样下一 token"]
    B -.->|3. 二阶 Rényi 熵视角| F["阈值随熵增大而下降<br/>→ 高温自动稳健、抑制长尾"]

关键设计¶

1. p-less 阈值：用"随机命中概率"当动态截断线

针对"阈值要不要看整张分布"这个痛点，作者给出一个纯信息论的答案。设 \(S\) 是被采样到的 token、\(T\) 是 ground-truth token，二者相互独立（采样不带反馈），则"采样恰好命中 ground-truth"的概率为

\[L[P]=\sum_{v\in V} P(S=v)\,P(T=v)=\sum_{v\in V} P_\theta(v\mid x_{1:t-1})^2,\]

这里用了一个关键近似：因为我们只能拿到模型预测分布、没有外部真值，于是把 \(P(T=v)\) 直接取成模型分布 \(P_\theta\)，从而 \(L[P]\) 退化成"分布自身平方和"，即碰撞概率（collision probability）。截断规则就是：

\[V_{\text{p-less}}=\{\,v\in V: P_\theta(v\mid x_{1:t-1})\ge L[P]\,\},\]

再在 \(V_{\text{p-less}}\) 内按 \(P_\theta\) 归一化采样。直觉是：\(L[P]\) 就是"随便采一个、恰好对的"那条线，能进候选集的 token 至少要比"随机蒙对"更有把握。这条线完全由分布算出，不需要任何超参数；分布越尖锐（模型越确信）\(L[P]\) 越大、候选集越小，分布越平 \(L[P]\) 越小、候选集越大。作者还指出 \(L[P]=|V|\cdot M[P]\)，其中 \(M[P]\) 是概率质量函数二阶矩的无偏估计，给阈值又添了一层统计矩的解释。

2. p-lessnorm 变体：在偏好多样性的场景松弛阈值

p-less 默认偏连贯；但创意写作等场景更想要多样性，阈值就需要放低一点、放进更多 token。作者构造了 p-lessnorm，把"随机采到一个错误 token 的概率"按"正确/错误结果数之比"归一化后从原阈值里减掉：

\[\bar L[P]:=L[P]-\frac{1}{|V|-1}\sum_{\substack{u,v\in V\\ u\ne v}}P_\theta(u)P_\theta(v)=\frac{|V|}{|V|-1}L[P]-\frac{1}{|V|-1}.\]

由于 \(\bar L[P]\le L[P]\)，阈值被系统性地调低，候选集变大、采样更发散。它和 p-less 共用同一套机制，只是把"门槛"换成更宽松的一条线，因而依旧无超参数——是否用 norm 版本取决于任务对"连贯 vs 多样"的偏好，而不是一个要调的数。

3. 与二阶 Rényi 熵的联系：阈值随温度自动稳健

这一节解释了 p-less 高温不退化的根因。\(\alpha\) 阶 Rényi 熵为 \(H_\alpha(p)=\frac{1}{1-\alpha}\log\sum_i p_i^\alpha\)，其中二阶（碰撞熵）恰好是

\[H_2(p)=-\log\sum_i p_i^2=-\log L[P].\]

因为 \(\log\) 单调，\(L[P]\) 随碰撞熵下降而上升；又因 \(H_2(p)\le H_1(p)\)（Shannon 熵），可推出 \(L[P]\ge \exp(-H_1(p))\)，即阈值也与 Shannon 熵负相关。这正是关键：升高温度会压平分布、抬高熵，于是 \(L[P]\) 自动变小——但作者强调（对照论文 Figure 1）p-less 仍然能合理地砍掉长尾，而 top-p / min-p 这类方法在高温下会大量放进低概率 token 导致退化。二阶 Rényi 熵对"概率质量的集中度"敏感，恰好衡量了模型的全局置信度，所以用它当门槛比只看单个 token（min-p）或假设某种分布形态（mirostat）更稳。这也解释了为什么 p-less 在温度趋于 0 或 ∞ 时阈值依然有意义，而别的方法的超参数在极端温度下会失效。

损失函数 / 训练策略¶

无。p-less 是纯解码期方法，不涉及任何训练、微调或额外模型，可直接替换现有采样器的截断步骤。

实验关键数据¶

设置：在 Llama-2-7B(Chat)、Mistral-7B(Instruct)、Llama3-70B(Instruct) 三个模型上，覆盖数学/逻辑推理（GPQA、GSM8K、QASC、CSQA）和创意写作（Writing Prompts）。温度从 0.5 扫到 2.0。为公平比较不同温度，作者用准确率-温度曲线下面积 AUC（归一化到 0~1）作主指标；创意写作用 length-controlled win rate，并补充人工评测。

主实验（数学 / 逻辑推理 AUC，越高越好）¶

模型	数据集	top-p	min-p	mirostat	p-less	p-lessnorm
Llama2-7b	CSQA	0.410	0.488	0.410	0.503	0.503
Llama2-7b	QASC	0.393	0.502	0.419	0.537	0.538
Llama2-7b	GSM8K	0.210	0.256	0.201	0.267	0.267
Mistral-7b	GSM8K	0.438	0.523	0.392	0.562	0.564
Mistral-7b	QASC	0.604	0.730	0.684	0.736	0.739
Llama3-70b	GSM8K	0.870	0.924	0.879	0.932	0.930

在 Llama2-7b 和 Mistral-7b 上，p-less / p-lessnorm 在所有数据集的 AUC 都领先；在更强的 Llama3-70b 上则是最高或与最高相差不超过 0.005。从准确率-温度曲线看，所有 baseline 都随温度升高不同程度退化，而 p-less 在温度 ≥ 1.0 时拉大领先优势。

创意写作（Writing Prompts，length-controlled win rate）¶

模型	温度	\(\epsilon\)	min-p	top-p	p-less	p-lessnorm
Llama-2-7b	1.0	62.18	57.48	62.07	55.08	58.74
Llama-2-7b	1.5	1.99	58.17	4.39	58.23	59.58
Llama-2-7b	2.0	0.00	48.94	0.00	65.64	59.29
Mistral-7b	1.5	3.71	62.17	0.00	66.97	66.89
Mistral-7b	2.0	0.00	54.11	0.00	60.32	61.99

关键现象：温度升到 1.5 / 2.0 时，\(\epsilon\)-sampling、top-p、\(\eta\)-sampling 的胜率直接崩到接近 0（文本退化严重），而 p-less / p-lessnorm 仍稳定在 ~60。人工评测与自动评测方向一致，标注者也更偏好 p-less 生成的故事。

关键发现¶

温度稳健性是最大卖点：p-less 在低温与别的方法相当，在高温（≥1.0）显著拉开差距，恰好印证了"阈值随熵/温度自适应"的理论。
效率更高：作者报告 p-less 的平均单 token 采样耗时更低、生成长度更短，在不牺牲准确率的前提下提升了推理效率。
不是退化成贪心：在偏低熵的数学/推理任务上 p-less 能逼近甚至超过贪心解码，但在高熵的创意写作上又显著优于贪心，说明它是真在按分布熵动态调节，而非单纯求 argmax。
p-less vs p-lessnorm：推理任务两者几乎并列；创意写作里谁更优随温度/模型摆动，整体印证 norm 版本偏多样性的定位。

亮点与洞察¶

把"超参数"彻底从截断采样里抹掉：阈值是分布的一个闭式函数 \(\sum P^2\)，不需要为每个任务/温度调参——这对要在多任务、多温度下部署同一套解码器的场景非常实用。
一个公式三种解读：碰撞概率（概率论）、二阶 Rényi 熵（信息论）、二阶矩的无偏估计（统计矩）三条路径都指向同一个阈值，理论自洽度很高，也让"为什么这样设阈值"有了底。
高温不崩这一点很有迁移价值：任何需要高多样性采样（合成数据生成、创意写作）又怕退化的流程，都可以直接把截断器换成 p-less，省掉为高温重新调 top-p/min-p 的功夫。

局限与展望¶

依赖模型分布即"真值"的近似：方法把 \(P(T=v)\) 直接取成 \(P_\theta\)，当模型本身校准很差（过度自信或欠自信）时，阈值是否仍合理值得追问。
阈值形态固定：\(\sum P^2\) 给的是一条确定的线，缺少像 min-p 那样"再松一点/紧一点"的旋钮——虽然 p-lessnorm 提供了一档松弛，但本质仍是两个离散选项，遇到介于"连贯"和"多样"之间的细粒度偏好时不易微调。
评测以 7B / 70B 开源模型为主：在更大规模或经过强 RLHF 对齐的模型上，分布通常更尖锐，p-less 的截断行为与收益是否依旧，需要进一步验证。
可改进方向：把 p-less 推广到 \(k\) 阶 Rényi 熵阈值（论文附录已提及），用阶数 \(k\) 作为一个可解释的连贯-多样旋钮，可能在保持"低调参负担"的同时给出更细的控制。

评分¶

新颖性: ⭐⭐⭐⭐ 把碰撞概率/二阶 Rényi 熵接到截断采样、做到真正无超参数，角度干净且有理论支撑。
实验充分度: ⭐⭐⭐⭐ 三模型五数据集、跨温度 AUC + 人工评测 + 效率分析，覆盖到位；但偏向 7B 级开源模型。
写作质量: ⭐⭐⭐⭐ 动机—方法—理论—实验链条清晰，三种解读串得顺。
价值: ⭐⭐⭐⭐ 即插即用、零调参、高温稳健，部署友好，实用价值高。