Entropy-informed Decoding: Adaptive Information-Driven Branching¶

会议: ICML 2026
arXiv: 2605.09745
代码: 无
领域: LLM 解码 / 自适应推理 / 信息论
关键词: 熵自适应, 分支因子, beam search, 推理时算力分配, regret bound

一句话总结¶

EDEN（Entropy-informed DEcodiNg）把每一步的束宽 \(B_t\) 设成与归一化熵 \(\bar H_t\) 单调正比——高熵 fork 多分支、低熵步骤近贪心——用更少的总扩展近似更宽的 beam search；理论上证明熵单调的分支因子在期望累计 regret 上严格优于任何固定束宽，且能给出 \(\mathbb{E}[R_T] \leq G P_\max \sum_t \exp(-c m_t \Delta_\min^2)\) 的显式 regret 率。

研究背景与动机¶

领域现状：LLM 推理时解码大体分两条线：(1) 采样类（top-\(k\)、nucleus \(p\)、min-\(p\)、top-\(H\)）用随机性换多样性，但通常只走一条路径；(2) 搜索类（beam search、best-of-\(n\)、majority voting）显式展开多个候选再选优，但算力消耗与任务难度无关——简单题也照样跑满 \(n\) 个分支。

现有痛点：采样类探索过窄，一次只承诺一条路径，遇到推理分叉容易被早期低概率 token 锁死；搜索类探索均匀，简单 token 和困难 token 给同样多的算力，浪费严重。已有 entropy 相关工作（Simonds 2025、Entropix、Top-\(H\)、HARP 等）要么只把熵当作触发开关（branch or not），要么用它做模型切换 / 采样阶段截断，从没有人把熵直接连续映射到 beam 宽度并给出理论保证。

核心矛盾：好的解码应该「该贪心就贪心、该展开就展开」，但现有方法把分支因子写死成超参，无法在生成过程中根据 token 难度自适应分配。

本文目标：(1) 设计一个可插拔、模型无关的搜索策略，让每步算力随模型自身不确定性变化；(2) 用 noisy-maximization 框架给出严格的 regret bound；(3) 对闭源模型也能用（仅 API 访问也能估熵）。

切入角度：把 next-token 选择视作 sub-Gaussian noise 下的 noisy maximization 问题——若估计预算 \(m_t\) 与「步难度」匹配，单步出错概率呈指数下降；而 Shannon 熵 \(H_t\) 既能刻画候选数量（perplexity \(\text{PP}_t = e^{H_t}\)）又能刻画 top-2 间隔 \(\gamma = \log(p_1 / p_2)\)。

核心 idea：把每步束宽设成 \(B_t = \max(1, \lfloor B_\max \cdot \bar H_t \rfloor)\)，\(\bar H_t = H_t / \log |\mathcal{V}|\) 是归一化熵；高熵 fork 自动多 branch，低熵步骤自动退化成贪心。

方法详解¶

整体框架¶

EDEN 是 beam search 的一个变种：维持活跃候选集 \(\mathcal{B}\)，每步根据每个候选当前的下一 token 分布 \(P(y_{t+1} | x, y_{1:t})\) 估算归一化熵 \(\bar H_t\)，再用 \(B_t = \max(1, \lfloor B_\max \cdot \bar H_t \rfloor)\) 决定要展开多少个 top-\(B_t\) token。每个新候选用累积 log-prob \(s(y_{1:t+1})\) 和长度归一 \(\text{Score}_\alpha = s / t^\alpha\) 排序，并通过上下界剪枝（\(\bar S \geq S^*\) 才保留）；EOS 候选直接评分，其他用「未来全 1 概率」当上界、「未来全均匀」当下界。最后返回归一化分最高的序列。

关键设计¶

熵到分支因子的单调映射:
- 功能：把不确定性量化的「需要多少候选」直接转成搜索预算。
- 核心思路：用最朴素的分段线性映射 \(f(H, B_\max) = \max(1, \lfloor B_\max \cdot \bar H \rfloor)\)，\(0 \leq \bar H \leq 1\) 是按 \(\log |\mathcal{V}|\) 归一化的熵。当 \(\bar H \to 0\)（模型超有信心），分支数退化到 1，等同贪心；当 \(\bar H \to 1\)（极度模糊），扩展接近 \(B_\max\)。
- 设计动机：作者用两条引理证明 (a) Lemma 3.1：高熵意味着 \(\varepsilon\)-typical 集大小至少 \((1-\varepsilon)\text{PP}^{1/\varepsilon}\)，候选数多得值得探；(b) Lemma 3.2：top-2 对数间隔 \(\gamma \geq \log(e^{-H}/(1-e^{-H}))\)，低熵时间隔大易选、高熵时间隔小难选。两条合起来说明「熵越大越需要更多估计预算」。
基于上下界的剪枝与 EOS 处理:
- 功能：在保持理论 admissibility 的前提下尽早砍掉无望分支。
- 核心思路：对每个尚未 EOS 的候选，给出未来分数的上下界 \(\bar S, \underline S\)——上界假设剩余 token 概率全是 1（最乐观），下界假设全是 \(1/|\mathcal{V}|\)（最悲观）。若 \(\bar S < S^*\)（当前最佳），整支砍掉；否则用 \(\underline S\) 更新 \(S^*\)。EOS 候选则把上下界都等于实际分数。
- 设计动机：beam search 的算力主要浪费在「不可能赢」的候选上，admissible 上界让剪枝既有效又不会误伤最优解，相当于把 A* 思想搬进 LLM 解码。
闭源模型友好的熵估计:
- 功能：API-only 场景下也能用 EDEN。
- 核心思路：对只能拿到样本（无 logits）的闭源 API，作者给出 sub-linear 样本复杂度上界——估熵到 \(\epsilon\) 精度只需要 \(\tilde O(1/\epsilon^2)\) 次采样，远小于词表大小。配合分桶估计可以在每步几十次采样里完成熵估计。
- 设计动机：让 EDEN 不只是「需要 logits」的本地推理优化，也能武装到 ChatGPT API、Claude API 之类只暴露采样接口的封闭模型上。

损失函数 / 训练策略¶

本工作不训练任何参数，纯 inference-time 算法。理论部分把 next-token 选择写成 noisy max：\(V_t(i) = \log P(i | x_t) + \text{OPT}_{t+1}(i)\)，估计器 \(\hat V_t(i)\) 的方差代理 \(\sigma_t^2 = \delta^2 / m_t\)。Proposition 3.3 在 Lipschitz 连续性假设下得到「所需预算 \(m_t \gtrsim \frac{1}{(\Delta_t^\text{eff})^2} \log(\text{PP}_t / \delta_t)\)，随 \(H_t\) 单调上升」；Theorem 3.4 进一步证明熵单调分支因子在期望 regret 上严格优于任何固定束宽，前提是熵在解码过程中有变化（实证上 Wang 2026、Cao 2026 已证明 LLM 生成熵确实变化大）。

实验关键数据¶

主实验¶

方法	GSM8K ↑	MATH500 ↑	HumanEval ↑	SciBench ↑	Friedman Rank ↓	EDEN > 该方法的后验概率
Greedy	73.5%	27.4%	27.0%	4.9%	6.12	0.99
Top-\(k\)	70.7%	23.0%	27.6%	4.9%	7.00	1.00
Top-\(p\)	73.5%	27.4%	27.0%	4.8%	6.62	0.99
Top-\(H\)	69.7%	26.0%	27.0%	4.5%	8.12	1.00
Min-\(p\)	72.3%	28.0%	25.8%	4.3%	8.00	1.00
Best-of-5	78.2%	28.2%	27.0%	5.2%	4.62	0.96
Beam search (width 3)	—	—	—	—	—	0.77
EDEN (\(B_\max = 5\))	best avg	—	—	—	best	—

（Friedman 检验 \(p = 0.012\)，差异统计显著；Bayesian hierarchical 给 EDEN 75% 的「整体最佳」后验概率。）

消融实验¶

配置	关键发现	说明
EDEN (full)	准确率最高、扩展次数最少	熵自适应分支
固定 beam width = 3/5/7	准确率持平或略低、扩展次数线性	验证「固定束宽浪费算力」
熵阈值二值触发	准确率介于 greedy 与 EDEN 之间	验证连续映射比 binary trigger 好
仅 API 闭源（限采样估熵）	性能略降但仍优于 greedy	验证 sub-linear 估熵的可行性

关键发现¶

EDEN 在 4 个 benchmark 上拿到最佳 Friedman rank：Math、Code、Science 都覆盖，证明效益跨任务类型稳健，不是某一类任务的偶然。
比 beam search 用更少扩展达到相当或更好的准确率：表 1 括号里的总扩展数比 width=3 beam 还少，验证了「近似更宽 beam」的承诺。
跨模型族鲁棒：Llama-3.2-3B、Gemma3、IBM Granite、Mistral 上都看到改进（附录 B），说明熵作为信号在不同分布族里都靠谱。
Pareto 优势：Bayesian 分析里 EDEN 对其他方法的 pairwise dominance 概率 ≥ 96%，对 beam search 也有 77%。
变方差越大越赚：Theorem 3.4 的几何直觉是「熵越变化越多，自适应分配越有优势」——实证里推理 / 代码任务熵确实波动大，所以 EDEN 在这些任务上提升最显著。

亮点与洞察¶

理论 + 实证双轨：一边用 noisy max + sub-Gaussian 的标准武器给出 regret 率，一边在 4 个任务 × 4 个模型上做 Bayesian 后验分析，论证结构非常完整。
「分支因子作为算力一阶变量」的视角：解码社区长期把束宽当超参；本文显式把它升级为 step-wise 状态变量，给类似 speculative decoding、early exit 等推理时优化指出一条参数化思路。
API 友好性：sub-linear 熵估计让 EDEN 在闭源模型上仍可用，这是社区里很少有的「不依赖 logits」的 search-based 解码方案，潜在部署面广。

局限与展望¶

只在 3B 量级模型 + 标准 benchmark 上评测；70B+ 大模型上熵分布更平、分支收益是否仍显著未知。
\(f(H, B_\max)\) 是分段线性，参数 \(a=1, b=0\) 是默认值；论文未系统调优非线性映射形式，可能存在更优函数族。
regret bound 的常数 \(c\) 和 Lipschitz \(\Lambda\) 在实际系统中难以测量，理论保证更多是「定性指南」而非「定量预算」。
实验里 \(T = 400\) 的最大生成长度，对长文/agent 链路（数千 token）下 EDEN 的累计收益和算力曲线没有覆盖。
与 RL / process reward model 类自适应推理方法的正交结合尚未探索。

评分¶

新颖性: ⭐⭐⭐⭐ 把熵 → 束宽连续化并给出 regret 率，是该研究线的明确推进。
实验充分度: ⭐⭐⭐⭐ 4 任务 × 多模型族 + Bayesian 分析；缺大模型与长生成场景。
写作质量: ⭐⭐⭐⭐⭐ 引理-命题-定理链条清晰，把直觉与证明衔接得很好。
价值: ⭐⭐⭐⭐ 推理时算力优化是 LLM 部署的核心议题，EDEN 给出便宜且可解释的方案，落地潜力大。