Eliciting Numerical Predictive Distributions of LLMs Without Auto-Regression¶

会议: ICLR 2026
代码: https://github.com/kasia-kobalczyk/guess_llm
领域: LLM 数值预测 / 内部表示探测
关键词: LLM 探测、不确定性量化、数值预测、自回归替代、时间序列预测

一句话总结¶

通过在 LLM 最后几层隐状态上训练轻量级"幅度分解探针"，无需自回归采样即可直接恢复 LLM 数值预测分布的均值、中位数及分位数，推理效率相当于 20-25 次采样的效果，且置信区间校准良好。

研究背景与动机¶

领域现状：LLM 已在表格回归、时间序列预测等结构化数据任务中展现出强大的 in-context learning 能力，甚至在少样本场景下与专业模型媲美。要获得 LLM 的预测分布（以便量化不确定性或提升精度），通常需要对同一输入重复执行自回归采样，每次生成一个完整数字。

现有痛点：自回归解码对连续数值输出天然不友好——一个实数往往跨多个 token，加之需要反复采样才能估计分布，导致推理时延和计算成本极高。例如仅估计均值就需要数十次前向传播。

核心矛盾：LLM 内部是否已经在隐状态中"提前决定好"了它要生成的数字，还是说数值的量级（小数点位置、数字终止符）只有在逐 token 解码时才被确定？如果能在 token 生成之前就从隐状态读出分布信息，则自回归采样将变得不必要。

本文目标：探究能否仅凭 LLM 对输入的一次前向传播所产生的内部表示，来重建其数值预测分布的统计量（点估计与不确定性），从而绕过昂贵的自回归采样。

切入角度：以时间序列一步预测为具体任务，设计可在 LLM 隐状态上训练的轻量探针（probe），直接预测分布的均值/中位数/分位数。

核心 idea：LLM 的数值"推理"主要发生在输入编码阶段，隐状态已充分编码了将要生成的数字及其不确定性，自回归解码只是在"读取"这一结果而非计算它。

方法详解¶

整体框架¶

本文提出一套两阶段探测框架：首先从 LLM（Llama-2-7B）最后 8 层的最终 token 隐状态拼接得到嵌入 \(\mathbf{e}\)，然后训练两类探针——点估计探针（预测均值/中位数/greedy 输出）和分位数探针（预测多个分位值，用于重建预测分布）。两类探针共享"幅度分解"的核心架构设计。

flowchart TD
    A["输入序列 x₁,…,xₙ → LLM 单次前向传播"] --> B["最后8层最终token隐状态拼接\ne = concat(h_ℓ[-1])"]
    B --> C1["幅度分解点估计探针\n(Section 2)"]
    B --> C2["幅度分解分位数探针\n(Section 3)"]
    C1 --> D1["预测 mean / median / greedy\n无需自回归采样"]
    C2 --> D2["预测 Q₂.₅%~Q₉₇.₅% 七个分位数\n重建置信区间"]
    D1 & D2 --> E["效率 + 精度媲美 20-25 次 LLM 采样"]

关键设计¶

1. 幅度分解探针（Magnitude-Factorised Probe）：解决跨量级回归的梯度失稳问题

直接对原始数值做回归时，MSE 损失会被大量级的数值主导，小量级预测梯度几乎消失。为此，作者将预测拆成两个串联子任务：量级分类 \(f_{\text{order}}: \mathbb{R}^{d_{\text{input}}} \to \mathbb{R}^M\) 先预测目标值 \(y\) 的量级 \(m(y) = \lfloor\log_{10}|y|\rfloor\) 所属类别，输出 softmax 概率向量 \(\mathbf{p}(x)\)；条件值回归 \(f_{\text{val}}: \mathbb{R}^{d_{\text{input}}+1} \to \mathbb{R}^M\) 对每个量级类 \(m_k\) 分别预测缩放后的残差 \(r_k\)，最终预测值为 \(\hat{y}_k = r_k \cdot 10^{m_k}\)。推理时用 top-K 加权期望 \(\mathbb{E}_K[\hat{y}] = \sum_{k \in \text{top-K}} p_k \hat{y}_k\) 得到最终结果。训练采用两阶段冻结策略：先冻结回归头只训分类头（交叉熵损失），再冻结分类头只训回归头（MSE 损失）——实验表明两阶段优于联合训练。这一设计让模型能在跨越 8 个量级的数据集上均保持 90%+ 量级预测精度，Pearson R 达 0.98。

2. 分位数探针（Quantile Regression Probe）：从隐状态直接恢复分布不确定性

在点估计之后，作者进一步问：LLM 隐状态是否也编码了其预测分布的"宽度"？分位数探针沿用幅度分解结构，为 \(S=7\) 个目标分位数（0.025, 0.05, 0.25, 0.5, 0.75, 0.95, 0.975）各配一对分类/回归头。训练目标是 pinball loss，以 LLM 的 100 个真实样本 \(\{y^j\}\) 作为监督信号：

\[\mathcal{L} = \sum_{s=1}^{S} \left( \mathcal{L}^s_{\text{order}} + \beta \cdot \mathcal{L}^s_{\text{val}} \right)\]

其中 \(\mathcal{L}^s_{\text{val}}\) 对每个 LLM 样本计算 pinball loss。实验表明该探针能忠实恢复分布散度：预测 IQR 与采样 IQR 的 Spearman 相关高达 0.90；在四个不同量级的数据集上，50%/90%/95% 置信区间的实际覆盖率分别约为 50%/91%/95%，与名义水平高度一致。

3. 泛化能力验证：跨长度、跨分布、合成→真实的三级迁移

一个实用探针必须能在训练时未见过的设置上工作。作者从三个维度系统评估泛化：(a) 上下文长度泛化——在受限长度范围 [10,20] 训练的模型在范围之外的置信区间覆盖率仅轻微下降，而在全范围 [3,40] 训练的模型表现更鲁棒；(b) 真实数据泛化——在 Darts + Monash 的 31 个子集（约 45,000 序列）上，"见过所有域的子集"模型（Real-all）实现 48.8%/88.5%/94.3% 的覆盖率，略低于理论值但仍实用；(c) 合成→真实迁移——仅在合成数据训练的模型（Synth）在真实数据上表现下滑明显，主因是量级分布的剧烈变化（真实数据量级跨度达 \(10^{-3}\) 到 \(10^{13}\)），说明量级分布匹配是泛化的关键瓶颈。

实验关键数据¶

主实验¶

目标	探针 MSE	LLM 直接采样 MSE	均值基线	最后值基线
mean (预测 \(x_{n+1}\))	0.0562	0.0555	0.3454	0.1226
median	0.0561	0.0553	0.3454	0.1226
greedy	0.0652	0.0668	0.3454	0.1226

探针性能与 LLM 直接采样几乎持平，且优于单纯用均值或最后值做预测。

点估计精度（scale=1.0 数据集）¶

目标	探针 MSE	数据集均值基线	序列均值基线	最后值基线
mean	0.006	0.256	0.035	0.085
median	0.006	0.260	0.041	0.087
greedy	0.015	0.273	0.065	0.109

置信区间校准（分位数探针）¶

数据集量级	50% CI 覆盖率	90% CI 覆盖率	95% CI 覆盖率
1.0	52.0 ± 0.4	90.9 ± 0.3	95.5 ± 0.2
10.0	52.7 ± 0.5	91.3 ± 0.3	96.1 ± 0.2
1000.0	51.4 ± 0.3	90.7 ± 0.3	95.7 ± 0.2
10000.0	48.2 ± 0.3	90.5 ± 0.2	95.4 ± 0.2

关键发现¶

量级分类准确率跨所有量级均超过 90%，Pearson R 在均值/中位数目标上达 0.98
探针的效率等价于 20-25 次 LLM 采样，对于 N<25 样本的场景探针误差更低
greedy 目标比 mean/median 更难预测（MSE 高约 2.5×），因为 greedy 是解码过程的副产品而非分布的显式统计量
真实数据上校准略有下降（Real-5fold 的 90% CI 覆盖率约 82%），合成→真实跨越更大（67%）

亮点与洞察¶

隐状态先于 token 编码完整数字：这一发现挑战了"LLM 的数值能力依赖逐 token 解码"的直觉，表明数值推理主要在 Transformer 的前向传播过程中完成，解码只是在"读取"结论
幅度分解设计的通用性：把回归问题分成量级分类+条件值回归的思路，可用于任何需要处理跨越多个量级输出的神经网络回归场景
单次前向传播替代多次采样：探针只需对输入做一次 LLM 前向传播提取隐状态，相比多次完整采样节省计算量极为显著，为 LLM 在资源受限场景下的部署提供新路径
uncertainty without sampling：首次系统展示了 LLM 的预测不确定性（分布宽度）也被编码在隐状态中，开辟了无采样不确定性量化的新方向

局限与展望¶

需要访问 LLM 内部激活（不适用于 API-only 部署场景）
探针是模型特异性的，换一个 LLM 架构或分词方案需要重新训练
训练探针本身仍需大量 LLM 采样来获取监督标签（约 100 次采样/序列），初始成本不低
合成→真实的泛化性有限，量级分布偏移是主要瓶颈
目前只验证了一步预测，多步预测、多变量场景有待探索

评分¶

新颖性: ⭐⭐⭐⭐ 探针方法用于 LLM 数值分布恢复是新颖问题设定，幅度分解架构是实用创新
实验充分度: ⭐⭐⭐⭐ 多量级、合成+真实、多模型（附录中有其他 LLM）验证全面，泛化分析系统
写作质量: ⭐⭐⭐⭐ 问题逐层递进（点估计→不确定性→效率→泛化），结构清晰
价值: ⭐⭐⭐⭐ 为 LLM 高效不确定性量化提供了轻量化新路径，对 AI 安全与可靠部署有实际意义