OpenEstimate: Evaluating LLMs on Reasoning Under Uncertainty with Real-World Data¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=sAzUQkP47r
代码: https://github.com/alanarenda/openestimate
领域: LLM推理 / 不确定性推理 / 评测基准
关键词: 贝叶斯先验, 概率估计, 校准度, 不确定性推理, 评测基准

一句话总结¶

OpenEstimate 是一个让前沿大模型在真实世界数据上"凭脑子估概率分布"的评测基准：把公开观测数据集随机切片得到 178 个派生条件统计量作为真值，让模型把对这些量的信念表达成贝叶斯先验，再用准确度和校准度去衡量——结果发现六个前沿模型给出的先验大致只值"从真实分布里采 5 个样本"，且置信度与准确度几乎不相关。

研究背景与动机¶

领域现状：当下评测 LLM 推理能力的基准，绝大多数都假设"问题有明确答案、信息完整无歧义"——数学题、代码题、知识问答都是如此。

现有痛点：但模型真正被部署的场景（医疗、金融、公共政策）恰恰相反，几乎都是信息残缺、必须在不确定性下决策的开放问题。比如一个分析师评估早期投资的总可达市场，他给出的不该是一个点估计，而该是一条概率分布——既有中心估计，又编码了自己的把握程度。模型在这类"生成可靠贝叶斯先验"上的能力，至今几乎没被刻画过。

核心矛盾：想做这种评测有两个相互拉扯的硬约束。其一是要 grounded——问题必须逼模型调用预训练里的背景知识去形成高质量先验；其二是要避免信息泄漏——如果真值答案本身就写在训练语料里，那测的就是记忆而非推理。人类知识大多已被预训练吃进去了，凭空造"答案已知但语料里没有"的新题，要么得做昂贵的新实验采数据，要么就泄漏。

本文目标：构造一个既扎根真实数据、真值可验证，又不太可能在预训练语料里被原样记住的概率估计评测，并量化前沿模型先验的准确度与校准度。

切入角度：作者的关键观察是——把大规模公开观测数据集按随机抽取的条件做过滤，再对目标属性做聚合，得到的"派生条件统计量"天然满足这两个约束：它是可经验验证的真值，但因为条件组合是随机抽的，几乎不会以现成事实形式出现在语料里。

核心 idea：用"对随机切片的真实数据集统计量提问、要求模型回答贝叶斯先验分布"来同时实现 grounded 与抗泄漏，并用 error ratio / win rate / CRPS 把先验质量量化成"相当于几个真实样本"。

方法详解¶

OpenEstimate 本质是一套数据集构造 + 信念表达 + 评测指标三段式的基准协议，不是一个新模型。整条流水线是：从公开观测数据集（Glassdoor / Pitchbook / NHANES）出发，按随机条件过滤聚合出可验证的统计量真值 → 用自然语言把统计量描述给模型、让模型选一个参数化分布作为贝叶斯先验 → 把先验（及"先验+少量真实样本"得到的后验）跟"无信息先验 + N 个真实样本"的统计基线对比，算准确度与校准度。因为这是一个 benchmark 类工作、没有清晰的多模块 pipeline，这里不画框架图，用文字 + 公式讲清。

整体框架¶

输入是三个领域的公开表格数据集，输出是 178 个带真值的概率估计题以及一整套评测指标。中间分三步：派生条件统计量生成（把数据集切成模型不太可能背过、但答案可算的题）、贝叶斯先验诱导（规定模型怎么把信念说成分布）、双维度评测（准确度 + 校准度，都相对"少样本统计基线"打分）。三步对应下面三个关键设计。

关键设计¶

1. 派生条件统计量：用随机条件切片同时实现 grounded 与抗泄漏

这一步直接对准"既要逼模型用知识、又不能泄漏真值"的核心矛盾。作者从每个数据集构造两类统计量：边际统计量（marginal，用全表算，如"美国成年人的平均体重"）和条件统计量（conditional，对最多三个附加条件过滤后的子集算，如"同时患糖尿病、服用抗抑郁药、且胆固醇高于某阈值的成年人的平均体重"）。条件是从数据集里经验观测到的取值中随机采样得到的。生成过程见算法 1：对 \(k\in\{0,1,2,3\}\) 个条件，随机抽 \(k\) 个不同属性 \(a_k\)、按其过滤出 \(D'\)，若样本量 \(|D'|\ge n\) 就在 \(D'\) 上估均值 \(\mu^*\) 和标准误 \(se^*\)。

关键的筛选门槛是：只有当条件统计量相对边际均值 \(\mu_0\) 的偏移足够大时才收下，即要求 \(|\mu^*-\mu_0|>\tau\) 且 \(|\mu^*-\mu_0|>se^*\)（沿用 Xia et al. 2024，阈值约 5%）。这保证留下的统计量真正反映子人群间的有意义差异，而不是采样噪声的小波动。随机条件组合（如"非美国、非科技、员工数>10 的公司的平均融资额"）几乎不会以现成事实出现在语料里，但有强领域知识的模型仍能靠相邻知识推过去——这正是"测推理而非记忆"的设计要害。最终在三领域得到 178 个统计量（Glassdoor 43、Pitchbook 61、NHANES 74），且能零成本扩展到新数据集。

2. 贝叶斯先验诱导：逼模型同时交代中心估计与把握程度

如果只让模型给点估计，就只能测"估得准不准"这一阶信息，完全测不出模型对自己答案的不确定性是否恰当。所以 OpenEstimate 要求模型把信念表达成一条完整的概率分布——它得自己挑分布族并定参数。实验中模型一致地选了三种形式之一：

\[X \sim \mathcal{N}(\mu, \sigma^2),\quad X \sim \mathrm{Beta}(\alpha, \beta),\quad X \sim \mathrm{LogNormal}(\mu, \sigma^2)\]

作者推测这是因为它们恰好匹配三类量：高斯对应连续对称量（如工资），Beta 对应比例量（如患病率），对数正态对应右偏量（如初创公司估值）。这条先验既能单独评，也能跟数据集里的真实样本结合算后验、用于下游推断——这一步把"模型的背景知识"显式编码成了可贝叶斯更新的对象。

3. 准确度 + 校准度双指标：把先验质量换算成"值几个真实样本"

光说先验好不好太空，作者把它锚定到一个少样本统计基线：从朴素平坦先验（Beta 的 \(\alpha=\beta=1\)；高斯的 \(\mu=0,\sigma^2=10^5\)）出发，从相关子人群里随机抽 \(|\tilde D|=5\) 个样本算后验 \(\tilde p_i\)。准确度上，先算 LLM 先验均值与真值的平均绝对误差 \(\mathrm{MAE}_{\text{LLM}}=\frac1n\sum_i|\mu_i^*-\mathrm{mean}(\hat p_i)|\)，再除以基线 MAE 得到 error ratio——比值小于 1 说明模型先验比"5 个噪声样本"更准。同时报 win rate：模型比基线更接近真值的题目占比，\(\frac1N\sum_i \mathbb{1}\{\mathrm{MAE}_{\text{LLM},i}<\mathrm{MAE}_{\text{baseline},i}\}\)，并对 \(N\in\{5,10,20,30\}\) 多档基线都算；此外把 LLM 先验与同样 \(N\) 个样本结合算 LLM 后验 \(\hat{\tilde p}(\mu\mid\tilde D)\propto\hat p(\mu)\,p(\tilde D\mid\mu)\)，看用模型先验起步是否比用无信息先验起步得到更好的后验。

校准度上用连续排序概率得分（CRPS），它不用分箱就能同时惩罚校准偏差和过度分散：

\[\mathrm{CRPS}(F, y) = \int_{-\infty}^{\infty}\big(F(x) - \mathbb{I}(x \ge y)\big)^2\, dx\]

其中 \(F\) 是预测累积分布、\(y\) 是真值，越低越好。同样相对 5 样本基线报 CRPS ratio。error ratio 看平均误差、win rate 看一致性、CRPS 看不确定性是否诚实——三者合起来才是先验质量的完整画像。

损失函数 / 训练策略¶

本文是评测基准，不涉及训练。评测全程为零样本：不做微调、不做检索增强、不做超出"直接要求模型参数化分布"之外的提示工程，以此衡量模型出厂时的概率估计能力。

实验关键数据¶

评测六个前沿模型（含三个推理模型）：Llama 3.1 70B、GPT-4o、o3-mini、o4-mini、Qwen3-235B-A22B（Llama 3.1 8B 因无法正确理解单位被剔除），均在中等温度 / 中等推理强度下、用标准系统提示运行。

主实验：先验与后验的胜率¶

领域	样本量 N	先验胜率（% Prior Better）	后验胜率（% Posterior Better）
Glassdoor	5	37.0%	71.4%
Glassdoor	30	8.7%	70.5%
Pitchbook	5	50.8%	69.6%
Pitchbook	30	50.8%	81.6%
NHANES	5	74.3%	70.4%
NHANES	30	37.8%	50.4%

固定 o4-mini 看胜率：独立的 LLM 先验大致在 ~40–70% 的题上赢过 5 样本基线，但随着基线样本数变大，先验胜率迅速跌落（Glassdoor 从 37% 跌到 8.7%）。核心结论：单看先验，模型大致只值"约 5 个真实样本"；但即便先验本身常常不准，它和数据结合后非常有用——LLM 后验普遍能匹配甚至超过用朴素先验的统计基线。

校准度：CRPS Ratio（vs 5 样本基线，越低越好）¶

模型	Glassdoor	NHANES	Pitchbook
GPT-4o	3.31	1.86	1.10
Llama-3-70B	4.56	2.76	1.13
Qwen3-235B	2.50	1.65	1.04
o3-mini	3.17	1.35	0.99
o4-mini	2.42	1.17	1.01

推理模型（o3-mini / o4-mini）整体校准最好。但表现强烈依赖领域：Pitchbook 上所有模型都和基线相当（比值 ~1.0），NHANES 上小模型严重崩盘（被剔除的 Llama-3-8B 比基线差 20 倍）。

消融实验¶

配置	影响	说明
温度 / 推理强度	无显著影响	在 o4-mini 与 gpt-4o 上调温度都不改变质量
系统提示	无显著影响	换系统提示无实质改善
先验诱导协议	无显著影响	换诱导方式无实质改善

关键发现¶

先验不准但有用：单独的 LLM 先验平均绝对误差常常不如 5 个样本，但作为后验起点能稳定提升下游估计——这是全文最反直觉的点。
系统性高估：所有模型族都倾向系统性高估（第一分位占比 > 25%），Pitchbook 上还同时存在两尾过重（高估与低估并存）。
置信度≠准确度：模型自报的不确定性与实际准确度的相关性整体很弱，只有 NHANES 上不确定性还算是准确度的好指标，Pitchbook / Glassdoor 上不是——说明现有模型"知道自己不知道"的能力很差。
推理能力的价值在难领域才凸显：模型规模与推理能力在 NHANES（医疗）最关键，在 Pitchbook（金融）上连小模型都还行。
没有一个模型族全面领先：排名随领域变化，调推理设置也救不回来，说明要靠新方法而非调参来改善校准。

亮点与洞察¶

派生条件统计量是一个可持续抗泄漏的基准构造法：靠"随机切片真实数据集"同时拿到可验证真值与抗记忆性，还能零成本扩到新领域——相比"会随时间过期"的预测类基准（forecasting 问题一旦揭晓就泄漏进训练集），它设计上就能长期保持难度。
"先验值几个样本"是个极有传播力的度量：把抽象的"先验好不好"翻译成"相当于从总体里采几个样本"，让不同单位、不同领域的结果可比，也直观可怖（前沿模型≈5 个样本）。
解耦先验与后验评估：揭示了"先验本身可能差、但当作贝叶斯起点仍有正价值"这一非平凡现象，提示实践中应把 LLM 当先验生成器而非终答给出者。
可迁移思路：用随机条件聚合真实表格数据来造"答案可算但语料没背过"的题，这套思路可迁移到任何需要抗泄漏的知识/推理评测。

局限与展望¶

真值本身有估计误差：OpenEstimate 的真值是从有限样本估的，可能带误差。
泄漏未被完全消除：构造上压低了系统性泄漏，但不同程度的泄漏仍可能发生（如全美糖尿病患病率这类被广泛报道的边际量）。
覆盖面有限：当前只来自三个数据集、三个领域；扩到更多领域才能更全面刻画先验能力。
只评零样本：未涉及检索增强、微调等训练时干预——作者把"为不确定性意识做训练时干预"列为后续方向。
自己的观察：三种分布族是模型自选的，对真值天然就是右偏/有界/多峰的统计量，强行套高斯/Beta/对数正态可能引入系统性的分布族不匹配误差，这部分被混进了"校准差"里，难以与模型自身的不确定性误判区分。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 派生条件统计量这一抗泄漏基准构造法 + "先验值几个样本"的锚定度量，都是干净且有传播力的新想法
实验充分度: ⭐⭐⭐⭐ 六模型 × 三领域 × 准确度/校准度双维度 + 推理设置消融，覆盖扎实；但仅三领域 178 题、规模偏小
写作质量: ⭐⭐⭐⭐⭐ 动机—构造—指标—发现层层递进，公式与图表清晰，结论诚实
价值: ⭐⭐⭐⭐⭐ 直指 LLM 在高风险场景落地的前置能力（可靠概率推理），既是诊断工具也是开放平台