跳转至

OpenEstimate: Evaluating LLMs on Reasoning Under Uncertainty with Real-World Data

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=sAzUQkP47r
代码: https://github.com/alanarenda/openestimate
领域: LLM推理 / 不确定性推理 / 评测基准
关键词: 贝叶斯先验, 概率估计, 校准度, 不确定性推理, 评测基准

一句话总结

OpenEstimate 是一个让前沿大模型在真实世界数据上"凭脑子估概率分布"的评测基准:把公开观测数据集随机切片得到 178 个派生条件统计量作为真值,让模型把对这些量的信念表达成贝叶斯先验,再用准确度和校准度去衡量——结果发现六个前沿模型给出的先验大致只值"从真实分布里采 5 个样本",且置信度与准确度几乎不相关。

研究背景与动机

领域现状:当下评测 LLM 推理能力的基准,绝大多数都假设"问题有明确答案、信息完整无歧义"——数学题、代码题、知识问答都是如此。

现有痛点:但模型真正被部署的场景(医疗、金融、公共政策)恰恰相反,几乎都是信息残缺、必须在不确定性下决策的开放问题。比如一个分析师评估早期投资的总可达市场,他给出的不该是一个点估计,而该是一条概率分布——既有中心估计,又编码了自己的把握程度。模型在这类"生成可靠贝叶斯先验"上的能力,至今几乎没被刻画过。

核心矛盾:想做这种评测有两个相互拉扯的硬约束。其一是要 grounded——问题必须逼模型调用预训练里的背景知识去形成高质量先验;其二是要避免信息泄漏——如果真值答案本身就写在训练语料里,那测的就是记忆而非推理。人类知识大多已被预训练吃进去了,凭空造"答案已知但语料里没有"的新题,要么得做昂贵的新实验采数据,要么就泄漏。

本文目标:构造一个既扎根真实数据、真值可验证,又不太可能在预训练语料里被原样记住的概率估计评测,并量化前沿模型先验的准确度与校准度。

切入角度:作者的关键观察是——把大规模公开观测数据集按随机抽取的条件做过滤,再对目标属性做聚合,得到的"派生条件统计量"天然满足这两个约束:它是可经验验证的真值,但因为条件组合是随机抽的,几乎不会以现成事实形式出现在语料里。

核心 idea:用"对随机切片的真实数据集统计量提问、要求模型回答贝叶斯先验分布"来同时实现 grounded 与抗泄漏,并用 error ratio / win rate / CRPS 把先验质量量化成"相当于几个真实样本"。

方法详解

OpenEstimate 本质是一套数据集构造 + 信念表达 + 评测指标三段式的基准协议,不是一个新模型。整条流水线是:从公开观测数据集(Glassdoor / Pitchbook / NHANES)出发,按随机条件过滤聚合出可验证的统计量真值 → 用自然语言把统计量描述给模型、让模型选一个参数化分布作为贝叶斯先验 → 把先验(及"先验+少量真实样本"得到的后验)跟"无信息先验 + N 个真实样本"的统计基线对比,算准确度与校准度。因为这是一个 benchmark 类工作、没有清晰的多模块 pipeline,这里不画框架图,用文字 + 公式讲清。

整体框架

输入是三个领域的公开表格数据集,输出是 178 个带真值的概率估计题以及一整套评测指标。中间分三步:派生条件统计量生成(把数据集切成模型不太可能背过、但答案可算的题)、贝叶斯先验诱导(规定模型怎么把信念说成分布)、双维度评测(准确度 + 校准度,都相对"少样本统计基线"打分)。三步对应下面三个关键设计。

关键设计

1. 派生条件统计量:用随机条件切片同时实现 grounded 与抗泄漏

这一步直接对准"既要逼模型用知识、又不能泄漏真值"的核心矛盾。作者从每个数据集构造两类统计量:边际统计量(marginal,用全表算,如"美国成年人的平均体重")和条件统计量(conditional,对最多三个附加条件过滤后的子集算,如"同时患糖尿病、服用抗抑郁药、且胆固醇高于某阈值的成年人的平均体重")。条件是从数据集里经验观测到的取值中随机采样得到的。生成过程见算法 1:对 \(k\in\{0,1,2,3\}\) 个条件,随机抽 \(k\) 个不同属性 \(a_k\)、按其过滤出 \(D'\),若样本量 \(|D'|\ge n\) 就在 \(D'\) 上估均值 \(\mu^*\) 和标准误 \(se^*\)

关键的筛选门槛是:只有当条件统计量相对边际均值 \(\mu_0\) 的偏移足够大时才收下,即要求 \(|\mu^*-\mu_0|>\tau\)\(|\mu^*-\mu_0|>se^*\)(沿用 Xia et al. 2024,阈值约 5%)。这保证留下的统计量真正反映子人群间的有意义差异,而不是采样噪声的小波动。随机条件组合(如"非美国、非科技、员工数>10 的公司的平均融资额")几乎不会以现成事实出现在语料里,但有强领域知识的模型仍能靠相邻知识推过去——这正是"测推理而非记忆"的设计要害。最终在三领域得到 178 个统计量(Glassdoor 43、Pitchbook 61、NHANES 74),且能零成本扩展到新数据集。

2. 贝叶斯先验诱导:逼模型同时交代中心估计与把握程度

如果只让模型给点估计,就只能测"估得准不准"这一阶信息,完全测不出模型对自己答案的不确定性是否恰当。所以 OpenEstimate 要求模型把信念表达成一条完整的概率分布——它得自己挑分布族并定参数。实验中模型一致地选了三种形式之一:

\[X \sim \mathcal{N}(\mu, \sigma^2),\quad X \sim \mathrm{Beta}(\alpha, \beta),\quad X \sim \mathrm{LogNormal}(\mu, \sigma^2)\]

作者推测这是因为它们恰好匹配三类量:高斯对应连续对称量(如工资),Beta 对应比例量(如患病率),对数正态对应右偏量(如初创公司估值)。这条先验既能单独评,也能跟数据集里的真实样本结合算后验、用于下游推断——这一步把"模型的背景知识"显式编码成了可贝叶斯更新的对象。

3. 准确度 + 校准度双指标:把先验质量换算成"值几个真实样本"

光说先验好不好太空,作者把它锚定到一个少样本统计基线:从朴素平坦先验(Beta 的 \(\alpha=\beta=1\);高斯的 \(\mu=0,\sigma^2=10^5\))出发,从相关子人群里随机抽 \(|\tilde D|=5\) 个样本算后验 \(\tilde p_i\)。准确度上,先算 LLM 先验均值与真值的平均绝对误差 \(\mathrm{MAE}_{\text{LLM}}=\frac1n\sum_i|\mu_i^*-\mathrm{mean}(\hat p_i)|\),再除以基线 MAE 得到 error ratio——比值小于 1 说明模型先验比"5 个噪声样本"更准。同时报 win rate:模型比基线更接近真值的题目占比,\(\frac1N\sum_i \mathbb{1}\{\mathrm{MAE}_{\text{LLM},i}<\mathrm{MAE}_{\text{baseline},i}\}\),并对 \(N\in\{5,10,20,30\}\) 多档基线都算;此外把 LLM 先验与同样 \(N\) 个样本结合算 LLM 后验 \(\hat{\tilde p}(\mu\mid\tilde D)\propto\hat p(\mu)\,p(\tilde D\mid\mu)\),看用模型先验起步是否比用无信息先验起步得到更好的后验。

校准度上用连续排序概率得分(CRPS),它不用分箱就能同时惩罚校准偏差和过度分散:

\[\mathrm{CRPS}(F, y) = \int_{-\infty}^{\infty}\big(F(x) - \mathbb{I}(x \ge y)\big)^2\, dx\]

其中 \(F\) 是预测累积分布、\(y\) 是真值,越低越好。同样相对 5 样本基线报 CRPS ratio。error ratio 看平均误差、win rate 看一致性、CRPS 看不确定性是否诚实——三者合起来才是先验质量的完整画像。

损失函数 / 训练策略

本文是评测基准,不涉及训练。评测全程为零样本:不做微调、不做检索增强、不做超出"直接要求模型参数化分布"之外的提示工程,以此衡量模型出厂时的概率估计能力。

实验关键数据

评测六个前沿模型(含三个推理模型):Llama 3.1 70B、GPT-4o、o3-mini、o4-mini、Qwen3-235B-A22B(Llama 3.1 8B 因无法正确理解单位被剔除),均在中等温度 / 中等推理强度下、用标准系统提示运行。

主实验:先验与后验的胜率

领域 样本量 N 先验胜率(% Prior Better) 后验胜率(% Posterior Better)
Glassdoor 5 37.0% 71.4%
Glassdoor 30 8.7% 70.5%
Pitchbook 5 50.8% 69.6%
Pitchbook 30 50.8% 81.6%
NHANES 5 74.3% 70.4%
NHANES 30 37.8% 50.4%

固定 o4-mini 看胜率:独立的 LLM 先验大致在 ~40–70% 的题上赢过 5 样本基线,但随着基线样本数变大,先验胜率迅速跌落(Glassdoor 从 37% 跌到 8.7%)。核心结论:单看先验,模型大致只值"约 5 个真实样本";但即便先验本身常常不准,它和数据结合后非常有用——LLM 后验普遍能匹配甚至超过用朴素先验的统计基线。

校准度:CRPS Ratio(vs 5 样本基线,越低越好)

模型 Glassdoor NHANES Pitchbook
GPT-4o 3.31 1.86 1.10
Llama-3-70B 4.56 2.76 1.13
Qwen3-235B 2.50 1.65 1.04
o3-mini 3.17 1.35 0.99
o4-mini 2.42 1.17 1.01

推理模型(o3-mini / o4-mini)整体校准最好。但表现强烈依赖领域:Pitchbook 上所有模型都和基线相当(比值 ~1.0),NHANES 上小模型严重崩盘(被剔除的 Llama-3-8B 比基线差 20 倍)。

消融实验

配置 影响 说明
温度 / 推理强度 无显著影响 在 o4-mini 与 gpt-4o 上调温度都不改变质量
系统提示 无显著影响 换系统提示无实质改善
先验诱导协议 无显著影响 换诱导方式无实质改善

关键发现

  • 先验不准但有用:单独的 LLM 先验平均绝对误差常常不如 5 个样本,但作为后验起点能稳定提升下游估计——这是全文最反直觉的点。
  • 系统性高估:所有模型族都倾向系统性高估(第一分位占比 > 25%),Pitchbook 上还同时存在两尾过重(高估与低估并存)。
  • 置信度≠准确度:模型自报的不确定性与实际准确度的相关性整体很弱,只有 NHANES 上不确定性还算是准确度的好指标,Pitchbook / Glassdoor 上不是——说明现有模型"知道自己不知道"的能力很差。
  • 推理能力的价值在难领域才凸显:模型规模与推理能力在 NHANES(医疗)最关键,在 Pitchbook(金融)上连小模型都还行。
  • 没有一个模型族全面领先:排名随领域变化,调推理设置也救不回来,说明要靠新方法而非调参来改善校准。

亮点与洞察

  • 派生条件统计量是一个可持续抗泄漏的基准构造法:靠"随机切片真实数据集"同时拿到可验证真值与抗记忆性,还能零成本扩到新领域——相比"会随时间过期"的预测类基准(forecasting 问题一旦揭晓就泄漏进训练集),它设计上就能长期保持难度。
  • "先验值几个样本"是个极有传播力的度量:把抽象的"先验好不好"翻译成"相当于从总体里采几个样本",让不同单位、不同领域的结果可比,也直观可怖(前沿模型≈5 个样本)。
  • 解耦先验与后验评估:揭示了"先验本身可能差、但当作贝叶斯起点仍有正价值"这一非平凡现象,提示实践中应把 LLM 当先验生成器而非终答给出者。
  • 可迁移思路:用随机条件聚合真实表格数据来造"答案可算但语料没背过"的题,这套思路可迁移到任何需要抗泄漏的知识/推理评测。

局限与展望

  • 真值本身有估计误差:OpenEstimate 的真值是从有限样本估的,可能带误差。
  • 泄漏未被完全消除:构造上压低了系统性泄漏,但不同程度的泄漏仍可能发生(如全美糖尿病患病率这类被广泛报道的边际量)。
  • 覆盖面有限:当前只来自三个数据集、三个领域;扩到更多领域才能更全面刻画先验能力。
  • 只评零样本:未涉及检索增强、微调等训练时干预——作者把"为不确定性意识做训练时干预"列为后续方向。
  • 自己的观察:三种分布族是模型自选的,对真值天然就是右偏/有界/多峰的统计量,强行套高斯/Beta/对数正态可能引入系统性的分布族不匹配误差,这部分被混进了"校准差"里,难以与模型自身的不确定性误判区分。

相关工作与启发

  • vs Paruchuri et al. (2024) / Nafar et al. (2025)(把概率推理当数学题):他们用理想化分布或给定贝叶斯网络测概率推理,输入完整、输出明确;本文测真实世界估计,相关信息得自己推断、真值可能本就模糊不可得,难度与现实性都更高。
  • vs Xia et al. (2024) / Feng et al. (2024)(给概率推理加结构):他们让模型提出随机变量与矩约束、拟合对数线性分布,或多步头脑风暴构造贝叶斯网络,但落点是离散多选题;本文直接评估单变量连续分布的准确度与校准度。
  • vs Selby et al. (2025)(也诱导参数化贝叶斯先验):他们用人类专家诱导或特定场景历史数据当对照;本文专门构造跨领域的派生变量、直接相对估计真值评准确度与校准度,并系统分析模型族与推理设置的影响。
  • vs LM 预测类基准(Karger et al. 2024 等):预测未来事件的题一旦揭晓就泄漏进训练语料、会变"陈旧"需不断换新;本文转向对表格数据细粒度切片的推理,设计上能长期保持挑战性。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 派生条件统计量这一抗泄漏基准构造法 + "先验值几个样本"的锚定度量,都是干净且有传播力的新想法
  • 实验充分度: ⭐⭐⭐⭐ 六模型 × 三领域 × 准确度/校准度双维度 + 推理设置消融,覆盖扎实;但仅三领域 178 题、规模偏小
  • 写作质量: ⭐⭐⭐⭐⭐ 动机—构造—指标—发现层层递进,公式与图表清晰,结论诚实
  • 价值: ⭐⭐⭐⭐⭐ 直指 LLM 在高风险场景落地的前置能力(可靠概率推理),既是诊断工具也是开放平台