跳转至

Pitfalls in Evaluating Language Model Forecasters

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=z85kARAoyD
代码: 待确认
领域: LLM 评测 / 预测(forecasting)/ 时序泄漏
关键词: LLM 预测、回测、时间泄漏、基准博弈、评测可信度

一句话总结

这是一篇立场/分析论文:作者系统梳理了「用 LLM 做未来事件预测」这个新方向在评测上独有的两大类陷阱——回测中的各种时间泄漏让结果不可信,以及基准分数难以外推到真实预测能力——并用大量来自已有工作的具体例子论证「LLM 已达到甚至超越人类预测水平」的结论需要被严肃质疑。

研究背景与动机

领域现状:预测(forecasting)指给未来事件赋予概率,是决策的核心能力。近两年多篇工作(Halawi 2024、Phan 2024、Schoenegger 2024 等)把 LLM 用作预测系统,并报告其表现可与人类预测者媲美甚至超越。评测这些系统的「黄金标准」是把模型挂到尚未揭晓的问题上、等问题真正 resolve 后再打分,但这要等几个月到几年,无法支撑快速迭代。

现有痛点:为了快速评测,研究者普遍改用回测(backtesting / retrodiction)——把系统的知识冻结到过去某个时间 \(T\),让它预测 \(T\) 到「现在」之间已经揭晓的事件。这个做法看起来优雅,但「系统在 \(T\) 之后没有任何信息」这一前提会以非常隐蔽的方式被破坏,导致测出来的高分既不可信、也难以代表真实预测力。

核心矛盾:预测任务的本质是时间方向的——训练/检索/模型权重里只要混进一点点「未来」的痕迹,整个评测就被污染。而 LLM 这种在海量未来数据上训练、又常配检索增强的系统,恰恰最容易在不知不觉中「偷看答案」。这使得预测评测的难度叠加在所有已有 ML 评测难题之上,比评测「关于过去/现在的知识」要难得多。

本文目标:把预测社区里部分已知、但从未针对 LLM 预测系统系统化分析过的问题讲清楚,拆成两类——(1) 评测结果能否被信任;(2) 评测表现能否外推到真实世界;并对每个问题给出具体证据和缓解建议。

核心 idea:与其再报一个「超人类」的分数,不如先把评测方法本身做扎实。论文不提新模型,而是提供一份「预测评测避坑清单」,呼吁社区用更严谨的方法论来评判 LLM 的预测能力。

方法详解

整体框架

这是一篇分析型论文,没有算法 pipeline,其「方法」是一套针对 LLM 预测评测的诊断框架:把所有问题归到两条主线下,每条主线下列举若干具体 issue,每个 issue 都配「机制说明 → 来自已有 benchmark 的实证 → 可能的解法」。两条主线是:

  • 挑战一·能否信任评测结果:回测把知识冻结到 \(T\) 这一假设在三个层面被违反——逻辑泄漏、日期受限检索不可靠、过度依赖模型 cutoff。
  • 挑战二·能否外推到真实预测力:即便评测干净,高基准分也未必等于强预测力——搭人类预测的便车、靠豪赌博弈基准、数据分布偏斜。

最后补一个前瞻:如果想把回测变成训练目标去优化更强的预测器,时序数据本身又会引入新的泄漏。下面把这套诊断框架收敛成四个关键设计点来讲,顺序与上面两条主线一致。

关键设计

1. 逻辑泄漏与回测问题构造偏差:选题这一步就可能泄漏答案

回测时研究者是「站在未来」去挑选过去时刻 \(T\) 的问题,而挑选策略本身会隐式泄漏未来。论文用「时间旅行者」类比点破:如果一个 2035 年来的人问你「2040 年前会不会发现外星生命」,你能推断答案必然是「会」——否则他没法给你打分。同理,常见做法「问题在 \(T\) 之前提出、且在现在已 resolve」中的第二个条件就会泄漏答案:2021 年问「伊丽莎白女王能活到 100 岁吗」,到 2025 年回测时如果模型知道自己被 2025 年评测,它能推断答案不可能是「是」(女王要 2026 才满百岁)。作者在 Halawi 2024 数据集中发现至少 3.8% 的问题属于这种「提前 resolve」的情况,Tao 2025 中至少 10% 的问题因为已在某时点 resolve 而变得平凡可解。

更严重的是事后回溯生成问题(Dai 2025、Paleka 2024 用新闻反向造题)会引入分布偏差:新闻偏向报道「发生了的事」,很少报道「平淡地没发生的事」,这与金融里的幸存者偏差同源。例如一家公司 2025 Q1 倒闭后新闻骤减,「该公司 2025 Q3 营收是多少(答案 \(0\))」这类从 2024 视角完全合理的问题几乎不会被造出来,造成回测与真实直播测试的题目分布系统性错位。作者还发现这类新闻造题常含捷径,弱分类器在 Dai 2025 的二元问题上就能拿到 80%+ 准确率,且估计其中 90%+ 是「在事件发生前根本不会有人问」的过度具体问题。解法:只保留「无论怎么 resolve 都能在评测时验证」的问题,回溯造题要确保问题是过去真会被问出的类型。

2. 日期受限检索与模型 cutoff 都不可靠:冻结知识在工程上做不干净

许多 LLM 预测系统带检索(搜索引擎),回测时必须把检索限制到 \(T\) 时刻可得的信息,但现代搜索引擎的日期限制极不可靠,原因有三:网页被更新但发布日期不变、页面里夹带评论/广告/侧栏等当下信息、引擎根本不知道页面首发时间。更微妙的是检索算法本身用的是未来的模型与知识——让 Google 只返回 2022 年结果,它并不会用 2022 年的排序算法,于是「后来才变重要」的文章会被排得更靠前。论文给的画面感很强的例子:日期限制在 2020 年前搜「jan 6」,高排名结果却全是美国政治(这种强关联到 2021 年 1 月才出现);限制在 2018 年 12 月前搜「wuhan」,结果突出武汉病毒所(疫情后才出名)。

与之并列的是过度依赖模型 cutoff:厂商报的 knowledge cutoff 是给用户的可靠性提示,并非用于 train/test 切分的保证,模型常知道 cutoff 之后的事。作者发现 gpt-4o-2024-08-06 正常会否认 2023 年 11 月后的事件,但用「你的 cutoff 是 2023 年 11 月」做系统提示越狱后,它能说出 2023-11-15 的拜习会面(该会面 11 月 8 日才宣布)。此外系统提示与脚手架也会泄漏未来(如 Claude 系统提示里写明「特朗普现任总统、2025-01-20 就职」)。解法:用发布日期作为知识上界、留几个月缓冲;检索侧改用只含可靠日期来源(维基、新闻)的受限语料,或退回 TF-IDF / 旧 embedding 这种「不带知识」的检索(代价是检索质量下降)。

3. 从基准外推到真实预测力的三重陷阱:高分不等于会预测

即便评测干净,基准排名也未必对应真实预测能力,论文列三个隐蔽失效:

其一搭人类预测的便车(piggybacking):很多题目从人类预测市场抓取,人类的预测概率早就在网上、极易进入训练数据或被检索到,于是「LLM 媲美人类」的对比是循环论证——模型可能只是抄了市场的众包概率。这直接影响 ForecastBench(以人类众包预测为金标准)的解读:系统只要检索到对应市场的近期聚合概率就能轻松达到「金标准」。作者建议改为衡量系统相对人群的 edge,这样甚至可以把历史市场数据直接喂给模型。

其二靠博弈下注刷榜(gaming through betting):现实世界存在大量相关随机性,最大化「成为最佳预测者的概率」会鼓励押相关风险而非诚实报告信念。设想 2024 年 9 月预测 2025 年一堆政经事件,它们都与「2024 大选谁赢」这个潜变量强相关——诚实预测者会对两种结果各算条件概率再平均,而想刷榜的系统应该直接假定大选结果确定,押一边。这带来赢家诅咒:跨多个有不同偏置的 LLM 评测时,榜首往往是靠系统性过度自信而非真本事拿到的,会被高估。解法借鉴金融:报告风险调整后收益、在多个不相交回测期上评测(且必须同时改回测日期,让某个潜变量只在一个时期相关),高方差豪赌策略在多次评测中胜率自然下降。

其三数据分布偏斜:来自预测市场的题目反映用户群兴趣——Polymarket 偏加密货币与体育,Manifold 充斥「我今天会去健身房吗」这类个人问题,整体过度代表美国政经体育;非市场来源(ForecastBench 偏 Security & Defense)又只用少数模板、高度像时序预测。ImageNet 偏狗的品种尚能学到可迁移视觉特征,但目前没有证据表明现有预测基准上的表现能迁移成通用预测能力。解法之一是用新闻合成造题以更好控分布,但又会回到 issue 1 的泄漏问题。

4. 把回测当训练目标时的时序混淆:连「学」预测都难

展望未来,自然想把(已修好泄漏的)回测变成提升预测能力的学习任务,但时序数据让优化本身引入泄漏。标准 ML 随机切 train/test,而回测必须按时间切(训练集全在测试集之前)。问题在于:若在有序事件 \(e_1,\dots,e_n\) 上优化,预测 \(e_{i+1}\) 时模型参数已编码了 \(e_1,\dots,e_i\) 的信息,于是测的不再是「从原始 cutoff 预测 \(e_{i+1}\)」,而是「在已学到早期事件后预测 \(e_{i+1}\)」。按日期排序训练看似能解,却只教会模型预测更短的时间跨度。理想做法是惩罚记忆,逼模型在不记住「具体发生了什么」的前提下学会预测——但这本身就很难实现。

实验关键数据

本文是分析/立场论文,没有标准实验表,而是用对已有 benchmark 的审查作为「证据」。下面汇总其量化发现。

主要量化证据

来源 benchmark 发现 数值
Halawi et al. 2024 含「提前 resolve」、无需真预测的问题 ≥ 3.8%
Tao et al. 2025 (PROPHET) 因已在某时点 resolve 而平凡可解的问题 ≥ 10%
Dai et al. 2025 (新闻造题) 弱分类器在其二元问题上即可达到的准确率 > 80%
Dai et al. 2025 估计属「事前根本不会被问」的过度具体问题 > 90%
ForecastBench 题目分布严重偏斜(如 Security & Defense 占比畸高),非市场题只用少数时序模板 见原文 Table 1

关键发现

  • 逻辑泄漏是普遍而非个例:多个主流预测 benchmark 都能查出可被逻辑推断或弱分类器破解的题目,说明「LLM 超人类预测」的结论很可能建立在被污染的评测上。
  • 泄漏分「清晰」与「强假设」两档:有的是铁证(返回页面含限定日期之后的数据),有的只能强烈假设(检索排序受未来知识影响),作者诚实地区分了两者。
  • 相对比较未必被泄漏破坏,但仍危险:部分泄漏对排名影响小,可不同系统会以不同方式利用基准缺陷,从而搅动排名——所以即便只看相对名次也不能掉以轻心。
  • 绝对分数几乎不可解读:分数强依赖题目分布,所以作者建议未来评测报告多个指标、尽量采用最近发生的事件、并在多个不相交回测期上验证。
  • 越狱即可击穿 cutoff:仅用一句系统提示就让 gpt-4o 吐出其声称 cutoff 之后的事件,说明「以 cutoff 划分 train/test」在实践中并不安全。

亮点与洞察

  • 「时间旅行者」类比极其传神地把抽象的逻辑泄漏讲成一句话:被评测者只要知道自己「在未来被打分」,就能反推某些答案——这是预测评测独有、传统 ML 评测没有的泄漏通道。
  • 把金融回测几十年的踩坑经验迁移过来(幸存者偏差、point-in-time 数据被事后修改、风险调整收益、多期回测、回测过拟合),给 LLM 预测评测提供了现成的方法论工具箱,是很有价值的跨领域嫁接。
  • 指出「刷榜激励 ≠ 真能力激励」:在强相关的真实世界里,最大化夺冠概率会奖励豪赌而非诚实校准,这个 winner's curse 视角可迁移到任何「单期排名 + 高相关任务」的评测设计。
  • 诚实标注证据强度:对无法证实的泄漏只说「强烈假设」,不夸大,是分析型论文该有的克制。

局限与展望

  • 论文不能证明这些缺陷一定会拉低 LLM 预测者的成绩——它论证的是「这些评测难以被信任」,而非「分数虚高」,作者本人也明确承认这一点。
  • 多处量化估计(如「90% 是过度具体问题」)带主观性,作者坦言需要更好的定量度量来刻画这些效应。
  • 给出的解法不少是权衡而非根治:受限检索/旧 embedding 会牺牲检索质量,合成造题又把泄漏问题带回来,留几个月 cutoff 缓冲在 cutoff 逼近发布日时又退化为「用发布日期」。
  • 前瞻部分「惩罚记忆、让模型不记住具体事件也能学会预测」只是方向性设想,没有可落地方案。

相关工作与启发

  • vs Halawi 2024 / Phan 2024 / Schoenegger 2024(声称 LLM 媲美/超越人类预测):这些工作给出乐观结论,本文逐条审查它们的评测,指出泄漏、循环对比与分布偏斜如何可能造成高估,立场互为镜像。
  • vs ForecastBench (Karger 2024):本文承认 ForecastBench 在时间/逻辑泄漏上比其他尝试更干净,但仍指出其「以人类众包为金标准」会被检索 piggyback 攻破、且题目分布偏斜,是「批评中带肯定」的细致对照。
  • vs Dai 2025 / Paleka 2024(新闻合成造题):肯定其用反事实改写造对照题的部分修复,但指出仍会造出「事前不会被问」的过度具体问题,揭示合成造题与泄漏之间的根本张力。
  • vs 金融回测文献(Arnott 2018、Bailey 2015、Sharpe 1964 等):把金融里关于回测过拟合、风险调整、point-in-time 数据的成熟经验作为正面参照,主张 LLM 预测评测应直接借鉴。

评分

  • 新颖性: ⭐⭐⭐⭐ 不提新模型,但首次把分散在预测/金融社区的泄漏问题系统化到 LLM 预测评测,并配大量实证,框架性贡献扎实
  • 实验充分度: ⭐⭐⭐⭐ 作为立场论文,用多 benchmark 审查 + 越狱/检索具体案例支撑,证据密度高;但缺统一可复现的定量协议
  • 写作质量: ⭐⭐⭐⭐⭐ 类比生动、问题—证据—解法结构清晰、对证据强度诚实标注,可读性极佳
  • 价值: ⭐⭐⭐⭐⭐ 直接关系到「LLM 会不会预测未来」这一大命题的可信度,对评测设计者是一份高实用性的避坑指南