Pitfalls in Evaluating Language Model Forecasters¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=z85kARAoyD
代码: 待确认
领域: LLM 评测 / 预测（forecasting）/ 时序泄漏
关键词: LLM 预测、回测、时间泄漏、基准博弈、评测可信度

一句话总结¶

这是一篇立场/分析论文：作者系统梳理了「用 LLM 做未来事件预测」这个新方向在评测上独有的两大类陷阱——回测中的各种时间泄漏让结果不可信，以及基准分数难以外推到真实预测能力——并用大量来自已有工作的具体例子论证「LLM 已达到甚至超越人类预测水平」的结论需要被严肃质疑。

研究背景与动机¶

领域现状：预测（forecasting）指给未来事件赋予概率，是决策的核心能力。近两年多篇工作（Halawi 2024、Phan 2024、Schoenegger 2024 等）把 LLM 用作预测系统，并报告其表现可与人类预测者媲美甚至超越。评测这些系统的「黄金标准」是把模型挂到尚未揭晓的问题上、等问题真正 resolve 后再打分，但这要等几个月到几年，无法支撑快速迭代。

现有痛点：为了快速评测，研究者普遍改用回测（backtesting / retrodiction）——把系统的知识冻结到过去某个时间 \(T\)，让它预测 \(T\) 到「现在」之间已经揭晓的事件。这个做法看起来优雅，但「系统在 \(T\) 之后没有任何信息」这一前提会以非常隐蔽的方式被破坏，导致测出来的高分既不可信、也难以代表真实预测力。

核心矛盾：预测任务的本质是时间方向的——训练/检索/模型权重里只要混进一点点「未来」的痕迹，整个评测就被污染。而 LLM 这种在海量未来数据上训练、又常配检索增强的系统，恰恰最容易在不知不觉中「偷看答案」。这使得预测评测的难度叠加在所有已有 ML 评测难题之上，比评测「关于过去/现在的知识」要难得多。

本文目标：把预测社区里部分已知、但从未针对 LLM 预测系统系统化分析过的问题讲清楚，拆成两类——(1) 评测结果能否被信任；(2) 评测表现能否外推到真实世界；并对每个问题给出具体证据和缓解建议。

核心 idea：与其再报一个「超人类」的分数，不如先把评测方法本身做扎实。论文不提新模型，而是提供一份「预测评测避坑清单」，呼吁社区用更严谨的方法论来评判 LLM 的预测能力。

方法详解¶

整体框架¶

这是一篇分析型论文，没有算法 pipeline，其「方法」是一套针对 LLM 预测评测的诊断框架：把所有问题归到两条主线下，每条主线下列举若干具体 issue，每个 issue 都配「机制说明 → 来自已有 benchmark 的实证 → 可能的解法」。两条主线是：

挑战一·能否信任评测结果：回测把知识冻结到 \(T\) 这一假设在三个层面被违反——逻辑泄漏、日期受限检索不可靠、过度依赖模型 cutoff。
挑战二·能否外推到真实预测力：即便评测干净，高基准分也未必等于强预测力——搭人类预测的便车、靠豪赌博弈基准、数据分布偏斜。

最后补一个前瞻：如果想把回测变成训练目标去优化更强的预测器，时序数据本身又会引入新的泄漏。下面把这套诊断框架收敛成四个关键设计点来讲，顺序与上面两条主线一致。

关键设计¶

1. 逻辑泄漏与回测问题构造偏差：选题这一步就可能泄漏答案

回测时研究者是「站在未来」去挑选过去时刻 \(T\) 的问题，而挑选策略本身会隐式泄漏未来。论文用「时间旅行者」类比点破：如果一个 2035 年来的人问你「2040 年前会不会发现外星生命」，你能推断答案必然是「会」——否则他没法给你打分。同理，常见做法「问题在 \(T\) 之前提出、且在现在已 resolve」中的第二个条件就会泄漏答案：2021 年问「伊丽莎白女王能活到 100 岁吗」，到 2025 年回测时如果模型知道自己被 2025 年评测，它能推断答案不可能是「是」（女王要 2026 才满百岁）。作者在 Halawi 2024 数据集中发现至少 3.8% 的问题属于这种「提前 resolve」的情况，Tao 2025 中至少 10% 的问题因为已在某时点 resolve 而变得平凡可解。

更严重的是事后回溯生成问题（Dai 2025、Paleka 2024 用新闻反向造题）会引入分布偏差：新闻偏向报道「发生了的事」，很少报道「平淡地没发生的事」，这与金融里的幸存者偏差同源。例如一家公司 2025 Q1 倒闭后新闻骤减，「该公司 2025 Q3 营收是多少（答案 \(0\)）」这类从 2024 视角完全合理的问题几乎不会被造出来，造成回测与真实直播测试的题目分布系统性错位。作者还发现这类新闻造题常含捷径，弱分类器在 Dai 2025 的二元问题上就能拿到 80%+ 准确率，且估计其中 90%+ 是「在事件发生前根本不会有人问」的过度具体问题。解法：只保留「无论怎么 resolve 都能在评测时验证」的问题，回溯造题要确保问题是过去真会被问出的类型。

2. 日期受限检索与模型 cutoff 都不可靠：冻结知识在工程上做不干净

许多 LLM 预测系统带检索（搜索引擎），回测时必须把检索限制到 \(T\) 时刻可得的信息，但现代搜索引擎的日期限制极不可靠，原因有三：网页被更新但发布日期不变、页面里夹带评论/广告/侧栏等当下信息、引擎根本不知道页面首发时间。更微妙的是检索算法本身用的是未来的模型与知识——让 Google 只返回 2022 年结果，它并不会用 2022 年的排序算法，于是「后来才变重要」的文章会被排得更靠前。论文给的画面感很强的例子：日期限制在 2020 年前搜「jan 6」，高排名结果却全是美国政治（这种强关联到 2021 年 1 月才出现）；限制在 2018 年 12 月前搜「wuhan」，结果突出武汉病毒所（疫情后才出名）。

与之并列的是过度依赖模型 cutoff：厂商报的 knowledge cutoff 是给用户的可靠性提示，并非用于 train/test 切分的保证，模型常知道 cutoff 之后的事。作者发现 gpt-4o-2024-08-06 正常会否认 2023 年 11 月后的事件，但用「你的 cutoff 是 2023 年 11 月」做系统提示越狱后，它能说出 2023-11-15 的拜习会面（该会面 11 月 8 日才宣布）。此外系统提示与脚手架也会泄漏未来（如 Claude 系统提示里写明「特朗普现任总统、2025-01-20 就职」）。解法：用发布日期作为知识上界、留几个月缓冲；检索侧改用只含可靠日期来源（维基、新闻）的受限语料，或退回 TF-IDF / 旧 embedding 这种「不带知识」的检索（代价是检索质量下降）。

3. 从基准外推到真实预测力的三重陷阱：高分不等于会预测

即便评测干净，基准排名也未必对应真实预测能力，论文列三个隐蔽失效：

其一搭人类预测的便车（piggybacking）：很多题目从人类预测市场抓取，人类的预测概率早就在网上、极易进入训练数据或被检索到，于是「LLM 媲美人类」的对比是循环论证——模型可能只是抄了市场的众包概率。这直接影响 ForecastBench（以人类众包预测为金标准）的解读：系统只要检索到对应市场的近期聚合概率就能轻松达到「金标准」。作者建议改为衡量系统相对人群的 edge，这样甚至可以把历史市场数据直接喂给模型。

其二靠博弈下注刷榜（gaming through betting）：现实世界存在大量相关随机性，最大化「成为最佳预测者的概率」会鼓励押相关风险而非诚实报告信念。设想 2024 年 9 月预测 2025 年一堆政经事件，它们都与「2024 大选谁赢」这个潜变量强相关——诚实预测者会对两种结果各算条件概率再平均，而想刷榜的系统应该直接假定大选结果确定，押一边。这带来赢家诅咒：跨多个有不同偏置的 LLM 评测时，榜首往往是靠系统性过度自信而非真本事拿到的，会被高估。解法借鉴金融：报告风险调整后收益、在多个不相交回测期上评测（且必须同时改回测日期，让某个潜变量只在一个时期相关），高方差豪赌策略在多次评测中胜率自然下降。

其三数据分布偏斜：来自预测市场的题目反映用户群兴趣——Polymarket 偏加密货币与体育，Manifold 充斥「我今天会去健身房吗」这类个人问题，整体过度代表美国政经体育；非市场来源（ForecastBench 偏 Security & Defense）又只用少数模板、高度像时序预测。ImageNet 偏狗的品种尚能学到可迁移视觉特征，但目前没有证据表明现有预测基准上的表现能迁移成通用预测能力。解法之一是用新闻合成造题以更好控分布，但又会回到 issue 1 的泄漏问题。

4. 把回测当训练目标时的时序混淆：连「学」预测都难

展望未来，自然想把（已修好泄漏的）回测变成提升预测能力的学习任务，但时序数据让优化本身引入泄漏。标准 ML 随机切 train/test，而回测必须按时间切（训练集全在测试集之前）。问题在于：若在有序事件 \(e_1,\dots,e_n\) 上优化，预测 \(e_{i+1}\) 时模型参数已编码了 \(e_1,\dots,e_i\) 的信息，于是测的不再是「从原始 cutoff 预测 \(e_{i+1}\)」，而是「在已学到早期事件后预测 \(e_{i+1}\)」。按日期排序训练看似能解，却只教会模型预测更短的时间跨度。理想做法是惩罚记忆，逼模型在不记住「具体发生了什么」的前提下学会预测——但这本身就很难实现。

实验关键数据¶

本文是分析/立场论文，没有标准实验表，而是用对已有 benchmark 的审查作为「证据」。下面汇总其量化发现。

主要量化证据¶

来源 benchmark	发现	数值
Halawi et al. 2024	含「提前 resolve」、无需真预测的问题	≥ 3.8%
Tao et al. 2025 (PROPHET)	因已在某时点 resolve 而平凡可解的问题	≥ 10%
Dai et al. 2025 (新闻造题)	弱分类器在其二元问题上即可达到的准确率	> 80%
Dai et al. 2025	估计属「事前根本不会被问」的过度具体问题	> 90%
ForecastBench	题目分布严重偏斜（如 Security & Defense 占比畸高），非市场题只用少数时序模板	见原文 Table 1

关键发现¶

逻辑泄漏是普遍而非个例：多个主流预测 benchmark 都能查出可被逻辑推断或弱分类器破解的题目，说明「LLM 超人类预测」的结论很可能建立在被污染的评测上。
泄漏分「清晰」与「强假设」两档：有的是铁证（返回页面含限定日期之后的数据），有的只能强烈假设（检索排序受未来知识影响），作者诚实地区分了两者。
相对比较未必被泄漏破坏，但仍危险：部分泄漏对排名影响小，可不同系统会以不同方式利用基准缺陷，从而搅动排名——所以即便只看相对名次也不能掉以轻心。
绝对分数几乎不可解读：分数强依赖题目分布，所以作者建议未来评测报告多个指标、尽量采用最近发生的事件、并在多个不相交回测期上验证。
越狱即可击穿 cutoff：仅用一句系统提示就让 gpt-4o 吐出其声称 cutoff 之后的事件，说明「以 cutoff 划分 train/test」在实践中并不安全。

亮点与洞察¶

「时间旅行者」类比极其传神地把抽象的逻辑泄漏讲成一句话：被评测者只要知道自己「在未来被打分」，就能反推某些答案——这是预测评测独有、传统 ML 评测没有的泄漏通道。
把金融回测几十年的踩坑经验迁移过来（幸存者偏差、point-in-time 数据被事后修改、风险调整收益、多期回测、回测过拟合），给 LLM 预测评测提供了现成的方法论工具箱，是很有价值的跨领域嫁接。
指出「刷榜激励 ≠ 真能力激励」：在强相关的真实世界里，最大化夺冠概率会奖励豪赌而非诚实校准，这个 winner's curse 视角可迁移到任何「单期排名 + 高相关任务」的评测设计。
诚实标注证据强度：对无法证实的泄漏只说「强烈假设」，不夸大，是分析型论文该有的克制。

局限与展望¶

论文不能证明这些缺陷一定会拉低 LLM 预测者的成绩——它论证的是「这些评测难以被信任」，而非「分数虚高」，作者本人也明确承认这一点。
多处量化估计（如「90% 是过度具体问题」）带主观性，作者坦言需要更好的定量度量来刻画这些效应。
给出的解法不少是权衡而非根治：受限检索/旧 embedding 会牺牲检索质量，合成造题又把泄漏问题带回来，留几个月 cutoff 缓冲在 cutoff 逼近发布日时又退化为「用发布日期」。
前瞻部分「惩罚记忆、让模型不记住具体事件也能学会预测」只是方向性设想，没有可落地方案。

评分¶

新颖性: ⭐⭐⭐⭐ 不提新模型，但首次把分散在预测/金融社区的泄漏问题系统化到 LLM 预测评测，并配大量实证，框架性贡献扎实
实验充分度: ⭐⭐⭐⭐ 作为立场论文，用多 benchmark 审查 + 越狱/检索具体案例支撑，证据密度高；但缺统一可复现的定量协议
写作质量: ⭐⭐⭐⭐⭐ 类比生动、问题—证据—解法结构清晰、对证据强度诚实标注，可读性极佳
价值: ⭐⭐⭐⭐⭐ 直接关系到「LLM 会不会预测未来」这一大命题的可信度，对评测设计者是一份高实用性的避坑指南