PolitNuggets: Benchmarking Agentic Discovery of Long-Tail Political Facts¶
会议: ACL2026
arXiv: 2605.14002
代码: https://github.com/yifeifrank/poli_searcher
领域: information_retrieval
关键词: agentic retrieval、政治传记、长尾事实、多语言检索、FactNet
一句话总结¶
PolitNuggets 提出一个面向 400 位全球政治人物、超过 1 万条政治履历事实的多语言 agentic discovery benchmark,并用 FactNet 动态证据验证协议发现:当前 agent 高精度但低召回,真正瓶颈是长尾事实发现、非英语证据和高效工具使用。
研究背景与动机¶
领域现状:长上下文 LRM 让模型能在给定材料里做 Reasoning in Context;工具增强 agent 又让模型可以主动搜索网页、读取资料、组织证据,逐步形成 Reasoning through Context。生产系统中的 Deep Research 已经展示出这种工作流的潜力。
现有痛点:很多已有 benchmark 仍偏向短程问答、单个事实查找或静态长文抽取。真实研究任务更像“重建一个人的职业轨迹”:事实分散在政府网页、新闻档案、非英语资料和旧版页面中,模型必须决定搜什么、读什么、何时停止、如何把片段证据合成结构化时间线。
核心矛盾:长上下文强并不等于 agentic discovery 强。模型也许能从一段干净证据里抽出事实,但当证据需要自己找、语言不统一、来源互相矛盾、相关事实弱连接时,失败往往发生在搜索策略和证据覆盖,而不是最终生成。
本文目标:作者希望建立一个可复现 benchmark,分别衡量政治长尾事实的发现能力、细粒度属性抽取能力和搜索成本,并进一步分析 agent 成功到底来自短上下文抽取、长上下文召回、参数知识、多语言能力还是工具调用可靠性。
切入角度:政治人物履历是一个很好的现实任务。Wikipedia 对美国和知名人物覆盖较好,但对非美国官员和细粒度任职月份、正式头衔、组织变动覆盖不足。PolitNuggets 把这些缺口视为 latent fact network,要求 agent 从开放网页中遍历弱连接事实节点。
核心 idea:用证据条件化的动态事实网络 FactNet 来评价 agent 是否真的发现了 Wikipedia 外的可验证政治履历 nugget,而不是只评价静态上下文问答或简单字符串匹配。
方法详解¶
PolitNuggets 同时包含 benchmark 构建、agent 系统和评价协议。它的重点不是提出一个全新检索算法,而是给“开放网页中的长尾事实发现”建立一套更贴近真实工作流的测量方法。作者将政治履历建模为时间戳事件集合,每个事件包含角色、组织和时间区间;Wikipedia 已覆盖的部分被过滤掉,评价目标是未覆盖但可被证据验证的长尾事实。
整体框架¶
数据来自 WhoGov:200 位非美国 cabinet politicians 和 200 位美国 legislators/senators,构成 400 个实体。系统在两种条件下运行:With Wiki enhancement,输入已有 Wikipedia 文本并补全缺口;Without Wiki reconstruction,只给实体姓名,从开放网页冷启动重建履历。每个 agent run 产生 structured biography 和 evidence archive,随后 FactNet 判断预测的 nuggets 是否被证据支持,并计算 Event-Level F1、Attribute-Level F1 和搜索成本。
关键设计¶
-
Supervisor-Searcher-Archive-Coder 架构:
- 功能:把开放式搜索任务拆成全局规划、局部检索、证据持久化和结构化输出四个角色。
- 核心思路:Supervisor 维护全局 search summary 和任务清单,将大传记任务分解给 Searcher;Searcher 执行搜索、浏览和页面检索,并把相关 evidence chunks 存入 Archive;最后 Coder 同时读取 Supervisor 总结和 Archive 原始证据,输出严格 JSON schema。系统对每个子任务最多允许 3 次 focused search-retrieve,全局最多 100 次 LLM 调用,以控制预算。
- 设计动机:长尾事实常常需要多步查询和回看原文。只靠 summary 容易丢细节,Archive 保存 source-linked chunks 可以避免“上下文失忆”,也为后续动态验证提供证据。
-
FactNet 动态证据评价:
- 功能:避免把模型发现的真实新事实误判为 false positive。
- 核心思路:作者先从多轮 agent 运行中汇聚 Consolidated Ground Truth,再用 Wikipedia coverage filter 得到 Novel set
G=G_e\W_e。当系统预测的 nugget 不在当前G中时,不直接扣分,而是触发 gpt-5-mini judge 检查该 nugget 是否被系统自己的 Archive 证据支持;若支持且非 Wikipedia covered,就加入动态 ground truthG'。 - 设计动机:开放世界事实发现不可能事先穷尽所有正确答案。动态 novelty validation 让 benchmark 能奖励可验证的新发现,同时仍要求每个 claim 有来源支撑。
-
双层粒度与效率评价:
- 功能:拆分“找到事实”和“填准细节”的能力,并显式衡量成本。
- 核心思路:Event-Level F1 只要求 role、organization、year 匹配,衡量是否发现事件;Attribute-Level F1 进一步要求 start/end month 和 exact title 匹配,衡量细粒度 slot filling。Efficiency 用平均 search steps 和 token usage 衡量,让高召回但成本过高的系统暴露出来。
- 设计动机:政治履历任务中,模型可能知道某人当过部长,却不知道具体月份或正式职称。分层指标能说明失败发生在 discovery 还是 granularity,也更适合指导系统优化。
损失函数 / 训练策略¶
本文是 benchmark 和评测系统,不训练新模型。实验评估 Grok-4-Fast、Gemini-2.5-Flash、Qwen-3-225B/80B 以及 Gemini DeepResearch。所有 agentic runs 通过 OpenRouter 记录 token usage,搜索使用 Serper,页面检索使用 Jina 和 Exa。静态 LRM baseline 使用 Grok-4-Fast With-Wiki run 收集的相同证据,分别构造 Short Archive context、Long raw pages context 和 Memory-only bio,用来隔离主动搜索与被动长上下文抽取的差异。
实验关键数据¶
主实验¶
主结果显示 Grok-4-Fast 是最强的 agentic setting,且在没有 Wikipedia 的冷启动条件下仍保持相近 F1;Gemini 在某些设置下接近,但搜索成本更高;Qwen 系列明显落后。Attribute-Level F1 普遍低于 Event-Level F1,说明细粒度月份和正式头衔抽取仍困难。
| Context | Model | Region | EventF1 | AttrF1 | 主要结论 |
|---|---|---|---|---|---|
| With Wiki | Gemini DR | US / Non-US | 0.778 / 0.701 | 0.505 / 0.489 | 高精度、偏保守 |
| With Wiki | Grok-4-Fast | US / Non-US | 0.768 / 0.712 | 0.501 / 0.475 | agentic setting 中综合最强 |
| With Wiki | Gemini | US / Non-US | 0.638 / 0.679 | 0.407 / 0.485 | 非美国 EventF1 不降反升,但成本较高 |
| With Wiki | Qwen-225B | US / Non-US | 0.499 / 0.440 | 0.335 / 0.306 | discovery 与 granularity 都偏弱 |
| Without Wiki | Grok-4-Fast | US / Non-US | 0.766 / 0.708 | 0.506 / 0.475 | 冷启动性能稳定但步骤增加 |
| Without Wiki | Gemini | US / Non-US | 0.671 / 0.618 | 0.439 / 0.468 | 需要更多搜索来维持表现 |
效率分析显示,去掉 Wikipedia 会显著增加搜索步骤和 token,但 F1 不一定崩溃。Grok 的 With-Wiki 平均 11.17 步,Without-Wiki 平均 14.52 步;Gemini 则从 13.53 步升至 18.04 步。作者把 Grok 描述为处在更好的 Pareto frontier 上,即用更少搜索取得更高 F1。
| 对比 | 指标 | With Wiki 均值 | Without Wiki 均值 | 增量 | 95% CI | 显著性 |
|---|---|---|---|---|---|---|
| Gemini | steps | 13.533 | 18.043 | +4.510 | [3.032, 5.931] | 是 |
| Gemini | tokens | 770,151 | 1,062,534 | +292,383 | [143,694, 449,363] | 是 |
| Grok-4-Fast | steps | 11.169 | 14.519 | +3.350 | [2.314, 4.344] | 是 |
| Grok-4-Fast | tokens | 394,522 | 461,227 | +66,705 | [32,970, 99,278] | 是 |
消融实验¶
PolitNuggets 的关键消融是 Archive memory 与静态 LRM baseline。Archive 删除后 Event-Level F1 下降约 0.05,说明保留原始证据片段比只依赖摘要更可靠。静态长上下文 baseline 还揭示了一个反直觉现象:更长、更噪的 raw pages 不一定比短的 curated Archive 好。
| 配置 | 关键指标 | 说明 |
|---|---|---|
| Full Supervisor-Searcher + Archive | Grok With-Wiki US EventF1 0.768 | Archive 保存原始 source-linked evidence,有助于细节填充 |
| No-Archive | Event-Level ΔF1≈-0.05 | 摘要丢失细粒度证据,出现 contextual amnesia |
| Short Archive LRM, Gemini | US/Non-US EventF1 0.667/0.674 | 干净短证据比长网页更适合抽取 |
| Long raw pages LRM, Gemini | US/Non-US EventF1 0.621/0.655 | 长上下文受噪声影响,未必提升 |
| Memory-only LRM, Gemini | US/Non-US EventF1 0.251/0.192 | 单靠模型记忆远不够,必须 evidence grounded |
| Grok short→long, US EventF1 | 0.626→0.538 | raw long context 比 Archive 低约 14.1% |
关键发现¶
- 当前 agent 的主要问题是 recall,而不是 precision。With-Wiki Grok-4-Fast 的 Event precision 为 US/Non-US 0.890/0.872,但 recall 只有 0.703/0.620;Attribute-Level recall 更低。
- 存在明显 International Evidence Gap。Grok-4-Fast With-Wiki 的 Non-US EventF1 比 US 低 0.0557,95% CI 不跨 0;Qwen-80B 的 US/Non-US EventF1 差距达到 -0.0989。
- 长上下文能力不是 agentic success 的充分条件。短证据抽取能力、工具调用可靠性、多语言鲁棒性和参数知识共同支撑开放搜索。
- Wiki removal 增加成本但不一定大幅降低 F1,说明 agent 能通过更长搜索轨迹补偿初始上下文缺失,但效率问题会放大。
亮点与洞察¶
- FactNet 的动态 ground truth 设计很适合开放世界任务。它既避免静态答案集惩罚真实新发现,又把“被自己的证据支持”作为硬门槛,减少胡编事实被奖励的风险。
- 论文把 Reasoning in Context 和 Reasoning through Context 分开测,这个分析非常重要。很多模型长上下文 benchmark 好看,但做开放网页研究时会输在查询规划、来源选择和工具稳定性上。
- 政治传记任务把多语言问题放到了评测核心。非美国实体不是“额外难例”,而是现实信息检索系统必须面对的主场景。
- 评价中同时报告 F1 和成本,避免只追逐高分。真实 Deep Research 系统最昂贵的部分往往是反复搜索和阅读网页,效率曲线比单点准确率更有产品价值。
局限与展望¶
- 受预算限制,论文没有评估最强和最昂贵的 frontier models,结论可能会随着模型和检索产品更新而变化。
- benchmark 依赖搜索引擎与网页状态,尽管作者释放 cached pages,真实在线运行仍会受 ranking drift、页面消失和内容更新影响。
- 静态 LRM baseline 使用 agent run 收集来的证据,因此不能严格证明 Reasoning through Context 优于 Reasoning in Context,只能说明在相同证据快照上的抽取差异。
- 评价使用 LLM judge 验证事实,虽然人工重评相关性达到 0.87,Exa 抽查误报约 3.66%,但跨语言头衔和历史组织名称仍可能有边界案例。
- 任务聚焦公开政治人物,技术上可迁移到私人画像或敏感 profiling,因此下游使用需要明确伦理边界和事实审计。
相关工作与启发¶
- vs LongBioBench / HELMET / MRCR: 这些 benchmark 偏向给定上下文内的长文理解;PolitNuggets 把难点移到主动发现、证据选择和开放网页合成。
- vs GAIA / BrowseComp / WebSailor: 这些任务强调工具使用或难找事实;PolitNuggets 更关注纵向、多事件、结构化 biography synthesis,并加入多语言政治事实场景。
- vs Deep Research 系统评测: 商业 Deep Research 往往黑盒且难复现;PolitNuggets 释放代码、缓存网页和 LRM evaluation package,复现性更强。
- 对检索 agent 的启发: 未来系统应显式优化 query planning、evidence persistence、source diversity 和 multilingual routing,而不是只扩大上下文窗口。
评分¶
- 新颖性: ⭐⭐⭐⭐☆ 用政治长尾事实构造 evidence-conditional agentic benchmark,FactNet 动态评价很有价值。
- 实验充分度: ⭐⭐⭐⭐⭐ 数据规模、模型覆盖、效率统计、显著性检验、LRM baseline 和人工审计都比较扎实。
- 写作质量: ⭐⭐⭐⭐☆ 问题 framing 清晰,表格完整;部分模型和上下文条件较多,读者需要仔细对照。
- 价值: ⭐⭐⭐⭐⭐ 对 agentic search、Deep Research 评测、多语言事实发现和政治信息系统都有直接参考价值。