跳转至

NSF-SciFy: Mining the NSF Awards Database for Scientific Claims

会议: ACL2026
arXiv: 2503.08600
代码: https://github.com/darpa-scify/NSFSciFy
领域: 科学文本挖掘 / 数据集构建
关键词: 科学 claim 抽取, NSF 奖项摘要, 科学可行性, LoRA 微调, 元科学

一句话总结

NSF-SciFy 从 NSF 奖项摘要中抽取 2.8M 科学 claims 和 investigation proposals,构建了比现有科学 claim 数据集大几个数量级的资源,并展示了它能显著提升 claim / proposal 抽取模型。

研究背景与动机

领域现状:科学 claim verification 已有 SciFACT、PubHEALTH、CLIMATE-FEVER、HealthVer 等数据集,但多数来自论文、新闻或事实核查站点,规模通常从几百到一万多条 claim,且领域偏生物医学、公共健康或气候等特定主题。

现有痛点:科学文献增长很快,论文提到科学出版总体年增长率约 4%、翻倍时间约 17 年。靠人工追踪“哪些科学主张被提出、哪些只是待验证的研究计划”越来越不可行。现有数据集不仅规模小,还很少覆盖 grant proposal 中的早期科学主张和未来研究计划。

核心矛盾:科学 grant 摘要既包含作者声称为真的知识,也包含“打算去研究”的 future-looking proposal。如果抽取系统不区分这两类陈述,就容易把尚未完成的研究计划误当成已经成立的科学事实;但如果只抽 claim,又会丢掉理解科研活动演化的重要线索。

本文目标:作者希望利用 NSF Awards 数据库构建一个跨科学和数学领域的大规模资源,既包含 scientific claims,也包含 investigation proposals,并验证该资源对三个任务是否有用:技术摘要转非技术摘要、claim 抽取、proposal 抽取。

切入角度:NSF 奖项摘要有几个天然优势:它覆盖基础研究的广泛领域;经过专家评审;公开可用;并且对近年项目还可能链接到后续论文。它比已发表论文更靠近“科学想法被资助和形成”的源头。

核心 idea:用零样本 LLM prompt 从 NSF grant abstracts 中联合抽取 claims 和 investigation proposals,再用这些高精度、大规模弱标注数据训练更小的开源模型。

方法详解

NSF-SciFy 的方法不是提出一个复杂模型,而是构建一个可复用的数据生成和评估管线:先抓取 NSF Awards XML 数据库,解析为结构化 award records;再用 Claude-3.5 做联合抽取;接着人工/LLM 辅助评估抽取质量;最后用材料科学子集训练 Mistral-7B 和 Qwen2.5-7B,验证数据对下游任务的训练价值。

整体框架

数据源是 NSF Awards database,从 1970 年到 2024 年 9 月,原始 XML 包含超过 0.5M awards。解析后得到 412,155 个可用 awards,构成 NSF-SciFy 主体。论文重点分析两个子集:NSF-SciFy-MatSci,来自 Division of Materials Research;NSF-SciFy-20K,从五个 NSF directorates 中分层采样。

每个记录通常包含 award ID、标题、年份、directorate/division、技术摘要、非技术摘要、claims、investigation proposals,以及近年 award 可用的后续 publications。非技术摘要并非简单复制技术摘要:在 13,025 对技术/非技术摘要中,只有 202 对即 1.5% 的 symmetric BLEU 相似度超过 0.6。

抽取阶段使用 Claude-3.5-Sonnet-20240620,temperature 设为 0。Prompt 要求模型返回 JSON,包括 award ID、技术摘要、非技术摘要、claims 列表和 investigation proposals 列表。作者强调 joint extraction 很重要:如果只抽 claims,模型更容易把 forward-looking investigation statements 误标成已成立 claim。

关键设计

  1. 把 NSF grant abstracts 当作 claim 源头:

    • 功能:把科学 claim 数据集从“已发表论文/新闻”扩展到资助申请和奖项摘要阶段。
    • 核心思路:解析 NSF Awards XML,保留 technical / non-technical abstracts、学科目录、奖项年份和后续 publication 链接,形成可做纵向分析的科学主张数据库。
    • 设计动机:grant 摘要能捕捉研究被资助时的知识假设和计划,比只看发表论文更适合研究科学想法的早期形成和演化。
  2. claims 与 investigation proposals 联合抽取:

    • 功能:同时抽出“作者声称为真”的陈述和“作者计划调查”的陈述。
    • 核心思路:Prompt 明确区分 claims 与 forward-looking proposals,并要求 JSON 结构化输出;temperature 设为 0 提升一致性。
    • 设计动机:科学摘要中大量句子是“我们将研究/开发/测试”,如果不联合建模 proposal,抽取器会把计划误当事实,降低 claim 数据质量。
  3. 用 NSF-SciFy 验证可训练性:

    • 功能:证明数据集不只是大,还能训练可用模型。
    • 核心思路:在 NSF-SciFy-MatSci 上去重和过滤后得到 11,141 条样本,切分为 8,641 / 500 / 2,000 的 train / validation / test,使用 LoRA 微调 Mistral-7B-instruct-v0.3 和 Qwen2.5-7B-Instruct。
    • 设计动机:如果 fine-tuning 能显著提升 claim/proposal 抽取,说明 LLM 零样本抽取得到的大规模数据可以作为 bootstrapping 资源。

损失函数 / 训练策略

论文没有提出新的损失函数,而是采用 LoRA 微调 7B 模型。LoRA rank 为 128,lora_alpha=64,学习率 \(1 \times 10^{-5}\),线性调度;更新 query、key、value、output projection,以及 MLP gate、up、down projections。训练 3 epochs,warmup 100 steps,batch size 2,gradient accumulation 4,在 A100 GPU 上每个 epoch 约 1 小时。

评估上,技术摘要转非技术摘要使用 BERTScore 与 ROUGE;claim/proposal 抽取使用 GPT-4o-mini 定义的 pairwise boolean judge function 计算 precision / recall / F1,并在人类标注样本上验证其判断与人工接近。

实验关键数据

数据集规模

数据集 awards / abstracts claims investigation proposals 覆盖范围
NSF-SciFy 412,155 awards 2.8M cache 未给总 proposal 数 1970-2024,全科学和数学领域
NSF-SciFy-MatSci 16,042 awards 114K 145K 材料科学,平均每对摘要约 7 个 claims、9 个 proposals
NSF-SciFy-20K 20,001 awards 135K 139K 五个 directorates:MPS、GEO、ENG、CSE、BIO
训练用 MatSci 子集 11,141 samples 用于任务训练 用于任务训练 train / val / test = 8,641 / 500 / 2,000

主实验

任务 模型 Precision / BERTScore-F1 Recall F1 / 其他指标 关键结论
技术摘要转非技术摘要 Mistral-7B BERTScore-F1 0.8561 - ROUGE-L 0.1273 微调提升较小,说明 base model 已较强
技术摘要转非技术摘要 Qwen2.5-7B BERTScore-F1 0.8437 - ROUGE-L 0.1466 ROUGE-L 高于 Mistral,但整体 Mistral 更强
Scientific claim extraction Mistral-7B 0.7450 (+116.7%) 0.7098 (+59.5%) 0.7097 (+101.8%) 微调使 F1 约翻倍
Scientific claim extraction Qwen2.5-7B 0.6839 (+107.1%) 0.6611 (+7.8%) 0.6541 (+63.3%) 也显著受益,但弱于 Mistral
Investigation proposal extraction Mistral-7B 0.7351 (+18.24%) 0.7539 (+127.24%) 0.7261 (+90.97%) proposal 任务同样强依赖微调
Investigation proposal extraction Qwen2.5-7B 0.7245 (+70.07%) 0.6865 (+81.57%) 0.6827 (+112.60%) 相对提升大,但绝对 F1 低于 Mistral

质量与误差分析

分析项 数字 说明
技术/非技术摘要高相似对 202 / 13,025 = 1.5% 说明非技术摘要不是技术摘要简单复写
SVM 区分技术/非技术摘要 F1 90.99 (SPECTER), 88.42 (STEL), 89.99 (concat) 两类摘要在内容和风格上都可区分
claim 类别 top-3 方法/技术能力 32.8%, 问题/知识空白 21.0%, 观察现象 18.9% 基于 810 claims / 120 awards 分类
proposal 类别 top-3 理论分析/计算建模 36.9%, 实验技术/工具开发 16.8%, 教育训练 12.8% 基于 833 proposals 分类
Mistral 生成 claims 误差率 2.6% 802 条 claims,人审误差类型包括过度自信、混合信息、过度泛化等
Claude 抽取 claims 误差率 2.1% 主要为 administrative hallucinations
Mistral 生成 proposals 误差率 2.4% 主要为无 proposal 时生成、内容不匹配、过度具体化等

关键发现

  • NSF-SciFy 的规模远超既有数据集:SciFACT 只有 1.4K claims,PubHEALTH 11.8K,而 NSF-SciFy-MatSci 单个子集就有 114K claims。
  • 对 claim/proposal 抽取,微调收益远大于摘要改写任务,说明 NSF-SciFy 最核心价值在于教模型识别科学陈述结构。
  • 抽取 pipeline 以高精度为优先,但 recall 仍偏低;作者把这看作未来多轮抽取、ensemble 和 active annotation 的改进方向。

亮点与洞察

  • 最有价值的贡献是数据源选择:grant abstracts 是科学 claim 的“上游状态”,能看到研究尚未发表前的主张和计划,这对科学发现追踪和元科学分析很重要。
  • 联合抽取 claims 和 proposals 是一个小但关键的设计。很多科学摘要的动词时态和语气很容易让模型混淆“已经知道”和“准备研究”,联合抽取能迫使模型显式分辨。
  • 论文没有夸大 zero-shot extraction 的完美性,而是承认它高 precision、低 recall,并通过 fine-tuning 展示数据可继续提升模型。这种 bootstrapping 叙事比较可信。
  • 技术/非技术摘要的配对数据也很有价值。它不仅用于 science communication,还能研究同一科研内容如何在专家语体和公众语体之间转换。

局限与展望

  • 数据源偏美国 NSF:NSF 约占美国联邦支持基础研究的 25%,覆盖很广,但仍排除了未获资助 proposal、国际基金和非公开申请。
  • 高 precision 与低 recall 的取舍:零样本抽取优先可靠性,导致 claim recall 较低。未来需要多轮抽取、模型 ensemble 或 active annotation 来补足遗漏 claims。
  • LLM-as-judge 还需更多验证:GPT-4o-mini 评估在样本中与人工高度一致,但跨更多学科、不同 claim 复杂度时仍需社区验证。
  • 时间和 publication 链接覆盖不均:后续 publications 主要近年才更常更新,因此纵向追踪“claim 到论文”的覆盖会有时间偏差。
  • 事实核验还没闭环:数据集中有 claims 和 proposals,但并未直接给出支持/反驳证据或最终真伪标签。真正 claim verification 还需要证据检索和证据标注。

相关工作与启发

  • vs SciFACT / SciFACT-Open: SciFACT 聚焦生物医学论文 claim verification,规模为 1.4K claims;NSF-SciFy 覆盖 grant abstracts,规模达到 2.8M claims,但缺少直接证据标签。
  • vs PubHEALTH / CLIMATE-FEVER / HealthVer: 这些数据集来自公共健康、气候或新闻事实核查,面向公众话语;NSF-SciFy 更靠近科研资助和科学计划文本。
  • vs 单独 claim extraction: 本文联合抽取 proposals,减少把未来研究计划当作事实的风险,也为研究“科学计划如何转化为论文成果”提供结构化数据。
  • 启发:许多学术 NLP 数据可以从科研行政文本中挖掘,而不只限于论文正文。基金申请、审稿意见、项目报告都可能包含不同阶段的科学知识状态。

评分

  • 新颖性: ⭐⭐⭐⭐☆ 数据源和 claim/proposal 联合抽取很有新意;模型方法本身主要是工程化数据构建和微调验证。
  • 实验充分度: ⭐⭐⭐⭐☆ 有规模统计、人工质量分析、三项下游任务和误差分析;不足是缺少完整 claim verification 证据链。
  • 写作质量: ⭐⭐⭐⭐☆ 论文结构清楚,数字充分;个别表格说明略长,但整体容易复现数据流程。
  • 价值: ⭐⭐⭐⭐⭐ 数据资源价值很高,尤其适合科学 claim mining、元科学、science communication 和早期科研趋势分析。