NSF-SciFy: Mining the NSF Awards Database for Scientific Claims¶

会议: ACL2026
arXiv: 2503.08600
代码: https://github.com/darpa-scify/NSFSciFy
领域: 科学文本挖掘 / 数据集构建
关键词: 科学 claim 抽取, NSF 奖项摘要, 科学可行性, LoRA 微调, 元科学

一句话总结¶

NSF-SciFy 从 NSF 奖项摘要中抽取 2.8M 科学 claims 和 investigation proposals，构建了比现有科学 claim 数据集大几个数量级的资源，并展示了它能显著提升 claim / proposal 抽取模型。

研究背景与动机¶

领域现状：科学 claim verification 已有 SciFACT、PubHEALTH、CLIMATE-FEVER、HealthVer 等数据集，但多数来自论文、新闻或事实核查站点，规模通常从几百到一万多条 claim，且领域偏生物医学、公共健康或气候等特定主题。

现有痛点：科学文献增长很快，论文提到科学出版总体年增长率约 4%、翻倍时间约 17 年。靠人工追踪“哪些科学主张被提出、哪些只是待验证的研究计划”越来越不可行。现有数据集不仅规模小，还很少覆盖 grant proposal 中的早期科学主张和未来研究计划。

核心矛盾：科学 grant 摘要既包含作者声称为真的知识，也包含“打算去研究”的 future-looking proposal。如果抽取系统不区分这两类陈述，就容易把尚未完成的研究计划误当成已经成立的科学事实；但如果只抽 claim，又会丢掉理解科研活动演化的重要线索。

本文目标：作者希望利用 NSF Awards 数据库构建一个跨科学和数学领域的大规模资源，既包含 scientific claims，也包含 investigation proposals，并验证该资源对三个任务是否有用：技术摘要转非技术摘要、claim 抽取、proposal 抽取。

切入角度：NSF 奖项摘要有几个天然优势：它覆盖基础研究的广泛领域；经过专家评审；公开可用；并且对近年项目还可能链接到后续论文。它比已发表论文更靠近“科学想法被资助和形成”的源头。

核心 idea：用零样本 LLM prompt 从 NSF grant abstracts 中联合抽取 claims 和 investigation proposals，再用这些高精度、大规模弱标注数据训练更小的开源模型。

方法详解¶

NSF-SciFy 的方法不是提出一个复杂模型，而是构建一个可复用的数据生成和评估管线：先抓取 NSF Awards XML 数据库，解析为结构化 award records；再用 Claude-3.5 做联合抽取；接着人工/LLM 辅助评估抽取质量；最后用材料科学子集训练 Mistral-7B 和 Qwen2.5-7B，验证数据对下游任务的训练价值。

整体框架¶

数据源是 NSF Awards database，从 1970 年到 2024 年 9 月，原始 XML 包含超过 0.5M awards。解析后得到 412,155 个可用 awards，构成 NSF-SciFy 主体。论文重点分析两个子集：NSF-SciFy-MatSci，来自 Division of Materials Research；NSF-SciFy-20K，从五个 NSF directorates 中分层采样。

每个记录通常包含 award ID、标题、年份、directorate/division、技术摘要、非技术摘要、claims、investigation proposals，以及近年 award 可用的后续 publications。非技术摘要并非简单复制技术摘要：在 13,025 对技术/非技术摘要中，只有 202 对即 1.5% 的 symmetric BLEU 相似度超过 0.6。

抽取阶段使用 Claude-3.5-Sonnet-20240620，temperature 设为 0。Prompt 要求模型返回 JSON，包括 award ID、技术摘要、非技术摘要、claims 列表和 investigation proposals 列表。作者强调 joint extraction 很重要：如果只抽 claims，模型更容易把 forward-looking investigation statements 误标成已成立 claim。

关键设计¶

把 NSF grant abstracts 当作 claim 源头:
- 功能：把科学 claim 数据集从“已发表论文/新闻”扩展到资助申请和奖项摘要阶段。
- 核心思路：解析 NSF Awards XML，保留 technical / non-technical abstracts、学科目录、奖项年份和后续 publication 链接，形成可做纵向分析的科学主张数据库。
- 设计动机：grant 摘要能捕捉研究被资助时的知识假设和计划，比只看发表论文更适合研究科学想法的早期形成和演化。
claims 与 investigation proposals 联合抽取:
- 功能：同时抽出“作者声称为真”的陈述和“作者计划调查”的陈述。
- 核心思路：Prompt 明确区分 claims 与 forward-looking proposals，并要求 JSON 结构化输出；temperature 设为 0 提升一致性。
- 设计动机：科学摘要中大量句子是“我们将研究/开发/测试”，如果不联合建模 proposal，抽取器会把计划误当事实，降低 claim 数据质量。
用 NSF-SciFy 验证可训练性:
- 功能：证明数据集不只是大，还能训练可用模型。
- 核心思路：在 NSF-SciFy-MatSci 上去重和过滤后得到 11,141 条样本，切分为 8,641 / 500 / 2,000 的 train / validation / test，使用 LoRA 微调 Mistral-7B-instruct-v0.3 和 Qwen2.5-7B-Instruct。
- 设计动机：如果 fine-tuning 能显著提升 claim/proposal 抽取，说明 LLM 零样本抽取得到的大规模数据可以作为 bootstrapping 资源。

损失函数 / 训练策略¶

论文没有提出新的损失函数，而是采用 LoRA 微调 7B 模型。LoRA rank 为 128，lora_alpha=64，学习率 \(1 \times 10^{-5}\)，线性调度；更新 query、key、value、output projection，以及 MLP gate、up、down projections。训练 3 epochs，warmup 100 steps，batch size 2，gradient accumulation 4，在 A100 GPU 上每个 epoch 约 1 小时。

评估上，技术摘要转非技术摘要使用 BERTScore 与 ROUGE；claim/proposal 抽取使用 GPT-4o-mini 定义的 pairwise boolean judge function 计算 precision / recall / F1，并在人类标注样本上验证其判断与人工接近。

实验关键数据¶

数据集规模¶

数据集	awards / abstracts	claims	investigation proposals	覆盖范围
NSF-SciFy	412,155 awards	2.8M	cache 未给总 proposal 数	1970-2024，全科学和数学领域
NSF-SciFy-MatSci	16,042 awards	114K	145K	材料科学，平均每对摘要约 7 个 claims、9 个 proposals
NSF-SciFy-20K	20,001 awards	135K	139K	五个 directorates：MPS、GEO、ENG、CSE、BIO
训练用 MatSci 子集	11,141 samples	用于任务训练	用于任务训练	train / val / test = 8,641 / 500 / 2,000

主实验¶

任务	模型	Precision / BERTScore-F1	Recall	F1 / 其他指标	关键结论
技术摘要转非技术摘要	Mistral-7B	BERTScore-F1 0.8561	-	ROUGE-L 0.1273	微调提升较小，说明 base model 已较强
技术摘要转非技术摘要	Qwen2.5-7B	BERTScore-F1 0.8437	-	ROUGE-L 0.1466	ROUGE-L 高于 Mistral，但整体 Mistral 更强
Scientific claim extraction	Mistral-7B	0.7450 (+116.7%)	0.7098 (+59.5%)	0.7097 (+101.8%)	微调使 F1 约翻倍
Scientific claim extraction	Qwen2.5-7B	0.6839 (+107.1%)	0.6611 (+7.8%)	0.6541 (+63.3%)	也显著受益，但弱于 Mistral
Investigation proposal extraction	Mistral-7B	0.7351 (+18.24%)	0.7539 (+127.24%)	0.7261 (+90.97%)	proposal 任务同样强依赖微调
Investigation proposal extraction	Qwen2.5-7B	0.7245 (+70.07%)	0.6865 (+81.57%)	0.6827 (+112.60%)	相对提升大，但绝对 F1 低于 Mistral

质量与误差分析¶

分析项	数字	说明
技术/非技术摘要高相似对	202 / 13,025 = 1.5%	说明非技术摘要不是技术摘要简单复写
SVM 区分技术/非技术摘要	F1 90.99 (SPECTER), 88.42 (STEL), 89.99 (concat)	两类摘要在内容和风格上都可区分
claim 类别 top-3	方法/技术能力 32.8%, 问题/知识空白 21.0%, 观察现象 18.9%	基于 810 claims / 120 awards 分类
proposal 类别 top-3	理论分析/计算建模 36.9%, 实验技术/工具开发 16.8%, 教育训练 12.8%	基于 833 proposals 分类
Mistral 生成 claims 误差率	2.6%	802 条 claims，人审误差类型包括过度自信、混合信息、过度泛化等
Claude 抽取 claims 误差率	2.1%	主要为 administrative hallucinations
Mistral 生成 proposals 误差率	2.4%	主要为无 proposal 时生成、内容不匹配、过度具体化等

关键发现¶

NSF-SciFy 的规模远超既有数据集：SciFACT 只有 1.4K claims，PubHEALTH 11.8K，而 NSF-SciFy-MatSci 单个子集就有 114K claims。
对 claim/proposal 抽取，微调收益远大于摘要改写任务，说明 NSF-SciFy 最核心价值在于教模型识别科学陈述结构。
抽取 pipeline 以高精度为优先，但 recall 仍偏低；作者把这看作未来多轮抽取、ensemble 和 active annotation 的改进方向。

亮点与洞察¶

最有价值的贡献是数据源选择：grant abstracts 是科学 claim 的“上游状态”，能看到研究尚未发表前的主张和计划，这对科学发现追踪和元科学分析很重要。
联合抽取 claims 和 proposals 是一个小但关键的设计。很多科学摘要的动词时态和语气很容易让模型混淆“已经知道”和“准备研究”，联合抽取能迫使模型显式分辨。
论文没有夸大 zero-shot extraction 的完美性，而是承认它高 precision、低 recall，并通过 fine-tuning 展示数据可继续提升模型。这种 bootstrapping 叙事比较可信。
技术/非技术摘要的配对数据也很有价值。它不仅用于 science communication，还能研究同一科研内容如何在专家语体和公众语体之间转换。

局限与展望¶

数据源偏美国 NSF：NSF 约占美国联邦支持基础研究的 25%，覆盖很广，但仍排除了未获资助 proposal、国际基金和非公开申请。
高 precision 与低 recall 的取舍：零样本抽取优先可靠性，导致 claim recall 较低。未来需要多轮抽取、模型 ensemble 或 active annotation 来补足遗漏 claims。
LLM-as-judge 还需更多验证：GPT-4o-mini 评估在样本中与人工高度一致，但跨更多学科、不同 claim 复杂度时仍需社区验证。
时间和 publication 链接覆盖不均：后续 publications 主要近年才更常更新，因此纵向追踪“claim 到论文”的覆盖会有时间偏差。
事实核验还没闭环：数据集中有 claims 和 proposals，但并未直接给出支持/反驳证据或最终真伪标签。真正 claim verification 还需要证据检索和证据标注。

评分¶

新颖性: ⭐⭐⭐⭐☆ 数据源和 claim/proposal 联合抽取很有新意；模型方法本身主要是工程化数据构建和微调验证。
实验充分度: ⭐⭐⭐⭐☆ 有规模统计、人工质量分析、三项下游任务和误差分析；不足是缺少完整 claim verification 证据链。
写作质量: ⭐⭐⭐⭐☆ 论文结构清楚，数字充分；个别表格说明略长，但整体容易复现数据流程。
价值: ⭐⭐⭐⭐⭐ 数据资源价值很高，尤其适合科学 claim mining、元科学、science communication 和早期科研趋势分析。