ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition¶

会议: ACL 2026 Findings
arXiv: 2503.21248
代码: 无
领域: 科学发现
关键词: 科学发现, 灵感检索, 假设生成, LLM基准, 跨学科

一句话总结¶

提出 ResearchBench，首个大规模评估LLM科学发现能力的基准，基于"灵感驱动假设生成"的理论分解，覆盖12个学科1386篇论文，将科学发现分解为灵感检索、假设组合、假设排序三个充分子任务，发现LLM在跨学科灵感检索上表现出色。

研究背景与动机¶

领域现状：LLM已展现出辅助科学研究的潜力，但其发现有效新假设的能力尚缺乏系统性评估基准。

现有痛点：（1）缺乏专门的科学发现基准——现有基准（Chatbot Arena、MixEval）评估通用能力而非发现能力；（2）IdeaBench仅覆盖生物医学的假设生成，不评估完整的发现子任务集；（3）DiscoveryBench和ScienceAgentBench关注特定子任务（如写代码），不分析科学发现的基本分解。

核心矛盾：科学发现过程的不可分解性使评估困难——需要一个理论上"充分"的子任务分解，使得完美解决这些子任务等价于完美解决整体发现任务。

本文目标：构建首个跨学科、大规模的科学发现能力基准，基于理论上充分的子任务分解。

切入角度：基于认知科学发现——创意通常源于两个看似无关知识的组合联想——将假设生成分解为灵感检索→假设组合→假设排序。

核心idea：大多数假设 \(h = f(b, i_1, ..., i_k)\) 可视为研究背景 \(b\) 与灵感知识 \(i\) 的组合，据此分解为三个可独立评估的子任务，完美解决这三个子任务即完美解决发现任务。

方法详解¶

整体框架¶

ResearchBench 是一条"采数据→拆假设→造干扰→评模型"的评测流水线。它先从 Nature、Science 等顶刊抓取 1386 篇 2024 年后的论文，用 LLM agentic 框架自动从中抽出研究问题、背景综述、灵感知识与主假设，再为每条灵感构造引用邻近、同学科、跨学科三级负面样本，最后在灵感检索、假设组合、假设排序三个子任务上评测 LLM。整套设计的出发点是一个可证充分的分解：把"发现新假设"拆成这三步，完美解决它们即等价于完美完成发现。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    A["顶刊论文（Nature/Science 等，2024 年后 1386 篇）"] --> B
    subgraph EXT["LLM 灵感提取框架"]
        direction TB
        B["灵感分解模块<br/>迭代抽取潜在灵感"] --> C["必要性检查器<br/>逐条验证灵感是否必要"]
        C --> D["充分性检查器<br/>确认灵感集覆盖假设信息"]
    end
    D --> E["结构化样本<br/>研究背景 b + 灵感 i + 主假设 h"]
    E --> F["三级负面灵感<br/>引用近邻 / 同学科 / 跨学科"]
    F --> G
    subgraph TASK["充分子任务分解评测"]
        direction TB
        G["灵感检索<br/>从干扰中找回真灵感 i"] --> H["假设组合<br/>由背景 b 与灵感 i 生成 h"]
        H --> I["假设排序<br/>选出最佳假设 h"]
    end

关键设计¶

1. 理论上充分的子任务分解：让局部评测能反推整体能力

基于 \(P(h|b) \approx \prod_{j=1}^{k} P(i_j|b,h_{j-1},I) \cdot P(h_j|b,h_{j-1},i_j)\)，论文把假设生成视为研究背景 \(b\) 与一组灵感知识 \(i\) 的链式组合，对应三个子任务：灵感检索（找到 \(i_j\)）、假设组合（由背景与灵感生成 \(h_j\)）、假设排序（选出最佳 \(h\)）。这种分解的关键性质是"充分"——完美解决三个子任务即完美解决整体发现，因而子任务上的得分能可靠地推广到发现能力。其依据来自认知科学"想法不过是旧元素的新组合"，并经 12 个学科与专家验证确认普适。

2. LLM 灵感提取框架：自动且可随时间更新

框架分三段协作：灵感分解模块迭代抽出潜在灵感（以被引论文的标题加摘要表示），必要性检查器逐条验证该灵感对主假设是否必要，充分性检查器再确认抽出的灵感集合足以覆盖假设的信息范围，专家复核准确率达 91.9%。全自动设计的好处不止省人力——它能随 LLM 预训练截止日期推移自动换上更新的论文，从而持续规避数据泄露。

3. 三级负面灵感：给灵感检索铺一条难度梯度

干扰项按区分难度分三档：Level 1 是被该论文引用或标题语义相近的近邻论文，最难甄别；Level 2 是同学科论文，难度居中；Level 3 是完全不同学科的论文，最易排除。简单负样本只会让所有模型都轻松满分、失去区分度，三级梯度则能细粒度地刻画 LLM 究竟能在多近的距离上把真灵感从干扰中挑出来。

实验关键数据¶

主实验（灵感检索 - 选择top 4%候选）¶

模型	总体准确率
GPT-4o	45.7%
GPT-4o-mini	42.3%
Qwen2.5-72B	~40%
Llama-3.1-70B	~35%

关键发现¶

LLM在灵感检索上表现出人意料地好——选择top 4%候选时真正灵感被包含的概率达45.7%
灵感检索本质上是OOD（分布外）任务——灵感应该是"不被认为与研究问题相关但实际有用"的知识，LLM能找到这种非显而易见的关联
假设组合和排序任务上LLM也表现不错
跨12个学科结果一致，验证了基于灵感的分解框架的普适性
将LLM定位为"研究假设矿山"——性能更好的LLM是更富的矿，更多推理计算等于更多矿工

亮点与洞察¶

理论基础扎实：基于认知科学的充分分解，不是ad hoc的评估设计
OOD灵感检索的发现意义深远：说明LLM具备发现非显而易见的知识关联的能力
12学科覆盖：从物理到法学，验证了方法的广泛适用性
自动可更新：框架可随时间自动提取新论文，避免数据泄露

局限与展望¶

假设的评估依赖语义匹配：难以评估真正全新的假设
灵感提取准确率91.9%：仍有改进空间
仅评估假设发现：不评估假设的实验验证
未来方向：与实验Agent结合完成完整科学发现循环、评估假设新颖性和影响力

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个基于理论充分分解的跨学科科学发现基准，灵感检索作为OOD任务的洞察独特
实验充分度: ⭐⭐⭐⭐ 12学科覆盖、多模型对比、专家验证，但某些任务的评估细节较少
写作质量: ⭐⭐⭐⭐ 理论框架阐述清晰，反向传播的灵感例子直观
价值: ⭐⭐⭐⭐⭐ 为AI辅助科学发现提供了首个系统性评估框架，"研究假设矿山"的定位有启发性