跳转至

Many Heads Are Better Than One: Improved Scientific Idea Generation by A LLM-Based Multi-Agent System

会议: ACL 2025
arXiv: 2410.09403
代码: https://github.com/open-sciencelab/Virtual-Scientists
领域: LLM / NLP
关键词: 科学发现, 多agent系统, idea生成, 科学协作, LLM Agent

一句话总结

提出 VirSci 多 agent 系统,用真实科学家数据构建虚拟科研生态,通过 5 步协作流程和创新的组间+组内讨论机制生成科学 idea,在新颖性和潜在影响力上显著超越单 agent 系统。

研究背景与动机

领域现状:AI for Science 已从分子设计/蛋白质预测发展到利用 LLM 辅助科学 idea 生成。AI Scientist(Lu et al., 2024)实现了从 idea 到论文的端到端自动化,HypoGen(Qi et al., 2024)引入多 agent 假说生成。

现有痛点: - AI Scientist 是单 agent 系统,完全无法模拟真实科研中的团队协作——而 Nature/Science 上 >90% 的论文是多人合作 - HypoGen / ResearchTown 虽然用了多 agent,但使用手工构造的虚假个人资料和合成协作网络,不反映真实学术社区动态 - 现有多 agent 框架采用简单的全体讨论拓扑,没有跨团队交流机制 - 缺乏客观的、与人类判断对齐的 novelty 自动评估指标

核心矛盾:真实的科学创新高度依赖团队多样性和协作机制,但现有 LLM 科学发现系统要么忽略协作、要么使用不真实的协作模拟

本文目标 (1) 用真实科学家数据构建可信的多 agent 协作系统 (2) 设计模拟真实科研协作的五步流程 (3) 系统研究团队规模/新鲜度/多样性对 idea 新颖性的影响

切入角度:构建"虚拟科研生态"作为 digital twin——科学家背景和论文来自真实数据(AMiner/OAG),用时间分割(past vs. contemporary)作为评估参照,确保评估的客观性

核心 idea:用真实科学家数据模拟多 agent 科研团队协作,通过组间邀请机制和新颖性投票机制生成比单 agent 更新颖的科学 idea。

方法详解

整体框架

真实学术数据集(AMiner/OAG)→ 构建虚拟科研生态(past 论文库 + contemporary 论文库 + 科学家知识库 + 协作邻接矩阵)→ 多 agent 五步协作:1. 组队 → 2. 话题讨论 → 3. Idea 生成 → 4. 新颖性评估投票 → 5. 摘要撰写

关键设计

  1. 虚拟科研生态(Scientific Research Ecosystem)

    • Past 论文库 B_past:时间分界点前的论文,用 Faiss 索引,供 agent 在 idea 生成中检索参考文献
    • Contemporary 论文库 B_con:时间分界点后的论文,仅用于评估——检验生成 idea 是否与真实未来研究方向对齐
    • 科学家知识库:用 AgentScope 的 KnowledgeBank 存储真实科学家的姓名(已脱敏)、机构、引用数、研究兴趣、协作历史
    • 协作邻接矩阵 A:A_ij 表示科学家 i 和 j 的历史合作次数,+1 保证未合作者也有被选概率(explore-exploit)
    • 设计动机:用真实数据而非合成数据构建 agent 角色,确保模拟的学术协作网络结构真实
  2. 组间+组内讨论机制(Inter- & Intra-team Discussion)

    • 组内讨论(Intra-team):团队成员按圆桌顺序轮流发言,每轮讨论由 team leader 总结
    • 组间邀请(Inter-team,"Invitation Mechanism"):讨论中 agent 可通过 RAG 搜索团队外的科学家,临时邀请其参与讨论但不加入团队
    • 设计动机:模拟真实科研中"紧密团队内部讨论 + 咨询外部专家"的双层交流模式
  3. 新颖性评估与投票(Novelty Assessment)

    • 从 idea 生成阶段保留置信度最高的 3 个 idea
    • 每个 agent 独立检索 B_past 中与每个 idea 最相关的论文,判断是否与已有工作重复
    • 模拟盲审:不包含任何讨论记忆,只基于 idea 内容和参考文献做 chain-of-thought 推理后投票
    • 最高票 idea 进入摘要撰写
    • 设计动机:引入同行评审机制减少 agent 过度自信,确保最终选出真正新颖的 idea

评估指标

指标 定义 方向
HD(Historical Dissimilarity) 与 B_past 中 top-5 最相似论文的平均欧几里得距离 ↑ 越大越新颖
CD(Contemporary Dissimilarity) 与 B_con 中 top-5 最相似论文的平均欧几里得距离 ↓ 越小越对齐未来
CI(Contemporary Impact) B_con 中 top-5 最相似论文的平均引用数 ↑ 越大潜在影响越高
ON(Overall Novelty) (HD × CI) / CD 的归一化综合得分 ↑ 越大越好
人工评估 Nov(新颖性)/ Fea(可行性)/ Eff(有效性),1-7 Likert

实验关键数据

与基线对比(GPT-4o 作为 agent 模型)

方法 CD ↓ CI ↑ Nov ↑ Fea ↑ Eff ↑
HypoGen 0.36 3.10 4.78 4.24 4.43
AI Scientist 0.38 3.22 4.94 4.18 4.77
VirSci(本文) 0.34 3.78 5.24 4.52 4.95

与基线对比(LLaMA3.1-70b 作为 agent 模型)

方法 CD ↓ CI ↑ Nov ↑ Fea ↑ Eff ↑
HypoGen 0.49 2.13 3.57 3.61 3.52
AI Scientist 0.48 2.11 3.88 3.60 3.66
VirSci(本文) 0.40 3.36 4.18 3.84 3.75

协作机制消融

因素 最优值 关键发现
团队规模 8 人 超过 8 人后出现 groupthink,ON 下降
讨论轮数 5 轮 过多轮次导致"讨论疲劳",创新性下降
团队新鲜度 50%(新+老各半) 纯新人或纯老搭档都不如混合团队
研究多样性 50-75% 符合 Science of Science 的"意外组合"理论

关键发现

  • 多 agent 显著优于单 agent:平均 CD 改善 +13.8%、CI 改善 +44.1%(相对于 AI Scientist)
  • ON 指标与人类判断正相关:Pearson 相关系数 r=0.52,验证了自动化评估指标的有效性
  • 团队规模存在最优值(~8人):小团队创新但视野有限,大团队视野广但易陷入 groupthink
  • 新鲜度 50% 最优:与 Science of Science 文献(Zeng et al., 2021)中"fresh teams produce more innovative research"的发现一致
  • Agent 模型能力影响有限:LLaMA3.1-8B 和 70B 的 novelty 得分差异很小,说明协作机制比单个模型能力更重要

亮点与洞察

  • 首个用真实数据构建 agent 角色的科学 idea 生成系统:科学家背景、论文、合作关系全部来自真实数据库,而非 prompt 中编造的虚假身份。这从根本上提升了多 agent 协作实验的可信度
  • 协作机制实验与 Science of Science 文献的高度吻合:团队规模/新鲜度/多样性的实验结果与 Nature/Science 上的实证研究结论一致,证明 LLM agent 系统能复现人类科研协作的核心规律
  • Invitation Mechanism 是实用的设计创新:允许 agent 临时咨询团队外专家而不改变团队结构,平衡了多样性和稳定性

局限与展望

  • 只生成摘要不生成完整论文:评估仅基于摘要的新颖性,未验证 idea 的技术可行性
  • 单团队独立工作:真实科研中多个团队同时竞争同一课题,当前系统未模拟这种竞争动态
  • LLM 固有偏见可能偏好主流方向:训练数据中高引论文占多数,可能导致 agent 倾向于保守的增量式 idea
  • 计算成本高:8 agent × 5 轮讨论 × 多步流程,单次生成需要大量 LLM 调用

相关工作与启发

  • vs AI Scientist (Lu et al., 2024):AI Scientist 是单 agent 端到端系统(idea→实验→论文→评审),VirSci 仅聚焦 idea 生成阶段但通过多 agent 协作显著提升新颖性
  • vs HypoGen (Qi et al., 2024):HypoGen 用多 agent 但缺乏动态组队和跨团队交流;VirSci 引入基于真实合作网络的组队 + Invitation Mechanism
  • vs ResearchTown (Yu et al., 2024):ResearchTown 使用合成的个人资料和协作网络;VirSci 坚持使用真实数据,结论更可迁移

评分