Foundation Models for Scientific Discovery: From Paradigm Enhancement to Paradigm Transition¶
会议: NeurIPS 2025
arXiv: 2510.15280
代码: GitHub
领域: 科学发现 / 基础模型综述
关键词: 基础模型, 科学范式, 自主科学发现, 人机协作, AI for Science
一句话总结¶
提出三阶段框架(元科学整合→混合人机共创→自主科学发现)来描绘基础模型正推动科学范式从工具增强向范式转型演变的图景,并系统综述了 FM 在实验/理论/计算/数据四大科学范式中的整合应用。
研究背景与动机¶
领域现状: 科学发现历史上经历了四大范式演变——实验驱动(16-17世纪)、理论驱动(18-19世纪)、计算驱动(20世纪中叶)、数据驱动(21世纪)。基础模型(FM)如 GPT-4、AlphaFold、DeepSeek 正在重塑科研全景。
现有痛点: 科学问题日益呈现涌现行为、开放性和不可还原的复杂性,传统范式面临根本局限:实验范式受限于大规模/复杂系统的直接操控困难,理论范式面临理论复杂度与实验可测试性之间的鸿沟,计算范式依赖简化假设,数据驱动范式在因果推断和可解释性方面的不足。
核心矛盾: FM 究竟只是加速现有科学方法论的强力工具,还是正在催生一种全新的科学范式?支持者认为 FM 重塑了发现结构、降低了准入门槛,怀疑者则认为 FM 本质上还是常规工具。
本文目标: 明确 FM 在科学发现中的定位,提出系统性框架来理解 FM 如何从工具演变为认知主体。
切入角度: 以科学范式演化的视角,构建渐进式三阶段框架。
核心 idea: FM 正在催化科学范式的第五阶段转型——从人类主导发现到机器智能参与/主导发现。
方法详解¶
整体框架¶
提出 FM 驱动科学演化的三阶段框架,从五个维度(范式定义、FM角色、任务范围、自主性、科学影响)进行对比:
| 维度 | 元科学整合 | 混合人机共创 | 自主科学发现 |
|---|---|---|---|
| FM角色 | 后端工具 | 共创者 | 自主行动者 |
| 任务范围 | 任务增强器 | 全周期任务 | 端到端自导向 |
| 自主性 | 低 | 中等 | 高 |
| 影响 | 效率提升 | 劳动力转移 | 科学再奠基 |
关键设计¶
-
阶段一——元科学整合:
- FM 作为智能基础设施,增强但不改变科学实践
- 角色:后端协调者,自动化数据预处理、文献检索、方法匹配
- 打通原本孤立的组件(传感器数据↔仿真模型、实验规划↔先验知识)
- 关键特征:低自主性、需持续人工监督、工具性而非认识论性
- 类比:提升科学吞吐量,但推理和知识生产的核心仍由人完成
-
阶段二——混合人机共创:
- FM 从被动基础设施转变为科研流程中的主动合作者
- 参与研究问题生成、假设结构化、实验规划
- 展现中等自主性:可生成想法、选择方法、基于反馈调整工作流
- 重构认知劳动分工:FM 承担文献综合、多步推理、组合实验规划
- 人类专注于判断、创造力和战略框架
-
阶段三——自主科学发现:
- FM 作为自主代理,最小人工干预下执行完整科学循环
- 自主提出问题、生成假设、选择方法、执行实验、解释结果
- 关键区别:内部目标和反馈机制驱动,非被动响应人类输入
- 代表第五科学范式:发现不再由人类独占,而源于机器智能的自主推理
- 案例:AI Scientist 已展示端到端科研管线
-
FM 在四大经典范式中的整合:
- 实验范式: FM 作为贝叶斯优化先验加速分子/材料发现;FM 生成实验仪器控制脚本;多模态代理嵌入机器人控制
- 理论范式: 知识图谱引导的假设生成(KG-CoI);与符号逻辑系统耦合进行假设验证(Logic-LM);辅助定理证明(LeanCopilot、DeepSeekProver)
- 计算范式: 符号发现(LLM-SR、FunSearch);潜在算子学习(PROSE-PDE);神经算子加速 PDE 求解(GraphCast 天气预报)
- 数据范式: 科学知识发现(DNABERT、MoLFormer、ClimaX);预测推断(AlphaFold、ESMFold、RFdiffusion)
损失函数 / 训练策略¶
本文为综述/立场论文,不涉及具体训练策略。核心贡献在于概念框架和系统性分类法。
实验关键数据¶
主实验¶
本文为立场论文(position paper),无自有实验数据。通过系统综述已有工作支撑论点。
消融实验¶
不适用。
关键发现¶
论文系统识别了四大风险维度:
| 风险维度 | 描述 |
|---|---|
| 偏见与认识论公平 | FM 继承训练数据偏见,可能导致认识同质化、排斥边缘知识领域 |
| 幻觉与科学误信息 | FM 可能生成看似可信但未经验证的科学声明,危害随自主性增长 |
| 可复现性与透明度 | 端到端 FM 决策过程不透明,威胁科学可复现性 |
| 作者身份与问责 | FM 从工具到合作者的角色转变引发知识产权与伦理归属问题 |
未来三大方向:具身科学代理、闭环科学自主、持续学习与泛化。
亮点与洞察¶
- 框架设计优雅: 三阶段递进式框架(工具→合作者→自主代理)清晰且有说服力
- 覆盖全面: 横跨四大经典科学范式 × 三个FM整合阶段的分析矩阵
- 风险分析务实: 不仅讨论技术能力,也认真对待偏见、幻觉、可复现性等核心科学价值观
- 交叉范式整合: 讨论了 FM 如何打破传统范式壁垒,实现跨范式工作流协调
- PROSE-FD、Coscientist 等案例分析具体: 展示了跨范式整合的实际进展
局限与展望¶
- 作为立场论文,论点在一定程度上具有推测性,缺乏严格的实证验证
- "第五范式"的说法可能过于乐观,当前 FM 距离真正自主科学发现仍有显著差距
- 对数学/形式化科学领域的覆盖不如实验科学充分
- 未深入讨论 FM 失败模式的具体案例(如 AlphaFold 在特定蛋白上的局限)
- 产业界大型闭源模型(如 GPT-4、Gemini)的能力评估受限于不可复现性
相关工作与启发¶
- AlphaFold (Jumper et al., 2021): 解决蛋白质折叠挑战的标志性案例
- FunSearch (Romera-Paredes et al., 2024): 自主发现数学猜想和算法
- Coscientist (Boiko et al., 2023): 将研究目标翻译为机器可执行协议的化学实验系统
- AI Scientist: 实现了完整研究管线的自动化
- 为 AI4Science 社区提供了有价值的概念地图和未来方向参考
评分¶
- 新颖性: ⭐⭐⭐⭐ 三阶段框架有原创性,将分散讨论整合为连贯叙事
- 实验充分度: ⭐⭐⭐ 综述论文无自有实验,但文献覆盖广泛
- 写作质量: ⭐⭐⭐⭐⭐ 结构优美,论述逻辑严密,图表精美
- 价值: ⭐⭐⭐⭐ 为科学界理解 FM 的变革角色提供了重要思想框架
Foundation Models for Scientific Discovery: From Paradigm Enhancement to Paradigm Transition¶
会议: NeurIPS 2025
arXiv: 2510.15280
作者: Fan Liu, Jindong Han, Tengfei Lyu, Weijia Zhang, Zhe-Rui Yang, Lu Dai, Cancheng Liu, Hao Liu (HKUST(GZ) & HKUST)
代码: GitHub
领域: 自监督学习 / 基础模型 / AI for Science
关键词: foundation models, scientific discovery, paradigm shift, autonomous discovery, human-AI co-creation
一句话总结¶
提出基础模型驱动科学发现的三阶段框架——元科学集成、人机混合共创、自主科学发现,系统梳理 FM 在实验/理论/计算/数据驱动四大范式中的应用,主张 FM 正催生第五科学范式。
研究背景与动机¶
科学发现历经四次范式演变:实验驱动(16-17世纪,伽利略、波义耳)→ 理论驱动(18-19世纪,牛顿、麦克斯韦、爱因斯坦)→ 计算驱动(20世纪中叶,数值模拟)→ 数据驱动(21世纪,统计学习与深度学习)。每次范式跃迁不仅引入新工具,更重新定义了科学的认识论基础。
然而,当代科学面临的问题日趋复杂: - 涌现性与不可还原性:意识、蛋白质折叠路径、社会极化等问题抵抗还原论建模 - 组合爆炸:药物发现和材料设计中的候选空间使穷举搜索不可行 - 理论-数据鸿沟:实验/观测数据的指数级增长远超人类综合统一理论的能力 - 假设局限:现有计算模型依赖线性、平稳、平衡态等简化假设,与真实系统的动态非线性本质不匹配
基础模型(FM)——如 GPT-4、AlphaFold、DeepSeek——为上述挑战提供了回应。它们在大规模多样数据上训练,展现出跨任务的通用能力。AlphaFold 解决了蛋白质折叠这一长期难题;FunSearch 自主提出并验证新的数学猜想。这些进展引出核心问题:FM 仅仅是在增强现有科学方法,还是在催生全新的科学范式?
本文旗帜鲜明地给出立场:FM 不仅在改善科学流程的各部分,还在重塑科学发现的底层范式。
核心框架:三阶段演进¶
作者提出 FM 驱动科学发现的三阶段框架,刻画从工具到协作者再到自主体的渐进转型:
阶段一:元科学集成(Meta-Scientific Integration)¶
| 维度 | 特征 |
|---|---|
| FM 角色 | 后端工具 |
| 任务范围 | 任务增强器 |
| 自主性 | 低 |
| 科学影响 | 效率提升 |
FM 作为智能基础设施运行,增强但不变革科学实践。核心价值在于:流程自动化(数据预处理、文献检索、方法匹配)、跨组件集成(连接传感器数据与仿真模型、实验规划与先验知识)、提升可重复性和效率。FM 在此阶段是工具性的而非认识论的——执行既定范式内的任务,不改变其逻辑结构。推理和知识生产的主体仍是人类。
阶段二:人机混合共创(Hybrid Human-AI Co-Creation)¶
| 维度 | 特征 |
|---|---|
| FM 角色 | 共创者 |
| 任务范围 | 全周期任务 |
| 自主性 | 中等 |
| 科学影响 | 劳动分工转变 |
FM 从被动基础设施转变为科学工作流中的主动协作者。它们参与研究问题生成、假设结构化、实验规划,某些情况下可执行端到端任务。FM 展现中度自主性——能在限定研究环境中生成想法、选择方法、基于反馈调整工作流,但仍依赖人类进行问题框定和伦理指导。这一阶段重新分配了科学中的认知劳动:FM 承担文献综合、多步推理、组合实验规划等任务,人类聚焦于判断、创造力和战略框定。
阶段三:自主科学发现(Autonomous Scientific Discovery)¶
| 维度 | 特征 |
|---|---|
| FM 角色 | 自主行动者 |
| 任务范围 | 端到端、自我驱动 |
| 自主性 | 高 |
| 科学影响 | 科学基础重建 |
FM 超越协作,进化为能以最小人类干预进行科学发现的自主智能体。它们自我驱动地提出研究问题、生成假设、选择方法、执行实验/仿真、解释结果并基于反馈更新内部模型。FM 不再是被人类输入触发的反应性工具,而是作为认识论行动者——贡献原创洞见、挑战现有理论、塑造科学话语方向。如果完全实现,这将标志着第五科学范式——发现不再是人类驱动的专属活动,而可从机器智能的自主推理中涌现。
FM 在四大科学范式中的集成¶
实验驱动范式¶
实验设计:经典贝叶斯优化和主动学习受限于稀疏先验和泛化能力差。FM 编码领域知识并引导最优配置搜索,如在分子和材料发现中作为 BO 管线的先验或特征提取器加速收敛,或通过直接最大化互信息绕过代理建模提升数据效率。
物理实验执行:实验室实验需要跨规划、感知、控制的协调。FM 日益充当统一接口和规划器——生成 Python 控制脚本将用户目标转化为可执行实验方案,编排模块化智能体进行结构化反应规划,嵌入机器人控制实现语言引导的物理操作,集成多模态(视觉+语音)支持实时交互和错误修正。
理论驱动范式¶
假设生成:FM 通过综合大规模语料库和结构化先验促进系统性假设生成。知识图谱引导的方法通过本体论概念路径引导假设构建以增强新颖性和可验证性;物理引导的 FM 将物理定律直接嵌入生成过程以确保与已知动力学的一致性。
理论验证与形式推理:FM 与符号逻辑系统结合支持演绎推理、一致性检查和可证伪性分析。Logic-LM 将 LLM 与符号求解器耦合形成反馈回路提升形式严谨性;LeanCopilot 和 DeepSeekProver 展示了预训练模型大规模辅助证明构建和验证的能力。
计算驱动范式¶
构建可执行科学模型:FM 支持符号、隐式和可微分三种建模方式。符号发现方面,LLM-SR 将多种输入转化为方程骨架供后续精化,FunSearch 将程序合成作为语言引导的搜索任务发现新算法。当显式方程难以获得时,PROSE-PDE 同时预测系统动力学和推断底层控制律,DiffusionPDE 训练系数-解对的生成先验从稀疏数据采样后验。
求解与反演科学方程:神经算子学习连续映射——从强迫项到 PDE 解——可跨网格分辨率泛化。GraphCast 在降低计算成本的同时超越传统数值天气预报模型。PDE-Refiner 迭代校正粗求解器输出,无需重新运行完整仿真即削减误差。
数据驱动范式¶
科学知识发现:FM 将海量语料压缩为结构化表示,支持跨模态推理。DNABERT 从序列中识别 DNA 功能元素;MoLFormer 学习 SMILES 嵌入实现零样本分子候选检索;ClimaX 融合多种气候输入学习统一时空表示;Galactica 将数百万篇论文转化为可查询的知识库。
预测性科学推理:FM 将预测任务重新定义为生成建模。GraphCast 和盘古气象学习重分析数据的隐动力学实现全球天气预测;DiffusionSat 生成高分辨率卫星图像弥合观测缺口;AlphaFold 2 和 ESMFold 以近实验精度预测蛋白质结构;RFdiffusion 和 MatterGen 分别设计新型蛋白质折叠和无机晶体。
跨范式集成¶
FM 作为跨越实验-理论-计算-数据范式的集成引擎。PROSE-FD 在多模态 Transformer 中联合训练符号方程模板和空间场数据,实现流体动力学的跨工况泛化。隐式神经算子(LNO)将物理算子编码到几何无关、分辨率不变的隐空间中。Coscientist 将高层研究目标转化为机器可执行方案、控制机器人合成并基于结果调整后续行动,实现端到端科学工作流编排。
风险与挑战¶
偏见与认识论公平¶
FM 从训练数据中继承偏见——过度代表主流范式、西方机构和高引作者。随着 FM 从工具到共创者再到自主体的转变,这些偏见从被动反映变为主动塑造科学议程的力量。例如在全球健康建模中,以英文文献为主的 FM 可能系统性优先研究西方常见疾病而忽视发展中国家的紧迫问题。
幻觉与科学错误信息¶
FM 本质上是数据驱动的模式识别器而非保真推理器。随着角色从任务增强转向自主假设生成,生成看似合理但未经验证的声明的风险大幅增长。在生物医学领域可能提出缺乏实验基础的新机制,在物理学中可能生成数学优雅但物理无效的公式。
可重复性与透明度¶
FM 端到端接管实验设计、仿真运行和结果解释时,其决策过程往往不透明。如果看不到中间推理步骤、模型假设或版本状态,就难以复制或验证结果。需要推理步骤透明记录、版本控制的模型检查点和保留 FM 工作流可追溯性的开放科学实践。
署名、问责与科学伦理¶
当 FM 生成核心假设或实验设计时,是否应被列为共同作者?其输出导致危害或错误科学时由谁负责?需要区分机械贡献与创造性贡献的治理框架、强制透明披露制度以及追踪 AI 生成输出下游影响的机制。
未来方向¶
具身科学智能体¶
将 FM 锚定于物理世界——部署在实验室机器人、自动化仪器和数字孪生环境中。通过耦合语言推理与真实世界感知和控制,这些智能体将规划实验、与物理系统交互并迭代优化流程。挑战在于高层任务规划与低层控制的整合、真实世界不确定性下的鲁棒性以及动态实验环境中的安全性和可解释性。
闭环科学自主¶
从开环(FM 辅助部分环节,人类决策下一步)到闭环(FM 持续制定假设、设计执行实验、分析结果并基于反馈更新内部模型)。已有进展包括基于强化学习的规划(CycleResearcher)、规划即推理和神经符号智能体。关键挑战是确保闭环对噪声观测鲁棒、对目标变化自适应,并与科学有效性(而非仅奖励最大化)对齐。
持续学习与泛化¶
FM 需从静态系统转变为持续学习者,能跨时间积累和精炼知识。核心挑战包括灾难性遗忘和领域漂移。有前景的方向包括参数高效在线适应、记忆增强架构和模块化终身学习框架。推进这些机制将使 FM 能增量构建跨领域表示、促进跨科学语境的类比推理。
论文评价¶
优点¶
- 框架清晰有力:三阶段演进框架(元科学集成→人机共创→自主发现)提供了思考 FM 与科学发现关系的系统性视角,既有描述性又具预测性
- 覆盖全面:系统梳理了 FM 在四大经典科学范式(实验/理论/计算/数据驱动)中的集成应用,并讨论跨范式整合,覆盖面广
- 风险意识成熟:没有一味吹捧,而是严肃讨论偏见、幻觉、可重复性和科学伦理四类风险,展现了负责任的立场
- 立场鲜明:明确主张 FM 正催生第五科学范式,而非仅仅是效率工具,为社区提供了可以辩论的具体论点
不足¶
- 缺乏量化证据:作为立场论文,三阶段划分主要基于定性论证,缺少衡量"范式转变程度"的可操作性指标或实证案例研究
- 阶段划分边界模糊:元科学集成与人机共创、人机共创与自主发现之间的界限不够清晰,实际系统可能同时跨越多个阶段
- 缺少批判性对比:对"第五范式"的立场缺少与反对观点(如 Wolfram 的批评)的深入正面交锋
- 技术深度不足:对具体 FM 方法的讨论偏综述性,缺少深入的技术分析和统一的比较框架
- 自主科学发现的现实可行性论证不够充分:当前展示的系统(如 AI Scientist)离真正的自主发现仍有显著差距,论文对此差距的讨论不够深入