Foundation Models for Scientific Discovery: From Paradigm Enhancement to Paradigm Transition¶

会议: NeurIPS 2025
arXiv: 2510.15280
作者: Fan Liu, Jindong Han, Tengfei Lyu, Weijia Zhang, Zhe-Rui Yang, Lu Dai, Cancheng Liu, Hao Liu (HKUST(GZ) & HKUST) 代码: GitHub
领域: 自监督学习 / 基础模型 / AI for Science
关键词: foundation models, scientific discovery, paradigm shift, autonomous discovery, human-AI co-creation

一句话总结¶

提出基础模型驱动科学发现的三阶段框架——元科学集成、人机混合共创、自主科学发现，系统梳理 FM 在实验/理论/计算/数据驱动四大范式中的应用，主张 FM 正催生第五科学范式。

研究背景与动机¶

科学发现历经四次范式演变：实验驱动（16-17世纪，伽利略、波义耳）→ 理论驱动（18-19世纪，牛顿、麦克斯韦、爱因斯坦）→ 计算驱动（20世纪中叶，数值模拟）→ 数据驱动（21世纪，统计学习与深度学习）。每次范式跃迁不仅引入新工具，更重新定义了科学的认识论基础。

然而，当代科学面临的问题日趋复杂： - 涌现性与不可还原性：意识、蛋白质折叠路径、社会极化等问题抵抗还原论建模 - 组合爆炸：药物发现和材料设计中的候选空间使穷举搜索不可行 - 理论-数据鸿沟：实验/观测数据的指数级增长远超人类综合统一理论的能力 - 假设局限：现有计算模型依赖线性、平稳、平衡态等简化假设，与真实系统的动态非线性本质不匹配

基础模型（FM）——如 GPT-4、AlphaFold、DeepSeek——为上述挑战提供了回应。它们在大规模多样数据上训练，展现出跨任务的通用能力。AlphaFold 解决了蛋白质折叠这一长期难题；FunSearch 自主提出并验证新的数学猜想。这些进展引出核心问题：FM 仅仅是在增强现有科学方法，还是在催生全新的科学范式？

本文旗帜鲜明地给出立场：FM 不仅在改善科学流程的各部分，还在重塑科学发现的底层范式。

核心框架：三阶段演进¶

作者提出 FM 驱动科学发现的三阶段框架，刻画从工具到协作者再到自主体的渐进转型：

阶段一：元科学集成（Meta-Scientific Integration）¶

维度	特征
FM 角色	后端工具
任务范围	任务增强器
自主性	低
科学影响	效率提升

FM 作为智能基础设施运行，增强但不变革科学实践。核心价值在于：流程自动化（数据预处理、文献检索、方法匹配）、跨组件集成（连接传感器数据与仿真模型、实验规划与先验知识）、提升可重复性和效率。FM 在此阶段是工具性的而非认识论的——执行既定范式内的任务，不改变其逻辑结构。推理和知识生产的主体仍是人类。

阶段二：人机混合共创（Hybrid Human-AI Co-Creation）¶

维度	特征
FM 角色	共创者
任务范围	全周期任务
自主性	中等
科学影响	劳动分工转变

FM 从被动基础设施转变为科学工作流中的主动协作者。它们参与研究问题生成、假设结构化、实验规划，某些情况下可执行端到端任务。FM 展现中度自主性——能在限定研究环境中生成想法、选择方法、基于反馈调整工作流，但仍依赖人类进行问题框定和伦理指导。这一阶段重新分配了科学中的认知劳动：FM 承担文献综合、多步推理、组合实验规划等任务，人类聚焦于判断、创造力和战略框定。

阶段三：自主科学发现（Autonomous Scientific Discovery）¶

维度	特征
FM 角色	自主行动者
任务范围	端到端、自我驱动
自主性	高
科学影响	科学基础重建

FM 超越协作，进化为能以最小人类干预进行科学发现的自主智能体。它们自我驱动地提出研究问题、生成假设、选择方法、执行实验/仿真、解释结果并基于反馈更新内部模型。FM 不再是被人类输入触发的反应性工具，而是作为认识论行动者——贡献原创洞见、挑战现有理论、塑造科学话语方向。如果完全实现，这将标志着第五科学范式——发现不再是人类驱动的专属活动，而可从机器智能的自主推理中涌现。

FM 在四大科学范式中的集成¶

实验驱动范式¶

实验设计：经典贝叶斯优化和主动学习受限于稀疏先验和泛化能力差。FM 编码领域知识并引导最优配置搜索，如在分子和材料发现中作为 BO 管线的先验或特征提取器加速收敛，或通过直接最大化互信息绕过代理建模提升数据效率。

物理实验执行：实验室实验需要跨规划、感知、控制的协调。FM 日益充当统一接口和规划器——生成 Python 控制脚本将用户目标转化为可执行实验方案，编排模块化智能体进行结构化反应规划，嵌入机器人控制实现语言引导的物理操作，集成多模态（视觉+语音）支持实时交互和错误修正。

理论驱动范式¶

假设生成：FM 通过综合大规模语料库和结构化先验促进系统性假设生成。知识图谱引导的方法通过本体论概念路径引导假设构建以增强新颖性和可验证性；物理引导的 FM 将物理定律直接嵌入生成过程以确保与已知动力学的一致性。

理论验证与形式推理：FM 与符号逻辑系统结合支持演绎推理、一致性检查和可证伪性分析。Logic-LM 将 LLM 与符号求解器耦合形成反馈回路提升形式严谨性；LeanCopilot 和 DeepSeekProver 展示了预训练模型大规模辅助证明构建和验证的能力。

计算驱动范式¶

构建可执行科学模型：FM 支持符号、隐式和可微分三种建模方式。符号发现方面，LLM-SR 将多种输入转化为方程骨架供后续精化，FunSearch 将程序合成作为语言引导的搜索任务发现新算法。当显式方程难以获得时，PROSE-PDE 同时预测系统动力学和推断底层控制律，DiffusionPDE 训练系数-解对的生成先验从稀疏数据采样后验。

求解与反演科学方程：神经算子学习连续映射——从强迫项到 PDE 解——可跨网格分辨率泛化。GraphCast 在降低计算成本的同时超越传统数值天气预报模型。PDE-Refiner 迭代校正粗求解器输出，无需重新运行完整仿真即削减误差。

数据驱动范式¶

科学知识发现：FM 将海量语料压缩为结构化表示，支持跨模态推理。DNABERT 从序列中识别 DNA 功能元素；MoLFormer 学习 SMILES 嵌入实现零样本分子候选检索；ClimaX 融合多种气候输入学习统一时空表示；Galactica 将数百万篇论文转化为可查询的知识库。

预测性科学推理：FM 将预测任务重新定义为生成建模。GraphCast 和盘古气象学习重分析数据的隐动力学实现全球天气预测；DiffusionSat 生成高分辨率卫星图像弥合观测缺口；AlphaFold 2 和 ESMFold 以近实验精度预测蛋白质结构；RFdiffusion 和 MatterGen 分别设计新型蛋白质折叠和无机晶体。

跨范式集成¶

FM 作为跨越实验-理论-计算-数据范式的集成引擎。PROSE-FD 在多模态 Transformer 中联合训练符号方程模板和空间场数据，实现流体动力学的跨工况泛化。隐式神经算子（LNO）将物理算子编码到几何无关、分辨率不变的隐空间中。Coscientist 将高层研究目标转化为机器可执行方案、控制机器人合成并基于结果调整后续行动，实现端到端科学工作流编排。

风险与挑战¶

偏见与认识论公平¶

FM 从训练数据中继承偏见——过度代表主流范式、西方机构和高引作者。随着 FM 从工具到共创者再到自主体的转变，这些偏见从被动反映变为主动塑造科学议程的力量。例如在全球健康建模中，以英文文献为主的 FM 可能系统性优先研究西方常见疾病而忽视发展中国家的紧迫问题。

幻觉与科学错误信息¶

FM 本质上是数据驱动的模式识别器而非保真推理器。随着角色从任务增强转向自主假设生成，生成看似合理但未经验证的声明的风险大幅增长。在生物医学领域可能提出缺乏实验基础的新机制，在物理学中可能生成数学优雅但物理无效的公式。

可重复性与透明度¶

FM 端到端接管实验设计、仿真运行和结果解释时，其决策过程往往不透明。如果看不到中间推理步骤、模型假设或版本状态，就难以复制或验证结果。需要推理步骤透明记录、版本控制的模型检查点和保留 FM 工作流可追溯性的开放科学实践。

署名、问责与科学伦理¶

当 FM 生成核心假设或实验设计时，是否应被列为共同作者？其输出导致危害或错误科学时由谁负责？需要区分机械贡献与创造性贡献的治理框架、强制透明披露制度以及追踪 AI 生成输出下游影响的机制。

未来方向¶

具身科学智能体¶

将 FM 锚定于物理世界——部署在实验室机器人、自动化仪器和数字孪生环境中。通过耦合语言推理与真实世界感知和控制，这些智能体将规划实验、与物理系统交互并迭代优化流程。挑战在于高层任务规划与低层控制的整合、真实世界不确定性下的鲁棒性以及动态实验环境中的安全性和可解释性。

闭环科学自主¶

从开环（FM 辅助部分环节，人类决策下一步）到闭环（FM 持续制定假设、设计执行实验、分析结果并基于反馈更新内部模型）。已有进展包括基于强化学习的规划（CycleResearcher）、规划即推理和神经符号智能体。关键挑战是确保闭环对噪声观测鲁棒、对目标变化自适应，并与科学有效性（而非仅奖励最大化）对齐。

持续学习与泛化¶

FM 需从静态系统转变为持续学习者，能跨时间积累和精炼知识。核心挑战包括灾难性遗忘和领域漂移。有前景的方向包括参数高效在线适应、记忆增强架构和模块化终身学习框架。推进这些机制将使 FM 能增量构建跨领域表示、促进跨科学语境的类比推理。

论文评价¶

优点¶

框架清晰有力：三阶段演进框架（元科学集成→人机共创→自主发现）提供了思考 FM 与科学发现关系的系统性视角，既有描述性又具预测性
覆盖全面：系统梳理了 FM 在四大经典科学范式（实验/理论/计算/数据驱动）中的集成应用，并讨论跨范式整合，覆盖面广
风险意识成熟：没有一味吹捧，而是严肃讨论偏见、幻觉、可重复性和科学伦理四类风险，展现了负责任的立场
立场鲜明：明确主张 FM 正催生第五科学范式，而非仅仅是效率工具，为社区提供了可以辩论的具体论点

不足¶

缺乏量化证据：作为立场论文，三阶段划分主要基于定性论证，缺少衡量"范式转变程度"的可操作性指标或实证案例研究
阶段划分边界模糊：元科学集成与人机共创、人机共创与自主发现之间的界限不够清晰，实际系统可能同时跨越多个阶段
缺少批判性对比：对"第五范式"的立场缺少与反对观点（如 Wolfram 的批评）的深入正面交锋
技术深度不足：对具体 FM 方法的讨论偏综述性，缺少深入的技术分析和统一的比较框架
自主科学发现的现实可行性论证不够充分：当前展示的系统（如 AI Scientist）离真正的自主发现仍有显著差距，论文对此差距的讨论不够深入