NewtonBench: Benchmarking Generalizable Scientific Law Discovery in LLM Agents¶

会议: ICLR 2026
arXiv: 2510.07172
代码: 有
领域: LLM Agent
关键词: 科学发现, benchmark, 反事实物理法则, 符号回归, 交互式探索

一句话总结¶

提出NewtonBench，一个包含12个物理领域324个任务的LLM科学法则发现基准，通过"反事实法则平移"生成可防止记忆化的新颖任务，要求智能体通过交互式实验探索发现隐藏的物理方程，发现GPT-5最佳（75.9%符号准确率）但在复杂系统中急剧退化（40.3%），且代码工具对强模型反而有负面效果。

研究背景与动机¶

领域现状：LLM驱动的科学发现是前沿方向，但现有基准（如SRBench）面临"方法论三难困境"——科学相关性、可扩展性、抗记忆化三者不可兼得。

现有痛点： - 现有基准多为静态函数拟合，不需要交互式探索 - 合成基准虽可扩展但缺乏科学基础 - 真实物理方程可能被LLM从训练数据中记忆 - 缺少系统复杂度的分级评估

核心矛盾：需要同时满足科学基础、防记忆化和可扩展性，但直接使用真实法则无法防止记忆化，完全合成又缺失科学意义。

本文目标 通过反事实法则平移解决三难困境，构建交互式科学发现基准。

切入角度：对已知物理法则的表达式树进行系统性变异（算子/常数突变），生成科学上有基础但LLM从未见过的新法则。

核心 idea：通过表达式树突变生成反事实物理法则+交互式实验环境，构建首个防记忆化的可扩展科学发现基准。

方法详解¶

整体框架¶

NewtonBench 要解决的核心问题是：怎么评测 LLM 智能体"发现物理法则"的能力，又不让它靠背训练语料里的真实方程作弊。它的做法是把基准搭成一个三维难度网格——先从 12 条经典物理法则出发，对每条做累积突变得到 108 条"反事实"法则（按突变量分 Easy/Medium/Hard 三级），再把每条法则各实例化进 3 档系统环境（Vanilla/Simple/Complex），拼成 324 个任务。每个任务里藏着一条对智能体不可见的目标方程，智能体只能通过 <run_experiment> 工具喂入一组变量值、读回系统输出，像做真实实验一样反复试探，逐步推断出隐藏的方程形式；最后用符号准确率判定它给出的方程与隐藏方程是否数学等价。整套环境因此从"给一堆数据让你拟合公式"升级成了"自己设计实验把法则挖出来"。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["12 条经典物理法则<br/>(种子, 量纲可调)"] --> B["反事实法则平移<br/>对表达式树累积突变<br/>→ 108 条反事实法则<br/>(Easy/Medium/Hard)"]
    B --> C["三级系统复杂度<br/>每条法则实例化进<br/>Vanilla/Simple/Complex<br/>→ 324 个任务"]
    C --> D["交互式实验环境<br/>智能体反复调用 run_experiment<br/>探测隐藏方程"]
    D -->|可选挂载| E["Python 代码解释器<br/>数值回归/假设检验"]
    E --> D
    D --> F["智能体提交方程 f-hat"]
    F --> G["符号准确率评估<br/>SA 判结构等价 + RMSLE 测数值保真"]

关键设计¶

1. 反事实法则平移（Counterfactual Law Shifts）：让方程有科学根基却没在训练数据里出现过

真实物理方程（如牛顿引力、热传导）很可能被 LLM 从训练语料里记住，直接拿来测就分不清是"发现"还是"背诵"；可纯合成的方程又失去了科学意义。NewtonBench 把每条经典法则表示成表达式树（expression tree），再对树做累积突变：一类是算子突变（如把加法 \(+\) 换成乘法 \(\times\)），一类是常数/指数突变（如把平方项改成立方项）。难度由突变次数递进控制——Easy 在原法则上做 1–2 次突变，Medium 在 Easy 基础上再叠 1–2 次，Hard 又在 Medium 上继续叠，越往后偏离原始法则越远。突变会破坏量纲一致性，于是每条目标方程都内置至少一个物理常数，突变后通过调整该常数的单位把量纲补回来。这样生成的方程结构上仍源自真实物理、保留科学基础，但具体形式从未在任何训练语料中出现，天然挡住了记忆化这条捷径——12 条种子法则共扩出 108 条反事实法则。

2. 三级系统复杂度：把同一条目标方程放进越来越嘈杂的系统里

光控制方程本身的难度还不够，真实科学发现里更难的是从一堆耦合变量中把目标规律剥离出来。NewtonBench 把"目标法则难度"和"外围系统复杂度"做成两条独立的难度轴，为每条目标方程配三档系统环境：Vanilla 只暴露目标方程、没有任何混淆变量；Simple 把目标方程嵌进一个含辅助方程的小系统；Complex 则是多个方程互相耦合、混淆最大化的系统，此时智能体必须借助辅助方程把混淆变量解耦才能锁定目标。这一维度让基准能单独衡量"系统复杂度"对模型的冲击，也正是实验里观察到强模型从 90% 崩到 40% 的那条轴。

3. 交互式实验环境：把发现过程变成主动探索而非被动拟合

发现隐藏方程的唯一通道是交互——智能体调用 <run_experiment> 提出一组输入变量赋值，模拟器对完整系统求值、返回对应的系统输出，智能体据此设计下一次实验、逐轮逼近方程形式。环境还可选挂上一个 Python 代码解释器（Code Assistance）供模型做数值回归或假设检验，目的是把模型从"算力受限"推到"发现能力受限"，逼出它真正的科学推理边界。这个看似中性的工具后来成了实验里最有意思的变量：强模型一旦拿到代码就倾向于局部数值拟合、反而放弃了全局探索（详见实验部分的代码悖论）。

4. 符号准确率评估：判定方程"结构等价"而非数值贴合

发现任务不能只看预测值贴不贴数据，否则一个数值上凑近、结构上错的方程也能蒙混过关。NewtonBench 的主指标是符号准确率（Symbolic Accuracy, SA）——一个二元指标，判定智能体给出的方程 \(\hat{f}\) 是否与隐藏的目标方程 \(f_{\text{target}}\) 数学等价；等价判定有意忽略物理常数的具体取值（常数难从有限观测中精确拟合），只看方程的结构形式是否对。等价性由 LLM-as-judge 裁定，与人类专家标注的一致率达 98.3%。辅助指标是 RMSLE（Root Mean Squared Logarithmic Error，\(\text{RMSLE}=\sqrt{\frac{1}{n}\sum_i\big(\log(1+\hat{y}_i)-\log(1+y_i)\big)^2}\)），衡量发现方程对数据的预测保真度，作为 SA 之外的数值度量。

实验关键数据¶

主实验（11个模型）¶

模型	Vanilla Easy	Vanilla Hard	Complex Hard	平均SA
GPT-5	90.3%	87.5%	40.3%	75.9%
Gemini-2.5-pro	96.5%	69.4%	16.7%	65.4%
o4-mini	88.9%	52.8%	2.8%	47.8%
DeepSeek-R1	88.2%	36.8%	2.8%	43.4%
GPT-4.1	16.7%	1.4%	0.7%	5.8%

消融实验¶

配置	关键发现
代码工具对强模型	GPT-5: 75.9%→下降2-3%；GPT-5-mini: 53.1%→48.1% 代码有害
代码工具对弱模型	<40%SA的模型：代码提升明显
噪声0.0001	所有模型准确率下降12-16%
噪声增加	性能与噪声水平成正比退化

关键发现¶

推理能力是门槛：非推理模型（GPT-4.1等）全部<10%准确率
复杂度崩塌：GPT-5从Vanilla Easy 90.3%→Complex Hard 40.3%，二阶以上复杂度是核心瓶颈
代码工具的悖论效应：强模型使用代码后探索率急剧下降（过度利用），弱模型则受益于计算卸载
跨领域差异大：Bose-Einstein分布最难（18.1%），热传导最简单
推理token缩放：推理模型随任务复杂度显著增加token消耗，非推理模型不会

亮点与洞察¶

反事实法则平移是解决记忆化的优雅方案：不是造全新方程（失去科学基础），而是在真实方程上做可控变异，既保持科学意义又防止记忆
代码工具的exploration-exploitation trade-off发现：强模型拿到代码后倾向于做局部拟合（exploitation），放弃了全局探索（exploration），这是一个深刻的行为洞察，与RL中的经典困境呼应
交互式评估范式：从"给数据拟合方程"升级到"设计实验发现法则"，更贴近真实科学发现过程

局限与展望¶

仅覆盖物理学，化学/生物学的推广未验证
反事实法则虽科学上有基础但不对应真实现象
极微小噪声（0.0001）就导致12-16%准确率下降，真实场景适用性存疑
只测试了标量输出的单目标方程发现

评分¶

新颖性: ⭐⭐⭐⭐⭐ 反事实法则平移+交互式发现基准是全新贡献，代码悖论效应是深刻发现
实验充分度: ⭐⭐⭐⭐ 11模型、12领域、多消融分析全面，但缺少非推理模型的改进路径
写作质量: ⭐⭐⭐⭐ 基准设计动机清晰，实验分析深入
价值: ⭐⭐⭐⭐⭐ 为LLM科学发现能力提供了严格评估工具，代码工具悖论对agent设计有重要启示