EXP-Bench: Can AI Conduct AI Research Experiments?¶

会议: ICLR 2026
代码: Just-Curieous/Curie/benchmark/exp_bench
领域: LLM Agent / AI 科研自动化 / Benchmark
关键词: 端到端实验、研究 Agent、半自动数据构建、合取评测、可执行性验证

一句话总结¶

EXP-Bench 从 51 篇 NeurIPS/ICLR 2024 顶会论文及其开源代码里半自动抽取出 461 个"完整 AI 研究实验"任务，逼着 Agent 走完"提假设→设计实验→写代码→真跑→下结论"全流程，结果发现当下最强 Agent 完整跑通可执行实验的成功率仅 0.5%。

研究背景与动机¶

领域现状：AI 科研本质是数字化的，特别适合被 LLM Agent 自动化；现有 Agent 已经能做文献综述、假设生成、代码生成等单点任务。但真正的实证研究需要的是端到端、可复现的严谨实验，远不止这些孤立能力。

现有痛点：已有 benchmark 大多只覆盖科研流程的某个切片——要么测抽象推理/实验设计（BoxingGym、Lab-Bench），要么测代码片段生成或事后数据分析（SciCode、ScienceAgentBench、DiscoveryBench），要么在 Kaggle 这类受限环境里测 ML 调参（MLE-Bench、DSBench）。RE-Bench 只有 7 个手工任务，规模太小；PaperBench、CORE-Bench 虽源自论文，但聚焦"跑已有脚本/标准分析"这类定义良好的子任务，都没真正捕捉到一条完整、迭代的 AI 研究实验链路，也没给出可规模化构造这类任务的方法。

核心矛盾：要做这种高保真任务就得人工从论文+代码里挖实验细节，但论文只呈现打磨过的最终结论，省略了中间步骤；关键条件、数据预处理又散落在正文、附录、补充材料和庞大代码库里——纯手工策展既费力又无法规模化。

本文目标：建一个能逐步评估并引导 Agent 走完整个实验流水线的 benchmark，同时配一套能规模化生产这类任务的管线。核心 idea：用半自动数据构建管线（多模态抽取 + 轻量人工核验），把"论文叙事 + 开源代码"这对天然耦合的研究产物，反向工程成结构化、可执行、可细粒度打分的实验任务。

方法详解¶

整体框架¶

EXP-Bench 由两部分组成：一个数据集规格（每个任务 = 问题陈述 + 来自原始研究产物的 ground-truth 解）和一条三阶段半自动构建管线。构建侧从顶会论文筛选源材料，抽出研究任务与对应实现脚本，再在干净 Docker 里执行验证；评测侧用"LLM-as-judge + 代码执行验证器"对 Agent 的设计/实现/执行/结论四个阶段分别打分，并用合取指标聚合。

flowchart LR
    A[顶会论文+开源代码] --> B[Stage1 源筛选<br/>引用数/Star/Fork]
    B --> C[Stage2.1 抽研究任务<br/>OCR+多模态+多轮检索]
    C --> D[Stage2.2 抽实现脚本<br/>工具增强Agent定位代码链]
    D --> E[Stage3 Docker执行验证<br/>Monitor查作弊+对比结论]
    E -->|失败回退| D
    E --> F[461任务/12737子任务]
    F --> G[Agent: 设计→实现→执行→结论]
    G --> H[Judge: D/I/E/C + 合取指标]

关键设计¶

1. 任务三件套规格：把"论文+代码"压成可评测的实验单元。 每个任务的输入（问题陈述）给 Agent 三样东西——从论文实验中提炼的研究问题、指导实验路径的高层方法描述、以及部分脚本被遮蔽（mask）的代码仓库；对应的 ground-truth 解则包含三部分：指明关键变量/常量/流程的实验设计、以 git diff 形式核验的代码改动、以及直接回答研究问题的最终结论。这套"输入三件套 + 答案三件套"既保留了真实科研的完整工作流，又让每一环都能被独立打分。

2. 两阶段抽取：先挖任务、再挖实现。 Stage 2.1 抽研究任务时先用 OCR 索引 PDF，对表格/图/跨页元素用多模态 LLM 解读成结构化文本，再做多轮抽取——第一轮 RAG 检索找高层研究 takeaway，第二轮在子小节粒度做语义抽取并把每段分类为"实现上下文"或"候选研究问题"，最后回查全文（含附录）补回遗漏的 setup 约束。Stage 2.2 则把任务交给一个工具增强 Agent（能读 PDF、开终端、上网），在完整代码库里做目标条件搜索：定位实现指定方法与预期产物的那条脚本链，输出"所需脚本列表 + 运行说明"，再用 AST 追踪把脚本链解析成自然语言的逐步实现要求，作为评测实现正确性的 ground truth。

3. 执行驱动的验证与遮蔽：杜绝捷径与造假。 Stage 3 先用 LLM Monitor 审查 Agent 日志，检测三类违规——是否直接读了论文 PDF、是否做了 git checkout/切分支等操作、是否用了假数据/硬编码/占位结果而非真跑实验；通过后在干净 Docker 容器里从零复现脚本，把输出与原论文结论用 LLM 对比，失败则回退细化。最终任务入库时会遮蔽 README、相关脚本等文件（通过脚本化 git 操作递归处理子模块），逼 Agent 真去推理而非抄答案。

4. 合取评测指标：拆穿"看似对了"的脆弱性。 评测用 LLM-judge（o3-mini）给出 D（设计正确率）、I（实现正确率）、C（结论正确率），用代码执行验证器给出 E（可执行性）。单看 C 和 E 方差很大——Agent 能编出"听起来合理但无实验支撑"的结论，假实现也可能恰好跑通。于是引入合取指标 \(I\cdot E\)（实现既对又能跑）、\(C\cdot D\)（结论建立在合理设计上）、以及 \(\text{All}\checkmark\)（D/I/C 全对）和 \(\text{All}\cdot E\checkmark\)（再加可执行）。在只跑执行验证的子集上，单独 Monitor 检查 M 平均得分 20.6%，叠加 D+C 骤降到 3.7%，再加 I 到 0.4%，最后加 E 仅剩 0.2%——合取评测把端到端正确性的脆弱暴露无遗。

实验关键数据¶

主实验表格¶

在全部 461 个任务上评测 OpenHands(OH) 与 IterativeAgent(IA) 两个 Agent 框架配多种 LLM（D/I/E/C 单位 %，All·E✓ 为完整可执行成功率）：

Agent	Model	D	I	E	I·E	C	All✓	All·E✓
OpenHands	o3-mini	18.4	20.3	15.0	2.9	21.0	1.4	0.5
OpenHands	Claude-3.7 Sonnet	16.0	35.0	33.2	14.9	13.4	0.7	0.4
OpenHands	Amazon Nova Pro	18.2	19.5	26.8	0.0	15.7	0.0	0.0
OpenHands	Claude-3.5 Haiku	20.6	26.2	9.3	1.3	13.8	0.0	0.0
OpenHands	DeepSeek R1	6.8	10.0	0.7	0.0	2.4	0.0	0.0
IterativeAgent	Claude-3.5 Haiku	6.4	20.6	25.2	5.4	2.2	0.0	0.0
IterativeAgent	Amazon Nova Pro	0.1	10.0	18.1	0.0	0.3	0.0	0.0

最强配置 OH+o3-mini 完整可执行成功率也只有 0.5%，All✓ 仅 1.4%。

消融实验表格¶

合取指标逐级收紧时（仅在执行子集上），平均得分的崩塌轨迹：

评测条件	平均得分
仅 Monitor 检查 (M)	20.6%
+ 设计与结论 (M·D·C)	3.7%
+ 实现正确性 (·I)	0.4%
+ 执行验证 (·E)	0.2%

关键发现¶

数据规模与覆盖：461 任务 / 12,737 个可独立打分子任务，源自 51 篇论文（NeurIPS 2024 占 53%、ICLR 2024 占 47%），横跨 CV、NLP、RL、生成模型等多个子领域。
三类系统性失败：16.1% 的设计变量被错分类；39.7% 缺失关键实现组件；执行阶段 29.4% 环境/依赖配错、23.8% 脚本级报错。
行为差异：OH 系列常"早停"——产出看似合理但没真跑实验的回答，拿到虚高的设计/实现分；IA 系列几乎跑满 40 分钟时限但效率低。运行时长/成本与最终表现几乎不相关。
RL 是相对亮点：多个 OH 模型在 RL 类任务的实现正确率 I 可达约 41%（36 任务均值），明显高于其他类别。

亮点与洞察¶

把"论文+代码"当成天然 ground truth：已发表、经同行评审、有开源实现的研究本身就是完整实验工作流的现成范例，反向工程比从零造任务可信得多，也把人工核验降到"轻量一致性检查"。
合取评测是这篇的方法论贡献：单点指标会被"听起来对/恰好能跑"骗过，\(I\cdot E\)、\(C\cdot D\) 这类合取形式显著降低方差、过滤过度给分，给出更稳健可判别的信号——这套思路对任何端到端 Agent 评测都通用。
0.5% 这个数字本身极具冲击力：它清楚地把"做单点任务"和"做完整科研"之间的鸿沟量化出来，也为后续 Agent 改进（规划能力、实现完整度、环境鲁棒性）提供了明确靶点。

局限与展望¶

半自动仍需人工：管线虽把人工降到轻量核验，但仍依赖人审最终任务内容，且构建管线本身是反复手工试错调出来的，迁移到新会议/新领域时这部分成本未必能省。
执行评测成本高：因执行耗时，只有任务子集做了可执行性验证（#E 列各模型从 56 到 420 不等），E 相关指标的统计基础不完全对齐全集。
依赖原实现作为唯一真值：当原代码本身有歧义或多种合理实现时，以单一脚本链为 ground truth 可能低估 Agent 的合理但不同的解法。
可执行性 E 的高方差：假实现/mock 也可能跑通，引入高估偏差——作者靠合取指标缓解，但单独 E 仍不可靠。
展望：作者明确把 EXP-Bench 定位为"训练能自动化核心科研环节的 Agent"的大规模数据来源，半自动管线为后续规模化生产留了口子。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个真正覆盖端到端 AI 研究实验、且给出可规模化半自动构造方法的 benchmark，合取评测是扎实的方法论贡献。
实验充分度: ⭐⭐⭐⭐ 461 任务 / 12,737 子任务、多 Agent×多 LLM、含成本-时间与指标稳定性分析；执行评测仅覆盖子集略有遗憾。
写作质量: ⭐⭐⭐⭐ 动机—管线—评测逻辑清晰，图表（Fig.1 流程、Fig.3 分布、Table 1 主表）信息密度高，failure 归因具体。
价值: ⭐⭐⭐⭐⭐ 0.5% 的成功率一锤定音地标定了"AI 自动做科研"的真实差距，为下一代研究 Agent 提供了高保真靶场与训练数据来源。