跳转至

The Ideation-Execution Gap: Execution Outcomes of LLM-Generated versus Human Research Ideas

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=Fllp8l6Puy
代码: https://github.com/NoviScl/AI-Researcher
领域: LLM评估
关键词: 研究想法评估, AI Scientist, 执行结果, 随机对照实验, 专家评审

一句话总结

这篇论文用一次专家执行 + 盲审评审的随机对照实验检验 LLM 生成研究想法是否真的能转化为更好的研究成果,发现 LLM 想法在“只看 idea”时分数更高,但执行后在新颖性、兴奋度、有效性和整体质量上掉分显著更大。

研究背景与动机

领域现状:LLM 正在被放进科研流水线里,从文献综述、假设生成、实验计划到代码实现,都有人尝试构建所谓 AI Scientist。许多系统会先让模型生成研究 idea,再用 LLM judge 或少量人工评估筛掉看起来不够新、不够可行的方案。

现有痛点:问题在于,“看起来像好 idea”和“做出来以后真有结果”不是一回事。只看 proposal 时,评审容易根据新颖表述、宏大动机和假设中的成功实验来打分;但真正执行时,数据集是否存在、baseline 是否足够强、指标是否合适、成本是否可承受,都会把一个漂亮 idea 拉回现实。

核心矛盾:LLM 可能擅长生成让人第一眼觉得新奇的研究构想,却未必擅长把 idea 约束在可执行、可验证、可产出稳定 empirical signal 的范围内。也就是说,LLM 的 ideation 能力可能被“无执行评估”高估,而研究质量真正关心的是 execution outcome。

本文目标:作者想回答一个更硬的问题:如果把 LLM 生成的 research ideas 和人类专家写的 ideas 都交给合格研究者认真执行,最后由盲审专家评价成品论文和代码,那么两类 idea 的表现是否仍然有差异?更具体地,论文比较了执行前 idea 评分、执行后项目评分,以及二者之间的下降幅度。

切入角度:本文复用 Si et al. (2025) 中已经收集并评审过的一批 NLP 研究 idea,把它们作为 execution study 的起点。这样做的好处是,作者可以把“执行前的想法分数”和“执行后的项目分数”一一对应起来,直接量化 ideation-execution gap,而不是只做一次横截面比较。

核心 idea:用随机分配、专家执行、双盲评审和执行前后分数差分,把 LLM idea 的真实价值从“proposal 阶段的吸引力”里剥离出来。

方法详解

整体框架

本文不是提出一个新模型,而是设计一套用于评估研究 idea 的实验流程。整体上,作者先从已有 ideation study 中取出人类专家 idea 和 Claude-3.5-Sonnet 生成的 AI idea,再随机分配给 43 名具备 NLP 研究背景的执行者;每名执行者在三个月内完成实验、代码和 4 页短论文,最后由 58 名专家盲审员在不知道 idea 来源的情况下评审执行成品。

这个流程的关键是把 idea source 变成可随机化的处理变量,把执行质量和评审标准尽量控制住。这样,如果 LLM idea 和 human idea 在执行前后分数变化上呈现系统性差异,论文就可以更有力地说明这种差异来自 idea 本身,而不是来自某个执行者更强、某个评审更偏好某类题目。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["已有 ideation study<br/>Human idea + AI idea"] --> B["随机分配执行<br/>按研究者偏好主题抽样"]
    B --> C["受控执行协议<br/>三个月实现 + 代码 + 短论文"]
    C --> D["盲审执行成品<br/>专家评审论文和代码"]
    D --> E["执行前后差分<br/>度量 ideation-execution gap"]
    E --> F["误差来源分析<br/>变更类型 + 评审理由"]

关键设计

1. 随机对照执行:让 idea 来源成为可比较变量

研究 idea 的执行结果很容易被执行者能力、题目熟悉度、个人兴趣和资源投入混在一起。本文的处理方式是先询问执行者偏好的 7 个 NLP 主题,再在其偏好主题内随机分配来自 Human condition 或 AI condition 的匿名 idea。这样既避免把研究者分到完全陌生领域,也减少了“研究者挑自己觉得最强的 idea 来做”的自选择偏差。

这个设计让比较对象从“谁写得更像好 proposal”变成“同样由专家执行、同样由专家盲审时,idea 来源是否影响最终结果”。论文最终有 19 个 human ideas 和 24 个 AI ideas 被执行,主题覆盖 bias、coding、safety、multilingual、factuality、math、uncertainty 等 NLP 子方向。

2. 最小化 idea 改动:评估原始构想而不是执行者再发明的方案

如果执行者在做项目时大幅改方法,那么最终结果就不再能代表原 idea 的质量。作者因此要求执行者保留原始方法,不允许做实质性算法改动,只允许调整实验细节,例如数据集、模型、baseline、prompt、超参数、指标和分析实验。所有改动都需要记录,并由作者人工审核。

这个约束很重要,因为它把研究对象固定在“idea 本身能否经受执行”上,而不是“执行者能不能把坏 idea 救回来”。论文中只有一个项目因为原 idea 太模糊、必须由执行者补出核心方法而被终止并排除,其余项目都被认为基本忠实于原始 idea。

3. 执行前后差分:用 gap 控制 idea 异质性

直接比较执行后的平均分并不稳定,因为 43 个项目样本不大,不同 idea 的天然质量差异也很大。本文真正有力的指标是 execution score 与 ideation score 的差,即 \(\text{gap}=\text{score}_{\text{execution}}-\text{score}_{\text{ideation}}\)。负值表示执行后分数下降,下降越大说明 proposal 阶段的吸引力越没能转化成执行结果。

这个差分思想相当于把每个 idea 与它自己执行前的评分作比较。论文发现 Human ideas 在 novelty、excitement、effectiveness 上几乎不掉分,而 AI ideas 分别下降约 \(1.049\)\(1.760\)\(1.879\) 分;overall 也下降 \(1.976\) 分。更关键的是,AI ideas 的 gap 显著大于 Human ideas,四个共享指标的 FDR 校正后 \(p<0.05\)

4. 评审理由归因:解释为什么 execution 会揭穿某些好看的 idea

论文不仅报告分数,还人工分析了 ideation review 和 execution review 的自由文本理由。作者把评审意见归到十类因素,包括 novelty/motivation、impact、method flaw、experiment design、baseline comparison、ablation/analysis、feasibility/resource、empirical performance、generalizability/scope 和 missing details/writing。

这个分析揭示了 gap 的来源:ideation 阶段评审常常是在“如果实验成功”的假设下打分,而 execution 阶段评审会强制看到真实实验结果、baseline 是否充分、指标是否合适、消融是否解释了机制、资源成本是否合理。换句话说,执行评估把很多 proposal 阶段被忽略的问题显性化了,尤其是 AI idea 中常见的高成本人工评估、缺 baseline、实验设计不严谨和效果不稳定。

一个完整示例

可以把论文中的一个 AI idea 想象成“跨文化角色扮演 prompt”,proposal 里计划招募不同语言和文化背景的 native speakers 来人工评价模型输出。只看 idea 时,这个真实人类评估会让评审觉得项目很有贡献,因为它看起来能补上自动评估不可靠的问题。

但进入执行阶段后,招募 native speakers 和文化专家的成本太高,执行者把这部分改成 LLM-as-a-judge 自动评估。成品被盲审时,评审就会指出:如果没有人工评价,很难判断输出是否真的更符合文化语境,也可能只是 LLM judge 被某些表面模式误导。这个例子很好地说明,AI idea 在 ideation 阶段的亮点可能依赖昂贵或不现实的实验承诺,而执行后这些承诺一旦收缩,idea 的有效性和兴奋度就会掉下来。

损失函数 / 训练策略

本文没有训练模型,也没有神经网络损失函数。它的“训练策略”对应的是统计评估策略:对执行后评审分数,作者分别采用两种聚合方式,一种把每条 review 当作独立样本,另一种先对每个 idea 的多个 review 取平均再把 idea 当作独立样本。前者样本量为 \(N=181\) 条 review,后者样本量为 \(N=43\) 个 idea。

对于核心 gap 分析,作者关注四个执行前后共有指标:novelty、excitement、effectiveness 和 overall。显著性检验使用 t-test,并对多重假设做 FDR 校正。控制指标包括 faithfulness 和 codebase quality,用来检查两组项目是否在“是否忠实执行原 idea”和“代码质量”上存在系统差异;结果显示这两个控制指标几乎相同,支持 gap 不是由某一组执行得更差导致的。

实验关键数据

主实验

主结果分两层看。第一层是执行后成品的评分:如果把每条 review 当独立样本,人类 idea 在 excitement、effectiveness、soundness 和 overall 上显著高于 AI idea;但如果以每个 idea 的平均分为单位,差异不再显著,说明直接比较执行后均分的统计功效有限。

评估方式 Human ideas AI ideas 结论
执行前 novelty 4.912 5.778 AI 显著更高,\(p=0.035\)
执行前 excitement 4.404 5.653 AI 显著更高,\(p=0.004\)
执行前 effectiveness 4.833 6.003 AI 显著更高,\(p=0.001\)
执行前 overall 4.596 5.382 AI 显著更高,\(p=0.035\)
执行后 novelty 4.903 4.729 Human 略高,但不显著
执行后 excitement 4.482 3.896 Human 高,idea 级别不显著
执行后 effectiveness 4.782 4.125 Human 高,idea 级别不显著
执行后 overall 3.968 3.406 Human 高,idea 级别不显著

第二层是本文最核心的执行前后 gap。这个指标控制了不同 idea 本身的起点差异,因此统计信号更清楚。

指标 Human gap AI gap \(\Delta\)(Human - AI) FDR 校正后 p-value
Novelty -0.010 -1.049 1.039 0.025
Excitement +0.078 -1.760 1.835 0.001
Effectiveness -0.052 -1.879 1.827 0.003
Overall -0.628 -1.976 1.348 0.004

消融实验

论文没有传统意义上的模型模块消融,但做了两个关键稳健性和归因分析:一是检查执行过程中对 idea 的改动类型,二是排除 6 个“AI idea 原本计划人工评价、执行时改成自动评价”的案例后重算 gap。

分析配置 关键指标 说明
所有 43 个执行项目 AI gap 在四个指标上显著更大 主结论:AI idea 执行后掉分更明显
排除 6 个移除人工评价的 AI idea Novelty gap: -1.107;Excitement gap: -1.843;Effectiveness gap: -1.921;Overall gap: -2.009 结论不变,说明 gap 不只是因为人工评价太贵被替换
改动数量统计 Human 平均 2.9 次改动,AI 平均 3.1 次改动 两组都主要改实验细节,不是重写核心方法
控制指标 Faithfulness: Human 6.48 / AI 6.42;Codebase quality: 二者均 3.58 执行忠实度和代码质量相近,不支持“AI 组执行更差”解释

关键发现

  • LLM ideas 在执行前确实更容易被评为新颖、令人兴奋、预期有效,但这种优势在执行后消失,甚至均值排序反转。
  • 直接比较执行后分数时,idea 级别样本只有 43 个,统计功效有限;比较执行前后 gap 才是本文最可靠的分析。
  • AI ideas 的问题不主要来自执行者乱改方案,因为两组改动数量接近,控制指标中的 faithfulness 和 codebase quality 也接近。
  • 执行评审会强制关注 empirical performance、baseline、ablation、resource 和 generalizability,这些因素在只看 idea 的阶段经常被忽略。
  • 评审一致性并不低,effectiveness 一致性达到 84.3,高于论文中引用的 NeurIPS 2021 和 ICLR 2024 参考水平,说明执行结果相关指标相对可评。

亮点与洞察

  • 本文最强的地方是把 AI idea evaluation 从“读 proposal 打分”推进到“执行后看结果”。这比再设计一个 LLM-as-a-judge benchmark 更有说服力,因为它直接测试研究 idea 的最终用途。
  • 随机对照设计很干净:执行者不知道 idea 来源,评审者也不知道来源,且 idea 被随机分配到执行者偏好主题内。这让论文的因果解释比普通 benchmark 论文更稳。
  • gap 指标很巧妙。它不要求 human idea 和 AI idea 的初始质量完全同质,而是看每个 idea 从 proposal 到 executed paper 的变化,因此更适合小样本高方差的研究评估场景。
  • 论文对 AI Scientist 方向给出一个现实提醒:自动生成 idea 的优化目标不能只对齐“评审看起来喜欢”,还要对齐“执行后能产生可靠结果”。未来 idea generator 可能需要把执行反馈、成本估计和实验可验证性纳入训练或搜索过程。
  • 对科研评审本身也有启发:很多 proposal 的分数依赖隐含前提,例如“如果实验成功”“如果能做人评”“如果 baseline 足够强”。这篇论文说明,这些前提最好在 idea 阶段就被显式拆开评估。

局限与展望

  • 样本量仍然有限。43 个执行项目已经非常昂贵,但对于细分主题、执行者差异、idea 类型差异的分析仍然不够。
  • idea 范围偏窄。本文复用的 idea 主要集中在 NLP prompting 技术,不能直接推广到需要大规模训练、复杂系统构建、理论证明或湿实验的科研领域。
  • AI 条件使用的是研究开始时的 Claude-3.5-Sonnet。更强的新模型、带工具的 research agent、多轮自我修订或执行反馈式生成,可能会改变 gap 的大小。
  • 执行者仍然是人类专家。论文讨论了未来可以用自动 coding/research agent 扩大执行规模,但当前系统对开放式研究执行的可靠性还不足。
  • 执行后评审仍是主观专家评审。虽然一致性尚可,但短论文评审和真实会议接收之间仍有差距,尤其是长期影响力无法在三个月执行窗口里体现。
  • 后续方向可以训练 proxy reward model 来预测 idea 的执行有效性,也可以构建闭环系统,让低成本执行反馈反过来改进 idea generation。

相关工作与启发

  • vs Si et al. (2025): Si et al. 评估的是 LLM 生成 research ideas 在 proposal 阶段是否被专家认为新颖和有趣;本文直接继承其 idea 和执行前评分,但进一步检验执行后的真实成品质量,结论也因此更保守。
  • vs The AI Scientist: The AI Scientist 类工作强调端到端自动生成论文,包括 idea、实验和写作;本文不构建自动科学家,而是评估自动生成 idea 的上游质量是否能承受人类专家执行。
  • vs LLM-as-a-judge / automatic idea evaluation: 自动评估方法便宜且可扩展,但容易奖励表面新颖和写作流畅。本文显示,缺少执行结果时,即使专家也会高估某些 idea,更不用说 LLM judge。
  • vs AI research outcome prediction: 预测 empirical outcome 的工作试图用模型估计实验是否会成功;本文提供了一类珍贵监督信号,即同一 idea 在执行前后的专家评分变化,可作为训练或校准这类预测器的数据来源。
  • 启发: 对实际使用 LLM 做科研选题的人来说,不应只让模型生成“最 novel”的 idea,还应要求它给出最小可执行实验、强 baseline、失败条件、成本估计和可替代评估路径。一个 idea 如果在这些环节说不清,执行后掉分的风险就很高。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 把 LLM research idea 的评价从 proposal 阶段推进到大规模专家执行阶段,问题设定非常关键。
  • 实验充分度: ⭐⭐⭐⭐☆ 对单篇论文而言执行成本极高、设计严谨,但样本量和 idea 范围仍限制外推。
  • 写作质量: ⭐⭐⭐⭐⭐ 论文结构清晰,主结论、稳健性分析和失败来源解释层层递进。
  • 价值: ⭐⭐⭐⭐⭐ 对 AI Scientist、LLM idea generation、科研评估和自动评审都有直接警示意义。