跳转至

Preregistration for Experiments with AI Agents

会议: ICML2026
arXiv: 2606.11217
代码: 待确认
领域: NLP理解 / 科研方法论
关键词: 预注册, AI Agent 实验, 研究者自由度, 可复现性, 立场论文

一句话总结

这是一篇立场论文,主张把社会科学用来对抗"可复现性危机"的预注册(preregistration)实践,扩展到"把 LLM/AI agent 当实验被试"的行为实验上——它系统编目了 AI agent 实验特有的"研究者自由度",并给出一套为这类实验量身定制的预注册模板。

一句话总结的补充

作者只有一位(Michelle Vaccaro),核心论点锋利:AI agent 实验"高灵活 + 极低边际成本"的组合,让 \(\text{prompt}\times\text{model}\times\text{temperature}\times\text{seed}\times\text{parsing}\) 的规格搜索(specification search)变得既容易做、又难被发现,因此比人类被试实验更需要预注册来重新引入"摩擦"。

研究背景与动机

领域现状:越来越多 ML 研究把 LLM 当成行为实验的"被试",让它们做经济博弈、认知任务、道德困境、社会情景,以刻画其推理、偏见与对齐属性(即"in silico"行为实验)。这类实验比人类被试研究省时省钱,且响应模式常与人类相似;随着 AI agent 真的去谈判、管投资、做内容审核,理解它们的行为本身也成了研究目标。

现有痛点:社会与行为科学过去二十年深陷"可复现危机"——Open Science Collaboration 2015 年的大规模复现项目发现,原研究 97% 报告显著结果,复现却只有 36% 显著,效应量约为原来的一半。罪魁不是赤裸造假,而是"研究者自由度(researcher degrees of freedom)":关于数据收集、分析、报告的灵活且常未披露的选择,能在证据很弱时也"凑出"显著性。

核心矛盾:AI agent 实验不仅继承了这些脆弱性,还放大了它。prompt 措辞、模型选择、解码参数、重试策略、响应解析都是高维高后果的选择面,研究者(有意或无意)可以一路游走直到出现想要的结果。而决定性的差异在"成本-灵活度"权衡:人类被试实验灵活度高但招募/补偿/IRB/采集带来天然摩擦;传统 ML benchmark 便宜但固定测试集约束了规格空间;唯独 AI agent 实验落在"灵活度高 + 边际成本仅几秒几分钱"的危险象限,规格搜索可以变得既常规又几乎隐形。

本文目标:把预注册引入 AI agent 实验,在"危机爆发前"就把可信度内建进这个新范式,而不是事后补救。

切入角度:借用 Gelman & Loken 的"分叉花园(garden of forking paths)"隐喻——一个研究问题会分叉成组合爆炸的规格空间,预注册的确认性研究只走预先承诺的一条(或一小簇)路径,而日常迭代则在暗中遍历多条路只报一条。

核心 idea:预注册是一个针对"研究者自由度"的承诺装置(commitment device)——它不是要消灭灵活性,而是要让灵活性变得可见,从而让读者据此校准对结论的信心。

方法详解

这是一篇方法论立场论文,"方法"即作者构建的论证与工具:先用一套分类法把 AI agent 实验的自由度摊开,再针对每类威胁设计预注册模板的字段,最后给三类利益相关方落地建议。

整体框架

论证沿一条清晰的链条推进:① 回顾社会科学的可复现危机与预注册为何有效;② 把 AI agent 实验的研究者自由度系统编目(Table 1 的分类法),并对应到当年驱动预注册的 p-hacking 动力学;③ 给出一套为 AI agent 量身的预注册模板,逐节针对具体威胁;④ 给研究者、会议/期刊、资助机构开出建议。贯穿全文的是"成本-灵活度"这张图:AI agent 实验因低成本高灵活而落入最易被规格搜索侵蚀的象限,因此最需要预注册重新提供摩擦。

关键设计

1. 研究者自由度分类法:把"分叉花园"在 AI 语境下摊开

作者的第一步是把模糊的"灵活性"具体化为一张覆盖完整实验流水线的分类表(Table 1),从模型选择、prompt 工程,到采样参数、实验设计、响应处理、分析、报告。论文强调这些自由度有三个共性:易变、对结果后果大、缺乏有原则的默认值。小的 prompt 扰动能造成下游输出的大差异,等于把"prompt 措辞"变成一个高维的处理操纵;温度、top-\(p\)、seed 等随机控制能改变响应内容与拒答行为,诱使人"重跑/过滤/稳定化"输出直到符合预期;推理预算(token、轮数、工具调用)也不是中性实现细节,会改变 agent 采取的策略,成为常被忽略的隐性调节变量。它们还会乘性交互——\(\text{prompt}\times\text{model}\times\text{decoding}\times\text{retries}\times\text{parsing}\times\text{metric}\)——轻易产生上千个看似合理的规格,而论文通常只报其中一条路径。

2. 预注册模板核心字段:用"提前承诺"对冲每一类自由度

模板的逻辑是延续传统预注册(提前承诺假设、方法、分析)并为 AI 特有自由度加结构化字段,逐节对症下药:① 完整指定计算环境——精确模型标识与版本检查点(写 gpt-4-0125-preview 而非泛泛的"GPT-4")、生成参数(temperature、top-\(p\)、top-\(k\)、seed)、推理预算(max tokens、超时、重试上限),API 模型还要记 API 版本与访问日期,开源权重要记 checkpoint hash 与量化方案;② 逐字(verbatim)记录完整 prompt 文本,含 system message、user 指令、few-shot 示例,因为细微格式/措辞改动都会带来行为漂移;③ 操作化"确认性 vs 探索性"区分——研究者声明哪些分析是假设检验、哪些是假设生成,并对前者预先指定主要结果变量、统计检验、判定规则(显著性阈值、最小效应量),对用 LLM 当评分器的研究还要锁定评估 prompt、评估模型版本、以及对评估器分歧/拒答的处理(因为 LLM 评委有系统偏见、位置效应、版本敏感);④ 预先指定对畸形/拒答/被过滤响应的排除标准,因为 refusal handling(排除/插补/重试/单列一类)极易被事后"优化"。

3. 稳健性与多元宇宙的提前承诺 + 分阶段自适应设计

针对"robustness check 常沦为事后选择性报告"的问题,模板设了专门条款,核心原则一句话:打算探索的规格空间必须事先定义、且全空间结果都要报。要测跨 prompt 变体的复现,所有变体须事先列出、事后全报(含 null 或相反结果);要测跨模型泛化,所有模型须提前指定、逐一报告,而非只报"work 的那几个"。论文给出强对比:"预先承诺测 3 个模型并报全部 3 个"远比"测了 6 个只报 3 个"提供更强证据。同时承认有些研究天然需要序贯决策(如用 pilot 数据校准难度或确定样本量),于是借鉴 registered reports 提供"分阶段预注册"选项——允许预注册带显式决策规则的初始设计,例如"若 pilot 出现地板效应(accuracy \(<20\%\))则增 500 token 上下文;若天花板效应(\(>90\%\))则换更难题目",关键约束是这些规则必须事先写死、而非事后发明。对真正的探索性工作,模板不强加约束,只要求清楚标注为 exploratory 并与确认性主张分离——目标是"让灵活性可见"而非消灭灵活性。

4. 透明承诺 + 未开工声明:给"事后补注册"加道闸

模板最后嵌入面向累积科学的透明承诺:声明原始模型输出、处理后数据、分析代码是否共享及共享在哪;对专有模型/API 鼓励归档完整 input–output 日志(因为同一版本号的行为也可能随时间变化);并提供链接到代码仓、数据归档、补充材料的字段,形成从预注册到终稿的完整审计链。其中关键是一个"证明(attestation)"条款,要求确认数据收集尚未开始——直击"AI 实验易重跑使事后补注册很诱人"的痛点;它不能保证合规,但抬高了违背承诺的声誉代价,并向读者表明研究者意图做一次真正的确认性检验。

一个例子:锚定效应模拟揭示"稳健的假象"

为把"规格驱动的可变性"讲具体,作者做了一个模拟:考察 LLM 的锚定效应(anchoring),跨 2,430 个实验规格,变动模型家族、system prompt、锚距、投放方式、问题内容、离群值处理。得到的"规格曲线(specification curve)"显示锚定指数从强负到强正全谱分布——研究者只要挑报哪条路径,就能得出"LLM 表现出稳健的类人锚定""完全无锚定"甚至"反向锚定"任意结论。更阴险的是,他甚至能写出"跨三个不同家族、不同架构的模型,我们一致发现 LLM 表现出类人锚定偏见"这种听起来像稳健性检验、实则从更大空间里精挑出来的句子。这就是"稳健的假象(illusion of robustness)":一个看似跨模型跨条件泛化的发现,其表面普适性其实反映的是研究者对规格空间的(有意或无意)导航,而非现象本身的稳定属性。

实验关键数据

本文为方法论立场论文,没有"刷 SOTA"式实验,其经验支撑由"成本-灵活度"框架、自由度分类法、锚定模拟与对替代观点的逐条反驳构成。下面用表格归纳其核心论证。

三种研究范式的"成本-灵活度"对比(Figure 2 的内核)

范式 边际成本 规格灵活度 规格搜索风险
人类被试行为实验 高(招募/补偿/IRB/采集) 受成本摩擦天然抑制
传统 ML benchmark 低(固定测试集/标准指标) 受规格空间约束
AI agent 实验 极低(几秒、几分钱/次 API 调用) 高(prompt/模型/解码/重试/解析/指标) 最高——高灵活叠加低摩擦

研究者自由度分类法(Table 1 的骨架)

流水线环节 典型自由度 为何危险
模型选择 模型家族、版本、checkpoint 报哪个模型可成结果相依决策
Prompt 工程 措辞、system prompt、few-shot 微小扰动=高维处理操纵
采样参数 temperature、top-\(p\)、seed、重试 可重跑直到输出"对齐预期"
推理预算 token、轮数、工具调用 隐性调节变量、改变 agent 策略
响应处理 解析规则、拒答/排除标准 事后"优化"排除规则
分析/报告 指标、统计检验、报告哪条路径 多元宇宙里只报一条路

对六种替代观点的回应(第 6 节)

替代观点 作者反驳要点
1. AI 实验太便宜,预注册无意义 正因边际成本低、规格搜索隐形,才更需预注册重新提供"摩擦"
2. 预注册可被操纵(先探索后注册) 模板要求披露 pilot 历史,形成可审计记录,让欺骗更难且更易被察觉
3. 预注册偏向零假设检验 可预注册估计量、损失函数、评估指标、决策阈值,不只服务 NHST
4. 强制预注册会扼杀偶然发现 预注册不禁止探索,只要求标注为 exploratory;意外发现仍可全报
5. 任何单一规格都是任意的 可预注册"多元宇宙"本身——一组模型/prompt/参数 + 聚合规则
6. 开源代码才是正确的可信机制 开源解决"可复现",但藏不住它之前的分叉花园;预注册解决"可信"

关键发现

  • 可复现 ≠ 可信:开源让"同一条流水线得同一结果"可复现,但揭示不了在定稿前被探索过的 prompt/模型/温度/解析;预注册补的正是从"reproducibility"到"credibility"这一缺口。
  • 预注册把检测负担倒置:开源把检测替代规格的负担压在赶 deadline 的评审人和要付 API 钱的研究者身上,往往无人承担;预注册让掌握全部实验史的原研究者从一开始就把规格选择透明化。
  • 2,430 规格的锚定曲线是全文最有力的具体证据——同一现象能被"如实"报成正、负、零三种结论,直观坐实了规格搜索的危害。

亮点与洞察

  • "成本-灵活度"二维图是个绝佳定位工具:用边际成本和可辩护"分叉"数两个轴,一图说清为何 AI agent 实验比人类实验、传统 benchmark 都更危险——这个框架可迁移到任何评估方法论的讨论。
  • 把"低成本"从"不用预注册的理由"反转成"更需要预注册的理由":直接反驳 Horton 等人"花 1 美元 30 秒跑一次实验,预注册有啥用"的常见质疑,论证锋利。
  • 披露 pilot 历史这一条很实用:要求写清"试了几个 prompt 变体、测过哪些模型、是否被初步结果影响了最终假设",把隐形的规格搜索变成可审计记录,是可立即采纳的小改动。
  • 分阶段预注册兼顾严谨与现实:借 registered reports 允许带显式决策规则的序贯设计,避免了"预注册=僵化"的常见反对,落地性强。

局限与展望

  • 没有实证检验预注册在 AI 实验中的实际效果:全文是规范性论证 + 一个示意模拟,缺"采用预注册后假阳性确实下降"的证据。
  • 模板的执行成本与依从性存疑:作者自己承认逐字记录、锁定全部规格会增加前期负担,且 attestation 防不住存心说谎者,只是抬高声誉代价。
  • 多元宇宙预注册的可操作性:要求"事先列出全部 prompt/模型变体并全报"在上千规格的空间里近乎不可行,规格曲线/分层汇总的具体执行细节谈得不深。
  • 激励结构未撼动:在"以新颖性为导向"的发表激励下,单靠模板和呼吁能否真正改变社区行为,仍取决于会议/期刊/资助方是否动真格。

相关工作与启发

  • vs 社会科学预注册(Simmons et al., Nosek et al., OSF/AsPredicted):本文直接移植其思想(提前承诺、区分确认/探索),但针对 AI 特有的 prompt/模型/解码/解析自由度加了结构化字段。
  • vs ML 可复现性规范(held-out 测试集、reproducibility checklist, Pineau et al.):那套防的是"过拟合评估数据",但当"实验本身就是评估"、prompt 是定制研究工具时无对应保障;本文填补这一方法论空白。
  • vs 多元宇宙分析(Steegen et al.)/ 规格曲线(Simonsohn et al.):借其"报告全规格而非单一特权路径"的思想,并主张可把多元宇宙本身写进预注册。

评分

  • 新颖性: ⭐⭐⭐⭐ 把成熟的预注册思想精准适配到 AI agent 实验的新自由度,定位清晰、议题及时。
  • 实验充分度: ⭐⭐⭐ 仅一个锚定模拟作示意,作为立场论文够用但谈不上充分验证。
  • 写作质量: ⭐⭐⭐⭐⭐ 论证层层递进,"成本-灵活度"框架与六条替代观点反驳尤其漂亮。
  • 价值: ⭐⭐⭐⭐ 在 AI agent 行为实验爆发的当口提出"危机前内建可信度",对社区方法论价值高。