Preregistration for Experiments with AI Agents¶

会议: ICML2026
arXiv: 2606.11217
代码: 待确认
领域: NLP理解 / 科研方法论
关键词: 预注册, AI Agent 实验, 研究者自由度, 可复现性, 立场论文

一句话总结¶

这是一篇立场论文，主张把社会科学用来对抗"可复现性危机"的预注册（preregistration）实践，扩展到"把 LLM/AI agent 当实验被试"的行为实验上——它系统编目了 AI agent 实验特有的"研究者自由度"，并给出一套为这类实验量身定制的预注册模板。

一句话总结的补充¶

作者只有一位（Michelle Vaccaro），核心论点锋利：AI agent 实验"高灵活 + 极低边际成本"的组合，让 \(\text{prompt}\times\text{model}\times\text{temperature}\times\text{seed}\times\text{parsing}\) 的规格搜索（specification search）变得既容易做、又难被发现，因此比人类被试实验更需要预注册来重新引入"摩擦"。

研究背景与动机¶

领域现状：越来越多 ML 研究把 LLM 当成行为实验的"被试"，让它们做经济博弈、认知任务、道德困境、社会情景，以刻画其推理、偏见与对齐属性（即"in silico"行为实验）。这类实验比人类被试研究省时省钱，且响应模式常与人类相似；随着 AI agent 真的去谈判、管投资、做内容审核，理解它们的行为本身也成了研究目标。

现有痛点：社会与行为科学过去二十年深陷"可复现危机"——Open Science Collaboration 2015 年的大规模复现项目发现，原研究 97% 报告显著结果，复现却只有 36% 显著，效应量约为原来的一半。罪魁不是赤裸造假，而是"研究者自由度（researcher degrees of freedom）"：关于数据收集、分析、报告的灵活且常未披露的选择，能在证据很弱时也"凑出"显著性。

核心矛盾：AI agent 实验不仅继承了这些脆弱性，还放大了它。prompt 措辞、模型选择、解码参数、重试策略、响应解析都是高维高后果的选择面，研究者（有意或无意）可以一路游走直到出现想要的结果。而决定性的差异在"成本-灵活度"权衡：人类被试实验灵活度高但招募/补偿/IRB/采集带来天然摩擦；传统 ML benchmark 便宜但固定测试集约束了规格空间；唯独 AI agent 实验落在"灵活度高 + 边际成本仅几秒几分钱"的危险象限，规格搜索可以变得既常规又几乎隐形。

本文目标：把预注册引入 AI agent 实验，在"危机爆发前"就把可信度内建进这个新范式，而不是事后补救。

切入角度：借用 Gelman & Loken 的"分叉花园（garden of forking paths）"隐喻——一个研究问题会分叉成组合爆炸的规格空间，预注册的确认性研究只走预先承诺的一条（或一小簇）路径，而日常迭代则在暗中遍历多条路只报一条。

核心 idea：预注册是一个针对"研究者自由度"的承诺装置（commitment device）——它不是要消灭灵活性，而是要让灵活性变得可见，从而让读者据此校准对结论的信心。

方法详解¶

这是一篇方法论立场论文，"方法"即作者构建的论证与工具：先用一套分类法把 AI agent 实验的自由度摊开，再针对每类威胁设计预注册模板的字段，最后给三类利益相关方落地建议。

整体框架¶

论证沿一条清晰的链条推进：① 回顾社会科学的可复现危机与预注册为何有效；② 把 AI agent 实验的研究者自由度系统编目（Table 1 的分类法），并对应到当年驱动预注册的 p-hacking 动力学；③ 给出一套为 AI agent 量身的预注册模板，逐节针对具体威胁；④ 给研究者、会议/期刊、资助机构开出建议。贯穿全文的是"成本-灵活度"这张图：AI agent 实验因低成本高灵活而落入最易被规格搜索侵蚀的象限，因此最需要预注册重新提供摩擦。

关键设计¶

1. 研究者自由度分类法：把"分叉花园"在 AI 语境下摊开

作者的第一步是把模糊的"灵活性"具体化为一张覆盖完整实验流水线的分类表（Table 1），从模型选择、prompt 工程，到采样参数、实验设计、响应处理、分析、报告。论文强调这些自由度有三个共性：易变、对结果后果大、缺乏有原则的默认值。小的 prompt 扰动能造成下游输出的大差异，等于把"prompt 措辞"变成一个高维的处理操纵；温度、top-\(p\)、seed 等随机控制能改变响应内容与拒答行为，诱使人"重跑/过滤/稳定化"输出直到符合预期；推理预算（token、轮数、工具调用）也不是中性实现细节，会改变 agent 采取的策略，成为常被忽略的隐性调节变量。它们还会乘性交互——\(\text{prompt}\times\text{model}\times\text{decoding}\times\text{retries}\times\text{parsing}\times\text{metric}\)——轻易产生上千个看似合理的规格，而论文通常只报其中一条路径。

2. 预注册模板核心字段：用"提前承诺"对冲每一类自由度

模板的逻辑是延续传统预注册（提前承诺假设、方法、分析）并为 AI 特有自由度加结构化字段，逐节对症下药：① 完整指定计算环境——精确模型标识与版本检查点（写 gpt-4-0125-preview 而非泛泛的"GPT-4"）、生成参数（temperature、top-\(p\)、top-\(k\)、seed）、推理预算（max tokens、超时、重试上限），API 模型还要记 API 版本与访问日期，开源权重要记 checkpoint hash 与量化方案；② 逐字（verbatim）记录完整 prompt 文本，含 system message、user 指令、few-shot 示例，因为细微格式/措辞改动都会带来行为漂移；③ 操作化"确认性 vs 探索性"区分——研究者声明哪些分析是假设检验、哪些是假设生成，并对前者预先指定主要结果变量、统计检验、判定规则（显著性阈值、最小效应量），对用 LLM 当评分器的研究还要锁定评估 prompt、评估模型版本、以及对评估器分歧/拒答的处理（因为 LLM 评委有系统偏见、位置效应、版本敏感）；④ 预先指定对畸形/拒答/被过滤响应的排除标准，因为 refusal handling（排除/插补/重试/单列一类）极易被事后"优化"。

3. 稳健性与多元宇宙的提前承诺 + 分阶段自适应设计

针对"robustness check 常沦为事后选择性报告"的问题，模板设了专门条款，核心原则一句话：打算探索的规格空间必须事先定义、且全空间结果都要报。要测跨 prompt 变体的复现，所有变体须事先列出、事后全报（含 null 或相反结果）；要测跨模型泛化，所有模型须提前指定、逐一报告，而非只报"work 的那几个"。论文给出强对比："预先承诺测 3 个模型并报全部 3 个"远比"测了 6 个只报 3 个"提供更强证据。同时承认有些研究天然需要序贯决策（如用 pilot 数据校准难度或确定样本量），于是借鉴 registered reports 提供"分阶段预注册"选项——允许预注册带显式决策规则的初始设计，例如"若 pilot 出现地板效应（accuracy \(<20\%\)）则增 500 token 上下文；若天花板效应（\(>90\%\)）则换更难题目"，关键约束是这些规则必须事先写死、而非事后发明。对真正的探索性工作，模板不强加约束，只要求清楚标注为 exploratory 并与确认性主张分离——目标是"让灵活性可见"而非消灭灵活性。

4. 透明承诺 + 未开工声明：给"事后补注册"加道闸

模板最后嵌入面向累积科学的透明承诺：声明原始模型输出、处理后数据、分析代码是否共享及共享在哪；对专有模型/API 鼓励归档完整 input–output 日志（因为同一版本号的行为也可能随时间变化）；并提供链接到代码仓、数据归档、补充材料的字段，形成从预注册到终稿的完整审计链。其中关键是一个"证明（attestation）"条款，要求确认数据收集尚未开始——直击"AI 实验易重跑使事后补注册很诱人"的痛点；它不能保证合规，但抬高了违背承诺的声誉代价，并向读者表明研究者意图做一次真正的确认性检验。

一个例子：锚定效应模拟揭示"稳健的假象"¶

为把"规格驱动的可变性"讲具体，作者做了一个模拟：考察 LLM 的锚定效应（anchoring），跨 2,430 个实验规格，变动模型家族、system prompt、锚距、投放方式、问题内容、离群值处理。得到的"规格曲线（specification curve）"显示锚定指数从强负到强正全谱分布——研究者只要挑报哪条路径，就能得出"LLM 表现出稳健的类人锚定""完全无锚定"甚至"反向锚定"任意结论。更阴险的是，他甚至能写出"跨三个不同家族、不同架构的模型，我们一致发现 LLM 表现出类人锚定偏见"这种听起来像稳健性检验、实则从更大空间里精挑出来的句子。这就是"稳健的假象（illusion of robustness）"：一个看似跨模型跨条件泛化的发现，其表面普适性其实反映的是研究者对规格空间的（有意或无意）导航，而非现象本身的稳定属性。

实验关键数据¶

本文为方法论立场论文，没有"刷 SOTA"式实验，其经验支撑由"成本-灵活度"框架、自由度分类法、锚定模拟与对替代观点的逐条反驳构成。下面用表格归纳其核心论证。

三种研究范式的"成本-灵活度"对比（Figure 2 的内核）¶

范式	边际成本	规格灵活度	规格搜索风险
人类被试行为实验	高（招募/补偿/IRB/采集）	高	受成本摩擦天然抑制
传统 ML benchmark	低	低（固定测试集/标准指标）	受规格空间约束
AI agent 实验	极低（几秒、几分钱/次 API 调用）	高（prompt/模型/解码/重试/解析/指标）	最高——高灵活叠加低摩擦

研究者自由度分类法（Table 1 的骨架）¶

流水线环节	典型自由度	为何危险
模型选择	模型家族、版本、checkpoint	报哪个模型可成结果相依决策
Prompt 工程	措辞、system prompt、few-shot	微小扰动=高维处理操纵
采样参数	temperature、top-\(p\)、seed、重试	可重跑直到输出"对齐预期"
推理预算	token、轮数、工具调用	隐性调节变量、改变 agent 策略
响应处理	解析规则、拒答/排除标准	事后"优化"排除规则
分析/报告	指标、统计检验、报告哪条路径	多元宇宙里只报一条路

对六种替代观点的回应（第 6 节）¶

替代观点	作者反驳要点
1. AI 实验太便宜，预注册无意义	正因边际成本低、规格搜索隐形，才更需预注册重新提供"摩擦"
2. 预注册可被操纵（先探索后注册）	模板要求披露 pilot 历史，形成可审计记录，让欺骗更难且更易被察觉
3. 预注册偏向零假设检验	可预注册估计量、损失函数、评估指标、决策阈值，不只服务 NHST
4. 强制预注册会扼杀偶然发现	预注册不禁止探索，只要求标注为 exploratory；意外发现仍可全报
5. 任何单一规格都是任意的	可预注册"多元宇宙"本身——一组模型/prompt/参数 + 聚合规则
6. 开源代码才是正确的可信机制	开源解决"可复现"，但藏不住它之前的分叉花园；预注册解决"可信"

关键发现¶

可复现 ≠ 可信：开源让"同一条流水线得同一结果"可复现，但揭示不了在定稿前被探索过的 prompt/模型/温度/解析；预注册补的正是从"reproducibility"到"credibility"这一缺口。
预注册把检测负担倒置：开源把检测替代规格的负担压在赶 deadline 的评审人和要付 API 钱的研究者身上，往往无人承担；预注册让掌握全部实验史的原研究者从一开始就把规格选择透明化。
2,430 规格的锚定曲线是全文最有力的具体证据——同一现象能被"如实"报成正、负、零三种结论，直观坐实了规格搜索的危害。

亮点与洞察¶

"成本-灵活度"二维图是个绝佳定位工具：用边际成本和可辩护"分叉"数两个轴，一图说清为何 AI agent 实验比人类实验、传统 benchmark 都更危险——这个框架可迁移到任何评估方法论的讨论。
把"低成本"从"不用预注册的理由"反转成"更需要预注册的理由"：直接反驳 Horton 等人"花 1 美元 30 秒跑一次实验，预注册有啥用"的常见质疑，论证锋利。
披露 pilot 历史这一条很实用：要求写清"试了几个 prompt 变体、测过哪些模型、是否被初步结果影响了最终假设"，把隐形的规格搜索变成可审计记录，是可立即采纳的小改动。
分阶段预注册兼顾严谨与现实：借 registered reports 允许带显式决策规则的序贯设计，避免了"预注册=僵化"的常见反对，落地性强。

局限与展望¶

没有实证检验预注册在 AI 实验中的实际效果：全文是规范性论证 + 一个示意模拟，缺"采用预注册后假阳性确实下降"的证据。
模板的执行成本与依从性存疑：作者自己承认逐字记录、锁定全部规格会增加前期负担，且 attestation 防不住存心说谎者，只是抬高声誉代价。
多元宇宙预注册的可操作性：要求"事先列出全部 prompt/模型变体并全报"在上千规格的空间里近乎不可行，规格曲线/分层汇总的具体执行细节谈得不深。
激励结构未撼动：在"以新颖性为导向"的发表激励下，单靠模板和呼吁能否真正改变社区行为，仍取决于会议/期刊/资助方是否动真格。

评分¶

新颖性: ⭐⭐⭐⭐ 把成熟的预注册思想精准适配到 AI agent 实验的新自由度，定位清晰、议题及时。
实验充分度: ⭐⭐⭐ 仅一个锚定模拟作示意，作为立场论文够用但谈不上充分验证。
写作质量: ⭐⭐⭐⭐⭐ 论证层层递进，"成本-灵活度"框架与六条替代观点反驳尤其漂亮。
价值: ⭐⭐⭐⭐ 在 AI agent 行为实验爆发的当口提出"危机前内建可信度"，对社区方法论价值高。