REPRO-Bench: Can Agentic AI Systems Assess the Reproducibility of Social Science Research?¶

会议: ACL 2025
arXiv: 无
代码: 无
领域: LLM智能体

一句话总结¶

本文提出 REPRO-Bench，一个包含 112 个社会科学论文实例的基准，用于评估 AI Agent 自动化评估论文可重复性的能力；现有最佳 Agent 准确率仅 21.4%（低于随机猜测的 25%），作者进一步开发的 REPRO-Agent 将准确率提升至 36.6%（71% 相对提升）。

背景与动机¶

社会科学可重复性危机严峻：大规模重复实验表明，SSRP 平台上不到 40% 的论文被认为完全可重复，25% 的论文包含编码错误。
人工评估成本极高：347 名社会科学家参与重复 110 篇论文，Psychology Reproducibility Project 耗时超 5 年完成 100 项研究重复。
AI Agent 展现自动化潜力：随着 LLM 驱动的 Agent 在复杂任务上表现出色，自动化可重复性评估成为可能。
现有 benchmark 存在三大不足：(1) 仅关注代码执行而不检查结果与论文的一致性；(2) 过度简化真实场景（提供预处理上下文）；(3) 缺乏数据格式和编程语言的多样性。
社会科学论文的特殊复杂性：涉及多种编程语言（Stata、R、Python、MATLAB）和数据格式（.dta、.csv、.rda、.xlsx），需要跨领域知识整合。
批判性推理能力的缺失：现有 benchmark 未要求识别代码/数据不一致性，而这正是可重复性评估的核心。

方法详解¶

REPRO-Bench 任务定义¶

每个任务实例包含三个输入： 1. 论文 PDF：完整社会科学论文 2. 重复包（reproduction package）：包含数据、代码和文档 3. 主要发现列表：从重复报告中提取的需验证项（表格、图表、文本声明）

Agent 需根据评分标准输出可重复性分数（1-4 分）： - 1 分：主要发现不可重复 - 2 分：代码中存在轻微不一致或错误（如变量编码问题），但不影响核心结论 - 3 分：分析计算正确，但存在显示/报告层面的轻微问题（如四舍五入误差） - 4 分：主要发现完全可重复

数据收集¶

从 4 个来源收集 112 篇论文，遵循统一标准 $\mathcal{C}$（社会科学领域、有效 DOI、公开重复包、可信重复报告、重复时间 < 2 小时）：

来源	数量	特点
Mass Reproducibility (Brodeur et al.)	92	主要来源，大部分论文基本可重复
I4R Discussion Paper Series	11	包含发现关键重复性问题的论文
Retraction Watch Database	7	已撤回论文（包含数据/分析错误）
Twitter/X	2	社交媒体上指出问题的论文

分数分布平衡：Score 1+2 共 56 篇 vs Score 3+4 共 56 篇。

数据统计¶

论文平均 29 页，重复包平均 4.2 GB、142 个文件
每篇论文平均 5 个主要发现（范围 1-19）
编程语言：63 篇 Stata、25 篇 R、15 篇多语言、2 篇 Python、1 篇 MATLAB、1 篇 Julia
数据格式：34 篇 .dta、11 篇 .csv、10 篇 .rda、51 篇多格式

论文特征（页数、文件数、语言/格式多样性等）与可重复性分数的 Spearman 相关系数均 $|\rho| < 0.1$，表明这些因素不影响可重复性。

Agent 环境设计¶

Agent 从包含 paper.pdf 和 reproduction_package/ 的目录启动
预装所有必要软件（Stata、MATLAB、LaTeX）
可自由执行命令行操作和安装包
通过标准输出/错误流获取反馈
API 费用上限：每个任务 $4

评测 Agent¶

Agent	类型	特点
AutoGPT	通用 Agent	长期规划、工具选择、行为反思
CORE-Agent	科学论文 Agent	专为论文重复设计，含 VLM 工具
SWE-Agent	软件工程 Agent	解决 GitHub Issues，含 ACI 接口

三个 Agent 均使用 gpt-4o-2024-05-13。

实验结果¶

主要性能对比¶

Agent	准确率 (%)	可用率 (%)	平均成本 ($)
AutoGPT	20.5	60.7	2.03
CORE-Agent	21.4	46.4	2.00
SWE-Agent	1.8 (调整后 10.7)	1.8 (调整后 19.6)	1.20
REPRO-Agent	36.6	92.9	—

最佳 Agent CORE-Agent 准确率仅 21.4%，甚至低于四选一随机猜测的 25%。REPRO-Agent 通过结构化模板、虚拟分数回退和少样本示例三大策略，实现 36.6% 准确率（71% 相对提升）和 92.9% 可用率。

按编程语言的准确率分析¶

R 任务优于 Stata 任务：R 作为开源语言，LLM 对其有更好的知识覆盖
多语言任务表现最差：Agent 难以保证跨语言一致执行
多格式数据不影响性能：Agent 能有效利用数据加载器处理多种格式

按可重复性分数的表现¶

所有 Agent 在 Score 4（完全可重复）的论文上表现最好，在 Score 2 和 3 的细粒度判断上表现较差。Agent 倾向于生成二元结果而非深入调查不一致性来源。

失败原因分类（对错分类 Score 4 为 Score 1 的案例）¶

失败类型	描述	占比
Type 4：文件定位失败	Agent 无法正确推断目录结构找到数据文件	最高
Type 3：依赖安装失败	无法正确安装所需库	次高
Type 2：终端输出遗漏	Stata 错误信息存于日志而非终端，Agent 误判	中等
Type 1：结果比较错误	Agent 编写的比较脚本本身有误	较低

未识别不一致性的原因（Score 1 误分为 Score 4）¶

Agent 未严格遵循完整工作流——不到 42% 的案例同时包含代码检查和结果比较阶段
代码检查时 Agent 常读取整个文件而非聚焦关键段落，长代码上下文下难以定位错误

亮点¶

填补真实评估 benchmark 空白：首个要求 Agent 端到端评估论文可重复性的基准，不同于仅关注代码执行的已有 benchmark。
真实复杂度：直接使用实际社会科学论文和重复包，涉及多语言（Stata/R/Python/MATLAB）和多格式数据。
系统化失败分析：将 Agent 失败归纳为 4 类可操作性强的错误类型，为 Agent 改进提供明确方向。
REPRO-Agent 验证了分析价值：基于经验分析的三大策略实现 71% 相对提升，证明针对性改进的有效性。
社会科学影响力：法律专家确认 benchmark 捕获了社会科学论文的代表性模式，可促进更好的代码和数据管理。

局限性¶

准确率仍然很低：即便 REPRO-Agent 的 36.6% 也远不足以实际应用，自动化可重复性评估仍需大幅改进。
缺乏任务实例变体：未引入同一论文的多版本（含故意错误/修正），无法细粒度评估检测能力。
仅限社会科学领域：未扩展到生物学等同样面临可重复性挑战的其他学科。
单一 LLM 后端：三个 Agent 均使用 gpt-4o，未探索其他模型或更大上下文窗口的影响。
成本约束限制深度探索：每个任务 $4 的 API 预算可能不足以支撑更深入的代码分析和结果比较。

评分与评价¶

新颖性 ⭐⭐⭐⭐：首个面向社会科学可重复性评估的 Agent benchmark，任务设计和数据来源构思独到。
技术深度 ⭐⭐⭐：benchmark 构建过程严谨，但 REPRO-Agent 本身的技术改进相对简单（模板+回退+少样本）。
实验充分度 ⭐⭐⭐⭐：三个代表性 Agent + 详尽的定性分析 + 失败原因分类 + 改进验证，分析链条完整。
写作质量 ⭐⭐⭐⭐：结构清晰，数据收集标准明确，统计分析到位。
实用价值 ⭐⭐⭐⭐⭐：直接面向社会科学界面临的真实问题，benchmark 公开可用，对 Agent 发展有重要指导意义。
综合评分 ⭐⭐⭐⭐（4/5）