MedAgentGym: A Scalable Agentic Training Environment for Code-Centric Reasoning in Biomedical Data Science¶
会议: ICLR 2026 Oral
arXiv: 2506.04405
代码: 有
领域: 医学AI / Agent 训练
关键词: biomedical data science, agentic training, code-centric reasoning, reinforcement-learning, Med-Copilot, LLM agent
一句话总结¶
构建了首个统一的生物医学数据科学 Agent 训练环境 MedAgentGym,包含 72,413 个任务实例(覆盖 12 个真实场景、129 个类别),配备可执行沙盒和可验证 ground truth,系统基准评估 29 个 LLM 揭示商业/开源差距,并通过高效多线程轨迹采样 + 离线/在线 RL 训练出 Med-Copilot,分别获得 +43.02%/+45.28% 提升,达到与 GPT-4o 竞争的性能。
研究背景与动机¶
领域现状:生物医学数据科学涵盖基因组分析、临床数据处理、医学图像分析、药物发现等多个子领域,每个任务需要复杂的编程和领域推理能力。LLM 作为编码助手已在通用编程领域展示潜力,但在生物医学编码任务上的系统评估和训练基础设施缺乏。
现有痛点:(1) 现有医学 AI benchmarks(如 MedQA、PubMedQA)是静态的选择题/问答评估,不支持交互式代码执行和迭代调试;(2) 没有统一平台涵盖多种生物医学数据科学场景(基因组、临床、影像、药物等都是各自独立的 benchmark);(3) 开源 LLM 与闭源模型(GPT-4o 等)在生物医学编码任务上差距显著,需要有效的训练方法缩小差距。
核心矛盾:训练一个能写生物医学分析代码的 Agent 需要大规模可交互的任务环境,但构建这种环境成本极高(需要真实数据、ground truth、安全沙盒、反馈机制)。
本文目标 同时解决环境构建和 Agent 训练两个问题:提供大规模训练环境 + RL 训练 pipeline。
切入角度:将 12 个真实生物医学场景统一为"输入数据+任务描述→执行代码→验证输出"的标准化格式,支持交互式反馈和自动化评分。
核心 idea:大规模可交互的统一训练环境 + RL 训练 pipeline = 缩小开源模型与闭源 LLM 在生物医学编码上的差距。
方法详解¶
整体框架¶
MedAgentGym 包含三个核心组件:(1) 任务库:72,413 个任务实例,每个任务包含数据文件、任务描述、可执行沙盒、ground truth 答案和评分函数;(2) 交互引擎:Agent 通过多轮对话与沙盒交互——提交代码、获取执行结果/错误信息、迭代修正;(3) 训练 pipeline:高效多线程轨迹生成 + 离线/在线 RL 训练。
关键设计¶
-
12 场景 × 129 类别任务体系:
- 功能:覆盖基因组学(RNA-seq 分析、基因表达聚类)、临床数据科学(EHR 预测、生存分析)、医学影像(病理切片分类、X-ray 检测)、药物发现(分子属性预测、ADMET 分析)等 12 个真实场景
- 核心思路:每个场景定义标准化接口——输入(数据文件路径 + 元信息)+ 任务指令(自然语言描述分析目标)+ Ground Truth(精确数字答案或分类标签)+ 评分函数(\(\text{score}(\hat{y}, y) \in [0, 1]\))
- 设计动机:统一多个领域到一个平台,使 Agent 能在不同类型任务间迁移和泛化
-
可执行沙盒 + 交互反馈:
- 功能:为每个任务提供隔离的 Python 执行环境(预装 pandas, scikit-learn, biopython 等库),Agent 提交代码后获取 stdout/stderr 反馈
- 核心思路:Agent 最多进行 \(K\) 轮交互。每轮:Agent 生成代码 \(c_t\) → 沙盒执行获得 \((o_t, e_t)\) → Agent 根据输出/错误决定修正或提交最终答案。轨迹 \(\tau = [(c_1, o_1, e_1), ..., (c_K, o_K, e_K)]\)
- 设计动机:单次生成的代码正确率很低(许多任务需要调试),交互反馈使 Agent 能从错误中学习
-
多线程轨迹生成 + RL 训练:
- 功能:并行采样多个任务的交互轨迹,用于离线 RL(从已采集轨迹学习)和在线 RL(与环境实时交互学习)
- 核心思路:
- 离线 RL:从多个 LLM 采集大量轨迹 \(\{(\tau_i, r_i)\}\),以 ground truth 评分 \(r = \text{score}(\hat{y}, y)\) 作为奖励,用 DPO/rejection sampling 训练。选择 \(r > \theta\) 的成功轨迹作为正样本
- 在线 RL:Agent 与环境交互采集实时轨迹,使用 PPO/GRPO 优化策略 \(\pi_\theta\),奖励为 \(R(\tau) = \text{score}(\hat{y}_\tau, y)\)
- 设计动机:离线 RL 数据效率高(复用已有轨迹),在线 RL 能持续探索和改进
训练细节¶
- 基础模型:Llama-3.1-8B-Instruct 作为 Med-Copilot 的骨干
- 离线阶段:从 GPT-4o-mini、Claude-3.5-Sonnet、DeepSeek-V2.5 等采集轨迹
- 在线阶段:Med-Copilot 自身与环境交互,每轮更新策略
实验关键数据¶
主实验:29 LLM 基准评估¶
| 模型类别 | 代表模型 | 平均 Score | 排名 |
|---|---|---|---|
| 闭源商业 | GPT-4o | ~0.55 | Top-1 |
| 闭源商业 | Claude-3.5-Sonnet | ~0.50 | Top-3 |
| 开源基础 | Llama-3.1-8B-Instruct | ~0.32 | 中下 |
| Med-Copilot (离线 RL) | Llama-3.1-8B + Offline RL | ~0.46 (+43.02%) | 接近 GPT-4o |
| Med-Copilot (在线 RL) | Llama-3.1-8B + Online RL | ~0.46 (+45.28%) | 竞争 GPT-4o |
消融实验¶
| 配置 | 提升幅度 | 说明 |
|---|---|---|
| 离线 RL only | +43.02% | 从多模型轨迹学习 |
| 在线 RL only | +45.28% | 自主探索,略优于离线 |
| 多轮交互 vs 单次 | 显著提升 | 证明交互反馈的价值 |
| 任务难度分层 | 简单任务提升大 | 困难任务仍有改进空间 |
关键发现¶
- 商业 LLM 与开源 LLM 在生物医学编码任务上存在显著差距(~20 分),但 RL 训练可显著缩小此差距
- 在线 RL 略优于离线 RL,但两者都大幅超越 SFT 基线
- 多轮交互(调试循环)对性能至关重要——单次代码生成的成功率远低于多轮迭代
- 不同生物医学场景的难度差异大:基础统计分析较简单,复杂的基因组管线分析较难
亮点与洞察¶
- 训练 + 评估一体化:MedAgentGym 不仅是 benchmark(评估 29 个 LLM),更是训练环境(RL 训练管道直接可用)——这在医学 AI 领域是首创
- 实际缩小差距的证明:8B 参数的开源模型通过 RL 训练达到 GPT-4o 水平——这对隐私敏感的医学场景极具实际价值(本地部署 vs API 调用)
- 规模化设计:72K 任务 + 多线程轨迹采样 + 标准化接口——真正可扩展的训练基础设施
- 代码中心而非问答中心:不同于 MedQA 等选择题 benchmark,MedAgentGym 要求写真实可执行的分析代码——更接近实际科研场景
局限与展望¶
- 任务以编码为中心,临床推理、诊断决策等知识密集型能力评估不足
- Ground truth 需要预定义的标准答案,不适合开放式探索性研究任务
- 当前仅用 8B 模型训练 Med-Copilot,更大模型(70B+)的扩展结果未报告
- 评分函数主要基于精确匹配或数值误差,未评估代码质量、可读性、效率等软指标
- 未评估模型在训练任务分布外的迁移能力
相关工作与启发¶
- vs MedQA/PubMedQA: 这些是静态 QA benchmark,无代码执行和交互反馈;MedAgentGym 支持多轮代码交互
- vs SWE-bench: SWE-bench 聚焦软件工程(修 bug),MedAgentGym 聚焦生物医学数据分析——任务性质不同
- vs AgentBench: AgentBench 覆盖多种 Agent 任务但不聚焦医学;MedAgentGym 提供深度的生物医学场景覆盖
- vs AIME: AIME 等评估医学推理,MedAgentGym 评估的是医学编程实践
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个统一的生物医学 Agent 训练环境,问题定义有价值,但 RL 训练方法本身不是新的
- 实验充分度: ⭐⭐⭐⭐⭐ 72K 任务 + 29 LLM 系统评估 + 离线/在线 RL 对比 + Med-Copilot 验证
- 写作质量: ⭐⭐⭐⭐ 系统描述清晰,任务分类和实验组织合理
- 价值: ⭐⭐⭐⭐⭐ 为生物医学 AI Agent 研究提供了关键基础设施,开源环境有长期社区价值