跳转至

CureAgent: A Training-Free Executor-Analyst Framework for Clinical Reasoning

会议: NeurIPS 2025
arXiv: 2512.05576
代码: https://github.com/June01/CureAgent
领域: 临床AI / 多智能体系统
关键词: 临床推理, 多智能体, Executor-Analyst, 分层集成, 无训练架构工程

一句话总结

CureAgent 提出 Executor-Analyst 协作框架,将精确工具调用(TxAgent/Llama-8B 做 Executor)与高层临床推理(Gemini 2.5 做 Analyst)解耦,配合分层集成(Stratified Ensemble)的 Late Fusion 拓扑保留证据多样性,在 CURE-Bench 上达到 83.8% 准确率(无需端到端微调),揭示了上下文-性能悖论和动作空间维度灾难两个关键 scaling 发现。

研究背景与动机

领域现状:大语言模型在临床决策支持上前景广阔(Med-PaLM, GPT-4),但真实医疗推理需要从不断更新的生物医学数据源(FDA 标签、OpenTarget、HPO 等)中主动检索和整合信息。CURE-Bench 竞赛正是评估 agent 利用 ToolUniverse(200+ 生物医学工具)进行临床推理的能力。

现有痛点:(a) 上下文利用失败:TxAgent(Llama-3.1-8B 微调)成功检索了生物医学证据,但无法在最终诊断中利用这些信息,导致幻觉(占错误案例 65.8%);(b) 输出解析错误(19.2%)和指令遵循失败(12.3%)源于小模型的固有局限;(c) 通用闭源模型(Gemini 2.5)虽然推理能力强,但缺乏精确的工具调用训练,零样本性能不如 TxAgent。

核心矛盾:工具调用需要语法精确性(需要领域微调),临床推理需要语义鲁棒性(需要大模型能力)——单一模型难以同时满足这两个需求。TxAgent 有工具调用能力但推理弱(8B),Gemini 有推理能力但工具调用差(未微调)。

本文目标 不通过端到端微调,而是通过架构工程将"工具执行的手"和"临床推理的脑"解耦组合。

切入角度:分析错误模式后发现,65.8% 的错误是"检索成功但推理失败"——问题不在检索而在推理。那么让专门的 Executor 做检索、专门的 Analyst 做推理即可。

核心 idea:TxAgent 做"手"精确检索 + Gemini 做"脑"深度推理 + 分层集成保留证据多样性 = 无训练的 SOTA 临床 agent。

方法详解

整体框架

输入:临床问题(多选题形式,需要检索生物医学证据后回答)。输出:最终诊断+推理链。Pipeline:三阶段——(1) Executor(多个 TxAgent 并行)做工具调用收集证据 → (2) Analyst(Gemini 2.5)整合证据+搜索补充+生成推理链+初步诊断 → (3) 后处理模块(正则匹配+去重)确保输出格式。

关键设计

  1. Executor — 专业工具检索 Agent

    • 功能:精确调用 ToolUniverse 中的 200+ 生物医学工具收集证据
    • 核心思路:使用 TxAgent(Llama-3.1-8B 领域微调模型),将输入问题分解为子查询,编排多步工具调用和推理。关键创新:自一致性机制 — 并行启动 \(n_1\) 个 Executor(温度 \(T=0.8\)),聚合 top-\(k\) 最频繁的工具调用结果和推理轨迹
    • 设计动机:Executor 不生成最终答案——只负责收集证据。多次采样+多数投票减少单次检索的随机性,确保下游 Analyst 获得全面鲁棒的证据集
  2. Analyst — 长上下文临床推理器

    • 功能:从 Executor 输出的嘈杂证据流中综合推理,生成可靠的临床诊断
    • 核心思路:Gemini 2.5(Flash/Pro)作为推理骨干,免去工具调用的语法负担,专注于:(a) 交叉引用工具输出与患者具体合并症;(b) 证据不足时主动搜索互联网补充;(c) 过滤无关噪声、解决矛盾数据点。利用长上下文窗口和"System 2"推理能力生成思维链推理
    • 设计动机:小模型的上下文利用失败本质上是推理能力不足——用大模型做推理彻底解决这一瓶颈
  3. 分层集成拓扑(Stratified Ensemble / Late Fusion)

    • 功能:在固定计算预算下最大化证据多样性保留
    • 核心思路:对比两种拓扑——Config A(Global Pooling / Early Fusion):所有 Executor 汇聚到单一上下文 → 多个 Analyst 自一致性投票。Config B(Stratified Ensemble / Late Fusion):将 Executor 预算分为 \(n_2\) 个并行子组(每组 \(n_1\) 个),每个子组独立聚合→独立 Analyst→最终 Late Fusion 投票。Config B 关键优势:不同子组可能探索不同的检索路径,Late Fusion 保留了这种多样性
    • 设计动机:Config A 的早期共识过滤了少数但关键的证据——如罕见药物交互作用在多数投票中被丢弃。Config B 让每条检索路径独立走完推理全流程,减少集体幻觉
  4. 后处理模块

    • 功能:确保输出格式合规和确定性
    • 核心思路:(a) 格式校准:正则表达式将自然语言结论映射为 benchmark 要求的结构化输出;(b) 响应去重:相同输入产生相同输出,消除 LLM 生成的随机性
    • 设计动机:临床决策支持系统需要确定性行为——同一病例每次查询结果必须一致

损失函数 / 训练策略

  • 无训练:整个框架不需要端到端微调。TxAgent 使用已有微调权重,Gemini 通过 API 调用
  • Executor 温度 \(T=0.8\)(经过 \(T \in \{0.6, 0.7, 0.8, 0.9\}\) 搜索),平衡探索与可靠性
  • 计算预算分配:\(N_{\text{total}} = n_1 \times n_2\),Stratified Ensemble 用 \(n_1=10, n_2=3\)

实验关键数据

主实验 — CURE-Bench phase2

架构 Executor \(n_1\) Analyst \(n_2\) 准确率
Baseline gemini-2.5-flash 1 63.1
Baseline TxAgent 1 69.3
SC only TxAgent 30 73.5
Config A TxAgent 30 gemini-flash 3 80.5
Config B TxAgent 10 gemini-flash 3 81.4
Config B + search TxAgent 10 gemini-flash+search 3 83.8

消融实验 — 架构选择影响

配置 准确率 说明
TxAgent 单独 69.3% Baseline
解耦 (1 Exec + 1 Ana) 74.7% 解耦本身提升 +5.4%
Config A (30+3) 80.5% 早期融合,信息瓶颈
Config B (10×3) 81.4% 晚期融合,保留多样性 +0.9%
Config B + search 83.8% 搜索补充工具缺失信息 +2.4%

Scaling 发现

发现 数据 含义
上下文-性能悖论 推理上下文 >12k token 时准确率从 94% 降至 87.93% 过多原始证据引入噪声,淹没注意力机制
动作空间维度灾难 ToolUniverse v1→v2 (200→600 工具),准确率从 92.0% 降至 87.5% 工具数量增加导致检索精度下降

关键发现

  • 解耦是最大增益来源:单 Executor+单 Analyst(74.7%)已超过 TxAgent(69.3%)和 Gemini(63.1%)
  • 拓扑很重要:相同计算预算下,Config B(81.4%)> Config A(80.5%),Late Fusion 保留多样性
  • 自一致性快速收敛:\(n<15\) 时快速提升,\(n>20\) 后趋于平稳(约 74.2%)
  • 温度 \(T=0.8\) 最优:过高(0.9→56.7%)导致输出过于随机
  • Gemini 3 Pro(81.3%,后竞赛模型)+search 暗示未来基础模型可能减少对 Executor 的依赖

亮点与洞察

  • "手脑分离"的架构工程哲学:不做端到端微调,而是让专业模型各司其职——小模型微调后做精确工具调用,大模型做深度推理。这个思路对所有 tool-augmented agent 系统都有参考价值
  • Late Fusion 保留证据多样性:Early Fusion 的信息瓶颈问题被清晰量化(+0.9%),核心洞察是"过早共识会丢失罕见但关键的证据"
  • 上下文-性能悖论:>12k token 后性能反降,说明 RAG 系统中不是检索越多越好,需要信息压缩/早期拒绝策略
  • 完全可替换:模块化设计使 Executor 和 Analyst 可独立升级(如换用更强模型),无需重新训练

局限与展望

  • 方法本质是系统工程(多 agent 编排+投票),技术新颖性有限
  • 计算成本高:\(n_1 \times n_2 = 30\) 次 LLM 调用/问题,API 成本可观
  • 上下文-性能悖论仅观察未解决——需要基于置信度的过滤策略(如 DeepConf)
  • 工具数量扩展问题(600 工具即降 4.5%)需要层级检索或 RAG 工具文档
  • 依赖闭源 API(Gemini),可复现性和部署灵活性受限

相关工作与启发

  • vs TxAgent(单模型):微调 8B 模型做全流程,工具调用强但推理弱;CureAgent 解耦后 +14.5%
  • vs Gemini-2.5-pro(单模型+搜索):搜索提供宽泛知识但不如精确工具调用;CureAgent 兼具两者 +9%
  • vs ReAct:ReAct 在单一模型内交替推理和行动;CureAgent 将推理和行动分派给不同模型,更适合能力不对称的场景
  • CureAgent 的 Stratified Ensemble 思路可推广到任何 multi-agent RAG 系统:独立检索 → 独立推理 → 最终投票

评分

  • 新颖性: ⭐⭐⭐ 多 agent 解耦+集成是已知范式,创新在于针对临床场景的系统化设计和实证分析
  • 实验充分度: ⭐⭐⭐⭐ 丰富的消融、多模型对比、scaling 分析,但仅在 CURE-Bench 一个 benchmark
  • 写作质量: ⭐⭐⭐⭐ 错误分析驱动的动机链清晰,图表设计专业,定量分析详尽
  • 价值: ⭐⭐⭐⭐ 无训练架构工程在临床 AI 中具有高实用价值,scaling 发现对社区有参考意义