CureAgent: A Training-Free Executor-Analyst Framework for Clinical Reasoning¶
会议: NeurIPS 2025
arXiv: 2512.05576
代码: https://github.com/June01/CureAgent
领域: 临床AI / 多智能体系统
关键词: 临床推理, 多智能体, Executor-Analyst, 分层集成, 无训练架构工程
一句话总结¶
CureAgent 提出 Executor-Analyst 协作框架,将精确工具调用(TxAgent/Llama-8B 做 Executor)与高层临床推理(Gemini 2.5 做 Analyst)解耦,配合分层集成(Stratified Ensemble)的 Late Fusion 拓扑保留证据多样性,在 CURE-Bench 上达到 83.8% 准确率(无需端到端微调),揭示了上下文-性能悖论和动作空间维度灾难两个关键 scaling 发现。
研究背景与动机¶
领域现状:大语言模型在临床决策支持上前景广阔(Med-PaLM, GPT-4),但真实医疗推理需要从不断更新的生物医学数据源(FDA 标签、OpenTarget、HPO 等)中主动检索和整合信息。CURE-Bench 竞赛正是评估 agent 利用 ToolUniverse(200+ 生物医学工具)进行临床推理的能力。
现有痛点:(a) 上下文利用失败:TxAgent(Llama-3.1-8B 微调)成功检索了生物医学证据,但无法在最终诊断中利用这些信息,导致幻觉(占错误案例 65.8%);(b) 输出解析错误(19.2%)和指令遵循失败(12.3%)源于小模型的固有局限;(c) 通用闭源模型(Gemini 2.5)虽然推理能力强,但缺乏精确的工具调用训练,零样本性能不如 TxAgent。
核心矛盾:工具调用需要语法精确性(需要领域微调),临床推理需要语义鲁棒性(需要大模型能力)——单一模型难以同时满足这两个需求。TxAgent 有工具调用能力但推理弱(8B),Gemini 有推理能力但工具调用差(未微调)。
本文目标 不通过端到端微调,而是通过架构工程将"工具执行的手"和"临床推理的脑"解耦组合。
切入角度:分析错误模式后发现,65.8% 的错误是"检索成功但推理失败"——问题不在检索而在推理。那么让专门的 Executor 做检索、专门的 Analyst 做推理即可。
核心 idea:TxAgent 做"手"精确检索 + Gemini 做"脑"深度推理 + 分层集成保留证据多样性 = 无训练的 SOTA 临床 agent。
方法详解¶
整体框架¶
输入:临床问题(多选题形式,需要检索生物医学证据后回答)。输出:最终诊断+推理链。Pipeline:三阶段——(1) Executor(多个 TxAgent 并行)做工具调用收集证据 → (2) Analyst(Gemini 2.5)整合证据+搜索补充+生成推理链+初步诊断 → (3) 后处理模块(正则匹配+去重)确保输出格式。
关键设计¶
-
Executor — 专业工具检索 Agent:
- 功能:精确调用 ToolUniverse 中的 200+ 生物医学工具收集证据
- 核心思路:使用 TxAgent(Llama-3.1-8B 领域微调模型),将输入问题分解为子查询,编排多步工具调用和推理。关键创新:自一致性机制 — 并行启动 \(n_1\) 个 Executor(温度 \(T=0.8\)),聚合 top-\(k\) 最频繁的工具调用结果和推理轨迹
- 设计动机:Executor 不生成最终答案——只负责收集证据。多次采样+多数投票减少单次检索的随机性,确保下游 Analyst 获得全面鲁棒的证据集
-
Analyst — 长上下文临床推理器:
- 功能:从 Executor 输出的嘈杂证据流中综合推理,生成可靠的临床诊断
- 核心思路:Gemini 2.5(Flash/Pro)作为推理骨干,免去工具调用的语法负担,专注于:(a) 交叉引用工具输出与患者具体合并症;(b) 证据不足时主动搜索互联网补充;(c) 过滤无关噪声、解决矛盾数据点。利用长上下文窗口和"System 2"推理能力生成思维链推理
- 设计动机:小模型的上下文利用失败本质上是推理能力不足——用大模型做推理彻底解决这一瓶颈
-
分层集成拓扑(Stratified Ensemble / Late Fusion):
- 功能:在固定计算预算下最大化证据多样性保留
- 核心思路:对比两种拓扑——Config A(Global Pooling / Early Fusion):所有 Executor 汇聚到单一上下文 → 多个 Analyst 自一致性投票。Config B(Stratified Ensemble / Late Fusion):将 Executor 预算分为 \(n_2\) 个并行子组(每组 \(n_1\) 个),每个子组独立聚合→独立 Analyst→最终 Late Fusion 投票。Config B 关键优势:不同子组可能探索不同的检索路径,Late Fusion 保留了这种多样性
- 设计动机:Config A 的早期共识过滤了少数但关键的证据——如罕见药物交互作用在多数投票中被丢弃。Config B 让每条检索路径独立走完推理全流程,减少集体幻觉
-
后处理模块:
- 功能:确保输出格式合规和确定性
- 核心思路:(a) 格式校准:正则表达式将自然语言结论映射为 benchmark 要求的结构化输出;(b) 响应去重:相同输入产生相同输出,消除 LLM 生成的随机性
- 设计动机:临床决策支持系统需要确定性行为——同一病例每次查询结果必须一致
损失函数 / 训练策略¶
- 无训练:整个框架不需要端到端微调。TxAgent 使用已有微调权重,Gemini 通过 API 调用
- Executor 温度 \(T=0.8\)(经过 \(T \in \{0.6, 0.7, 0.8, 0.9\}\) 搜索),平衡探索与可靠性
- 计算预算分配:\(N_{\text{total}} = n_1 \times n_2\),Stratified Ensemble 用 \(n_1=10, n_2=3\)
实验关键数据¶
主实验 — CURE-Bench phase2¶
| 架构 | Executor | \(n_1\) | Analyst | \(n_2\) | 准确率 |
|---|---|---|---|---|---|
| Baseline | gemini-2.5-flash | 1 | — | — | 63.1 |
| Baseline | TxAgent | 1 | — | — | 69.3 |
| SC only | TxAgent | 30 | — | — | 73.5 |
| Config A | TxAgent | 30 | gemini-flash | 3 | 80.5 |
| Config B | TxAgent | 10 | gemini-flash | 3 | 81.4 |
| Config B + search | TxAgent | 10 | gemini-flash+search | 3 | 83.8 |
消融实验 — 架构选择影响¶
| 配置 | 准确率 | 说明 |
|---|---|---|
| TxAgent 单独 | 69.3% | Baseline |
| 解耦 (1 Exec + 1 Ana) | 74.7% | 解耦本身提升 +5.4% |
| Config A (30+3) | 80.5% | 早期融合,信息瓶颈 |
| Config B (10×3) | 81.4% | 晚期融合,保留多样性 +0.9% |
| Config B + search | 83.8% | 搜索补充工具缺失信息 +2.4% |
Scaling 发现¶
| 发现 | 数据 | 含义 |
|---|---|---|
| 上下文-性能悖论 | 推理上下文 >12k token 时准确率从 94% 降至 87.93% | 过多原始证据引入噪声,淹没注意力机制 |
| 动作空间维度灾难 | ToolUniverse v1→v2 (200→600 工具),准确率从 92.0% 降至 87.5% | 工具数量增加导致检索精度下降 |
关键发现¶
- 解耦是最大增益来源:单 Executor+单 Analyst(74.7%)已超过 TxAgent(69.3%)和 Gemini(63.1%)
- 拓扑很重要:相同计算预算下,Config B(81.4%)> Config A(80.5%),Late Fusion 保留多样性
- 自一致性快速收敛:\(n<15\) 时快速提升,\(n>20\) 后趋于平稳(约 74.2%)
- 温度 \(T=0.8\) 最优:过高(0.9→56.7%)导致输出过于随机
- Gemini 3 Pro(81.3%,后竞赛模型)+search 暗示未来基础模型可能减少对 Executor 的依赖
亮点与洞察¶
- "手脑分离"的架构工程哲学:不做端到端微调,而是让专业模型各司其职——小模型微调后做精确工具调用,大模型做深度推理。这个思路对所有 tool-augmented agent 系统都有参考价值
- Late Fusion 保留证据多样性:Early Fusion 的信息瓶颈问题被清晰量化(+0.9%),核心洞察是"过早共识会丢失罕见但关键的证据"
- 上下文-性能悖论:>12k token 后性能反降,说明 RAG 系统中不是检索越多越好,需要信息压缩/早期拒绝策略
- 完全可替换:模块化设计使 Executor 和 Analyst 可独立升级(如换用更强模型),无需重新训练
局限与展望¶
- 方法本质是系统工程(多 agent 编排+投票),技术新颖性有限
- 计算成本高:\(n_1 \times n_2 = 30\) 次 LLM 调用/问题,API 成本可观
- 上下文-性能悖论仅观察未解决——需要基于置信度的过滤策略(如 DeepConf)
- 工具数量扩展问题(600 工具即降 4.5%)需要层级检索或 RAG 工具文档
- 依赖闭源 API(Gemini),可复现性和部署灵活性受限
相关工作与启发¶
- vs TxAgent(单模型):微调 8B 模型做全流程,工具调用强但推理弱;CureAgent 解耦后 +14.5%
- vs Gemini-2.5-pro(单模型+搜索):搜索提供宽泛知识但不如精确工具调用;CureAgent 兼具两者 +9%
- vs ReAct:ReAct 在单一模型内交替推理和行动;CureAgent 将推理和行动分派给不同模型,更适合能力不对称的场景
- CureAgent 的 Stratified Ensemble 思路可推广到任何 multi-agent RAG 系统:独立检索 → 独立推理 → 最终投票
评分¶
- 新颖性: ⭐⭐⭐ 多 agent 解耦+集成是已知范式,创新在于针对临床场景的系统化设计和实证分析
- 实验充分度: ⭐⭐⭐⭐ 丰富的消融、多模型对比、scaling 分析,但仅在 CURE-Bench 一个 benchmark
- 写作质量: ⭐⭐⭐⭐ 错误分析驱动的动机链清晰,图表设计专业,定量分析详尽
- 价值: ⭐⭐⭐⭐ 无训练架构工程在临床 AI 中具有高实用价值,scaling 发现对社区有参考意义