CureAgent: A Training-Free Executor-Analyst Framework for Clinical Reasoning¶

会议: NeurIPS 2025
arXiv: 2512.05576
代码: https://github.com/June01/CureAgent
领域: 临床AI / 多智能体系统
关键词: 临床推理, 多智能体, Executor-Analyst, 分层集成, 无训练架构工程

一句话总结¶

CureAgent 提出 Executor-Analyst 协作框架，将精确工具调用（TxAgent/Llama-8B 做 Executor）与高层临床推理（Gemini 2.5 做 Analyst）解耦，配合分层集成（Stratified Ensemble）的 Late Fusion 拓扑保留证据多样性，在 CURE-Bench 上达到 83.8% 准确率（无需端到端微调），揭示了上下文-性能悖论和动作空间维度灾难两个关键 scaling 发现。

研究背景与动机¶

领域现状：大语言模型在临床决策支持上前景广阔（Med-PaLM, GPT-4），但真实医疗推理需要从不断更新的生物医学数据源（FDA 标签、OpenTarget、HPO 等）中主动检索和整合信息。CURE-Bench 竞赛正是评估 agent 利用 ToolUniverse（200+ 生物医学工具）进行临床推理的能力。

现有痛点：(a) 上下文利用失败：TxAgent（Llama-3.1-8B 微调）成功检索了生物医学证据，但无法在最终诊断中利用这些信息，导致幻觉（占错误案例 65.8%）；(b) 输出解析错误（19.2%）和指令遵循失败（12.3%）源于小模型的固有局限；(c) 通用闭源模型（Gemini 2.5）虽然推理能力强，但缺乏精确的工具调用训练，零样本性能不如 TxAgent。

核心矛盾：工具调用需要语法精确性（需要领域微调），临床推理需要语义鲁棒性（需要大模型能力）——单一模型难以同时满足这两个需求。TxAgent 有工具调用能力但推理弱（8B），Gemini 有推理能力但工具调用差（未微调）。

本文目标 不通过端到端微调，而是通过架构工程将"工具执行的手"和"临床推理的脑"解耦组合。

切入角度：分析错误模式后发现，65.8% 的错误是"检索成功但推理失败"——问题不在检索而在推理。那么让专门的 Executor 做检索、专门的 Analyst 做推理即可。

核心 idea：TxAgent 做"手"精确检索 + Gemini 做"脑"深度推理 + 分层集成保留证据多样性 = 无训练的 SOTA 临床 agent。

方法详解¶

整体框架¶

输入：临床问题（多选题形式，需要检索生物医学证据后回答）。输出：最终诊断+推理链。Pipeline：三阶段——(1) Executor（多个 TxAgent 并行）做工具调用收集证据 → (2) Analyst（Gemini 2.5）整合证据+搜索补充+生成推理链+初步诊断 → (3) 后处理模块（正则匹配+去重）确保输出格式。

关键设计¶

Executor — 专业工具检索 Agent：
- 功能：精确调用 ToolUniverse 中的 200+ 生物医学工具收集证据
- 核心思路：使用 TxAgent（Llama-3.1-8B 领域微调模型），将输入问题分解为子查询，编排多步工具调用和推理。关键创新：自一致性机制 — 并行启动 \(n_1\) 个 Executor（温度 \(T=0.8\)），聚合 top-\(k\) 最频繁的工具调用结果和推理轨迹
- 设计动机：Executor 不生成最终答案——只负责收集证据。多次采样+多数投票减少单次检索的随机性，确保下游 Analyst 获得全面鲁棒的证据集
Analyst — 长上下文临床推理器：
- 功能：从 Executor 输出的嘈杂证据流中综合推理，生成可靠的临床诊断
- 核心思路：Gemini 2.5（Flash/Pro）作为推理骨干，免去工具调用的语法负担，专注于：(a) 交叉引用工具输出与患者具体合并症；(b) 证据不足时主动搜索互联网补充；(c) 过滤无关噪声、解决矛盾数据点。利用长上下文窗口和"System 2"推理能力生成思维链推理
- 设计动机：小模型的上下文利用失败本质上是推理能力不足——用大模型做推理彻底解决这一瓶颈
分层集成拓扑（Stratified Ensemble / Late Fusion）：
- 功能：在固定计算预算下最大化证据多样性保留
- 核心思路：对比两种拓扑——Config A（Global Pooling / Early Fusion）：所有 Executor 汇聚到单一上下文 → 多个 Analyst 自一致性投票。Config B（Stratified Ensemble / Late Fusion）：将 Executor 预算分为 \(n_2\) 个并行子组（每组 \(n_1\) 个），每个子组独立聚合→独立 Analyst→最终 Late Fusion 投票。Config B 关键优势：不同子组可能探索不同的检索路径，Late Fusion 保留了这种多样性
- 设计动机：Config A 的早期共识过滤了少数但关键的证据——如罕见药物交互作用在多数投票中被丢弃。Config B 让每条检索路径独立走完推理全流程，减少集体幻觉
后处理模块：
- 功能：确保输出格式合规和确定性
- 核心思路：(a) 格式校准：正则表达式将自然语言结论映射为 benchmark 要求的结构化输出；(b) 响应去重：相同输入产生相同输出，消除 LLM 生成的随机性
- 设计动机：临床决策支持系统需要确定性行为——同一病例每次查询结果必须一致

损失函数 / 训练策略¶

无训练：整个框架不需要端到端微调。TxAgent 使用已有微调权重，Gemini 通过 API 调用
Executor 温度 \(T=0.8\)（经过 \(T \in \{0.6, 0.7, 0.8, 0.9\}\) 搜索），平衡探索与可靠性
计算预算分配：\(N_{\text{total}} = n_1 \times n_2\)，Stratified Ensemble 用 \(n_1=10, n_2=3\)

实验关键数据¶

主实验 — CURE-Bench phase2¶

架构	Executor	\(n_1\)	Analyst	\(n_2\)	准确率
Baseline	gemini-2.5-flash	1	—	—	63.1
Baseline	TxAgent	1	—	—	69.3
SC only	TxAgent	30	—	—	73.5
Config A	TxAgent	30	gemini-flash	3	80.5
Config B	TxAgent	10	gemini-flash	3	81.4
Config B + search	TxAgent	10	gemini-flash+search	3	83.8

消融实验 — 架构选择影响¶

配置	准确率	说明
TxAgent 单独	69.3%	Baseline
解耦 (1 Exec + 1 Ana)	74.7%	解耦本身提升 +5.4%
Config A (30+3)	80.5%	早期融合，信息瓶颈
Config B (10×3)	81.4%	晚期融合，保留多样性 +0.9%
Config B + search	83.8%	搜索补充工具缺失信息 +2.4%

Scaling 发现¶

发现	数据	含义
上下文-性能悖论	推理上下文 >12k token 时准确率从 94% 降至 87.93%	过多原始证据引入噪声，淹没注意力机制
动作空间维度灾难	ToolUniverse v1→v2 (200→600 工具)，准确率从 92.0% 降至 87.5%	工具数量增加导致检索精度下降

关键发现¶

解耦是最大增益来源：单 Executor+单 Analyst（74.7%）已超过 TxAgent（69.3%）和 Gemini（63.1%）
拓扑很重要：相同计算预算下，Config B（81.4%）> Config A（80.5%），Late Fusion 保留多样性
自一致性快速收敛：\(n<15\) 时快速提升，\(n>20\) 后趋于平稳（约 74.2%）
温度 \(T=0.8\) 最优：过高（0.9→56.7%）导致输出过于随机
Gemini 3 Pro（81.3%，后竞赛模型）+search 暗示未来基础模型可能减少对 Executor 的依赖

亮点与洞察¶

"手脑分离"的架构工程哲学：不做端到端微调，而是让专业模型各司其职——小模型微调后做精确工具调用，大模型做深度推理。这个思路对所有 tool-augmented agent 系统都有参考价值
Late Fusion 保留证据多样性：Early Fusion 的信息瓶颈问题被清晰量化（+0.9%），核心洞察是"过早共识会丢失罕见但关键的证据"
上下文-性能悖论：>12k token 后性能反降，说明 RAG 系统中不是检索越多越好，需要信息压缩/早期拒绝策略
完全可替换：模块化设计使 Executor 和 Analyst 可独立升级（如换用更强模型），无需重新训练

局限与展望¶

方法本质是系统工程（多 agent 编排+投票），技术新颖性有限
计算成本高：\(n_1 \times n_2 = 30\) 次 LLM 调用/问题，API 成本可观
上下文-性能悖论仅观察未解决——需要基于置信度的过滤策略（如 DeepConf）
工具数量扩展问题（600 工具即降 4.5%）需要层级检索或 RAG 工具文档
依赖闭源 API（Gemini），可复现性和部署灵活性受限

评分¶

新颖性: ⭐⭐⭐ 多 agent 解耦+集成是已知范式，创新在于针对临床场景的系统化设计和实证分析
实验充分度: ⭐⭐⭐⭐ 丰富的消融、多模型对比、scaling 分析，但仅在 CURE-Bench 一个 benchmark
写作质量: ⭐⭐⭐⭐ 错误分析驱动的动机链清晰，图表设计专业，定量分析详尽
价值: ⭐⭐⭐⭐ 无训练架构工程在临床 AI 中具有高实用价值，scaling 发现对社区有参考意义