TheraAgent: Self-Improving Therapeutic Agent for Precise and Comprehensive Treatment Planning¶
会议: ACL 2026
arXiv: 2605.05963
代码: 无
领域: LLM Agent / 医疗 AI / 治疗方案生成
关键词: 自改进 agent、治疗计划、TheraJudge、临床安全、推理时迭代
一句话总结¶
TheraAgent 把治疗方案生成从一次性回答改造成 generate-reflect-refine 的自改进 agent 流程,用临床维度化评估器 TheraJudge 和 score-aware memory 不断修正方案,在 HealthBench 治疗规划子集和医生盲评中显著超过强基线。
研究背景与动机¶
领域现状:LLM 已经能完成医学问答、诊断辅助和临床文本生成,但治疗计划生成比单步问答更复杂。它需要同时选择药物、剂量、适应证、禁忌证、监测指标、随访方案和风险控制。
现有痛点:通用 LLM 或医学微调模型往往采用 one-shot generation。一次性输出容易粗糙、不完整,甚至出现安全风险,例如遗漏剂量、忽略禁忌证、没有说明何时停药或何时升级治疗。
核心矛盾:真实医生制定治疗计划通常会反复核对诊断、指南、患者条件和潜在伤害,而多数 LLM 只是给出一个看似流畅的文本答案。治疗计划质量不是单一 accuracy,而是多个临床维度的组合优化。
本文目标:作者希望构建一个可在推理时自我改进的 therapeutic agent,让模型先生成初稿,再由临床评估器指出问题,最后带着反馈继续改写,逐步得到更精确、更完整、更安全的治疗方案。
切入角度:论文把治疗计划质量形式化为 \(Q(T\mid P)=\sum_i q_i(T\mid P)\),其中每个 \(q_i\) 对应 Accuracy、Targeting、Completeness、Harm Control 等维度。这为后续的多维反馈和记忆检索提供了目标函数。
核心 idea:用一个临床对齐的 internal critic 作为推理环路中的反馈源,把“写治疗方案”变成“生成、评价、记忆、再生成”的 test-time optimization。
方法详解¶
TheraAgent 的核心不是训练一个新医学模型,而是设计一个 agentic workflow。底座模型可以是 DeepSeek-R1 等强推理模型;外层系统负责组织 Planner、TheraJudge 和 Memorizer,让模型在多轮推理中吸收之前方案的错误和得分。
整体框架¶
输入患者病例 \(P=(d,s,y)\),其中 \(d\) 是基本临床信息,\(s\) 是症状和检查结果,\(y\) 是已确认诊断。目标是生成治疗方案 \(T\) 和显式推理过程 \(c\)。与封闭式分类不同,治疗方案处在开放组合空间里,因此必须同时满足准确性、完整性、个体化、共识一致性和伤害控制。
在第 \(k\) 次迭代中,Planner 根据病例 \(P\) 和上一轮记忆 \(\mathcal{M}^{(k-1)}\) 生成候选方案 \(T_k\) 与推理 \(c_k\)。随后 TheraJudge 评估该方案,输出评估理由 \(R_k\)、各临床维度得分 \(\{q_{k,i}\}\) 和总分 \(s_k\)。Memorizer 把 \((T_k,R_k,s_k)\) 存起来,并在下一轮检索高质量历史方案与反思,作为 Planner 的上下文。
最终输出不是简单使用最后一轮答案,而是在最后 \(L\) 轮中选择得分最高的 \(T^*=\arg\max s_k\)。系统还设置早停:如果连续三轮分数都超过阈值 \(\tau\),则提前停止,减少不必要开销。论文默认最大 10 轮、输出窗口 \(L=3\)、Top-N memory 为 3。
关键设计¶
-
Planner 的反馈条件生成:
- 功能:根据病例和历史反馈生成下一版治疗方案。
- 核心思路:Planner 不是只看当前病例,而是读取 Memorizer 中上一轮或高分历史方案的治疗文本、评估理由和分数。形式化为 \((T_k,c_k)=f_{\theta}(P,\mathcal{M}^{(k-1)})\)。
- 设计动机:治疗计划中最常见的问题是遗漏或安全边界不清。把评估理由显式放回 prompt,可以让下一轮生成集中修补具体缺陷,而不是泛泛“写得更好”。
-
TheraJudge 的临床多维评估:
- 功能:为每个候选方案提供可用于迭代优化的结构化反馈。
- 核心思路:TheraJudge 输出 rationale、分维度得分和总分。它可以使用 RAG 检索 600 多份临床指南/文献,也可以使用每个科室 3 个 few-shot 专家样例稳定评分,并按 Scientific Consensus Compliance、Plan Completeness、Situation Targeting、Rationale-Measure Coherence、Harm Control 等维度评价方案。
- 设计动机:普通 LLM judge 容易只看文本流畅度或表面医学词汇。治疗计划需要的是可解释、可追责、能指出具体风险的 clinical critic,因此评估维度必须贴近真实医生判断。
-
Score-aware Memorizer 与最终选择:
- 功能:在多轮生成中保留有用经验,同时避免把低质量历史全部塞回上下文。
- 核心思路:Memorizer 将每轮方案、评估理由和分数保存为 \(M_i=(T_i,R_i,s_i)\),下一轮选择得分最高的 Top-N 记忆进行 in-context refinement。最终输出从最后若干轮中按 TheraJudge 分数挑选,而不是机械取最后一轮。
- 设计动机:自改进 agent 容易在后期漂移或被低质量反思带偏。score-aware retrieval 和 final-window argmax 同时控制了上下文质量和晚期波动。
损失函数 / 训练策略¶
本文主要是推理时优化,没有端到端训练损失。HealthBench 实验中,Planner 和 TheraJudge 都使用 DeepSeek-R1 作为 backbone;TheraAgent 设置 Top-N=3、最大 10 轮、早停阈值 \(\tau=98\)、最后窗口 \(L=3\)。为了避免地区性指南对 HealthBench 的通用评估造成偏差,HealthBench 上禁用 RAG;在真实病例分析中则考察 RAG 对临床共识对齐的作用。
实验关键数据¶
主实验¶
作者从 HealthBench 中筛选治疗规划相关样本,共 1,241 个病例,覆盖内分泌 265、消化 262、神经 395、呼吸 319 个病例。下面摘取主表中代表性强模型和 TheraAgent 的结果。
| 模型 | Overall ↑ | Global Health ↑ | Hedging ↑ | Context Seeking ↑ | Communication ↑ | Accuracy ↑ | Completeness ↑ | Context Awareness ↑ |
|---|---|---|---|---|---|---|---|---|
| DeepSeek-R1 | 42.94 | 39.53 | 48.85 | 39.02 | 48.16 | 41.89 | 47.29 | 31.97 |
| Gemini-2.5-Pro | 43.49 | 34.42 | 44.48 | 38.85 | 51.46 | 41.32 | 39.49 | 34.08 |
| Claude-4-Sonnet | 44.28 | 35.10 | 46.50 | 40.91 | 50.64 | 40.63 | 40.86 | 36.26 |
| TheraAgent | 48.94 | 47.49 | 55.63 | 44.65 | 55.29 | 44.80 | 51.72 | 37.16 |
TheraAgent 的 Overall 比第二名 Claude-4-Sonnet 高 4.66 分。维度上,它在 Accuracy 比第二名高 2.91 分,在 Completeness 比第二名高 4.43 分,说明迭代反馈最明显地减少了医学信息错误和治疗方案遗漏。
消融实验¶
作者从多个角度验证反馈器和记忆机制确实有用。HealthBench 上的 TheraJudge 组件消融显示,few-shot 和维度化评分比单纯 RAG 更关键;Memory 消融显示,选择“最高分三条记忆”优于使用所有记忆或最近记忆。
| 配置 | HealthBench Score ↑ | 说明 |
|---|---|---|
| Base Model w/o Judge | 41.15 | 没有 judge 的非迭代基线 |
| Vanilla Judge | 48.50 | 普通评估器已带来明显提升 |
| Dimensions only | 48.66 | 维度化打分能提供更具体反馈 |
| Few-shots only | 50.62 | 专家样例最能稳定评分行为 |
| RAG only | 45.98 | 在 HealthBench 上单独使用 RAG 收益较小 |
| Dimensions + Few-shots | 52.36 | 最优组合,兼顾结构化维度与评分稳定性 |
| Dimensions + Few-shots + RAG | 45.96 | 在该评测中引入 RAG 反而下降,可能受地区性指南差异影响 |
| Memory 配置 | HealthBench Score ↑ | 解读 |
|---|---|---|
| w/o Memory | 0.4115 | 退化为缺少历史经验的流程 |
| all Memory | 0.4859 | 所有历史都放入上下文有帮助但噪声较多 |
| nearest three Memory | 0.5002 | 使用近邻记忆继续提升 |
| best three Memory | 0.5236 | 按得分取前三条最有效,说明质量筛选很重要 |
关键发现¶
- 医生盲评的真实病例实验包含 35 个 physician-authored cases。三方排序中,TheraAgent 被选为最优的比例为 65.7%,高于 DeepSeek-R1 的 25.7% 和医生原始方案的 8.6%。
- 与医生方案的 pairwise 比较中,TheraAgent 总体胜率达到 86%,尤其在 Targeting、Completeness 和 Harm Control 上表现突出。论文解释说,真实医生记录常因工作流压缩而省略显式阈值和监测细节,而 TheraAgent 会把隐含临床逻辑展开。
- TheraJudge 与 HealthBench 的相关性明显高于传统文本指标。其 Spearman 为 0.6669、Pearson 为 0.7052、CCC 为 0.6467;BLEU/ROUGE/BERTScore 与 HealthBench 的相关性都很弱。
- 成本是显著代价。DeepSeek-R1 单次调用平均 1,358 tokens、30.6 秒;TheraAgent 3 轮需要 6 次调用、13,445 tokens、332.6 秒,相对成本 9.9 倍;10 轮达到 20 次调用、87,005 tokens、753.5 秒,相对成本 64.1 倍。
亮点与洞察¶
- 论文抓住了医疗场景的本质:治疗规划不是“回答正确医学知识点”,而是多约束、多目标、开放空间的安全决策草案生成。
- TheraJudge 的价值不只是评估最终结果,而是把评估变成可用于下一轮生成的优化信号。这比只在末尾打分的 LLM-as-judge 更像 agent 内部控制器。
- score-aware memory 是一个实用细节。自反思系统常见问题是“把所有历史都当经验”,但医疗计划里低分方案的错误如果重复进入上下文,可能造成错误强化。
- 真实病例中医生方案输给 TheraAgent 这个结果要谨慎解读:它更多说明医生记录常是精简工作文档,而不是医生临床能力差。论文也把 TheraAgent 定位为结构化草案和安全提醒,而非替代医生。
局限与展望¶
- 推理成本很高,尤其是 10 轮版本。高风险治疗规划可以接受较高成本,但急诊、实时分诊或低资源医院未必适用。
- 主要验证依赖 DeepSeek-R1、GPT-4o、OpenAI-o4-mini 等强模型;在更小模型、私有医院模型或本地部署模型上的收益还需要系统评估。
- 目前输入主要是文本病例,尚未直接纳入检验时间序列、影像、生命体征监控和结构化电子病历。真实治疗规划往往需要多模态临床数据。
- TheraJudge 仍可能产生错误评价。即使与 HealthBench 相关性较高,也不能把它视为临床金标准;真实部署必须有医生审核和本地指南适配。
相关工作与启发¶
- vs MedPlan: MedPlan 更像基于临床工作流的分阶段/RAG 系统,TheraAgent 的重点是多轮自改进和 internal judge 反馈。
- vs TxAgent: TxAgent 强调治疗推理和工具生态,TheraAgent 则强调治疗方案文本的迭代评估、记忆和重写。
- vs 通用 self-reflection agent: 普通反思 agent 常用自由文本自评,TheraAgent 把反思约束到临床维度、指南证据和专家样例,更适合安全敏感领域。
- 对后续研究的启发: 医疗 agent 不应只追求更长 chain-of-thought,而应把评估维度、反思记忆和风险控制做成可审计模块,并明确什么时候必须交给医生。
评分¶
- 新颖性: ⭐⭐⭐⭐☆ 将 self-improving agent 系统化用于治疗计划生成,TheraJudge+Memory 的组合很实用。
- 实验充分度: ⭐⭐⭐⭐☆ HealthBench、真实病例医生盲评、judge agreement、成本和组件消融都覆盖到,但多模态临床输入缺失。
- 写作质量: ⭐⭐⭐⭐☆ 任务动机清楚,框架图和案例分析有说服力,部分表格在 HTML 中排版较拥挤但信息量足。
- 价值: ⭐⭐⭐⭐⭐ 对医疗 LLM agent 的安全部署很有参考价值,尤其是把临床评估器纳入推理环路这一点。