TheraAgent: Self-Improving Therapeutic Agent for Precise and Comprehensive Treatment Planning¶

会议: ACL 2026
arXiv: 2605.05963
代码: 无
领域: LLM Agent / 医疗 AI / 治疗方案生成
关键词: 自改进 agent、治疗计划、TheraJudge、临床安全、推理时迭代

一句话总结¶

TheraAgent 把治疗方案生成从一次性回答改造成 generate-reflect-refine 的自改进 agent 流程，用临床维度化评估器 TheraJudge 和 score-aware memory 不断修正方案，在 HealthBench 治疗规划子集和医生盲评中显著超过强基线。

研究背景与动机¶

领域现状：LLM 已经能完成医学问答、诊断辅助和临床文本生成，但治疗计划生成比单步问答更复杂。它需要同时选择药物、剂量、适应证、禁忌证、监测指标、随访方案和风险控制。

现有痛点：通用 LLM 或医学微调模型往往采用 one-shot generation。一次性输出容易粗糙、不完整，甚至出现安全风险，例如遗漏剂量、忽略禁忌证、没有说明何时停药或何时升级治疗。

核心矛盾：真实医生制定治疗计划通常会反复核对诊断、指南、患者条件和潜在伤害，而多数 LLM 只是给出一个看似流畅的文本答案。治疗计划质量不是单一 accuracy，而是多个临床维度的组合优化。

本文目标：作者希望构建一个可在推理时自我改进的 therapeutic agent，让模型先生成初稿，再由临床评估器指出问题，最后带着反馈继续改写，逐步得到更精确、更完整、更安全的治疗方案。

切入角度：论文把治疗计划质量形式化为 \(Q(T\mid P)=\sum_i q_i(T\mid P)\)，其中每个 \(q_i\) 对应 Accuracy、Targeting、Completeness、Harm Control 等维度。这为后续的多维反馈和记忆检索提供了目标函数。

核心 idea：用一个临床对齐的 internal critic 作为推理环路中的反馈源，把“写治疗方案”变成“生成、评价、记忆、再生成”的 test-time optimization。

方法详解¶

TheraAgent 的核心不是训练一个新医学模型，而是设计一个 agentic workflow。底座模型可以是 DeepSeek-R1 等强推理模型；外层系统负责组织 Planner、TheraJudge 和 Memorizer，让模型在多轮推理中吸收之前方案的错误和得分。

整体框架¶

输入患者病例 \(P=(d,s,y)\)，其中 \(d\) 是基本临床信息，\(s\) 是症状和检查结果，\(y\) 是已确认诊断。目标是生成治疗方案 \(T\) 和显式推理过程 \(c\)。与封闭式分类不同，治疗方案处在开放组合空间里，因此必须同时满足准确性、完整性、个体化、共识一致性和伤害控制。

在第 \(k\) 次迭代中，Planner 根据病例 \(P\) 和上一轮记忆 \(\mathcal{M}^{(k-1)}\) 生成候选方案 \(T_k\) 与推理 \(c_k\)。随后 TheraJudge 评估该方案，输出评估理由 \(R_k\)、各临床维度得分 \(\{q_{k,i}\}\) 和总分 \(s_k\)。Memorizer 把 \((T_k,R_k,s_k)\) 存起来，并在下一轮检索高质量历史方案与反思，作为 Planner 的上下文。

最终输出不是简单使用最后一轮答案，而是在最后 \(L\) 轮中选择得分最高的 \(T^*=\arg\max s_k\)。系统还设置早停：如果连续三轮分数都超过阈值 \(\tau\)，则提前停止，减少不必要开销。论文默认最大 10 轮、输出窗口 \(L=3\)、Top-N memory 为 3。

关键设计¶

Planner 的反馈条件生成:
- 功能：根据病例和历史反馈生成下一版治疗方案。
- 核心思路：Planner 不是只看当前病例，而是读取 Memorizer 中上一轮或高分历史方案的治疗文本、评估理由和分数。形式化为 \((T_k,c_k)=f_{\theta}(P,\mathcal{M}^{(k-1)})\)。
- 设计动机：治疗计划中最常见的问题是遗漏或安全边界不清。把评估理由显式放回 prompt，可以让下一轮生成集中修补具体缺陷，而不是泛泛“写得更好”。
TheraJudge 的临床多维评估:
- 功能：为每个候选方案提供可用于迭代优化的结构化反馈。
- 核心思路：TheraJudge 输出 rationale、分维度得分和总分。它可以使用 RAG 检索 600 多份临床指南/文献，也可以使用每个科室 3 个 few-shot 专家样例稳定评分，并按 Scientific Consensus Compliance、Plan Completeness、Situation Targeting、Rationale-Measure Coherence、Harm Control 等维度评价方案。
- 设计动机：普通 LLM judge 容易只看文本流畅度或表面医学词汇。治疗计划需要的是可解释、可追责、能指出具体风险的 clinical critic，因此评估维度必须贴近真实医生判断。
Score-aware Memorizer 与最终选择:
- 功能：在多轮生成中保留有用经验，同时避免把低质量历史全部塞回上下文。
- 核心思路：Memorizer 将每轮方案、评估理由和分数保存为 \(M_i=(T_i,R_i,s_i)\)，下一轮选择得分最高的 Top-N 记忆进行 in-context refinement。最终输出从最后若干轮中按 TheraJudge 分数挑选，而不是机械取最后一轮。
- 设计动机：自改进 agent 容易在后期漂移或被低质量反思带偏。score-aware retrieval 和 final-window argmax 同时控制了上下文质量和晚期波动。

损失函数 / 训练策略¶

本文主要是推理时优化，没有端到端训练损失。HealthBench 实验中，Planner 和 TheraJudge 都使用 DeepSeek-R1 作为 backbone；TheraAgent 设置 Top-N=3、最大 10 轮、早停阈值 \(\tau=98\)、最后窗口 \(L=3\)。为了避免地区性指南对 HealthBench 的通用评估造成偏差，HealthBench 上禁用 RAG；在真实病例分析中则考察 RAG 对临床共识对齐的作用。

实验关键数据¶

主实验¶

作者从 HealthBench 中筛选治疗规划相关样本，共 1,241 个病例，覆盖内分泌 265、消化 262、神经 395、呼吸 319 个病例。下面摘取主表中代表性强模型和 TheraAgent 的结果。

模型	Overall ↑	Global Health ↑	Hedging ↑	Context Seeking ↑	Communication ↑	Accuracy ↑	Completeness ↑	Context Awareness ↑
DeepSeek-R1	42.94	39.53	48.85	39.02	48.16	41.89	47.29	31.97
Gemini-2.5-Pro	43.49	34.42	44.48	38.85	51.46	41.32	39.49	34.08
Claude-4-Sonnet	44.28	35.10	46.50	40.91	50.64	40.63	40.86	36.26
TheraAgent	48.94	47.49	55.63	44.65	55.29	44.80	51.72	37.16

TheraAgent 的 Overall 比第二名 Claude-4-Sonnet 高 4.66 分。维度上，它在 Accuracy 比第二名高 2.91 分，在 Completeness 比第二名高 4.43 分，说明迭代反馈最明显地减少了医学信息错误和治疗方案遗漏。

消融实验¶

作者从多个角度验证反馈器和记忆机制确实有用。HealthBench 上的 TheraJudge 组件消融显示，few-shot 和维度化评分比单纯 RAG 更关键；Memory 消融显示，选择“最高分三条记忆”优于使用所有记忆或最近记忆。

配置	HealthBench Score ↑	说明
Base Model w/o Judge	41.15	没有 judge 的非迭代基线
Vanilla Judge	48.50	普通评估器已带来明显提升
Dimensions only	48.66	维度化打分能提供更具体反馈
Few-shots only	50.62	专家样例最能稳定评分行为
RAG only	45.98	在 HealthBench 上单独使用 RAG 收益较小
Dimensions + Few-shots	52.36	最优组合，兼顾结构化维度与评分稳定性
Dimensions + Few-shots + RAG	45.96	在该评测中引入 RAG 反而下降，可能受地区性指南差异影响

Memory 配置	HealthBench Score ↑	解读
w/o Memory	0.4115	退化为缺少历史经验的流程
all Memory	0.4859	所有历史都放入上下文有帮助但噪声较多
nearest three Memory	0.5002	使用近邻记忆继续提升
best three Memory	0.5236	按得分取前三条最有效，说明质量筛选很重要

关键发现¶

医生盲评的真实病例实验包含 35 个 physician-authored cases。三方排序中，TheraAgent 被选为最优的比例为 65.7%，高于 DeepSeek-R1 的 25.7% 和医生原始方案的 8.6%。
与医生方案的 pairwise 比较中，TheraAgent 总体胜率达到 86%，尤其在 Targeting、Completeness 和 Harm Control 上表现突出。论文解释说，真实医生记录常因工作流压缩而省略显式阈值和监测细节，而 TheraAgent 会把隐含临床逻辑展开。
TheraJudge 与 HealthBench 的相关性明显高于传统文本指标。其 Spearman 为 0.6669、Pearson 为 0.7052、CCC 为 0.6467；BLEU/ROUGE/BERTScore 与 HealthBench 的相关性都很弱。
成本是显著代价。DeepSeek-R1 单次调用平均 1,358 tokens、30.6 秒；TheraAgent 3 轮需要 6 次调用、13,445 tokens、332.6 秒，相对成本 9.9 倍；10 轮达到 20 次调用、87,005 tokens、753.5 秒，相对成本 64.1 倍。

亮点与洞察¶

论文抓住了医疗场景的本质：治疗规划不是“回答正确医学知识点”，而是多约束、多目标、开放空间的安全决策草案生成。
TheraJudge 的价值不只是评估最终结果，而是把评估变成可用于下一轮生成的优化信号。这比只在末尾打分的 LLM-as-judge 更像 agent 内部控制器。
score-aware memory 是一个实用细节。自反思系统常见问题是“把所有历史都当经验”，但医疗计划里低分方案的错误如果重复进入上下文，可能造成错误强化。
真实病例中医生方案输给 TheraAgent 这个结果要谨慎解读：它更多说明医生记录常是精简工作文档，而不是医生临床能力差。论文也把 TheraAgent 定位为结构化草案和安全提醒，而非替代医生。

局限与展望¶

推理成本很高，尤其是 10 轮版本。高风险治疗规划可以接受较高成本，但急诊、实时分诊或低资源医院未必适用。
主要验证依赖 DeepSeek-R1、GPT-4o、OpenAI-o4-mini 等强模型；在更小模型、私有医院模型或本地部署模型上的收益还需要系统评估。
目前输入主要是文本病例，尚未直接纳入检验时间序列、影像、生命体征监控和结构化电子病历。真实治疗规划往往需要多模态临床数据。
TheraJudge 仍可能产生错误评价。即使与 HealthBench 相关性较高，也不能把它视为临床金标准；真实部署必须有医生审核和本地指南适配。

评分¶

新颖性: ⭐⭐⭐⭐☆ 将 self-improving agent 系统化用于治疗计划生成，TheraJudge+Memory 的组合很实用。
实验充分度: ⭐⭐⭐⭐☆ HealthBench、真实病例医生盲评、judge agreement、成本和组件消融都覆盖到，但多模态临床输入缺失。
写作质量: ⭐⭐⭐⭐☆ 任务动机清楚，框架图和案例分析有说服力，部分表格在 HTML 中排版较拥挤但信息量足。
价值: ⭐⭐⭐⭐⭐ 对医疗 LLM agent 的安全部署很有参考价值，尤其是把临床评估器纳入推理环路这一点。