Zero-Shot Large Language Model Agents for Fully Automated Radiotherapy Treatment Planning¶
会议: NeurIPS 2025
arXiv: 2510.11754
代码: 无
领域: LLM Agent / Medical AI
关键词: LLM Agent、放射治疗计划、零样本推理、IMRT、逆向优化
一句话总结¶
提出一种基于 LLM Agent 的零样本 (zero-shot) 放射治疗自动计划工作流,LLM 直接与商业治疗计划系统 (Eclipse TPS) 交互,通过迭代提取剂量-体积直方图 (DVH) 和目标函数损失并推理约束调整策略,在 20 例头颈癌 IMRT 病例上实现了与临床手动计划相当甚至更优的剂量分布质量。
研究背景与动机¶
领域现状:放射治疗是现代癌症管理的核心手段,全球约 50-70% 的癌症患者需要至少一个疗程的放射治疗,每年涉及数百万新病例。IMRT(调强放射治疗)和 VMAT(容积弧形调强治疗)中的手动计划制定极其耗时,且存在显著的计划者间变异性——即使在同一机构内,不同计划者对靶区覆盖和器官风险 (OAR) 保护的方案差异也很大。
现有痛点:当前自动化规划方法分为四大范式:(i) 知识驱动规划 (KBP)——需要大量高质量标注数据;(ii) 协议驱动规划——缺乏对复杂/非典型解剖结构的灵活性;(iii) 多准则优化 (MCO)——需要大量计划者参与和专业知识;(iv) 强化学习 (RL)——计算密集且需要专家设计的奖励函数。所有现有方法都难以实现通用的临床部署。
核心矛盾:放射治疗计划是一个高度专业化的领域,公开训练数据极为稀缺,这使得依赖大规模训练数据的方法天然受限。同时全球放射治疗人力短缺严重(英国剂量师招聘困难、美国医学物理师持续短缺、欧洲放疗部门普遍人员不足),亟需不依赖于机构特定数据的通用自动化方案。
本文目标 设计一种基于 LLM Agent 的零样本放射治疗计划工作流,使 LLM 在无需任何先前治疗计划训练或微调的情况下,通过与商业 TPS 的直接交互,自动完成 IMRT 逆向计划优化。
切入角度:利用 LLM 的通用推理能力,将复杂的治疗计划任务分解为领域无关的子任务(算术计算、趋势推理、约束调整),并通过 Chain-of-Thought 提示引导多步决策。
核心 idea:将 LLM Agent 嵌入临床 TPS,模拟人类计划师"观察 DVH → 分析偏差 → 调整约束"的迭代工作流,无需任何标注数据即可生成高质量 IMRT 计划。
方法详解¶
整体框架¶
工作流包含两个关键组件:(1) LLM Agent 通过 Eclipse Scripting API (ESAPI) 与商业 TPS 直接交互,提取中间规划状态(DVH 指标、目标函数值)并修改逆向规划约束;(2) LLM 利用当前计划状态和历史迭代信息,应用通用推理能力提出临床有意义的约束修改。整个流程模拟人类计划师的手动工作流:观察关键剂量端点 → 分析目标函数反馈 → 推理并提出约束调整。
关键设计¶
-
TPS 直接集成模块:
- 功能:通过 ESAPI 将 LLM Agent 直接嵌入 Eclipse TPS(版本 15.6),实现对治疗规划环境的程序化访问。Agent 可以检索中间规划状态(DVH 指标、目标函数值)并修改逆向规划约束,方式与人类计划师完全一致。
- 核心思路:不使用替代优化引擎或近似规划平台,而是在原生 TPS 环境中进行所有交互,保证与临床工作流的一致性。
- 设计动机:先前工作 (Liu et al. 2025) 依赖自研平台,限制了临床推广。直接集成商业 TPS 确保了可移植性和临床可用性,因为 Eclipse 是全球最广泛使用的 TPS 之一。
-
算术工具与历史追踪模块:
- 功能:开发专用算术工具计算当前剂量端点、临床目标和优化约束之间的数值偏差。同时将所有历史迭代的约束、剂量结果和偏差编译成结构化数据供 LLM 进行趋势推理。
- 核心思路:LLM 本身在精确数值计算上不够可靠,因此外挂工具处理算术任务,让 LLM 专注于其擅长的推理和决策。历史数据的累积使 Agent 能够识别趋势(如"降低某器官约束后剂量不再下降但损失急剧增加"说明进一步优化受限)。
- 设计动机:治疗计划需要三种核心能力——(1) 算术能力量化偏差、(2) 对优化系统的领域理解、(3) 推理能力解读趋势并提出调整。LLM 天然具备第 (3) 项,但需要外部支持才能完成 (1) 和 (2)。
-
优化先验注入与 Chain-of-Thought 推理:
- 功能:通过 prompt 向 LLM 注入逆向规划的领域信息——包括目标函数损失的含义和尺度、约束偏差与改善空间的关系、优化约束的数值范围、可调参数及其对剂量分布的方向性影响。同时使用 Chain-of-Thought 提示要求 LLM 在提出新约束值之前显式阐述推理过程。
- 核心思路:Eclipse 优化引擎使用二次损失函数,有效优化通常需要将目标设置低于期望剂量以创造"驱动力"——这种"隐藏规则"对 LLM 至关重要但并非先验知识。Chain-of-Thought 推理使 Agent 能模仿人类计划师的逻辑过程:考虑临床权衡 → 在上下文中评估约束违规 → 基于历史趋势优先排序调整。
- 设计动机:消融实验证明移除优化先验会导致计划质量显著恶化(OAR 剂量普遍升高),说明领域知识的结构化注入是 LLM 能够成功执行治疗计划的关键前提。
-
迭代优化策略:
- 功能:Agent 采用"大步探索 → 小步微调"的迭代策略。早期使用较大的约束调整步长探测各器官的剂量保护潜力,后期用较小步长精细调整避免过度保护。
- 核心思路:对于有数值约束的器官(如腮腺中位剂量 16 Gy),Agent 从临床目标附近初始化以加速收敛;对于范围约束(如 25-30 Gy),选择边界值开始;对于无明确数值约束的器官(如咽部"尽量降低"),Agent 自主选择合理起点(如 45 Gy)。当观察到剂量停滞但损失急增时,Agent 会主动放松约束以保护靶区覆盖。
- 设计动机:模拟经验丰富的剂量师的实际操作模式——先"试探"每个器官的优化空间,再精细权衡。整个过程在几步优化内即可完成,总耗时不到 5 分钟。
损失函数 / 训练策略¶
本文的 LLM Agent 不涉及任何训练或微调。Eclipse TPS 内部使用加权二次惩罚目标函数(weighted sum of quadratic penalties),对每个结构和目标的约束违规施加惩罚。LLM Agent 通过观察该目标函数损失值及其变化趋势来指导约束调整决策,但不直接修改目标函数本身。
实验关键数据¶
主实验:LLM 计划 vs. 临床手动计划(20 例头颈癌 IMRT)¶
| 指标 | 临床计划 | GPT-4.1-WP | GPT-4.1-mini-WP | GPT-4.1-WOP | GPT-4.1-mini-WOP |
|---|---|---|---|---|---|
| Plan D_max (Gy) | 76.22±1.44 | 74.53±1.48 | 74.19±1.07 | 74.17±1.20 | 73.87±0.93 |
| 脑干 D_max (Gy) | 22.13±6.65 | 24.56±7.21 | 24.21±6.63 | 27.57±7.27 | 28.08±7.26 |
| 脊髓+5mm D_max (Gy) | 44.91±2.82 | 44.46±3.47 | 44.58±3.97 | 48.87±3.03 | 49.59±3.06 |
| 下颌骨 D_max (Gy) | 72.06±6.94 | 70.86±6.94 | 71.17±6.96 | 71.66±6.69 | 71.62±6.42 |
| 左腮腺 D50 (Gy) | 22.66±11.22 | 19.21±3.09 | 21.93±5.71 | 23.18±3.97 | 22.99±3.92 |
| 右腮腺 D50 (Gy) | 22.52±10.17 | 20.47±3.64 | 20.70±5.42 | 24.94±3.75 | 25.42±5.97 |
| 口腔 D50 (Gy) | 36.14±12.44 | 34.95±10.98 | 33.26±11.45 | 38.48±9.09 | 39.41±9.88 |
| 喉部 D50 (Gy) | 33.16±14.42 | 29.43±8.02 | 31.29±9.96 | 36.24±9.36 | 37.83±11.49 |
| 咽部 D50 (Gy) | 47.54±11.50 | 39.85±9.62 | 44.37±9.04 | 49.18±7.20 | 49.43±8.34 |
| PTV_primary CI | 1.88±0.29 | 1.82±0.17 | 1.83±0.17 | 1.92±0.19 | 1.93±0.17 |
| PTV_boost CI | 1.39±0.19 | 1.18±0.10 | 1.17±0.09 | 1.17±0.09 | 1.16±0.09 |
| PTV_boost HI | 0.061±0.021 | 0.062±0.021 | 0.058±0.013 | 0.059±0.020 | 0.055±0.019 |
消融实验:优化先验的影响¶
| 对比条件 | 关键观察 |
|---|---|
| GPT-4.1 有先验 (WP) vs. 无先验 (WOP) | 无先验时 OAR 剂量普遍升高:脑干 +3.01 Gy、脊髓 +4.41 Gy、腮腺 +3-4 Gy、喉部 +6.81 Gy、咽部 +9.33 Gy |
| GPT-4.1-mini WP vs. WOP | 同样观察到无先验时 OAR 保护显著恶化,尽管 CI/HI 可能略有改善,但这来源于 OAR 保护不足的不利权衡 |
| GPT-4.1 WP vs. GPT-4.1-mini WP | GPT-4.1 在多数指标上数值更优,体现更强的推理能力和规划效率 |
| LLM 计划 vs. 临床计划一致性 | LLM 计划的四分位距更短(尤其是靶区适形指数和腮腺剂量),变异性更小 |
关键发现¶
- 热点控制更优:GPT-4.1-WP 的 Plan D_max 为 74.53 Gy(106.5% 处方剂量)vs. 临床计划 76.22 Gy(108.8%),改善显著
- 适形性更优:PTV_boost CI 1.18 vs. 1.39(临床),PTV_primary CI 1.82 vs. 1.88(临床)
- OAR 保护可比或更优:尤其在腮腺(左 19.21 vs. 22.66 Gy; 右 20.47 vs. 22.52 Gy)和咽部(39.85 vs. 47.54 Gy)上显著改善
- 优化先验是必要条件:移除先验后所有 OAR 剂量均恶化,证明领域知识注入是成功的关键
- 规划效率极高:单例规划在 Intel Xeon CPU + 32 GB RAM 上不到 5 分钟完成,显著快于手动规划
亮点与洞察¶
- 零样本在专业领域的可行性:首次证明 LLM 可以在无需任何先前治疗计划数据的情况下,完全自主地在商业 TPS 中生成临床可接受的 IMRT 计划。这对数据稀缺的专业领域意义重大。
- Agent 设计简明有效:不涉及复杂的多 Agent 架构或 RAG,仅通过"算术工具 + 领域先验 prompt + CoT 推理 + 历史追踪"的简洁组合即可驱动高质量决策。
- 可解释的推理链:Agent 在每步优化中显式阐述推理过程(如"前几步显示进一步降低约束只增加损失而剂量不再下降,说明进一步保护困难可能损害 PTV 覆盖"),增强了临床可信度。
- 一致性优势:LLM 计划在多例患者间的变异性更小,这对于临床质量控制尤为重要。
局限与展望¶
- 病种局限:仅在头颈癌 IMRT 上验证,未涉及肺癌、宫颈癌、前列腺癌等其他常见病种,也未测试 VMAT 等其他规划模式。
- 样本量较小:仅 20 例患者,统计功效有限,且所有患者为同一处方方案(70 Gy + 44 Gy)。
- API 成本与依赖:依赖 GPT-4.1 API 调用,每例患者的多轮迭代产生的成本和延迟未被量化。对闭源 LLM 的依赖也限制了可重复性。
- 单机构数据:所有病例来自 Duke University 单一机构,未验证跨机构的泛化性(不同机构的临床约束习惯和医生偏好可能差异显著)。
- 缺乏与 RL/KBP 基线的对比:仅与临床手动计划对比,未与已有的自动化方法(强化学习、知识驱动规划)进行直接比较。
- 优化先验的机构特异性:prompt 中注入的优化先验(如 Eclipse 二次损失函数的特性)具有 TPS 特异性,迁移到其他 TPS(如 Pinnacle、RayStation)需要重新编写先验。
相关工作与启发¶
- Wang et al. (2025):提出 few-shot LLM 规划方法用于肺癌和宫颈癌,需要提供先前计划作为参考。本文将其推进为完全零样本,消除了对历史计划的依赖。
- Liu et al. (2025):使用 GPT-4Vision 指导放疗计划,但依赖自研平台。本文直接嵌入商业 TPS,增强了临床可行性。
- RL 方法 (Yang et al. 2024; Shen et al. 2021):通过强化学习训练虚拟计划师迭代调整参数。本文的 LLM Agent 方法无需训练,提供了一种互补的零训练数据路径。
- 启发:"LLM + 领域工具 + 结构化先验"的范式可广泛迁移到其他需要专家迭代决策的领域——如药物配方优化、建筑设计参数调整等。零样本能力意味着新机构可以快速部署,无需积累本地训练数据。
评分¶
- 新颖性: ⭐⭐⭐⭐ — 首次实现零样本 LLM 在商业 TPS 中的全自动治疗计划,消除对标注数据的依赖是重要突破。
- 实验充分度: ⭐⭐⭐ — 20 例样本、单一病种、单一机构的验证规模偏小;消融实验设计合理但缺乏与 RL/KBP 的直接对比。
- 写作质量: ⭐⭐⭐⭐ — 方法描述清晰详细,案例分析中 Agent 推理链的展示增强了可读性和可信度。
- 价值: ⭐⭐⭐⭐ — 对放射治疗自动化领域有直接实用价值,零样本特性解决了数据稀缺和跨机构部署的痛点,具有较好的转化潜力。