Zero-Shot Large Language Model Agents for Fully Automated Radiotherapy Treatment Planning¶

会议: NeurIPS 2025
arXiv: 2510.11754
代码: 无
领域: LLM Agent / Medical AI
关键词: LLM Agent、放射治疗计划、零样本推理、IMRT、逆向优化

一句话总结¶

提出一种基于 LLM Agent 的零样本 (zero-shot) 放射治疗自动计划工作流，LLM 直接与商业治疗计划系统 (Eclipse TPS) 交互，通过迭代提取剂量-体积直方图 (DVH) 和目标函数损失并推理约束调整策略，在 20 例头颈癌 IMRT 病例上实现了与临床手动计划相当甚至更优的剂量分布质量。

研究背景与动机¶

领域现状：放射治疗是现代癌症管理的核心手段，全球约 50-70% 的癌症患者需要至少一个疗程的放射治疗，每年涉及数百万新病例。IMRT（调强放射治疗）和 VMAT（容积弧形调强治疗）中的手动计划制定极其耗时，且存在显著的计划者间变异性——即使在同一机构内，不同计划者对靶区覆盖和器官风险 (OAR) 保护的方案差异也很大。

现有痛点：当前自动化规划方法分为四大范式：(i) 知识驱动规划 (KBP)——需要大量高质量标注数据；(ii) 协议驱动规划——缺乏对复杂/非典型解剖结构的灵活性；(iii) 多准则优化 (MCO)——需要大量计划者参与和专业知识；(iv) 强化学习 (RL)——计算密集且需要专家设计的奖励函数。所有现有方法都难以实现通用的临床部署。

核心矛盾：放射治疗计划是一个高度专业化的领域，公开训练数据极为稀缺，这使得依赖大规模训练数据的方法天然受限。同时全球放射治疗人力短缺严重（英国剂量师招聘困难、美国医学物理师持续短缺、欧洲放疗部门普遍人员不足），亟需不依赖于机构特定数据的通用自动化方案。

本文目标 设计一种基于 LLM Agent 的零样本放射治疗计划工作流，使 LLM 在无需任何先前治疗计划训练或微调的情况下，通过与商业 TPS 的直接交互，自动完成 IMRT 逆向计划优化。

切入角度：利用 LLM 的通用推理能力，将复杂的治疗计划任务分解为领域无关的子任务（算术计算、趋势推理、约束调整），并通过 Chain-of-Thought 提示引导多步决策。

核心 idea：将 LLM Agent 嵌入临床 TPS，模拟人类计划师"观察 DVH → 分析偏差 → 调整约束"的迭代工作流，无需任何标注数据即可生成高质量 IMRT 计划。

方法详解¶

整体框架¶

工作流包含两个关键组件：(1) LLM Agent 通过 Eclipse Scripting API (ESAPI) 与商业 TPS 直接交互，提取中间规划状态（DVH 指标、目标函数值）并修改逆向规划约束；(2) LLM 利用当前计划状态和历史迭代信息，应用通用推理能力提出临床有意义的约束修改。整个流程模拟人类计划师的手动工作流：观察关键剂量端点 → 分析目标函数反馈 → 推理并提出约束调整。

关键设计¶

TPS 直接集成模块：
- 功能：通过 ESAPI 将 LLM Agent 直接嵌入 Eclipse TPS（版本 15.6），实现对治疗规划环境的程序化访问。Agent 可以检索中间规划状态（DVH 指标、目标函数值）并修改逆向规划约束，方式与人类计划师完全一致。
- 核心思路：不使用替代优化引擎或近似规划平台，而是在原生 TPS 环境中进行所有交互，保证与临床工作流的一致性。
- 设计动机：先前工作 (Liu et al. 2025) 依赖自研平台，限制了临床推广。直接集成商业 TPS 确保了可移植性和临床可用性，因为 Eclipse 是全球最广泛使用的 TPS 之一。
算术工具与历史追踪模块：
- 功能：开发专用算术工具计算当前剂量端点、临床目标和优化约束之间的数值偏差。同时将所有历史迭代的约束、剂量结果和偏差编译成结构化数据供 LLM 进行趋势推理。
- 核心思路：LLM 本身在精确数值计算上不够可靠，因此外挂工具处理算术任务，让 LLM 专注于其擅长的推理和决策。历史数据的累积使 Agent 能够识别趋势（如"降低某器官约束后剂量不再下降但损失急剧增加"说明进一步优化受限）。
- 设计动机：治疗计划需要三种核心能力——(1) 算术能力量化偏差、(2) 对优化系统的领域理解、(3) 推理能力解读趋势并提出调整。LLM 天然具备第 (3) 项，但需要外部支持才能完成 (1) 和 (2)。
优化先验注入与 Chain-of-Thought 推理：
- 功能：通过 prompt 向 LLM 注入逆向规划的领域信息——包括目标函数损失的含义和尺度、约束偏差与改善空间的关系、优化约束的数值范围、可调参数及其对剂量分布的方向性影响。同时使用 Chain-of-Thought 提示要求 LLM 在提出新约束值之前显式阐述推理过程。
- 核心思路：Eclipse 优化引擎使用二次损失函数，有效优化通常需要将目标设置低于期望剂量以创造"驱动力"——这种"隐藏规则"对 LLM 至关重要但并非先验知识。Chain-of-Thought 推理使 Agent 能模仿人类计划师的逻辑过程：考虑临床权衡 → 在上下文中评估约束违规 → 基于历史趋势优先排序调整。
- 设计动机：消融实验证明移除优化先验会导致计划质量显著恶化（OAR 剂量普遍升高），说明领域知识的结构化注入是 LLM 能够成功执行治疗计划的关键前提。
迭代优化策略：
- 功能：Agent 采用"大步探索 → 小步微调"的迭代策略。早期使用较大的约束调整步长探测各器官的剂量保护潜力，后期用较小步长精细调整避免过度保护。
- 核心思路：对于有数值约束的器官（如腮腺中位剂量 16 Gy），Agent 从临床目标附近初始化以加速收敛；对于范围约束（如 25-30 Gy），选择边界值开始；对于无明确数值约束的器官（如咽部"尽量降低"），Agent 自主选择合理起点（如 45 Gy）。当观察到剂量停滞但损失急增时，Agent 会主动放松约束以保护靶区覆盖。
- 设计动机：模拟经验丰富的剂量师的实际操作模式——先"试探"每个器官的优化空间，再精细权衡。整个过程在几步优化内即可完成，总耗时不到 5 分钟。

损失函数 / 训练策略¶

本文的 LLM Agent 不涉及任何训练或微调。Eclipse TPS 内部使用加权二次惩罚目标函数（weighted sum of quadratic penalties），对每个结构和目标的约束违规施加惩罚。LLM Agent 通过观察该目标函数损失值及其变化趋势来指导约束调整决策，但不直接修改目标函数本身。

实验关键数据¶

主实验：LLM 计划 vs. 临床手动计划（20 例头颈癌 IMRT）¶

指标	临床计划	GPT-4.1-WP	GPT-4.1-mini-WP	GPT-4.1-WOP	GPT-4.1-mini-WOP
Plan D_max (Gy)	76.22±1.44	74.53±1.48	74.19±1.07	74.17±1.20	73.87±0.93
脑干 D_max (Gy)	22.13±6.65	24.56±7.21	24.21±6.63	27.57±7.27	28.08±7.26
脊髓+5mm D_max (Gy)	44.91±2.82	44.46±3.47	44.58±3.97	48.87±3.03	49.59±3.06
下颌骨 D_max (Gy)	72.06±6.94	70.86±6.94	71.17±6.96	71.66±6.69	71.62±6.42
左腮腺 D50 (Gy)	22.66±11.22	19.21±3.09	21.93±5.71	23.18±3.97	22.99±3.92
右腮腺 D50 (Gy)	22.52±10.17	20.47±3.64	20.70±5.42	24.94±3.75	25.42±5.97
口腔 D50 (Gy)	36.14±12.44	34.95±10.98	33.26±11.45	38.48±9.09	39.41±9.88
喉部 D50 (Gy)	33.16±14.42	29.43±8.02	31.29±9.96	36.24±9.36	37.83±11.49
咽部 D50 (Gy)	47.54±11.50	39.85±9.62	44.37±9.04	49.18±7.20	49.43±8.34
PTV_primary CI	1.88±0.29	1.82±0.17	1.83±0.17	1.92±0.19	1.93±0.17
PTV_boost CI	1.39±0.19	1.18±0.10	1.17±0.09	1.17±0.09	1.16±0.09
PTV_boost HI	0.061±0.021	0.062±0.021	0.058±0.013	0.059±0.020	0.055±0.019

消融实验：优化先验的影响¶

对比条件	关键观察
GPT-4.1 有先验 (WP) vs. 无先验 (WOP)	无先验时 OAR 剂量普遍升高：脑干 +3.01 Gy、脊髓 +4.41 Gy、腮腺 +3-4 Gy、喉部 +6.81 Gy、咽部 +9.33 Gy
GPT-4.1-mini WP vs. WOP	同样观察到无先验时 OAR 保护显著恶化，尽管 CI/HI 可能略有改善，但这来源于 OAR 保护不足的不利权衡
GPT-4.1 WP vs. GPT-4.1-mini WP	GPT-4.1 在多数指标上数值更优，体现更强的推理能力和规划效率
LLM 计划 vs. 临床计划一致性	LLM 计划的四分位距更短（尤其是靶区适形指数和腮腺剂量），变异性更小

关键发现¶

热点控制更优：GPT-4.1-WP 的 Plan D_max 为 74.53 Gy（106.5% 处方剂量）vs. 临床计划 76.22 Gy（108.8%），改善显著
适形性更优：PTV_boost CI 1.18 vs. 1.39（临床），PTV_primary CI 1.82 vs. 1.88（临床）
OAR 保护可比或更优：尤其在腮腺（左 19.21 vs. 22.66 Gy; 右 20.47 vs. 22.52 Gy）和咽部（39.85 vs. 47.54 Gy）上显著改善
优化先验是必要条件：移除先验后所有 OAR 剂量均恶化，证明领域知识注入是成功的关键
规划效率极高：单例规划在 Intel Xeon CPU + 32 GB RAM 上不到 5 分钟完成，显著快于手动规划

亮点与洞察¶

零样本在专业领域的可行性：首次证明 LLM 可以在无需任何先前治疗计划数据的情况下，完全自主地在商业 TPS 中生成临床可接受的 IMRT 计划。这对数据稀缺的专业领域意义重大。
Agent 设计简明有效：不涉及复杂的多 Agent 架构或 RAG，仅通过"算术工具 + 领域先验 prompt + CoT 推理 + 历史追踪"的简洁组合即可驱动高质量决策。
可解释的推理链：Agent 在每步优化中显式阐述推理过程（如"前几步显示进一步降低约束只增加损失而剂量不再下降，说明进一步保护困难可能损害 PTV 覆盖"），增强了临床可信度。
一致性优势：LLM 计划在多例患者间的变异性更小，这对于临床质量控制尤为重要。

局限与展望¶

病种局限：仅在头颈癌 IMRT 上验证，未涉及肺癌、宫颈癌、前列腺癌等其他常见病种，也未测试 VMAT 等其他规划模式。
样本量较小：仅 20 例患者，统计功效有限，且所有患者为同一处方方案（70 Gy + 44 Gy）。
API 成本与依赖：依赖 GPT-4.1 API 调用，每例患者的多轮迭代产生的成本和延迟未被量化。对闭源 LLM 的依赖也限制了可重复性。
单机构数据：所有病例来自 Duke University 单一机构，未验证跨机构的泛化性（不同机构的临床约束习惯和医生偏好可能差异显著）。
缺乏与 RL/KBP 基线的对比：仅与临床手动计划对比，未与已有的自动化方法（强化学习、知识驱动规划）进行直接比较。
优化先验的机构特异性：prompt 中注入的优化先验（如 Eclipse 二次损失函数的特性）具有 TPS 特异性，迁移到其他 TPS（如 Pinnacle、RayStation）需要重新编写先验。

评分¶

新颖性: ⭐⭐⭐⭐ — 首次实现零样本 LLM 在商业 TPS 中的全自动治疗计划，消除对标注数据的依赖是重要突破。
实验充分度: ⭐⭐⭐ — 20 例样本、单一病种、单一机构的验证规模偏小；消融实验设计合理但缺乏与 RL/KBP 的直接对比。
写作质量: ⭐⭐⭐⭐ — 方法描述清晰详细，案例分析中 Agent 推理链的展示增强了可读性和可信度。
价值: ⭐⭐⭐⭐ — 对放射治疗自动化领域有直接实用价值，零样本特性解决了数据稀缺和跨机构部署的痛点，具有较好的转化潜力。