跳转至

Zero-Shot Large Language Model Agents for Fully Automated Radiotherapy Treatment Planning

会议: NeurIPS 2025
arXiv: 2510.11754
代码: 无
领域: LLM Agent / Medical AI
关键词: LLM Agent、放射治疗计划、零样本推理、IMRT、逆向优化

一句话总结

提出一种基于 LLM Agent 的零样本 (zero-shot) 放射治疗自动计划工作流,LLM 直接与商业治疗计划系统 (Eclipse TPS) 交互,通过迭代提取剂量-体积直方图 (DVH) 和目标函数损失并推理约束调整策略,在 20 例头颈癌 IMRT 病例上实现了与临床手动计划相当甚至更优的剂量分布质量。

研究背景与动机

领域现状:放射治疗是现代癌症管理的核心手段,全球约 50-70% 的癌症患者需要至少一个疗程的放射治疗,每年涉及数百万新病例。IMRT(调强放射治疗)和 VMAT(容积弧形调强治疗)中的手动计划制定极其耗时,且存在显著的计划者间变异性——即使在同一机构内,不同计划者对靶区覆盖和器官风险 (OAR) 保护的方案差异也很大。

现有痛点:当前自动化规划方法分为四大范式:(i) 知识驱动规划 (KBP)——需要大量高质量标注数据;(ii) 协议驱动规划——缺乏对复杂/非典型解剖结构的灵活性;(iii) 多准则优化 (MCO)——需要大量计划者参与和专业知识;(iv) 强化学习 (RL)——计算密集且需要专家设计的奖励函数。所有现有方法都难以实现通用的临床部署。

核心矛盾:放射治疗计划是一个高度专业化的领域,公开训练数据极为稀缺,这使得依赖大规模训练数据的方法天然受限。同时全球放射治疗人力短缺严重(英国剂量师招聘困难、美国医学物理师持续短缺、欧洲放疗部门普遍人员不足),亟需不依赖于机构特定数据的通用自动化方案。

本文目标 设计一种基于 LLM Agent 的零样本放射治疗计划工作流,使 LLM 在无需任何先前治疗计划训练或微调的情况下,通过与商业 TPS 的直接交互,自动完成 IMRT 逆向计划优化。

切入角度:利用 LLM 的通用推理能力,将复杂的治疗计划任务分解为领域无关的子任务(算术计算、趋势推理、约束调整),并通过 Chain-of-Thought 提示引导多步决策。

核心 idea:将 LLM Agent 嵌入临床 TPS,模拟人类计划师"观察 DVH → 分析偏差 → 调整约束"的迭代工作流,无需任何标注数据即可生成高质量 IMRT 计划。

方法详解

整体框架

工作流包含两个关键组件:(1) LLM Agent 通过 Eclipse Scripting API (ESAPI) 与商业 TPS 直接交互,提取中间规划状态(DVH 指标、目标函数值)并修改逆向规划约束;(2) LLM 利用当前计划状态和历史迭代信息,应用通用推理能力提出临床有意义的约束修改。整个流程模拟人类计划师的手动工作流:观察关键剂量端点 → 分析目标函数反馈 → 推理并提出约束调整。

关键设计

  1. TPS 直接集成模块

    • 功能:通过 ESAPI 将 LLM Agent 直接嵌入 Eclipse TPS(版本 15.6),实现对治疗规划环境的程序化访问。Agent 可以检索中间规划状态(DVH 指标、目标函数值)并修改逆向规划约束,方式与人类计划师完全一致。
    • 核心思路:不使用替代优化引擎或近似规划平台,而是在原生 TPS 环境中进行所有交互,保证与临床工作流的一致性。
    • 设计动机:先前工作 (Liu et al. 2025) 依赖自研平台,限制了临床推广。直接集成商业 TPS 确保了可移植性和临床可用性,因为 Eclipse 是全球最广泛使用的 TPS 之一。
  2. 算术工具与历史追踪模块

    • 功能:开发专用算术工具计算当前剂量端点、临床目标和优化约束之间的数值偏差。同时将所有历史迭代的约束、剂量结果和偏差编译成结构化数据供 LLM 进行趋势推理。
    • 核心思路:LLM 本身在精确数值计算上不够可靠,因此外挂工具处理算术任务,让 LLM 专注于其擅长的推理和决策。历史数据的累积使 Agent 能够识别趋势(如"降低某器官约束后剂量不再下降但损失急剧增加"说明进一步优化受限)。
    • 设计动机:治疗计划需要三种核心能力——(1) 算术能力量化偏差、(2) 对优化系统的领域理解、(3) 推理能力解读趋势并提出调整。LLM 天然具备第 (3) 项,但需要外部支持才能完成 (1) 和 (2)。
  3. 优化先验注入与 Chain-of-Thought 推理

    • 功能:通过 prompt 向 LLM 注入逆向规划的领域信息——包括目标函数损失的含义和尺度、约束偏差与改善空间的关系、优化约束的数值范围、可调参数及其对剂量分布的方向性影响。同时使用 Chain-of-Thought 提示要求 LLM 在提出新约束值之前显式阐述推理过程。
    • 核心思路:Eclipse 优化引擎使用二次损失函数,有效优化通常需要将目标设置低于期望剂量以创造"驱动力"——这种"隐藏规则"对 LLM 至关重要但并非先验知识。Chain-of-Thought 推理使 Agent 能模仿人类计划师的逻辑过程:考虑临床权衡 → 在上下文中评估约束违规 → 基于历史趋势优先排序调整。
    • 设计动机:消融实验证明移除优化先验会导致计划质量显著恶化(OAR 剂量普遍升高),说明领域知识的结构化注入是 LLM 能够成功执行治疗计划的关键前提。
  4. 迭代优化策略

    • 功能:Agent 采用"大步探索 → 小步微调"的迭代策略。早期使用较大的约束调整步长探测各器官的剂量保护潜力,后期用较小步长精细调整避免过度保护。
    • 核心思路:对于有数值约束的器官(如腮腺中位剂量 16 Gy),Agent 从临床目标附近初始化以加速收敛;对于范围约束(如 25-30 Gy),选择边界值开始;对于无明确数值约束的器官(如咽部"尽量降低"),Agent 自主选择合理起点(如 45 Gy)。当观察到剂量停滞但损失急增时,Agent 会主动放松约束以保护靶区覆盖。
    • 设计动机:模拟经验丰富的剂量师的实际操作模式——先"试探"每个器官的优化空间,再精细权衡。整个过程在几步优化内即可完成,总耗时不到 5 分钟。

损失函数 / 训练策略

本文的 LLM Agent 不涉及任何训练或微调。Eclipse TPS 内部使用加权二次惩罚目标函数(weighted sum of quadratic penalties),对每个结构和目标的约束违规施加惩罚。LLM Agent 通过观察该目标函数损失值及其变化趋势来指导约束调整决策,但不直接修改目标函数本身。

实验关键数据

主实验:LLM 计划 vs. 临床手动计划(20 例头颈癌 IMRT)

指标 临床计划 GPT-4.1-WP GPT-4.1-mini-WP GPT-4.1-WOP GPT-4.1-mini-WOP
Plan D_max (Gy) 76.22±1.44 74.53±1.48 74.19±1.07 74.17±1.20 73.87±0.93
脑干 D_max (Gy) 22.13±6.65 24.56±7.21 24.21±6.63 27.57±7.27 28.08±7.26
脊髓+5mm D_max (Gy) 44.91±2.82 44.46±3.47 44.58±3.97 48.87±3.03 49.59±3.06
下颌骨 D_max (Gy) 72.06±6.94 70.86±6.94 71.17±6.96 71.66±6.69 71.62±6.42
左腮腺 D50 (Gy) 22.66±11.22 19.21±3.09 21.93±5.71 23.18±3.97 22.99±3.92
右腮腺 D50 (Gy) 22.52±10.17 20.47±3.64 20.70±5.42 24.94±3.75 25.42±5.97
口腔 D50 (Gy) 36.14±12.44 34.95±10.98 33.26±11.45 38.48±9.09 39.41±9.88
喉部 D50 (Gy) 33.16±14.42 29.43±8.02 31.29±9.96 36.24±9.36 37.83±11.49
咽部 D50 (Gy) 47.54±11.50 39.85±9.62 44.37±9.04 49.18±7.20 49.43±8.34
PTV_primary CI 1.88±0.29 1.82±0.17 1.83±0.17 1.92±0.19 1.93±0.17
PTV_boost CI 1.39±0.19 1.18±0.10 1.17±0.09 1.17±0.09 1.16±0.09
PTV_boost HI 0.061±0.021 0.062±0.021 0.058±0.013 0.059±0.020 0.055±0.019

消融实验:优化先验的影响

对比条件 关键观察
GPT-4.1 有先验 (WP) vs. 无先验 (WOP) 无先验时 OAR 剂量普遍升高:脑干 +3.01 Gy、脊髓 +4.41 Gy、腮腺 +3-4 Gy、喉部 +6.81 Gy、咽部 +9.33 Gy
GPT-4.1-mini WP vs. WOP 同样观察到无先验时 OAR 保护显著恶化,尽管 CI/HI 可能略有改善,但这来源于 OAR 保护不足的不利权衡
GPT-4.1 WP vs. GPT-4.1-mini WP GPT-4.1 在多数指标上数值更优,体现更强的推理能力和规划效率
LLM 计划 vs. 临床计划一致性 LLM 计划的四分位距更短(尤其是靶区适形指数和腮腺剂量),变异性更小

关键发现

  • 热点控制更优:GPT-4.1-WP 的 Plan D_max 为 74.53 Gy(106.5% 处方剂量)vs. 临床计划 76.22 Gy(108.8%),改善显著
  • 适形性更优:PTV_boost CI 1.18 vs. 1.39(临床),PTV_primary CI 1.82 vs. 1.88(临床)
  • OAR 保护可比或更优:尤其在腮腺(左 19.21 vs. 22.66 Gy; 右 20.47 vs. 22.52 Gy)和咽部(39.85 vs. 47.54 Gy)上显著改善
  • 优化先验是必要条件:移除先验后所有 OAR 剂量均恶化,证明领域知识注入是成功的关键
  • 规划效率极高:单例规划在 Intel Xeon CPU + 32 GB RAM 上不到 5 分钟完成,显著快于手动规划

亮点与洞察

  • 零样本在专业领域的可行性:首次证明 LLM 可以在无需任何先前治疗计划数据的情况下,完全自主地在商业 TPS 中生成临床可接受的 IMRT 计划。这对数据稀缺的专业领域意义重大。
  • Agent 设计简明有效:不涉及复杂的多 Agent 架构或 RAG,仅通过"算术工具 + 领域先验 prompt + CoT 推理 + 历史追踪"的简洁组合即可驱动高质量决策。
  • 可解释的推理链:Agent 在每步优化中显式阐述推理过程(如"前几步显示进一步降低约束只增加损失而剂量不再下降,说明进一步保护困难可能损害 PTV 覆盖"),增强了临床可信度。
  • 一致性优势:LLM 计划在多例患者间的变异性更小,这对于临床质量控制尤为重要。

局限与展望

  1. 病种局限:仅在头颈癌 IMRT 上验证,未涉及肺癌、宫颈癌、前列腺癌等其他常见病种,也未测试 VMAT 等其他规划模式。
  2. 样本量较小:仅 20 例患者,统计功效有限,且所有患者为同一处方方案(70 Gy + 44 Gy)。
  3. API 成本与依赖:依赖 GPT-4.1 API 调用,每例患者的多轮迭代产生的成本和延迟未被量化。对闭源 LLM 的依赖也限制了可重复性。
  4. 单机构数据:所有病例来自 Duke University 单一机构,未验证跨机构的泛化性(不同机构的临床约束习惯和医生偏好可能差异显著)。
  5. 缺乏与 RL/KBP 基线的对比:仅与临床手动计划对比,未与已有的自动化方法(强化学习、知识驱动规划)进行直接比较。
  6. 优化先验的机构特异性:prompt 中注入的优化先验(如 Eclipse 二次损失函数的特性)具有 TPS 特异性,迁移到其他 TPS(如 Pinnacle、RayStation)需要重新编写先验。

相关工作与启发

  • Wang et al. (2025):提出 few-shot LLM 规划方法用于肺癌和宫颈癌,需要提供先前计划作为参考。本文将其推进为完全零样本,消除了对历史计划的依赖。
  • Liu et al. (2025):使用 GPT-4Vision 指导放疗计划,但依赖自研平台。本文直接嵌入商业 TPS,增强了临床可行性。
  • RL 方法 (Yang et al. 2024; Shen et al. 2021):通过强化学习训练虚拟计划师迭代调整参数。本文的 LLM Agent 方法无需训练,提供了一种互补的零训练数据路径。
  • 启发:"LLM + 领域工具 + 结构化先验"的范式可广泛迁移到其他需要专家迭代决策的领域——如药物配方优化、建筑设计参数调整等。零样本能力意味着新机构可以快速部署,无需积累本地训练数据。

评分

  • 新颖性: ⭐⭐⭐⭐ — 首次实现零样本 LLM 在商业 TPS 中的全自动治疗计划,消除对标注数据的依赖是重要突破。
  • 实验充分度: ⭐⭐⭐ — 20 例样本、单一病种、单一机构的验证规模偏小;消融实验设计合理但缺乏与 RL/KBP 的直接对比。
  • 写作质量: ⭐⭐⭐⭐ — 方法描述清晰详细,案例分析中 Agent 推理链的展示增强了可读性和可信度。
  • 价值: ⭐⭐⭐⭐ — 对放射治疗自动化领域有直接实用价值,零样本特性解决了数据稀缺和跨机构部署的痛点,具有较好的转化潜力。