Retrosynthesis Planning via Worst-path Policy Optimisation in Tree-structured MDPs¶
会议: NeurIPS 2025
arXiv: 2509.10504
代码: GitHub
领域: 强化学习 / 逆合成规划
关键词: 逆合成规划, 树结构MDP, 最差路径优化, 自模仿学习, 无搜索推理
一句话总结¶
将逆合成规划重构为树结构MDP中的最差路径(worst-path)优化问题——合成树的价值由最弱路径决定(任何一条死胡同路径将导致整棵树无效),提出InterRetro通过加权自模仿学习优化这一最差路径目标,在Retro*-190上达到100%成功率,路径长度缩短4.9%,仅需10%训练数据即达92%完整性能。
研究背景与动机¶
领域现状:逆合成规划旨在将目标分子逐步分解为可购买的基础构建块,形成合成树。单步预测准确率已达人类水平,但多步规划仍依赖启发式搜索(如MCTS、A*),需数百次模型调用,计算代价高昂。
现有痛点:(1) 搜索方法(MCTS/Retro)需大量实时计算,每个分子需数百次模型调用,限制了大规模应用。(2) 微调方法(如PDVN)通过模仿成功搜索轨迹来改善策略,但模型适应的是搜索中遇到的分子分布而非直接推理分布,导致脱离搜索后表现下降。(3) 最关键的——现有方法通常优化所有路径的平均表现,忽视了合成树的最差案例*敏感性:只要一条路径无法到达可购买的构建块,整棵合成树就无效。
核心矛盾:合成树的成功需要所有叶节点都是可购买化合物,但现有优化目标关注平均表现而非最差路径。
本文目标 消除推理时搜索的需求,同时保证高质量的合成路线——这需要一个更合适的优化目标和无搜索的策略改进方法。
切入角度:从优化目标本身入手——将"最弱链条"建模为最差路径,用折扣最差路径回报替代平均累积回报。
核心 idea:一条合成路线只有最弱路径那么强——通过最差路径优化直接改善最容易失败的分解步骤,配合自模仿学习实现无搜索推理。
方法详解¶
整体框架¶
InterRetro作为Agent与树结构MDP交互:(1) 探索——用当前策略从目标分子开始递归分解,构建合成树;(2) 提取——在合成树中找到成功子树,收集所有分支决策;(3) 学习——用加权自模仿学习更新策略和价值网络。迭代执行直到策略收敛为止。
关键设计¶
-
最差路径目标函数:
- 功能:定义合成树的价值为其所有根到叶路径中最差的回报
- 核心思路:奖励函数 \(r(s) = 1\) 如果分子 \(s\) 是可购买构建块,否则为0。路径回报 \(\gamma^T r(s_T)\),其中折扣因子 \(\gamma \in (0,1)\) 惩罚更长路径。合成树目标 \(J(\pi) = \mathbb{E}_{\tau \sim \pi}[\min_{p \in P(\tau)} \sum_{t=0}^T \gamma^t r(s_t)]\)。单条失败路径使整棵树价值为0
- 设计动机:USB-50k中98.6%的反应涉及≤3个反应物,故合成树质量主要由深度(最差路径长度)而非宽度决定
-
树MDP中的Bellman最优方程:
- 功能:为最差路径目标推导价值函数的递归关系和最优性条件
- 核心思路:Q函数递推 \(Q^\pi(s,a) = r(s) + \gamma(1-r(s))\min_{s' \in \mathcal{T}(s,a)} V^\pi(s')\)——关键差异在于使用\(\min\)而非\(\sum\)聚合子节点。证明Bellman最优算子是压缩映射→\(V^*\)唯一存在且值迭代收敛
- 设计动机:标准MDP聚合用求和/期望,但化学反应产生多个子状态(分子),需要用\(\min\)捕获"木桶效应"
-
加权自模仿学习:
- 功能:基于优势权重模仿过去的成功决策,确保化学可行性
- 核心思路:策略约束在预训练单步模型\(\pi^0\)的支持集内:\(\Pi = \{\pi | \pi(a|s)=0 \text{ whenever } \pi^0(a|s)=0\}\)。更新目标 \(\mathcal{L}(\theta) = -\mathbb{E}[\exp_{clip}(\beta A_\phi(s,a))\log\pi_\theta(a|s)]\),高优势反应获更高权重。理论证明 \(V^{\pi^{i+1}}(s) \geq V^{\pi^i}(s)\)(单调改进保证)
- 设计动机:支持集约束保证提出的反应始终化学合理;优势加权避免盲目模仿,重点学习高质量决策
损失函数 / 训练策略¶
价值网络损失(Bellman TD):\(\mathcal{L}(\phi) = \mathbb{E}[(V_\phi(s) - (r(s) + \gamma(1-r(s))\min_{s'} V_{\phi^-}(s')))^2]\),\(V_{\phi^-}\)为target network。策略网络损失:\(\mathcal{L}(\theta) = -\mathbb{E}[\exp_{clip}(\beta A_\phi(s,a))\log\pi_\theta(a|s)]\)。使用FIFO经验回放(最大20K分支),6个并行探索进程,每次迭代收集36棵合成树后更新5次。
实验关键数据¶
主实验¶
| 基准 | 模型调用数 | InterRetro | PDVN | Retro* | MCTS |
|---|---|---|---|---|---|
| Retro*-190 | 500 | 100.0% | 98.95% | 75.26% | 62.63% |
| Retro*-190 | Direct Gen. | 95.78% | - | 20.00% | 20.00% |
| ChEMBL-1000 | 500 | 97.50% | 83.50% | 74.70% | 71.90% |
| GDB17-1000 | 500 | 99.50% | 26.90% | 7.50% | 4.50% |
消融实验¶
| 配置 | Retro*-190成功率 | 说明 |
|---|---|---|
| 最差路径目标 (默认) | 100.0% | 本文方法 |
| 平均路径目标 | ~96% | 忽略最弱链条 |
| 无自模仿(仅预训练) | 16.84% | 预训练策略直接推理 |
| 10%训练数据 | ~92% | 出色的样本效率 |
| 完整训练数据 | 100.0% | 完全收敛 |
关键发现¶
- 100%成功率:在Retro*-190上首次达到完美成功率,且路径长度比搜索方法缩短4.9%
- 无搜索推理:Direct Generation模式下就达95.78%(对比搜索方法baseline 20%)
- 极强的样本效率:仅10%训练数据即达92%性能
- GDB17-1000上的巨大优势:InterRetro 99.5% vs PDVN 26.9%——在困难分子上优势尤其显著
亮点与洞察¶
- 最差路径优化对问题的建模非常自然——"木桶效应"确实是逆合成的核心挑战
- 理论贡献扎实:唯一最优解存在性、单调改进保证、Bellman最优方程推导完整
- 实际意义重大:消除推理时搜索可将逆合成从分钟级降至毫秒级
- 10%数据就能达92%性能,暗示最差路径目标比其他目标更高效地利用经验
局限与展望¶
- 依赖预训练单步模型(Graph2Edits)的质量——如果预训练模型的支持集不包含正确反应则无法恢复
- 训练需约48小时(单A5000 GPU),虽然可接受但仍有优化空间
- 仅在USPTO-50k训练集上评估,真实世界反应可能超出该数据集覆盖范围
- Tree MDP假设反应推荐是确定性的,实际化学反应有不确定性(副反应、收率)
相关工作与启发¶
- vs PDVN: PDVN也通过自模仿改善搜索策略,但优化平均回报且仍依赖搜索推理;InterRetro优化最差路径且完全无搜索
- vs MCTS/Retro*: 搜索方法需大量模型调用(500次),InterRetro直接生成达到更高成功率
- vs DreamRetroer: 性能相当但InterRetro不依赖任何外部模型增强
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 最差路径优化框架是逆合成领域全新视角,理论推导完整优雅
- 实验充分度: ⭐⭐⭐⭐⭐ 三个基准、多种模型调用预算、消融充分、首次达100%成功率
- 写作质量: ⭐⭐⭐⭐ 问题动机清晰,理论与算法衔接流畅
- 价值: ⭐⭐⭐⭐⭐ 无搜索推理+100%成功率,对计算机辅助分子合成有重大实用价值