Interpolation-Based Conditioning of Flow Matching Models for Bioisosteric Ligand Design¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=b1HJLCzYN5
代码: https://github.com/oxpig/cond-semla
领域: 计算生物学 / 3D 分子生成 / 药物设计
关键词: flow matching, 训练无关条件生成, 生物等排体设计, 药效团, SemlaFlow

一句话总结¶

在预训练的 E(3)-等变 flow matching 分子生成模型上，提出两种完全无需重训、只在推理时介入的条件化策略——Interpolate–Integrate（软全局相似）和 Replacement Guidance（硬局部锚定），实现以参考配体/片段集为条件的生物等排体 3D 分子设计。

研究背景与动机¶

领域现状：快速的无条件 3D 生成模型（如 SemlaFlow）已能高质量、大规模采样合法分子；但要把它们用到具体药物设计任务上，通常得为每个新约束重新训练一个条件模型。
现有痛点：基于配体的药物设计（LBDD）核心是在不知道蛋白结构时，保留参考配体的关键结合决定因素（形状、药效团），同时优化合成可及性等性质。现有条件生成器各有硬伤——REINVENT 不是 3D 原生、要事后生成构象；SQUID/ShapeMol 只能按整体形状条件化、抓不到细粒度药效团；SOTA 的 ShEPhERD 虽然能联合形状/静电势/药效团条件化，但每加一个条件通道就得重训，且多片段场景还要手工构造聚合的 ESP 与交互谱。
核心矛盾：重训带来的高成本与灵活性需求之间的冲突——既想复用强大的预训练基座保持高采样速度，又想对生成做精细、按需的引导。
本文目标：在不动模型权重的前提下，提供模块化、细粒度的推理时控制，生成"不必保留原始片段原子、但保留其关键形状与药效团交互"的生物等排体分子。
核心 idea：把条件化转化为对 ODE 采样轨迹的两种几何操作——要么从概率路径中段重启再积分（软），要么在每步 Euler 更新后把片段区域硬性替换回原值（硬）。

方法详解¶

整体框架¶

方法建立在 SemlaFlow（一个联合生成坐标 + 离散化学的 E(3)-等变 flow matching 模型）之上。SemlaFlow 用条件流匹配（CFM）训练一个预测干净数据 \(\tilde{z}_1=\mathbb{E}[z_1\mid t,z_t]\) 的网络，坐标走 OT-like 线性路径、原子/键类型走离散 CTMC 路径，用 100 步对数间隔 Euler 求解器采样。两种条件化策略都不碰训练，只改采样器的运行方式：一种从轨迹中间插值后重启（全局软约束），一种在轨迹中持续硬锚定片段（局部硬约束），二者互补。

flowchart LR
    A[参考配体/片段集 z1] --> B{选择策略}
    B -->|软·全局相似| C[Interpolate–Integrate]
    B -->|硬·局部保留| D[Replacement Guidance]
    C --> C1[从 t=τ 插值: zτ=τx1+1-τx0+ε]
    C1 --> C2[ODE 从 τ 积分到 1]
    D --> D1[每步 Euler 提议 xprop]
    D1 --> D2["片段掩码 M 处替换回原值 ReplaceM"]
    D2 --> D3["trelax 之后释放约束"]
    C2 --> E[生物等排体 3D 分子]
    D3 --> E

关键设计¶

1. Interpolate–Integrate：从路径中段重启的种子引导重采样。 这是软性、全局的条件化。不像普通生成从纯噪声 \(t=0\) 起步，它选一个中间时刻 \(\tau\in[0,1]\)，先沿 SemlaFlow 的概率路径把种子分子 \(z_1\) 朝噪声方向插值得到 \(z_\tau\)——坐标取 \(x_\tau=\tau x_1+(1-\tau)x_0+\varepsilon\)（\(\varepsilon\sim\mathcal{N}(0,\sigma_\tau^2 I)\) 为可选额外抖动），原子/键类型按 \(\mathrm{Cat}(\tau\delta_{a_1}+(1-\tau)\tfrac{1}{|A|}\mathbf{1}_A)\) 这样在 one-hot 真值与均匀分布间线性混合——然后从 \((t,z_t)=(\tau,z_\tau)\) 把 ODE 正向积分到 \(t=1\)。\(\tau\) 是个直观的"保守度"旋钮：\(\tau\to1\) 几乎只做小幅编辑、高度保真种子；\(\tau\to0\) 退化为无条件生成、改写更激进。可选的噪声注入让几何去相关但不彻底丢掉种子。这是作者所述首个面向 flow matching 确定性 ODE 轨迹的 interpolate-integrate 方案，因其全局软约束、不绑定具体局部原子，特别适合"整体像但允许全局改写"的相似性控制。

2. Replacement Guidance：带松弛策略的硬性片段锚定。 这是硬性、局部的条件化，用于多片段生物等排体合并——目标分子不必含确切的片段原子，但要严格保住它们的空间与化学身份。引入一个片段掩码 \(M\in\{0,1\}^N\)，每步 ODE 积分时先做正常 Euler 提议 \(x^{\text{prop}}_{t+\Delta t}=x_t+\frac{\Delta t}{1-t}(\tilde{x}_1-x_t)\)，紧接着把掩码区域整体替换回未扰动的原始片段值 \(x_{t+\Delta t}=\mathrm{Replace}_M(x^{\text{prop}}_{t+\Delta t};x^{\text{frag}})\)，原子、键类型同理替换（键用 \(M\otimes M\) 掩码）。如此得到一个"投影流"：片段被精确保住，而互补区域 \(\bar{M}\) 自由演化去合成 linker 或局部替换。约束强度由用户控制——从某个松弛时刻 \(t_{\text{relax}}\) 起停止替换（约定最后一步永远自由），或更一般地指定一个松弛步集合 \(T_{\text{free}}\)（默认只松弛最后一步 \(\{t_K\}\)）。替换算子与可控松弛策略正是把通用预训练流"改装"成生物等排体合并器的两个新部件。

3. 严格的推理时介入与零额外开销。 两种方法都完全在推理阶段操作，且保留 SemlaFlow 原始的 100 步 Euler 调度不变：Interpolate–Integrate 只在积分前做一次 \(O(N)\) 的种子插值；Replacement Guidance 每步只加一个轻量的 \(O(N)\) 掩码张量更新，相对一次模型前向几乎可忽略。因此两者的推理效率与无条件基线相当——这正是"无需重训"路线相比 ShEPhERD（每加一个条件通道都要重训 + 手工建网格）的核心优势。

实验关键数据¶

在三个药物相关任务上验证：天然产物配体跳跃、生物等排体片段合并、药效团合并。评估指标含 PoseBusters 合法性、合成可及性 SA 分（越低越好）、3D 相似度（ESP/药效团）、AutoDock Vina 对接分。

主实验表格¶

天然产物配体跳跃（NP1，SA<4.5 过滤后）：

方法	Valid ↑	SA ↓	Valid(SA<4.5) ↑	ESP sim ↑	Pharma sim ↑
MolSnapper	26.2%	6.43	0.32%	0.51	0.16
ShEPhERD	57.3%	4.75	24.7%	0.63	0.34
Interpolate–Integrate	71.5%	4.67	35.6%	0.81	0.49
Replacement Guidance	60.5%	3.74	50.2%	0.81	0.52

EV-D68 3C 蛋白酶生物等排体合并（ShEPhERD profile 设置）：

方法	Valid ↑	SA ↓	Valid(SA<4) ↑	Pharma sim ↑	Vina top10 ↓
DiffSBDD	43.1%	6.91	0%	—	—
ShEPhERD	33.8%	4.45	10.8%	0.27	−6.16
Interpolate–Integrate	39.5%	4.96	8.7%	0.18	−4.84
Replacement Guidance	31.9%	3.47	23.5%	0.22	−6.62

SARS-CoV-2 Mpro 药效团合并：Replacement Guidance 取得 SA 3.61、Vina top10 −7.63；ProLIF 指纹分析显示两种方法都能完整复现 81 个条件片段中观察到的全部交互类型。

消融实验表格¶

验证项	设置	结果
Replacement vs. Inpainting	DiffLinker 集（≥3 个不连通片段）	干净硬替换 Valid 58.6% vs. 全噪声 inpainting 32.0%
Interpolate–Integrate 修复不连通种子	改变插值时刻 τ	τ 越小（注噪越多），Valid 从 65.3% 升到 84.4%

关键发现¶

两种策略各有所长：Replacement Guidance 在所有目标上都给出最优 SA 分，适合"硬"约束的片段合并；Interpolate–Integrate 偏保守编辑、ESP/药效团相似度最高，适合高保真保留交互模式。
在生物等排体合并上，Replacement Guidance 与 SOTA 的 ShEPhERD 竞争力相当——药效团相似度略低（0.22 vs. 0.27），但合成可及性更优（3.47 vs. 4.45）、Vina 分相当甚至更好（−6.62 vs. −6.16）。
速度优势巨大：单卡 RTX 6000 上一批 10 个分子，Interpolate–Integrate 仅需 2.85 s、Replacement Guidance 3.9 s；ShEPhERD 在 V100 上需 3–4 分钟。

亮点与洞察¶

把"重训条件模型"问题重构成"改采样器轨迹"问题：用插值重启（软）和投影替换（硬）两个纯几何操作覆盖了从全局相似到局部硬约束的连续谱，思路干净且可解释。
训练无关 + 模块化：不动任何权重，因此天然适配蛋白结构未知的纯配体场景，也方便随基座模型升级而升级。
自动多片段条件化：相比 ShEPhERD 需手工构造聚合 ESP/交互谱，本文的 random atom seeding 能自动从原始片段集合采样药效团，逼近手工精修 profile 的性能，降低专家成本。
可控松弛策略很巧妙：通过 \(t_{\text{relax}}\) / \(T_{\text{free}}\) 在"严格保片段"与"自由合成 linker"之间连续调节，把生物等排体合并的本质（保交互、弃原子）落实到采样步上。

局限与展望¶

批处理目前仅支持同一批内相同输入种子，限制了大规模异构条件的并行吞吐。
高通量评估管线本身有近似性（如对单一刚性受体对接），药效团相似度仍略逊于专门重训的 ShEPhERD。
与已知 binder 相比仍有差距（Mpro 上 Vina −7.63 vs. 已知 binder −9.95），生成分子是"有竞争力的起点"而非终点。
性能依赖底层 SemlaFlow 的生成质量与 OT 路径假设；松弛时刻、\(\tau\) 等超参需按任务调，缺乏自动选择机制。

评分¶

新颖性: ⭐⭐⭐⭐ 首个面向 flow matching 确定性 ODE 的 interpolate-integrate 条件化方案，加上可控松弛的硬替换，组合新颖、动机清晰。
实验充分度: ⭐⭐⭐⭐ 三个真实药物任务 + 多基线对比 + 两组关键消融，指标全面（合法性/SA/3D 相似/对接/交互复现）。
写作质量: ⭐⭐⭐⭐ 方法形式化清晰，软/硬两条线对照分明，trade-off 讲得透。
价值: ⭐⭐⭐⭐ 无需重训即可复用 SOTA 基座做生物等排体设计，速度比 ShEPhERD 快两个数量级，实用价值高。