跳转至

Demystifying Multimodal Biomolecular Co-design with Intrinsic Geodesic Coupling

会议: ICML 2026
arXiv: 2606.01628
代码: 待确认
领域: 科学计算 / 生物分子共设计 / 多模态生成 / 最优传输
关键词: 生物分子共设计、时序耦合、最优传输、贝叶斯优化、流匹配

一句话总结

作者把"序列 + 三维结构"这种异质模态的共生成问题,重新建模为时序最优传输 (Temporal Optimal Transport) 问题,用双层优化 + 高斯过程代理 (GeoCoupling) 在训练过程中自动学出非对角的时间耦合曲线(即让结构和序列以各自适合的节奏被去噪),在 SBDD 和无条件蛋白质共设计两个任务上同时打败"同步耦合"和"随机耦合"两大类基线,并意外发现一条普适的"结构先行 (structure-leading)"几何先于语义的生成规律。

研究背景与动机

领域现状:生物分子(蛋白质、配体)的功能由序列与三维结构耦合决定,因此结构 + 序列联合生成 (co-design) 已成为 de novo 药物 / 蛋白设计的主流范式。代表方法包括 MultiFlow、DPLM-2、La-Proteina(蛋白质),以及 TargetDiff、MolCRAFT、MolPilot、DrugFlow(SBDD)。这些方法本质都是在一个异质乘积流形 \(\mathbb{R}^{N\times 3} \times \mathbb{R}^{N\times K}\) 上做扩散 / 流匹配。

现有痛点:几乎所有 co-design 模型都默默采用同步耦合 (synchronous coupling) —— 让所有模态共享同一个 timestep \(t\),从噪声等速演化到数据。这是一个非常强的隐式归纳偏置:它假设所有模态的去噪难度、收敛速度都一致。Campbell et al. 2024 等工作尝试用随机耦合 (random coupling) 缓解,即训练时给每个模态独立采样 \((t_r, t_h) \sim [0,1]^2\),但这会引入训练-推理不一致(推理时通常仍按某条曲线走)和高方差监督

核心矛盾:作者通过观察 SBDD 训练动力学(论文 Fig. 1C)发现 —— 在同步耦合下,结构 MSE 在轨迹大半段都居高不下,必须等到很晚才下降;切换为另一种异步耦合后,结构误差能更早降下来、validity 也涨。这说明最优生成轨迹根本不是乘积流形上的对角线,而是一条几何弯曲的测地线,不同模态应该按各自的"学习复杂度"分配时间预算。

本文目标:把"模态间时间如何耦合"从硬编码的设计选择,升格为一个可学习的一阶设计变量,且学习开销可控(不能让外层每跑一次都要重训一遍模型)。

切入角度:把多模态生成的训练损失 \(\mathcal{L}_\text{MSE}(\theta, \gamma)\) 看作时序域上的传输代价,整条调度曲线 \(\gamma:[0,1] \to [0,1]^2\) 对应一个耦合测度 \(\pi_\gamma \in \mathcal{P}([0,1]^2)\) ——这就把"找最优耦合"翻译成"在产品流形上找最低能量测地线"。

核心 idea:用 双层优化 (bi-level) + 高斯过程代理 + 贝叶斯优化 在训练循环里在线学出这条测地线 \(\gamma^*\)。内层固定 \(\gamma\) 训练 \(\theta\),外层在 \(\theta^*\) 给出的损失曲面上搜更优 \(\gamma\);GP 代理把"每改一次 \(\gamma\) 都要重训"的开销摊平。

方法详解

整体框架

GeoCoupling 把多模态生成抽象成在二维时间方块 \([0,1]^2\)(结构时间 \(t_r\) × 序列时间 \(t_h\))上找一条单调曲线 \(\gamma\),使得沿这条曲线训练得到的流模型转移能量最低。整套框架是一个嵌套循环:

  • 内层(MSE 训练):在当前调度 \(\gamma\) 下,按常规流匹配 / BFN / 扩散目标训练向量场 \(v_\theta\)\(\theta^* = \arg\min_\theta \mathcal{L}_\text{MSE}(\theta, \gamma)\)
  • 外层(耦合搜索):把训练中观测到的 \((t_r, t_h, \mathcal{L})\) 三元组存入一个容量为 \(N_\max = 1000\) 的滚动 buffer \(\mathcal{B}\),用高斯过程 (GP) 拟合代价曲面 \(c(t_r, t_h)\),然后通过贝叶斯优化在 GP 上找一条新的低能量测地线 \(\gamma^*\) 反馈给内层。
  • EMA 平滑:对学出的调度做 EMA,避免外层一次突变就把内层带飞。

输入:异质模态先验 \(\pi_0 = p(\boldsymbol r) \otimes p(\boldsymbol h)\);输出:从 \(\pi_0\) 到联合数据分布 \(\pi_1 = p_\text{data}(\boldsymbol r, \boldsymbol h)\) 的耦合流,外加一条学到的时序耦合曲线 \(\gamma^*\)

关键设计

  1. Temporal Optimal Transport 重新表述 (TOT):

    • 功能:把传统"在样本空间配对 \(x_0, x_1\)"的 OT 视角,平移到时间域 —— 把整条调度曲线 \(\gamma\) 看作一个推前测度 \(\pi_\gamma := \gamma_\# \lambda \in \mathcal{P}([0,1]^2)\),传输代价 \(\mathcal{E}(\gamma) = \int c(t_r, t_h)\, d\pi_\gamma\),其中 \(c(t_r, t_h) := \mathbb{E}_x[\mathcal{L}_\text{MSE}(x, (t_r, t_h))]\)
    • 核心思路:作者进一步证明(Prop. 3.2)训练损失沿 \(\gamma\) 积分可分解为 \(\mathcal{E}(\gamma) = \int [\,\underbrace{\|v_\theta - u^\gamma\|^2}_\text{Bias} + \underbrace{\mathrm{Var}(\mathbf{u}_t^\gamma \mid \mathbf{x}_t)}_\text{Variance}\,]\, dt\),即同步耦合属于"高 Bias 低 Variance",随机耦合属于"低 Bias 高 Variance",几何最优的 \(\gamma^*\) 是在两者之间寻找方差主导项的最低点。
    • 设计动机:给"为什么需要学耦合"提供了一个干净的几何 + 统计解释 —— 不是工程 trick,而是产品流形上真实存在一条最优测地线。
  2. 双层优化目标 (Bi-level Optimization):

    • 功能:把"找 \(\gamma\)" 和 "训 \(\theta\)"解耦,避免要求对整段训练轨迹求 hypergradient(计算上不现实)。
    • 核心思路:外层 \(\min_{\gamma\in\Gamma} \mathcal{J}(\gamma) = \mathbb{E}_x[\int_0^1 \mathcal{L}_{\theta^*}(x, \gamma(t))\, dt]\),内层 \(\theta^* = \arg\min_\theta \mathcal{L}_\text{MSE}(\theta, \gamma)\)。Prop. 3.3 进一步指出,当 bias 被内层压低后,几何最优耦合等价于 \(\gamma^* = \arg\min_\gamma \mathbb{E}_{t,x}[\mathrm{Var}(u_t^\gamma \mid \mathbf{x}_t)]\),即"最小化沿路径的本质监督方差",这就给外层一个清晰、可估计的目标
    • 设计动机:直接想 backprop 通过整段内层训练既不可微也不可承担;双层 + 方差视角让外层只需要"观测训练损失"就能给出梯度替代信号。
  3. 高斯过程代理 + 贝叶斯优化 (GP-BO Outer Loop):

    • 功能:在线、廉价地求解外层的 \(\gamma^*\),让外层和内层能交替推进。
    • 核心思路:把代价曲面建成 GP,\(c(\mathbf{t}) \sim \mathcal{GP}(\mu(\mathbf{t}), k(\mathbf{t},\mathbf{t}') + \sigma_n^2 \delta)\);用滚动 buffer \(\mathcal{B}\)(容量 1000)只保留最近的训练观测,保证 GP 反映模型当前能力而不是早期残差;外层用贝叶斯优化的采集函数取候选时间对,再在 GP 曲面上用最短路径算法求一条单调测地线作为新的 \(\gamma\)
    • 设计动机:暴力的离散网格搜需要 \(O(N^K)\) 次代价评估(论文中实测 1213.6 秒 / 次更新),而 GP-BO 把单次更新压到 21.5 秒,56× 加速,使得外层可以高频地嵌入到训练循环里而不卡 pipeline。

损失函数 / 训练策略

内层使用各底层模型的原生训练目标(流匹配 / 扩散 MSE / BFN ELBO 等),唯一改动是采样 \((t_r, t_h)\) 时按当前 \(\gamma\) 抽取而非独立采样或同步采样。外层 GP buffer 滚动更新 + EMA 平滑学到的 \(\gamma\) 来稳定训练。整体相对原模型几乎无额外训练步数(MolPilot 的"训练后一次性外层"作为对照需要 2× 训练步)。

实验关键数据

主实验

Structure-Based Drug Design (CrossDock, 100 测试 pocket × 100 分子)

类别 方法 PB-Valid↑ Vina Score↓ (avg) Vina Dock↓ (avg) scRMSD<2Å↑
Reference - 95.0% -6.36 -7.45 34.0%
同步 MolCRAFT 84.6% -6.55 -7.67 46.8%
同步 DrugFlow 79.6% -5.12 -6.99 23.1%
随机 MolPilot 95.9% -6.88 -7.92 41.1%
学习 GeoCoupling 94.3% -7.16 -8.32 43.1%

GeoCoupling 在结合亲和力 (Vina Score / Min / Dock) 上全面领先,PB-Valid 与 MolPilot 同档。

无条件蛋白质共设计 (长度 100-500, N=100)

方法 Co-design↑ pLDDT↑ 1 - Pairwise TM↑ FS Clusters↑ Max TM↓
MultiFlow 0.72 79.39 0.63 0.56 0.83
La-Proteina (tri) 0.77 85.32 0.59 0.36 0.85
DPLM2 0.31 83.69 0.63 0.49 0.96
GeoCoupling 0.79 80.15 0.63 0.48 0.83
GeoCoupling (post-hoc → MultiFlow) 0.74 79.23 0.64 0.73 0.83

GeoCoupling 拿下最高 co-designability;其学到的耦合还能作为 plug-and-play 套到 MultiFlow checkpoint 上,把 FS Clusters 从 0.56 拉到 0.73。

消融实验

配置 Connected↑ Vina Score↓ (mean) Vina Min↓ (mean) 说明
Full (Ours) 93.5% -7.12 -7.57 双层 + EMA
Fixed \(\gamma^*\) 91.1% -6.97 -7.45 训前固定调度,训练中不更新
w/o EMA 91.9% -6.50 -7.24 外层调度无平滑,方差大

关键发现

  • 结构先行 (structure-leading) 是普适规律:在 SBDD(小分子)和蛋白质两个尺度上,学出的 \(\gamma^*\) 都呈现"早期结构 \(t_r\) 推进快、序列 \(t_h\) 等结构稳定后再快速降噪"的形状(Fig. 4),暗示几何上下文是序列解码的必要先验,这一发现是用 BO 自动发掘出来而非人工设计。
  • OOD 长度更显优势:蛋白质长度 ≥ 400 时 MultiFlow co-designability 掉到 < 0.3,GeoCoupling 仍保持 > 0.6,说明学到的耦合不是过拟合 training length 的 trick,而是更鲁棒的传输计划。
  • BO 不可或缺:dense-grid 暴力搜每次更新 1213.6 秒 vs. GP-BO 21.5 秒(56× 加速),使得外层能高频与内层并行,否则双层优化无法在训练中实时跑。
  • MolPilot 是 GeoCoupling 的特例:它相当于只在训练收敛后跑一次外层;GeoCoupling 反而能用 1× 训练步达到更好结果。

亮点与洞察

  • 把"模态间时间耦合"升格为可学习变量是这篇最干净的贡献:以前大家要么默认对角线(同步),要么直接乱抽(随机),这篇第一次系统化地说明二者分别处于 Bias-Variance trade-off 的两端,且最优解一定在中间某条几何曲线上。
  • 统一的传输视角(Table 1):把"样本配对 OT"和"时间调度 OT"放进同一张图里,前者优化空间耦合 \(\pi(x_0, x_1)\),后者优化时间耦合 \(\pi_\gamma(t_r, t_h)\);这种对偶把扩散 / 流匹配领域两条独立的研究线拉到一起,未来谁要做"三模态 co-design"都能复用这套数学。
  • 结构先行的物理可解释性:自动学出来的耦合恰好印证 induced fit / co-evolution 的生物先验 —— "先搭骨架再决定序列",这对未来设计先验更强的 inductive bias 是很好的提示。
  • post-hoc 即插即用:学到的 \(\gamma^*\) 可以直接迁到别人的 checkpoint 上(如 MultiFlow),不用重训,这是非常友好的工程性质。

局限与展望

  • 作者承认 GP-BO 仍是带噪的近似外层搜索,并未给出全局最优保证;且 GP 在 \(K > 2\) 模态时维度灾难依然存在,三模态以上需要更结构化的代理模型。
  • 学到的耦合是整体平均意义下的最优 —— 对每条样本 / 每个 pocket 用同一条 \(\gamma\),没有考虑样本级条件耦合;未来可以引入 amortized \(\gamma(x)\)
  • 实验未触及更复杂的全原子蛋白 / 蛋白-蛋白 docking 场景,且 SBDD 评估仍以 Vina 为主,缺少湿实验或更严格的物理仿真验证。
  • Buffer 容量 \(N_\max = 1000\) 和 EMA 系数是经验值,对超长训练或大模型时的稳定性敏感度未充分扫描。

相关工作与启发

  • vs MolPilot (Qiu et al., 2025):MolPilot 在训练结束后做一次外层调度搜索(VOS),相当于本文双层框架"外层只跑一次"的退化版;GeoCoupling 把外层放进训练循环,结果用 1× 训练步就超过 MolPilot 的 2× 训练步,证明耦合需与模型能力共同演化
  • vs MultiFlow / DPLM-2:这些是随机耦合代表,本文把它们的训练-推理不一致解释为"高方差监督",并在它们的 checkpoint 上 post-hoc 套 \(\gamma^*\) 就能涨点,验证了诊断 + 解药的连贯性。
  • vs 经典 OT 流匹配 (Lipman / Liu / Song et al.):那一脉做的是样本空间 OT(拉直 \(x_0 \to x_1\)),本文是时间域 OT(拉直 \(t_r \to t_h\) 的耦合),两者正交且可叠加,未来可以一起用。
  • vs 课程学习 / 调度学习:本文实质上是"调度学习"的几何化版本,给"为什么这个 schedule 比那个好"提供了 Bias-Variance 与传输能量的双重解释,比经验式调度更有原则性。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 把时序耦合升格为可学习变量并给出 TOT 数学框架,立意干净,是 co-design 领域少见的视角级创新。
  • 实验充分度: ⭐⭐⭐⭐ SBDD + 蛋白质两任务、ID + OOD、消融 + 计算开销都齐了,但缺湿实验验证。
  • 写作质量: ⭐⭐⭐⭐⭐ 命题清晰、Fig. 1 把动机 / 方法 / 现象一图讲透,数学符号一致性高。
  • 价值: ⭐⭐⭐⭐⭐ 学到的耦合可直接 plug 到 MultiFlow 等已有模型,立刻可用;"结构先行"的发现对整个 AI for Science 社区是普适的设计指引。