Learning Collective Variables from BioEmu with Time-Lagged Generation¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=1PYj4fMeLe
代码: 待确认
领域: 计算生物学 / 分子动力学 / 增强采样
关键词: 集体变量(CV), 增强采样, BioEmu, 时滞生成, 蛋白质折叠, 扩散模型

一句话总结¶

把冻结的蛋白质生成基础模型 BioEmu 改造成「时滞生成器」——给它当前构象 \(x_t\)，逼它生成 \(\tau\) 时间后的构象 \(x_{t+\tau}\)，从而让一个轻量编码器自动学到只编码慢自由度的一维集体变量(CV)，可直接喂给 OPES、Steered MD 等增强采样方法。

研究背景与动机¶

领域现状：分子动力学(MD)以飞秒(\(10^{-15}\) s)为步长积分,但蛋白质折叠这类稀有事件发生在微秒到毫秒尺度,中间隔着上亿个积分步,朴素 MD 根本观测不到。增强采样(metadynamics、REMD、OPES 等)靠对系统施加偏置力来加速跨越能垒,而这些偏置力都建立在一个低维描述符——集体变量(CV)——之上。CV 编码得好不好,直接决定增强采样能不能驱动出真实的折叠/解折叠转变。

现有痛点：传统 CV 靠领域专家手工挑(比如 Alanine Dipeptide 选某几个骨架二面角),既容易漏掉真正的慢模式,又只能用在小体系上。机器学习 CV(MLCV)虽然兴起——监督式(DeepLDA、DeepTDA)需要预先定义折叠态标签和 RMSD 阈值;自监督式(DeepTICA、TAE、VDE)靠时滞数据编码动力学信息——但它们绝大多数只在 alanine dipeptide 这种玩具体系上验证过,既缺乏向真实蛋白质规模扩展的能力,也没有一个统一的、横向可比的系统性 benchmark。

核心矛盾：自监督 MLCV 的训练范式(如 VDE 用自编码器从 \(x_t\) 重建 \(x_{t+\tau}\))本身需要表达力强、可扩展的解码器,而从头训练这样一个蛋白质级别的生成式解码器代价高昂;同时大体系上「CV 能否真正区分折叠/解折叠态」这个最基本的标准,现有方法常常做不到。

本文目标：(1) 提出一个简单、轻量、可扩展的框架,从分子基础模型的潜在表示里抽取 CV;(2) 在比 alanine dipeptide 大得多的快速折叠蛋白上,为 MLCV 建立一个系统的、面对面对比的新 benchmark(自由能差估计 + 转变路径采样两大下游任务)。

核心 idea：复用基础模型(Re-purpose a foundation model) + 时滞生成约束(Time-lagged generation)——不从头训练解码器,而是借用已经会生成蛋白质构象系综的 BioEmu 作为冻结解码器,只训练一个轻量编码器;并把生成目标从「重建当前态」改成「预测时滞态 \(x_{t+\tau}\)」,迫使 CV 只保留 \(x_t\) 与 \(x_{t+\tau}\) 共享的慢信息,丢弃当前态里那些快速随机涨落。

方法详解¶

整体框架¶

方法称为 BIOEMU-CV。核心是在一个冻结的蛋白质生成基础模型 BioEmu 之上,挂一个可训练的轻量编码器 \(f_\theta\):编码器把当前构象 \(x_t\) 压成一维 CV \(c_t = f_\theta(x_t)\),再通过一个小 MLP 把 \(c_t\) 融进 BioEmu 的单体表示(single representation),作为条件;然后让 BioEmu 的 score 网络在这个条件下去生成时滞构象 \(x_{t+\tau}\)(而非当前的 \(x_t\))。整个训练只更新编码器和条件 MLP,BioEmu 主干始终不动。

graph LR
    A[当前构象 x_t] --> B[轻量编码器 f_theta]
    B --> C["一维 CV c_t"]
    A2[氨基酸序列 A] --> D[BioEmu Evoformer 冻结]
    D --> E[单体表示 h]
    D --> F[配对表示 z]
    C --> G[条件 MLP]
    E --> G
    G --> H["条件化表示 h_t"]
    H --> I[BioEmu Score 模型 冻结]
    F --> I
    I --> J["生成时滞构象 x_t+τ"]
    style B fill:#ffd9d9
    style C fill:#ffd9d9
    style G fill:#ffd9d9
    style D fill:#d9e8ff
    style I fill:#d9e8ff

关键设计¶

1. 复用冻结基础模型作 CV 解码器:借力 BioEmu 的生成能力。 BioEmu 是一个序列条件的去噪扩散模型 \(g_\phi(x|A)\),能在全原子分辨率下从蛋白质的平衡分布 \(p(x|A)\) 采样多个构象(区别于 AlphaFold 这种只给单一低能构象的结构预测模型)。它内部用 Evoformer 从氨基酸 token 产出单体表示 \(h\) 和配对表示 \(z\),再由 score 模型生成 Cα 坐标与残基朝向。作者的洞察是:既然文生图扩散模型可以靠轻量 adapter(ControlNet、T2I-Adapter 那一脉)外挂条件编码器来提取条件表示,那么 MLCV 同样可以被看成「驱动分子生成的条件」。于是不再为 CV 学习从头训一个解码器,而是直接把 BioEmu 当成现成的、已经懂蛋白质物理的冻结解码器,编码器只需学会输出一个能正确引导 BioEmu 的低维条件,大幅降低训练成本并天然继承了 BioEmu 对蛋白质构象空间的先验。

2. 时滞生成约束:用「预测未来」逼 CV 只装慢自由度。 这是方法的灵魂。条件通路搭好后,作者不让模型重建当前态,而是编码当前构象 \(x_t\) 的 CV、却要求 score 模型生成时滞后的构象 \(x_{t+\tau}\)。直觉上,\(c_t\) 必须压缩 \(x_t\) 与 \(x_{t+\tau}\) 之间共享的那部分信息——也就是变化缓慢的慢自由度——而当前态里那些只存在于 \(x_t\)、在 \(\tau\) 之后已经被随机抹掉的快速涨落,对预测未来毫无帮助,自然会被丢弃。这一动机与 VDE 一脉相承,但作者改用可扩展的扩散模型架构当解码器,而且不再需要 VDE 那个额外的自相关损失(auto-correlation loss),训练更简洁。

3. 轻量条件注入 + 去噪 score-matching 目标。 为了保持适配器轻量并不破坏 score 模型的维度,作者用一个小 MLP 把编码器输出 \(c_t\) 与单体表示 \(h\) 融合成条件化表示 \(h_t = \mathrm{MLP}(h, c_t)\),配对表示 \(z\) 保持不变,两者一起送进 score 模型。冻结 BioEmu 参数 \(\phi\),只用去噪 score-matching 目标更新编码器和条件 MLP:

\[ \mathcal{L}(x_t, x_{t+\tau}, A) = \mathbb{E}_{s\sim U[0,1]}\Big[\lambda_s \big\| \nabla \log p_{s|0}\big(x^{(s)}_{t+\tau}\,\big|\,x^{(0)}_{t+\tau}, x_t, A\big) - g_\phi(s, h_t, z) \big\|^2 \Big] \]

其中 \(s\) 是扩散时间,\(p_{s|0}\) 是 \(x^{(s)}_{t+\tau}\) 在给定 \(x^{(0)}_{t+\tau}, x_t, A\) 下的密度,\(\lambda_s\) 是时间加权,\(g_\phi\) 即 BioEmu 的 score 网络。这个目标把「重建时滞构象」的压力全部转嫁到 CV \(c_t\) 身上,迫使它编码出适合增强采样的慢自由度表示。

4. 一维 CV + 三准则约束。 作者把 CV 维度固定为 1(便于可视化与施偏),并明确 CV 需满足增强采样的三条标准:(i) 低维;(ii) 捕获系统的慢自由度;(iii) 能区分蛋白质的折叠态与解折叠态。训练完成后,所有 MLCV 都在完整 DESRES 轨迹上归一化到 \([-1,1]\),并约定折叠态对应正值,以保证跨方法的公平对比与可视化一致性。

实验关键数据¶

评测在三个比 alanine dipeptide 大得多的快速折叠蛋白(显式水溶剂)上进行:Chignolin、Trp-cage、BBA(取自 Lindorff-Larsen 等的 DESRES 长轨迹)。基线为自监督 MLCV:DeepTICA、TAE、VDE,统一用 mlcolvar 包在相同数据和时滞下从头训练,输入都用旋转/平移不变的 Cα 两两距离,CV 维度都固定为 1。

主实验表格¶

任务一:自由能差估计(1 µs OPES,显式水) —— 越接近参考 \(\Delta F_{ref}\)、PMF MAE 越小越好。

蛋白	方法	\(\Delta F_{ref}\)	\(\Delta F\)	\(\\|\Delta F_{ref}-\Delta F\\|\) ↓	PMF MAE ↓
Chignolin	DeepTICA	-3.73	-2.02±3.65	1.71	2.64±3.80
Chignolin	TAE	-3.79	-1.26±3.69	2.53	3.15±2.81
Chignolin	VDE	-17.24	0.24±5.00	N/A	4.09±3.20
Chignolin	BIOEMU-CV	-3.71	-3.19±3.97	0.52	3.07±2.53
Trp-cage	DeepTICA	3.70	6.53±7.31	2.73	8.94±7.43
Trp-cage	BIOEMU-CV	4.15	5.97±3.01	1.82	6.86±4.38
BBA	DeepTICA	2.76	13.95±13.28	11.19	10.51±5.85
BBA	BIOEMU-CV	2.77	9.99±5.43	7.22	8.34±7.46

(TAE/VDE 在 Trp-cage、BBA 上多处标 N/A——要么折叠/解折叠态判别失败,要么符号与参考相反。)

任务二:转变路径采样(16 次 Steered MD,显式水) —— RMSD 与转变态能 \(E_{TS}\) 越低、目标命中率 THP 越高越好。

蛋白	方法	RMSD(Å)↓	THP(%)↑	\(E_{TS}\)(kJ/mol)↓
Chignolin	DeepTICA	2.45±0.86	37.5	-81102.41±521.27
Chignolin	TAE	1.95±0.72	43.8	-81914.87±114.30
Chignolin	VDE	2.08±0.56	43.8	-82026.62±77.63
Chignolin	BIOEMU-CV	1.20±0.33	100.0	-82055.15±98.48
Trp-cage	DeepTICA	2.37±0.47	31.2	-63611.88±57.49
Trp-cage	BIOEMU-CV	2.31±0.52	31.2	-63787.51±31.23
BBA	DeepTICA	2.67±0.37	18.8	-130418.50±477.68
BBA	BIOEMU-CV	2.05±0.24	93.8	-131315.59±116.23

BIOEMU-CV 在转变路径采样上几乎全面领先:Chignolin 目标命中率 100%、BBA 93.8%,而 TAE/VDE 在大蛋白上 THP 跌到 0 甚至直接 N/A。

消融实验表格¶

去掉时滞条件(改成生成当前态 \(x_t\))或解冻 BioEmu(Table 8):

时滞	冻结	\(\\|\Delta F_{ref}-\Delta F\\|\)↓	PMF MAE↓	RMSD↓	THP↑	\(E_{TS}\)↓
✓	✓	0.52	3.07±2.53	1.20±0.33	100.0	-82055±98
✗	✓	2.10	1.41±1.56	1.57±0.36	81.3	-82085±63
✓	✗	1.22	3.53±3.73	1.62±0.31	100.0	-82076±98

完整设计(时滞✓+冻结✓)在自由能差和 SMD 命中率上综合最优:去掉时滞条件后自由能差误差从 0.52 飙到 2.10、THP 掉到 81.3%;解冻 BioEmu 既无明显收益又增加训练代价。

关键发现¶

可扩展性是分水岭:VDE 在大蛋白(Trp-cage、BBA)上彻底失效——折叠态与解折叠态的 CV 值几乎重合(Table 3),无法区分态;BIOEMU-CV 在三个蛋白上都给出清晰分离的折叠(正)/解折叠(负)态。
物理可解释性:敏感性分析(Fig 5)显示 BIOEMU-CV 一致地把高敏感度赋予真正区分折叠态的长程接触(如 Chignolin 的 TYR1-TYR10、ASP3-TRP8 氢键),而 DeepTICA/VDE 常关注区分力弱的距离。
与已知描述符吻合:在 Chignolin 上,BIOEMU-CV 与 committor 函数的 Pearson 相关达 0.748(DeepTICA 仅 0.682);二级结构分析中 BIOEMU-CV 能给 α-helix/β-sheet 赋予不同 CV 值,TAE/VDE 做不到。

亮点与洞察¶

"复用基础模型作冻结解码器"这一招迁移得很漂亮:把文生图领域 ControlNet/adapter 的「外挂轻量条件编码器」思路搬到分子动力学,既省去从头训练蛋白质级解码器的巨大成本,又让 CV 学习直接站在 BioEmu 学到的蛋白质物理先验肩膀上。
时滞生成是一个优雅的"信息瓶颈":用「预测未来构象」这个自监督代理任务,天然把慢/快自由度分离,且比 VDE 省掉了自相关损失,目标更干净。
真正的贡献之一是 benchmark:本文第一次在显式水、真实快速折叠蛋白上,把多个 MLCV 放在统一数据/时滞/输入特征下,用自由能估计 + 转变路径采样两个下游任务面对面横评,填补了 MLCV 长期"只在 alanine dipeptide 上自说自话"的空白。

局限与展望¶

CV 维度固定为 1:作者为了可视化和施偏简便只用一维 CV,但真实大蛋白的慢自由度往往需要多维 CV 才能刻画,扩到高维 CV 的效果未验证。
仍依赖时滞轨迹数据训练:虽然解码器是预训练的,但编码器训练仍需要带时滞标注的 MD 轨迹(DESRES),对没有长轨迹数据的新蛋白如何冷启动是开放问题。
受 BioEmu 能力上限约束:整个框架以 BioEmu 为冻结底座,BioEmu 覆盖不到的蛋白/构象空间,CV 质量也会受限;且仅验证了三个快速折叠蛋白,向更大、折叠更复杂的体系泛化仍待考察。
自由能差在大蛋白上误差仍偏大:BBA 的 \(\|\Delta F_{ref}-\Delta F\|\) 仍达 7.22 kJ/mol,绝对精度离定量预测还有距离。

评分¶

新颖性: ⭐⭐⭐⭐ 「冻结基础模型 + 时滞生成」组合在 MLCV 领域是新颖且自然的迁移,虽然单个组件(ControlNet 式 adapter、VDE 式时滞)各有出处,但合到分子 CV 学习上并配套大蛋白 benchmark 是清晰的增量贡献。
实验充分度: ⭐⭐⭐⭐ 三个真实蛋白 × 两大下游任务 × 多基线 × 显式水溶剂,外加敏感性/committor/二级结构/消融多角度分析,作为 MLCV 工作相当扎实;扣分在蛋白数量(仅 3 个)和 CV 维度(仅 1 维)受限。
写作质量: ⭐⭐⭐⭐ 动机—方法—评测逻辑顺畅,图表把"为什么基线失败"讲得很清楚,N/A 标注与排除标准交代明确。
价值: ⭐⭐⭐⭐ 既给出一个实用、易扩展的 CV 学习框架,又贡献了一个填补空白的 fast-folding 蛋白 MLCV benchmark,对增强采样与计算生物学社区都有实际参考价值。