UniSim: A Unified Simulator for Time-Coarsened Dynamics of Biomolecules¶

会议: ICML 2025
arXiv: 2506.03157
代码: https://github.com/yaledeus/UniSim
领域: 分子动力学 / 计算生物学
关键词: 分子动力学, 时间粗化, 跨域预训练, 随机插值, 力引导, 全原子模拟

一句话总结¶

UniSim 是首个面向跨域（小分子/肽链/蛋白质）全原子时间粗化分子动力学的深度生成模型，通过三阶段管线——多头预训练统一原子表示、随机插值向量场模型学习长时间步状态推进、力引导核参数高效适配不同化学环境——实现跨分子域的可迁移动力学模拟。

研究背景与动机¶

领域现状：经典分子动力学（MD）模拟需要飞秒级（\(\Delta t \approx 10^{-15}\) s）极小时间步长来保证数值积分稳定性，限制了对蛋白质折叠等长时间尺度过程的模拟能力。量子力学方法精确但计算成本极高，经验力场方法快但精度不足。

现有痛点：近年深度学习方法（FBM、Timewarp、ITO 等）通过学习"时间粗化"推进映射 \(\mathbf{X}_t \to \mathbf{X}_{t+\tau}\)（\(\tau \gg \Delta t\)）大幅加速模拟，但存在两大瓶颈：(1) 几乎所有方法局限于单一分子域（如仅肽链或仅蛋白质），缺乏跨域迁移能力；(2) 部分模型依赖手工设计的域特定表示（如亮氨酸的 \(\gamma\)-碳标记），无法识别含非天然氨基酸的蛋白质。

核心矛盾：MD 轨迹数据稀缺，但分子系统种类繁多且化学环境多变（温度/压力/溶剂），需要一个通用模型而非为每个分子系统单独训练。

本文目标：构建一个可跨小分子、肽链、蛋白质迁移的统一全原子时间粗化模拟器，并能通过参数高效微调适配不同化学环境。

切入角度：利用跨域 3D 分子数据进行多头预训练获取统一原子表示，再基于随机插值生成框架学习状态推进，最后通过力引导核实现"一次训练、多环境适配"。

核心 idea：预训练统一表示 + 随机插值向量场 + 力引导核 = 跨域可迁移的时间粗化 MD 模拟器。

方法详解¶

整体框架¶

UniSim 包含四个阶段：(a) 在多域 3D 分子数据上多头预训练原子表示模型 \(\varphi\)；(b) 基于随机插值框架训练向量场模型 \(\phi = \{v, \eta_z\}\) 学习 \(\mathbf{X}_t \to \mathbf{X}_{t+\tau}\)；(c) 训练力引导核 \(\zeta\) 适配不同化学环境（冻结 \(\varphi, \phi\) 参数）；(d) 推理时迭代求解 SDE 生成轨迹。底层网络架构采用 SO(3)-等变图神经网络 TorchMD-NET。

关键设计¶

梯度-环境子图（Gradient-Environment Subgraph）：解决跨域分子尺度差异问题（小分子几十原子 vs 蛋白质数千原子）。对超过 1000 原子的大分子，随机选择中心原子 \(c\)，构建梯度子图 \(\mathcal{G}_g = \{j : \|\mathbf{x}_j - \mathbf{x}_c\|_2 < \delta_{\min}\}\) 和环境子图 \(\mathcal{G}_e = \{j : \|\mathbf{x}_j - \mathbf{x}_c\|_2 < \delta_{\max}\}\)（\(\delta_{\min} = 8\)Å, \(\delta_{\max} = 20\)Å），仅将 \(\mathcal{G}_e\) 输入模型，仅 \(\mathcal{G}_g\) 中的原子参与损失计算。当 \(\delta_{\max} - \delta_{\min}\) 足够大时，\(\mathcal{G}_e\) 外原子对 \(\mathcal{G}_g\) 的影响可忽略——物理上合理且计算高效。
原子嵌入扩展（Atomic Embedding Expansion）：蛋白质中同种元素存在离散的化学模式（如碳的 CA、CB），键长键角高度规则，仅用元素周期表作为词表粒度过粗。方法：定义基础词表 \(\mathbf{A}_b \in \mathbb{R}^{A \times H}\) 和扩展词表 \(\mathbf{A}_e \in \mathbb{R}^{A \times D \times H}\)（\(D\) 为每种元素的模式数），通过邻居信息计算模式概率 \(\mathbf{w}_i = \text{softmax}(\text{lin}(\mathbf{A}_b[i], \mathbf{n}_i))\)，最终嵌入 \(\mathbf{z}_i = \text{lin}(\mathbf{A}_b[i], \mathbf{w}_i^\top \mathbf{A}_e[i], \mathbf{n}_i)\)。消融实验证实去掉扩展嵌入后 PWD 从 0.332 退化到 0.389。
力引导核（Force Guidance Kernel）：冻结 \(\varphi, \phi\) 全部参数，新增 TorchMD-NET \(\Psi\) 和输出网络 \(\psi\) 拟合中间力场 \(\nabla \varepsilon_t\)。目标：生成分布 \(p_t(\cdot) \propto q_t(\cdot) \exp(-\alpha \varepsilon_t(\cdot))\)，修改去噪器为 \(\eta_z'(t, \mathbf{X}) = \eta_z(t, \mathbf{X}) + \alpha \gamma(t) \nabla \varepsilon_t(\mathbf{X})\)。\(\psi\) 采用插值形式 \((1-t)\psi_0 + t\psi_1 + t(1-t)\psi_2\) 保证端点与 MD 力场连续。化学环境变化通过 MD 势能 \(\varepsilon\) 反映在生成分布中——"一次预训练、多环境适配"。

损失函数 / 训练策略¶

预训练：力对齐 \(\mathcal{L}_o = \|\nabla_{\mathbf{X}}(\sum_i \mathbf{H}_\text{out}[i]) + \mathbf{F}\|_2^2\) (off-equilibrium) + 去噪 \(\mathcal{L}_e\) (equilibrium)，多头区分不同力场
向量场：\(\mathcal{L}_v = \mathbb{E}[\|v(t, \mathbf{X}_t) - (\mathbf{X}_1 - \mathbf{X}_0)\|^2 + \|\eta_z(t, \mathbf{X}_t) - \mathbf{Z}\|^2]\)
力引导：端点力拟合 + 中间力场拟合（四项联合损失）
推理后对肽链/蛋白质进行 OpenMM 能量最小化构象细化（平均 69.3 步）
训练环境：8× RTX 3090，一周内完成

实验关键数据¶

主实验：肽链（PepMD 14 测试肽，JS距离↓）¶

模型	PWD↓	RG↓	TIC↓	TIC-2D↓	VAL-CA↑	CONTACT↓
FBM	0.361	0.411	0.510	0.736	0.539	0.205
Timewarp	0.362	0.386	0.514	0.745	0.028	0.195
ITO	0.367	0.371	0.495	0.748	0.160	0.174
SD	0.727	0.776	0.541	0.782	0.268	0.466
UniSim/g	0.332	0.332	0.510	0.738	0.505	0.162
UniSim	0.328	0.330	0.510	0.731	0.575	0.157

蛋白质（ATLAS 14 测试蛋白）¶

模型	PWD↓	RG↓	TIC↓	VAL-CA↑	CONTACT↓
FBM	0.519	0.597	0.621	0.012	0.252
ITO	0.588	0.775	0.624	0.052	0.428
SD	0.604	0.762	0.605	0.001	0.235
UniSim/g	0.508	0.569	0.543	0.071	0.171
UniSim	0.506	0.554	0.542	0.079	0.173

消融实验¶

消融项	关键变化
去掉原子嵌入扩展	PWD: 0.332→0.389, CONTACT: 0.162→0.228
力引导(\(\alpha\)增大)	VAL-CA提升显著，但分布多样性有下降趋势
SDE步数(\(T\)增大)	多数指标退化——小\(T\)足以平衡精度和效率
小分子 TIC (UniSim/g→UniSim)	0.408→0.368，力引导改善跨域迁移

关键发现¶

跨域预训练不损害单域性能：UniSim 在肽链上全面优于从头训练的 FBM
力引导核关键作用：VAL-CA 从 0.505→0.575（肽链），显著提升构象有效性
蛋白质领域取得突破：CONTACT 从 FBM 的 0.252 降到 0.173（改善 31%）
推理效率：ESS/s 约为传统 MD 的 25 倍
Alanine-Dipeptide 案例中成功恢复 C5、C7eq、\(\alpha_R'\)、\(\alpha_R\)、\(\alpha_L\) 五个亚稳态

亮点与洞察¶

首个跨域全原子时间粗化模拟器，成功将统一预训练范式引入分子动力学领域
梯度-环境子图设计巧妙，在物理合理的前提下解决跨域尺度差异的计算瓶颈
力引导核的"冻结主干+训练适配器"思路与 NLP 的 LoRA 异曲同工

局限与展望¶

自回归生成的预测误差累积导致大蛋白长程模拟不稳定，需 OpenMM 后处理
评估轨迹长度较短（\(10^3\)步），可能无法发现更多亚稳态
预训练数据规模受 MD 轨迹稀缺限制
未与 AlphaFold3 等结构预测模型集成

评分¶

⭐⭐⭐⭐ — 首个跨域全原子时间粗化模拟器，技术创新扎实（梯度子图、原子嵌入扩展、力引导核），三个分子域实验全面优于基线。蛋白质长程模拟的误差累积和后处理依赖是主要局限。