ICLR 2026 计算生物蛋白质基础模型序列-结构联合预训练扩散模型掩码语言模型抗体设计 single-sequence

FlexRibbon: Joint Sequence and Structure Pretraining for Protein Modeling¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=B8BXHrshMi
代码: https://github.com/bjzgcai/FlexRibbon
领域: 计算生物学 / 蛋白质基础模型
关键词: 蛋白质基础模型, 序列-结构联合预训练, 扩散模型, 掩码语言模型, 抗体设计, single-sequence

一句话总结¶

FlexRibbon 用「掩码语言建模 + 扩散去噪」把氨基酸序列和三维结构在预训练阶段双向绑在一起，不依赖 MSA，在抗体/纳米抗体 CDR、多肽界面、蛋白-配体对接、功能注释等 12 个任务上刷新 SOTA，尤其在高突变、低同源场景下显著超越 AlphaFold 这类 MSA 方法。

研究背景与动机¶

领域现状：蛋白质基础模型 (PFM) 主要分两条线。一是序列语言模型 (ESM-2、ProtT5)，在海量序列上学通用表示，便宜通用，但缺三维几何先验；后续工作往序列编码器里"注入"结构信号（几何特征、模板/图编码、从结构预测器蒸馏表示），但本质仍是序列中心，结构只是辅助信号，不被生成式、双向地建模。二是 MSA 结构预测器 (AlphaFold 2/3)，靠进化耦合精准折叠。

现有痛点：MSA 方法严重依赖同源序列。当比对浅、稀疏或被大量突变破坏时（抗体 CDR 环、内在无序界面、快速演化病原体），预测信号急剧退化。而现有"序列+结构"模型大多是单向的 sequence→structure 映射，无法做序列-结构协同设计；联合模型又因全原子表示显存开销巨大难以放大，参数最终堆在序列侧。

核心矛盾：既要在 single-sequence（无 MSA）下保持高精度，又要让结构表示像序列表示那样可规模化，同时支持双向预测与设计——三者难以兼得。

本文目标：训练一个 30 亿参数、直接从序列与大规模结构语料（PDB 实验结构 + AFDB 预测结构）学习的蛋白基础模型，统一结构预测与设计，并在高突变区域稳定可靠。

核心 idea：[双向序列-结构预训练] 把扩散去噪（结构生成）与掩码语言建模（序列恢复）耦合成一个统一目标，让模型学会"看结构猜序列、看序列生结构"的双向映射；[分层结构建模] 用序列模块→粗粒度结构模块→全原子结构模块的三级架构，把可扩展容量同时分配给序列和结构，破解全原子显存瓶颈。

方法详解¶

整体框架¶

FlexRibbon 把每个残基表示成"序列身份 + 结构上下文"的单一嵌入，架构分三级流水：序列模块统一编码蛋白残基与小分子原子语义；粗粒度结构模块在残基级/原子级用 DiT 去噪坐标，建立全局组织；全原子结构模块把粗粒度结果广播到每个原子做精修，输出化学一致的高分辨率坐标。训练目标把扩散去噪损失和掩码恢复绑在一起（SIMLM），采样即逆扩散过程。

flowchart LR
    A[掩码序列 + 配体拓扑] --> B[序列模块<br/>Transformer + RoPE<br/>残基-原子图]
    B --> C[粗粒度结构模块<br/>DiT 残基级去噪]
    C --> D[全原子结构模块<br/>DiT 全原子精修<br/>共价键注意力偏置]
    B -.条件.-> C
    C -.广播条件.-> D
    D --> E[去噪结构 Dθ + 恢复序列]
    E --> F[L_MSE + L_MLM + L_Dist + L_smooth-lDDT]

关键设计¶

1. 扩散预训练：把结构生成变成去噪打分。 结构 \(R\in\mathbb{R}^{3N}\) 用所有重原子坐标表示，沿用 Karras (EDM)/AlphaFold 3 的方差爆炸过程把数据分布与高斯噪声连起来：\(R_t = R_0 + \sigma_t\epsilon,\ \epsilon\sim\mathcal{N}(0,I)\)，\(\sigma_t\) 随 \(t\) 增大。采样即反转该过程，需要学打分函数 \(\nabla\log p_t\)，用网络 \(D_\theta(R,t)\) 参数化为 \(s_\theta(R,t)=\frac{D_\theta(R,t)-R}{\sigma_t^2}\)，于是训练退化为加权去噪损失 \(\min_\theta \mathbb{E}\,w_t\lVert D_\theta(R_t,t)-R_0\rVert^2\)。为保证刚体不变性，作者把结构质心居中去掉平移自由度，用随机 SO(3) 旋转做数据增强来实现旋转不变，而不用笨重的 SO(3)-等变架构（后者还会引入不想要的反射对称），也放弃了对训练稳定性无益、反而有采样风险的 alignment-based 目标。

2. 三级分层架构：让结构容量真正可扩展。 序列模块用带 RoPE 的标准 Transformer 纯编码序列语义，并对小分子用一个小 MLP 从原子类型嵌入产生二维键特征矩阵，从原子身份直接恢复共价键模式（而非手工键编码），形成残基-原子图后再经 pair-feature 更新建模残基间/残基-原子相互作用。粗粒度结构模块用 Diffusion Transformer (DiT) 在残基级（蛋白）和原子级（配体）去噪坐标，以序列模块嵌入为条件。全原子结构模块再用一个 DiT 显式表示每个原子，把粗粒度输出广播为残基级条件指导，并对共价键相连的原子对加入"原子类型+键类型"的可学习注意力偏置以保证化学合法性。这种"先粗后细"的分配让结构侧也能像序列侧一样吃下规模，破解了过去全原子模型的显存瓶颈。

3. 结构感知掩码语言模型 SIMLM：三种模式逼出双向依赖。 核心思想是被掩码的残基既要从周围序列相关性推断，也要反映其结构上下文。作者把 MLM 与扩散通过三种互补训练模式融合：Mode 1（序列→结构）用干净序列条件生成带噪结构，是标准单向重建；Mode 2（局部耦合扰动）对随机 15% 残基同时掩码氨基酸类型并对其局部结构加扩散噪声，其余不动；Mode 3（全局扰动）随机掩 15% 残基类型的同时对所有残基结构加噪。模型在单向映射、局部联合扰动、全局扰动间交替，从而稳健学到序列↔结构的双向关系，捕捉演化与功能背后的结构约束与可变性。

4. 四项损失 + 三阶段课程 + 置信加权。 总损失 \(L = L_{\text{MSE}} + L_{\text{MLM}} + L_{\text{Dist}} + L_{\text{smooth-lDDT}}\)：扩散去噪、掩码残基恢复、残基间距离正则（维持真实三级结构几何）、smooth-lDDT（对齐常用结构质量指标、强调局部几何）。训练分三阶段递进：Stage A 除 \(L_{\text{MLM}}\) 外全开、限长 384 残基（推迟 MLM 避免早引入的不稳定，先学核心结构规律）；Stage B 扩到 768 残基并引入 \(L_{\text{MLM}}\) 稳定联合优化；Stage C 进一步扩到 1024 残基并训练置信头，学习校准的残基级不确定性。全程用 pLDDT 派生的 sigmoid 权重做置信加权扩散损失，给低置信结构区域降权、给可靠信号加权，从而从 AF2 预测结构里榨取有用信号又不过拟合不可靠几何。采样按 Eq. (3) 模拟逆过程，因损失里没用方向对齐，故不在每步做随机旋转，模型学到相对输入的正确输出朝向。

实验关键数据¶

预训练数据：AFDB + PDB（2021-09-30 之前发布）。下游分三大任务族共 12 个任务，测试集蛋白链与训练集序列同一性 ≤ 40%。

主实验：柔性界面预测与设计¶

结构预测成功率（DockQ ≥ 0.23 的成功率 SR）：

复合体	关键对比	FlexRibbon	绝对提升
抗原-抗体	vs IgGM	61.3%	+14.6%
抗原-纳米抗体	vs IgGM	51.1%	+7.1%
蛋白-多肽	vs AF3 / PepGLAD	91.4%	+7.0% / +10.2%

抗体/纳米抗体设计（输入抗原序列+结构，设计全部 CDR 并生成复合体）：

方法	抗体 H3-AAR	抗体 DockQ	抗体 SR	纳米 H3-AAR	纳米 DockQ	纳米 SR
dyMEAN	0.294	0.079	0.049	-	-	-
DiffAb (AF3)	0.226	0.208	0.368	0.156	0.211	0.346
IgGM	0.360	0.246	0.433	0.183	0.267	0.415
FlexRibbon	0.414	0.273	0.460	0.218	0.244	0.437

分子间相互作用与功能预测¶

蛋白-配体对接（PoseBusters V1，口袋对齐 RMSD < 2 Å）：FlexRibbon 作为 single-sequence 模型 random-1 达 71.82%、oracle 达 78.70%，大幅超越所有 single-sequence 基线并逼近 MSA 方法。

配体诱导构象变化（Apo/Holo）：zero-shot 下 TM-ens 0.889（比 ESMDiff +0.038），加配体引导再 +0.012；腺苷酸激酶 apo/holo 两态 TM-score 达 0.985/0.984。

结合亲和力（CASF-2016）与功能注释（EC/GO，F1）：

亲和力 CASF-2016	RMSE↓	R↑	功能	EC	GO-BP	GO-MF	GO-CC
SPIN	1.258	0.826	ESM-2-3B	0.863	0.476	0.659	0.497
FlexRibbon	1.150	0.848	ESM-GearNet	0.890	0.488	0.681	0.464
			FlexRibbon	0.891	0.539	0.694	0.560

置信头（CASP15）：预测 pTM 与真实 TM-score 的 Pearson R = 0.89；单体结构预测 TM-score 0.703，超 ESMFold/ESM3 各 +0.019/+0.030。

关键发现¶

联合双向预训练的优势在高突变/低同源场景最突出（抗体 CDR、纳米抗体、快速演化抗原），正好是 MSA 方法的盲区。
同一个预训练模型横跨"折叠预测 + 设计 + 对接 + 亲和力 + 功能"5 类任务都拿 SOTA，说明序列-结构联合预训练的迁移性远超蛋白折叠本身。
配体上下文对构象建模有实质帮助（+0.012 TM-ens），验证了把小分子原子纳入统一表示的价值。

亮点与洞察¶

把扩散和 MLM 真正"焊"在一起：SIMLM 的三模式设计（单向/局部耦合/全局扰动）是让双向依赖落地的关键，比简单多任务叠加更逼模型学结构-序列互推。
single-sequence 路线追平 MSA：在对接上 single-sequence 模型逼近 AlphaFold 3，对低同源、突变密集的真实药物/抗体场景意义重大。
分层架构 + 置信加权是工程上的两个聪明点：前者让全原子结构表示可扩展，后者让大规模 AF2 预测结构（噪声大）能被安全利用。

局限与展望¶

没有 confidence head 用于对接排序，所以报 random-1 而非 top-1，实际部署需要可靠的样本筛选（oracle 与 random-1 差 ~7% 说明排序还有空间）。
3B 参数 + 全原子扩散训练成本高，三阶段课程也增加了调参复杂度；可扩展性虽好但门槛不低。
评测仍以 ≤40% 序列同一性切分，真实"完全新折叠/远超分布"泛化、以及多链超大复合体（>1024 残基）的表现待验证。
抗体设计 AAR 绝对值仍偏低（CDR-H3 ~0.41），离"可直接湿实验下单"还有距离。

评分¶

新颖性: ⭐⭐⭐⭐ — SIMLM 把 MLM 与扩散三模式耦合实现双向序列-结构预训练，加分层全原子架构，思路清晰且不落 tokenization 俗套。
实验充分度: ⭐⭐⭐⭐⭐ — 12 个任务跨预测/设计/对接/亲和力/功能，对比 MSA 与 single-sequence 双阵营基线，证据扎实。
写作质量: ⭐⭐⭐⭐ — 动机—方法—实验逻辑顺畅，三模式与三阶段课程讲得清楚；部分工程细节压在附录。
价值: ⭐⭐⭐⭐⭐ — 在 MSA 失效的高突变场景（抗体/纳米抗体/快速演化抗原）给出可用的通用基础模型，对药物与抗体设计有直接落地价值。