Pallatom-Ligand: an All-Atom Diffusion Model for Designing Ligand-Binding Proteins¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=uMD75SDTTA
代码: https://github.com/levinthal/Pallatom-Ligand
领域: 计算生物 / 蛋白质设计 / 扩散模型
关键词: 配体结合蛋白、全原子扩散、蛋白质从头设计、条件生成、AlphaFold3 评测

一句话总结¶

Pallatom-Ligand 用一个全原子扩散 transformer 直接学习「蛋白质 + 小分子配体」复合物里所有原子的联合分布，端到端地同时生成蛋白主链、侧链和配体口袋，并支持对蛋白整体折叠（α/β 比例）和配体溶剂可及性的可编程控制，在八个配体的综合 benchmark 上取得了最高的 in silico 成功率。

研究背景与动机¶

领域现状：让蛋白质对某个指定的小分子配体具有高亲和力和高选择性，是做生物传感器、诊断试剂和蛋白质药物的关键能力。传统做法靠实验室定向进化（随机突变 + 多轮筛选），或者靠 Rosetta 这类基于物理能量的计算设计，都需要专家级的生化直觉且效率低。近年深度学习（RFdiffusionAA、CA RFdiffusion、RFdiffusion2）把蛋白主链和配体当成 SE(3) 刚体框架来生成，已经设计出了能工作的酶。

现有痛点：这三个 SOTA 模型都是「只生成主链」的生成器——扩散过程根本不涉及蛋白侧链，配体也只被当成一个刚性框架，没有显式建模蛋白-配体界面上原子级别的精细相互作用（氢键、静电、空间互补）。结果是它们必须依赖用户提供的约束（motif、配体朝向、相对溶剂可及性）来摆好空间构型，序列还得再交给一个独立的逆折叠模型（如 LigandMPNN）去补。这种对「专家手工先验」的依赖既带来 case-by-case 的偏置，也限制了通用性，实验成功率明显低于无配体的纯蛋白设计。

核心矛盾：主链生成与界面原子细节之间缺少信息交换。配体侧链和蛋白侧链的原子细节本来应该反过来去精修主链的生成，但「只建主链」的范式从架构上就切断了这条多层级信息流。

本文目标：做一个真正端到端的全原子模型，直接学习复合物中全部原子的联合分布，让原子级界面交互和 token 级主链生成能互相反馈。

切入角度：作者的假设有两个观察支撑——其一，原子是所有分子的统一基本单元，AlphaFold3 已经证明了「直接建模单个原子」在生物大分子结构预测上的威力；其二，统一架构 + 端到端训练能在数据稀缺（高质量蛋白-配体复合物结构本就很少）的条件下提升建模精度和数据效率。

核心 idea：把小分子直接用其原子表示，把每个氨基酸残基当成一个 14 原子的「通用分子」，用一个配体感知的全原子扩散 transformer 在 token 级和 atom 级双层级上做全局信息交换，一步到位地联合生成结构与序列。

方法详解¶

整体框架¶

Pallatom-Ligand 接收两类输入：一是小分子配体的化学定义（CCD code / SMILES / SDF 三选一），二是设计条件（蛋白 α/β 比例 + 配体溶剂可及性）。它把整个复合物编码成一个「token-原子」双层级表示，喂进一个由三个注意力模块组成的扩散 transformer，反复去噪，最终直接从原子表示解码出每个原子的 3D 坐标，得到一个全原子的蛋白-配体复合物。

关键在于它用了两套互补的表示：原子级表示学习每个原子独有的精细异质性（配体原子和蛋白原子地位平等），token 级表示则把蛋白每 14 个原子聚合成 1 个 token、而每个配体原子单独保留为一个 token（刻意放大蛋白-配体界面的原子交互），用来学习对配体构象变化敏感的粗粒度结构特征。三个注意力模块就在这两个层级之间来回搬运信息：token 级全注意力管整体折叠，atom 级稀疏注意力管局部界面，二者通过 token↔atom 的转换互相精修。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["配体定义 (CCD/SMILES/SDF)<br/>+ 设计条件"] --> B["统一原子编码<br/>残基=14原子, 配体=逐原子<br/>token/atom 双层级"]
    B --> C["三注意力扩散 Transformer<br/>token 全注意力 / atom 稀疏注意力<br/>/ token-pair 三角注意力"]
    C --> D["多尺度条件注入<br/>α比例全局折叠 + 配体SA原子级"]
    D --> E["坐标解码<br/>从原子表示直接出 3D 坐标"]
    E -->|去噪迭代| C
    E --> F["全原子蛋白-配体复合物<br/>(主链+侧链+口袋)"]

关键设计¶

1. 统一原子表示：把残基也当成 14 原子的通用分子

针对「主链-only 模型无法表达配体和侧链原子细节」这个根本痛点，本文放弃了「蛋白用残基框架、配体用刚体」的混合表示，改成纯原子的统一编码。小分子配体的 \(l\) 个原子直接在原子层级编码其化学复杂度和连接性；每个氨基酸残基则按 Pallatom 的 atom14 方案建模成一个含 14 个原子的通用化学实体。于是一个含 \(L\) 残基蛋白 + \(l\) 原子配体的复合物就被统一编码成一个含 \(14L + l\) 个原子的化学系统，原子特征用元素序号、部分电荷等初始化。在这套表示里，配体和蛋白被当成完全平等的实体，模型因此能直接学习界面上的原子级互补，而不必像旧方法那样靠用户喂约束来「摆位置」。token 层级上，蛋白每 14 原子聚成 1 token、配体每原子独占 1 token，刻意把注意力压在蛋白-配体界面上。

2. 三注意力扩散 Transformer：token 与 atom 双层级的信息互换

要让原子级界面交互去反哺 token 级主链生成，光有统一表示还不够，还得有让两个层级对话的架构。本文在 Pallatom 基础上按 DiT 设计哲学重构，用三个核心注意力模块串成一个 transformer block：token-level 全注意力更新 token 单体表示 \(a\) 与二级结构条件，用 token pair 特征 \(z\) 作注意力 bias、时间嵌入 \(t\) 控制的 AdaLN 做归一化，随后通过 token→atom 索引把信息灌进原子表示 \(q\)（\(q = q + \text{Layernorm}(a_{tok\to atom})\)）；atom-level 块稀疏注意力直接在原子表示 \(q\) 上操作，用 atom pair 特征 \(p\) 作 bias、配体 SA 嵌入和时间嵌入作条件，再通过 SegmentMean 把原子特征聚回 token 级（\(a = a + \text{Layernorm}(\text{SegmentMean}(q))\)）；token-pair 三角注意力则把 token 中心原子之间的距离信息（经 RBF 编码 \(z_{rbf} = \text{Linear}(\text{dist}(r_{center}))\)）注入 pair 表示。最后网络直接从更新后的原子表示 \(q\) 解码出每个原子的 3D 坐标 \(r\)。正是这条「token→atom→token」的双向回路，让全局折叠和局部界面能互相精修——消融显示三路缺一不可。

3. 多尺度条件控制：α 比例管全局折叠，配体 SA 管原子级可及性

旧的生成模型常常偏好生成全 α 螺旋结构，折叠多样性不足；而真实蛋白的功能恰恰依赖丰富的 α/β 组成。借助模块化架构，本文在两个尺度上注入条件。全局上引入 α ratio——定义为 α 螺旋残基数除以（α 螺旋 + β 折叠）残基总数，取值 0–1，离散成「主要 β（0–0.2）/ α/β 混合（0.2–0.8）/ 主要 α（0.8–1）」三类，通过 token 级的拼接自注意力注入扩散过程，从而可控地探索折叠空间。原子级上引入配体溶剂可及性（SA）——用相对溶剂可及性 RSA 把每个配体原子离散成「完全埋藏（0–0.1）/ 部分埋藏（0.1–1.0）/ 完全暴露（1.0）」三档，作为可学习嵌入直接拼到配体原子表示上，从而在原子分辨率上控制哪些配体原子该埋进口袋、哪些该暴露在外——这对生物传感器、药物这类下游应用至关重要。

4. 双目标采样训练：用 1:1 配比同时学折叠和学界面

高质量蛋白-配体结构数据不仅少，分布还极度不均衡：有些配体只跟特定折叠共现，有些折叠却能结合各种配体。常规采样会放大这个问题——只按蛋白结构聚类会让配体频率失衡、罕见配体性能差；只按配体-蛋白界面聚类又会导致模型坍缩、生成的蛋白结构趋同。本文用双目标训练化解这个两难：模式（i）学折叠，从结构聚类里采样并做序列/空间裁剪以保留整体结构上下文；模式（ii）学相互作用，从配体聚类里采样并只裁剪配体周围局部区域，让模型专注原子交互而不受整体折叠干扰。两种模式按 1:1 配比混合，保证每种配体被等量采样、又不过采样特定折叠。条件采样上还做了分层 dropout：α 条件以 \(p=0.5\) 提供；配体 SA 则两级——\(p=0.5\) 全丢、\(p=0.25\) 全部配体原子给标签、\(p=0.25\) 给随机子集（每个原子独立以 \(p=0.5\) 纳入），以保证多尺度条件能自由组合。

损失函数 / 训练策略¶

模型是扩散框架，训练即在加噪的全原子坐标上做去噪。核心训练设计已在上面第 4 点讲清：双目标数据采样（折叠 vs 界面，1:1 配比）+ 分层条件 dropout。前者解决数据稀疏与分布失衡，让模型能泛化到罕见配体；后者让 α 比例与配体 SA 两类条件可以任意组合或缺省，实现可控但不强制的条件生成。

实验关键数据¶

主实验¶

在八个化学性质各异（涵盖更小尺寸、相反电荷、疏水基团）的小分子上 benchmark，每个靶标每方法生成 100 个结构，用 LigandMPNN 设计序列后再用 AlphaFold3 系列指标评测。作者定义了三档递进的成功标准：Protein-Fold Success（Cα-RMSD < 2 Å 且 protein-pLDDT > 80）、Ligand-Pocket Success（再加 ligand-Dcenter < 4 Å 且 ligand-pLDDT > 80）、Ligand-Pose Success（再加 ligand-RMSD < 2 Å）。

方法	Cα-RMSD (↓)	protein-pLDDT (↑)	ligand-RMSD (↓)	ligand-pLDDT (↑)	ipAE (↓)
RFdiffusionAA (mpnn1)	4.72	81.52	10.44	63.06	7.67
RFdiffusion2 (mpnn1)	3.94	87.02	7.12	70.35	7.98
Ours w/out SA (mpnn1)	1.39	91.55	10.78	73.40	4.07
Ours w/ SA (mpnn1)	1.36	90.41	7.04	72.78	4.35

Pallatom-Ligand 在主链质量（Cα-RMSD、protein-pLDDT）和界面质量（ligand-pLDDT 最高、ipAE 最低）上几乎全面领先，验证了联合全原子建模的优势。

条件生成与折叠控制¶

配置	Fold 成功率	Pocket 成功率	Pose 成功率	α% / β%
w/out cond.	71.5%	4.4%	1.0%	79.4 / 3.5
α ∈ [0~0.2]	56.2%	2.8%	0.8%	9.4 / 57.2
α ∈ [0.2~0.8]	60.8%	6.3%	0.9%	61.7 / 19.4
α ∈ [0.8~1.0]	66.8%	11.0%	1.5%	82.4 / 0.5
RFdiffusion2 (mpnn1)	58.5%	17.5%	3.5%	64.5 / 14.6

无条件时模型偏向全 α（α% 高达 79.4）；给定 α 条件后能精确跟随（β 设定下 β% 升到 57.2），证明全局折叠可控。α ∈ [0.2~0.8] 覆盖最广，多样性（0.26）和新颖性（0.85）最高。

关键发现¶

三注意力缺一不可：消融（Appendix A.16.1）逐个移除注意力模块，证明三路设计对生成能力都有贡献——这正是全原子双层级信息交换的来源。
稳定性-功能 trade-off 被复现：显式条件把所有配体原子埋藏时，折叠成功率下降但 pocket/pose 成功率略升。这种「蛋白稳定性 ↔ 功能」的反向关系是蛋白科学公认原理，模型从数据中自发学到了它。
泛化更均衡：Pallatom-Ligand + LigandMPNN 对全部八个靶标都成功生成 in silico binder，而 RFdiffusion2 在 FAD、SAM 上失败，RFdiffusionAA 八个里只成功三个。
配体 SA 控制有效：对 FMN/DOG/LDP 按预定义 per-atom SA 标签生成的 40 个蛋白，其 SASA 分布与设计目标高度吻合，说明原子级可及性控制确实落地。

亮点与洞察¶

「残基 = 14 原子通用分子」的统一表示：把蛋白和配体放进同一个原子坐标系，既统一了化学空间表达，又让端到端联合生成结构与序列成为可能——这是绕开「主链 + 独立逆折叠」两段式范式的关键一步。
双层级双向回路：token↔atom 的来回转换让全局折叠和局部界面互相精修，是对「主链-only 切断信息流」痛点最直接的架构级回应，思路可迁移到任何「整体几何 + 局部细节」需要协同的生成任务。
数据驱动复现物理规律：模型自发学到「稳定性-功能 trade-off」，说明全原子联合建模确实抓到了真实蛋白的物理本质，而非拟合表面统计。
组件级评测指标：把笼统的 AlphaFold3 置信度拆成 scaffold / pose / interface 三块，能精准定位方法的强弱项，为后续改进指方向——这套评测协议本身就是可复用的贡献。

局限与展望¶

仅限蛋白-小分子体系：作者承认目前不支持核酸复合物、共价配体结合、非天然氨基酸蛋白，未来要拓宽到这些生物大分子组装。
数据规模仍是瓶颈：高质量蛋白-配体结构稀缺，计划用更大的蒸馏数据集进一步提升性能上限。
只验证了 in silico：所有成功率都是「与 AlphaFold3 预测的结构一致性」，作者明确强调这只是有效设计的必要条件，并不保证生物活性——还缺湿实验验证。
pose 成功率绝对值偏低：即便领先，最严格的 ligand-pose 成功率也多在 1% 量级，说明精确摆好配体位姿仍是开放难题，作者指出后续重点是精修原子级配体-蛋白交互的学习。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个真正端到端、配体感知的全原子扩散模型，统一原子表示 + 双层级信息交换是范式级改进。
实验充分度: ⭐⭐⭐⭐ 八靶标综合 benchmark + 折叠/SA 双条件验证 + 组件级指标，但缺湿实验、pose 绝对成功率偏低。
写作质量: ⭐⭐⭐⭐⭐ 动机推导清晰，架构和条件策略讲得具体，评测协议设计严谨。
价值: ⭐⭐⭐⭐⭐ 直接服务于生物传感器/药物等设计，且统一全原子框架可外推到更广的生物大分子体系。