Cross-Chirality Generalization by Axial Vectors for Hetero-Chiral Protein-Peptide Interaction Design¶
会议: ICML2026
arXiv: 2602.20176
代码: https://github.com/YZY010418/PepMirror
领域: 科学计算 / 蛋白-多肽设计 / 等变神经网络
关键词: D-肽设计, 轴向量, \(SE(3)\) 等变, 镜像对映体, 潜空间扩散
一句话总结¶
本文提出 AFI(Axial Feature Injection),把轴向量特征以线性混合方式注入 \(E(3)\)-等变标量化模型的极向量通道,使其退化为 \(SE(3)\)-等变并对手性敏感;以此改造 UniMoMo 得到 PepMirror,仅用同手性(L-L)训练数据即可零样本生成异手性(D-L)多肽 binder,并通过湿实验在 CD38 靶点上验证为首个实验确证的 AI de novo D-肽设计框架。
研究背景与动机¶
领域现状:天然蛋白几乎全由 L-氨基酸组成(同手性 homo-chirality)。D-肽因蛋白酶不识别、半衰期长、免疫原性低,是极具潜力的治疗分子。但 D-肽 binder 传统上靠 mirror-image display 筛选——需先合成 D-蛋白靶标,工艺极难。近年 ML-based peptide design 蓬勃发展,但绝大多数模型只面向 L-L 同手性界面。
现有痛点:现有等变蛋白生成模型分两类,都不能直接设计 D-肽 binder。第一类(RFDiffusion、PepFlow、D-Flow 等)用刚体局部坐标系参数化氨基酸,把右手性写死成先验,结构与镜像之间只差一个旋转矩阵,根本无法区分镜像;第二类(PepGLAD、UniMoMo、PocketXMol)依赖 \(E(3)\)-等变骨干,对空间反演 \(P=-I_3\) 严格等变,导致"输入 D-靶标 → 输出 D-肽"——这正是镜像 display 想要的反方向,但模型自己输出的是混合手性,不能稳定生成单一手性的 binder。唯一专门尝试 D-Flow 也只停留在 dry-lab。
核心矛盾:要做异手性界面,模型必须同时满足两点——手性感知(\(X\) 和 \(-X\) 的潜码要可分)和潜码稳定(\(-X\) 仍要被认成同一种氨基酸,只是手性翻了,不能漂到别的氨基酸类去)。两者其实在拉扯:\(E(3)\)-等变保证了稳定但杀死了感知;完全打破等变又可能让 \(-X\) 的表示乱飘。已有手性感知方法(SphereNet 的扭转、ChIRo、Tensor Field Networks 的高阶球谐)要么只验证过分类/属性预测,要么计算代价大、易在高频噪声上过拟合,从没被用于异手性肽-蛋白界面生成。
本文目标:(i)给标量化等变模型一个轻量的手性感知插件;(ii)从理论上保证它产生的潜码满足"\(X\) vs \(-X\) 距离 < \(X\) vs 其它氨基酸 \(X'\) 距离";(iii)落到 latent diffusion 上做出真能在湿实验里成药的 D-肽 binder 设计器。
切入角度:经典物理早把 3D 向量分两类——极向量 polar vector(如位置、速度,\(P\) 下变号)与轴向量 axial vector(如角动量、磁场,\(P\) 下不变号)。原版 \(E(3)\)-等变标量化模型只用极向量;若把轴向量也加进去,就能保留 \(SE(3)\)-等变(旋转、平移)但破坏 \(P\)-等变,自然产生手性区分。
核心 idea:把轴向量(叉积、三重积、对易子三种构造)通过通道-wise 线性混合 \(\tilde v_{i,k}=A_k^\top v_{i,:}+B_k^\top a_{i,:}\) 注入到每层 EPT 的 FFN 前,模型瞬间从 \(E(3)\) 降到 \(SE(3)\) 等变,再放进 UniMoMo 的 VAE+latent diffusion 框架,即得 PepMirror。
方法详解¶
整体框架¶
PepMirror 沿用 UniMoMo 的两阶段 latent diffusion 架构:编码端 EPT(Equivariant Pretrained Transformer,含 \(L\) 层 self-attention + GVP-FFN)把蛋白靶标 / 多肽点云图 \(\mathcal{G}\) 映射为 \((H,V)\),其中 \(H\in\mathbb{R}^{N\times K}\) 是 \(E(3)\)-不变标量、\(V\in\mathbb{R}^{N\times 3\times K}\) 是 \(E(3)\)-等变向量;扩散端在潜空间对 binder 的潜码做条件去噪,条件为靶标 pocket 的潜码 \(c\);解码端把生成的 binder 潜码解回 3D 结构。本文唯一动到的就是 EPT 主干——在每层 GVP-FFN 之前对 \(V\) 注入轴向量得到 AFI-EPT,记号上原 \(V_j'(X)\) 被 \(\widetilde V_j(X)\) 替换。整体推理流程为:先把 L-靶标 \(\mathcal{G}_t\) 通过 \(P=-I_3\) 反演到 \(\mathcal{G}_t'\),让模型针对 D-靶标生成 L-binder \(f_\theta(\mathcal{G}_t')\),再把输出反演回 \(\mathcal{G}_b=P(f_\theta(P(\mathcal{G}_t)))\),得到对原 L-靶标的 D-肽 binder。
关键设计¶
-
AFI(Axial Feature Injection)轴向量注入:
- 功能:把 \(E(3)\)-等变标量化主干降级为 \(SE(3)\)-等变,使每个残基的潜码对镜像 \(-X\) 产生可区分但有限的偏移。
- 核心思路:轴向量定义为 \(a(Rx)=\det(R)\,Ra(x)\),在空间反演 \(P=-I_3\) 下不变号;极向量则变号 \(v(-X)=-v(X)\)。在每层 FFN 前做通道线性混合 \(\tilde v_{i,k}(X)=A_k^\top v_{i,:}(X)+B_k^\top a_{i,:}(X)\),其中 \(A_k,B_k\in\mathbb{R}^K\) 为可学习系数。本文给出三种由 \(V'\) 相邻通道 \(u,v,w\in\mathbb{R}^3\) 构造轴向量的方式:(a) 叉积 \(u\times v\);(b) 标量三重积投影 \((w\cdot(u\times v))\,w\);(c) 对易子 \((u\cdot v)(u\times v)\),对易子能捕获 \(u,v\) 夹角的更高频信息。
- 设计动机:相比 Tensor Field Networks 用高阶球谐 / 张量积来编码手性(计算重、易过拟合高频噪声),AFI 只动二阶以下张量,参数与计算开销近乎可忽略;且对原模型代码改动极小(只插一行混合层)。理论上还要避免退化——文中提醒若 \(A=B=I\) 且 \(v\cdot a=0\),则 \(\|\tilde v(X)\|=\|\tilde v(-X)\|\) 不再有判别力,所以保证手性区分需"通用参数概率"(见 Theorem 3.1)。
-
Chirality awareness 定理与潜码稳定性论证:
- 功能:理论上同时保证"\(X\) 与 \(-X\) 潜码有不可忽略的差异"和"\(X\) 与 \(-X\) 比 \(X\) 与异种 \(X'\) 更近",即潜空间出现 20 个紧致的氨基酸-类别簇、每簇内部 L/D 子簇相邻。
- 核心思路:Theorem 3.1(informal):对随机采样的混合系数,在向量特征有界等温和条件下,\(\|c(X)-c(-X)\|\ge c_W\varepsilon\) 以概率 \(1-\delta_W(\varepsilon)\) 成立;Proposition 3.2 证明没有 AFI 时由 \(V(-X)=-V(X)\) 立刻得 \(c(-X)=c(X)\)(因为标量端只取范数)。稳定性侧用 \(d(X_1,X_2)=\|H(X_1)-H(X_2)\|+\|\widetilde V(X_1)-\widetilde V(X_2)\|\) 量度,因 \(H(-X)=H(X)\)、\(a(-X)=a(X)\)、\(v(-X)=-v(X)\),所以 \(d(X,-X)=\|2Av(X)\|\) 受系数 \(A\) 控制;再用氨基酸 Tanimoto 形状相似度作几何旁证支持 \(d(X,X')>d(X,-X)\)。最后给条件扩散一个 Lipschitz 假设,证 Theorem 3.4:\(W_2(\mu_c,\mu_{c'})\le K_{\text{diff}}\|c-c'\|\),于是镜像靶标给出的潜码相近 ⇒ 解码出的 binder 分布相近 ⇒ 模型即便没见过 D-L 训练对也能泛化。
- 设计动机:单纯实验做出来易被质疑"凑参数",加上这套"差异 + 稳定 + 扩散连续"三步证明,把"零样本异手性泛化为何能 work"从经验观察提升到了有保证的机制解释;也回应了为何选轴向量而非直接砸张量积——正是因为后者无法给出这种简单的极/轴分解。
-
AFI-EPT 嵌入 UniMoMo 的 D-肽设计 pipeline:
- 功能:把 AFI 落到工程实现,得到端到端的 D-肽 binder de novo 设计模型 PepMirror。
- 核心思路:以 UniMoMo(VAE + latent diffusion)为底座,把 VAE 编/解码器和扩散网络的 EPT 主干都替换为 AFI-EPT;按构造方式得三个变体 PepMirror(cross/triple/commu.)。推理时按 mirror-image display 思路两次反演(输入 \(\to\) 反演到 D-靶 \(\to\) 模型生成 L-肽 \(\to\) 反演回 D-肽 binder)。下游 5,000 候选再走物理 + 几何过滤,挑 12 条化学合成做 BLI 测亲和力。
- 设计动机:选 UniMoMo 是因为它本身就不嵌入刚体 / 局部右手坐标系,是少数能与 AFI 干净叠加的骨干(RFDiffusion 之类 frame-based 模型一旦写死刚体就没法直接接 AFI);latent diffusion 又比 atom-level diffusion(PocketXMol)节省算力并享受 Theorem 3.4 的稳定性保证。
损失函数 / 训练策略¶
训练数据只用 L-L 同手性蛋白-肽复合物(与 UniMoMo 一致),损失为 VAE 重建 + latent diffusion 去噪标准目标,无任何 D-肽数据或手性显式监督——异手性能力完全由 AFI + 反演推理框架"零样本"涌现。
实验关键数据¶
主实验¶
LNR (Large Non-Redundant complex) 测试集,分别在 L 与 D 两个任务下评估手性正确率与界面亲和力(AutoDock Vina 打分),下表节选关键模型:
| 模型 | 任务 | 手性正确率(min) | Suc.% | Avg. Vina | Top Vina | IMP% |
|---|---|---|---|---|---|---|
| RFDiffusion | L | 99.57 | 99.52 | -3.30 | -5.14 | 44.09 |
| RFDiffusion | D | 99.15 | 98.58 | -1.77 | -3.78 | 16.13 |
| D-Flow | D | 98.54 | 97.52 | -3.11 | -4.54 | 22.58 |
| PepGLAD(ideal) | D | 99.04 | 95.08 | -3.26 | -5.11 | 43.01 |
| UniMoMo(all) | D | 15.70 | — | — | — | — |
| PepMirror(cross) | L | 99.83 | 99.67 | -4.27 | -5.81 | 69.89 |
| PepMirror(cross) | D | 99.81 | 99.76 | -4.15 | -5.69 | 63.44 |
PepMirror 在 D-肽任务上 IMP 比次佳 PepGLAD(ideal) 高约 20 个百分点,且与自身 L 任务的差距最小("L-D gap"最小),三个轴向量变体表现相近、对构造方式不敏感。
消融实验¶
| 配置 | D 任务手性正确率 | 说明 |
|---|---|---|
| UniMoMo(pep.) | 23.90 | \(E(3)\)-等变 baseline,输入 D-靶时输出基本仍是 L 残基(被反演原理拖反) |
| UniMoMo(all) | 15.70 | 多模态训练版本,仍受等变性限制 |
| AFI w/ cross | 99.81 | 注入叉积轴向量 |
| AFI w/ triple | 99.75 | 注入三重积轴向量 |
| AFI w/ commu. | 99.88 | 注入对易子轴向量,最佳 |
潜空间分析:注入 AFI 后 \(\|c(X)-c(-X)\|\) 中位距离从 \(\sim 10^{-6}\) 跃升到 \(10^{-2}\)(约 4 个数量级),但仍比异种氨基酸距离(\(\sim 1\))小约 2 个数量级——正对应 Theorem 3.1 + Eq. (15) 的"差异 + 稳定"双重结论,t-SNE 上显示 20 个氨基酸类别成簇、每簇内 L/D 各自聚成相邻子团。
关键发现¶
- AFI 是必要且充分的手性开关:去掉它整个 PepMirror 立刻坍缩为 UniMoMo 的混合手性输出(D 任务手性正确率 < 25%);加上它三种轴向量构造都能达 99.7%+,对易子稍优于叉积/三重积,提示更高频的几何特征略有帮助但收益边际。
- 湿实验首次确证:在 CD38(多发性骨髓瘤靶点)上设计 5,000 条 D-肽,过滤后合成 12 条,命中一条 10-mer D-肽 D-1412(序列 "trikhytyce"),\(K_D\approx 10\,\mu\)M,BLI 动力学与稳态拟合一致,是已知首个经湿实验验证的 AI de novo D-肽 binder。
- 意外现象:D-1412 的 L-对映体也展现了相近亲和力,挑战"肽-蛋白互作高度立体选择"的传统假设,作者用 CD 谱二次确认手性并指向构象柔性可能弱化立体选择性。
- L→D 性能落差最小:RFDiffusion 在 D 任务 Avg Vina 从 -3.30 掉到 -1.77,多数 baseline 都有显著 L-D gap;PepMirror 的落差只有约 0.1 kcal/mol,进一步佐证 AFI 让模型对手性"对称地学得好"。
亮点与洞察¶
- 极/轴向量分解是经典物理的礼物:作者没用复杂的高阶球谐,而是把"\(P\) 下变号"作为唯一区分轴,这种最低成本的对称性破缺设计可直接迁移到任意标量化等变骨干(EGNN、GVP、TFN-low-order),是真正的 plug-and-play。
- "零样本异手性"的理论闭环:差异性(Thm 3.1)+ 稳定性(\(d(X,-X)<d(X,X')\))+ 扩散 Lipschitz 连续性(Thm 3.4)三连击,把"为什么 L-L 训练能跨到 D-L 生成"讲成机制问题而非玄学,这套论证结构值得借鉴到其它 zero-shot 等变泛化任务(如对映异构小分子设计、手性催化剂)。
- 退化情形提醒:当 \(A=B=I\) 且 \(v\cdot a=0\) 时 AFI 失效,提示在更"对称漂亮"的初始化下反而要小心;启发我们设计这类破缺模块时不能只验证"加了模块更好",还得分析"什么参数会让模块退化"。
- 湿实验里 D-1412 的非立体选择性:是该工作最"反直觉"的发现——AI 设计出的 D-肽 binder 在 L 对映体上也能结合,说明传统 mirror-image display 隐含的"完全立体选择"假设需要修正,这给后续手性药物设计的评估框架提出了新问题。
局限与展望¶
- 作者承认 AFI 的理论保证依赖随机混合系数的"通用性"假设,特定初始化(如 \(A=B=I\) 加正交特征)会让差异消失,需在实践中靠学习/正则化避开。
- 仅在 UniMoMo 这一种 latent diffusion 框架上验证,未测试 frame-based 模型(RFDiffusion 类)能否直接套用 AFI,迁移性还需更多实验。
- 湿实验只挑了 CD38 一个靶点、12 条候选、1 条命中,统计意义有限;且 D-1412 的对映体也结合,未来需评估在更多靶点上的立体选择性分布。
- Theorem 3.4 的 Lipschitz 假设对真实 score network 是否严格成立未做实证验证;潜码差异虽证存在,但生成质量与潜码差异的定量映射缺少更系统的扫描。
- 改进方向:(i) 把 AFI 推广到 frame-based 模型;(ii) 联合手性正则项主动放大 \(d(X,-X)\);(iii) 在湿实验中纳入立体选择性筛选作为额外目标。
相关工作与启发¶
- vs D-Flow (Wu et al., 2024):D-Flow 也借鉴 mirror-image display 思路做反演 + L-肽生成 + 反演回 D-肽,但底座是 frame-based 模型且只 dry-lab。本文用 \(E(3)\) 标量化主干 + AFI 直接突破等变性限制,且首次走通湿实验。
- vs PepGLAD / UniMoMo / PocketXMol:三者都是无显式手性先验的 \(E(3)\)-等变模型,但因严格等变性导致输入反演时输出也反演(生成混合手性),PepGLAD 只能事后做 idealization 强制 L 化。AFI 是从架构层面而非后处理解决问题,且不需要丢弃几何信息。
- vs SphereNet / ChIRo / ChiENN / GCPNet / REM3DI:这些手性感知工作覆盖扭转角注入、阶序敏感聚合、pseudovector 通道等思路,但都未在异手性肽-蛋白界面生成任务上验证,本文是把这类机制首次推到"de novo + 湿验证"的应用层面。
- vs Tensor Field Networks / \(SE(3)\)-Transformer / e3nn:高阶球谐天然能编码手性,但算力贵且易过拟合高频。AFI 只用二阶以下张量积构造轴向量,是高阶表征的轻量化平替,给出了"想要手性敏感但不想付张量积代价"的中间方案。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 用极/轴向量分解给等变模型"开手性开关"是优雅且首创的视角,配合零样本异手性生成的理论框架。
- 实验充分度: ⭐⭐⭐⭐⭐ in-silico 覆盖 8+ baseline、L/D 双任务、潜空间分析、CD38 湿实验 + BLI + CD 谱齐全。
- 写作质量: ⭐⭐⭐⭐⭐ 理论与工程并重,定理-反例-退化讨论结构清晰,图 3/4 把潜空间直观可视化。
- 价值: ⭐⭐⭐⭐⭐ 首个湿实验确证的 AI de novo D-肽 binder 设计框架,对手性药物发现有直接落地意义。