Efficient Prediction of Large Protein Complexes via Subunit-Guided Hierarchical Refinement¶
会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=0G8Cq9z2Hp
代码: https://github.com/Luchixiang/HierAFold
领域: 计算生物学 / 蛋白复合物结构预测
关键词: 蛋白复合物预测, AlphaFold3, PAE, 子单元分解, 大规模结构装配
一句话总结¶
HIERAFOLD 用 PAE 从粗粒度两两预测中自动切出刚性子单元和跨链接口,再只对“焦点链 + 相关接口子单元”做高精度精修,最后用置信度加权对齐装配,从而在接近 AlphaFold3 准确率的同时把大蛋白复合物的峰值显存压到可运行范围。
研究背景与动机¶
领域现状:AlphaFold2/AlphaFold3 系列已经把单体蛋白、多链蛋白复合物乃至蛋白-配体结构预测推到很高精度。 这类模型通常把残基、核苷酸或配体原子表示成 token,再通过 pair representation、triangle update、attention 和扩散采样推断三维结构。 在中小规模复合物上,端到端地把所有链一起送进模型是最直接也最可靠的做法,因为模型能同时看到所有跨链相互作用。
现有痛点:问题出在“很大”的复合物上。 AlphaFold3/Protenix 这类模型的关键模块对 token 数有近似二次显存开销,几千 token 后显存迅速失控。 论文里提到,约 4,500 token 的复合物可能需要 80GB GPU 显存;在 5,000 token 以上的大复合物集合上,端到端 AlphaFold3 baseline 直接 OOM。 已有的替代方案常把复合物拆成 pair/triple,再用 MCTS 或组合装配拼回整体,但这种“只看两两关系再拼图”的策略容易漏掉多链协同:一个接口在 pair 里看起来合理,放到完整复合物里却可能方向错、闭合不了,或者被第三条链改变构象。
核心矛盾:大复合物预测同时需要两件事:一方面不能把所有 token 端到端放进模型,否则显存爆炸;另一方面又不能只做孤立两两预测,否则缺少多体上下文。 真正要保留的上下文不是整个复合物,而是每条链周围会影响其构象和装配的少数接口区域。 也就是说,问题不是“拆不拆”,而是“怎样自动拆到足够小,同时不丢关键接口”。
本文目标:作者希望构建一个自动化的大蛋白复合物预测流程。 它需要先从粗预测中识别每条链内部相对刚性的结构子单元,再找出哪些外部子单元可能和当前链形成可靠接口;随后用完整的 AlphaFold3-style 模型只在这个局部上下文里精修;最后把多个局部高置信预测对齐成完整复合物。 目标不是训练一个完全替代 AlphaFold3 的新端到端模型,而是把已有强预测器包装成更可扩展的分层推理系统。
切入角度:关键观察来自 PAE(Predicted Aligned Error)。 低 PAE 的对角块通常意味着一段链内部相对刚性、可作为结构子单元;跨链的低 PAE 离对角块则常对应模型对相对位置有信心的接口区域。 因此,PAE 不只是置信度输出,还能当作“哪里该拆、哪里该保留上下文”的结构线索。
核心 idea:用 PAE 引导的子单元分解,把大复合物预测改写成多次“焦点链 + 稀疏接口子单元”的局部精修,再用置信度加权装配恢复全局结构。
方法详解¶
整体框架¶
HIERAFOLD 的输入是一组肽链序列,输出是完整蛋白复合物的三维结构。 它先对所有链对做快速粗预测,得到两两结构和 PAE;然后从 PAE 中切出链内刚性子单元并筛选跨链接口子单元;接着对每条焦点链分别执行一次高精度局部精修;最后把这些部分重叠的结构预测装配到同一个坐标系里。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["输入多条肽链序列"] --> B["一致性蒸馏粗预测<br/>两两链结构 + PAE"]
B --> C["PAE引导的模块分解<br/>切子单元 + 找接口"]
C --> D["接口感知局部精修<br/>焦点链 + 相关子单元"]
D --> E["置信度加权全局装配<br/>重叠区域对齐"]
E --> F["完整蛋白复合物结构"]
这张图里的四个中间节点就是论文的核心贡献。 “一致性蒸馏粗预测”解决全链对粗筛太慢的问题;“PAE引导的模块分解”决定哪些结构片段值得保留;“接口感知局部精修”负责在显存可控的局部上下文中恢复多体协同;“置信度加权全局装配”则把多个局部坐标系合并成一个全局模型。
关键设计¶
1. 一致性蒸馏粗预测:用少步扩散为全对链组合提供便宜的结构先验
如果直接用完整 AlphaFold3-style 模型为所有链对做粗预测,复杂度会随着链数变成大量两两推理,而且每次推理还要跑昂贵的扩散过程。 HIERAFOLD 的第一步只是为了拿到足够可用的两类先验:链对的粗坐标 \(X_{ij}\) 和对应 PAE 矩阵 \(P_{ij}\)。 因此作者训练了一个 consistency-distilled 结构预测器,用更浅的 Pairformer(12 个 token-level transformer blocks,而不是 24 个)和少步扩散替代完整采样。
这个蒸馏模型学习在不同噪声时间步上给出自洽的结构输出。 论文把目标写成相邻时间步之间的 consistency loss:
其中 \(c\) 是 Pairformer 提取的条件特征,\(\theta^-\) 是 EMA target model,\(\hat{x}_{t_n}\) 是从 \(x_{t_{n+1}}\) 沿 ODE 回退一步得到的估计。 推理时,粗阶段只跑两步 refinement,每个链对生成 5 个随机样本,并用 ipTM、pTM 和 clash penalty 的组合分数选出 top-ranked 样本。 这样做的意义很具体:粗阶段不追求最终结构精度,而是以低延迟提供“哪些区域相对刚、哪些链段可能相互作用”的信号,后面的精修再用完整模型补回精度。
2. PAE引导的模块分解:用低误差块同时切出刚性子单元和跨链接口
大蛋白复合物并不是一团不可拆的残基云。 一条链内部常由多个相对稳定的结构域或功能模块组成,跨链相互作用也通常集中在少数接口区域。 HIERAFOLD 利用 PAE 的两个形态特征来自动发现这种模块性:链内低 PAE 对角块对应相对刚性的子单元,跨链低 PAE 离对角块对应模型有信心的接口。
对一条长度为 \(L\) 的链,作者从 pairwise PAE 里取出链内矩阵 \(P_{ii}\),再用递归 top-down partitioning 切分区间。 对任意候选片段 \([i,j)\),算法枚举切点 \(k\),计算切开后两个子片段之间的平均互相 PAE:
直觉是:如果两个候选子片段之间的相对位置不稳定,跨块 PAE 会高,说明它们更像两个可分开的结构单元。 当最大 \(P_{inter}(k)\) 超过阈值 \(\tau_{split}\),并且两边长度都大于 \(L_{min}\) 时,算法接受这个切分并继续递归。 实验默认 \(\tau_{split}=10.0\),\(L_{min}=20\)。
切完链内子单元后,方法再为每条焦点链 \(C_a\) 选择来自其他链的邻域子单元 \(N(C_a)\)。 一个外部子单元 \(U_{b,j}\) 会被选入上下文,如果它与 \(C_a\) 的 mean interface PAE 足够低,或者在粗预测坐标中与 \(C_a\) 的最小中心原子距离足够近。 默认阈值是 \(\bar{P}(C_a,U_{b,j})<\tau_p=5.0\) 或 \(d_{min}(C_a,U_{b,j})<\tau_d=20\ \text{Å}\)。 这里 PAE 和距离不是重复信号:PAE 表示模型对相对位置有多相信,距离表示粗结构里是否真的靠近;两者合用比只看其中一个更稳。
3. 接口感知局部精修:只把焦点链和相关接口送进完整模型以保留多体上下文
传统 divide-and-conquer 方法常预测所有 pairwise interaction,再把 pair 拼成整体。 它的问题是每个 pair 只见到两条链,无法表达“第三条链改变接口构象”或“多个子单元共同稳定一个局部构象”的多体效应。 HIERAFOLD 的精修阶段不是孤立 pair 预测,而是对每条焦点链 \(C_a\) 构造组合输入 \(C_a \cup N(C_a)\):完整保留焦点链,同时只加入其他链上被筛出的相关接口子单元。
这个局部输入比全复合物小得多,所以可以运行完整 AlphaFold3-style inference;但它又比 pairwise docking 更有上下文,因为同一焦点链周围的多个潜在接口会一起出现。 最终每条链都会得到一个高分辨率、部分重叠的局部预测 \(\hat{X}_a\)。 这些预测各自处在不同坐标系里,但每个预测都包含焦点链及其部分外部接口,因此后续装配有足够重叠区域可用。 这一步是 HIERAFOLD 相比 CombFold 类方法的关键区别:它不是先独立预测 pair 再组合,而是在显存允许的局部范围内显式让多个接口共同参与精修。
4. 置信度加权全局装配:用可靠重叠区域决定局部结构如何拼回全局
精修结束后,模型有 \(M\) 个局部结构预测,每个预测都可信但坐标系不同。 如果直接用普通 Kabsch 对所有重叠原子做刚体对齐,柔性 loop、IDR 或低置信片段可能把整体变换拉偏。 HIERAFOLD 因此使用 confidence-weighted Kabsch:先选择最高置信的局部预测作为全局装配起点,再逐个把剩余 \(\hat{X}_a\) 对齐到当前全局结构。
对重叠原子集合中的第 \(k\) 个原子,权重设为两边 pLDDT 的乘积:
然后求解加权 RMSD 最小的旋转 \(R\) 和平移 \(t\):
这个设计尤其适合大复合物,因为大复合物里常有柔性区域和局部不确定性。 高 pLDDT 的接口和稳定结构域会主导对齐,低置信的无序片段则被自然降权。 论文在 IDR 分析里也解释了这一点:IDR 往往会被 PAE 分割成单独子单元,真正参与结合时仍会因跨链低 PAE 被选入精修,而装配时又因低 pLDDT 不会过度影响全局刚体变换。
一个完整示例¶
假设一个复合物有 5 条链,总长超过 5,000 token,端到端 Protenix/AlphaFold3 在 80GB A100 上会 OOM。 HIERAFOLD 首先对所有链对做快速粗预测,拿到每对链的 PAE 和坐标。 其中链 \(C_3\) 的链内 PAE 出现两个低 PAE 对角块,中间跨块 PAE 很高,于是被切成两个子单元;链 \(C_4\) 的某个子单元和 \(C_1\) 之间出现低 PAE 离对角块,并且粗坐标距离小于 \(20\ \text{Å}\),因此被认为是 \(C_1\) 的候选接口子单元。
轮到精修 \(C_1\) 时,完整输入不是 5 条链全放进去,而是 \(C_1\) 加上来自 \(C_2,C_3,C_4,C_5\) 的少数接口子单元。 这样 token 数可能从 5,000+ 降到一条焦点链加几个局部片段,完整 AlphaFold3-style 模型可以正常运行。 轮到 \(C_2\)、\(C_3\) 等链时,系统重复同样流程,得到多个互相重叠的局部结构。 最后,装配阶段从最高置信局部结构出发,用重叠接口上 pLDDT 高的原子估计刚体变换,把各条焦点链逐步放回同一个全局坐标系。
这个例子说明 HIERAFOLD 的“层级”不是简单裁剪输入,而是先用 PAE 找出哪些裁剪不会破坏接口信息,再让完整模型在这些局部上下文中做高质量推理。
损失函数 / 训练策略¶
训练只发生在粗阶段的一致性蒸馏模型上;高精度精修阶段使用 Protenix v0.5.0 作为 AlphaFold3-style backbone。 蒸馏模型把 token-level transformer block 从 24 层减到 12 层,atom-level transformer stack 保持不变。 训练使用 Adam,学习率 \(1\times10^{-5}\),2,000 step linear warmup,\(\beta_1=0.9\),\(\beta_2=0.95\),weight decay 为 \(1\times10^{-8}\)。 训练数据来自 Protenix 预处理复合物数据集,序列裁剪到最多 512 token 以适配显存。
推理时,粗阶段对每个链对生成 5 个随机样本,只跑两步 iterative refinement,并按 ipTM、pTM 和 clash penalty 的组合分数选出一个粗预测。 短链(少于 40 token)不再细分而是始终保留;小分子配体的所有原子始终保留,并与每条焦点链及其选择子单元独立 docking,最终用平均 atom pLDDT 选择配体姿态。 如果某个链对的最大 ipTM 低于 0.2,说明粗预测交互不可靠,该 partner chain 会从焦点链上下文中整体排除。
实验关键数据¶
主实验¶
论文用 Protenix v0.5.0 作为 AlphaFold3 的开源复现 baseline。 蛋白-蛋白接口使用 DockQ success rate(DockQ \(>0.23\)),蛋白-配体用 ligand RMSD \(\le 2\ \text{Å}\) success rate,同时报告 Oracle 和 Top-1。 最关键的结果是:HIERAFOLD 在标准 recent PDB 和 PoseBuster v2 上几乎保持 AlphaFold3 baseline 的准确率,而在 5,000 token 以上的大复合物上突破 OOM,并显著优于 CombFold。
| 数据集 | 指标 | HIERAFOLD | AlphaFold3 baseline | 关键对比 |
|---|---|---|---|---|
| Recent PDB | DockQ Oracle success | 73.1% | 74.4% | 几乎不牺牲标准规模准确率 |
| Recent PDB | DockQ Top-1 success | 69.0% | 70.4% | Top-1 只低 1.4 个百分点 |
| PoseBuster v2 | Ligand RMSD \(\le 2\ \text{Å}\) Oracle | 77.4% | 78.6% | 配体精细相互作用基本保留 |
| PoseBuster v2 | Ligand RMSD \(\le 2\ \text{Å}\) Top-1 | 74.7% | 76.0% | 小分子处理策略有效 |
| Large Complexes \(>5k\) tokens | DockQ Oracle success | 44.5% | OOM | baseline 无法运行 |
| Large Complexes \(>5k\) tokens | DockQ Top-1 success | 43.9% | OOM | 相比 CombFold+AF3 的 19.8% 明显更强 |
与 CombFold 的差距说明了方法设计的重点。 在 Recent PDB 上,CombFold+AF3 即使用同一个强预测引擎,Top-1 也只有 43.2%,远低于 HIERAFOLD 的 69.0%。 这表明性能提升不是来自 backbone 模型更强,而是来自“局部多接口一起精修”比“pairwise 预测后组合装配”更能保留多链协同。
| 组件 / 数据切片 | 指标 | 结果 | 说明 |
|---|---|---|---|
| CombFold+AF3 on Recent PDB | Top-1 DockQ success | 43.2% | 同用 AF3-style engine,但缺少局部多体精修 |
| HIERAFOLD on Recent PDB | Top-1 DockQ success | 69.0% | 接近端到端 baseline |
| CombFold+AF3 on Large Complexes | Top-1 DockQ success | 19.8% | 大复合物上 pairwise assembly 更吃亏 |
| HIERAFOLD on Large Complexes | Top-1 DockQ success | 43.9% | 显存可控且保留关键接口上下文 |
| Benchmark 2 from CombFold | Top-1 DockQ success | 50.7% vs 30.2% | HIERAFOLD 高于 CombFold |
消融实验¶
消融显示,HIERAFOLD 的几个环节都不是装饰性组件。 完整扩散模型做粗预测只带来很小准确率增益,却把平均时间从 46 分钟拉到 125 分钟;只用 PAE 或只用距离筛接口都会掉点;去掉 pLDDT 加权装配也会明显降低 Top-1。
| 配置 | Oracle / Top-1 | 平均时间 | 说明 |
|---|---|---|---|
| HIERAFOLD full | 73.1% / 69.0% | 46 min | 默认完整方法 |
| 粗阶段用完整扩散模型 | 73.3% / 69.4% | 125 min | 准确率只小幅提升,耗时约 3 倍 |
| 粗阶段 mini-rollout 20 steps | 71.0% / 68.2% | 52 min | 粗构象不够好会影响最终结果 |
| \(\tau_{split}=0\) residue-level | 72.0% / 67.8% | 45 min | 过细切分破坏结构连贯性 |
| PAE-only selection | 71.0% / 66.9% | 46 min | 只看相对置信不如 PAE+距离 |
| Distance-only selection | 70.4% / 66.3% | 46 min | 只看粗坐标距离更不稳 |
| fine stage 使用蒸馏模型 | 69.3% / 64.9% | 15 min | 速度快但高精度精修质量不足 |
| unweighted assembly | 71.0% / 66.5% | 45 min | 不按 pLDDT 加权会被低置信片段干扰 |
论文还分析了 PAE 分割阈值的敏感性。 \(\tau_{split}=5,15,20\) 时 Top-1 基本在 68.9% 到 69.1% 附近,说明方法对合理阈值不太敏感。 但 \(\tau_{split}=0\) 的 residue-level 过细分割会掉到 67.8%,支持作者的判断:HIERAFOLD 需要的是结构上协同移动的子单元,不是越碎越好。
关键发现¶
-
HIERAFOLD 的最大价值不是在标准规模上超过 AlphaFold3,而是在几乎保持标准规模准确率的同时,把大复合物从 OOM 变成可运行。 论文报告大 token 数时峰值显存可节省约 40%,4,000 token 目标上约减少 25GB。
-
PAE 是比传统 domain segmentation 更适配该任务的信号。 Merizo 在 CATH domain parsing 上 IoU 更高,但换成 Merizo 分割并不会带来更好结构预测;PAE 分割虽然不追求进化域定义,却更贴合“刚性子单元 + 接口上下文”的下游需求。
-
IDR 场景没有被层级分解额外放大问题。 随着 interface disorder score 从 low 到 high,AlphaFold3 和 HIERAFOLD 的 DockQ 都下降;HIERAFOLD 的下降模式接近 baseline,说明分割、选择和装配没有引入新的 IDR 脆弱性。
| Interface IDR score | AlphaFold3 mean DockQ | HIERAFOLD mean DockQ | 解释 |
|---|---|---|---|
| Low (0.1-0.25) | 0.55 | 0.52 | 低无序接口上两者都较稳 |
| Medium (0.25-0.5) | 0.49 | 0.44 | 无序增强后两者下降 |
| High (\(>0.5\)) | 0.46 | 0.41 | 高柔性接口本身更难预测 |
- 规模越大,HIERAFOLD 相对 CombFold 的优势越稳定。 在 recent PDB 按 token 数分 bin 后,HIERAFOLD 相比 CombFold 的成功率优势从 0-1,000 token 的 +13.4% 增长到 3,000-4,000 token 的 +23.9%,在 \(>4,000\) token 仍有 +23.1%。
亮点与洞察¶
-
最巧妙的地方是把 PAE 从“置信度可视化”变成了“推理调度信号”。 论文没有额外训练一个复杂 domain parser,而是复用粗预测天然产生的 PAE,直接决定子单元边界和跨链接口,成本很低且和下游精修目标一致。
-
HIERAFOLD 对 divide-and-conquer 的修正很有启发。 它不是简单把大问题拆小,而是让每个小问题仍然保留足够多体上下文:焦点链看到多个相关接口子单元,因此比 pairwise assembly 更不容易漏掉高阶耦合。
-
confidence-weighted assembly 是一个朴素但有效的工程细节。 大复合物装配里低置信柔性区域很多,普通刚体对齐会被这些区域污染;用两边 pLDDT 乘积做权重,本质上是在问“哪些重叠原子最值得相信”。
-
这套思想可以迁移到其他“大对象 + 局部交互稀疏”的结构预测任务。 例如 RNA-蛋白复合物、多蛋白-配体体系、甚至某些材料/分子组装问题,都可能用粗预测置信图先筛局部交互,再局部精修和全局装配。
局限与展望¶
-
HIERAFOLD 用时间换显存。 它需要对链对做粗预测,并对每条焦点链分别跑 fine-stage refinement;虽然每次输入更小,但总推理次数变多。 论文报告 4,000 token 时 AlphaFold3 baseline 约 74 分钟,HIERAFOLD 约 98 分钟;5,000 token 时 baseline OOM,而 HIERAFOLD 约 170 分钟。
-
方法上限受 backbone 预测器限制。 HIERAFOLD 不是重新学习物理规律的模型,而是包装 AlphaFold3/Protenix 这类 predictor。 对 AlphaFold-family 本身难处理的多状态构象、抗体相关复杂接口、超长链训练分布外问题,它也会继承相当一部分困难。
-
大复合物数据集上的绝对准确率仍不高。 虽然 Top-1 43.9% 已远高于 CombFold+AF3 的 19.8%,但相比 Recent PDB 的 69.0% 仍有明显差距。 作者指出该集合含有更高比例蛋白-抗体相互作用,并且链长远超训练时 768 token crop,未来可能需要针对大复合物更长 crop 或专门 finetuning。
-
多状态装配仍是明显短板。 论文给出的 apo/holo 例子显示,HIERAFOLD 可能像 AlphaFold3 一样把本应开放的 apo 状态也预测成闭合状态。 后续可以结合 AlphaFold-family 的 multi-state prediction 技术,例如 MSA clustering、状态约束或多构象采样,让层级流程不只输出一个默认构象。
相关工作与启发¶
-
vs AlphaFold3 / Protenix: AlphaFold3-style 模型端到端看完整复合物,准确率高但显存随 token 数快速增长。 HIERAFOLD 保留其高精度精修能力,但只在焦点链与相关接口子单元上运行,因此牺牲少量标准规模准确率来换取大复合物可扩展性。
-
vs CombFold: CombFold 也走分而治之路线,但主要依赖 pairwise 子复合物预测和组合装配。 HIERAFOLD 的区别是用 PAE 选出接口子单元,并在 fine stage 让多个接口共同进入同一次 AlphaFold3-style 推理,因此更能表达多链协同。
-
vs MoLPC: MoLPC 通过 pair/triple 预测和 Monte Carlo Tree Search 装配大复合物,更依赖准确的对称性、化学计量和搜索过程。 HIERAFOLD 更像一个由 PAE 自动调度的局部精修系统,不需要专家预先定义子单元,也不把主要压力放在全局组合搜索上。
-
vs Merizo / CATH / ECOD 等 domain segmentation: 传统 domain 工具关注进化域或结构域边界,可能需要额外推理或数据库信息。 HIERAFOLD 的 PAE 分割不一定最符合生物学 domain 注释,但它更关注“哪些片段作为刚性模块参与当前复合物装配”,因此更服务于预测任务本身。
评分¶
- 新颖性: ⭐⭐⭐⭐☆ 把 PAE 用作层级推理调度信号并不复杂,但和大复合物显存瓶颈结合得很精准。
- 实验充分度: ⭐⭐⭐⭐☆ 覆盖 Recent PDB、PoseBuster v2、大复合物、IDR、显存、时间和多项消融;若能有更多真实超大复合物案例会更强。
- 写作质量: ⭐⭐⭐⭐☆ 论文主线清楚,方法和实验对齐较好,但部分 implementation 叙述有小的排版/术语瑕疵。
- 价值: ⭐⭐⭐⭐⭐ 对需要预测 5,000 token 以上蛋白复合物的用户很实用,是一种能直接包裹现有强模型的工程化扩展路线。