GeomMotif: A Benchmark for Arbitrary Geometric Preservation in Protein Generation¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=b4C3zAzRgH
代码: GitHub + HuggingFace 数据集（论文提供）
领域: 计算生物学 / 蛋白质生成 / Benchmark
关键词: motif scaffolding, 几何保持, 蛋白质生成, SUN score, modality-agnostic benchmark

一句话总结¶

GeomMotif 把蛋白质 motif scaffolding 任务从"功能位点"中解耦出来，构造了 57 个保证可解、模态无关的"纯几何保持"任务，用统一的 SUN（成功×独特×新颖）指标系统揭示出结构类模型远超序列类模型、以及结构条件反而可能干扰生成等反直觉现象。

研究背景与动机¶

领域现状：motif scaffolding（给定一个功能片段、生成包裹它的完整蛋白）是深度学习蛋白设计的核心任务，类比于计算机视觉里的"图像外扩"（outpainting）。RFdiffusion、Genie2、ESM3、DPLM 等一批生成模型都把它当作主战场，主流评测基准如 RFdiffusion 的 25 个功能 motif、MotifBench 的 30 个测试用例都聚焦于酶活性位点、结合界面等已知功能位点。

现有痛点：现有基准存在一个"诊断盲区"——它们把两个本质不同的挑战混为一谈：保持 3D 几何 与 满足复杂功能约束（残基身份、电荷分布、疏水堆积、侧链构象等）。当模型在功能 motif 任务上失败时，无法判断到底是"根本没能力保持几何结构"还是"几何对了但不满足功能要求"。更糟的是，某些复杂功能位点任务可能对当前方法根本无解，污染了评测信号。

核心矛盾：在蛋白工程中几何精度是功能的前提——文中引用的数据触目惊心：计算设计的蛋白 binder，当结合 motif 的骨架 RMSD 偏离目标仅 1.0 Å，实验成功率就可能从近 50% 暴跌到 0。几何精度是湿实验前最关键的计算筛选器，但现有基准恰恰把这个基础能力和复杂功能纠缠在一起，无法单独度量。

本文目标：构造一个只考几何保持、不掺功能特异性的基准，让"模型能否在任意选取的残基间维持局部与长程几何关系"这一核心生成能力被干净地测出来。

核心 idea：[从 PDB 均匀采样而非功能偏置] 直接从蛋白质数据库（PDB）里无功能偏向地采样结构片段，把任务变成"蛋白外扩"——[保证可解] 每个任务都从真实蛋白中切出，天然存在至少一个 ground-truth 解；[模态无关] 任务定义不依赖序列或结构表征，序列类与结构类模型能公平同台；[富属性标注] 每个任务标注 8 种结构/理化属性，支持超越成功率的细粒度分析。

方法详解¶

整体框架¶

GeomMotif 的核心是一条"基准构造 + 模态无关评测"的双段流水线。构造段从 PDB 海量结构里逐级过滤、聚类、验证可解性，再按"片段复杂度"分层采样出 57 个任务；评测段对结构类和序列类模型走各自适配的折叠管线，最后统一汇聚到 SUN 单一指标。

flowchart TD
    A[PDB 24001 结构<br/>X-ray≤2.5Å/单体/≤250残基] --> B[MMseqs2 序列聚类<br/>+ TM-score 结构聚类去冗余]
    B --> C[ESMFold 可解性过滤<br/>RMSD≤1.0Å → 107 结构]
    C --> D[13Å 邻域取 motif<br/>+ 尺寸/冗余/loop 过滤]
    D --> E[按片段复杂度分层采样<br/>→ 57 任务 35单+22配对]
    E --> F{模型类型}
    F -->|结构类| G[生成骨架→ProteinMPNN设序列→ESMFold]
    F -->|序列类| H[直接生成序列→ESMFold]
    G --> I[SUN = 成功∩独特∩新颖]
    H --> I

关键设计¶

1. 可解性保证的任务构造：让"失败"只能归因于模型　这是 GeomMotif 区别于以往基准最根本的设计。作者先用三条硬标准从 PDB 滤出高质量起点：X 射线晶体学且分辨率 ≤2.5 Å、仅生物单体（避免复合物在孤立态构象漂移）、长度 ≤250 残基（避免子结构需全局上下文才能折叠），得到 24,001 个结构；再用两阶段聚类去冗余——MMseqs2 在 80% 序列相似度、90% 覆盖度下聚类，随后用完全连接层次聚类在 TM-score 0.5、覆盖 30% 下做结构聚类。关键一步是用 ESMFold 对每个簇代表做预测，只保留预测折叠与实验结构 RMSD ≤1.0 Å 的结构，从而保证整条评测管线本身就能把这个结构"还原"出来——这直接堵上了 MotifBench 里"某些任务可能本就无解"的漏洞，最终留下 107 个可解结构。

2. 基于空间邻域的 motif 定义与片段复杂度分层　motif 不是按功能挑的，而是几何定义的：遍历每个残基作为中心，把 Cα 落在其 13 Å 半径内的所有残基集合定为一个 motif，再用三道过滤精炼（剔除 <30 残基的小 motif、移除残基重叠 >20% 的冗余邻域、去掉 DSSP 判定 loop 含量 >25% 的松散 motif），得到 3,772 个单 motif 候选；对配对任务则取同一结构内中心相距 ≥30 Å 的 motif 对，得 5,364 个候选。由于空间上相邻的残基在序列上常常不连续，作者用"片段复杂度"——即构成 motif 的连续序列片段数——来刻画几何难度，并按此分层均匀采样（单 motif 取 1–7 段、配对取 3–7 段，每类至多 5 个代表），最终得到 57 个任务（35 单 + 22 配对），覆盖 mainly-α、mainly-β、α/β 等多种 CATH 折叠类。此外允许可变区在生物合理范围内变长度、仅固定 motif 几何，迫使模型真正理解几何而非复述记忆模式。

3. 八维理化属性标注：把成功率拆成可解释维度　每个任务额外标注 8 种属性以支持细粒度归因：二级结构三分量（螺旋含量 / 延展 β 含量 / loop 含量，由 DSSP 给出）、motif 尺寸（残基数，代表几何约束的范围）、Eisenberg 标度的平均疏水性、埋藏比（相对溶剂可及度 RSA < 0.2 的残基占比，代表堆积约束苛刻程度）、绝对电荷密度（按 Arg/Lys +1、Asp/Glu −1 计的每残基绝对电荷）、以及结构上下文（4.5 Å 阈值下 motif 内部接触与对外接触之比）。这些属性让分析从"成功 / 失败"上升到"哪类结构特征对哪种架构最难"。

4. SUN 统一指标与模态无关评测　评测同时考量几何保真、结构多样、相对已知蛋白的新颖三方面。判定单个生成蛋白"成功"需同时满足：motif 骨架 scRMSD < 1.0 Å（几何忠实）且预测结构平均 pLDDT ≥70（整体折叠良好）；在成功设计内再用 TM-score 0.8 阈值的层次聚类数衡量多样性（Unique），用与 ground-truth 的 TM-score < 0.8 判定新颖（Novel）。最终汇聚为 SUN 分数：

\[\text{SUN} = P(\text{Successful} \cap \text{Unique} \cap \text{Novel})\]

它只奖励同时兼顾精度、多样、原创的设计，天然平衡了蛋白设计中相互竞争的目标。评测对两类模态适配不同管线——结构类按"生成骨架 → ProteinMPNN 设计 8 条序列 → ESMFold 折叠验证"，序列类则跳过 ProteinMPNN 直接折叠其生成序列；并设固定长度与可变长度两套评测，前者作受控基线、后者区分真泛化与记忆。

实验关键数据¶

主实验：10 个模型的整体 SUN（可变长度）¶

类别	模型	成功率 %	SUN %
结构类	Genie2	—	39.4
结构类	La-Proteina	—	38.8
结构类	RFdiffusion	54.4	37.8
结构类	Protpardelle-1C	—	33.8
结构类	FrameFlow	—	23.3
结构类	RFdiffusion2	19.2	17.9
序列类	ESM3 (seq-only)	—	3.5
序列类	DPLM-3B	—	2.7
序列类	DPLM-650M	—	2.1
序列类	ESM3 (seq+struct)	—	1.0–1.4

结构类模型整体把序列类碾压一个数量级以上（最佳结构类 39.4% vs 最佳序列类 3.5%）。

消融 / 拆解：单 motif vs 配对 motif（SUN 组件）¶

模型	成功(单/配)	新颖(单/配)	独特(单/配)	SUN(单/配)
Genie2	60.1 / 32.9	60.1 / 26.6	59.9 / 22.5	59.9 / 18.8
La-Proteina	67.1 / 62.7	67.1 / 35.2	61.3 / 22.7	61.3 / 16.2
RFdiffusion	65.1 / 43.7	65.1 / 25.0	62.4 / 20.5	62.4 / 13.2
Protpardelle-1C	56.2 / 44.6	56.2 / 25.2	53.5 / 22.6	53.5 / 14.1
FrameFlow	30.6 / 25.1	30.6 / 19.7	30.6 / 20.2	30.6 / 16.0
ESM3 (seq)	17.4 / 6.5	11.3 / 0.1	10.1 / 0.1	6.8 / 0.1
DPLM-3B	19.3 / 11.0	10.2 / 0.9	9.8 / 0.6	4.9 / —

关键发现¶

结构 vs 序列存在量级鸿沟：结构类（Genie2 39.4%、RFdiffusion 37.8%）远超序列类（最佳 3.5%），说明纯几何保持仍是序列生成范式的硬伤。
配对 motif 是序列类的"绝壁"：序列类模型在空间分离的配对 motif 上 SUN 近乎归零（ESM3 0.1%），而结构类虽下降但仍可用（Genie2 18.8%），暴露架构性局限。
多模态反而拖后腿：ESM3 同时用序列+结构（1.0–1.4%）一致地低于仅序列模式（3.5%），提示结构条件可能引入冲突信号。
参数放大≠能力提升：DPLM-3B（2.7%）仅微弱优于 DPLM-650M（2.1%），单纯堆参数解决不了序列 scaffolding 的根本难题。
基准互补性：RFdiffusion2 在原子酶基准上 41/41 全解、在 GeomMotif 上仅 17.9%；原版 RFdiffusion 在酶基准上只有 16/41 却在 GeomMotif 拿 37.8%——说明"窄域调优"与"广域泛化"是两种能力，两个基准互补而非替代。

亮点与洞察¶

问题解耦的优雅：把"几何 vs 功能"这对长期纠缠的变量拆开，是这篇 benchmark 最大的概念贡献——它让"模型失败"第一次能被干净归因。
可解性保证是工程上的关键一笔：用 ESMFold 反向验证每个任务可还原，避免了"用无解任务考模型"的系统性偏差。
片段复杂度这个量化轴很有洞见：它把"几何难度"从模糊概念变成可分层采样、可作相关性分析的连续维度。
反直觉结论（多模态反而更差、放大参数无效、RFdiffusion2 倒退）对后续模型设计有直接警示价值。

局限与展望¶

只测几何、不测功能：作者明确把功能正确性排除在外，因此 GeomMotif 是功能基准的补充而非替代，单独用它不能预测最终的生物可用性。
规模偏小：57 个任务、107 个源结构，相对 PDB 体量仍是小样本，可能限制某些罕见折叠/拓扑的覆盖。
评测依赖 ESMFold/ProteinMPNN：可解性筛选与成功判定都绑定特定折叠/逆折叠工具，这些工具自身的偏差会传导到基准。
未来方向：把几何与功能维度组合成多轴评测、扩大任务规模、引入更多侧链原子级 motif，会让诊断更全面。

评分¶

新颖性: ⭐⭐⭐⭐ — 不是新模型而是新评测视角，但"几何/功能解耦 + 可解性保证 + 模态无关"的组合在蛋白设计 benchmark 里确属首创，概念贡献扎实。
实验充分度: ⭐⭐⭐⭐ — 覆盖 10 个跨范式模型、57 任务各 100 样本、含 bootstrap 不确定度与固定/可变长度双设定，结论由富属性分析支撑，较全面。
写作质量: ⭐⭐⭐⭐ — 动机叙述有力（1.0 Å→成功率归零的例子很抓人），构造流水线与指标定义清晰，图表组织得当。
价值: ⭐⭐⭐⭐ — 为社区提供了诊断几何能力的干净标尺，揭示的反直觉现象（多模态拖后腿、参数无效）对模型迭代有实际指导意义。