RankFlow: Property-aware Transport for Protein Optimization¶
会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=uS5rA4fDJp
代码: 待确认
领域: 计算生物学 / 蛋白质优化 / 条件流匹配
关键词: 蛋白质适应度预测、条件流、能量引导、可微排序、表征转换
一句话总结¶
RankFlow 不再把蛋白质语言模型(PLM)的嵌入直接接一个回归头去拟合适应度数值,而是学一个能量引导的条件流,把"与性质无关"的 PLM 表征搬运成"与目标性质对齐"的分布,再配上一个可微排序损失(RC2)和一个性质引导的方向门(PSG),在 ProteinGym、PEER、FLIP 三大基准上拿到 SOTA 的排序精度和更强的跨实验泛化。
研究背景与动机¶
领域现状:蛋白质优化的核心是建模适应度地形(fitness landscape)——把序列/结构的突变映射到实验测得的功能读数(稳定性、结合亲和力、酶活等)。由于带标签数据稀缺,主流做法是用预训练 PLM(ESM 系列)的似然或嵌入,要么做零样本突变效应打分,要么在某个 DMS(深度突变扫描)实验上接回归头做有监督微调。
现有痛点:作者指出两个被忽视的关键问题。其一,PLM 表征是性质无关(property-agnostic)的——它同时编码了可折叠性、稳定性、表达量等多种甚至互相竞争的进化约束,直接拿来用会稀释甚至压制你真正关心的那个性质的信号,让预测偏向"像野生型"而非"性质更优"。其二,很多适应度预测方法假设突变效应可加,忽略了多突变之间的高阶相互作用(上位效应,epistasis),在高阶突变体上预测会系统性出错,而恰恰是这些非加性交互主导了功能变化。
核心矛盾:在 DMS 标签只有几百到几千条的小数据下,"点对点回归"既容易过拟合到单个实验的数据集偏置,又抓不住组合突变的交互;而下游评测用的是排序指标(Spearman 相关),训练目标却在拟合绝对数值,训练与评测协议不一致。
本文目标:(1) 把性质无关的 PLM 表征重塑成性质对齐的分布;(2) 显式建模多突变集合的交互;(3) 让训练目标与排序评测对齐,从而提升对未见实验的泛化。
切入角度:与其直接预测一个标量,不如把"表征本身"当作可以被搬运的分布。借鉴能量引导流与引导流匹配(guided flow),用观测到的适应度构造能量函数,让流的动力学把高适应度突变体的表征推向"高适应度区域",使它们在表征空间里天然地排在低适应度突变体前面。
核心 idea:用一个能量引导的条件流把 PLM 嵌入"运输"成性质对齐分布(替代回归头),再用可微排序损失对齐评测、用性质方向门聚焦相关位点。
方法详解¶
整体框架¶
RankFlow 把蛋白质适应度预测重新表述成一个条件流匹配(conditional flow-matching)问题。给定野生型蛋白 \(x^{wt}\) 和一个突变集合 \(\mu\)(一次可改多个位点,得到突变体 \(x^{mt}\)),传统做法是学一个确定性预测器 \(F_\theta(x^{wt},\mu)=y\);RankFlow 则改为:把突变体喂进冻结的 PLM、并用 mask token 遮住被突变的氨基酸(去掉关于野生型残基的自我信息),取输出头之前的隐表征 \(h_0\in\mathbb{R}^{N\times d}\) 作为源分布 \(p_0\),然后学一个由参数 \(\theta\) 决定的条件流,把 \(p_0\) 搬运到一个由能量函数倾斜、与目标性质对齐的目标分布 \(q\)。
整条管线是:野生型序列+结构 → 多模态融合编码器得到上下文条件 \(F\) → 计算性质方向门 \(g\) 聚焦相关位点 → 以 \((F,g,\mu)\) 为条件、用能量加权的流匹配把 \(h_0\) 运输到性质对齐表征 \(\tilde h_1\) → 经 PLM 头读出预测分数 → 用"能量加权流匹配 + 可微排序"双目标训练。推理时固定条件,用固定步长 Heun 求解器从 \(t{=}1\) 积分到 \(t{=}0\),把终态表征映射成标量适应度。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["野生型序列+结构<br/>+ 突变集合 μ"] --> B["PLM 遮罩编码<br/>取 h₀ 作源分布 p₀"]
A --> E["多模态融合编码器<br/>ESM-2 序列 + ESM-IF 结构"]
E --> P["性质引导方向门 PSG<br/>聚焦性质相关位点 g"]
B --> C["性质感知条件流<br/>能量引导把 p₀ 搬到性质对齐 q"]
P --> C
C --> D["RC2 可微排序损失<br/>对齐 Spearman 评测"]
D -->|积分 t:1→0 Heun 求解| F["标量适应度 + 排序"]
关键设计¶
1. 性质感知条件流:用能量把 PLM 表征"搬"向高适应度区域
这一设计直接针对"PLM 嵌入性质无关、直接回归易过拟合"的痛点。作者不从基分布 \(p_0\) 直接采样,而是构造一个能量倾斜分布 \(q(h)\propto p_0(h)\exp\{-E(h)\}\),其中 \(E(h)\) 编码目标性质。沿高斯条件路径 \(p_t(h\mid h_0)=\mathcal{N}(\mu_t h_0,\sigma_t^2 I)\),对应时刻的性质感知分布为 \(q_t(h)\propto p_t(h)\exp\{-E_t(h)\}\)。要实现这个分布,就学一个时变速度场 \(v_t(\theta)\) 去匹配条件向量场 \(u_t(h\mid h_0)\),后者对高斯路径有闭式解 \(u_t(h\mid h_0)=\dot\mu_t\mu_t^{-1}h+(\dot\mu_t\sigma_t-\mu_t\dot\sigma_t)\sigma_t\mu_t^{-1}\nabla_h\log p_t(h\mid h_0)\)。
能量函数是这一设计的灵魂,作者把它设计成跨实验不变的,结合两个原则:高适应度突变体应被偏好,且偏离局部替换模式的突变体应被突出。具体地,用一个替换感知编辑距离 \(d_{sub}(i,j)\) 度量两个突变体的相似度(\(d_{sub}{=}1\) 表示只差一步突变动作),据此为每个突变体定义半径 \(r\) 内的邻域 \(N(i)\),算出核权重 \(\hat K_{ij}=\exp(-d_{sub})\) 归一化后的局部基线 \(\bar{\tilde y}_i\) 与方差 \(s_i\)。最终能量为
其中 \(\tilde y_i\) 是标准化后的全局适应度(把嵌入推向全局高适应度区),\((\tilde y_i-\bar{\tilde y}_i)/\sqrt{s_i}\) 衡量该突变体相对局部替换趋势有多"反常",\(\lambda\) 调和两者,\(\beta\) 控制权重锐度。这样既奖励全局高适应度、又突出局部异常的突变体,使流的搬运方向天然倾向"高适应度且有信息量"的方向。
2. RC2 可微排序损失:让训练目标对齐排序评测而非绝对数值
纯能量加权流匹配损失 \(L_{PFM}(\theta)=\mathbb{E}[\tilde w_i(t)\,\|v_t(h;\theta)-u_t(h\mid h_0)\|_2^2]\) 在无限数据下能到全局最优,但现实中很多实验只有几百条标签,不足以学到精确匹配性质数值的复杂运输映射。作者因此提出 Rank-Consistent Conditional Flow Loss(RC2)。
做法是:把 \(h_0\) 过流模型 \(G(\theta)\) 得到预测终态 \(\tilde h_1\),用 PLM 头算 logits \(\tilde Q^{tgt}\),再把预测分数定义为各突变位点上的 logit 差之和 \(\tilde y_i\simeq\sum_{m\in\mu_i}\big(\log\tilde Q^{tgt}_{m=x^{mt}_m}-\log\tilde Q^{tgt}_{m=x^{wt}_m}\big)\)——这个读数对 logit 尺度不变,只聚焦真正驱动性质变化的突变。然后最小化预测分数 \(\tilde y\) 与真实标签 \(y\) 之间的可微 Spearman 相关的代理:
其中 \(R_\tau(\cdot)\) 是带温度 \(\tau\) 的可微排序算子(沿用 Cuturi 等的可微排序),\(R(\cdot)\) 对真值用硬排序。总损失 \(L(\theta)=L_{PFM}(\theta)+L_{RFlow}(\theta)\)。这一设计的价值在于:评测用 Spearman,训练就直接优化排序一致性,让模型只要把突变体的相对顺序排对、不必拟合绝对值,从而对噪声更鲁棒、对未见实验泛化更好。
3. 性质引导方向门(PSG):把学习聚焦到性质相关位点、压制无关进化偏置
即便有了上面的目标,PLM 的进化信息仍是性质无关的,会把更新引向对当前实验中性甚至有害的方向。PSG 的思路是先离线找出"区分高/低性质"的方向,再用它给每个位点打门控分数。具体地,取训练集按测量性质排序的上、下 \(\xi\) 分位(默认 \(\xi{=}0.3\))集合 \(S_+,S_-\),定义野生型条件的 token 增量 \(\Delta h_i^{(\ell)}=h^{(\ell)}(x^{mt}_i)-h^{(\ell)}(x^{wt})\)(用最后一层),对每个集合求逐位置平均后构造方向矩阵 \(V^{(\ell)}=\mu_+^{(\ell)}-\mu_-^{(\ell)}\),它指向"高性质 vs 低性质"在表征空间的分离方向,训练前算一次并缓存。
训练时对每个突变体的每个位置 \(n\),用余弦相似度打分 \(w_{i,n}=\langle\Delta h_{i,n}^{(\ell)},V_n^{(\ell)}\rangle/(\|\Delta h_{i,n}^{(\ell)}\|\,\|V_n^{(\ell)}\|+\varepsilon)\):分数大且正说明该位点对齐高性质方向,负则相反。再经 sigmoid 转成门向量 \(g_i=\gamma\,\sigma(w_i)\),作为条件喂给流模型,让它把学习集中在携带目标性质信号的位点、削弱反映无关进化信号的位点的影响,从而减少"偏向野生型"的倾向、锐化编辑信号。
4. 多模态融合编码器 + 条件流头:把序列、结构与突变信息组装成流的条件
为了给流提供足够的上下文,RankFlow 用结构编码器 ESM-IF 抓野生型的几何上下文、用序列 PLM ESM-2 抓进化信息,两路各过一个 MLP 投影后用自注意力块融合成统一表征 \(F\in\mathbb{R}^{N\times d}\)。条件流头负责预测每个时刻的速度场 \(v_t\):它在突变位点上加可学习嵌入(每个位点一个),对突变集合 \(\mu\) 构造 \(c_m(\mu)=\phi_{pos}(m)+\phi_{aa}(\mu_m)\)(位置与氨基酸嵌入相加)并拼到 \(h_0\) 上,让流能学到突变特异的调整——这正是它建模多突变集合交互、超越加性假设的关键载体。流头以当前状态 \(h_t\)、突变集合 \(\mu\) 和条件 \(C=\{F,g\}\) 为输入,主体是带时间嵌入与层归一化的轻量 U-Net 块堆叠,参数化为 \(v_t(h\mid C;\theta)\)。
损失函数 / 训练策略¶
训练即标准条件流匹配:对每个突变体取冻结 PLM 的 \(h_0\)、融合表征 \(F\)、方向门 \(g_i\) 组成条件 \(C_i\);采样 \(t\sim U(0,1)\),构造噪声态 \(h_t=\mu_t h_0+\sigma_t\varepsilon\)(\(\varepsilon\sim\mathcal{N}(0,I)\),调度器固定),按闭式算目标速度 \(u_t\);流头预测 \(v_t\),用能量加权 \(L_{PFM}\) 与排序一致 \(L_{RFlow}\) 联合优化。超参上,\(\lambda\) 在 \(\{0,0.25,0.5,1\}\) 粗扫,通常取 \(0.5\);时间调度选 cosine 优于 linear;在少数代表性实验上选定后,对全部 ProteinGym 实验复用同一配置、不逐实验调参。
实验关键数据¶
主实验¶
在 ProteinGym(201 个 DMS 数据集,排除野生型 >1024 残基)、PEER 的 β-lactamase 与 Fluorescence、FLIP 的 GB1 上,RankFlow(序列+结构)在 Random 方案下全面 SOTA:
| 基准 / 类别 | 指标 | RankFlow | 次优 (DePLM-ESM2) | 说明 |
|---|---|---|---|---|
| ProteinGym Stability | Spearman | 0.911 | 0.897 | 稳定性 |
| ProteinGym Fitness | Spearman | 0.742 | 0.707 | 适应度 |
| ProteinGym Activity | Spearman | 0.722 | 0.693 | 酶活 |
| β-lact. | Spearman | 0.912 | 0.904 | PEER |
| GB1 | Spearman | 0.689 | 0.665 (DePLM-ESM1v 0.676) | FLIP 2-vs-rest |
| Fluo. | Spearman | 0.687 | 0.662 | PEER |
在 ProteinGym 三种划分(Random/Modulo/Contiguous)下,RankFlow 在 Random 与 Modulo 上最高,聚合平均最高(0.669 vs Kermut 0.655);只有 Contiguous(整段连续位点被完全留出)略逊于核方法 Kermut(0.589 vs 0.591),说明它更擅长利用分散的上下文信息,整体对分布漂移更稳定。
跨实验泛化与效率¶
按 DePLM 设置,对每个测试集从同类别另选 40 个实验训练(序列相似度 <50% 防泄漏),RankFlow 在五个类别全面领先,且参数量远小:
| 模型 | 可训练参数 | Stability | Fitness | Binding | Activity |
|---|---|---|---|---|---|
| SaProt (FT) | 650M | 0.703 | 0.442 | 0.391 | 0.495 |
| DePLM (ESM2) | 42.2M | 0.773 | 0.480 | 0.441 | 0.518 |
| RankFlow | 37.1M | 0.797 | 0.515 | 0.457 | 0.554 |
参数仅 SaProt 的约 1/18(37.1M vs 650M),单张 A100 约 1 小时即可训完,而部分大模型基线需数天。
消融实验¶
| 配置 | 关键效果 | 说明 |
|---|---|---|
| Full model | 最优 | 完整 RankFlow |
| 仅 \(L_{PFM}\)(能量流) | 各实验/突变深度增益最大 | 性质感知流匹配是主力 |
| 仅 \(L_{RFlow}\)(RC2) | 在高突变深度时尤为有用 | 组合爆炸下监督稀缺时排序对齐救场 |
| w/o 方向门 \(g_i\) | 优于仅 RC2 变体 | 聚焦性质相关位点有正贡献 |
| w/o 结构信息 | 中等下降(Fitness/Activity 明显) | 但仍超过 ESM2(FT)/SaProt(FT) 等纯序列强基线 |
关键发现¶
- 贡献最大的是能量引导流匹配 \(L_{PFM}\)——跨各类实验与突变深度增益最大,说明"把表征搬向性质对齐分布"这一核心机制是性能根基。
- RC2 排序损失在高阶突变上最关键:突变越深,可加假设越失效、可靠监督越稀缺,排序一致目标此时最能稳住泛化。
- RankFlow 优先预测的高适应度突变体富集在溶剂暴露位点、远离活性位点(AICDA_HUMAN 案例),与已知生物学观察一致,说明排序不是数值上的拟合假象。
- 重组 PLM 内部信息可超过 MSA 类方法(ESM-MSA/Tranception),即不靠多序列比对也能拿到更优排序。
亮点与洞察¶
- 把"预测适应度数值"换成"运输表征分布":用条件流 + 能量倾斜,让高适应度突变体在表征空间天然排前,绕开了小数据下回归头过拟合的老问题——这是最"啊哈"的视角转换。
- 训练目标直接对齐评测协议:RC2 把不可微的 Spearman 换成可微代理,再加上"只用突变位点 logit 差求和"的尺度不变读数,把排序信号干净地引入流匹配,值得迁移到任何"评测看排序、训练却拟合数值"的任务。
- 离线方向缓存 + 门控:PSG 先用高/低性质均值差缓存一个方向 \(V\),再用余弦相似度逐位点打门,几乎零额外训练成本就把性质无关的预训练表征"调焦"到目标性质,是个轻量可复用的 trick。
- 轻量高效:37.1M 参数、单卡 1 小时,相比动辄 650M、需数天的全量微调,工程友好度很高。
局限与展望¶
- Contiguous 划分上不及核方法 Kermut:当一整段连续位点被完全留出时,流的优势消失,说明对"完全未见的连续区域"外推仍有短板。
- 能量函数与 PSG 都依赖训练集统计(局部邻域、上下分位均值),在极小样本或标签噪声极大的实验上,邻域基线 \(\bar{\tilde y}_i\)、方向 \(V\) 的估计可靠性存疑,论文未充分讨论其敏感性。
- 排除了野生型 >1024(泛化实验 >1024,主表 >1024 也做了排除)的长蛋白,对超长蛋白的适用性未验证。
- 不确定性估计沿用 ProteinNPT 的 MC-Dropout+重采样,仅与 Stable 系列"可比或略高",并非该方向的强项;未来可把不确定性纳入流的训练目标本身。
- 改进思路:把能量函数做成可学习的(而非手工组合全局+局部项),或将 PSG 的方向向量随训练在线更新而非一次性缓存,可能进一步提升对分布漂移的鲁棒性。
相关工作与启发¶
- vs DePLM:同样用生成式模型,但 DePLM 近似可加效应、按独立位点处理;RankFlow 直接学条件流把性质无关嵌入运输到性质对齐分布,并用突变集合的可学习嵌入显式建模高阶上位交互,在各基准上稳定超过 DePLM。
- vs Kermut(高斯过程核方法):Kermut 用序列+结构复合核达到强性能,但继承精确 GP 的立方复杂度、在大/密集变体库上需截断或子采样;RankFlow 是 PLM 之上的轻量流,可扩展到大而多样的变体库,仅在 Contiguous 划分上略逊。
- vs ProteinNPT / 元学习回归器(Beck et al.):后者训练/推理计算与内存开销大、并对长蛋白或大量相关任务有依赖;RankFlow 参数更少、单卡一小时可训,数据与计算效率都更友好。
- vs 纯回归微调(ESM2/SaProt FT):回归头在单实验上 in-assay 强、但易引入数据集偏置、跨蛋白泛化差;RankFlow 用排序一致 + 分布运输换来更强的 OOD 泛化。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 把适应度预测重构成能量引导的表征运输 + 可微排序,视角新颖且自洽
- 实验充分度: ⭐⭐⭐⭐⭐ 覆盖 ProteinGym/PEER/FLIP、三种划分、泛化、不确定性、消融,证据链完整
- 写作质量: ⭐⭐⭐⭐ 方法公式密集但推导清晰,部分符号(能量、门控)需结合图反复对照
- 价值: ⭐⭐⭐⭐⭐ 轻量高效、泛化强,对真实蛋白工程的小数据场景实用价值高