跳转至

Steering Generative Models with Experimental Data for Protein Fitness Optimization

会议: NeurIPS 2025
arXiv: 2505.15093
代码:
领域: Medical Imaging / Computational Biology
关键词: 蛋白质适应度优化, 生成模型引导, 离散扩散模型, 蛋白质语言模型, 贝叶斯优化

一句话总结

系统性地评估了引导蛋白质生成模型(离散扩散模型和语言模型)进行适应度优化的各种策略,发现使用少量标注数据(~200条)的即插即用引导方法(特别是 DAPS)优于基于 RL 的微调方法,并提出了集成不确定性的 Thompson 采样策略用于自适应优化。

研究背景与动机

蛋白质适应度优化是核心的生物工程挑战:给定一个已知蛋白质,需要找到最大化期望属性(活性、稳定性、荧光等)的序列变体。设计空间巨大(长度 \(M\) 的蛋白质有 \(20^M\) 种可能),而实验室湿实验通量极低(仅 \(10^2\)-\(10^3\) 个适应度标签)。

引导生成进行蛋白质优化 (SGPO) 是一类有潜力的方法框架,结合了生成先验(捕获自然蛋白质分布的进化知识)与适应度标注数据(引导生成向高适应度方向偏移)。但现有工作面临三大不足:(1) 多数方法使用大量标注数据或计算替代指标,低标注场景效果不明;(2) 不同模型和引导策略缺乏系统性比较;(3) 未充分整合自适应优化原则(如不确定性探索)。

方法详解

整体框架

SGPO 工作流程:(1) 在自然蛋白质序列 MSA 上训练生成先验 \(p(\mathbf{x})\);(2) 用少量适应度标签训练价值函数 \(p(\mathbf{y}|\mathbf{x}) \propto \exp(f(\mathbf{x})/\beta)\);(3) 通过引导策略从后验分布 \(p(\mathbf{x}|\mathbf{y}) \propto p(\mathbf{x}) \exp(f(\mathbf{x})/\beta)\) 采样高适应度序列。

关键设计

  1. 多种生成先验模型的训练与评估:训练了连续扩散(27.9M)、D3PM 均匀噪声离散扩散(37.9M,从 EvoDiff 微调)、MDLM 掩码离散扩散(28.6M)、ARLM 自回归语言模型(151M,从 ProGen2 微调)等模型。D3PM 最准确地匹配自然序列分布并保持高多样性,连续扩散性能较差,UDLM 容易模式坍塌。

  2. 即插即用引导策略:评估了分类器引导 (CG,扭曲离散扩散速率矩阵)、解耦退火后验采样 (DAPS,首次适配到蛋白质优化,仅需干净数据价值函数)、扩散优化采样 (NOS,连续嵌入空间优化) 三种策略。与 DPO 微调语言模型作为基线对比。DAPS 综合性能最强,CG 次之。

  3. 基于集成的 Thompson 采样:在自适应优化循环中,训练 10 个价值函数组成频率派集成,每次生成新样本时从集成中随机采样一个价值函数进行引导,类似贝叶斯优化中的 Thompson 采样,利用预测不确定性平衡探索与利用。

损失函数 / 训练策略

  • 先验训练:各模型使用标准扩散/语言模型目标训练于 MSA 数据
  • 价值函数训练:约 200 个适应度标签训练神经网络回归器(MSE 损失)
  • 自适应循环:每轮采样 100 个序列,用计算 oracle 评估适应度,更新标注数据和价值函数
  • 即插即用方法只需调一个超参数(引导强度),不修改先验模型权重

实验关键数据

主实验

在 TrpB 酶(15 残基)、CreiLOV 荧光蛋白(119 残基)、GB1 结合蛋白(56 残基)上评估。

方法 模型 可调控性 适应度 多样性 计算成本
DAPS MDLM ★★★★★ 最高 中等 低(分钟级)
CG D3PM ★★★★ 中等
NOS D3PM ★★ 中等 较高
DPO ARLM ★★ 较低 较低 高(小时级)
APEXGo (BO) VAE ★★ 较低 - 中等

消融实验

设计决策 优选 说明
引导 vs 无引导 引导显著提升 200 个标签即足以有效引导
即插即用 vs DPO 微调 即插即用更优 DPO 低数据量下可调控性差
集成 vs 单一价值函数 集成更优 Thompson 采样能更好探索序列空间
连续 vs 离散扩散 离散更优 连续扩散先验捕获自然分布能力较差
DAPS vs CG DAPS 略优 尤其在连续模型上

关键发现

  • 200 个适应度标签即足以有效引导,极大降低实验成本
  • 即插即用引导优于 DPO 微调:仅需调一个超参数,训练分钟级完成
  • DAPS 是最佳引导策略,首次适配到蛋白质优化并证明其优势
  • 自适应多轮优化中 Thompson 采样策略达到更高最大适应度
  • SGPO 优于潜空间贝叶斯优化(APEXGo),后者在低数据/少轮次设置下信赖域校准困难

亮点与洞察

  • 系统性和全面性:首次在统一框架下比较 7 种生成模型 × 4 种引导策略,提供清晰最佳实践指南
  • 实际工程导向:策略选择建议可直接指导真实蛋白质工程实验设计
  • 即插即用方法不修改先验权重,训练成本极低,先验可复用于不同任务
  • Thompson 采样将贝叶斯优化的探索-利用权衡引入生成模型引导,概念融合新颖

局限与展望

  • 使用计算 oracle 而非真实湿实验评估,结论迁移性需验证
  • 未考虑插入/删除突变,仅限固定长度序列设计
  • 对于适应度与自然功能差异大的任务,先验知识价值可能减弱
  • 高斯过程作为 Thompson 采样后端效果不佳,不确定性量化仍需改进
  • 未测试 RL 方法在离散扩散模型上的效果

相关工作与启发

  • 与 APEXGo 的对比:潜空间 BO 在低数据/少轮次下不如 SGPO
  • 与 Blalock et al. 的关系:RL 微调在大数据量 (\(>10^3\)) 下可能更具优势
  • 启发:SGPO 框架可推广至小分子设计、自然语言生成等离散领域;多目标优化是重要未来方向

评分

  • 新颖性: ⭐⭐⭐⭐ (系统性比较和 DAPS 适配有创新,但各组件已有基础)
  • 实验充分度: ⭐⭐⭐⭐⭐ (3 种蛋白质、7 种模型、4 种策略、自适应实验全面)
  • 写作质量: ⭐⭐⭐⭐⭐ (结构优秀,图表信息量大,实践指导性强)
  • 价值: ⭐⭐⭐⭐⭐ (为蛋白质工程中的 ML 辅助设计提供了清晰最佳实践)

系统性评估了利用少量实验适应度标签引导蛋白质生成模型(离散扩散模型和语言模型)的多种策略,发现基于 DAPS 的即插即用引导方法优于强化学习微调,并提出类似 Thompson Sampling 的自适应序列选择策略。

研究背景与动机

蛋白质适应度优化的核心挑战: 1. 设计空间巨大:长度 M 的蛋白质有 20^M 种可能序列,其中只有极少数是功能性的 2. 实验通量低:湿实验室测定只能提供 10²-10³ 个适应度标签 3. 传统定向进化低效:每轮只能积累一个突变,且局限于局部搜索

已有方法的局限: - 零样本方法(只用生成先验):无法处理偏离自然功能的适应度目标 - 纯监督方法(只用标签数据):缺乏进化先验,扩展性差 - MLDE(枚举+打分):设计空间受限(N<9 个残基)

本文提出 SGPO(Steered Generation for Protein Optimization) 框架:结合自然蛋白质序列的生成先验 p(x) 与少量适应度标签的引导,在大设计空间中高效优化蛋白质适应度。核心问题:哪种生成模型+引导策略组合最有效?如何利用不确定性改善探索?

方法详解

整体框架

SGPO 分为两阶段: 1. 预训练生成先验:在同源蛋白质的多序列比对(MSA)上训练生成模型,捕获自然蛋白质分布 p(x) 2. 引导生成:利用少量适应度标签训练值函数 f(x),通过即插即用引导从后验 p(x|y) ∝ p(x)·exp(f(x)/β) 采样高适应度变体

关键设计

  1. 多种生成先验模型的系统评估

本文训练和比较了五类生成模型: - 连续扩散模型(Continuous):在连续空间中扩散,27.9M 参数 - 连续-ESM 扩散:在 ESM 嵌入空间扩散,25.5M 参数 - D3PM:离散扩散 + 均匀噪声,37.9M 参数,可从 EvoDiff 微调 - MDLM:离散扩散 + 吸收态(掩码)噪声,28.6M 参数 - ARLM:自回归语言模型,从 ProGen2-small 微调,151M 参数

关键发现:D3PM 最忠实地捕获自然分布且生成多样性高;连续扩散效果较差;UDLM 容易模式崩塌。

  1. 三种即插即用引导策略

    • 分类器引导(CG):训练时间依赖的值函数 p(y|x_t, t),在离散扩散反向过程中偏置速率矩阵。需要在每个噪声水平 t 上训练分类器
    • 解耦退火后验采样(DAPS):变量分裂方法,将后验采样分解为交替的去噪步和数据一致性步。只需要干净数据上的值函数 p(y|x_0),更简单且通常效果最好
    • 扩散优化采样(NOS):在离散 token 的连续嵌入空间中训练值函数,优化嵌入以获得更高适应度

对比基线:DPO 微调 ARLM——通过直接偏好优化微调语言模型权重

  1. 类 Thompson Sampling 的自适应优化策略

核心思路:模拟真实蛋白质工程的迭代流程——每轮采样一批序列、评估适应度、更新引导模型。

关键创新: - 训练值函数的频率主义集成(10 个神经网络回归器) - 生成每个样本时,从集成中随机抽取一个值函数引导采样(类似 Thompson Sampling) - 集成的预测不确定性促进设计空间探索,平衡探索与利用 - 结合 MDLM + CG/DAPS 作为主力组合

损失函数 / 训练策略

  • 生成先验预训练:在 MSA 对齐的同源序列上训练,使用标准扩散/语言模型损失
  • 值函数训练:在少量(~200个)序列-适应度对上训练回归器,p(y|x) ∝ exp(f(x)/β)
  • 引导强度调节:通过温度参数 β 或方法特定超参数控制引导强度,需在高适应度和序列多样性之间权衡
  • 自适应优化:每轮采样 100 个序列,只保留唯一且新颖的样本

实验关键数据

主实验

在三个蛋白质适应度数据集上评估(TrpB 酶活性、CreiLOV 荧光、GB1 结合):

方法 模型 TrpB 平均适应度 CreiLOV 平均适应度 优势
DAPS MDLM 最高 最高 引导性最强,超参数少
CG MDLM 次高 次高 引导性强
CG D3PM 竞争力强 竞争力强 先验质量好
DPO ARLM 较低 较低 少数据下引导性弱
NOS D3PM 较低 较低 引导范围有限
无引导 MDLM 基线 基线 仅依赖进化先验

自适应优化(多轮迭代,MDLM + CG/DAPS):

方法 策略 TrpB 最大适应度 CreiLOV 最大适应度 说明
DAPS+集成 Thompson Sampling 最高 最高 不确定性驱动探索
CG+集成 Thompson Sampling 次高 次高 同上
单值函数 贪心引导 较低 较低 缺乏探索
APEXGo 潜空间 BO 较低 较低 低数据下信赖域难校准
DPO ARLM 微调 最低 最低 计算成本高、引导性弱

消融实验

配置 关键发现 说明
均匀噪声 vs 吸收态噪声 性能相当 D3PM ≈ MDLM
连续 vs 离散扩散 离散更优 连续模型先验质量较差
ESM 嵌入空间扩散 未提升 在此任务上无额外收益
集成 vs 单值函数 集成更优 Thompson Sampling 改善最大适应度
不同标签数量 200 个足够 即插即用方法在少数据下优势明显

关键发现

  • 即插即用引导 >> RL 微调:在仅 ~200 标签的低数据场景下,DAPS/CG 引导离散扩散模型显著优于 DPO 微调语言模型
  • DAPS 总体最佳:只需干净数据上的值函数(无需时间依赖分类器),引导性最强
  • 集成+Thompson Sampling 改善探索:在自适应优化中达到更高最大适应度
  • 计算效率高:先验预训练 <1h(单 H100),引导实验仅需几分钟;DPO 微调需数小时
  • 生成的序列大多是全新的,未过度引导到已知序列

亮点与洞察

  • 系统性 benchmark:首次在真实蛋白质适应度数据上全面对比不同生成模型+引导策略的组合,提供了实用指南
  • DAPS 适配离散扩散:首次将解耦退火后验采样应用于蛋白质优化的离散扩散模型
  • 即插即用的实用优势:只需调一个超参数(引导强度),不修改先验权重,计算成本极低
  • 超参数选择的实用策略:扫描引导强度,选择生成 n 个唯一新序列的最大值(n = 下轮筛选通量)
  • 贝叶斯优化思想融入生成框架:集成+Thompson Sampling 是经典 BO 与现代生成模型的自然结合

局限与展望

  • 仅测试了接近自然功能的适应度目标,对非天然活性(如工程化新酶活性)的泛化性未验证
  • 适应度通过计算 oracle 近似,而非真实湿实验室验证
  • 未测试 RL 方法(DPO/RTB)在离散扩散模型上的效果
  • Thompson Sampling 中使用频率主义集成而非真正的贝叶斯后验(GP 效果不佳)
  • 未考虑插入/删除突变,仅处理固定长度序列
  • ARLM 生成后需手动映射回设计空间,未探索 inpainting 等更优雅的方式

相关工作与启发

  • EvoDiff:离散扩散蛋白质模型,D3PM 基线从此微调
  • DAPS (Zhang et al., 2025):解耦退火后验采样,首次适配到蛋白质离散扩散
  • APEXGo:潜空间贝叶斯优化基线
  • ProGen2:ARLM 基线
  • 启发:即插即用引导的低数据优势 + 贝叶斯探索策略,可推广到其他离散序列设计问题(如小分子、自然语言可控生成)

评分

  • 新颖性: ⭐⭐⭐⭐ 首次系统对比 SGPO 方法 + 首次将 DAPS 用于蛋白质优化
  • 实验充分度: ⭐⭐⭐⭐⭐ 三个蛋白质、多种模型和引导策略、自适应优化实验非常全面
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,方法分类图设计精良
  • 价值: ⭐⭐⭐⭐ 为蛋白质工程提供了实用的最佳实践指南