Steering Generative Models with Experimental Data for Protein Fitness Optimization¶
会议: NeurIPS 2025
arXiv: 2505.15093
代码: 有
领域: Medical Imaging / Computational Biology
关键词: 蛋白质适应度优化, 生成模型引导, 离散扩散模型, 蛋白质语言模型, 贝叶斯优化
一句话总结¶
系统性地评估了引导蛋白质生成模型(离散扩散模型和语言模型)进行适应度优化的各种策略,发现使用少量标注数据(~200条)的即插即用引导方法(特别是 DAPS)优于基于 RL 的微调方法,并提出了集成不确定性的 Thompson 采样策略用于自适应优化。
研究背景与动机¶
蛋白质适应度优化是核心的生物工程挑战:给定一个已知蛋白质,需要找到最大化期望属性(活性、稳定性、荧光等)的序列变体。设计空间巨大(长度 \(M\) 的蛋白质有 \(20^M\) 种可能),而实验室湿实验通量极低(仅 \(10^2\)-\(10^3\) 个适应度标签)。
引导生成进行蛋白质优化 (SGPO) 是一类有潜力的方法框架,结合了生成先验(捕获自然蛋白质分布的进化知识)与适应度标注数据(引导生成向高适应度方向偏移)。但现有工作面临三大不足:(1) 多数方法使用大量标注数据或计算替代指标,低标注场景效果不明;(2) 不同模型和引导策略缺乏系统性比较;(3) 未充分整合自适应优化原则(如不确定性探索)。
方法详解¶
整体框架¶
SGPO 工作流程:(1) 在自然蛋白质序列 MSA 上训练生成先验 \(p(\mathbf{x})\);(2) 用少量适应度标签训练价值函数 \(p(\mathbf{y}|\mathbf{x}) \propto \exp(f(\mathbf{x})/\beta)\);(3) 通过引导策略从后验分布 \(p(\mathbf{x}|\mathbf{y}) \propto p(\mathbf{x}) \exp(f(\mathbf{x})/\beta)\) 采样高适应度序列。
关键设计¶
-
多种生成先验模型的训练与评估:训练了连续扩散(27.9M)、D3PM 均匀噪声离散扩散(37.9M,从 EvoDiff 微调)、MDLM 掩码离散扩散(28.6M)、ARLM 自回归语言模型(151M,从 ProGen2 微调)等模型。D3PM 最准确地匹配自然序列分布并保持高多样性,连续扩散性能较差,UDLM 容易模式坍塌。
-
即插即用引导策略:评估了分类器引导 (CG,扭曲离散扩散速率矩阵)、解耦退火后验采样 (DAPS,首次适配到蛋白质优化,仅需干净数据价值函数)、扩散优化采样 (NOS,连续嵌入空间优化) 三种策略。与 DPO 微调语言模型作为基线对比。DAPS 综合性能最强,CG 次之。
-
基于集成的 Thompson 采样:在自适应优化循环中,训练 10 个价值函数组成频率派集成,每次生成新样本时从集成中随机采样一个价值函数进行引导,类似贝叶斯优化中的 Thompson 采样,利用预测不确定性平衡探索与利用。
损失函数 / 训练策略¶
- 先验训练:各模型使用标准扩散/语言模型目标训练于 MSA 数据
- 价值函数训练:约 200 个适应度标签训练神经网络回归器(MSE 损失)
- 自适应循环:每轮采样 100 个序列,用计算 oracle 评估适应度,更新标注数据和价值函数
- 即插即用方法只需调一个超参数(引导强度),不修改先验模型权重
实验关键数据¶
主实验¶
在 TrpB 酶(15 残基)、CreiLOV 荧光蛋白(119 残基)、GB1 结合蛋白(56 残基)上评估。
| 方法 | 模型 | 可调控性 | 适应度 | 多样性 | 计算成本 |
|---|---|---|---|---|---|
| DAPS | MDLM | ★★★★★ | 最高 | 中等 | 低(分钟级) |
| CG | D3PM | ★★★★ | 高 | 中等 | 低 |
| NOS | D3PM | ★★ | 中等 | 较高 | 低 |
| DPO | ARLM | ★★ | 较低 | 较低 | 高(小时级) |
| APEXGo (BO) | VAE | ★★ | 较低 | - | 中等 |
消融实验¶
| 设计决策 | 优选 | 说明 |
|---|---|---|
| 引导 vs 无引导 | 引导显著提升 | 200 个标签即足以有效引导 |
| 即插即用 vs DPO 微调 | 即插即用更优 | DPO 低数据量下可调控性差 |
| 集成 vs 单一价值函数 | 集成更优 | Thompson 采样能更好探索序列空间 |
| 连续 vs 离散扩散 | 离散更优 | 连续扩散先验捕获自然分布能力较差 |
| DAPS vs CG | DAPS 略优 | 尤其在连续模型上 |
关键发现¶
- 200 个适应度标签即足以有效引导,极大降低实验成本
- 即插即用引导优于 DPO 微调:仅需调一个超参数,训练分钟级完成
- DAPS 是最佳引导策略,首次适配到蛋白质优化并证明其优势
- 自适应多轮优化中 Thompson 采样策略达到更高最大适应度
- SGPO 优于潜空间贝叶斯优化(APEXGo),后者在低数据/少轮次设置下信赖域校准困难
亮点与洞察¶
- 系统性和全面性:首次在统一框架下比较 7 种生成模型 × 4 种引导策略,提供清晰最佳实践指南
- 实际工程导向:策略选择建议可直接指导真实蛋白质工程实验设计
- 即插即用方法不修改先验权重,训练成本极低,先验可复用于不同任务
- Thompson 采样将贝叶斯优化的探索-利用权衡引入生成模型引导,概念融合新颖
局限与展望¶
- 使用计算 oracle 而非真实湿实验评估,结论迁移性需验证
- 未考虑插入/删除突变,仅限固定长度序列设计
- 对于适应度与自然功能差异大的任务,先验知识价值可能减弱
- 高斯过程作为 Thompson 采样后端效果不佳,不确定性量化仍需改进
- 未测试 RL 方法在离散扩散模型上的效果
相关工作与启发¶
- 与 APEXGo 的对比:潜空间 BO 在低数据/少轮次下不如 SGPO
- 与 Blalock et al. 的关系:RL 微调在大数据量 (\(>10^3\)) 下可能更具优势
- 启发:SGPO 框架可推广至小分子设计、自然语言生成等离散领域;多目标优化是重要未来方向
评分¶
- 新颖性: ⭐⭐⭐⭐ (系统性比较和 DAPS 适配有创新,但各组件已有基础)
- 实验充分度: ⭐⭐⭐⭐⭐ (3 种蛋白质、7 种模型、4 种策略、自适应实验全面)
- 写作质量: ⭐⭐⭐⭐⭐ (结构优秀,图表信息量大,实践指导性强)
- 价值: ⭐⭐⭐⭐⭐ (为蛋白质工程中的 ML 辅助设计提供了清晰最佳实践)
系统性评估了利用少量实验适应度标签引导蛋白质生成模型(离散扩散模型和语言模型)的多种策略,发现基于 DAPS 的即插即用引导方法优于强化学习微调,并提出类似 Thompson Sampling 的自适应序列选择策略。
研究背景与动机¶
蛋白质适应度优化的核心挑战: 1. 设计空间巨大:长度 M 的蛋白质有 20^M 种可能序列,其中只有极少数是功能性的 2. 实验通量低:湿实验室测定只能提供 10²-10³ 个适应度标签 3. 传统定向进化低效:每轮只能积累一个突变,且局限于局部搜索
已有方法的局限: - 零样本方法(只用生成先验):无法处理偏离自然功能的适应度目标 - 纯监督方法(只用标签数据):缺乏进化先验,扩展性差 - MLDE(枚举+打分):设计空间受限(N<9 个残基)
本文提出 SGPO(Steered Generation for Protein Optimization) 框架:结合自然蛋白质序列的生成先验 p(x) 与少量适应度标签的引导,在大设计空间中高效优化蛋白质适应度。核心问题:哪种生成模型+引导策略组合最有效?如何利用不确定性改善探索?
方法详解¶
整体框架¶
SGPO 分为两阶段: 1. 预训练生成先验:在同源蛋白质的多序列比对(MSA)上训练生成模型,捕获自然蛋白质分布 p(x) 2. 引导生成:利用少量适应度标签训练值函数 f(x),通过即插即用引导从后验 p(x|y) ∝ p(x)·exp(f(x)/β) 采样高适应度变体
关键设计¶
- 多种生成先验模型的系统评估
本文训练和比较了五类生成模型: - 连续扩散模型(Continuous):在连续空间中扩散,27.9M 参数 - 连续-ESM 扩散:在 ESM 嵌入空间扩散,25.5M 参数 - D3PM:离散扩散 + 均匀噪声,37.9M 参数,可从 EvoDiff 微调 - MDLM:离散扩散 + 吸收态(掩码)噪声,28.6M 参数 - ARLM:自回归语言模型,从 ProGen2-small 微调,151M 参数
关键发现:D3PM 最忠实地捕获自然分布且生成多样性高;连续扩散效果较差;UDLM 容易模式崩塌。
-
三种即插即用引导策略
- 分类器引导(CG):训练时间依赖的值函数 p(y|x_t, t),在离散扩散反向过程中偏置速率矩阵。需要在每个噪声水平 t 上训练分类器
- 解耦退火后验采样(DAPS):变量分裂方法,将后验采样分解为交替的去噪步和数据一致性步。只需要干净数据上的值函数 p(y|x_0),更简单且通常效果最好
- 扩散优化采样(NOS):在离散 token 的连续嵌入空间中训练值函数,优化嵌入以获得更高适应度
对比基线:DPO 微调 ARLM——通过直接偏好优化微调语言模型权重
- 类 Thompson Sampling 的自适应优化策略
核心思路:模拟真实蛋白质工程的迭代流程——每轮采样一批序列、评估适应度、更新引导模型。
关键创新: - 训练值函数的频率主义集成(10 个神经网络回归器) - 生成每个样本时,从集成中随机抽取一个值函数引导采样(类似 Thompson Sampling) - 集成的预测不确定性促进设计空间探索,平衡探索与利用 - 结合 MDLM + CG/DAPS 作为主力组合
损失函数 / 训练策略¶
- 生成先验预训练:在 MSA 对齐的同源序列上训练,使用标准扩散/语言模型损失
- 值函数训练:在少量(~200个)序列-适应度对上训练回归器,p(y|x) ∝ exp(f(x)/β)
- 引导强度调节:通过温度参数 β 或方法特定超参数控制引导强度,需在高适应度和序列多样性之间权衡
- 自适应优化:每轮采样 100 个序列,只保留唯一且新颖的样本
实验关键数据¶
主实验¶
在三个蛋白质适应度数据集上评估(TrpB 酶活性、CreiLOV 荧光、GB1 结合):
| 方法 | 模型 | TrpB 平均适应度 | CreiLOV 平均适应度 | 优势 |
|---|---|---|---|---|
| DAPS | MDLM | 最高 | 最高 | 引导性最强,超参数少 |
| CG | MDLM | 次高 | 次高 | 引导性强 |
| CG | D3PM | 竞争力强 | 竞争力强 | 先验质量好 |
| DPO | ARLM | 较低 | 较低 | 少数据下引导性弱 |
| NOS | D3PM | 较低 | 较低 | 引导范围有限 |
| 无引导 | MDLM | 基线 | 基线 | 仅依赖进化先验 |
自适应优化(多轮迭代,MDLM + CG/DAPS):
| 方法 | 策略 | TrpB 最大适应度 | CreiLOV 最大适应度 | 说明 |
|---|---|---|---|---|
| DAPS+集成 | Thompson Sampling | 最高 | 最高 | 不确定性驱动探索 |
| CG+集成 | Thompson Sampling | 次高 | 次高 | 同上 |
| 单值函数 | 贪心引导 | 较低 | 较低 | 缺乏探索 |
| APEXGo | 潜空间 BO | 较低 | 较低 | 低数据下信赖域难校准 |
| DPO | ARLM 微调 | 最低 | 最低 | 计算成本高、引导性弱 |
消融实验¶
| 配置 | 关键发现 | 说明 |
|---|---|---|
| 均匀噪声 vs 吸收态噪声 | 性能相当 | D3PM ≈ MDLM |
| 连续 vs 离散扩散 | 离散更优 | 连续模型先验质量较差 |
| ESM 嵌入空间扩散 | 未提升 | 在此任务上无额外收益 |
| 集成 vs 单值函数 | 集成更优 | Thompson Sampling 改善最大适应度 |
| 不同标签数量 | 200 个足够 | 即插即用方法在少数据下优势明显 |
关键发现¶
- 即插即用引导 >> RL 微调:在仅 ~200 标签的低数据场景下,DAPS/CG 引导离散扩散模型显著优于 DPO 微调语言模型
- DAPS 总体最佳:只需干净数据上的值函数(无需时间依赖分类器),引导性最强
- 集成+Thompson Sampling 改善探索:在自适应优化中达到更高最大适应度
- 计算效率高:先验预训练 <1h(单 H100),引导实验仅需几分钟;DPO 微调需数小时
- 生成的序列大多是全新的,未过度引导到已知序列
亮点与洞察¶
- 系统性 benchmark:首次在真实蛋白质适应度数据上全面对比不同生成模型+引导策略的组合,提供了实用指南
- DAPS 适配离散扩散:首次将解耦退火后验采样应用于蛋白质优化的离散扩散模型
- 即插即用的实用优势:只需调一个超参数(引导强度),不修改先验权重,计算成本极低
- 超参数选择的实用策略:扫描引导强度,选择生成 n 个唯一新序列的最大值(n = 下轮筛选通量)
- 贝叶斯优化思想融入生成框架:集成+Thompson Sampling 是经典 BO 与现代生成模型的自然结合
局限与展望¶
- 仅测试了接近自然功能的适应度目标,对非天然活性(如工程化新酶活性)的泛化性未验证
- 适应度通过计算 oracle 近似,而非真实湿实验室验证
- 未测试 RL 方法(DPO/RTB)在离散扩散模型上的效果
- Thompson Sampling 中使用频率主义集成而非真正的贝叶斯后验(GP 效果不佳)
- 未考虑插入/删除突变,仅处理固定长度序列
- ARLM 生成后需手动映射回设计空间,未探索 inpainting 等更优雅的方式
相关工作与启发¶
- EvoDiff:离散扩散蛋白质模型,D3PM 基线从此微调
- DAPS (Zhang et al., 2025):解耦退火后验采样,首次适配到蛋白质离散扩散
- APEXGo:潜空间贝叶斯优化基线
- ProGen2:ARLM 基线
- 启发:即插即用引导的低数据优势 + 贝叶斯探索策略,可推广到其他离散序列设计问题(如小分子、自然语言可控生成)
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次系统对比 SGPO 方法 + 首次将 DAPS 用于蛋白质优化
- 实验充分度: ⭐⭐⭐⭐⭐ 三个蛋白质、多种模型和引导策略、自适应优化实验非常全面
- 写作质量: ⭐⭐⭐⭐ 结构清晰,方法分类图设计精良
- 价值: ⭐⭐⭐⭐ 为蛋白质工程提供了实用的最佳实践指南