A Diffusion Model to Shrink Proteins While Maintaining Their Function¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=quxeCxJwKm
代码: 待确认
领域: 计算生物学 / 蛋白质生成 / 离散扩散模型
关键词: 蛋白质工程, 离散扩散, 序列删除, 进化序列建模, ESM2, ProteinGym

一句话总结¶

提出 SCISOR——一个只学"删字母"的离散扩散模型：用纯生灭过程（随机插入）做前向加噪，训练去噪器反向规划删除，从而把长蛋白序列缩短成既"自然"又保功能的短序列，在 ProteinGym 删除效应预测上达到 SOTA。

研究背景与动机¶

领域现状：许多有医学/生物工程价值的蛋白因为序列太长，难以在实验室合成、难以与其他蛋白融合、也难以递送到组织。理想做法是用在海量自然序列上训练的大模型（ESM2、ProGen2、Tranception 等）学习"进化施加的约束"，从而提出既缩短又不破坏功能的短序列。

现有痛点：(1) 自回归/BERT 式大模型无法在 \(\binom{L}{M}\) 这个组合爆炸的删除空间里高效搜索；(2) 它们没有针对"删除"这个任务的归纳偏置，不是显式训练来预测删除效应的；(3) 扩散模型（EvoDiff、DPLM）虽擅长规划一连串突变，但现有离散扩散框架只能做替换突变，根本生成不了删除。

核心矛盾："用扩散模型搜索删除空间"这条路最有希望，但扩散框架的前向噪声天然是替换/mask，而删除会改变序列长度（维度可变），缺一个能严格定义、能闭式求 ELBO、还能 scale 到 UniRef 规模的删除扩散框架。

本文目标：构造一个前向只做插入、反向只学删除的离散扩散模型，使去噪器天生具备"该删哪个字母"的归纳偏置，并能缩短真实长蛋白。

核心 idea（反向噪声设计）：既然要让模型学会删除，就让前向加噪过程只插入随机字母——把自然序列不断插入随机字母直到变成一条长随机序列；去噪器则反向地规划一系列删除，逐步回到形似自然蛋白的序列。

方法详解¶

整体框架¶

SCISOR（Sequence Contraction with InSertion-Only noising pRocess）把"缩短蛋白"重写成扩散模型的去噪问题：前向用纯生灭过程给自然序列随机插入字母（Sec 4.1），反向训练去噪器 \(q_\theta\) 预测"上一步插入的是哪个字母"从而删除它（Sec 4.2），最后基于 ESM2 把模型 scale 到 UniRef 规模（Sec 4.3）。生成时从一条长随机序列出发，按 \(q_\theta\) 迭代删除到目标长度。

flowchart LR
    A["自然序列 X0<br/>(L 个氨基酸)"] -->|"前向: 纯生灭过程<br/>随机插入字母 β(t)"| B["长随机序列 X1<br/>(≈Cat(π) 采样)"]
    B -->|"反向去噪器 qθ<br/>规划删除 prev(Xt)"| A
    C["ESM2 预训练权重<br/>+ FiLM 条件化 M"] -.-> D["去噪器 qθ(prev(X)|X,M)"]
    D -.-> B

关键设计¶

1. 插入式前向过程 + 无需稳态分布的扩散：纯生灭过程让"删除"变成合法的去噪目标。 前向噪声选用纯生灭过程（Kendall, 1948）：在 \(L\) 个氨基酸序列的 \(L+1\) 个空位上，每个位置以速率 \(\beta(t)\) 独立长出一个新字母，插入字母从 \(Y\sim\mathrm{Cat}(\pi)\) 采样，序列越长可插入的空位越多。作者证明 \(X_t\) 可直接从 \(X_0\) 一步采样（负二项分布决定插入总数 \(M_t\sim\mathrm{NegBin}(L+1,\alpha(t))\)，其中 \(\alpha(t)=\exp(-\int_0^t\beta(s)ds)\)），无需逐时刻模拟。关键难点是：标准扩散要求 \(p(X_t|X_0)\) 收敛到一个易采样的稳态分布，但插入过程会让序列无限变长、根本不收敛。Thm 4.1 给出破局点：虽然不收敛，但当插入数 \(M_1\to\infty\) 时 \(X_1\) 可以被"每位独立从 \(\mathrm{Cat}(\pi)\) 采样的长随机序列" \(q\) 任意逼近——\(\mathrm{KL}(p(X_1|X_0,M_1)\|q(X_1|L+M_1))\to 0\)。这证明了形式稳态分布并非定义扩散模型的必要条件，从而第一次让"只学缩短"的扩散合法成立。

2. Schedule-conditioned 闭式 ELBO：把去噪目标精确化为"删哪个字母"，并能条件化删除数 M。 沿用 Amin et al. (2025) 的离散扩散框架，作者在 Thm 4.2 推出一个 schedule-conditioned 的负对数似然上界（即训练损失）：

\[-\log q_\theta(X_0|L)\le \mathbb{E}_{M_1}\mathrm{KL}\big(p(X_1|X_0,M_1)\|q(X_1|L+M_1)\big)+\mathbb{E}_{t,X_t,M_t}\frac{M_t\beta(t)}{1-\alpha(t)}\mathrm{KL}\big(p(\mathrm{prev}(X_t)|X_0,X_t,M_t)\|q_\theta(\mathrm{prev}(X_t)|X_t,M_t)\big)\]

第一项由 Thm 4.1 保证很小；第二项是真正训练去噪器的目标——\(q_\theta\) 吃进噪声序列 \(X_t\) 和它含有的插入数 \(M_t\)，去预测"最后被插入的那个字母"\(\mathrm{prev}(X_t)\)，等价于一个"该删哪个位置"的分布。相比经典离散扩散，这个损失更稳定，而且显式条件化删除数 \(M\)，让模型能为"未来还要删多少"提前规划。

3. 通过序列比对做 Rao-Blackwell 化的目标分布：把对所有插入路径的积分变成可并行的对齐计数。 第二项需要真值分布 \(p(\mathrm{prev}(X_t)|X_0,X_t,M_t)\)——即 \(X_t\) 的哪个字母最可能是最后被插入的。难点是从 \(X_0\) 到 \(X_t\) 有多条插入路径，要对它们全部边缘化。Prop 4.3 给出优雅闭式：记 \(\mathrm{ali}(X,Y)\) 为把 \(X\) 对齐到 \(Y\) 的方式数，被删字母为 \(b\)，则

\[p(\mathrm{prev}(X_t)|X_0,X_t,M_t)=\frac{\mathrm{ali}(X_0,\mathrm{prev}(X_t))}{M_t\cdot \mathrm{ali}(X_0,X_t)}\]

直觉是：与原序列 \(X_0\) 对齐得越少的字母，越可能是后来插进去的（该删）。这相当于把梯度估计在所有插入路径上做了 Rao-Blackwell 化，方差更低；实践中用动态规划并行算出所有 \(\mathrm{ali}(X_0,\mathrm{prev}(X_t))\)。

4. 复用 ESM2 + FiLM 条件化 + 长序列工程：让框架真正跑到 UniRef 规模。 去噪器架构直接复用 BERT 式蛋白语言模型 ESM2 的预训练权重，替换最后一层为线性+softmax；为了条件化删除数 \(M\)，在注意力块之间插入 FiLM 层，对第 \(\ell\) 层激活做仿射变换 \((1+A_{\theta,d}^\ell(M))\times a_d^\ell+B_{\theta,d}^\ell(M)\)，其中 \(A_\theta,B_\theta\) 是初始化为零的浅层全连接。工程上：(1) 速率函数 \(\beta(t)\) 选得让 \(X_t\) 与 \(X_0\) 的互信息在 \(t\in[0,1]\) 上近似线性下降；\(\pi\) 取训练集氨基酸频率；(2) 因 \(X_t\) 长度差异巨大，按长度排序后分小批+梯度累积以减少 padding 浪费；(3) 当 \(|X_t|>2048\) 时随机取一个 2048 窗口并把模型预测按 \(2048/|X_t|\) 重归一化、窗口外用均匀预测，保证 ELBO 仍是合法下界。生成时还可加 corrector 步（反复插入+删除）以逃离局部最优（Alg 2）。

实验关键数据¶

主实验：生成质量 + 删除效应预测¶

在 UniRef50 上对比扩散模型（EvoDiff、DPLM）与自回归参考（AR），测困惑度 Perplexity（越低越好）：

模型	规模	Perplexity (↓)
Random	-	18.03
EvoDiff S	small	14.61
SCISOR S	small	14.05
DPLM M	150M	10.61
EvoDiff L	large	13.05
SCISOR L	large	12.19
DPLM L	large	9.15
AR L（参考）	large	10.41

SCISOR 在扩散模型中困惑度有竞争力，且样本质量（FPD 分布匹配、OmegaFold pLDDT 可折叠性）常优于同类扩散模型、逼近自回归参考——作者归因于 SCISOR 是连续时间模型。

ProteinGym 删除效应预测（62 个 assay、7000 条测量，Spearman 相关，越高越好）：

模型	单删除 (↑)	多删除 (↑)
HMM	0.45	0.45
Tranception	0.46	0.47
ProGen2	0.51	0.47
PoET（用 MSA）	0.55	0.49
SCISOR	0.57	0.52

SCISOR 在单删除与多删除两个 benchmark 上均超过所有 baseline，甚至超过能访问蛋白家族额外信息的大模型 PoET。

缩短任务：保功能评估¶

取 200 条带结合位点/活性位点注释的 UniProt 序列，按 1%–50% 不同比例缩短，对比 ProGen2、Raygun：

指标	SCISOR 表现
pLDDT 结构置信度 (↑)	各删除比例下持续最高
TM-score 结构相似 (↑)	优于 baseline
RMSD 结构偏差 (↓)	优于 baseline
功能位点保留富集 (↑)	多数情况下最佳

仅在 50% 极端缩短时 ProGen2 功能位点保留更高，但其 pLDDT 偏低说明此时样本大概率已不可折叠（不具功能）。RalA（GTP 传感器）案例研究中，SCISOR 最好地保留了与 GTP 结合位点的预测结构。

消融实验¶

配置	关键发现
去掉 Rao-Blackwell 化训练目标	性能明显下降，凸显 Prop 4.3 对齐积分目标是核心
连续时间 vs 离散时间	连续时间（SCISOR）样本质量更高
corrector 步 K	增大 K 提升样本质量但增加计算

关键发现¶

一个"只会删除"的扩散模型，居然能在生成质量上与"会替换"的成熟扩散模型平起平坐。
删除任务专属的归纳偏置，让小模型也能在删除效应预测上超过更大的通用模型。

亮点与洞察¶

把"缩短蛋白"重定义为扩散去噪：核心创意是颠倒扩散的方向——前向插入、反向删除，让"删除"成为模型与生俱来的能力，而非事后启发式。
理论破除稳态分布迷思：Thm 4.1 证明扩散不需要形式稳态分布，只需 \(X_1\) 可被长随机序列逼近即可，这为"长度只减不增"的单向扩散打开了大门。
对齐 = 路径积分：Prop 4.3 把"对所有插入路径边缘化"这个看似 intractable 的问题，转化为序列比对的方式计数，用动态规划并行求解，既闭式又低方差。
闭式 ELBO 带来可比性：不同于多数插入/删除扩散（无闭式 ELBO），SCISOR 能做原则性的模型比较与困惑度评估。

局限与展望¶

分布偏移：训练时 \(X\) 是带噪插入的随机序列，推理缩短时 \(X\) 是真实蛋白，二者分布不同，可能影响统计效率；作者建议未来用更"自然"的前向插入过程缓解，但难点在于既要保证 \(p(X_1)\) 易逼近又要保留闭式路径积分。
"自然≠同功能"：方法假设"形似自然序列 ⇒ likely 保功能"，但在功能多样的蛋白家族中不保证同功能；未来可引入显式的功能/结构 guidance。
多次模型评估开销：缩短 \(M\) 个位置需要 \(M\) 次去噪器评估（Raygun 只需 1 次），corrector 步进一步增加成本。
依赖预测工具评估：保功能性主要靠 OmegaFold/ESM2 等 in-silico 指标，缺少湿实验验证缩短后蛋白真实功能。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个"只学删除"的离散扩散框架，理论上破除稳态分布必要性、用对齐做路径积分，概念原创性强。
实验充分度: ⭐⭐⭐⭐ 覆盖生成质量、ProteinGym 删除效应、缩短保功能三类任务，含消融与案例研究；略欠湿实验验证。
写作质量: ⭐⭐⭐⭐ 动机清晰、定理与算法逐步推进、图示直观，理论部分较密集需一定背景。
价值: ⭐⭐⭐⭐⭐ 直击蛋白工程"序列太长难合成/递送"的真实痛点，提供可 scale 的通用缩短工具，应用前景广。