跳转至

Viral Proteins Reveal Geometry of Protein Language Models

会议: ICML 2026
arXiv: 2606.12609
代码: 有(作者承诺开源,含 embedding 提取与复现脚本)
领域: 计算生物学 / 可解释性
关键词: 蛋白质语言模型, 病毒蛋白, 原生性轴, 线性探针, 表示几何

一句话总结

这篇论文以病毒蛋白为探针,发现 ESM 系列蛋白质语言模型(pLM)的嵌入空间里存在一条由掩码重建困惑度主导的"原生性轴"(PC1),它把序列从建模良好的细胞蛋白、经病毒蛋白、一直排到打乱/随机序列;同时证明嵌入里还保留着超出困惑度的"残余病毒信号"——线性探针能近天花板地区分病毒/细胞蛋白,而单靠困惑度做不到。

研究背景与动机

领域现状:pLM 在大规模序列库上训练,已成为结构预测、逆折叠、功能预测的通用表示工具,近期还兴起用机制可解释性去拆解它们学到了什么。但训练数据极度不均衡,主流分析几乎只看细胞蛋白。

现有痛点:人们几乎不了解 pLM 如何表示那些"功能真实存在、但在预训练数据里被严重低估、且演化上与细胞蛋白迥异"的生物类群。病毒蛋白正是典型——它们丰度低、受宿主依赖/高突变率/紧凑基因组/多功能性等不同演化约束塑造,且在病毒突变效应预测这类基准上 pLM 表现明显落后。

核心矛盾:病毒蛋白在 pLM 表示空间里确实和细胞蛋白分得很开(已有工作发现仅凭 mean-pooled ESM2 嵌入就能线性区分),但没人说清这种"分离"到底是什么驱动的——是单纯因为病毒蛋白"更难被模型重建"(即更不原生),还是嵌入里真的编码了病毒特有的生物信息?

本文目标:把这个问题拆成两问。第一,病毒分离是否主要由"低原生性"解释(病毒蛋白只是被预训练分布建模得更差)?第二,在原生性之外,嵌入是否还保留了病毒特有信息?

切入角度:作者把"掩码重建困惑度"(PPL)当作一个模型相对的原生性度量——它直接对齐 ESM2/ESMC 的训练目标,越低说明序列越符合模型在预训练中学到的统计规律。再用 PCA 去看嵌入几何,用线性探针 vs 零样本 PPL 分类器去拆解信息来源。

核心 idea:用"原生性轴"统一解释病毒-细胞位移,同时用"探针超过 PPL 的那部分 AUC"量化出残余的病毒特异信号——前者是几何主轴,后者是几何主轴装不下的信息。

方法详解

整体框架

论文不是提出新模型,而是一套围绕"病毒蛋白当探针"的表示几何分析方案。输入是横跨生命之树的多类群蛋白序列(六类细胞 + 四类病毒)加三种"无生物学意义"对照(打乱细胞、打乱病毒、i.i.d. 随机),跨三个 ESM 家族、跨越三个数量级参数量的模型;对每条序列取末层残基嵌入做 mean-pool 得到一个序列向量,并算一个掩码重建困惑度 PPL。然后并行跑三条分析线:① 把所有类群嵌入合到一起做 PCA,看病毒分离是否集中在单一主轴上;② 在人类病毒科粒度上看 scaling 如何改变"原生化比例";③ 在同源去泄漏的病毒/细胞分类集上,比线性探针、零样本 PPL 分类器、浅层序列基线三者的 AUC,分离出残余信号。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["多类群序列<br/>细胞/病毒/打乱/随机"] --> B["mean-pool 嵌入<br/>+ 掩码重建困惑度 PPL"]
    B --> C["原生性轴<br/>PCA 主轴 PC1≈PPL"]
    B --> D["按病毒科的 scaling 分析<br/>PPL<5 原生化比例"]
    B --> E["残余病毒信号<br/>线性探针 vs 零样本 PPL"]
    C --> F["细胞→病毒→打乱/随机<br/>连续排序"]
    D --> G["scaling 异质收缩<br/>部分科靠拢、部分持续位移"]
    E --> H["探针近天花板<br/>PPL 单独做不到"]

关键设计

1. 掩码重建困惑度:把"原生性"定义成模型相对的可重建难度

要回答"病毒分离是不是因为更难建模",先得有一个能量化"原生性"的标量。作者直接复用 pLM 的训练目标:对每条序列 \(\mathbf{x}\) 随机掩码 \(p=0.15\) 比例的残基位置(不含 BOS/EOS),算被掩 token 的对数似然,得到困惑度

\[\mathrm{PPL}(\mathbf{x}) = \exp\!\left(\frac{1}{|\mathcal{M}|}\sum_{i\in\mathcal{M}} -\log p_\theta\!\left(x_i \mid \mathbf{x}_{\setminus\mathcal{M}}\right)\right)\]

其中 \(\mathcal{M}\) 是被掩位置集合,结果对每条序列取三次独立掩码平均。这个定义的关键在于"模型相对":一条序列原生与否,取决于它多大程度匹配该模型在预训练里学到的统计规律,而不是某个固定外部标准。这直接对齐 ESM2/ESMC 的掩码语言建模目标,也对齐 ESM3 掩码去噪目标的序列分支,所以 PPL 越低 ≈ 越"原生"。

2. 原生性轴:嵌入空间里一条对齐 PPL 的主导几何方向

把十个生物类群加三种对照的序列嵌入合成一个矩阵做联合 PCA,作者发现病毒分离高度集中在单一主轴 PC1 上。在 ESMC-600M 上,PC1 解释了 73.1% 的方差,且与 PPL 的 Spearman 相关高达 \(\rho=+0.961\)。这条轴把序列从"重建良好的细胞蛋白(低 PPL,左侧)",经过"病毒区",一路排到"难重建的打乱/随机对照(高 PPL,右侧)"——病毒蛋白处在中间,既不像细胞蛋白那么原生,又比无生物学意义序列更有结构。作者据此把 PC1 命名为原生性轴。这条轴并非某个模型的偶然产物:它在 ESM2-650M(PC1 解释 54.3%)、ESM3-open(67.3%)上同样强相关(\(\rho=+0.926, +0.935\)),甚至跨出掩码 LM 目标——自回归的 ProGen2 与离散扩散的 EvoDiff 也呈现 PC1≈PPL 对齐和"细胞→病毒→打乱→随机"的五层排序。一个干净的反驳"数据曝光论"的对照是:把发布于 ESMC-600M checkpoint 之后(因此不在预训练里)的 1723 条细胞蛋白拿来测,其中位 PPL 为 5.3,远接近细胞参考(3.2)而非病毒参考(15.3)——说明位移反映的是"与细胞主导先验的兼容性",不是单纯训没训过。

3. 按病毒科的 scaling 分析:原生性轴的收缩是异质而非均匀的

光看"病毒整体"会掩盖内部差异,作者把分析下沉到人类病毒的(family)粒度,定义"原生化比例"= 该科中 \(\mathrm{PPL}<5\) 的序列占比(固定阈值,因为细胞类群在更小模型上就已普遍低于它),只保留 ≥50 条序列的科。结果是:放大模型平均只让人类病毒略微更原生(全体均值从 300M 的约 5% 升到 6B 的约 17%),但各科差异极大——Papillomaviridae 和 Retroviridae 随 scaling 增益约 60%,而 Orthomyxoviridae、Orthoherpesviridae、Sedoreoviridae 即便到 6B 仍大多在原生区之外。作者给的解释是:scaling 主要降低那些"本就更接近学到的蛋白先验"的科的重建难度;能被原生化的科往往有细胞同源物(如 Retroviridae 的逆转录酶在真核反转录转座子里也有、LTR 反转录转座子与逆转录病毒共享结构特征),其蛋白结构域早已存在于细胞训练分布里,因此更兼容细胞训练的 pLM。

4. 线性探针对比零样本 PPL:分离出超越重建难度的残余病毒信号

这是回答第二问的核心拆解。在一个同源去泄漏的人类病毒/细胞分类集(10400 条序列用 MMseqs2 在 30% 同一性、80% 双向覆盖度下聚类,整簇分到 60/20/20 train/val/test)上,作者对同一个模型用两种读出方式比较:一个是 mean-pooled 嵌入上训的 \(\ell_2\) 正则逻辑回归线性探针,一个是仅用负困惑度 \(s(\mathbf{x})=-\mathrm{PPL}(\mathbf{x})\)零样本 PPL 分类器(为可比报 \(\max(\mathrm{AUC}, 1-\mathrm{AUC})\));再加长度/氨基酸组成/二肽组成三个浅层基线取最优作为天花板下界。关键发现是两条曲线随 scale 发散:线性探针在所有规模都高于浅层基线、在大模型上达到 AUC∈[0.97,1.00] 天花板带;而 PPL 分类器更弱且非单调——它在中间规模改善,但在 ESM2-15B、ESM3-large 上反而下降,因为 scaling 把一些病毒蛋白变得"更原生"、挤进低 PPL 区,反而削弱了 PPL 单独可用的病毒/细胞可分性。换句话说,大模型能让病毒蛋白在重建目标下"看起来更原生",却仍在嵌入里保留一条线性可达的病毒信号——这条信号正是原生性轴装不下的部分。

损失函数 / 训练策略

本文不训练 pLM 主干,只在冻结嵌入上拟合轻量分类头:线性探针为标准化后的 \(\ell_2\) 正则逻辑回归,零样本分类器无需训练(直接用 \(-\mathrm{PPL}\) 排序),浅层基线为 length(1 维)/氨基酸组成(20 维)/二肽组成(400 维)上的逻辑回归。所有指标在留出 test 划分上报 AUC-ROC。

实验关键数据

主实验

预训练数据的不均衡是整篇文章的前提(Table 1 改写):

类群 UniRef50 簇数 说明
全部细胞蛋白 46.3 M 主导预训练分布
全部病毒蛋白 390.3 k 含噬菌体/植物/无脊椎/人类病毒
细胞 : 病毒 比例 119× 极度不均衡

病毒/细胞分类 AUC(人类病毒集,同源去泄漏 test 划分;数值取代表性规模):

读出方式 典型 AUC 随 scale 行为
嵌入线性探针 0.97–1.00(大模型达天花板带) 单调上升、近天花板
零样本 PPL 分类器 明显更低 非单调,ESM2-15B / ESM3-large 反降
最优浅层基线(二肽组成) 灰带上沿 探针始终高于它

跨架构稳健性:ProGen2、EvoDiff 的探针 AUC 分别为 0.984、0.986,且 PC1–PPL 对齐(\(\rho=+0.90, +0.95\))同样成立。

低假阳性场景(序列筛查相关)

在筛查实际关心的低 FPR 区,探针对 PPL 的优势最锐利:

模型 FPR=1% 探针 TPR FPR=1% PPL TPR
ESM2-15B 88.3% 26.9%
ESMC-6B 96.7% 39.2%
ESM3-large 90.6% 36.1%

在 0.1% FPR 下,探针 TPR 从 ESM2-8M 的 6.2% 升到 ESM2-15B 的 55.4%,从 ESMC-300M 的 47.9% 升到 ESMC-6B 的 83.4%——scaling 提升的是嵌入表示的实用筛查价值,即便此时 PPL 单独变得更不可靠。

关键发现

  • 原生性轴是统一解释器:PC1 一条轴(解释 54%–73% 方差)就吃下了大部分细胞→病毒位移,并把病毒蛋白定位在"原生细胞蛋白"与"无意义对照"之间。
  • scaling 的收缩是选择性的:有细胞同源物的科(Papillomaviridae、Retroviridae)随放大显著原生化(约 +60%),无同源支撑的科(Orthomyxoviridae 等)即便 6B 仍持续位移。
  • 残余信号独立于重建难度:探针与 PPL 分类器随 scale 发散,且探针超过二肽组成基线,说明它不是在利用简单序列统计。
  • 不需直接病毒曝光:ESM3-open 完全不含病毒训练序列,却仍有原生性轴、病毒仍线性可分——位移是"相对细胞主导先验"的结果,而非"训过没训过"。

亮点与洞察

  • 把训练目标本身当度量:用掩码重建困惑度定义"模型相对的原生性",既无需外部标签、又天然对齐 ESM 训练目标,是一个干净且可迁移的诊断量。这套"PPL 当 nativeness"的思路可直接搬到任何掩码序列模型。
  • 几何主轴 ≈ 损失代理:PC1 与 PPL 的 \(\rho>0.92\) 跨架构成立,提示掩码 pLM 可能会自发长出一条"对齐模型拟合度"的主导方向——这是一个很强的、值得理论化的经验现象。
  • "探针减 PPL"= 残余信号:用同一模型两种读出的 AUC 差,干净地把"难重建"和"病毒特异信息"两件事拆开,方法论上比"探针能分=有信号"更有说服力。
  • 类比多语言模型:作者点出低资源语言/方言之于多语言 LM,可能正是病毒蛋白之于 pLM 的对应物——一个能检验"原生性轴是否是大型掩码序列模型普遍属性"的漂亮跨域假设。

局限与展望

  • 作者承认主分析集中在 ESM 家族,对 ProGen2/EvoDiff 只是 Appendix 的初步证据,跨架构跨规模的系统普查仍是未来工作;且按科 scaling 的科排序是目标依赖的。
  • 自己观察:固定阈值 \(\mathrm{PPL}<5\) 作为"原生化"门槛是经验选择,不同模型族绝对 PPL 尺度不同,跨族比较"原生化比例"需谨慎;"细胞同源物解释为何某科被原生化"目前是定性归因而非系统因果检验。
  • 生物安全含义被作者克制地表述为"可能补充同源筛查",并未真正评测部署系统;嵌入能更好区分病毒-like 也意味着双用风险。
  • 展望:在病毒序列上微调可降低病毒 PPL 并把它们推向原生区且不损探针性能;理解原生性轴的数学/统计起源(高维混合几何?掩码目标的一般性质?)是最有价值的后续方向。

相关工作与启发

  • vs Ofer & Linial(病毒/细胞线性可分): 他们证明仅凭 mean-pooled ESM2 嵌入就能线性区分病毒与细胞蛋白,但没解释驱动分离的是什么;本文用 PPL/原生性轴把分离拆成"低原生性 + 残余信号"两部分,给出了机制性归因。
  • vs Gurev et al.(病毒突变效应基准): 他们从下游基准发现 pLM 在病毒上落后;本文从表示几何给出原因——病毒处于相对细胞先验的位移区,并把"低原生性"提议为一个可用的诊断量(低原生性科应更谨慎做零样本预测)。
  • vs SAE 类机制可解释性工作(Adams/Simon/Silberg 等): 他们用稀疏自编码器找绑定位点、结构基序、热稳定性等潜在特征,但都没检查病毒蛋白;本文专门补上"pLM 表示是否编码病毒特异信号"这一空白,并用线性探针给出量化答案。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 用病毒蛋白当探针发现并命名"原生性轴",并把分离干净拆成原生性+残余信号,视角新且统一。
  • 实验充分度: ⭐⭐⭐⭐ 跨三大 ESM 家族、跨三个数量级、加 ProGen2/EvoDiff 与同源去泄漏划分、低 FPR 分析都做了,但主结论仍以 ESM 为主、部分为 Appendix 初步证据。
  • 写作质量: ⭐⭐⭐⭐⭐ 两问驱动、三贡献清晰,几何结论与生物解释衔接自然。
  • 价值: ⭐⭐⭐⭐ 既给 pLM 可解释性一个可迁移诊断量(原生性),又对病毒筛查/生物安全有实际启示。