Viral Proteins Reveal Geometry of Protein Language Models¶

会议: ICML 2026
arXiv: 2606.12609
代码: 有（作者承诺开源，含 embedding 提取与复现脚本）
领域: 计算生物学 / 可解释性
关键词: 蛋白质语言模型, 病毒蛋白, 原生性轴, 线性探针, 表示几何

一句话总结¶

这篇论文以病毒蛋白为探针，发现 ESM 系列蛋白质语言模型（pLM）的嵌入空间里存在一条由掩码重建困惑度主导的"原生性轴"（PC1），它把序列从建模良好的细胞蛋白、经病毒蛋白、一直排到打乱/随机序列；同时证明嵌入里还保留着超出困惑度的"残余病毒信号"——线性探针能近天花板地区分病毒/细胞蛋白，而单靠困惑度做不到。

研究背景与动机¶

领域现状：pLM 在大规模序列库上训练，已成为结构预测、逆折叠、功能预测的通用表示工具，近期还兴起用机制可解释性去拆解它们学到了什么。但训练数据极度不均衡，主流分析几乎只看细胞蛋白。

现有痛点：人们几乎不了解 pLM 如何表示那些"功能真实存在、但在预训练数据里被严重低估、且演化上与细胞蛋白迥异"的生物类群。病毒蛋白正是典型——它们丰度低、受宿主依赖/高突变率/紧凑基因组/多功能性等不同演化约束塑造，且在病毒突变效应预测这类基准上 pLM 表现明显落后。

核心矛盾：病毒蛋白在 pLM 表示空间里确实和细胞蛋白分得很开（已有工作发现仅凭 mean-pooled ESM2 嵌入就能线性区分），但没人说清这种"分离"到底是什么驱动的——是单纯因为病毒蛋白"更难被模型重建"（即更不原生），还是嵌入里真的编码了病毒特有的生物信息？

本文目标：把这个问题拆成两问。第一，病毒分离是否主要由"低原生性"解释（病毒蛋白只是被预训练分布建模得更差）？第二，在原生性之外，嵌入是否还保留了病毒特有信息？

切入角度：作者把"掩码重建困惑度"（PPL）当作一个模型相对的原生性度量——它直接对齐 ESM2/ESMC 的训练目标，越低说明序列越符合模型在预训练中学到的统计规律。再用 PCA 去看嵌入几何，用线性探针 vs 零样本 PPL 分类器去拆解信息来源。

核心 idea：用"原生性轴"统一解释病毒-细胞位移，同时用"探针超过 PPL 的那部分 AUC"量化出残余的病毒特异信号——前者是几何主轴，后者是几何主轴装不下的信息。

方法详解¶

整体框架¶

论文不是提出新模型，而是一套围绕"病毒蛋白当探针"的表示几何分析方案。输入是横跨生命之树的多类群蛋白序列（六类细胞 + 四类病毒）加三种"无生物学意义"对照（打乱细胞、打乱病毒、i.i.d. 随机），跨三个 ESM 家族、跨越三个数量级参数量的模型；对每条序列取末层残基嵌入做 mean-pool 得到一个序列向量，并算一个掩码重建困惑度 PPL。然后并行跑三条分析线：① 把所有类群嵌入合到一起做 PCA，看病毒分离是否集中在单一主轴上；② 在人类病毒科粒度上看 scaling 如何改变"原生化比例"；③ 在同源去泄漏的病毒/细胞分类集上，比线性探针、零样本 PPL 分类器、浅层序列基线三者的 AUC，分离出残余信号。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["多类群序列<br/>细胞/病毒/打乱/随机"] --> B["mean-pool 嵌入<br/>+ 掩码重建困惑度 PPL"]
    B --> C["原生性轴<br/>PCA 主轴 PC1≈PPL"]
    B --> D["按病毒科的 scaling 分析<br/>PPL<5 原生化比例"]
    B --> E["残余病毒信号<br/>线性探针 vs 零样本 PPL"]
    C --> F["细胞→病毒→打乱/随机<br/>连续排序"]
    D --> G["scaling 异质收缩<br/>部分科靠拢、部分持续位移"]
    E --> H["探针近天花板<br/>PPL 单独做不到"]

关键设计¶

1. 掩码重建困惑度：把"原生性"定义成模型相对的可重建难度

要回答"病毒分离是不是因为更难建模"，先得有一个能量化"原生性"的标量。作者直接复用 pLM 的训练目标：对每条序列 \(\mathbf{x}\) 随机掩码 \(p=0.15\) 比例的残基位置（不含 BOS/EOS），算被掩 token 的对数似然，得到困惑度

\[\mathrm{PPL}(\mathbf{x}) = \exp\!\left(\frac{1}{|\mathcal{M}|}\sum_{i\in\mathcal{M}} -\log p_\theta\!\left(x_i \mid \mathbf{x}_{\setminus\mathcal{M}}\right)\right)\]

其中 \(\mathcal{M}\) 是被掩位置集合，结果对每条序列取三次独立掩码平均。这个定义的关键在于"模型相对"：一条序列原生与否，取决于它多大程度匹配该模型在预训练里学到的统计规律，而不是某个固定外部标准。这直接对齐 ESM2/ESMC 的掩码语言建模目标，也对齐 ESM3 掩码去噪目标的序列分支，所以 PPL 越低 ≈ 越"原生"。

2. 原生性轴：嵌入空间里一条对齐 PPL 的主导几何方向

把十个生物类群加三种对照的序列嵌入合成一个矩阵做联合 PCA，作者发现病毒分离高度集中在单一主轴 PC1 上。在 ESMC-600M 上，PC1 解释了 73.1% 的方差，且与 PPL 的 Spearman 相关高达 \(\rho=+0.961\)。这条轴把序列从"重建良好的细胞蛋白（低 PPL，左侧）"，经过"病毒区"，一路排到"难重建的打乱/随机对照（高 PPL，右侧）"——病毒蛋白处在中间，既不像细胞蛋白那么原生，又比无生物学意义序列更有结构。作者据此把 PC1 命名为原生性轴。这条轴并非某个模型的偶然产物：它在 ESM2-650M（PC1 解释 54.3%）、ESM3-open（67.3%）上同样强相关（\(\rho=+0.926, +0.935\)），甚至跨出掩码 LM 目标——自回归的 ProGen2 与离散扩散的 EvoDiff 也呈现 PC1≈PPL 对齐和"细胞→病毒→打乱→随机"的五层排序。一个干净的反驳"数据曝光论"的对照是：把发布于 ESMC-600M checkpoint 之后（因此不在预训练里）的 1723 条细胞蛋白拿来测，其中位 PPL 为 5.3，远接近细胞参考（3.2）而非病毒参考（15.3）——说明位移反映的是"与细胞主导先验的兼容性"，不是单纯训没训过。

3. 按病毒科的 scaling 分析：原生性轴的收缩是异质而非均匀的

光看"病毒整体"会掩盖内部差异，作者把分析下沉到人类病毒的科（family）粒度，定义"原生化比例"= 该科中 \(\mathrm{PPL}<5\) 的序列占比（固定阈值，因为细胞类群在更小模型上就已普遍低于它），只保留 ≥50 条序列的科。结果是：放大模型平均只让人类病毒略微更原生（全体均值从 300M 的约 5% 升到 6B 的约 17%），但各科差异极大——Papillomaviridae 和 Retroviridae 随 scaling 增益约 60%，而 Orthomyxoviridae、Orthoherpesviridae、Sedoreoviridae 即便到 6B 仍大多在原生区之外。作者给的解释是：scaling 主要降低那些"本就更接近学到的蛋白先验"的科的重建难度；能被原生化的科往往有细胞同源物（如 Retroviridae 的逆转录酶在真核反转录转座子里也有、LTR 反转录转座子与逆转录病毒共享结构特征），其蛋白结构域早已存在于细胞训练分布里，因此更兼容细胞训练的 pLM。

4. 线性探针对比零样本 PPL：分离出超越重建难度的残余病毒信号

这是回答第二问的核心拆解。在一个同源去泄漏的人类病毒/细胞分类集（10400 条序列用 MMseqs2 在 30% 同一性、80% 双向覆盖度下聚类，整簇分到 60/20/20 train/val/test）上，作者对同一个模型用两种读出方式比较：一个是 mean-pooled 嵌入上训的 \(\ell_2\) 正则逻辑回归线性探针，一个是仅用负困惑度 \(s(\mathbf{x})=-\mathrm{PPL}(\mathbf{x})\) 的零样本 PPL 分类器（为可比报 \(\max(\mathrm{AUC}, 1-\mathrm{AUC})\)）；再加长度/氨基酸组成/二肽组成三个浅层基线取最优作为天花板下界。关键发现是两条曲线随 scale 发散：线性探针在所有规模都高于浅层基线、在大模型上达到 AUC∈[0.97,1.00] 天花板带；而 PPL 分类器更弱且非单调——它在中间规模改善，但在 ESM2-15B、ESM3-large 上反而下降，因为 scaling 把一些病毒蛋白变得"更原生"、挤进低 PPL 区，反而削弱了 PPL 单独可用的病毒/细胞可分性。换句话说，大模型能让病毒蛋白在重建目标下"看起来更原生"，却仍在嵌入里保留一条线性可达的病毒信号——这条信号正是原生性轴装不下的部分。

损失函数 / 训练策略¶

本文不训练 pLM 主干，只在冻结嵌入上拟合轻量分类头：线性探针为标准化后的 \(\ell_2\) 正则逻辑回归，零样本分类器无需训练（直接用 \(-\mathrm{PPL}\) 排序），浅层基线为 length(1 维)/氨基酸组成(20 维)/二肽组成(400 维)上的逻辑回归。所有指标在留出 test 划分上报 AUC-ROC。

实验关键数据¶

主实验¶

预训练数据的不均衡是整篇文章的前提（Table 1 改写）：

类群	UniRef50 簇数	说明
全部细胞蛋白	46.3 M	主导预训练分布
全部病毒蛋白	390.3 k	含噬菌体/植物/无脊椎/人类病毒
细胞 : 病毒比例	119×	极度不均衡

病毒/细胞分类 AUC（人类病毒集，同源去泄漏 test 划分；数值取代表性规模）：

读出方式	典型 AUC	随 scale 行为
嵌入线性探针	0.97–1.00（大模型达天花板带）	单调上升、近天花板
零样本 PPL 分类器	明显更低	非单调，ESM2-15B / ESM3-large 反降
最优浅层基线（二肽组成）	灰带上沿	探针始终高于它

跨架构稳健性：ProGen2、EvoDiff 的探针 AUC 分别为 0.984、0.986，且 PC1–PPL 对齐（\(\rho=+0.90, +0.95\)）同样成立。

低假阳性场景（序列筛查相关）¶

在筛查实际关心的低 FPR 区，探针对 PPL 的优势最锐利：

模型	FPR=1% 探针 TPR	FPR=1% PPL TPR
ESM2-15B	88.3%	26.9%
ESMC-6B	96.7%	39.2%
ESM3-large	90.6%	36.1%

在 0.1% FPR 下，探针 TPR 从 ESM2-8M 的 6.2% 升到 ESM2-15B 的 55.4%，从 ESMC-300M 的 47.9% 升到 ESMC-6B 的 83.4%——scaling 提升的是嵌入表示的实用筛查价值，即便此时 PPL 单独变得更不可靠。

关键发现¶

原生性轴是统一解释器：PC1 一条轴（解释 54%–73% 方差）就吃下了大部分细胞→病毒位移，并把病毒蛋白定位在"原生细胞蛋白"与"无意义对照"之间。
scaling 的收缩是选择性的：有细胞同源物的科（Papillomaviridae、Retroviridae）随放大显著原生化（约 +60%），无同源支撑的科（Orthomyxoviridae 等）即便 6B 仍持续位移。
残余信号独立于重建难度：探针与 PPL 分类器随 scale 发散，且探针超过二肽组成基线，说明它不是在利用简单序列统计。
不需直接病毒曝光：ESM3-open 完全不含病毒训练序列，却仍有原生性轴、病毒仍线性可分——位移是"相对细胞主导先验"的结果，而非"训过没训过"。

亮点与洞察¶

把训练目标本身当度量：用掩码重建困惑度定义"模型相对的原生性"，既无需外部标签、又天然对齐 ESM 训练目标，是一个干净且可迁移的诊断量。这套"PPL 当 nativeness"的思路可直接搬到任何掩码序列模型。
几何主轴 ≈ 损失代理：PC1 与 PPL 的 \(\rho>0.92\) 跨架构成立，提示掩码 pLM 可能会自发长出一条"对齐模型拟合度"的主导方向——这是一个很强的、值得理论化的经验现象。
"探针减 PPL"= 残余信号：用同一模型两种读出的 AUC 差，干净地把"难重建"和"病毒特异信息"两件事拆开，方法论上比"探针能分=有信号"更有说服力。
类比多语言模型：作者点出低资源语言/方言之于多语言 LM，可能正是病毒蛋白之于 pLM 的对应物——一个能检验"原生性轴是否是大型掩码序列模型普遍属性"的漂亮跨域假设。

局限与展望¶

作者承认主分析集中在 ESM 家族，对 ProGen2/EvoDiff 只是 Appendix 的初步证据，跨架构跨规模的系统普查仍是未来工作；且按科 scaling 的科排序是目标依赖的。
自己观察：固定阈值 \(\mathrm{PPL}<5\) 作为"原生化"门槛是经验选择，不同模型族绝对 PPL 尺度不同，跨族比较"原生化比例"需谨慎；"细胞同源物解释为何某科被原生化"目前是定性归因而非系统因果检验。
生物安全含义被作者克制地表述为"可能补充同源筛查"，并未真正评测部署系统；嵌入能更好区分病毒-like 也意味着双用风险。
展望：在病毒序列上微调可降低病毒 PPL 并把它们推向原生区且不损探针性能；理解原生性轴的数学/统计起源（高维混合几何？掩码目标的一般性质？）是最有价值的后续方向。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 用病毒蛋白当探针发现并命名"原生性轴"，并把分离干净拆成原生性+残余信号，视角新且统一。
实验充分度: ⭐⭐⭐⭐ 跨三大 ESM 家族、跨三个数量级、加 ProGen2/EvoDiff 与同源去泄漏划分、低 FPR 分析都做了，但主结论仍以 ESM 为主、部分为 Appendix 初步证据。
写作质量: ⭐⭐⭐⭐⭐ 两问驱动、三贡献清晰，几何结论与生物解释衔接自然。
价值: ⭐⭐⭐⭐ 既给 pLM 可解释性一个可迁移诊断量（原生性），又对病毒筛查/生物安全有实际启示。