AAAI 2026 医学图像数据剪枝生物基础模型影响函数核心集选择 RNA-FM ESM 蛋白质语言模型

Investigating Data Pruning for Pretraining Biological Foundation Models at Scale¶

会议: AAAI 2026
arXiv: 2512.12932
代码: github.com/victor-yifanwu/bio-coreset
领域: 医学图像 / 生物信息 / 基础模型
关键词: 数据剪枝, 生物基础模型, 影响函数, 核心集选择, RNA-FM, ESM, 蛋白质语言模型

一句话总结¶

提出一个基于影响函数的后验数据剪枝框架，通过子集自影响估计（Subset-Based Self-Influence）和两种选择策略（Top-k Influence 和 Coverage-Centric Influence），在超过 99% 的极端剪枝率下，用仅 0.2M 序列预训练的 RNA-FM 在多项下游任务上媲美甚至超越用 23M 序列训练的完整模型，揭示了生物序列数据集的巨大冗余性。

研究背景与动机¶

领域现状：生物基础模型（BioFMs）如 RNA-FM（23M RNA序列）和 ESM（28亿蛋白质序列）在结构预测、功能注释等任务上表现出色，但训练成本极高（RNA-FM：8×A100 训练 30天），严重限制了学术实验室的可复现性和可及性。

数据剪枝在生物领域的空白： - CV/NLP 领域已有大量数据剪枝工作，但 BioFMs 预训练几乎未被探索 - 基于训练动力学的方法（EL2N、AUM）：需要完整训练过程，对 BioFMs 不可行 - 基于局部密度的方法：需要两两相似度计算，数百万级序列不可扩展 - 基于影响函数的方法：需要计算全训练集 Hessian 逆，参数量达数亿时不可行

核心问题：能否在不访问完整训练过程的前提下，通过后验（post-hoc）方法找到信息量最大的训练子集？

切入角度：利用影响函数理论，在小子集上近似全训练集的曲率信息，高效估计每个样本的重要性。

方法详解¶

整体框架¶

三步走： 1. 影响分数估计：基于子集的自影响函数 2. 核心集选择：Top I 或 CCI 策略 3. 从头预训练：在选出的核心集上重新训练 BioFMs

子集自影响函数（Subset-Based Self-Influence）¶

经典影响函数回顾：训练样本 $z_{tr}$ 对验证样本 $z_{val}$ 的影响为： $$\mathcal{I}(z_{tr}; z_{val}) = g_{z_{val}}^\top H_{\theta^*}^{-1} g_{z_{tr}}$$

其中 $g$ 为梯度，$H$ 为 Hessian。但计算 $H^{-1}$ 在大模型上不可行。

关键创新 — 子集近似：

Assumption 1：在随机采样的子集 $D_{sub}$ 上训练得到 $\tilde{\theta}$，模型在子集上近似最优。

基于此假设，用子集 Hessian $\tilde{H}_{sub}$ 替代全训练集 Hessian $H_{tr}$：

\[\mathcal{I}(z_{tr}, D_{sub}) = \tilde{g}_{z_{tr}}^\top \tilde{H}_{sub}^{-1} \tilde{g}_{z_{tr}}\]

理论支撑（Proposition 1）：在大模型损失景观平坦的条件下（已被最近研究证实），子集曲率可以充分近似全训练集曲率。

进一步加速 — 对角经验 Fisher 矩阵近似：

\[\tilde{H}_{sub}^{-1} \approx \text{diag}(\tilde{F}_{sub})^{-1}\]

其中 $\text{diag}(\tilde{F}_{sub}) = \frac{1}{M}\sum_{m=1}^M \tilde{g}_{z_m} \odot \tilde{g}_{z_m}$

计算复杂度从 $O(M \cdot d^2 + d^3)$ 降至 $O(M \cdot d)$，对数十亿参数模型可行。

实践要点：在子集上做一个 epoch 的轻量微调即可满足 Assumption 1，成本可忽略。

两种核心集选择策略¶

Top-k Influence (Top I)：直接选影响分数最高的 $k$ 个样本
- 优先保留对模型参数影响最大的样本
- 理论上对应最有信息量的数据点
Coverage-Centric Influence (CCI)：在影响分数分布上分层采样
- 保持"简单"和"困难"样本的均衡分布
- 受 Sorscher et al. 2022 启发：极端剪枝下，仅保留最难样本会导致过拟合
- 分层采样确保数据分布的覆盖性

实验设置¶

极端剪枝率：仅保留 0.2M 序列（RNA: ~1% of 23M；蛋白质: ~4.4% of 4.5M）
在核心集上从头训练 10 个 epoch
评估多种下游任务

实验¶

RNA-FM 实验¶

功能与工程预测任务¶

方法	数据量	TypeCls ACC(%)	TypeCls F1(%)	Modif AUC(%)	CRI-On SC(%)	CRI-On MSE↓
RNA-FM	23M	91.93	91.87	94.98	31.87	.0118
Random	2M	82.21	82.01	92.82	26.72	.0158
Random	0.2M	82.15	81.97	91.86	26.67	.0161
Top I	0.2M	82.51	82.53	93.20	27.08	.0149
CCI	0.2M	82.88	83.12	93.86	32.90	.0135

CCI 在 CRISPR On-Target 上超越了完整 RNA-FM（23M 序列）！
0.2M 的核心集竟然优于 2M 的随机选择

结构与交互预测任务¶

方法	二级结构 F1(%)	距离图 SC(%)	接触图 Top-1.0L(%)	RBP交互 ACC(%)
RNA-FM	62.20	89.21	93.93	72.47
Random 0.2M	55.60	84.90	94.18	69.65
Top I	57.05	86.47	94.36	71.25
CCI	56.36	85.59	94.20	69.46

结构相关任务中 Top I 优于 CCI：高影响样本编码了更丰富的结构信息
接触图预测中 Top I 甚至超越了完整 RNA-FM

ESM-C 蛋白质实验（泛化性验证）¶

方法	数据量	定位 ACC(%)	二级结构 ACC(%)	PPI MAE↓	PPI RMSE↓
ESM-C	2.78B	91.63	86.10	1.92	2.44
Random	2M	75.76	67.20	2.39	2.87
Random	0.2M	73.64	66.18	2.51	3.01
Top I	0.2M	77.13	69.34	2.06	2.64
CCI	0.2M	79.25	71.48	2.14	2.69

Top I 和 CCI 在 0.2M 下均超过 2M Random，再次证明蛋白质数据大量冗余
CCI 在蛋白质场景表现更好

消融实验：适应（fine-tuning）的必要性¶

变体	Modif AUC(%)	距离图 SC(%)
Top I (w/o ft)	92.94	84.13
CCI (w/o ft)	93.31	84.95
Top I	93.20	86.47
CCI	93.86	85.59

在子集上做轻量微调后再计算影响分数，结果一致更好，验证了 Assumption 1 的重要性。

亮点与洞察¶

揭示了生物训练数据的巨大冗余性：不到 1% 的数据就能达到接近甚至超越完整模型的性能
后验框架无需训练过程：只需预训练模型权重和一小批子集微调，对已发布但未公开训练细节的模型也适用
Top I vs CCI 的互补性：
- CCI 擅长功能/工程预测（需要覆盖多样性）
- Top I 擅长结构/交互预测（需要信息密度）
理论推导完整：从经典影响函数到子集近似到 Fisher 对角化，每步都有理论支撑
极高的实际价值：对学术实验室来说，能以极低成本复现 BioFMs 的训练

局限性¶

RNA 实验仅在 RNA-FM 上验证，未测试更大的 RNA 模型（如 Evo 2）
蛋白质实验受限于资源仅用 4.5M（远小于 ESM-C 的 2.78B 训练集），核心集效果未在全尺度数据上验证
Assumption 1（子集上近似最优）的误差上界未定量分析
对角 Fisher 近似在高度非对角 Hessian 结构时可能不准确
仅在自监督预训练（MLM）场景验证，有监督微调场景的数据剪枝效果未讨论
未与基于密度/多样性的方法（如 Facility Location）做直接对比

评分 ⭐⭐⭐⭐¶

创新性：⭐⭐⭐⭐ — 子集影响函数近似方法有理论贡献，首次将数据剪枝系统性地引入 BioFMs
实验：⭐⭐⭐⭐ — RNA+蛋白质双模态验证，多种下游任务全面评估
写作：⭐⭐⭐⭐ — 理论推导清晰，实验呈现规范
实用性：⭐⭐⭐⭐⭐ — 直接降低 BioFMs 的预训练成本，对计算资源受限的研究组有巨大价值