跳转至

Uncertainty-Guided Model Selection for Tabular Foundation Models in Biomolecule Efficacy Prediction

会议: NeurIPS 2025 (Workshop: Multi-modal Foundation Models for Life Sciences)
arXiv: 2510.02476
代码: 无
领域: 生物信息学, 表格基础模型
关键词: TabPFN, siRNA功效预测, 不确定性引导, 后验集成, 模型选择

一句话总结

本文提出OligoICP方法,利用TabPFN模型的预测分位数间距(IQR)作为无标签模型选择启发式指标,在siRNA敲低效率预测中实现了优于专用SOTA模型和朴素集成的性能。

研究背景与动机

  • siRNA通过切割mRNA转录本沉默靶基因,是有前景的治疗模态,但设计高敲低效率的siRNA是关键挑战
  • 生物分子功效数据集通常小、异质、来自不同实验技术
  • 上下文学习器(如TabPFN)在小表格数据上表现出色,但性能高度敏感于所提供的上下文
  • 简单使用更多数据不保证更好——大数据集可能超出ICL的计算限制,或与预训练分布不匹配
  • 核心问题:在无标签情况下如何选择集成中的最佳模型?

方法详解

整体框架

OligoICP方法流程: 1. 构建特征集(one-hot + trimer计数 + 热力学参数 = 574维特征) 2. 训练400个TabPFN模型集成(每个模型随机选k个训练子集,k∈[1,20]) 3. 用模型的IQR作为不确定性度量 4. 选择均值IQR最低的top 10%模型进行集成平均

关键设计

特征工程(574维): - siRNA 19-mer one-hot编码(4×19 = 76维) - mRNA 57-nt one-hot编码(5×57 = 285维) - siRNA trimer计数(64维)+ mRNA trimer计数(125维) - 热力学参数(吉布斯自由能变化、焓变等)

不确定性度量 — IQR: - TabPFN可输出预测分布的分位数估计 - IQR = 85%分位数 - 15%分位数(期望在分布内数据上70%正确率) - 关键发现:IQR与真实预测误差呈负相关(高IQR → 低准确率) - IQR在模型级聚合后,均值IQR与模型相关系数的Pearson r = -0.42

模型选择策略: - 全部使用:平均400个模型预测(Full ensemble mean) - OligoICP:仅平均IQR最低的top 10%模型(约40个) - 基线:单一模型(所有可用数据训练)

数据来源

  • Huesken数据集:2361个数据点,29个mRNA靶标
  • Target1:295+366+9个数据点(来自3个机构的专利)
  • Target2:252个数据点

实验关键数据

TabPFN vs 专用SOTA(OligoFormer)

数据集 TabPFN MAE↓ OligoFormer MAE↓ TabPFN Corr↑ OligoFormer Corr↑
Huesken (ID) 0.087±0.004 0.096 0.677±0.042 0.630
Target1 (A, OOD) 0.245 0.251 0.244 0.158
Target1 (B, OOD) 0.159 0.180 0.200 0.082

模型选择策略比较

数据集 OligoICP MAE Full ensemble MAE All data single MAE Oracle best MAE
Target1 (A) 0.270±0.005 0.268±0.002 0.278 0.197
Target1 (B) 0.174±0.001 0.169±0.001 0.172 0.149
Target2 0.185±0.001 0.189±0.001 0.186 0.161
数据集 OligoICP Corr Full ensemble Corr All data single Corr Oracle best Corr
Target1 (A) 0.278±0.015 0.257±0.012 0.051 0.544
Target1 (B) 0.072±0.005 0.086±0.020 0.112 0.430
Target2 0.246±0.015 0.230±0.002 0.230 0.384

关键发现

  • TabPFN + 简单特征即可超越专用的OligoFormer,尤其在OOD场景
  • IQR与预测误差之间存在可观察的负相关趋势
  • OligoICP在相关系数上改进显著(Target1(A): 0.051→0.278,提升5倍+)
  • 与Oracle最优模型仍有差距(0.278 vs 0.544),表明模型选择策略仍有改进空间
  • 单一全量数据模型的相关系数可能极低(0.051),说明"更多数据≠更好"

亮点与洞察

  • 通用表格模型可超越领域特定模型——挑战了"专用模型总是更好"的假设
  • IQR作为无标签模型选择指标的概念简洁且有效
  • 为处理超出ICL单次前馈限制的大规模上下文数据提供了自然解决方案
  • 额外计算量可接受(各模型仅处理有限数据,推理可并行化)

局限与展望

  • MAE上改进不明显,主要改进体现在相关系数
  • Target1(B)对所有方法都具有挑战性,OligoICP未能改善
  • Oracle结果显示模型选择策略仍有很大改进空间
  • 仅在siRNA任务上验证,需扩展到更广泛的生物分子预测任务
  • 特征数量(574)超出TabPFN预训练限制,使用了"忽略预训练限制"标志
  • 未与LoCalPFN等更高级的上下文选择策略比较

相关工作与启发

  • TabPFN/TabPFNv2在小表格数据上的成功在生物医药领域的首批应用实例
  • 后验集成加模型选择是Auto-sklearn等AutoML系统的经典策略,但IQR引导是新方法
  • 对药物发现中的序列设计任务具有直接实用价值

评分

⭐⭐⭐ — 实用性强,通用模型超越专用模型的发现有价值,但方法创新有限,实验规模较小。