GROVER: Graph-guided Representation of Omics and Vision with Expert Regulation for Cancer Survival Prediction¶
会议: AAAI 2026
arXiv: 2511.11730
代码: GitHub
领域: 计算生物学 / 空间多组学融合
关键词: 空间组学, 多模态融合, 图卷积网络, 混合专家模型, 对比学习
一句话总结¶
提出空间多组学框架GROVER,通过KAN-GCN编码器捕获非线性空间-特征依赖、spot-feature-pair对比学习对齐异构模态、以及自适应混合专家(MoE)动态路由过滤低质量信号,在四个真实空间组学数据集上实现了优于现有方法的聚类性能。
研究背景与动机¶
空间分辨转录组学和空间蛋白质组学分别被Nature评为2021年和2024年的年度方法,这些技术将单细胞分析扩展到空间维度,提供了前所未有的组织结构洞察。然而,空间多模态组学分析面临一个核心挑战:如何有效整合来自不同模态(转录组、蛋白质组、组织学图像)的特征,生成一致的低维表示用于下游分析(如空间域识别、细胞类型注释等)。
现有方法存在三个关键痛点:(1)大多数方法仅整合转录组和蛋白质组数据,忽略了组织学图像提供的关键形态学上下文。SpatialGlue、PRAGA等方法都只处理双模态。虽然MISO尝试引入组织学图像,但采用简单的外积交互,效果有限。(2)现有框架在所有空间位置对所有模态一视同仁,忽略了数据质量的巨大差异。实际中空间组学数据常受技术噪声(如单细胞测序中的dropout事件)和生物/实验伪影(如组织切片误差)的影响,不同spot的不同模态信噪比差异很大。(3)组学数据和组织学图像之间存在显著的语义鸿沟,且图像patch和测序spot之间是多对多映射关系,精确跨模态对齐极为困难。
本文的核心方案:设计一个三层策略——用KAN-GCN提取空间感知的模态表示,用spot级别的对比学习桥接模态语义鸿沟,用自适应MoE在每个spot动态选择可靠的模态信号。
方法详解¶
整体框架¶
GROVER处理三种模态输入:转录组(RNA)、蛋白质组(ADT)和组织学图像。对每种模态构建两个图:基于空间坐标的空间图 \(\mathcal{G}_S\) 和基于特征相似度的模态特征图 \(\mathcal{G}_F^{(m)}\)。通过KAN-GCN编码后用注意力加权融合为统一表示,再经过spot级对比学习对齐跨模态语义,最后由自适应MoE动态融合,输出统一嵌入 \(Z\) 用于聚类等下游分析。
关键设计¶
-
基于KAN的图卷积编码器(KAN-GCN):
- 功能:替代标准GCN中的固定线性变换,增强图卷积的表达能力
- 核心思路:传统GCN的层传播为 \(H^{(l+1)} = \sigma(\tilde{D}^{-1/2}\tilde{A}\tilde{D}^{-1/2}H^{(l)}W^{(l)})\),其中 \(W^{(l)}\) 是固定线性变换。GROVER用Kolmogorov-Arnold Network(KAN)替换这个线性变换,每一层包含可训练的单变量函数矩阵 \(\varphi_{q,p}^{(l)}\),变换后的特征计算为 \(\mathcal{F}^{(l)}(H^{(l)})_{i,q} = \sum_{p=1}^{d_l}\varphi_{q,p}^{(l)}(H^{(l)}_{i,p})\),节点更新变为 \(H^{(l+1)} = \sigma(\hat{A}\cdot\mathcal{F}^{(l)}(H^{(l)}))\)
- 设计动机:KAN网络能以核函数方式学习非线性变换,比标准GCN的线性投影更能捕获空间组学数据中复杂的非线性模式(如基因表达与空间位置之间的非线性关系)
-
空间-特征注意力融合:
- 功能:为每种模态自适应地融合空间图和特征图的编码
- 核心思路:对spot \(i\) 的模态 \(m\),空间图编码 \(e_i^S\) 和特征图编码 \(e_i^{F(m)}\) 分别通过共享线性变换计算注意力分数 \(e_i^{(t)} = \mathbf{q}^\top \tanh(\mathbf{W}e_i^{(t)} + \mathbf{b})\),然后softmax归一化后加权求和:\(\tilde{e}_i^{(m)} = \alpha_i^{(S)}e_i^S + \alpha_i^{(F)}e_i^{F(m)}\)
- 设计动机:空间图编码物理邻近关系,特征图编码功能相似性,两者对不同spot的重要性不同,需要自适应权重
-
Spot-Feature-Pair对比学习:
- 功能:在模态融合前对齐不同模态的语义表示
- 核心思路:采用带掩码的双向InfoNCE损失。首先计算每个模态内部的余弦相似度矩阵 \(S_{i,j}^{(m)}\),构建二元掩码 \(M^{(m)}\) 排除高度相似的负样本(避免将生物学上相似但标签不同的spot作为困难负例),然后对RNA-ADT、RNA-Image、ADT-Image三个模态对分别计算双向对比损失:\(\mathcal{L}_{contrast}^{m_1,m_2} = \frac{1}{2}(\ell_{masked}(\tilde{E}^{(m_1)}, \tilde{E}^{(m_2)}, M^{(m_1)}) + \ell_{masked}(\tilde{E}^{(m_2)}, \tilde{E}^{(m_1)}, M^{(m_2)}))\)
- 设计动机:不同模态(尤其是组学和图像)的数据分布和语义差距巨大。掩码机制解决了空间组学特有的问题——相邻spot可能在生物学上高度相似,如果作为负例会产生大量假负例干扰训练
-
自适应混合专家(Self-adaptive MoE):
- 功能:在每个spot级别动态调整各模态的贡献权重
- 核心思路:三个模态的对齐嵌入取平均得到门控输入 \(x_i = \frac{1}{3}(\hat{e}_i^{(R)} + \hat{e}_i^{(A)} + \hat{e}_i^{(I)})\),门控网络输出归一化权重 \(\beta_i^{(m)}\)。关键创新是引入阈值过滤:当 \(\beta_i^{(m)} < \gamma\) 时将该模态权重置零,\(\gamma=0.3\)。过滤后重新归一化,每个模态通过专用FFN专家处理后加权求和:\(z_i = \sum_m s_i^{(m)} \cdot h_i^{(m)}\)。极端情况下所有模态都低于阈值时,使用置信度最高的单一模态
- 设计动机:空间组学数据中不同spot的各模态质量波动很大——某些spot可能因测序dropout导致RNA信号极差,或因切片误差导致图像失真。MoE可以在这些spot自动降低不可靠模态的影响
损失函数 / 训练策略¶
总体训练目标为三个模态的重建损失加上跨模态对比损失的加权和:\(\mathcal{L}_{total} = \sum_{m}\mathcal{L}_{rec}^{(m)} + \lambda\sum_{m_i \neq m_j}\mathcal{L}_{contrast}^{m_i, m_j}\),其中 \(\lambda=2\)。重建损失通过图解码器利用空间邻接结构从融合嵌入 \(Z\) 恢复各模态特征。模型在双NVIDIA RTX A5000 GPU上训练,300 epochs内收敛。
实验关键数据¶
主实验(四个数据集上的聚类性能)¶
| 数据集 | 指标 | GROVER | MISO | SpatialGlue | COSMOS |
|---|---|---|---|---|---|
| Human Tonsil | ARI (%) | 45.2±7.8 | 41.3±6.7 | 43.3±6.7 | 19.8±6.7 |
| Human Tonsil | SC (%) | 31.6±3.9 | 7.0±1.6 | 23.8±3.2 | 20.0±0.7 |
| Human Tonsil | CHI | 2494.4±285.5 | 244.4±14.6 | 1063.6±123.6 | 937.4±99.6 |
| Human Breast Cancer | ARI (%) | 44.1±10.7 | 37.5±3.0 | 43.0±6.9 | 25.6±2.2 |
| Human Breast Cancer | SC (%) | 36.3±7.7 | 11.0±0.6 | 20.2±0.8 | 24.8±0.8 |
| Human Glioblastoma | ARI (%) | 40.8±6.6 | 43.5±6.9 | 40.1±7.6 | 32.0±6.9 |
| Human Glioblastoma | NMI (%) | 53.9±4.1 | 49.2±2.2 | 53.8±7.3 | 48.6±4.3 |
| Tonsil Add-on | ARI (%) | 46.5±5.6 | 44.6±11.9 | 45.3±7.3 | 24.6±4.3 |
| Tonsil Add-on | SC (%) | 38.2±1.2 | 8.3±0.5 | 21.4±1.1 | 18.4±2.5 |
消融实验(Human Tonsil with Add-on Antibodies)¶
| 配置 | ARI (%) | NMI (%) | SC (%) | 说明 |
|---|---|---|---|---|
| GROVER (完整) | 46.5±5.6 | 59.0±4.8 | 38.2±1.2 | 全部组件启用 |
| w/o MoE | 42.5±4.3 | 56.8±3.0 | 21.8±1.2 | 移除专家路由,用简单求和替代,ARI降4.0% |
| w/o \(\mathcal{L}_{contrast}\) | 45.5±7.2 | 57.8±4.3 | 21.6±2.6 | 移除对比损失,SC降16.6% |
| w/o KAN-GCN | 42.7±6.7 | 55.9±5.2 | 52.6±1.1 | 用标准GCN替代,监督指标下降但SC反而上升 |
关键发现¶
- GROVER在SC(轮廓系数)上的优势最为显著——在Human Tonsil上比MISO高出24.6个百分点,说明其融合嵌入的聚类结构更清晰
- 双模态方法SpatialGlue在部分数据集上竟然优于三模态方法MISO,说明简单地增加模态并均匀融合反而可能引入噪声,佐证了自适应融合的必要性
- MoE移除后性能显著下降,验证了按spot动态加权的重要性
- KAN-GCN替换为标准GCN后,无监督指标(SC、DBI)反而改善但监督指标(ARI、NMI)下降——说明KAN的非线性建模在有标签评价下更有优势,但可能导致嵌入空间不够"光滑"
- \(\gamma=0.3\)(接近专家数的倒数 \(1/3\))是最佳阈值——过低则无法过滤噪声模态,过高则过度依赖单模态丢失互补信息
亮点与洞察¶
- 将KAN引入GCN是一个新颖的组合,用可训练的非线性函数替代固定线性变换,本质上让每条边的消息传递都有独立的非线性变换能力
- spot级别的MoE设计精确匹配了空间组学的数据特点——不同空间位置的数据质量差异巨大,全局统一权重不合理
- 对比学习中的掩码机制巧妙地处理了空间数据特有的"生物学相似假负例"问题
- 框架高度模块化,可无缝替换任何SOTA病理学基础模型(如OmiCLIP),具有良好的可扩展性
局限与展望¶
- 实验仅在聚类任务上验证,未展示在生存预测、细胞类型注释等更多下游任务上的表现(尽管标题提到"cancer survival prediction",但论文实验部分并未涉及生存分析)
- KAN-GCN在无监督指标上不如标准GCN,暗示其可能有过拟合风险或嵌入空间不够规整
- 四个数据集全部来自10x Genomics平台,跨平台泛化能力未经验证
- 当前仅处理三种模态(RNA、ADT、Image),对更多组学类型(如表观组学、代谢组学)的扩展需要进一步验证
- MoE的gate网络相对简单(单层线性),更复杂的门控可能带来进一步提升
相关工作与启发¶
- SpatialGlue采用双注意力GNN融合转录组和蛋白质组,是当前双模态SOTA
- MISO通过外积交互引入组织学图像,但均匀融合策略限制了性能
- MoE思想源自经典的混合专家模型,在NLP(如Switch Transformer)中广泛使用,本文将其引入空间组学融合是一个很好的跨领域迁移
- KAN(Kolmogorov-Arnold Network)是最近热门的网络结构,本文是较早将其用于GCN中的工作之一
评分¶
- 新颖性: ⭐⭐⭐⭐
- 实验充分度: ⭐⭐⭐⭐
- 写作质量: ⭐⭐⭐⭐
- 价值: ⭐⭐⭐⭐