GROVER: Graph-guided Representation of Omics and Vision with Expert Regulation for Cancer Survival Prediction¶

会议: AAAI 2026
arXiv: 2511.11730
代码: GitHub
领域: 计算生物学 / 空间多组学融合
关键词: 空间组学, 多模态融合, 图卷积网络, 混合专家模型, 对比学习

一句话总结¶

提出空间多组学框架GROVER，通过KAN-GCN编码器捕获非线性空间-特征依赖、spot-feature-pair对比学习对齐异构模态、以及自适应混合专家（MoE）动态路由过滤低质量信号，在四个真实空间组学数据集上实现了优于现有方法的聚类性能。

研究背景与动机¶

空间分辨转录组学和空间蛋白质组学分别被Nature评为2021年和2024年的年度方法，这些技术将单细胞分析扩展到空间维度，提供了前所未有的组织结构洞察。然而，空间多模态组学分析面临一个核心挑战：如何有效整合来自不同模态（转录组、蛋白质组、组织学图像）的特征，生成一致的低维表示用于下游分析（如空间域识别、细胞类型注释等）。

现有方法存在三个关键痛点：（1）大多数方法仅整合转录组和蛋白质组数据，忽略了组织学图像提供的关键形态学上下文。SpatialGlue、PRAGA等方法都只处理双模态。虽然MISO尝试引入组织学图像，但采用简单的外积交互，效果有限。（2）现有框架在所有空间位置对所有模态一视同仁，忽略了数据质量的巨大差异。实际中空间组学数据常受技术噪声（如单细胞测序中的dropout事件）和生物/实验伪影（如组织切片误差）的影响，不同spot的不同模态信噪比差异很大。（3）组学数据和组织学图像之间存在显著的语义鸿沟，且图像patch和测序spot之间是多对多映射关系，精确跨模态对齐极为困难。

本文的核心方案：设计一个三层策略——用KAN-GCN提取空间感知的模态表示，用spot级别的对比学习桥接模态语义鸿沟，用自适应MoE在每个spot动态选择可靠的模态信号。

方法详解¶

整体框架¶

GROVER处理三种模态输入：转录组（RNA）、蛋白质组（ADT）和组织学图像。对每种模态构建两个图：基于空间坐标的空间图 \(\mathcal{G}_S\) 和基于特征相似度的模态特征图 \(\mathcal{G}_F^{(m)}\)。通过KAN-GCN编码后用注意力加权融合为统一表示，再经过spot级对比学习对齐跨模态语义，最后由自适应MoE动态融合，输出统一嵌入 \(Z\) 用于聚类等下游分析。

关键设计¶

基于KAN的图卷积编码器（KAN-GCN）:
- 功能：替代标准GCN中的固定线性变换，增强图卷积的表达能力
- 核心思路：传统GCN的层传播为 \(H^{(l+1)} = \sigma(\tilde{D}^{-1/2}\tilde{A}\tilde{D}^{-1/2}H^{(l)}W^{(l)})\)，其中 \(W^{(l)}\) 是固定线性变换。GROVER用Kolmogorov-Arnold Network（KAN）替换这个线性变换，每一层包含可训练的单变量函数矩阵 \(\varphi_{q,p}^{(l)}\)，变换后的特征计算为 \(\mathcal{F}^{(l)}(H^{(l)})_{i,q} = \sum_{p=1}^{d_l}\varphi_{q,p}^{(l)}(H^{(l)}_{i,p})\)，节点更新变为 \(H^{(l+1)} = \sigma(\hat{A}\cdot\mathcal{F}^{(l)}(H^{(l)}))\)
- 设计动机：KAN网络能以核函数方式学习非线性变换，比标准GCN的线性投影更能捕获空间组学数据中复杂的非线性模式（如基因表达与空间位置之间的非线性关系）
空间-特征注意力融合:
- 功能：为每种模态自适应地融合空间图和特征图的编码
- 核心思路：对spot \(i\) 的模态 \(m\)，空间图编码 \(e_i^S\) 和特征图编码 \(e_i^{F(m)}\) 分别通过共享线性变换计算注意力分数 \(e_i^{(t)} = \mathbf{q}^\top \tanh(\mathbf{W}e_i^{(t)} + \mathbf{b})\)，然后softmax归一化后加权求和：\(\tilde{e}_i^{(m)} = \alpha_i^{(S)}e_i^S + \alpha_i^{(F)}e_i^{F(m)}\)
- 设计动机：空间图编码物理邻近关系，特征图编码功能相似性，两者对不同spot的重要性不同，需要自适应权重
Spot-Feature-Pair对比学习:
- 功能：在模态融合前对齐不同模态的语义表示
- 核心思路：采用带掩码的双向InfoNCE损失。首先计算每个模态内部的余弦相似度矩阵 \(S_{i,j}^{(m)}\)，构建二元掩码 \(M^{(m)}\) 排除高度相似的负样本（避免将生物学上相似但标签不同的spot作为困难负例），然后对RNA-ADT、RNA-Image、ADT-Image三个模态对分别计算双向对比损失：\(\mathcal{L}_{contrast}^{m_1,m_2} = \frac{1}{2}(\ell_{masked}(\tilde{E}^{(m_1)}, \tilde{E}^{(m_2)}, M^{(m_1)}) + \ell_{masked}(\tilde{E}^{(m_2)}, \tilde{E}^{(m_1)}, M^{(m_2)}))\)
- 设计动机：不同模态（尤其是组学和图像）的数据分布和语义差距巨大。掩码机制解决了空间组学特有的问题——相邻spot可能在生物学上高度相似，如果作为负例会产生大量假负例干扰训练
自适应混合专家（Self-adaptive MoE）:
- 功能：在每个spot级别动态调整各模态的贡献权重
- 核心思路：三个模态的对齐嵌入取平均得到门控输入 \(x_i = \frac{1}{3}(\hat{e}_i^{(R)} + \hat{e}_i^{(A)} + \hat{e}_i^{(I)})\)，门控网络输出归一化权重 \(\beta_i^{(m)}\)。关键创新是引入阈值过滤：当 \(\beta_i^{(m)} < \gamma\) 时将该模态权重置零，\(\gamma=0.3\)。过滤后重新归一化，每个模态通过专用FFN专家处理后加权求和：\(z_i = \sum_m s_i^{(m)} \cdot h_i^{(m)}\)。极端情况下所有模态都低于阈值时，使用置信度最高的单一模态
- 设计动机：空间组学数据中不同spot的各模态质量波动很大——某些spot可能因测序dropout导致RNA信号极差，或因切片误差导致图像失真。MoE可以在这些spot自动降低不可靠模态的影响

损失函数 / 训练策略¶

总体训练目标为三个模态的重建损失加上跨模态对比损失的加权和：\(\mathcal{L}_{total} = \sum_{m}\mathcal{L}_{rec}^{(m)} + \lambda\sum_{m_i \neq m_j}\mathcal{L}_{contrast}^{m_i, m_j}\)，其中 \(\lambda=2\)。重建损失通过图解码器利用空间邻接结构从融合嵌入 \(Z\) 恢复各模态特征。模型在双NVIDIA RTX A5000 GPU上训练，300 epochs内收敛。

实验关键数据¶

主实验（四个数据集上的聚类性能）¶

数据集	指标	GROVER	MISO	SpatialGlue	COSMOS
Human Tonsil	ARI (%)	45.2±7.8	41.3±6.7	43.3±6.7	19.8±6.7
Human Tonsil	SC (%)	31.6±3.9	7.0±1.6	23.8±3.2	20.0±0.7
Human Tonsil	CHI	2494.4±285.5	244.4±14.6	1063.6±123.6	937.4±99.6
Human Breast Cancer	ARI (%)	44.1±10.7	37.5±3.0	43.0±6.9	25.6±2.2
Human Breast Cancer	SC (%)	36.3±7.7	11.0±0.6	20.2±0.8	24.8±0.8
Human Glioblastoma	ARI (%)	40.8±6.6	43.5±6.9	40.1±7.6	32.0±6.9
Human Glioblastoma	NMI (%)	53.9±4.1	49.2±2.2	53.8±7.3	48.6±4.3
Tonsil Add-on	ARI (%)	46.5±5.6	44.6±11.9	45.3±7.3	24.6±4.3
Tonsil Add-on	SC (%)	38.2±1.2	8.3±0.5	21.4±1.1	18.4±2.5

消融实验（Human Tonsil with Add-on Antibodies）¶

配置	ARI (%)	NMI (%)	SC (%)	说明
GROVER (完整)	46.5±5.6	59.0±4.8	38.2±1.2	全部组件启用
w/o MoE	42.5±4.3	56.8±3.0	21.8±1.2	移除专家路由，用简单求和替代，ARI降4.0%
w/o \(\mathcal{L}_{contrast}\)	45.5±7.2	57.8±4.3	21.6±2.6	移除对比损失，SC降16.6%
w/o KAN-GCN	42.7±6.7	55.9±5.2	52.6±1.1	用标准GCN替代，监督指标下降但SC反而上升

关键发现¶

GROVER在SC（轮廓系数）上的优势最为显著——在Human Tonsil上比MISO高出24.6个百分点，说明其融合嵌入的聚类结构更清晰
双模态方法SpatialGlue在部分数据集上竟然优于三模态方法MISO，说明简单地增加模态并均匀融合反而可能引入噪声，佐证了自适应融合的必要性
MoE移除后性能显著下降，验证了按spot动态加权的重要性
KAN-GCN替换为标准GCN后，无监督指标（SC、DBI）反而改善但监督指标（ARI、NMI）下降——说明KAN的非线性建模在有标签评价下更有优势，但可能导致嵌入空间不够"光滑"
\(\gamma=0.3\)（接近专家数的倒数 \(1/3\)）是最佳阈值——过低则无法过滤噪声模态，过高则过度依赖单模态丢失互补信息

亮点与洞察¶

将KAN引入GCN是一个新颖的组合，用可训练的非线性函数替代固定线性变换，本质上让每条边的消息传递都有独立的非线性变换能力
spot级别的MoE设计精确匹配了空间组学的数据特点——不同空间位置的数据质量差异巨大，全局统一权重不合理
对比学习中的掩码机制巧妙地处理了空间数据特有的"生物学相似假负例"问题
框架高度模块化，可无缝替换任何SOTA病理学基础模型（如OmiCLIP），具有良好的可扩展性

局限与展望¶

实验仅在聚类任务上验证，未展示在生存预测、细胞类型注释等更多下游任务上的表现（尽管标题提到"cancer survival prediction"，但论文实验部分并未涉及生存分析）
KAN-GCN在无监督指标上不如标准GCN，暗示其可能有过拟合风险或嵌入空间不够规整
四个数据集全部来自10x Genomics平台，跨平台泛化能力未经验证
当前仅处理三种模态（RNA、ADT、Image），对更多组学类型（如表观组学、代谢组学）的扩展需要进一步验证
MoE的gate网络相对简单（单层线性），更复杂的门控可能带来进一步提升

评分¶

新颖性: ⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐
价值: ⭐⭐⭐⭐