Advancing Cancer Prognosis with Hierarchical Fusion of Genomic, Proteomic and Pathology Imaging Data from a Systems Biology Perspective¶

会议: CVPR 2026
论文: CVF Open Access
代码: 无
领域: 计算生物学 / 多模态生存预测
关键词: 癌症预后, 多组学融合, 蛋白质组, 超图学习, 病理全玻片图像

一句话总结¶

HFGPI 把"基因 → 蛋白质 → 组织形态"的系统生物学级联显式建模成一条分层融合管线，用图感知交叉注意力刻画基因对蛋白的调控、用超图把蛋白连到病理 patch，在 5 个 TCGA 队列上把生存预测的平均 C-index 推到 0.753，超过所有 SOTA。

研究背景与动机¶

领域现状：癌症生存预测（survival prediction）的主流是多模态融合——把测序得到的基因表达和病理全玻片图像（WSI） 结合起来。WSI 提供细胞组织形态等表型信息，但缺乏分子机制；基因表达揭示分子亚型与通路失调。代表工作如 MCAT（共注意力 Transformer）、MOTCat（最优传输）、SurvPath（通路知识）都验证了多模态优于单模态。

现有痛点：作者指出现有框架有两个被忽视的缺口。其一是漏掉了蛋白质组（proteome）——基因只是"指令"，真正执行细胞功能、直接决定组织形态的是蛋白。临床上 HER2 蛋白过表达（而非 ERBB2 mRNA 水平）才决定病理上的膜染色模式，靠免疫组化看蛋白状态做决策。光靠基因签名无法刻画转录后/翻译后的调控。其二是平铺式融合（flat fusion）：现有方法把所有模态放在同一层级里对齐，没有反映生物组织的层级依赖。

核心矛盾：生物信息本质上是沿层级级联流动的——基因编码指令、蛋白执行功能、功能表现为组织形态（gene → protein → phenotype）。而现有架构把这条有方向的级联拍平成"同级对齐"，自然丢掉了"分子异常如何机制性地导致形态结果"的路径。此外现有方法把表达谱当成孤立数值向量，完全没用上基因/蛋白本身的功能注释、共表达等内在生物属性。

本文目标：(1) 把蛋白质组作为连接基因型与表型的中间层引入；(2) 用一条显式建模生物层级的分层融合管线取代平铺融合；(3) 让分子的"身份语义"参与表征学习，而不只是表达数值。

切入角度：从系统生物学视角重新设计架构——既然生物信息是 gene → protein → phenotype 的有向级联，那融合管线就应该按这个顺序逐层往上推。

核心 idea：用"分子标记器（给基因/蛋白注入身份语义）+ 基因调控蛋白融合 + 蛋白引导超图"三件套，把 gene→protein→morphology 的层级级联逐层显式建模，再渐进式融合做生存预测。

方法详解¶

整体框架¶

给定一位患者的 WSI、基因表达和蛋白表达数据，HFGPI 按照生物层级分四个阶段往上走。第一阶段（特征提取）：WSI 切成 20× 的不重叠 patch、用预训练视觉编码器（CONCH）抽 patch 特征；基因和蛋白则各自过 Molecular Tokenizer，把"身份嵌入"和"表达谱"融成生物学知情的分子表征。第二阶段：Gene-Regulated Protein Fusion（GRPF） 用图感知交叉注意力 + 结构保持对齐，显式建模"基因 → 蛋白"的有向调控，输出基因调控后的蛋白表征。第三阶段：Protein-Guided Hypergraph Learning（PGHL） 把每个蛋白当成一条超边连接语义相关的 patch，用超图卷积捕捉"蛋白—形态"的高阶多对多关系。第四阶段：把分层融合后的特征过 Transformer 编码器 + 门控注意力池化，聚成患者级表征预测风险（hazard）。三个贡献模块恰好沿 gene→protein→image 的层级顺序串成一条上行链。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入：基因表达 / 蛋白表达 / WSI"] --> B["Molecular Tokenizer<br/>身份嵌入 ⊙ 表达谱"]
    A --> P["WSI 切 patch<br/>CONCH 视觉编码"]
    B --> C["Gene-Regulated Protein Fusion<br/>图感知交叉注意力 + 结构保持对齐"]
    C --> D["Protein-Guided Hypergraph Learning<br/>蛋白当超边连 patch + 超图卷积"]
    P --> D
    D --> E["Transformer + 注意力池化<br/>患者级表征"]
    E --> F["风险预测：低风险 / 高风险"]

关键设计¶

1. Molecular Tokenizer：给基因和蛋白注入"身份语义"，而不只喂表达数值

痛点直指现有方法把表达谱当成孤立数字向量，丢掉了基因/蛋白自身的功能注释、共表达关系。Molecular Tokenizer 的做法是把定量表达谱与定性身份嵌入逐元素相乘融合。对基因，用 Gene2Vec 生成 200 维身份嵌入 \(G \in \mathbb{R}^{N_g \times d_g}\)（功能相关的基因在嵌入空间里靠得近），再与患者表达 \(e^{(k)}\) 调制：\(X_g^{(k)} = e^{(k)} \odot G\)，让表达水平在单基因粒度上调制身份嵌入，得到同时编码"这是什么基因"与"表达多少"的表征。对蛋白，关键巧思是让蛋白身份嵌入天然对齐病理图像空间——用 LLM（GPT-5）生成每个蛋白的文本描述（功能 + 它在 HE 染色图上可能对应的形态特征），再用 VLM（CONCH）的文本编码器编码成 \(P\)，同样 \(X_p^{(k)} = q^{(k)} \odot P\)。因为蛋白身份嵌入和 patch 特征来自同一个 CONCH，后续蛋白—patch 关联才有共享语义空间可用。

2. Gene-Regulated Protein Fusion（GRPF）：用有向交叉注意力刻画"基因调控蛋白"，并用结构约束守住生物拓扑

生物调控是从基因到蛋白单向流动（转录 + 翻译），平铺式对齐刻画不了这种方向性。GRPF 分三步。先做分子图构建 + GCN 精炼：用 k-NN（基因 \(k_g{=}100\)、蛋白 \(k_p{=}20\)）按余弦相似度建基因图 \(A_g\)、蛋白图 \(A_p\)，再用 GCN 把网络上下文传播进 \(X_g, X_p\)。接着做有向交叉注意力——让蛋白作为 query 去基因里查调控信息（体现"基因控制蛋白活性"）：

\[T = \mathrm{softmax}\!\left(\frac{Q K^\top}{\sqrt{d}}\right) \in \mathbb{R}^{N_p \times N_g},\quad Q = X_p W_Q,\ K = X_g W_K,\ V = X_g W_V\]

其中 \(T_{ij}\) 量化蛋白 \(i\) 受基因 \(j\) 调控的强度。第三步是结构保持对齐（structure-preserving alignment）：功能耦合的蛋白往往由协同调控的基因编码，所以约束注意力矩阵 \(T\) 尊重两侧网络拓扑——\(L_{struct} = \frac{1}{N_g N_p}\lVert C_g - T^\top C_p T\rVert_F^2\)，其中 \(C_g = 1 - A_g\)、\(C_p = 1 - A_p\) 是结构代价矩阵（低代价=高功能相似）。最终融合 \(X_p^{regulated} = X_p + TV\)，第一项保留原蛋白信息、第二项注入基因调控信号。这一步把"基因→蛋白"这层依赖显式写进了表征，而非靠平铺注意力隐式碰运气。

3. Protein-Guided Hypergraph Learning（PGHL）：用超边把一个蛋白连到多块组织 patch，建模多对多的"蛋白—形态"高阶关系

蛋白通过空间上分散的形态改变执行功能：一个蛋白可能在多个组织区域表达，而一块 patch 往往同时反映多个蛋白的活动——这是多对多关系，普通成对交叉注意力刻画不了。PGHL 把它建成超图 \(H=(V,E)\)：节点 \(V\) 是 patch，超边 \(E\) 是蛋白。每个蛋白 \(i\) 定义一条超边，连接与它语义最相关的 top-\(k\)（\(k{=}32\)）个 patch——按 patch 特征 \(Y\) 与基因调控蛋白嵌入 \(X_p^{regulated}\) 的余弦相似度 \(S = \mathrm{sim}(Y, X_p^{regulated})\) 取 top-\(k\)，构成关联矩阵 \(H_{ji}\)。然后做超图卷积让共享蛋白关联的 patch 互相聚合上下文：\(Z = \sigma(D_v^{-1/2} H W_e D_e^{-1} H^\top D_v^{-1/2} Y W_p)\)。再做超边聚合得到蛋白驱动的形态表征 \(E = H^\top Z / \deg(E)\)，最后与基因调控蛋白嵌入相加融合 \(F = E + X_p^{regulated}\)，得到同时编码基因调控、蛋白语义、组织形态的混合表征。这一步把层级链条的最后一跳"蛋白→形态"也显式补上了。

损失函数 / 训练策略¶

总损失把生存损失和结构约束加权组合：\(L = L_{surv} + \lambda L_{struct}\)。\(L_{surv}\) 是生存分析标准的负对数似然（NLL）损失，基于风险函数 \(h^{(k)}(t)\) 和生存函数 \(S^{(k)}(t)=\prod_{u=1}^{t}(1-h^{(k)}(u))\) 对删失（censoring）样本与事件样本分别计似然；\(\lambda=0.3\) 平衡预测性能与结构一致性。融合特征 \(F\) 先过 Transformer 编码器捕全局依赖，再用门控注意力池化按预后相关性自适应加权聚成患者级表征 \(h\)，最后过预测头估计 hazard。训练 20 epoch、AdamW、学习率 \(1\times10^{-4}\)、batch size 1 + 16 步梯度累积、RTX 3090。基因取 top \(N_g=2000\) 高变异基因。

实验关键数据¶

主实验¶

5 个 TCGA 队列（BLCA/BRCA/GBMLGG/LUAD/UCEC），5 折交叉验证，指标为 C-index（mean ± std，越高越好）。HFGPI 平均 C-index 0.753，在所有数据集上 SOTA。

模型	模态(G/P/I)	BLCA	BRCA	GBMLGG	LUAD	UCEC	平均
WiKG（最强单模态）	I	0.691	0.699	0.808	0.601	0.631	0.686
MCAT	G+I	0.686	0.685	0.835	0.639	0.716	0.712
CMTA	G+I	0.693	0.681	0.839	0.643	0.702	0.712
MoME	G+I	0.704	0.688	0.835	0.651	0.714	0.718
PS3†	G+P+I	0.708	0.702	0.851	0.659	0.757	0.735
ICFNet†	G+P+I	0.705	0.692	0.846	0.664	0.739	0.729
HFGPI（本文）	G+P+I	0.717	0.715	0.873	0.680	0.782	0.753

† 表示把原方法的文本模态替换成蛋白质组数据后的变体。HFGPI 比最强单模态 WiKG 高 6.7%，比三模态最强 PS3 高 1.8%、比 ICFNet 高 2.4%。"加了蛋白"的三模态方法普遍比对应两模态版本高 1.1%~5.4%，直接验证蛋白质组作为中间表型的互补价值。

消融实验¶

平均 C-index（五数据集均值）：

配置	平均 C-index	说明
Full HFGPI	0.753	完整三模态模型
去蛋白（仅 g,i）	0.713 (−4.0%)	去掉蛋白质组掉最多档之一
仅 g,p	0.708 (−4.5%)	去掉图像
仅 p,i	0.708 (−4.5%)	去掉基因
Tokenizer→基因家族	0.739 (−1.4%)	用基因家族编码替身份嵌入
Tokenizer→通路	0.743 (−1.0%)	用通路编码
GRPF→普通交叉注意力	0.730 (−2.3%)	去掉图感知 + 结构对齐
PGHL→普通交叉注意力	0.735 (−1.8%)	去掉超图高阶建模
w/o \(L_{struct}\)	0.737 (−1.6%)	去掉结构保持对齐

另有编码器选型实验：VLM 用 CONCH（0.753）远好于 CLIP（−6.5%）、PLIP（−2.8%）、QUILT（−3.7%），说明病理专用基础模型很关键；LLM 用 GPT-5（0.753）略优，但 DeepSeek/Qwen-3/Claude-3.7 差距都在 1% 内，框架对 LLM 选择鲁棒。

关键发现¶

三模态缺一不可：去掉任意单模态都掉 4% 左右，三者捕捉互补生物信息；其中去蛋白同样显著掉点，坐实"蛋白质组是不可或缺的中间层"这一核心论点。
GRPF 贡献最大（−2.3%）：把图感知交叉注意力换成普通交叉注意力掉得最多，说明显式建模基因→蛋白的有向调控 + 结构拓扑约束确实带来增益，而非简单堆模态。
身份语义 vs 表达数值：Molecular Tokenizer 比基因家族/通路编码各高 1.4%/1.0%，证明在单基因粒度保留细粒度分子身份信息有用。
编码器对齐很重要：CONCH 这种病理图文对预训练的 VLM 让蛋白文本与 patch 在同一空间，是 PGHL 蛋白—patch 关联能成立的前提，换成通用 CLIP 直接掉 6.5%。

亮点与洞察¶

把"系统生物学级联"直接画成网络结构：gene→protein→phenotype 不是一句口号，而是被拆成 Tokenizer→GRPF→PGHL 三个对应模块逐层上行，架构本身就是生物学假设的实现，可解释性天然内嵌。
用 LLM 生成蛋白的"形态学描述"再用 VLM 编码，巧妙地把蛋白嵌入拉进病理图像空间——这个跨模态对齐的小技巧是 PGHL 能用相似度连蛋白与 patch 的关键，思路可迁移到任何"想让符号化生物实体对齐图像"的任务。
超图建模多对多关系：一个蛋白=一条超边连多块 patch，比成对注意力更贴合"一个蛋白分散表达在多个区域、一块 patch 受多蛋白影响"的生物现实；这种"实体作超边"的范式可借鉴到其他高阶关系场景。
结构保持对齐用 \(\lVert C_g - T^\top C_p T\rVert_F^2\) 把生物先验（功能耦合蛋白由协同基因编码）写成正则项，是把领域知识注入注意力的一种轻量做法。

局限与展望¶

依赖配对齐全的多组学 + 病理数据：5 个队列正是因为基因/蛋白/病理三者都有才被选中（UCEC 仅 n=122），现实中蛋白质组（RPPA）覆盖远不如转录组，缺模态时如何用是个现实瓶颈，本文未处理缺失模态（对比的 LD-CVAE/GHANet 才是做缺失的）。
蛋白身份嵌入质量受 LLM 描述支配：虽然实验显示对 LLM 选择鲁棒，但生成的"蛋白—形态"描述本身可能含幻觉或过时知识，缺乏对描述准确性的独立校验。⚠️ 蛋白集合规模（\(N_p\)）原文正文未明确给出，以补充材料为准。
RPPA 只覆盖有限的癌症相关蛋白和磷酸化蛋白，并非全蛋白组，"蛋白质组中间层"的覆盖是受限的；扩展到质谱全蛋白组后该层级假设是否仍稳健值得验证。
改进方向：把缺失模态补全（如 LD-CVAE 式生成）与本文层级融合结合；或把"基因→蛋白→形态"链条继续往上接到临床/影像组学，形成更长的层级级联。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次把蛋白质组作为中间层 + 用系统生物学级联指导融合架构，GRPF/PGHL 都有清晰生物动机。
实验充分度: ⭐⭐⭐⭐ 5 个 TCGA 队列、对比 15+ 方法、消融覆盖每个模块与编码器选型；但都是 TCGA 内部、队列偏小（UCEC n=122）。
写作质量: ⭐⭐⭐⭐⭐ 生物学动机—架构—公式一一对应，逻辑链顺畅好读。
价值: ⭐⭐⭐⭐ 为多组学生存预测提供了"按生物层级融合 + 引入蛋白层"的清晰范式，可解释性强，但落地受配对多组学数据可得性限制。